Skip to content
Snippets Groups Projects
Commit 69658be6 authored by Alice Brenon's avatar Alice Brenon
Browse files

Proofread the conclusion

parent 39bef38f
No related branches found
No related tags found
No related merge requests found
...@@ -17,7 +17,7 @@ face à des contraintes difficiles à anticiper imposées par les données et le ...@@ -17,7 +17,7 @@ face à des contraintes difficiles à anticiper imposées par les données et le
outils utilisés. Cela se manifeste par exemple dans la décision de croiser les outils utilisés. Cela se manifeste par exemple dans la décision de croiser les
sources de l'[@=ARTFL] et de l'[@=ENCCRE] pour associer un domaine de sources de l'[@=ARTFL] et de l'[@=ENCCRE] pour associer un domaine de
connaissance aux textes des articles, ou encore sur des modifications en cours connaissance aux textes des articles, ou encore sur des modifications en cours
de projet de la structures des métadonnées — dont la clef primaire des textes de projet de la structure des métadonnées — dont la clef primaire des textes
(voir la section \ref{metadata_primary_key} page \pageref{metadata_primary_key} (voir la section \ref{metadata_primary_key} page \pageref{metadata_primary_key}
à ce sujet). L'ensemble de la chaîne de traitement repose donc sur la à ce sujet). L'ensemble de la chaîne de traitement repose donc sur la
composition d'éléments individuellement simples plutôt que sur un bloc composition d'éléments individuellement simples plutôt que sur un bloc
...@@ -41,11 +41,11 @@ existants, et des scripts servent à mettre en forme les données, charger des ...@@ -41,11 +41,11 @@ existants, et des scripts servent à mettre en forme les données, charger des
librairies ou extraire leurs résultats. L'avantage majeur de la démarche suivie librairies ou extraire leurs résultats. L'avantage majeur de la démarche suivie
réside dans la modularité qu'elle offre: en séparant les différentes réside dans la modularité qu'elle offre: en séparant les différentes
représentations des textes et les métadonnées qu'elle leur associe, elle permet représentations des textes et les métadonnées qu'elle leur associe, elle permet
une grande liberté pour les combiner et formatter les données en vue de une grande liberté pour les combiner et formater les données en vue de nouvelles
nouvelles analyses, parfois propres seulement à un sous-corpus. Enfin, au niveau analyses, parfois propres seulement à un sous-corpus. Enfin, au niveau des
des discours qui composent les articles, la spécificité de la méthode utilisée discours qui composent les articles, la spécificité de la méthode utilisée se
se situe dans la mise en regard d'études quantitatives et qualitatives, là situe dans la mise en regard d'études quantitatives et qualitatives, là encore
encore en utilisant des logiciels répandus en analyse textuelle des données. en utilisant des logiciels répandus en analyse textuelle des données.
Dans l'ensemble, le code produit dans le cadre de cette thèse remplit donc Dans l'ensemble, le code produit dans le cadre de cette thèse remplit donc
essentiellement trois fonctions: il modélise la structure du corpus pour essentiellement trois fonctions: il modélise la structure du corpus pour
...@@ -72,7 +72,8 @@ accès aux mêmes techniques de reproductibilité et ont déjà été portées s ...@@ -72,7 +72,8 @@ accès aux mêmes techniques de reproductibilité et ont déjà été portées s
davantage de plateformes. En outre, ces technologies nouvelles permettent de davantage de plateformes. En outre, ces technologies nouvelles permettent de
générer des environnements sous de nombreux formats comme des archives portables générer des environnements sous de nombreux formats comme des archives portables
ou des conteneurs qui peuvent être déployés sur la plupart des plateformes ou des conteneurs qui peuvent être déployés sur la plupart des plateformes
existantes, sans que `guix` ou `nix` eux-même n'aient besoin d'y être installés. existantes, sans que `guix` ou `nix` eux-mêmes n'aient besoin d'y être
installés.
Enfin, les formats aussi suivent cette logique de réemploi et de modularité. Les Enfin, les formats aussi suivent cette logique de réemploi et de modularité. Les
représentations intermédiaires des textes utilisent des standards ouverts comme représentations intermédiaires des textes utilisent des standards ouverts comme
...@@ -91,7 +92,7 @@ est disponible. ...@@ -91,7 +92,7 @@ est disponible.
### Les facettes de la disciplinarisation {.unnumbered .unlisted} ### Les facettes de la disciplinarisation {.unnumbered .unlisted}
L'étude diachronique des changements survenus dans les discours géographiques L'étude diachronique des changements survenus dans les discours géographiques
joue un double rôle dans ce manuscrit. Elle revet d'abord une valeur joue un double rôle dans ce manuscrit. Elle revêt d'abord une valeur
illustrative, essentielle pour montrer la pertinence des méthodes proposées. illustrative, essentielle pour montrer la pertinence des méthodes proposées.
Cependant, elle possède également une valeur intrinsèque dans la perspective du Cependant, elle possède également une valeur intrinsèque dans la perspective du
projet GEODE qui s'intéresse aux changements subis par la Géographie dans les projet GEODE qui s'intéresse aux changements subis par la Géographie dans les
...@@ -130,7 +131,7 @@ des articles du domaine dans l'*EDdA* étaient extrêmements brefs et constitué ...@@ -130,7 +131,7 @@ des articles du domaine dans l'*EDdA* étaient extrêmements brefs et constitué
d'une longue phrase nominale. Cette tendance, propre au domaine, s'accroît dans d'une longue phrase nominale. Cette tendance, propre au domaine, s'accroît dans
*LGE*, où ces articles se font plus nombreux et où le recours presque *LGE*, où ces articles se font plus nombreux et où le recours presque
systématique aux abréviations se double d'un «figement» des différents systématique aux abréviations se double d'un «figement» des différents
compléments qui composent la phrase nominale, jusqu'à l'obtension de données compléments qui composent la phrase nominale, jusqu'à l'obtention de données
pour ainsi dire tabulaires. Par ailleurs, d'un domaine central et en quelque pour ainsi dire tabulaires. Par ailleurs, d'un domaine central et en quelque
sorte «refuge» pour de nombreuses entrées peu scientifiques (mythologie et sorte «refuge» pour de nombreuses entrées peu scientifiques (mythologie et
phénomènes naturels inexpliqués entre autres), les discours géographiques phénomènes naturels inexpliqués entre autres), les discours géographiques
......
...@@ -47,11 +47,11 @@ capable de reconnaître ces fonctions. Des F-mesures légèrement supérieures ...@@ -47,11 +47,11 @@ capable de reconnaître ces fonctions. Des F-mesures légèrement supérieures
avéré impossible d'améliorer ces scores, en particulier pour certaines classes avéré impossible d'améliorer ces scores, en particulier pour certaines classes
restant à des valeurs nettement inférieures. Cet échec relatif amène plusieurs restant à des valeurs nettement inférieures. Cet échec relatif amène plusieurs
pistes de réflexion pour de futurs travaux. Un travail théorique plus poussé pistes de réflexion pour de futurs travaux. Un travail théorique plus poussé
permettrait de vérifier la pertinence des classes choisies ou au contraire de permettrait de vérifier la pertinence des classes choisies. Il faudrait sans
les invalider. Il faudrait sans doute également s'assurer de la représentativité doute également s'assurer de la représentativité des exemples annotés pour
des exemples annotés pour l'instant, ou tenter simplement de poursuivre l'instant, ou tenter simplement de poursuivre l'annotation en espérant atteindre
l'annotation en espérant atteindre un seuil qui permettrait des gains un seuil qui permettrait des gains significatifs grâce à la seule masse de
significatifs grâce à la seule masse de données. données.
Outre les besoins propres à cette étude pour l'instant mise en pause, d'autres Outre les besoins propres à cette étude pour l'instant mise en pause, d'autres
améliorations de la qualité de l'encodage de *LGE* paraissent encore améliorations de la qualité de l'encodage de *LGE* paraissent encore
...@@ -61,15 +61,15 @@ permettrait de les décrire. En effet celles-ci se composent souvent de plusieur ...@@ -61,15 +61,15 @@ permettrait de les décrire. En effet celles-ci se composent souvent de plusieur
mots, dont certains peuvent employer des minuscules ou des petites majuscules, mots, dont certains peuvent employer des minuscules ou des petites majuscules,
jusqu'à pouvoir s'étendre sur plusieurs lignes alors que l'encodage actuel ne jusqu'à pouvoir s'étendre sur plusieurs lignes alors que l'encodage actuel ne
conserve que le premier mot en majuscules. Un travail similaire d'identification conserve que le premier mot en majuscules. Un travail similaire d'identification
des motifs présents en fin d'articles pourrait donner accès à une métadonnée des motifs présents à la fin des articles pourrait donner accès à une métadonnée
précieuse comme les auteurs des articles, souvent mentionnés et parfois précieuse comme les auteurs des articles, souvent mentionnés et parfois
différents d'une partie à l'autre d'un article (et qu'il pourrait donc être différents d'une partie à l'autre d'un article (et qu'il pourrait donc être
intéressant d'associer au niveau des paragraphes quand celui-ci sera intéressant d'associer au niveau des paragraphes quand celui-ci sera
disponible). Un tel effort devrait idéalement prendre aussi en compte disponible). Un tel effort devrait idéalement prendre aussi en compte
l'important travail de bibliographie réalisé dans *LGE*, pour pouvoir les l'important travail de bibliographie réalisé dans *LGE*, pour pouvoir encoder
encoder correctement et les traiter séparemment. Il y a en effet peu d'intérêt à ces contenus correctement et les traiter séparément. Il y a en effet peu
annoter ce genre de contenu en syntaxe (ce qui est malheureusement fait dans d'intérêt à les annoter en syntaxe (ce qui est malheureusement fait dans l'état
l'état actuel de la chaîne), alors qu'à l'inverse elle pourrait constituer des actuel de la chaîne), alors qu'à l'inverse ils pourraient constituer des
métadonnées précieuses pour comprendre le paysage académique de référence de métadonnées précieuses pour comprendre le paysage académique de référence de
l'époque. Enfin, la résolution des renvois représente certainement le problème l'époque. Enfin, la résolution des renvois représente certainement le problème
le plus délicat pour plusieurs raisons. L'imprécision de l'[@=OCR] d'abord rend le plus délicat pour plusieurs raisons. L'imprécision de l'[@=OCR] d'abord rend
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment