Skip to content
Snippets Groups Projects
Commit 69658be6 authored by Alice Brenon's avatar Alice Brenon
Browse files

Proofread the conclusion

parent 39bef38f
No related branches found
No related tags found
No related merge requests found
......@@ -17,7 +17,7 @@ face à des contraintes difficiles à anticiper imposées par les données et le
outils utilisés. Cela se manifeste par exemple dans la décision de croiser les
sources de l'[@=ARTFL] et de l'[@=ENCCRE] pour associer un domaine de
connaissance aux textes des articles, ou encore sur des modifications en cours
de projet de la structures des métadonnées — dont la clef primaire des textes
de projet de la structure des métadonnées — dont la clef primaire des textes
(voir la section \ref{metadata_primary_key} page \pageref{metadata_primary_key}
à ce sujet). L'ensemble de la chaîne de traitement repose donc sur la
composition d'éléments individuellement simples plutôt que sur un bloc
......@@ -41,11 +41,11 @@ existants, et des scripts servent à mettre en forme les données, charger des
librairies ou extraire leurs résultats. L'avantage majeur de la démarche suivie
réside dans la modularité qu'elle offre: en séparant les différentes
représentations des textes et les métadonnées qu'elle leur associe, elle permet
une grande liberté pour les combiner et formatter les données en vue de
nouvelles analyses, parfois propres seulement à un sous-corpus. Enfin, au niveau
des discours qui composent les articles, la spécificité de la méthode utilisée
se situe dans la mise en regard d'études quantitatives et qualitatives, là
encore en utilisant des logiciels répandus en analyse textuelle des données.
une grande liberté pour les combiner et formater les données en vue de nouvelles
analyses, parfois propres seulement à un sous-corpus. Enfin, au niveau des
discours qui composent les articles, la spécificité de la méthode utilisée se
situe dans la mise en regard d'études quantitatives et qualitatives, là encore
en utilisant des logiciels répandus en analyse textuelle des données.
Dans l'ensemble, le code produit dans le cadre de cette thèse remplit donc
essentiellement trois fonctions: il modélise la structure du corpus pour
......@@ -72,7 +72,8 @@ accès aux mêmes techniques de reproductibilité et ont déjà été portées s
davantage de plateformes. En outre, ces technologies nouvelles permettent de
générer des environnements sous de nombreux formats comme des archives portables
ou des conteneurs qui peuvent être déployés sur la plupart des plateformes
existantes, sans que `guix` ou `nix` eux-même n'aient besoin d'y être installés.
existantes, sans que `guix` ou `nix` eux-mêmes n'aient besoin d'y être
installés.
Enfin, les formats aussi suivent cette logique de réemploi et de modularité. Les
représentations intermédiaires des textes utilisent des standards ouverts comme
......@@ -91,7 +92,7 @@ est disponible.
### Les facettes de la disciplinarisation {.unnumbered .unlisted}
L'étude diachronique des changements survenus dans les discours géographiques
joue un double rôle dans ce manuscrit. Elle revet d'abord une valeur
joue un double rôle dans ce manuscrit. Elle revêt d'abord une valeur
illustrative, essentielle pour montrer la pertinence des méthodes proposées.
Cependant, elle possède également une valeur intrinsèque dans la perspective du
projet GEODE qui s'intéresse aux changements subis par la Géographie dans les
......@@ -130,7 +131,7 @@ des articles du domaine dans l'*EDdA* étaient extrêmements brefs et constitué
d'une longue phrase nominale. Cette tendance, propre au domaine, s'accroît dans
*LGE*, où ces articles se font plus nombreux et où le recours presque
systématique aux abréviations se double d'un «figement» des différents
compléments qui composent la phrase nominale, jusqu'à l'obtension de données
compléments qui composent la phrase nominale, jusqu'à l'obtention de données
pour ainsi dire tabulaires. Par ailleurs, d'un domaine central et en quelque
sorte «refuge» pour de nombreuses entrées peu scientifiques (mythologie et
phénomènes naturels inexpliqués entre autres), les discours géographiques
......
......@@ -47,11 +47,11 @@ capable de reconnaître ces fonctions. Des F-mesures légèrement supérieures
avéré impossible d'améliorer ces scores, en particulier pour certaines classes
restant à des valeurs nettement inférieures. Cet échec relatif amène plusieurs
pistes de réflexion pour de futurs travaux. Un travail théorique plus poussé
permettrait de vérifier la pertinence des classes choisies ou au contraire de
les invalider. Il faudrait sans doute également s'assurer de la représentativité
des exemples annotés pour l'instant, ou tenter simplement de poursuivre
l'annotation en espérant atteindre un seuil qui permettrait des gains
significatifs grâce à la seule masse de données.
permettrait de vérifier la pertinence des classes choisies. Il faudrait sans
doute également s'assurer de la représentativité des exemples annotés pour
l'instant, ou tenter simplement de poursuivre l'annotation en espérant atteindre
un seuil qui permettrait des gains significatifs grâce à la seule masse de
données.
Outre les besoins propres à cette étude pour l'instant mise en pause, d'autres
améliorations de la qualité de l'encodage de *LGE* paraissent encore
......@@ -61,15 +61,15 @@ permettrait de les décrire. En effet celles-ci se composent souvent de plusieur
mots, dont certains peuvent employer des minuscules ou des petites majuscules,
jusqu'à pouvoir s'étendre sur plusieurs lignes alors que l'encodage actuel ne
conserve que le premier mot en majuscules. Un travail similaire d'identification
des motifs présents en fin d'articles pourrait donner accès à une métadonnée
des motifs présents à la fin des articles pourrait donner accès à une métadonnée
précieuse comme les auteurs des articles, souvent mentionnés et parfois
différents d'une partie à l'autre d'un article (et qu'il pourrait donc être
intéressant d'associer au niveau des paragraphes quand celui-ci sera
disponible). Un tel effort devrait idéalement prendre aussi en compte
l'important travail de bibliographie réalisé dans *LGE*, pour pouvoir les
encoder correctement et les traiter séparemment. Il y a en effet peu d'intérêt à
annoter ce genre de contenu en syntaxe (ce qui est malheureusement fait dans
l'état actuel de la chaîne), alors qu'à l'inverse elle pourrait constituer des
l'important travail de bibliographie réalisé dans *LGE*, pour pouvoir encoder
ces contenus correctement et les traiter séparément. Il y a en effet peu
d'intérêt à les annoter en syntaxe (ce qui est malheureusement fait dans l'état
actuel de la chaîne), alors qu'à l'inverse ils pourraient constituer des
métadonnées précieuses pour comprendre le paysage académique de référence de
l'époque. Enfin, la résolution des renvois représente certainement le problème
le plus délicat pour plusieurs raisons. L'imprécision de l'[@=OCR] d'abord rend
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment