diff --git a/Conclusion/Bilan.md b/Conclusion/Bilan.md index 31eb87ab7323a255392b88dd3da395e4dd1a7016..b23b8bc338370dbb46cbfcd943c4d359236404bd 100644 --- a/Conclusion/Bilan.md +++ b/Conclusion/Bilan.md @@ -17,7 +17,7 @@ face à des contraintes difficiles à anticiper imposées par les données et le outils utilisés. Cela se manifeste par exemple dans la décision de croiser les sources de l'[@=ARTFL] et de l'[@=ENCCRE] pour associer un domaine de connaissance aux textes des articles, ou encore sur des modifications en cours -de projet de la structures des métadonnées — dont la clef primaire des textes +de projet de la structure des métadonnées — dont la clef primaire des textes (voir la section \ref{metadata_primary_key} page \pageref{metadata_primary_key} à ce sujet). L'ensemble de la chaîne de traitement repose donc sur la composition d'éléments individuellement simples plutôt que sur un bloc @@ -41,11 +41,11 @@ existants, et des scripts servent à mettre en forme les données, charger des librairies ou extraire leurs résultats. L'avantage majeur de la démarche suivie réside dans la modularité qu'elle offre: en séparant les différentes représentations des textes et les métadonnées qu'elle leur associe, elle permet -une grande liberté pour les combiner et formatter les données en vue de -nouvelles analyses, parfois propres seulement à un sous-corpus. Enfin, au niveau -des discours qui composent les articles, la spécificité de la méthode utilisée -se situe dans la mise en regard d'études quantitatives et qualitatives, là -encore en utilisant des logiciels répandus en analyse textuelle des données. +une grande liberté pour les combiner et formater les données en vue de nouvelles +analyses, parfois propres seulement à un sous-corpus. Enfin, au niveau des +discours qui composent les articles, la spécificité de la méthode utilisée se +situe dans la mise en regard d'études quantitatives et qualitatives, là encore +en utilisant des logiciels répandus en analyse textuelle des données. Dans l'ensemble, le code produit dans le cadre de cette thèse remplit donc essentiellement trois fonctions: il modélise la structure du corpus pour @@ -72,7 +72,8 @@ accès aux mêmes techniques de reproductibilité et ont déjà été portées s davantage de plateformes. En outre, ces technologies nouvelles permettent de générer des environnements sous de nombreux formats comme des archives portables ou des conteneurs qui peuvent être déployés sur la plupart des plateformes -existantes, sans que `guix` ou `nix` eux-même n'aient besoin d'y être installés. +existantes, sans que `guix` ou `nix` eux-mêmes n'aient besoin d'y être +installés. Enfin, les formats aussi suivent cette logique de réemploi et de modularité. Les représentations intermédiaires des textes utilisent des standards ouverts comme @@ -91,7 +92,7 @@ est disponible. ### Les facettes de la disciplinarisation {.unnumbered .unlisted} L'étude diachronique des changements survenus dans les discours géographiques -joue un double rôle dans ce manuscrit. Elle revet d'abord une valeur +joue un double rôle dans ce manuscrit. Elle revêt d'abord une valeur illustrative, essentielle pour montrer la pertinence des méthodes proposées. Cependant, elle possède également une valeur intrinsèque dans la perspective du projet GEODE qui s'intéresse aux changements subis par la Géographie dans les @@ -130,7 +131,7 @@ des articles du domaine dans l'*EDdA* étaient extrêmements brefs et constitué d'une longue phrase nominale. Cette tendance, propre au domaine, s'accroît dans *LGE*, où ces articles se font plus nombreux et où le recours presque systématique aux abréviations se double d'un «figement» des différents -compléments qui composent la phrase nominale, jusqu'à l'obtension de données +compléments qui composent la phrase nominale, jusqu'à l'obtention de données pour ainsi dire tabulaires. Par ailleurs, d'un domaine central et en quelque sorte «refuge» pour de nombreuses entrées peu scientifiques (mythologie et phénomènes naturels inexpliqués entre autres), les discours géographiques diff --git a/Conclusion/Ouverture.md b/Conclusion/Ouverture.md index 35077a253972c7b96fcc82bfa2f533df81a09ee0..c156a847342dd2719c142ec27d935cdf2a6c435f 100644 --- a/Conclusion/Ouverture.md +++ b/Conclusion/Ouverture.md @@ -47,11 +47,11 @@ capable de reconnaître ces fonctions. Des F-mesures légèrement supérieures avéré impossible d'améliorer ces scores, en particulier pour certaines classes restant à des valeurs nettement inférieures. Cet échec relatif amène plusieurs pistes de réflexion pour de futurs travaux. Un travail théorique plus poussé -permettrait de vérifier la pertinence des classes choisies ou au contraire de -les invalider. Il faudrait sans doute également s'assurer de la représentativité -des exemples annotés pour l'instant, ou tenter simplement de poursuivre -l'annotation en espérant atteindre un seuil qui permettrait des gains -significatifs grâce à la seule masse de données. +permettrait de vérifier la pertinence des classes choisies. Il faudrait sans +doute également s'assurer de la représentativité des exemples annotés pour +l'instant, ou tenter simplement de poursuivre l'annotation en espérant atteindre +un seuil qui permettrait des gains significatifs grâce à la seule masse de +données. Outre les besoins propres à cette étude pour l'instant mise en pause, d'autres améliorations de la qualité de l'encodage de *LGE* paraissent encore @@ -61,15 +61,15 @@ permettrait de les décrire. En effet celles-ci se composent souvent de plusieur mots, dont certains peuvent employer des minuscules ou des petites majuscules, jusqu'à pouvoir s'étendre sur plusieurs lignes alors que l'encodage actuel ne conserve que le premier mot en majuscules. Un travail similaire d'identification -des motifs présents en fin d'articles pourrait donner accès à une métadonnée +des motifs présents à la fin des articles pourrait donner accès à une métadonnée précieuse comme les auteurs des articles, souvent mentionnés et parfois différents d'une partie à l'autre d'un article (et qu'il pourrait donc être intéressant d'associer au niveau des paragraphes quand celui-ci sera disponible). Un tel effort devrait idéalement prendre aussi en compte -l'important travail de bibliographie réalisé dans *LGE*, pour pouvoir les -encoder correctement et les traiter séparemment. Il y a en effet peu d'intérêt à -annoter ce genre de contenu en syntaxe (ce qui est malheureusement fait dans -l'état actuel de la chaîne), alors qu'à l'inverse elle pourrait constituer des +l'important travail de bibliographie réalisé dans *LGE*, pour pouvoir encoder +ces contenus correctement et les traiter séparément. Il y a en effet peu +d'intérêt à les annoter en syntaxe (ce qui est malheureusement fait dans l'état +actuel de la chaîne), alors qu'à l'inverse ils pourraient constituer des métadonnées précieuses pour comprendre le paysage académique de référence de l'époque. Enfin, la résolution des renvois représente certainement le problème le plus délicat pour plusieurs raisons. L'imprécision de l'[@=OCR] d'abord rend