Merge branch 'main' into draft

a3152f8c · Alice Brenon · e65656ba · 4e78cc1d · a3152f8c · a3152f8c
Commit a3152f8c authored 4 months ago by Alice Brenon
--- a/Classification/Application.md
+++ b/Classification/Application.md
-## Application au corpus d'étude {#sec:classification_application}
+## Annotation des articles {#sec:classification_application}

 ### Classification non supervisée

 En complément des méthodes de classification supervisées, des tentatives ont été
-faites pour utiliser de l'apprentissage supervisé, permettant d'étudier
+faites pour utiliser de l'apprentissage non supervisé, permettant d'étudier
 autrement les relations entre les contenus des articles, les systèmes de
 classification et les prédictions générées automatiquement. Des techniques de
 *clustering* ont ainsi été employées pour grouper automatiquement les articles
@@ -383,9 +383,10 @@ raisons qui ont orienté le choix du modèle mais les occurrences répétées de
 «Com.» pouvant évoquer un désignant mal filtré dans ces articles incorrectement
 classés en *Commerce* sont pour le moins troublantes. Il n'est pas facile non
 plus de tester cette hypothèse en contrôlant la lemmatisation de cette
-abréviation puisque *BERT* attend en entrée le texte de l'article. L'opération
-de lemmatisation, si elle a lieu, se produit au fil des couches de neurones
-artificiels.
+abréviation puisque *BERT* attend en entrée le texte de l'article. Il ne procède
+pas à un découpage en mots en interne (il n'y a donc pas de lemmatisation) mais
+se contente de grouper des graphèmes qui apparaissent fréquemment ensemble
+(algorithme WordPiece).

 De manière pragmatique, la solution la plus immédiate pour corriger le problème
 au vu de la régularité de ces articles relativement brefs et possédant le motif

--- a/Classification/Models.md
+++ b/Classification/Models.md
@@ -403,13 +403,10 @@ TF-IDF* (1), *BiLSTM + FastText* (2) et *BERT* Multilingue (3).

 Au-delà de l'importance du nombre d'articles par classes, ces résultats
 soulignent la difficulté à distinguer entre certaines classes pour des raisons
-lexicales ou sémantiques. Cela se voit clairement sur les figures
-\ref{fig:F1Scores_BERTvsCAMEMBERT} à \ref{fig:res_per_class} pour la classe
-*Arts et métiers*. Ce domaine est relativement maltraité par toutes les
-méthodes, par comparaison avec d'autres classes ayant un nombre comparable
-d'articles. Il est vraisemblable que ce domaine est souvent confondu avec la
-classe *Métiers* qui est parmi les domaines les mieux représentés. Cette
-hypothèse semble confirmée par la matrice de confusion de la figure
+lexicales ou sémantiques comme cela était le cas pour *Arts et métiers* avec
+*Métiers*. Ce domaine, parmi les mieux représentés, semble attirer à lui des
+articles de nombreuses classes moins fréquentes mais proches sémantiquement.
+Cette hypothèse semble confirmée par la matrice de confusion de la figure
 \ref{fig:confusion_matrix}.

 ![Matrice de confusion matrix pour la combinaison *SGD+TF-IDF* sur le jeu de test.](figure/classification/SGD+TF-IDF_domainGroup/confusionMatrix.png){#fig:confusion_matrix width=63%}

--- a/Classification/Relations.md
+++ b/Classification/Relations.md
@@ -6,22 +6,18 @@ section s'intéresse au contraire aux erreurs qui subsistent dans leurs
 prédictions. Faisant en effet l'hypothèse que les erreurs commises par le modèle
 reflètent dans une certaine mesure les proximités qui existent entre les
 domaines de connaissance elle se propose ainsi de comprendre les relations qui
-lient la *Géographie* et les autres domaines de connaissance.
-
-Comme pour la section précédente, le jeu d'étiquettes utilisé pour représenter
-les domaines de connaissance dans cette section est celui des 38 *domaines
-regroupés* (voir la section \ref{sec:domains_build_classes}
-p.\pageref{sec:domain_groups}). En ce qui concerne le modèle dont les erreurs
-seront étudiées, deux tendances gouvernent le choix. Il faut qu'elles soient
-assez nombreuses pour fournir matière à observation et donc ne pas prendre le
-meilleur, mais à l'inverse il est vraisemblable que les prédictions d'un
-classifieur obtenant de trop mauvais résultats recèlent davantage de bruit que
-de vérités profondes sur les contenus des articles. Pour ces deux raisons, c'est
-le modèle *SGD+TF-IDF* entraîné sur tous les articles disponibles (colonne n°3
-du tableau \ref{tab:result_1} p.\pageref{tab:result_1}) qui a été retenu pour
-cette étude et sera utilisé tout au long de cette section. Ce modèle parvient à
-classer correctement 9 630 des 11 702 articles, soit 82%. Ce sont les 2 072
-autres, les erreurs, qui intéressent cette étude.
+lient la *Géographie* aux autres domaines de connaissance.
+
+Deux tendances gouvernent le choix d'un modèle dont étudier les erreurs. Il faut
+qu'elles soient assez nombreuses pour fournir matière à observation et donc ne
+pas prendre le meilleur, mais à l'inverse il est vraisemblable que les
+prédictions d'un classifieur obtenant de trop mauvais résultats recèlent
+davantage de bruit que de vérités profondes sur les contenus des articles. Pour
+ces deux raisons, c'est le modèle *SGD+TF-IDF* entraîné sur tous les articles
+disponibles (colonne n°3 du tableau \ref{tab:result_1} p.\pageref{tab:result_1})
+qui a été retenu pour cette étude et sera utilisé tout au long de cette section.
+Ce modèle parvient à classer correctement 9 630 des 11 702 articles, soit 82%.
+Ce sont les 2 072 autres, les erreurs, qui intéressent cette étude.

 ### Des erreurs éloquentes {#sec:model_errors}

@@ -105,12 +101,7 @@ unique et «correcte» pour un article donné.
 Un point de départ simple pour cette étude consiste à étudier les faux négatifs
 et les faux positifs des articles de *Géographie*. Sur les 2 621 articles de
 cette classe présents dans le jeu de test, 191 ont été mal classés par le
-modèle. Dans le formalisme introduit au début de cette partie, une «erreur de
-classification» signifie que le modèle n'a pas réussi à prédire le *domaine
-regroupé* obtenu à l'issue de la conversion depuis l'*ensemble de domaines*
-associé à un article donné par l'[@=ENCCRE], soit après normalisation des
-désignants présents dans l'article (1^ère^ source) soit en fonction de son
-propre travail éditorial (2^ème^ source).
+modèle.

 ##### Faux négatifs


--- a/Conclusion/Bilan.md
+++ b/Conclusion/Bilan.md
@@ -24,9 +24,9 @@ autres domaines de connaissance dans la partie du corpus correspondant à *LGE*
 p.\pageref{sec:geography_edge_words_count}). Des articles plus longs
 apparaissent dans le domaine, particulièrement bref par contraste dans l'*EDdA*.
 Une autre conséquence de ces rapprochements peut s'observer en considérant les
-occurrences d'EN comme le fait la section \ref{sec:geo_named_entities}
+occurrences d'[@=EN] comme le fait la section \ref{sec:geo_named_entities}
 (p.\pageref{sec:geo_named_entities}). Alors que les philosophes des Lumières
-emploient surtout les EN dans les articles de la classe *Géographie*, le profil
+emploient surtout les [@=EN] dans les articles de la classe *Géographie*, le profil
 d'utilisation des différents types relevés dans l'annotation géo-sémantique des
 articles s'harmonise entre les disciplines. Les noms propres de lieu en
 particulier (NP-Spatial) se propagent dans une certaine mesure aux autres

--- a/Contrastes/Contours.md
+++ b/Contrastes/Contours.md
@@ -327,7 +327,7 @@ corrobore également l'hypothèse de sa disciplinarisation.

 Intuitivement, la Géographie en tant que science descriptive de l'espace
 terrestre renvoie à la notion de lieu et en particulier de lieu nommé. Le
-concept d'Entité Nommée (EN) paraît donc un angle d'approche tout à fait
+concept d'Entité Nommée ([@=EN]) paraît donc un angle d'approche tout à fait
 approprié pour étudier les articles encyclopédiques du corpus et on peut faire
 l'hypothèse que ces entités seront particulièrement présentes dans les articles
 de *Géographie*.
@@ -353,10 +353,10 @@ de l'ambiguïté des prépositions et du vocabulaire dans de nombreux
 langages — illustrée par exemple pour l'anglais par
 @kordjamshidi_spatial_2010[p.3].

-Mais les discours géographiques, au-delà de leur densité en EN, présentent aussi
-un intérêt dans la manière dont ils les mettent en relation ainsi que dans le
-vocabulaire qu'ils utilisent pour les catégoriser. On peut ainsi penser, dans le
-contexte précis de ce corpus d'étude à la différence significative entre des
+Mais les discours géographiques, au-delà de leur densité en [@=EN], présentent
+aussi un intérêt dans la manière dont ils les mettent en relation ainsi que dans
+le vocabulaire qu'ils utilisent pour les catégoriser. On peut ainsi penser, dans
+le contexte précis de ce corpus d'étude à la différence significative entre des
 termes comme «paroisse» et «commune». C'est pourquoi une annotation
 géo-sémantique riche a été retenue plutôt qu'une annotation en entités nommées
 classiques pour examiner l’hypothèse formulée au début de cette sous-section. Le
@@ -420,7 +420,7 @@ donc leurs sommes pondérées, c'est-à-dire en fait les décomptes d'entités d
 type donné dans toute l'*EDdA*, divisés par le nombre de mots de cette
 encyclopédie.

-![Densité d'entités dans l'*EDdA* par domaine et par type](figure/entities/EDdA_density.png){#fig:ene_edda width=70%}
+![Densité d'entités dans l'*EDdA* par domaine et par type](figure/entities/EDdA_density.png){#fig:ene_edda width=90%}

 Les sommes horizontales s'effectuent au contraire sans problème, mais il faut
 garder à l'esprit qu'elles représentent un nombre d'entités et pas un nombre de
@@ -473,12 +473,12 @@ Les autres types d'entités particulières, celles de personnes, présentent une
 distribution beaucoup plus homogène entre les domaines. Les `NC-Person` sont
 ainsi bien plus uniformément réparties que les `NC-Spatial`, et les `NP-Person`
 atteignent une densité proche de 2%, son maximum, dans trois domaines. Il est à
-noter que ce dernier type d'EN est bien représenté en *Géographie*, où il très
-légèrement plus fréquent qu'en *Histoire* alors que les EN de type *NP-Spatial*
-étaient bien moins fréquents en *Histoire* qu'en *Géographie*. Les entités de
-personnes n'apparaissent donc pas comme caractéristiques d'un domaine en
-particulier mais s'observent avec des combinaisons de densités variées entre les
-`NC-Person`, `NP-Person` et `ENE-Person` en fonction des domaines.
+noter que ce dernier type d'[@=EN] est bien représenté en *Géographie*, où il
+très légèrement plus fréquent qu'en *Histoire* alors que les [@=EN] de type
+*NP-Spatial* étaient bien moins fréquents en *Histoire* qu'en *Géographie*. Les
+entités de personnes n'apparaissent donc pas comme caractéristiques d'un domaine
+en particulier mais s'observent avec des combinaisons de densités variées entre
+les `NC-Person`, `NP-Person` et `ENE-Person` en fonction des domaines.

 La figure \ref{fig:ene_lge} qui montre les mêmes statistiques mais pour *LGE*
 offre un aspect tout à fait différent. La *Géographie* y conserve la place de
@@ -502,7 +502,7 @@ la totalité de *LGE*, soit environ deux fois et demie plus que dans l'*EDdA*. L
 densité totale d'entités dans cette encyclopédie s'est beaucoup accrue,
 atteignant 7.5% soit plus d'une fois et demie celle dans les pages de l'*EDdA*.

-![Densité des ENE dans *LGE* par domaine et par type d'ENE](figure/entities/LGE_density.png){#fig:ene_lge width=70%}
+![Densité des ENE dans *LGE* par domaine et par type d'ENE](figure/entities/LGE_density.png){#fig:ene_lge width=90%}

 Il y a donc dans ces encyclopédies deux mouvements simultanés et contraires au
 niveau des entités entre le XVIII^ème^ et le XIX^ème^ siècle. D'une part les

--- a/Contrastes/Introduction.md
+++ b/Contrastes/Introduction.md
-Ce dernier chapitre qui s'ouvre permet l'aboutissement des efforts déployés dans
-les deux précédents en développant des études contrastives en diachronie entre
-l'*EDdA* et *LGE*. Le chapitre \ref{sec:corpus} fournit un corpus structuré et
-développe la notion de domaine de connaissance, centrale pour la classification
-qui est appliquée aux articles au chapitre \ref{sec:domains_classification}.
+Ce dernier chapitre qui s'ouvre constitue une mise en pratique des données
+préparés dans le cadre de cette thèse. Le chapitre \ref{sec:corpus} fournit en
+effet un corpus structuré et développe la notion de domaine de connaissance,
+centrale pour la classification qui est appliquée aux articles au chapitre
+\ref{sec:domains_classification}. Les analyses contrastives en diachronie
+conduites dans le présent chapitre entre l'*EDdA* et *LGE* permettent de
+démontrer l'utilité et la pertinence des efforts déployés dans les deux
+précédents.
+
 Tout en gardant bien à l'esprit les réserves émises à l'Introduction sur la
 différence entre d'une part la Géographie en tant que discipline et d'autre part
 les discours qui peuvent relever de la géographie (voir \ref{sec:intro_strategy}

--- a/Glossaire/ARTFL.md
+++ b/Glossaire/ARTFL.md
@@ -2,4 +2,4 @@ l'American and French Research on the Treasury of the French Language
 («Recherche américaine et française sur les trésors de la langue française») est
 une collaboration du laboratoire ATILF, du CNRS et de l'Université de Chicago.
 Le projet donne accès à un vaste corpus de textes anciens en français.
-[https://artfl-project.uchicago.edu/](https://artfl-project.uchicago.edu/)
+[https://artfl-project.uchicago.edu/](https://artfl-project.uchicago.edu/).
--- a/Glossaire/EN.md
+++ b/Glossaire/EN.md
+*Entité Nommée* (*Named Entity* en anglais) désigne une unité d'information dans
+un texte, souvent un mot ou un groupe de quelques mots qui renvoient à un objet
+unique dans le contexte. Plus large que la notion de nom propre, il englobe par
+exemple les noms de personne, d'organisation ou d'endroit, les dates ou les
+grandeurs pourvues d'une unité.
--- a/Glossaire/ENE.md
+++ b/Glossaire/ENE.md
 *Entité Nommée Étendue* désigne un groupe de mots structuré en une construction
-qui dépasse le cadre des entités nommées (EN) pour inclure les éléments présents
-autour: principalement des noms communs et des relations. Les ENE se bâtissent
+qui dépasse le cadre des [@=EN] pour inclure les éléments présents autour:
+principalement des noms communs et des relations. Les ENE se bâtissent
 récursivement, pouvant inclure d'autres ENE, pour constituer de petits arbres
 autours des entités nommées.

@@ -9,10 +9,10 @@ lieu, constituée d'un nom commun de lieu qui lui donne son type (c'est un
 kiosque), d'une relation spatiale «dans» (traduisant l'inclusion), et d'une ENE:
 «le parc Sainte-Marie». À son tour, celle-ci se décompose en un nom commun de
 lieu (c'est un parc), et un nom propre, «Sainte-Marie», qui sans l'apport des
-ENE aurait probablement été la seule EN simple retenue pour toute l'expression.
-Il est intéressant de voir que le nom propre apporte pourtant peu d'information
-en lui-même, et qu'il n'est possible de percevoir sa dimension spatiale qu'avec
-l'ajout du nom commun «parc» (il existe peut-être par exemple une «communauté
-Sainte-Marie» qui pourrait être une organisation et pas un lieu) ce qui souligne
-l'utilité des ENE pour la désambiguïsation et les tâches de compréhension
-automatique.
+ENE aurait probablement été la seule [@=EN] simple retenue pour toute
+l'expression. Il est intéressant de voir que le nom propre apporte pourtant peu
+d'information en lui-même, et qu'il n'est possible de percevoir sa dimension
+spatiale qu'avec l'ajout du nom commun «parc» (il existe peut-être par exemple
+une «communauté Sainte-Marie» qui pourrait être une organisation et pas un lieu)
+ce qui souligne l'utilité des ENE pour la désambiguïsation et les tâches de
+compréhension automatique.
--- a/Glossaire/LDA.md
+++ b/Glossaire/LDA.md
 *Latent Dirichlet Allocation*, procédé de réduction de dimension permettant de
 mettre en évidence des classes de ressemblances présentes dans les données
-d'entrée. C'est une technique de [@=Topic Modeling]
+d'entrée. C'est une technique de [@=Topic Modeling].
--- a/Glossaire/UD.md
+++ b/Glossaire/UD.md
 *Universal Dependencies*, sont une convention d'annotation grammaticale
-comprenant des jeux d'étiquettes à plusieurs niveaux (morphosyntaxe,
-morphologie et syntaxe en dépendance) conçu pour être commun à un grand nombre
-des langues humaines les plus étudiées, ce qui permet notamment de pouvoir
-travailler sur des corpus multilingues.
-[https://universaldependencies.org/](https://universaldependencies.org/)
+comprenant des jeux d'étiquettes à plusieurs niveaux (morphosyntaxe, morphologie
+et syntaxe en dépendance) conçu pour être commun à un grand nombre des langues
+humaines les plus étudiées, ce qui permet notamment de pouvoir travailler sur
+des corpus multilingues
+([https://universaldependencies.org/](https://universaldependencies.org/)).
--- a/Introduction/Cadre.md
+++ b/Introduction/Cadre.md
@@ -85,9 +85,9 @@ de la «mappemonde» que constitue le «Systême Figuré des connoissances humai
 un «arbre encyclopédique» matérialisé sous forme d'une gravure au tome 1^er^
 dans le but de montrer une vue d'ensemble des liens entre sciences.

-\label{geo_nations}La relation entre Géographie et encyclopédies sur laquelle
-s'ouvrait cette section est donc en réalité à double-sens: à la Géographie comme
-science encyclopédique, nourrie de toutes les autres, s'ajoute la pratique
+\label{geo_nations}La relation entre Géographie et encyclopédies à l'origine de
+cette réflexion est donc en réalité à double-sens: à la Géographie comme science
+encyclopédique, nourrie de toutes les autres, s'ajoute la pratique
 encyclopédique comme une «géographie des sciences» dont elle révèle le paysage.
 Cependant, au-delà de cette relation, la Géographie est soumise aux XVIII^ème^
 et XIX^ème^ siècles à des forces transformatrices profondes.

--- a/Introduction/Enjeu.md
+++ b/Introduction/Enjeu.md
 ## Réflexions prospectives {#sec:intro_forethoughts}

-### Stratégie {#sec:intro_strategy .unnumbered .unlisted}
-
-La problématique dégagée dans la section précédente invite à adopter une
-démarche contrastive, selon deux axes. Le premier, temporel, est celui de la
-diachronie puisqu'il s'agit de comparer les discours du genre encyclopédique à
+### Problématique {#sec:intro_issue .unnumbered .unlisted}
+
+Le lien privilégié qui unit les encyclopédies à la Géographie amène à
+s'interroger sur les effets qu'ont pu avoir dans ce type d'ouvrages les
+changements subis par la discipline après le siècle des Lumières. Puisqu'il y a
+lieu de faire l'hypothèse que ces mutations ont eu des conséquences sur la
+manière dont on écrit la Géographie, il faut se donner les moyens d'observer
+leurs effets, ce qui constitue l'enjeu principal de cette thèse.
+
+La question que soulève immédiatement une telle problématique concerne donc les
+moyens d'accéder aux discours géographiques présents dans les encyclopédies du
+corpus. De nombreux projets en [@=HN] ont déjà développé des outils pour traiter
+des textes antérieurs au XX^ème^ siècle; d'autres s'intéressent à l'importance
+d'un ensemble d'articles pour une discipline en particulier mais sans intégrer
+d'analyse de discours et sans les opposer aux autres sciences. Ici, l'objectif
+est à la fois de pouvoir traiter les textes des encyclopédies dans leur ensemble
+à l'aide de méthodes automatiques et, simultanément, d'être à tout moment
+capable de restreindre l'étude à des sous-corpus pertinents ou d'adopter une
+démarche contrastive, principalement selon deux axes. Le premier, celui du champ
+disciplinaire, repose sur la possibilité d'identifier des discours géographiques
+par opposition à d'autres qui ne relèveraient pas du même domaine. Le deuxième
+axe est temporel puisqu'il faut comparer les discours du genre encyclopédique à
 deux époques: le XVIII^ème^ d'une part et le tournant des XIX^ème^ et XX^ème^
-siècles d'autre part. Le deuxième axe utilisé pour faire contraster les textes du
-corpus, celui du champ disciplinaire, repose sur la possibilité d'identifier des
-discours géographiques par opposition à d'autres qui ne relèveraient pas de la
-discipline.
-
-La «cartographie» des sciences entreprise par les encyclopédistes se matérialise
-par la répartition des articles entre les différentes sciences en fonction des
-concepts dont ils traitent. Très simplement, la stratégie qui forme la ligne
-directrice de cette thèse va donc consister à partitionner les articles
-d'encyclopédie du corpus suivant l'œuvre dont ils sont issus pour la première
-dimension et suivant le domaine de connaissance dont ils relèvent pour la
-deuxième. Mais il est une évidence apparente qui doit être critiquée sous peine
-de fragiliser la démarche dans son ensemble: celle de l'identification implicite
-entre d'une part la discipline "géographie" et d'autre part l'ensemble des
-articles assignés à cette discipline par le choix éditorial des encyclopédistes.
-Si la première peut être initialement définie en tant qu'un ensemble vivant de
-pratiques et de savoirs, elle renvoie intuitivement à une notion plus vaste et
-plus immatérielle. Au contraire la seconde, purement arbitraire, n'a d'existence
-que concrète et contingente au travers des articles qui la constituent. Ces
-articles ne sont que l'echo de la discipline, arrivant nécessairement en retard
-par rapport à ses progrès: ils sont écrits après réverberation dans un ou
-plusieurs des dictionnaires universels dans lesquels les encyclopédistes ont
-puisé leurs sources, parfois d'après des récits de voyages passés. Une
-expression du XVIII^ème^ siècle illustre parfaitement cette source
-d'information: «terme de relation» [@quemada_dictionnaires_1968, p.309], qui
-qualifie certaines entrées dans l'*EDdA* et sous-entend le mot «voyage». Il
-s'agit en effet du vocabulaire fréquemment utilisé lorsqu'un texte relate un
-voyage, le plus souvent une francisation d'un mot de la langue parlée dans le
-pays visité comme PILAU (L'Encyclopédie, T12, p.618) emprunté au Turc pour
-parler de la cuisson du riz.
+siècles d'autre part.
+
+Cette thématique de recherche mobilise plusieurs des apports de l'informatiques
+aux [@=HN]. Il est d'abord nécessaire de déterminer un encodage qui convienne à
+la fois à l'*EDdA* et à *LGE* malgré leur différences, de façon à pouvoir
+regrouper les deux œuvres au sein d'un même corpus et leur appliquer les mêmes
+traitements puis les mêmes analyses. Cette tâche de normalisation, avec celle
+d'organisation des textes et des métadonnées représente un important travail
+d'ingénierie des données. À ces efforts s'ajoutent ceux à fournir pour
+identifier les discours pouvant relever de la Géographie. La «cartographie» des
+sciences entreprise par les encyclopédistes se matérialise par la répartition
+des articles entre les différentes sciences en fonction des concepts dont ils
+traitent. À cette échelle, associer un même domaine de connaissance à des
+articles des deux encyclopédies prend la forme d'un problème de classification.
+Plus près des phrases, l'annotation automatisée des textes et l'écriture de
+requêtes basées sur des critères lexicaux ou syntaxiques, faisant appel à la
+fois à l'informatique et aux sciences du langage, permet de mettre en évidence
+des motifs utiles.
+
+### La Géographie et ses traces {#sec:intro_strategy .unnumbered .unlisted}
+
+Au niveau des articles entiers, une évidence apparente doit toutefois être
+critiquée sous peine de fragiliser la démarche dans son ensemble: celle de
+l'identification implicite entre d'une part la discipline "géographie" et
+d'autre part l'ensemble des articles assignés à cette discipline par le choix
+éditorial des encyclopédistes. Si la première peut être initialement définie en
+tant qu'un ensemble vivant de pratiques et de savoirs, elle renvoie
+intuitivement à une notion plus vaste et plus immatérielle. Au contraire la
+seconde, purement arbitraire, n'a d'existence que concrète et contingente au
+travers des articles qui la constituent. Ces articles ne sont que l'echo de la
+discipline, arrivant nécessairement en retard par rapport à ses progrès: ils
+sont écrits après réverberation dans un ou plusieurs des dictionnaires
+universels dans lesquels les encyclopédistes ont puisé leurs sources, parfois
+d'après des récits de voyages passés. Une expression du XVIII^ème^ siècle
+illustre parfaitement cette source d'information: «terme de relation»
+[@quemada_dictionnaires_1968, p.309], qui qualifie certaines entrées dans
+l'*EDdA* et sous-entend le mot «voyage». Il s'agit en effet du vocabulaire
+fréquemment utilisé lorsqu'un texte relate un voyage, le plus souvent une
+francisation d'un mot de la langue parlée dans le pays visité comme PILAU
+(L'Encyclopédie, T12, p.618) emprunté au Turc pour parler de la cuisson du riz.

 L'objet qui intéresse fondamentalement cette thèse est bien sûr la Géographie en
 tant que discipline (qu'on distinguera typographiquement en conservant la
@@ -63,7 +90,7 @@ elle-même, elle est nécessairement irrégulière et probablement lacunaire. C'
 la raison pour laquelle les mesures sont réparties aléatoirement sur la figure
 \ref{fig:sampling} plutôt qu'espacées entre elles d'un pas constant comme cela
 aurait été le cas sur un graphe similaire destiné à illustrer un vrai processus
-d'échantillonnage, par exemple d'un signal accoustique. Il s'agit donc de
+d'échantillonnage, par exemple d'un signal accoustique. Le problème est donc de
 travailler à partir d'une «trace» de la Géographie, passée et finie, sans
 pouvoir limiter ni même seulement connaître la quantité d'information perdue par
 rapport au «signal» que constituerait la discipline géographique. C'est pourtant
@@ -79,15 +106,14 @@ distinction à l'esprit.
 ### Faire correspondre des époques {#sec:mapping_ages .unnumbered .unlisted}

 À la lumière de la remarque ci-dessus, apparaît un deuxième questionnement sur
-l'identité des objets qu'il s'agit de comparer. En effet, puisqu'il est
-impossible d'accéder directement à la Géographie de chaque époque et qu'il faut
-se contenter de ses traces sous forme d'ensembles d'articles, il est naturel de
-s'interroger sur le bien-fondé d'une mise en regard de ces ensembles au seul
-prétexte qu'ils sont estampillés *Géographie* chacun à leur époque.
-Intuitivement, l'identité paraît évidente car c'est bien la même discipline qui
-a évolué continûment d'une époque à l'autre, et les encyclopédistes de chaque
-époque ont choisi les articles qu'ils considéraient relever de cette même
-discipline.
+l'identité des objets à comparer. En effet, puisqu'il est impossible d'accéder
+directement à la Géographie de chaque époque et qu'il faut se contenter de ses
+traces sous forme d'ensembles d'articles, il est naturel de s'interroger sur le
+bien-fondé d'une mise en regard de ces ensembles au seul prétexte qu'ils sont
+estampillés *Géographie* chacun à leur époque. Intuitivement, l'identité paraît
+évidente car c'est bien la même discipline qui a évolué continûment d'une époque
+à l'autre, et les encyclopédistes de chaque époque ont choisi les articles
+qu'ils considéraient relever de cette même discipline.

 Mais en toute rigueur, avec les seuls éléments disponibles — c'est-à-dire des
 collections d'articles non seulement finies mais surtout disjointes, sans

--- a/Introduction/Plan.md
+++ b/Introduction/Plan.md
@@ -51,6 +51,10 @@ cas notoire des biographies dans les articles de géographie.

 ### Contributions {.unnumbered .unlisted}

+Les recherches présentées dans ce manuscrit se situent à l'interface de
+l'informatique et des sciences du langage mais la répartition des trois
+contributions entre ces deux sciences reste nettement en faveur de la première.
+
 #### Version numérique structurée de *LGE* {.unnumbered .unlisted}

 Présentée au chapitre \ref{sec:corpus}, la publication de la première version
@@ -102,10 +106,10 @@ pour rendre compte des liens qui unissent les biographies et la Géographie.

 ### Choix {.unnumbered .unlisted}

-Le présent manuscrit comporte un certain nombre de choix et de partis pris qu'il
-est bon d'avoir en tête avant d'entamer sa lecture et qui tiennent en partie à
-son caractère autoréférentiel. Au contact du genre encyclopédique, il a fini par
-en prendre certaines caractéristiques.
+La rédaction de ce manuscrit a fait l'objet d'un certain nombre de choix et de
+partis pris qu'il est bon d'avoir en tête avant d'entamer sa lecture et qui
+tiennent en partie à son caractère autoréférentiel. Au contact du genre
+encyclopédique, il a fini par en prendre certaines caractéristiques.

 Le texte comporte des renvois fréquents, non seulement à des figures mais
 également à des sections ou à des passages précis dans le texte pour éviter de

--- a/biblio.bib
+++ b/biblio.bib
@@ -604,7 +604,7 @@
 	number = {2},
 	urldate = {2023-02-16},
 	journal = {Langue française},
-	author = {Vigier, Denis and Moncla, Ludovic and Lefort, Isabelle and Joliveau, Thierry and Mac Donough, Katherine},
+	author = {Vigier, Denis and Moncla, Ludovic and Lefort, Isabelle and Joliveau, Thierry and McDonough, Katherine},
 	month = jun,
 	year = {2022},
 	pages = {59--80},
@@ -1479,7 +1479,7 @@ Dans leur diversité, les articles des Varia 2023 portent sur un discours de Ma
 	issn = {1945-3604},
 	url = {https://journals.colorado.edu/index.php/lilt/article/view/1245},
 	doi = {10.33011/lilt.v6i.1245},
-	abstract = {Today's students might be faced with a very different set of challenges from those of the 1990s in the not-too-distant future. What should they do when most of the low hanging fruit has been pretty much picked over?
+	abstract = {Today's students might be faced with a very different set of challenges from those of the 1990s in the not-too-distant future. What should they do when most of the low hanging fruit has been pretty much picked over?
 In the particular case of Machine Translation, the revival of statistical approaches (e.g., Brown et al. (1993)) started out with finite-state methods for pragmatic reasons, but gradually over time, researchers have become more and more receptive to the use of syntax to capture long-distance dependences, especially when there isn't very much parallel corpora, and for language pairs with very different word orders (e.g., translating between a subject-verb-object (SVO) language like English and a verb final language like Japanese). Going forward, we should expect Machine Translation research to make more and more use of richer and richer linguistic representations. So too, there will soon be a day when stress will become important for speech recognition.
 Since it isn't possible for textbooks in computational linguistics to cover all of these topics, we should work with colleagues in other departments to make sure that students receive an education that is broad enough to prepare them for all possible futures, or at least all probable futures.},
 	urldate = {2023-08-28},
@@ -1792,7 +1792,7 @@ Since it isn't possible for textbooks in computational linguistics to cover all
    BOOKTITLE = {{9th Workshop on Geographic Information Retrieval}},
    ADDRESS = {Paris, France},
    YEAR = {2015},
-    MONTH = Nov,
+    MONTH = {Nov},
    DOI = {10.1145/2837689.2837700},
    KEYWORDS = {geo-semantic tagging ;  text annotation ;
        expanded named entity},
@@ -2197,7 +2197,7 @@ Since it isn't possible for textbooks in computational linguistics to cover all
    author = "Nadeau, David and Sekine, Satoshi",
    title = "A survey of named entity recognition and classification",
    journal= "Lingvisticæ Investigationes",
-    year = "2007",
+    year = {2007},
    volume = "30",
    number = "1",
    pages = "3-26",
@@ -2446,7 +2446,7 @@ Since it isn't possible for textbooks in computational linguistics to cover all
    type = {ISO},
    number = {ISO 8879:1986},
    year = {1986},
-    month = oct,
+    month = {oct},
    date = 15,
 }

@@ -2457,7 +2457,7 @@ Since it isn't possible for textbooks in computational linguistics to cover all
  BOOKTITLE = {{First International Workshop on Geographic Information Extraction from Texts (GeoExT)}},
  ADDRESS = {Dublin, Ireland},
  YEAR = {2023},
-  MONTH = Apr,
+  MONTH = {apr},
  KEYWORDS = {Geoparsing ; geocoding ; named entity recognition ; toponym disambiguation},
  PDF = {https://hal.science/hal-04049794/file/GeoExT___ECIR_2023.pdf},
  HAL_ID = {hal-04049794},
@@ -4064,7 +4064,7 @@ year = {2018},
  and Ortolja-Baird, Alexandra",
  title="Named-entity recognition for early modern textual documents: a review of capabilities and challenges with strategies for the future",
  journal="Journal of Documentation",
-  year="2021",
+  year={2021},
  month="Jan",
  day="01",
  publisher="Emerald Publishing Limited",