From 39bef38f37741cffacfdbd4a03314a779d0df536 Mon Sep 17 00:00:00 2001
From: Alice BRENON <alice.brenon@ens-lyon.fr>
Date: Thu, 3 Apr 2025 00:39:49 +0200
Subject: [PATCH] Finish proofreading chapt.5 Contrasts (**TODO** the
 validation of the Parallel corpus still needs a fix)

---
 Contrastes/Biographies.md |  46 ++++-----
 Contrastes/Contours.md    | 203 +++++++++++++++++++-------------------
 2 files changed, 127 insertions(+), 122 deletions(-)

diff --git a/Contrastes/Biographies.md b/Contrastes/Biographies.md
index d750038..4abae3e 100644
--- a/Contrastes/Biographies.md
+++ b/Contrastes/Biographies.md
@@ -1,7 +1,7 @@
 ## La biographie cachée {#sec:biographies}
 
 Un parti pris éditorial remarquable de l'*EDdA* est de ne pas avoir inclus de
-biographies dans ses pages, choix assez emblématique du Siècle des Lumières et
+biographies dans ses pages, choix assez emblématique du siècle des Lumières et
 qui correspond bien à l'idéal humaniste et démocratique de diffusion du savoir
 pour sa portée libératrice intrinsèque [@dantuono_democratie_2018, p.99] plutôt
 que pour mettre en valeur des récits héroïques individuels. Les auteurs le
@@ -95,7 +95,7 @@ critères simples basés sur une combinaison d'observations qualitatives et
 quantitatives pour aller au-delà du seul constat: «Jaucourt a piraté la
 Géographie de l'*EDdA* pour écrire des Biographies».
 
-### Deux lemmes inattendus
+### Spécificité des lemmes «naître» et «mourir» en *Géographie*
 
 Les réflexions préliminaires de cette section amènent d'abord à examiner les
 relations entre la biographie et les différents domaines de connaissance.
@@ -143,7 +143,7 @@ suggérer qu'on qualifie bien plus volontiers une ville de «petite» que de
 Le Lexicoscope permet ensuite de générer automatiquement une autre requête qui
 intègre un des cooccurrents parmi ces résultats. Cette fonctionnalité correspond
 à une étape du procédé itératif permettant de construire progressivement un
-[@=ALR], équivalents de la méthode des «segments répétés» pour les cooccurrents
+[@=ALR], équivalent de la méthode des «segments répétés» pour les cooccurrents
 syntaxiques. La nouvelle requête obtenue pour le premier résultat, le
 déterminant «ce», revient à chercher les plus forts cooccurrents du motif «cette
 ville». L'extrait de code \ref{lst:tql_ce_ville} montre cette requête formulée
@@ -189,11 +189,13 @@ dans 1 674 articles.
 [^UDdeps]:
     [https://universaldependencies.org/u/dep/index.html](https://universaldependencies.org/u/dep/index.html)
 
+\begin{minipage}{\textwidth}
 \begin{lstlisting}[caption=Requête TQL sur le motif syntaxique «dans cette ville»,
 label=lst:tql_dans_ce_ville]
 <l=dans,c=PREP,#3>&&<l=ce,c=DET,#2>&&<l=ville,c=NOUN,#1>::(.*,1,2)(.*,
 1,3)
 \end{lstlisting}
+\end{minipage}
 
 ![Représentation sous forme d'arbre de syntaxe en dépendance du motif défini par la requête \ref{lst:tql_dans_ce_ville}](figure/syntax/dans_ce_ville.png){#fig:dans_cette_ville_tree width=20%}
 
@@ -225,7 +227,7 @@ restreindre au sous-corpus ne contenant que les articles de l'*EDdA*, qu'on
 compter les lemmes et appliqué sur cette [@=partition] avec la requête CQL dont
 le code est visible à l'extrait \ref{lst:cql_naitre_mourir} permet de compter
 les occurrences des deux verbes «naître» et «mourir» dans le corpus. Un nombre
-d'occurrence n'est en soi pas pertinent sans être rapporté à la taille des
+d'occurrences n'est pas pertinent en soi sans être rapporté à la taille des
 différentes [@=partition]s. Le calcul des spécificités (voir la section
 \ref{sec:EdlA_linguistic_tools} p.\pageref{sec:EdlA_linguistic_tools})
 implémenté dans TXM opère cette traduction pour révéler la quantité
@@ -259,7 +261,7 @@ avec la *Géographie* dans les pages de l'*EDdA*.
 l'*EDdA*](figure/histogram/textometry/EDdA/mourir_naitre.png){#fig:naitre_mourir_edda}
 
 L'étape suivante du raisonnement consiste naturellement à se demander si cette
-observation est propre à l'*EDdA* ou s'ils se généralisent à d'autres discours
+observation est propre à l'*EDdA* ou si elle se généralise à d'autres discours
 encyclopédiques. Pour répondre à cette question, on procède de la même façon en
 [@=partition]nant par domaine de connaissance le sous-corpus ne contenant que
 les articles de *LGE* avant de calculer les spécificités des deux mêmes lemmes.
@@ -267,11 +269,11 @@ Les spécificités obtenues suivent un profil bien plus tranché, de nombreux
 domaines obtenant pour les deux verbes des scores «saturés» (voir la section
 \ref{textometry_specificity} p.\pageref{textometry_specificity} sur ce point),
 en positif ou en négatif, c'est-à-dire que les deux y sont «infiniment»
-spécifiques. Partout ailleurs, les spécificités sont négatives ou très faibles
-(seul «naître» obtient un score de 8 pour la *Musique*). En ce qui concerne la
-*Géographie*, les deux lemmes sont très fortement sous-représentés avec des
-spécificités de -1000. Le phénomène détecté dans l'*EDdA* semble donc avoir
-disparu 130 ans plus tard dans *LGE*.
+spécifiques ou sous-spécifiques. Partout ailleurs, les spécificités sont
+négatives ou très faibles (seul «naître» obtient un score de 8 pour la
+*Musique*). En ce qui concerne la *Géographie*, les deux lemmes sont très
+fortement sous-représentés avec des spécificités de -1000. Le phénomène détecté
+dans l'*EDdA* semble donc avoir disparu 130 ans plus tard dans *LGE*.
 
 ![Spécificités des lemmes «naître» et «mourir» par superdomaine dans
 *LGE*](figure/histogram/textometry/LGE/mourir_naitre.png){#fig:naitre_mourir_lge}
@@ -287,7 +289,7 @@ critères, pour croiser à la fois les notions d'auteur et de domaine de
 connaissance. Pour la première, il faut en effet pouvoir distinguer les écrits
 de Jaucourt, ceux de Diderot, ceux des autres auteurs et ceux restés anonymes
 (pour lesquels il n'est pas en tout rigueur possible d'écarter la possibilité
-qu'ils aient été écrit par Jaucourt ou Diderot). Puisque certains articles
+qu'ils aient été écrits par Jaucourt ou Diderot). Puisque certains articles
 résultent de la collaboration entre plusieurs auteurs, il est nécessaire de
 traiter à part les quatre articles écrits à la fois par Jaucourt et
 Diderot — les entrées CHANVRE (L'Encyclopédie, T3, p.147), CHAUSSURE
@@ -295,7 +297,7 @@ Diderot — les entrées CHANVRE (L'Encyclopédie, T3, p.147), CHAUSSURE
 p.902) et JALOUSIE (L'Encyclopédie, T8, p.439). La notion de domaine demande
 moins de finesse car, la surreprésentation écrasante des lemmes «naître» et
 «mourir» en *Géographie* ayant déjà été établie, il suffit pour chacune des
-configurations d'auteur(s) possibles de comparer leurs emplois de ces deux
+configurations possibles d'auteur(s) de comparer leurs emplois de ces deux
 verbes dans et hors de la *Géographie*. Comme aucun des quatre articles écrits
 par Jaucourt et Diderot ensemble ne porte sur la *Géographie*, la [@=partition]
 correspondant à cette configuration reste vide.
@@ -327,7 +329,7 @@ auteurs utilisent tout de même ces deux verbes dans les articles de
 est fait hors de ce domaine. Ces deux lemmes et les contenus biographiques
 qu'ils permettent d'écrire ne sont donc pas exclusifs à Jaucourt. La seconde
 réside dans le fait que Diderot ne semble quant à lui pas sujet au même régime:
-son emploi de «naître» et «mourir» reste dans les seuil de banalité hors de la
+son emploi de «naître» et «mourir» reste dans les seuils de banalité hors de la
 *Géographie* et même très légèrement positif alors qu'il reste négatif sur les
 articles de cet auteur sur le même domaine (le lemme «naître» y est même assez
 rare avec une spécificité de -4.6). Diderot apparaît donc plus constant dans son
@@ -348,7 +350,7 @@ biographiques en *Géographie* mais, ce faisant, a aussi mis en lumière l'emplo
 de verbes associés à ces contenus dans d'autres domaines. C'est ainsi que la
 figure \ref{fig:naitre_mourir_edda} présentait les *Beaux-arts* et surtout la
 *Philosophie* comme des pistes intéressantes pour la recherche de biographies.
-Malgré le choix éditorial de ne pas mettre en avant de figure individuelles, le
+Malgré le choix éditorial de ne pas mettre en avant de figures individuelles, le
 Discours Préliminaire de l'*EDdA* (L'Encyclopédie, T1, p.xlj) fait en effet
 mention de nombre de «génies» qui ont façonné les domaines où ils se sont
 illustrés. L'attention particulière qui leur est portée dans ce Discours
@@ -363,7 +365,7 @@ philosophie de Locke et, sur toute sa première moitié, donne un récit de la v
 du philosophe de sa naissance à sa mort, riche en dates, lieux et mentions
 d'autres personnages historiques qui lui sont liés. Il apparaît tout à fait
 comparable à l'article WOLSTROPE qui, bien que trois fois plus long environ
-(7277 mots contre 2659) contient lui aussi environ une moitié d'éléments
+(7 277 mots contre 2 659) contient lui aussi environ une moitié d'éléments
 biographiques, le reste de l'article concernant directement les travaux de
 Newton, ses théories et jusqu'à l'exposition des travaux de ses précurseurs
 comme le paragraphe sur les lois de Kepler.
@@ -440,7 +442,7 @@ les philosophes, sa biographie est «déguisée» en article de Géographie.
     de l'*EDdA* surtout quand il y a des diacritiques
 
 Pour Boyle et Huyghens, les articles avec le plus grand nombre d'occurrences de
-leur noms sont purement techniques et portent exclusivement sur leurs
+leurs noms sont purement techniques et portent exclusivement sur leurs
 thématiques de recherches, respectivement la Chimie — AIR (L'Encyclopédie, T1,
 p.225) et CHYMIE (L'Encyclopédie, T3, p.408) — et la Physique et les
 Mathématiques — «Figure de la Terre» (L'Encyclopédie, T6, p.749), CYCLOIDE
@@ -501,7 +503,7 @@ physique», «corps céleste», «corps pesans» (sic). Ces différences sont
 particulièrement visibles sur le diagramme d'[@=AFC] de la figure
 \ref{fig:newton_vs_philosophers} représentant les 65 lemmes les plus fréquents
 parmi les textes de doctrines philosophiques (ceux du tableau
-\ref{table:edda_biographies_in_philosophy}, le nuage de point rouge sur la
+\ref{table:edda_biographies_in_philosophy}, le nuage de points rouges sur la
 figure) auxquels est rajouté NEWTONIANISME (le point `EDdA_11_679` très
 nettement à part sur la figure). Newton est donc mis au même niveau que les
 grands philosophes alors que le contenu de ses travaux est tout à fait
@@ -516,7 +518,7 @@ nous se déclarer ouvertement Newtonien» ?
 
 ![Analyse Factorielle des Correspondances pour les articles de systèmes philosophiques dans l'*EDdA*, y compris NEWTONIANISME](figure/textometry/newton_vs_philosophers.png){#fig:newton_vs_philosophers}
 
-### Deux critères utiles
+### Différents profils de passages biographiques
 
 #### Proportion de contenu biographique
 
@@ -526,8 +528,8 @@ pas le moindre effort pour déguiser sa biographie: le bourg n'est cité qu'en
 relation à Isaac Newton dès la première phrase et les deux seules informations,
 lapidaires, que l'on pourrait qualifier de géographiques à son propos tiennent
 dans les huit premiers mots, en un syntagme nominal et un complément
-circonstanciel: «bourg d'Angleterre, dans le comté de Lincoln».  Aucunes
-coordonnées, aucune distance ni même direction à partir d'une autre ville ou
+circonstanciel: «bourg d'Angleterre, dans le comté de Lincoln».  Aucune
+coordonnée, aucune distance ni même direction à partir d'une autre ville ou
 point remarquable du territoire anglais.
 
 Mais la situation est quand même toute autre avec l'article LODEVE
@@ -576,7 +578,7 @@ ainsi par exemple l'article \textsc{Ferté-Milon} (L'Encyclopédie, T6, p.556) q
 est en fait le lieu de naissance de l'auteur Racine (figure
 \ref{fig:edda_ferte_milon}). En plus de faire étrangement écho à la remarque
 ci-dessus sur la prédominance de la Philosophie — on reproche quand même à
-demi-mot à Racine de n'avoir été «que» poête et pas philosophe — l'article très
+demi-mot à Racine de n'avoir été «que» poète et pas philosophe — l'article très
 bref signé par Jaucourt pose un défi d'interprétation. En effet, l'auteur semble
 dire que le seul intérêt de la ville — et par là même de l'article — réside dans
 la mention de Racine («uniquement remarquable par»). Mais il est dit bien peu
@@ -638,7 +640,7 @@ vraie biographie est à l'article LÉIBNITZIANISME, est mentionné dans l'articl
 LEIPSIC, en même temps qu'une remarque éclairante sur la motivation profonde de
 ces biographies: «Leibnitz seul auroit suffi pour donner du relief à Leipsic sa
 patrie». Ces énumérations sont là pour l'anecdote, elles ornent, donnent
-davantage d'intérêt aux lieux traités. En cela elle font partie du discours
+davantage d'intérêt aux lieux traités. En cela elles font partie du discours
 géographique de l'époque.
 
 Toutes ces remarques convergent donc pour dégager un dernier critère à appliquer
diff --git a/Contrastes/Contours.md b/Contrastes/Contours.md
index 47ee8d2..86847c0 100644
--- a/Contrastes/Contours.md
+++ b/Contrastes/Contours.md
@@ -37,12 +37,12 @@ locuteurs change suivant les époques des parties du corpus. Si le français
 classique de l'*EDdA* diffère heureusement assez peu de celui déjà quasi
 contemporain de *LGE*, on y trouve encore tout de même des formes similaires à
 celles rapportées par @diwersy_ressources_2017 [p.29]. Ainsi, l'adverbe «très»
-demeure préfixé à de nombreux adjectifs, bien que séparés d'un tiret[^tiret]
-dans des formes comme «très-subtil» à l'article MALEBRANCHISME (L'Encyclopédie,
-T9, p.942) ou «très-philosophique» dans l'article DICTIONNAIRE (L'Encyclopédie,
-T4, p.958) cité à la section \ref{dalembert_dictionnaire}
+demeure préfixé à de nombreux adjectifs, bien que séparé d'un tiret[^tiret] dans
+des formes comme «très-subtil» à l'article MALEBRANCHISME (L'Encyclopédie, T9,
+p.942) ou «très-philosophique» dans l'article DICTIONNAIRE (L'Encyclopédie, T4,
+p.958) cité à la section \ref{dalembert_dictionnaire}
 (p.\pageref{dalembert_dictionnaire}). À l'inverse certaines formes ne sont pas
-encore agglutinées telles que «par ce que» dans l'article ATTAQUES *d'une place*
+encore agglutinées telles que «par ce que» dans l'entrée ATTAQUES *d'une place*
 (L'Encyclopédie, T1, p.829).
 
 [^tiret]: en moyen français on trouve des formes simplement agglutinées comme
@@ -61,7 +61,7 @@ peu après dans le texte est étiquetée en tant que nom commun), et ne reconna
 pas «parce que», considérant la séquence «par ce que» comme trois tokens
 distincts. Le seul choix restant à l'issue des traitements concerne les
 amalgames, représentés à l'aide de sous-tokens disponibles dans le format
-CoNLL-U. À la suite de [@vigier_autour_2017, p.101], un seul token a été produit
+CoNLL-U. À la suite de @vigier_autour_2017 [p.101], un seul token a été produit
 pour les représenter dans des outils permettant des recherches en surface comme
 TXM. Les [@=POS] et lemmes affectés à ces tokens sont obtenus en concaténant les
 [@=POS] et les lemmes de leurs sous-tokens, séparés par un caractère '+'. C'est
@@ -118,19 +118,19 @@ La chose la plus évidente lorsque l'on compare la figure
 domaine dans l'*EDdA* avec celui représentant le nombre d'articles pour la même
 [@=partition] \(figure \ref{fig:edda_count_by_domain_repartition}
 p.\pageref{fig:edda_count_by_domain_repartition}) est la faible importance
-relative des articles de géographie en terme de taille. En nombre d'articles, la
-*Géographie* est très nettement le domaine le plus représenté avec plus de 20%
-des articles de l'*EDdA* qui lui sont consacrés, soit presque deux fois plus
+relative des articles de géographie en termes de taille. En nombre d'articles,
+la *Géographie* est très nettement le domaine le plus représenté avec plus de
+20% des articles de l'*EDdA* qui lui sont consacrés, soit presque deux fois plus
 d'articles que le deuxième domaine le plus représenté, *Droit et Jurisprudence*.
-Malgré cette très forte présence, ses articles ne représentent plus que 9.3% en
-nombre de mots, ce qui n'en fait que le 4^ème^ domaine le plus volumineux, avec
-de surcroît un nombre de mots assez voisin de celui des 5^ème^ et 6^ème^
-domaines selon le même critère (respectivement *Physique* et *Droit et
-Jurisprudence*). Il est même remarquable que la *Géographie* soit couverte en
-moins de mots que la *Philosophie*, à laquelle ne sont consacrés que 5.47% des
-articles, soit près de 4 fois moins qu'à la *Géographie*. Les articles de
-géographie apparaissent donc comme particulièrement brefs par rapport à ceux des
-autres domaines de connaissance.
+Malgré cette très forte présence, ses articles ne contiennent que 9.3% du nombre
+de mots, ce qui n'en fait que le 4^ème^ domaine le plus volumineux, avec de
+surcroît un nombre de mots assez voisin de celui des 5^ème^ et 6^ème^ domaines
+selon le même critère (respectivement *Physique* et *Droit et Jurisprudence*).
+Il est même remarquable que la *Géographie* soit couverte en moins de mots que
+la *Philosophie*, à laquelle ne sont consacrés que 5.47% des articles, soit près
+de 4 fois moins qu'à la *Géographie*. Les articles de géographie apparaissent
+donc comme particulièrement brefs par rapport à ceux des autres domaines de
+connaissance.
 
 \begin{figure}[h!]
     \centering
@@ -163,28 +163,29 @@ présente une forme assez particulière, directement décroissante (une «mine»
 gigantesque sans «corps»). La pente de décroissance est plus ou moins visible
 selon les domaines mais la plupart présentent au moins cet effet de rupture de
 pente (la «mine» dans la métaphore précédente), par exemple les domaines
-*Histoire* et *Militaire*. Seul le domaine *Métier* semble comme la *Géographie*
-décroître constamment, mais sa pente est tout de même moins forte que celle de
-la *Géographie* et il possède bien plus d'articles avec un nombre élevé de mot
-(la différence devient flagrante au-dessus de quelques centaines de mots). La
-figure \ref{fig:edda_words_by_domain_distribution} montre la raréfaction des
-articles de *Géographie* en raison logarithmique de leur taille (la mine présente
-des bords bien droits caractéristiques d'une relation linéaire). Il y a environ
-10 fois moins d'articles de *Géographie* de longueur 100 que de longueur 10.
+*Histoire* et *Militaire*. Seul le domaine *Métiers* semble comme la
+*Géographie* décroître constamment, mais sa pente est tout de même moins forte
+que celle de la *Géographie* et il possède bien plus d'articles avec un nombre
+élevé de mots (la différence devient flagrante au-dessus de quelques centaines
+de mots). La figure \ref{fig:edda_words_by_domain_distribution} montre la
+raréfaction des articles de *Géographie* en raison logarithmique de leur taille
+(la mine présente des bords bien droits caractéristiques d'une relation
+linéaire). La différence de densité entre les articles de 100 mots et ceux de 10
+mots est par exemple sensiblement la même qu'entre les articles de 1 000 mots et
+ceux de 100 mots.
 
 ![Distribution des nombres de mots par article au sein des différents domaines de l'*EDdA*](figure/distribution/GEODE/EDdA/words_by_domain.png){#fig:edda_words_by_domain_distribution}
 
 Il est naturel après avoir fait cette remarque de se demander si cette signature
-particulière persiste 130 ans plus tard. La taille de la *Géographie*, dans
-*LGE* aussi, est bien moins importante en nombre de mots qu'en nombre
-d'articles. Elle représente en effet une part encore plus importante du nombre
-d'articles (37.8% soit plus d'un tiers alors qu'elle ne représentait «que»
-20.74% des articles de l'*EDdA*), mais cette fois encore cela ne suffit pas à en
-faire le domaine le plus volumineux: malgré cette surreprésentation accrue la
-*Géographie* n'arrive qu'à la deuxième place des disciplines occupant le plus de
-mots en comprenant «seulement» 22.87% du texte. Là encore, les articles de
-*Géographie* apparaissent donc relativement brefs par rapport à ceux des autres
-disciplines.
+particulière persiste 130 ans plus tard. La taille de la *Géographie* dans *LGE*
+aussi est bien moins importante en nombre de mots qu'en nombre d'articles. Elle
+représente en effet une part encore plus importante du nombre d'articles (37.8%
+soit plus d'un tiers alors qu'elle ne représentait «que» 20.74% des articles de
+l'*EDdA*), mais cette fois encore cela ne suffit pas à en faire le domaine le
+plus volumineux: malgré cette surreprésentation accrue, la *Géographie* n'arrive
+qu'à la deuxième place des disciplines occupant le plus de mots en comprenant
+«seulement» 22.87% du texte. Là encore, les articles de *Géographie*
+apparaissent donc relativement brefs par rapport à ceux des autres disciplines.
 
 Il faut toutefois remarquer que les proportions d'articles classés en *Histoire*
 et en *Géographie* semblent en contradiction avec les intentions des auteurs de
@@ -211,7 +212,7 @@ vraisemblable pourrait résider dans la difficulté à décider à l'avance avec
 assez de précision du contenu d'une œuvre aussi vaste qu'une encyclopédie,
 impliquant autant de contributeurs sur une période aussi longue. D'ailleurs, le
 même Avant-Propos annonce 25 tomes de 1200 pages chacun, quand on sait qu'il y
-en a eu finalement 31 au total, dont le dernier dépasse allègrement les 1300
+en a eu finalement 31 au total, dont le dernier dépasse allègrement les 1 300
 pages. Mais là encore, même si l'*Histoire et Géographie* était effectivement
 prévue pour être la science occupant le plus de place dans *LGE*, on a peine à
 croire qu'elle ait pu plus que tripler de volume sous les plumes de ses
@@ -323,7 +324,7 @@ l'hypothèse de l'apparition dans ce domaine d'un grand nombre de termes
 techniques beaucoup plus longs à même de contrebalancer cet effet, ce qui
 corrobore également l'hypothèse de sa disciplinarisation.
 
-#### Annotation géo-sémantiques {#sec:geo_named_entities}
+#### Annotations géo-sémantiques {#sec:geo_named_entities}
 
 Intuitivement, la Géographie en tant que science descriptive de l'espace
 terrestre renvoie à la notion de lieu et en particulier de lieu nommé. Le
@@ -342,7 +343,7 @@ suivant une typologie préétablie en relation avec l'usage que l'on souhaite
 faire du document; de les rattacher sans ambiguïté à des entrées présentes dans
 des bases de connaissance et enfin de découvrir les relations qu'elles
 entretiennent [@ehrmann_named_2016, p.3350]. Si elles semblent inclure dès le
-début les expressions numériques comme les dates ou les quantités pourvu d'une
+début les expressions numériques comme les dates ou les quantités pourvues d'une
 unité [@sekine_extended_2002], la définition et l'organisation de classes assez
 complètes fait l'objet de travaux conséquents qui aboutissent à la publication
 de jeux d'étiquettes complexes [@sekine_definition_2004] jusqu'à des schémas
@@ -360,7 +361,7 @@ le contexte précis de ce corpus d'étude à la différence significative entre
 termes comme «paroisse» et «commune». C'est pourquoi une annotation
 géo-sémantique riche a été retenue plutôt qu'une annotation en entités nommées
 classiques pour examiner l’hypothèse formulée au début de cette sous-section. Le
-corpus a été annoté avec un modèle spaCy spancat personnalisé[^modèle]
+corpus a été annoté avec un modèle SpaCy spancat personnalisé[^modèle]
 [@moncla_spacy_2024]. Ce modèle a pour tâche de catégoriser les entités ou spans
 (ensemble de tokens) avec imbrications possibles selon une version simplifiée du
 schéma d’annotation décrit dans @moncla_multilayer_2015. Le schéma retenu pour
@@ -532,7 +533,7 @@ niveaux). L'`ENE-Spatial` la plus profonde trouvée dans *LGE* a ainsi une
 profondeur de quatre là où la profondeur maximale dans l'*EDdA* s'élevait à
 sept. La très grande majorité des ENE trouvées sont très plates et la profondeur
 moyenne dans ces encyclopédies est de l'ordre de grandeur de $10^{-2}$ mais
-celle hors de la classe *Géographie* dans l'*EDdA* est de $8\times10^{3}$ alors
+celle hors de la classe *Géographie* dans l'*EDdA* est de $8\times10^{-3}$ alors
 qu'elle s'élève à $1\times10^{-1}$ en *Géographie*; dans *LGE*, la profondeur
 moyenne hors *Géographie* est de $4\times10^{-3}$ contre $9\times10^{-3}$. Les
 articles de *Géographie* dans *LGE* sont donc non seulement moins denses en
@@ -586,7 +587,7 @@ l'étymologie complétée de critères sémantiques lorsqu'une évolution forte
 encyclopédies est absent dans l'autre. Toute la difficulté de constitution de ce
 sous-corpus, nommé «Parallèle» et noté $\mathcal{P}$ dans ce qui suit, réside
 dans ce problème de bon appariement — distinguer les *vraies* paires des
-*fausses* sources de bruit dans le corpus. Par construction, $\mathcal{P}$
+*fausses*, sources de bruit dans le corpus. Par construction, $\mathcal{P}$
 comprend un nombre pair d'articles, autant de l'*EDdA* que de *LGE* puisqu'il
 est obtenu en sélectionnant des couples d'articles. Les figures
 \ref{fig:adige_edda} et \ref{fig:adige_lge} présentent un exemple de paire issue
@@ -653,7 +654,7 @@ l'*EDdA* et *LGE* comme s'il avait une qualité particulière qui ne tiendrait p
 aux hasards éditoriaux des deux entreprises. En pratique, cet ensemble peut être
 remplacé par n'importe lequel de ses sous-ensembles pourvu qu'il soit assez
 large pour être représentatif. Mais surtout, imposer des restrictions trop
-strictes sur le contenu des articles empêcherait d'observer des changements
+sévères sur le contenu des articles empêcherait d'observer des changements
 majeurs dans la manière dont un même objet serait traité entre l'*EDdA* et
 *LGE*, par exemple un territoire qui changerait de pays et ne serait donc plus
 décrit en rapport aux mêmes entités administratives comme ce fut le cas de
@@ -661,7 +662,7 @@ l'Alsace entre le milieu du XVIII^ème^ siècle et la fin du XIX^ème^ siècle,
 une évolution scientifique et technique qui ferait qu'on ne parle plus du tout
 d'un même sujet avec les mêmes termes. L'article SAVONE est particulièrement
 intéressant pour cette raison. D'un descriptif des ordres religieux de la ville,
-de son commerce moribond et de ses liens avec des autres villes, italiennes
+de son commerce moribond et de ses liens avec d'autres villes, italiennes
 exclusivement, qui est suivi d'une biographie du pape Jules II dans l'*EDdA*
 (L'Encyclopédie, T14, p.722), la ville paraît transformée dans *LGE* (La Grande
 Encyclopédie, T29, p.624), l'article bien plus bref insiste sur la force de son
@@ -750,26 +751,26 @@ formule précédente).
 
 ![Nombre total de comparaisons requis dans le pire des cas en fonction de la taille de la fenêtre utilisée](figure/dichotomy_window_comparisons.png){#fig:dichotomy_window_comparisons width=60%}
 
-Au milieu des paires candidates classées par similarité, entre les rangs 2931 et
-2940 on trouve une unique fausse paire, celle pour SPIEGELBERG — une contrée
+Au milieu des paires candidates classées par similarité, entre les rangs 2 931
+et 2 940 on trouve une unique fausse paire, celle pour SPIEGELBERG — une contrée
 allemande (L'Encyclopédie, T15, p.461) et un gynécologue (La Grande
 Encyclopédie, T30, p.388). Toutes les autres sont au moins en lien, l'acception
 moderne contenant l'acception ancienne comme c'est le cas pour BARRAGE où *LGE*
 contient une sous-section sur son acception commerciale dans l'ancien régime (La
 Grande Encyclopédie, T5, p.469) qui est la seule définie dans l'*EDdA*
-(L'Encyclopédie, T2, p.90) qui a été écrit à cette époque. Le taux de similarité
-rapporté avec la mesure choisie est supérieur à 56.9% (valeur pour la 2931^ème^
-paire). On réitère donc le procédé entre les rangs 1461 et 1470 qui ont une
-similarité cosinus d'au moins 42% et contiennent au moins deux fausses paires.
-Puisqu'ils contiennent trop de bruit, on remonte donc le seuil en allant entre
-les rangs 2 194 et 2 203 (similarité > 50.3%) qui eux ne contiennent qu'une fausse
-paire et ainsi de suite. Le processus se poursuit jusqu'à ce que deux fenêtres
-se rejoignent ce qui arrive comme prévu à la dixième étape. On passe alors
-toutes les fausses paires jusqu'à la première vraie (pour ne pas ajouter
-délibérément des paires que l'on sait fausses à $\mathcal{P}$), celle de rang
-2 167 qui avait obtenu un score de similarité de 50.0%. On les retient toutes
-depuis celle-ci jusqu'à la fin de la liste, ce qui donne $5872 - 2167 + 1 =
-3706$ paires d'articles. Il est à noter qu'au cours du processus, une autre
+(L'Encyclopédie, T2, p.90) qui a été écrite à cette époque. Le taux de
+similarité rapporté avec la mesure choisie est supérieur à 56.9% (valeur pour la
+2 931^ème^ paire). On réitère donc le procédé entre les rangs 1 461 et 1 470 qui
+ont une similarité cosinus d'au moins 42% et contiennent au moins deux fausses
+paires. Puisqu'ils contiennent trop de bruit, on remonte donc le seuil en allant
+entre les rangs 2 194 et 2 203 (similarité > 50.3%) qui eux ne contiennent
+qu'une fausse paire et ainsi de suite. Le processus se poursuit jusqu'à ce que
+deux fenêtres se rejoignent ce qui arrive comme prévu à la dixième étape. On
+passe alors toutes les fausses paires jusqu'à la première vraie (pour ne pas
+ajouter délibérément des paires que l'on sait fausses à $\mathcal{P}$), celle de
+rang 2 167 qui avait obtenu un score de similarité de 50.0%. On les retient
+toutes depuis celle-ci jusqu'à la fin de la liste, ce qui donne $5872 - 2167 + 1
+= 3706$ paires d'articles. Il est à noter qu'au cours du processus, une autre
 série de 10 paires sans aucune homonymie a été trouvée entre les rangs 2 171 et
 2 180. Ce contre-exemple à l'hypothèse de monotonie de la qualité en fonction du
 score est toutefois rassurant sur la qualité des rangs sélectionnés et la
@@ -788,8 +789,8 @@ fenêtres ont été considérées en fonction des résultats de l'évaluation de
 autres déjà validées. Il est donc nécessaire de prélever un nouvel échantillon
 pour vérifier si la qualité a une chance d'être proche des 90% espérés
 initialement. Comme cette fois les $n$ paires prélevées sont indépendantes, et
-qu'on évalue sur chacune une propriété booléenne (elles peuvent être soit vraies
-soit fausses), elles constituent elles aussi des variables aléatoires de
+puisqu'on évalue sur chacune une propriété booléenne (elles peuvent être soit
+vraies soit fausses), elles constituent elles aussi des variables aléatoires de
 Bernoulli, comme c'était le cas pour les articles de *LGE* étiquetés en domaine
 par le modèle *BERT* et dont il s'agissait de contrôler la qualité à la section
 \ref{sec:classifying_lge} page \pageref{bernouilli_experiment}. Le même cadre
@@ -797,7 +798,7 @@ théorique s'applique donc et un raisonnement tout à fait semblable peut se
 développer. Le Théorème Central Limite peut à nouveau s'appliquer à condition
 que la taille de l'échantillon reste suffisamment faible devant celle de
 l'ensemble de la population: le rapport de 100 considéré comme suffisant impose
-donc que l'échantillon comporte moins de $5873/100 < 59$ paires. À cette
+donc que l'échantillon comporte moins de $3706/100 = 37.06$ paires. À cette
 condition, il est à nouveau possible d'utiliser la loi normale pour modéliser le
 comportement de ces variables.
 
@@ -813,8 +814,9 @@ la section \ref{sec:classifying_lge}, on utilise la moyenne empirique pour
 estimer la qualité $q$ dans $\mathcal{P}$ valant $m = \frac{48}{50} = 0.96$.
 L'application numérique \ref{eq:parallel_corpus_quality_range_numerical} de la
 borne inférieure de la formule \ref{eq:quality_range_algebraic}
-p.\ref{eq:quality_range_algebraic} permet d'affirmer avec moins de 5% de risque
-d'erreur que la qualité réelle dans le sous-corpus Parallèle est d'au moins
+p.\pageref{eq:quality_range_algebraic} permet d'affirmer avec moins de 5% de
+risque d'erreur que la qualité réelle dans le sous-corpus Parallèle est d'au
+moins
 
 \begin{equation}
     m - z_{97.5\%} \times \sqrt{\frac{m \times (1- m)}{n}} = 90.6\%
@@ -966,7 +968,7 @@ sur des lieux et des peuples historiques voire imaginaires relève dans ses page
 de la *Géographie*, comme l'illustrent les articles HYPERBORÉENS
 (L'Encyclopédie, T8, p.405), JUTURNA (L'Encyclopédie, T9, p.102) ou OGYGIE
 (L'Encyclopédie, T11, p.429) reproduit à la figure \ref{fig:ogygie_edda}. Les
-articles correspondant dans *LGE* (La Grande Encyclopédie, respectivement T20
+articles correspondants dans *LGE* (La Grande Encyclopédie, respectivement T20
 p.481, T21 p.362 et T25 p.298 visible à la figure \ref{fig:ogygie_lge})
 conservent un contenu proche et se retrouvent donc classés en *Histoire* ou en
 *Histoire Naturelle*. À l'inverse, des articles comme ERYMANTHE (La Grande
@@ -981,10 +983,10 @@ désignant. Ainsi le traitement des entrées CLAIRETS (L'Encyclopédie, T3, p.50
 et La Grande Encyclopédie, T11, p.528) et STONEHENGE (L'Encyclopédie, T15, p.535
 et La Grande Encyclopédie, T30, p.520) est assez proche et, d'un point de vue
 moderne bien plus historique que géographique dans les deux œuvres. Les deux
-articles dans l'*EDdA* sont pourvus de désignants qui les classent en
-*Histoire* mais le modèle, trop entraîné à voir cette sorte de contenu
-historique dans des articles de *Géographie* a tout de même prédit cette classe
-sur leurs successeurs dans *LGE*.
+articles dans l'*EDdA* sont pourvus de désignants qui les classent en *Histoire*
+mais le modèle, trop entraîné à voir cette sorte de contenu historique dans des
+articles de *Géographie* a tout de même prédit cette classe sur leurs
+successeurs dans *LGE*.
 
 \begin{figure}[h!]
     \centering
@@ -1022,22 +1024,22 @@ la paire VILLEPREUX (L'Encyclopédie, T17, p.282 et La Grande Encyclopédie, T31
 p.1007), visible à la figure \ref{fig:villepreux_pair}, deux entrées très
 simples et «clairement» géographiques pour le lectorat contemporain. Le modèle
 échoue pourtant à reconnaître le domaine dans la moitié issue de *LGE*, sans
-doute à cause de la présence d'éléments anachroniques pour l'*EDdA* où il a été
-entraîné comme «chem. de fer» ou l'adjectif «professionnelle» qui n'est attesté
-qu'à partir de 1842\. Il est intéressant de remarquer que cet article débute par
-le motif des communes identifié à la section \ref{sec:classifying_lge}
-p.\pageref{lst:com_du_dep_regex}, mais ne fait pas partie des articles
-identifiés à cause de sa longueur[^longueur], précisément due à ces phrases
-nominales en fin d'article qui mentionnent des infrastructures présentes sur la
-commune. Ces informations supplémentaires qui font que l'article n'a pas été
-repéré directement comme un article de commune (et n'a donc pas été annoté
-*Géographie*) n'ont pas permis au modèle d'identifier de la géographie car elles
-mentionnent des realias trop différentes de celles existant au XVIII^ème^
-siècle.
+doute à cause de la présence d'éléments anachroniques pour l'*EDdA* sur laquelle
+il a été entraîné comme «chem. de fer» ou l'adjectif «professionnelle» qui n'est
+attesté qu'à partir de 1842\. Il est intéressant de remarquer que cet article
+débute par le motif des communes identifié à la section
+\ref{sec:classifying_lge} p.\pageref{lst:com_du_dep_regex}, mais ne fait pas
+partie des articles identifiés à cause de sa longueur[^longueur], précisément
+due à ces phrases nominales en fin d'article qui mentionnent des infrastructures
+présentes sur la commune. Ces informations supplémentaires qui font que
+l'article n'a pas été repéré directement comme un article de commune (et n'a
+donc pas été annoté *Géographie*) n'ont pas permis au modèle d'identifier de la
+géographie car elles mentionnent des realias trop différentes de celles existant
+au XVIII^ème^ siècle.
 
 [^longueur]: pour rappel, un seuil de 50 tokens avait été imposé pour diminuer
     les faux-positifs et ne pas risquer d'annoter *Géographie* trop d'articles
-    simplement amalgamé avec un article bref à cause des problèmes de
+    simplement amalgamés avec un article bref à cause des problèmes de
     segmentation de `soprano` (voir section \ref{sec:corpus_preprocessing_lge}
     p.\pageref{lge_segmentation})
 
@@ -1069,7 +1071,7 @@ classement en *Géographie* par les éditeurs, l'article correspondant dans *LGE
 (La Grande Encyclopédie, T31, p.1104) en fait une description bien plus
 structurelle, et introduit des termes comme «lave», «cheminée», «explosion»,
 absents de la précédente ce qui conduit le modèle à le classer à *Physique*. Les
-trajectoires paires PORPHYRITE (L'Encyclopédie, T13, p.127 et La Grande
+trajectoires des paires PORPHYRITE (L'Encyclopédie, T13, p.127 et La Grande
 Encyclopédie, T27, p.328) et PURBECK (L'Encyclopédie, T13, p.576 et La Grande
 Encyclopédie, T27, p.964) sont assez semblables mais avec la classe *Histoire
 naturelle* et dans deux directions opposées. L'entrée PORPHYRITE de l'*EDdA*
@@ -1137,10 +1139,10 @@ sphères. Les deux articles sont classés comme on peut s'y attendre à *Physiqu
 La fin du XIX^ème^ siècle est marquée par de grandes explorations, entre autres
 vers les pôles qui deviennent peu à peu perceptibles en tant que territoire
 plutôt que comme de simples abstractions géométriques[^polaire] ce qui conduit à
-traitement très différent des deux mêmes entrées dans *LGE*. Si ANTARCTIQUE (La
-Grande Encyclopédie, T3, p.135) reste dans une certaine mesure similaire (on y
-parle d'«axe», de «cercle» et de «parallèle» dans un «I. ASTRONOMIE»), il y est
-tout de même question de «région», de «monde», et un «II. Géographie» qui
+un traitement très différent des deux mêmes entrées dans *LGE*. Si ANTARCTIQUE
+(La Grande Encyclopédie, T3, p.135) reste dans une certaine mesure similaire (on
+y parle d'«axe», de «cercle» et de «parallèle» dans un «I. ASTRONOMIE»), il y
+est tout de même question de «région», de «monde», et un «II. Géographie» qui
 consiste en un renvoi vers l'entrée OCÉAN suffit à ce que le modèle classe
 l'article à *Géographie*. La bascule est encore bien plus nette avec l'ARCTIQUE
 (La Grande Encyclopédie, T3, p.774) qui, après une phrase introductive pour
@@ -1163,22 +1165,23 @@ spécialiser pour garder ce qui lui est propre.
     ce pôle.
 
 L'approche particulière de cette sous-section, en s'intéressant à des articles
-précis plutôt qu'à des domaines dans leur ensemble a permis de mener une études
+précis plutôt qu'à des domaines dans leur ensemble a permis de mener une étude
 plus qualitative. Les observations qui y ont été faites mettent en évidence des
 différences significatives dans les rôles et les méthodes de la géographie entre
 les articles dans l'*EDdA* et ceux dans *LGE*, dont le contenu s'individualise
 entre les deux époques par rapport à celui des autres disciplines.
 
-Mise en regard de la sous-section précédente sur la place accordée aux discours
-géographiques, des évolutions subies par la géographie commencent à apparaître.
-L'intervalle de temps est d'abord marqué par un fort accroissement de la
-volumétrie consacrée à la classe *Géographie*, avec un plus grand nombre
-d'articles, dont la plupart restent extrêmement brefs mais également une
-diversification des profils d'articles avec l'apparition d'articles bien plus
-longs que ceux consacrés à cette discipline dans l'*EDdA*. Parallèlement, elle
-se spécialise et gagne en technicité, utilisant au passage davantage de mots
-plus longs et structurant les informations au delà de simplement concentrer des
-noms de lieux et de personnes. Elle cède par ailleurs à d'autres disciplines des
-thématiques qui lui revenaient par défaut et donne bien plus d'informations plus
-détaillées sur celles qu'elles conserve.
+En ajoutant les résultats de cette sous-section à ceux sur la place accordée aux
+discours géographiques obtenus au début de ce chapitre, une dynamique générale
+commence à apparaître dans les évolutions subies par la géographie. L'intervalle
+de temps est d'abord marqué par un fort accroissement de la volumétrie consacrée
+à la classe *Géographie*, avec un plus grand nombre d'articles, dont la plupart
+restent extrêmement brefs mais également une diversification des profils
+d'articles avec l'apparition d'articles bien plus longs que ceux consacrés à
+cette discipline dans l'*EDdA*. Parallèlement, elle se spécialise et gagne en
+technicité, utilisant au passage davantage de mots plus longs et structurant les
+informations au delà de simplement concentrer des noms de lieux et de personnes.
+Elle cède par ailleurs à d'autres disciplines des thématiques qui lui revenaient
+par défaut et donne bien plus d'informations plus détaillées sur celles qu'elle
+conserve.
 
-- 
GitLab