From 23437688e9eb4c50e476ab8ec234744336e8775d Mon Sep 17 00:00:00 2001
From: Alice BRENON <alice.brenon@ens-lyon.fr>
Date: Mon, 31 Mar 2025 23:26:26 +0200
Subject: [PATCH] Proofread Chapt.3 Corpus up to the end of 3.2.2 (p.75)

---
 Corpus/Application.md     |   4 +-
 Corpus/Encodage.md        |  12 ++--
 Corpus/Introduction.md    |   2 +-
 "Corpus/\305\222uvres.md" | 132 ++++++++++++++++++--------------------
 4 files changed, 71 insertions(+), 79 deletions(-)

diff --git a/Corpus/Application.md b/Corpus/Application.md
index fc4eed8..e3ffbd9 100644
--- a/Corpus/Application.md
+++ b/Corpus/Application.md
@@ -147,7 +147,7 @@ sorties de Stanza.
 [^treetagger]:
     [https://cis.uni-muenchen.de/~schmid/tools/TreeTagger/](https://cis.uni-muenchen.de/~schmid/tools/TreeTagger/)
 
-### Principe de structuration {#sec:corpus_structuring_metadata}
+### Principes de structuration {#sec:corpus_structuring_metadata}
 
 Un corpus n'est pas constitué que de données, quelle que soit la qualité du
 format qui les représente. Une part importante de l'effort d'organisation de
@@ -474,7 +474,7 @@ sur une plateforme d'intégration continue; toutefois, la reproductibilité peut
 constituer un atout précieux pour les [@=HN] et les présents travaux doivent
 reconnaître ses apports.
 
-#### Principes {#sec:principles}
+#### Mise en pratique dans le contexte de l'étude {#sec:principles}
 
 Puisque la rediffusion de la totalité des données de cette thèse est
 inaccessible, il faut revenir aux définitions des concepts élémentaires en
diff --git a/Corpus/Encodage.md b/Corpus/Encodage.md
index aaf4b35..8a58c65 100644
--- a/Corpus/Encodage.md
+++ b/Corpus/Encodage.md
@@ -31,7 +31,7 @@ profondeur est limitée car avant de disposer d'une version numérique il est
 impossible de savoir quel article a la structure la plus profonde et si cette
 profondeur est bien inférieure à 7. Cette partie, en reprenant et étendant des
 travaux exposés dans @brenon_encoding_2024, explore les possibilités et les
-écueils mis en évidence page \ref{sec:EdlA_tei_limits} à la section
+écueils mis en évidence page \pageref{sec:EdlA_tei_limits} à la section
 \ref{sec:EdlA_tei_applications} pour définir un schéma d'encodage approprié à
 *LGE*.
 
@@ -598,9 +598,9 @@ liens entre articles est tellement fréquente (autant dans les dictionnaires que
 dans les encyclopédies) que le processus échappe dans une certaine mesure au
 reste du discours et prend une forme particulière et codifiée, entre parenthèses
 et après un token précis qui invite à effectuer soi-même la redirection lors de
-la lecture. Dans *La Grande Encyclopédie* la très large majorité des renvois a
-ainsi lieu entre parenthèses, et le renvoi est suggéré par le verbe «voir»
-raccourci à son initiale «V.» comme cela était déjà visible sur la figure
+la lecture. Dans *LGE* la très large majorité des renvois a ainsi lieu entre
+parenthèses, et le renvoi est suggéré par le verbe «voir» raccourci à son
+initiale «V.» comme cela était déjà visible sur la figure
 \ref{fig:gelocus_photo}. Quelques très rares exceptions conservent la forme
 «voir», «voy.» ou même «voyez» (avec ou sans majuscule) mais il s'agit dans la
 plupart des cas de renvois externes, vers d'autres œuvres que *LGE*. Lorsqu'il
@@ -641,7 +641,7 @@ totalité de *LGE* sur une machine de 16Go de RAM peut rester voisin de 40min en
 lançant 3 processus en parallèle (au lieu des $31 \times 4 = 124min = 2h04$
 totales nécessaires sans parallélisation).
 
-#### Dans l'implémentation actuelle
+#### État de l'implémentation actuelle
 
 L'implémentation de référence pour ce schéma d'encodage est le programme
 soprano[^soprano]. Ce logiciel a déjà servi à créer deux versions mais il
@@ -685,7 +685,7 @@ géographiques présentes dans l'œuvre sont imprimées sur des feuilles distinc
 des cahiers en sextodecimo contenant le texte proprement dit avec lesquels elles
 sont simplement reliées. Elles ne comportent pas de numéro de page, et la
 numérotation se met donc en quelque sorte en pause sur les quelques pages qui
-les contiennent. Si elle n'incrémente donc pas simplement de 1 à chaque page en
+les contiennent. Si elle n'incrémente donc pas simplement de un à chaque page en
 entrée du processus, il n'est pas non plus facile de la lire directement sur
 chaque page sans contexte: en tant qu'élément péritexte, les caractères sont
 souvent malmenés par l'[@=OCR] et ne ressemblent parfois pas à des entiers. Pour
diff --git a/Corpus/Introduction.md b/Corpus/Introduction.md
index a4df5ae..d5378dc 100644
--- a/Corpus/Introduction.md
+++ b/Corpus/Introduction.md
@@ -4,7 +4,7 @@ seulement les tâches qui ont été réalisées le plus tôt dans cette thèse m
 également celles qui ont requis le plus de travail. Toutefois, sa place avant
 les autres chapitres ne reflète pas un ordre strict de dépendance: au contraire,
 de nombreux allers et retours ont été nécessaires entre les données et les
-outils utilisés pour les exploiter: ce chapitre est une tentative de saisir un
+outils utilisés pour les exploiter. Ce chapitre est une tentative de saisir un
 état satisfaisant d'un effort en réalité continu et pouvant se poursuivre sans
 fin.
 
diff --git "a/Corpus/\305\222uvres.md" "b/Corpus/\305\222uvres.md"
index 6b0f906..a892277 100644
--- "a/Corpus/\305\222uvres.md"
+++ "b/Corpus/\305\222uvres.md"
@@ -25,8 +25,8 @@ souvent utilisés de manière assez interchangeables pour désigner des livres q
 regroupent de nombreuses connaissances et les ordonnent en listes de définitions
 alphabétiques. Leur similarité est visible jusque dans le titre complet de
 l'*EDdA*, «Encyclopédie ou dictionnaire raisonné». Si le mot «encyclopédie» fait
-aujourd'hui partie de notre vocabulaire, il était bien plus surprenant et même
-controversé quand Diderot et d'Alembert ont choisi de l'utiliser pour leur
+aujourd'hui partie du vocabulaire ordinaire, il était bien plus surprenant et
+même controversé quand Diderot et d'Alembert ont choisi de l'utiliser pour leur
 œuvre.
 
 Il ne s'agit pourtant pas d'un néologisme: le terme est déjà en usage au
@@ -217,16 +217,17 @@ contigus ni au début ni à la fin de l'œuvre. Ensuite, cette version en «text
 brut» (en réalité une page HTML avec un balisage minimal) ne comporte qu'une
 annotation très superficielle et n'est en particulier pas segmentée en articles.
 Cela est un obstacle majeur pour les présents travaux, puisque l'unité d'étude
-de notre corpus est l'article, permettant de mettre en évidence des régularités
-propres à un domaine de connaissance ou à un auteur précis en vue d'analyses
-contrastives. Enfin, des erreurs dans la détection de l'organisation de la page
-([@=OLR]) obscurcissent significativement le texte en opérant des permutations
-locales de son contenu qui viennent parfois mélanger des morceaux d'articles
-entre eux. Cela complique nettement la segmentation du texte en articles et
-vient dans tous les cas endommager la structure des phrases. Ces nouvelles
-erreurs se répercutent à leur tour sur les phases ultérieures d'analyse, causant
-des problèmes dans les annotations morphosyntaxiques et syntaxiques qu'il est
-nécessaire d'appliquer au texte pour faire de la textométrie.
+du présent corpus est l'article, permettant de mettre en évidence des
+régularités propres à un domaine de connaissance ou à un auteur précis en vue
+d'analyses contrastives. Enfin, des erreurs dans la détection de l'organisation
+de la page ([@=OLR]) obscurcissent significativement le texte en opérant des
+permutations locales de son contenu qui viennent parfois mélanger des morceaux
+d'articles entre eux. Cela complique nettement la segmentation du texte en
+articles et vient dans tous les cas endommager la structure des phrases. Ces
+nouvelles erreurs se répercutent à leur tour sur les phases ultérieures
+d'analyse, causant des problèmes dans les annotations morphosyntaxiques et
+syntaxiques qu'il est nécessaire d'appliquer au texte pour faire de la
+textométrie.
 
 [^LGE-V1-liste-des-tomes]: [https://gallica.bnf.fr/ark:/12148/bpt6k246407#](https://gallica.bnf.fr/ark:/12148/bpt6k246407#)
 
@@ -303,12 +304,13 @@ apparaissent en majuscules. Dans l'*EDdA*, il existe même en réalité deux
 niveaux de division: certains termes sujets à une forte homonymie ou possédant
 de nombreux dérivés contiennent plusieurs entrées dont les vedettes sont
 graphiées en petites capitales. Pour cette raison, l'[@=ENCCRE] numérote les
-textes sur trois niveaux, ajoutant aux numéros de tome et d'«adresse» (la
-structure correspondant aux articles dans le cas général) un numéro d'«entrée».
-L'[@=ARTFL] se limite à deux niveaux et regroupe parfois plusieurs entrées au
-sein d'un même «article», une différence à l'origine de certaines complications
-rencontrées lors des travaux de classification (voir section
-\ref{segmentation_discrepancies} p.\pageref{segmentation_discrepancies}).
+textes sur trois niveaux, ajoutant aux numéros de tome et d'«adresse» (nom
+utilisé par l'[@=ARTFL] pour désigner la structure correspondant aux articles
+dans le cas général) un numéro d'«entrée». L'[@=ARTFL] se limite à deux niveaux
+et regroupe parfois plusieurs entrées au sein d'un même «article», une
+différence à l'origine de certaines complications rencontrées lors des travaux
+de classification (voir section \ref{segmentation_discrepancies}
+p.\pageref{segmentation_discrepancies}).
 
 La vedette a une existence grammaticale à part du reste de l'article, ce qui
 confirme son rôle de «clef» dans la gigantesque table associative formée par une
@@ -477,7 +479,7 @@ revendiquée par d'Alembert dès le Discours Préliminaire (L'Encyclopédie, T1,
 p.xvj), elle est aussi visible dans les trois colonnes qui partagent le «Systême
 figuré des connoissances humaines» reproduit à la figure
 \ref{fig:systeme_figure}. Elle témoigne d'une structuration à priori des
-sciences bien plus ambitieuse que la division très pragmatique de Lowthorpe. Sa
+sciences bien plus ambitieuse que la division très pragmatique de Lowthorp. Sa
 catégorie des Singularités semble tout de même trouver un écho dans la branche
 des «Écarts de la Nature» du «Systême» (voir à gauche de l'arbre de la figure
 \ref{fig:systeme_figure} dans la moitié supérieure) mais c'est bien là la seule
@@ -578,14 +580,15 @@ obtient donc une spécificité de 33 dans l'*EDdA* ce qui est suffisant pour
 
 \label{lge_preface_domains}Dans *LGE*, il n'y a pas d'arborescence des
 connaissances mais la préface accorde une place majeure à la notion de domaine.
-Dès sa première page (La Grande Encyclopédie, T1, p.I), ses auteurs après avoir
-justifié le bien-fondé de leur entreprise par le manque d'encyclopédie française
-à jour en termes de connaissances scientifiques établissent une longue liste de
-domaines de connaissance pour montrer la grande variété de sujets que *LGE* se
-propose de couvrir («en un mot, tout ce qui est de nature à jeter la lumière sur
-le monde physique et sur le monde intellectuel»). Plus que réellement des noms
-de sciences, il s'agit plutôt de thématiques choisies pour mettre en valeur les
-intérêts de l'époque — ce qui permet la mention des «applications nouvelles de
+Dès la première page (La Grande Encyclopédie, T1, p.I), ses auteurs justifient
+le bien-fondé de leur entreprise par l'absence d'une œuvre française à jour en
+termes de connaissances scientifiques dans le paysage encyclopédique de
+l'époque. Ils établissent ensuite une longue liste de domaines de connaissance
+pour montrer la grande variété de sujets que *LGE* se propose de couvrir («en un
+mot, tout ce qui est de nature à jeter la lumière sur le monde physique et sur
+le monde intellectuel»). Plus que réellement des noms de sciences, il s'agit
+plutôt de thématiques choisies pour mettre en valeur les intérêts de
+l'époque — ce qui permet la mention des «applications nouvelles de
 l'électricité» alors que la physique et la chimie dont elles relèvent pourtant
 figurent déjà dans la liste. La géographie quant à elle n'est même pas
 mentionnée. Elle n'apparaît que plus bas sur la même page, ses découvertes étant
@@ -642,13 +645,13 @@ d'«arrêter une classification définitive» les auteurs de *LGE* optent pour u
 système inspiré de l'approche historique d'Auguste Comte remise à jour.
 
 L'avant-propos poursuit ce travail en fixant un objectif de taille à l'ensemble
-du projet avant d'accorder place à chacun des domaines (La Grande Encyclopédie,
-T1, p.XI). C'est la première et seule apparition de la liste des 14 domaines
-retenus plus un domaine «Matières diverses» pour absorber tout élément qui
-mettrait en défaut ces domaines, témoin s'il était besoin du pragmatisme de
-l'approche à postériori de leur système — un outil pratique tout au plus mais
-sans illusions sur une quelconque valeur particulière d'un point de vue
-philosophique. Ces choix donnent le tableau présenté figure
+du projet avant d'accorder une place à chacun des domaines (La Grande
+Encyclopédie, T1, p.XI). C'est la première et seule apparition de la liste des
+14 domaines retenus plus un domaine «Matières diverses» pour absorber tout
+élément qui mettrait en défaut ces domaines, témoin s'il était besoin du
+pragmatisme de l'approche à postériori de leur système — un outil pratique tout
+au plus mais sans illusions sur une quelconque valeur particulière d'un point de
+vue philosophique. Ces choix donnent le tableau présenté figure
 \ref{fig:lge_editors_domains}, d'aspect presque trivial par contraste avec le
 profond travail de réflexion épistémologique qui le précède.
 
@@ -696,7 +699,7 @@ Difficile donc de distinguer les deux sans posséder une liste exacte ou bien de
 prénoms apparaissants ou bien des domaines utilisés (car les désignants ne
 suivent pas les 14 domaines présentés à la figure \ref{fig:lge_editors_domains}
 qui ne fournissent qu'un cadre catégorique assez vaste). Un rapide parcours de
-la liste de ces 60 762 mot obtenus en position de désignant suffit pour se
+la liste de ces 60 762 mots obtenus en position de désignant suffit pour se
 rendre compte que les prénoms sont extrêmement fréquents, sans doute
 majoritaires sur les noms de domaines abréviés. Un filtrage sur le caractère '.'
 (caractéristique des désignants abréviés et normalement absent des noms de
@@ -721,7 +724,7 @@ p.1025) dont un extrait est reproduit à la figure \ref{fig:chemin_lge}. Sa
 section III. s'intitule «Droit» et ne contient qu'un renvoi à l'article VOIRIE,
 la section IV. «Marine» ne comporte qu'un paragraphe (ces deux exemples montre
 que le découpage en section ne correspond pas nécessairement à un besoin de
-répartition harmonieux du volume de texte mais bien à une logique structurelle
+répartition harmonieuse du volume de texte mais bien à une logique structurelle
 propre) et la section V., «Art militaire» semble bien plus longue puisqu'elle
 s'ouvre sur une sous-section (non-numérotée) «\textsc{Chemin couvert}». Cette
 approche diffère de celle suivie dans l'*EDdA* où les termes ayant une existence
@@ -804,34 +807,23 @@ MILITAIRE (L'Encyclopédie, T5, p.311), il présente la Géographie comme un
 prérequis à l'Histoire, dont elle servirait à situer les grands événements. En
 ce sens, il déroge à la classification du «Systême figuré» pour sortir la
 Géographie de la branche de l'arbre consacrée à la raison et la placer sur celle
-de la mémoire.
-
-Dans *LGE*, le rapprochement est consommé puisque les deux disciplines sont
-associées et leurs articles décomptés ensemble dans le tableau des répartition
-des articles entre différents domaines présenté à la figure
-\ref{fig:lge_editors_domains}. De plus, si la liste des collaborateurs du projet
-n'associe pas chacun à une discipline précise, il est à noter que sur les 12
-membres du projet dont la qualité contient le mot «géographie», la moitié
-exactement d'entre eux sont des enseignants, agrégés ou professeurs, à la fois
-d'histoire et de géographie. Cette observation est cohérente avec le rôle bien
-connu joué par l'association de ces deux disciplines à l'école dans la
-constitution d'une identité nationale, qui trouve son impulsion dans la
-Révolution Française et n'a été remise en cause ni par les empires ni par les
-républiques ultérieures pour culminer dans les célèbres lois «Jules Ferry»
-[@chevalier_geographie_2013, ¶¶2 et 3].
+de la mémoire. Dans *LGE*, le rapprochement est consommé puisque les deux
+disciplines sont associées et leurs articles décomptés ensemble dans le tableau
+des répartition des articles entre différents domaines présenté à la figure
+\ref{fig:lge_editors_domains}.
 
 Au travers des analyses présentées dans cette section, la notion de domaine de
 connaissance apparaît donc bien comme fondamentale. Elle joue un rôle central
 dans la structuration des encyclopédies et se matérialise sous plusieurs formes
-plus ou moins rigides, des désignants aux simple tournures de phrases en passant
-par des titres de section. La Géographie apparaît comme un prérequis à plusieurs
-autres disciplines, ce qui lui donne une place plutôt avantageuse dans l'ordre
-d'«enchaînement» des connaissances que les encyclopédistes — tant au XVIII^ème^
-qu'au XIX^ème^ siècle — s'efforcent de saisir. Elle semble occuper en quelque
-sorte un rôle de pivot en permettant l'articulation de sciences aussi diverses
-que les Mathématiques et l'Histoire. Cette position spécifique constitue un
-première confirmation de la pertinence du choix de singulariser cette discipline
-au sein des encyclopédies dans les présents travaux.
+plus ou moins rigides, des désignants aux simples tournures de phrases en
+passant par des titres de section. La Géographie apparaît comme un prérequis à
+plusieurs autres disciplines, ce qui lui donne une place plutôt avantageuse dans
+l'ordre d'«enchaînement» des connaissances que les encyclopédistes — tant au
+XVIII^ème^ qu'au XIX^ème^ siècle — s'efforcent de saisir. Elle semble occuper en
+quelque sorte un rôle de pivot en permettant l'articulation de sciences aussi
+diverses que les Mathématiques et l'Histoire. Cette position spécifique
+constitue un première confirmation de la pertinence du choix de singulariser
+cette discipline au sein des encyclopédies dans les présents travaux.
 
 ### Prétraitements {#sec:corpus_preprocessing}
 
@@ -859,19 +851,19 @@ Certains éléments comme `sc`, `blockquote` ou `page` sont utilisés alors qu'i
 n'existent pas dans le schéma [@=TEI]. Plus préoccupant, d'autres ne sont pas
 complets: plusieurs éléments `<index/>` utilisés pour représenter les
 métadonnées des articles au moyen de leurs attributs (sans contenus donc, ils
-sont censés être auto-fermants) n'ont pas leur `/` final, ce qui syntaxiquement
+sont censés être autofermants) n'ont pas leur `/` final, ce qui syntaxiquement
 signifie qu'ils ne se ferment jamais et englobent tout le reste du fichier après
 eux. Enfin, certains sont tout simplement mal formés: on trouve des balises
 pourvues d'attributs mais pas d'un tag (comme `<XREEF="Incorrupticoles">`, sans
 `<` ouvrant avant leur tag, ainsi que quelques erreurs dans les entités XML.
 Mais le problème le plus spectaculaire réside dans les quelques occurrences de
-`&amp`;, qui représenterait en XML le caractère '&' (esperluette), si seulement
+`&amp`; qui représenterait en XML le caractère '&' (esperluette), si seulement
 son dernier caractère était un ';' (point virgule) : il s'agit malheureusement
 en réalité du caractère UTF-8 `U+037e` utilisé en grec pour marquer
-l'interrogation à la place de notre '?', quasi identique visuellement.
-L'irrégularité de ces erreurs et en particulier l'homographie en jeu dans la
-dernière incite à penser que l'encodage de ces fichiers a été réalisé par des
-opérateurs humains.
+l'interrogation à la place du '?', quasi identique visuellement, qui prévaut en
+français et dans de nombreuses langues occidentales. L'irrégularité de ces
+erreurs et en particulier l'homographie en jeu dans la dernière incite à penser
+que l'encodage de ces fichiers a été réalisé par des opérateurs humains.
 
 Pour corriger ces erreurs ainsi que pour procéder à la division des tomes
 proprement dite tout en extrayant les métadonnées des articles, quelques scripts
@@ -995,7 +987,7 @@ Chacune de ces unités peut seulement venir «avant» ou «après» une autre: n
 du langage oral qui se déploie dans la seule dimension temporelle: au-delà des
 différences structurelles propres qui peuvent distinguer l'oral de l'écrit,
 toute production écrite peut donner lieu à une production orale (en la lisant)
-et doit donc s'inscrire dans cette unidimensionalité. À l'échelle d'un bloc de
+et doit donc s'inscrire dans cette unidimensionnalité. À l'échelle d'un bloc de
 texte, ces notions se traduisent par la lecture des lignes de haut en bas et, à
 l'intérieur d'une ligne, des mots de gauche à droite. Mais entre blocs,
 l'évidence d'ordre s'estompe: les pages comme celle présentée à la figure
@@ -1065,9 +1057,9 @@ plusieurs fichiers). Les auteurs de *LGE* en mentionnent 200 000 quand ils
 fin du projet est encore assez lointaine alors et quand on tient compte des
 difficultés financières qu'a connu le projet à sa toute fin [@jacquet_pfau2015,
 p.90], il paraît possible que cette prévision n'ait pas été tout à fait
-atteinte. Le nombre réel d'article dans *LGE* demeure donc inconnu, mais
-pourrait être de l'orde de 150 000 à 200 000 articles, soit environ du double au
-triple de celui de l'*EDdA*. Il faut pourtant poursuivre, car la quête d'une
+atteinte. Le nombre réel d'articles dans *LGE* demeure donc inconnu, mais
+pourrait être de l'ordre de 150 000 à 200 000 articles, soit environ du double
+au triple de celui de l'*EDdA*. Il faut pourtant poursuivre, car la quête d'une
 qualité parfaite est sans fin et des erreurs subsistent toujours, même dans les
 sources les plus fiables. Ainsi la version de l'*EDdA* de l'[@=ARTFL] contient
 aussi au moins un cas de sous-segmentation, l'entrée pour MÉLER UN CHEVAL
-- 
GitLab