From 23437688e9eb4c50e476ab8ec234744336e8775d Mon Sep 17 00:00:00 2001
From: Alice BRENON <alice.brenon@ens-lyon.fr>
Date: Mon, 31 Mar 2025 23:26:26 +0200
Subject: [PATCH] Proofread Chapt.3 Corpus up to the end of 3.2.2 (p.75)

---
 Corpus/Application.md     |   4 +-
 Corpus/Encodage.md        |  12 ++--
 Corpus/Introduction.md    |   2 +-
 "Corpus/\305\222uvres.md" | 132 ++++++++++++++++++--------------------
 4 files changed, 71 insertions(+), 79 deletions(-)

diff --git a/Corpus/Application.md b/Corpus/Application.md
index fc4eed8..e3ffbd9 100644
--- a/Corpus/Application.md
+++ b/Corpus/Application.md
@@ -147,7 +147,7 @@ sorties de Stanza.
 [^treetagger]:
     [https://cis.uni-muenchen.de/~schmid/tools/TreeTagger/](https://cis.uni-muenchen.de/~schmid/tools/TreeTagger/)
 
-### Principe de structuration {#sec:corpus_structuring_metadata}
+### Principes de structuration {#sec:corpus_structuring_metadata}
 
 Un corpus n'est pas constituÃ© que de donnÃ©es, quelle que soit la qualitÃ© du
 format qui les reprÃ©sente. Une part importante de l'effort d'organisation de
@@ -474,7 +474,7 @@ sur une plateforme d'intÃ©gration continue; toutefois, la reproductibilitÃ© peut
 constituer un atout prÃ©cieux pour les [@=HN] et les prÃ©sents travaux doivent
 reconnaÃ®tre ses apports.
 
-#### Principes {#sec:principles}
+#### Mise en pratique dans le contexte de l'Ã©tude {#sec:principles}
 
 Puisque la rediffusion de la totalitÃ© des donnÃ©es de cette thÃ¨se est
 inaccessible, il faut revenir aux dÃ©finitions des concepts Ã©lÃ©mentaires en
diff --git a/Corpus/Encodage.md b/Corpus/Encodage.md
index aaf4b35..8a58c65 100644
--- a/Corpus/Encodage.md
+++ b/Corpus/Encodage.md
@@ -31,7 +31,7 @@ profondeur est limitÃ©e car avant de disposer d'une version numÃ©rique il est
 impossible de savoir quel article a la structure la plus profonde et si cette
 profondeur est bien infÃ©rieure Ã  7. Cette partie, en reprenant et Ã©tendant des
 travaux exposÃ©s dans @brenon_encoding_2024, explore les possibilitÃ©s et les
-Ã©cueils mis en Ã©vidence page \ref{sec:EdlA_tei_limits} Ã  la section
+Ã©cueils mis en Ã©vidence page \pageref{sec:EdlA_tei_limits} Ã  la section
 \ref{sec:EdlA_tei_applications} pour dÃ©finir un schÃ©ma d'encodage appropriÃ© Ã 
 *LGE*.
 
@@ -598,9 +598,9 @@ liens entre articles est tellement frÃ©quente (autant dans les dictionnaires que
 dans les encyclopÃ©dies) que le processus Ã©chappe dans une certaine mesure au
 reste du discours et prend une forme particuliÃ¨re et codifiÃ©e, entre parenthÃ¨ses
 et aprÃ¨s un token prÃ©cis qui invite Ã  effectuer soi-mÃªme la redirection lors de
-la lecture. Dans *La Grande EncyclopÃ©die* la trÃ¨s large majoritÃ© des renvois a
-ainsi lieu entre parenthÃ¨ses, et le renvoi est suggÃ©rÃ© par le verbe Â«voirÂ»
-raccourci Ã  son initiale Â«V.Â» comme cela Ã©tait dÃ©jÃ  visible sur la figure
+la lecture. Dans *LGE* la trÃ¨s large majoritÃ© des renvois a ainsi lieu entre
+parenthÃ¨ses, et le renvoi est suggÃ©rÃ© par le verbe Â«voirÂ» raccourci Ã  son
+initiale Â«V.Â» comme cela Ã©tait dÃ©jÃ  visible sur la figure
 \ref{fig:gelocus_photo}. Quelques trÃ¨s rares exceptions conservent la forme
 Â«voirÂ», Â«voy.Â» ou mÃªme Â«voyezÂ» (avec ou sans majuscule) mais il s'agit dans la
 plupart des cas de renvois externes, vers d'autres Å“uvres que *LGE*. Lorsqu'il
@@ -641,7 +641,7 @@ totalitÃ© de *LGE* sur une machine de 16Go de RAM peut rester voisin de 40min en
 lanÃ§ant 3 processus en parallÃ¨le (au lieu des $31 \times 4 = 124min = 2h04$
 totales nÃ©cessaires sans parallÃ©lisation).
 
-#### Dans l'implÃ©mentation actuelle
+#### Ã‰tat de l'implÃ©mentation actuelle
 
 L'implÃ©mentation de rÃ©fÃ©rence pour ce schÃ©ma d'encodage est le programme
 soprano[^soprano]. Ce logiciel a dÃ©jÃ  servi Ã  crÃ©er deux versions mais il
@@ -685,7 +685,7 @@ gÃ©ographiques prÃ©sentes dans l'Å“uvre sont imprimÃ©es sur des feuilles distinc
 des cahiers en sextodecimo contenant le texte proprement dit avec lesquels elles
 sont simplement reliÃ©es. Elles ne comportent pas de numÃ©ro de page, et la
 numÃ©rotation se met donc en quelque sorte en pause sur les quelques pages qui
-les contiennent. Si elle n'incrÃ©mente donc pas simplement de 1 Ã  chaque page en
+les contiennent. Si elle n'incrÃ©mente donc pas simplement de un Ã  chaque page en
 entrÃ©e du processus, il n'est pas non plus facile de la lire directement sur
 chaque page sans contexte: en tant qu'Ã©lÃ©ment pÃ©ritexte, les caractÃ¨res sont
 souvent malmenÃ©s par l'[@=OCR] et ne ressemblent parfois pas Ã  des entiers. Pour
diff --git a/Corpus/Introduction.md b/Corpus/Introduction.md
index a4df5ae..d5378dc 100644
--- a/Corpus/Introduction.md
+++ b/Corpus/Introduction.md
@@ -4,7 +4,7 @@ seulement les tÃ¢ches qui ont Ã©tÃ© rÃ©alisÃ©es le plus tÃ´t dans cette thÃ¨se m
 Ã©galement celles qui ont requis le plus de travail. Toutefois, sa place avant
 les autres chapitres ne reflÃ¨te pas un ordre strict de dÃ©pendance: au contraire,
 de nombreux allers et retours ont Ã©tÃ© nÃ©cessaires entre les donnÃ©es et les
-outils utilisÃ©s pour les exploiter: ce chapitre est une tentative de saisir un
+outils utilisÃ©s pour les exploiter. Ce chapitre est une tentative de saisir un
 Ã©tat satisfaisant d'un effort en rÃ©alitÃ© continu et pouvant se poursuivre sans
 fin.
 
diff --git "a/Corpus/\305\222uvres.md" "b/Corpus/\305\222uvres.md"
index 6b0f906..a892277 100644
--- "a/Corpus/\305\222uvres.md"
+++ "b/Corpus/\305\222uvres.md"
@@ -25,8 +25,8 @@ souvent utilisÃ©s de maniÃ¨re assez interchangeables pour dÃ©signer des livres q
 regroupent de nombreuses connaissances et les ordonnent en listes de dÃ©finitions
 alphabÃ©tiques. Leur similaritÃ© est visible jusque dans le titre complet de
 l'*EDdA*, Â«EncyclopÃ©die ou dictionnaire raisonnÃ©Â». Si le mot Â«encyclopÃ©dieÂ» fait
-aujourd'hui partie de notre vocabulaire, il Ã©tait bien plus surprenant et mÃªme
-controversÃ© quand Diderot et d'Alembert ont choisi de l'utiliser pour leur
+aujourd'hui partie du vocabulaire ordinaire, il Ã©tait bien plus surprenant et
+mÃªme controversÃ© quand Diderot et d'Alembert ont choisi de l'utiliser pour leur
 Å“uvre.
 
 Il ne s'agit pourtant pas d'un nÃ©ologisme: le terme est dÃ©jÃ  en usage au
@@ -217,16 +217,17 @@ contigus ni au dÃ©but ni Ã  la fin de l'Å“uvre. Ensuite, cette version en Â«text
 brutÂ» (en rÃ©alitÃ© une page HTML avec un balisage minimal) ne comporte qu'une
 annotation trÃ¨s superficielle et n'est en particulier pas segmentÃ©e en articles.
 Cela est un obstacle majeur pour les prÃ©sents travaux, puisque l'unitÃ© d'Ã©tude
-de notre corpus est l'article, permettant de mettre en Ã©vidence des rÃ©gularitÃ©s
-propres Ã  un domaine de connaissance ou Ã  un auteur prÃ©cis en vue d'analyses
-contrastives. Enfin, des erreurs dans la dÃ©tection de l'organisation de la page
-([@=OLR]) obscurcissent significativement le texte en opÃ©rant des permutations
-locales de son contenu qui viennent parfois mÃ©langer des morceaux d'articles
-entre eux. Cela complique nettement la segmentation du texte en articles et
-vient dans tous les cas endommager la structure des phrases. Ces nouvelles
-erreurs se rÃ©percutent Ã  leur tour sur les phases ultÃ©rieures d'analyse, causant
-des problÃ¨mes dans les annotations morphosyntaxiques et syntaxiques qu'il est
-nÃ©cessaire d'appliquer au texte pour faire de la textomÃ©trie.
+du prÃ©sent corpus est l'article, permettant de mettre en Ã©vidence des
+rÃ©gularitÃ©s propres Ã  un domaine de connaissance ou Ã  un auteur prÃ©cis en vue
+d'analyses contrastives. Enfin, des erreurs dans la dÃ©tection de l'organisation
+de la page ([@=OLR]) obscurcissent significativement le texte en opÃ©rant des
+permutations locales de son contenu qui viennent parfois mÃ©langer des morceaux
+d'articles entre eux. Cela complique nettement la segmentation du texte en
+articles et vient dans tous les cas endommager la structure des phrases. Ces
+nouvelles erreurs se rÃ©percutent Ã  leur tour sur les phases ultÃ©rieures
+d'analyse, causant des problÃ¨mes dans les annotations morphosyntaxiques et
+syntaxiques qu'il est nÃ©cessaire d'appliquer au texte pour faire de la
+textomÃ©trie.
 
 [^LGE-V1-liste-des-tomes]: [https://gallica.bnf.fr/ark:/12148/bpt6k246407#](https://gallica.bnf.fr/ark:/12148/bpt6k246407#)
 
@@ -303,12 +304,13 @@ apparaissent en majuscules. Dans l'*EDdA*, il existe mÃªme en rÃ©alitÃ© deux
 niveaux de division: certains termes sujets Ã  une forte homonymie ou possÃ©dant
 de nombreux dÃ©rivÃ©s contiennent plusieurs entrÃ©es dont les vedettes sont
 graphiÃ©es en petites capitales. Pour cette raison, l'[@=ENCCRE] numÃ©rote les
-textes sur trois niveaux, ajoutant aux numÃ©ros de tome et d'Â«adresseÂ» (la
-structure correspondant aux articles dans le cas gÃ©nÃ©ral) un numÃ©ro d'Â«entrÃ©eÂ».
-L'[@=ARTFL] se limite Ã  deux niveaux et regroupe parfois plusieurs entrÃ©es au
-sein d'un mÃªme Â«articleÂ», une diffÃ©rence Ã  l'origine de certaines complications
-rencontrÃ©es lors des travaux de classification (voir section
-\ref{segmentation_discrepancies} p.\pageref{segmentation_discrepancies}).
+textes sur trois niveaux, ajoutant aux numÃ©ros de tome et d'Â«adresseÂ» (nom
+utilisÃ© par l'[@=ARTFL] pour dÃ©signer la structure correspondant aux articles
+dans le cas gÃ©nÃ©ral) un numÃ©ro d'Â«entrÃ©eÂ». L'[@=ARTFL] se limite Ã  deux niveaux
+et regroupe parfois plusieurs entrÃ©es au sein d'un mÃªme Â«articleÂ», une
+diffÃ©rence Ã  l'origine de certaines complications rencontrÃ©es lors des travaux
+de classification (voir section \ref{segmentation_discrepancies}
+p.\pageref{segmentation_discrepancies}).
 
 La vedette a une existence grammaticale Ã  part du reste de l'article, ce qui
 confirme son rÃ´le de Â«clefÂ» dans la gigantesque table associative formÃ©e par une
@@ -477,7 +479,7 @@ revendiquÃ©e par d'Alembert dÃ¨s le Discours PrÃ©liminaire (L'EncyclopÃ©die, T1,
 p.xvj), elle est aussi visible dans les trois colonnes qui partagent le Â«SystÃªme
 figurÃ© des connoissances humainesÂ» reproduit Ã  la figure
 \ref{fig:systeme_figure}. Elle tÃ©moigne d'une structuration Ã  priori des
-sciences bien plus ambitieuse que la division trÃ¨s pragmatique de Lowthorpe. Sa
+sciences bien plus ambitieuse que la division trÃ¨s pragmatique de Lowthorp. Sa
 catÃ©gorie des SingularitÃ©s semble tout de mÃªme trouver un Ã©cho dans la branche
 des Â«Ã‰carts de la NatureÂ» du Â«SystÃªmeÂ» (voir Ã  gauche de l'arbre de la figure
 \ref{fig:systeme_figure} dans la moitiÃ© supÃ©rieure) mais c'est bien lÃ  la seule
@@ -578,14 +580,15 @@ obtient donc une spÃ©cificitÃ© de 33 dans l'*EDdA* ce qui est suffisant pour
 
 \label{lge_preface_domains}Dans *LGE*, il n'y a pas d'arborescence des
 connaissances mais la prÃ©face accorde une place majeure Ã  la notion de domaine.
-DÃ¨s sa premiÃ¨re page (La Grande EncyclopÃ©die, T1, p.I), ses auteurs aprÃ¨s avoir
-justifiÃ© le bien-fondÃ© de leur entreprise par le manque d'encyclopÃ©die franÃ§aise
-Ã  jour en termes de connaissances scientifiques Ã©tablissent une longue liste de
-domaines de connaissance pour montrer la grande variÃ©tÃ© de sujets que *LGE* se
-propose de couvrir (Â«en un mot, tout ce qui est de nature Ã  jeter la lumiÃ¨re sur
-le monde physique et sur le monde intellectuelÂ»). Plus que rÃ©ellement des noms
-de sciences, il s'agit plutÃ´t de thÃ©matiques choisies pour mettre en valeur les
-intÃ©rÃªts de l'Ã©poqueÂ â€”â€¯ce qui permet la mention des Â«applications nouvelles de
+DÃ¨s la premiÃ¨re page (La Grande EncyclopÃ©die, T1, p.I), ses auteurs justifient
+le bien-fondÃ© de leur entreprise par l'absence d'une Å“uvre franÃ§aise Ã  jour en
+termes de connaissances scientifiques dans le paysage encyclopÃ©dique de
+l'Ã©poque. Ils Ã©tablissent ensuite une longue liste de domaines de connaissance
+pour montrer la grande variÃ©tÃ© de sujets que *LGE* se propose de couvrir (Â«en un
+mot, tout ce qui est de nature Ã  jeter la lumiÃ¨re sur le monde physique et sur
+le monde intellectuelÂ»). Plus que rÃ©ellement des noms de sciences, il s'agit
+plutÃ´t de thÃ©matiques choisies pour mettre en valeur les intÃ©rÃªts de
+l'Ã©poqueÂ â€”â€¯ce qui permet la mention des Â«applications nouvelles de
 l'Ã©lectricitÃ©Â» alors que la physique et la chimie dont elles relÃ¨vent pourtant
 figurent dÃ©jÃ  dans la liste. La gÃ©ographie quant Ã  elle n'est mÃªme pas
 mentionnÃ©e. Elle n'apparaÃ®t que plus bas sur la mÃªme page, ses dÃ©couvertes Ã©tant
@@ -642,13 +645,13 @@ d'Â«arrÃªter une classification dÃ©finitiveÂ» les auteurs de *LGE* optent pour u
 systÃ¨me inspirÃ© de l'approche historique d'Auguste Comte remise Ã  jour.
 
 L'avant-propos poursuit ce travail en fixant un objectif de taille Ã  l'ensemble
-du projet avant d'accorder place Ã  chacun des domaines (La Grande EncyclopÃ©die,
-T1, p.XI). C'est la premiÃ¨re et seule apparition de la liste des 14 domaines
-retenus plus un domaine Â«MatiÃ¨res diversesÂ» pour absorber tout Ã©lÃ©ment qui
-mettrait en dÃ©faut ces domaines, tÃ©moin s'il Ã©tait besoin du pragmatisme de
-l'approche Ã  postÃ©riori de leur systÃ¨meÂ â€”â€¯un outil pratique tout au plus mais
-sans illusions sur une quelconque valeur particuliÃ¨re d'un point de vue
-philosophique. Ces choix donnent le tableau prÃ©sentÃ© figure
+du projet avant d'accorder une place Ã  chacun des domaines (La Grande
+EncyclopÃ©die, T1, p.XI). C'est la premiÃ¨re et seule apparition de la liste des
+14 domaines retenus plus un domaine Â«MatiÃ¨res diversesÂ» pour absorber tout
+Ã©lÃ©ment qui mettrait en dÃ©faut ces domaines, tÃ©moin s'il Ã©tait besoin du
+pragmatisme de l'approche Ã  postÃ©riori de leur systÃ¨meÂ â€”â€¯un outil pratique tout
+au plus mais sans illusions sur une quelconque valeur particuliÃ¨re d'un point de
+vue philosophique. Ces choix donnent le tableau prÃ©sentÃ© figure
 \ref{fig:lge_editors_domains}, d'aspect presque trivial par contraste avec le
 profond travail de rÃ©flexion Ã©pistÃ©mologique qui le prÃ©cÃ¨de.
 
@@ -696,7 +699,7 @@ Difficile donc de distinguer les deux sans possÃ©der une liste exacte ou bien de
 prÃ©noms apparaissants ou bien des domaines utilisÃ©s (car les dÃ©signants ne
 suivent pas les 14 domaines prÃ©sentÃ©s Ã  la figure \ref{fig:lge_editors_domains}
 qui ne fournissent qu'un cadre catÃ©gorique assez vaste). Un rapide parcours de
-la liste de ces 60â€¯762 mot obtenus en position de dÃ©signant suffit pour se
+la liste de ces 60â€¯762 mots obtenus en position de dÃ©signant suffit pour se
 rendre compte que les prÃ©noms sont extrÃªmement frÃ©quents, sans doute
 majoritaires sur les noms de domaines abrÃ©viÃ©s. Un filtrage sur le caractÃ¨re '.'
 (caractÃ©ristique des dÃ©signants abrÃ©viÃ©s et normalement absent des noms de
@@ -721,7 +724,7 @@ p.1025) dont un extrait est reproduit Ã  la figure \ref{fig:chemin_lge}. Sa
 section III. s'intitule Â«DroitÂ» et ne contient qu'un renvoi Ã  l'article VOIRIE,
 la section IV. Â«MarineÂ» ne comporte qu'un paragraphe (ces deux exemples montre
 que le dÃ©coupage en section ne correspond pas nÃ©cessairement Ã  un besoin de
-rÃ©partition harmonieux du volume de texte mais bien Ã  une logique structurelle
+rÃ©partition harmonieuse du volume de texte mais bien Ã  une logique structurelle
 propre) et la section V., Â«Art militaireÂ» semble bien plus longue puisqu'elle
 s'ouvre sur une sous-section (non-numÃ©rotÃ©e) Â«\textsc{Chemin couvert}Â». Cette
 approche diffÃ¨re de celle suivie dans l'*EDdA* oÃ¹ les termes ayant une existence
@@ -804,34 +807,23 @@ MILITAIRE (L'EncyclopÃ©die, T5, p.311), il prÃ©sente la GÃ©ographie comme un
 prÃ©requis Ã  l'Histoire, dont elle servirait Ã  situer les grands Ã©vÃ©nements. En
 ce sens, il dÃ©roge Ã  la classification du Â«SystÃªme figurÃ©Â» pour sortir la
 GÃ©ographie de la branche de l'arbre consacrÃ©e Ã  la raison et la placer sur celle
-de la mÃ©moire.
-
-Dans *LGE*, le rapprochement est consommÃ© puisque les deux disciplines sont
-associÃ©es et leurs articles dÃ©comptÃ©s ensemble dans le tableau des rÃ©partition
-des articles entre diffÃ©rents domaines prÃ©sentÃ© Ã  la figure
-\ref{fig:lge_editors_domains}. De plus, si la liste des collaborateurs du projet
-n'associe pas chacun Ã  une discipline prÃ©cise, il est Ã  noter que sur les 12
-membres du projet dont la qualitÃ© contient le mot Â«gÃ©ographieÂ», la moitiÃ©
-exactement d'entre eux sont des enseignants, agrÃ©gÃ©s ou professeurs, Ã  la fois
-d'histoire et de gÃ©ographie. Cette observation est cohÃ©rente avec le rÃ´le bien
-connu jouÃ© par l'association de ces deux disciplines Ã  l'Ã©cole dans la
-constitution d'une identitÃ© nationale, qui trouve son impulsion dans la
-RÃ©volution FranÃ§aise et n'a Ã©tÃ© remise en cause ni par les empires ni par les
-rÃ©publiques ultÃ©rieures pour culminer dans les cÃ©lÃ¨bres lois Â«Jules FerryÂ»
-[@chevalier_geographie_2013, Â¶Â¶2 et 3].
+de la mÃ©moire. Dans *LGE*, le rapprochement est consommÃ© puisque les deux
+disciplines sont associÃ©es et leurs articles dÃ©comptÃ©s ensemble dans le tableau
+des rÃ©partition des articles entre diffÃ©rents domaines prÃ©sentÃ© Ã  la figure
+\ref{fig:lge_editors_domains}.
 
 Au travers des analyses prÃ©sentÃ©es dans cette section, la notion de domaine de
 connaissance apparaÃ®t donc bien comme fondamentale. Elle joue un rÃ´le central
 dans la structuration des encyclopÃ©dies et se matÃ©rialise sous plusieurs formes
-plus ou moins rigides, des dÃ©signants aux simple tournures de phrases en passant
-par des titres de section. La GÃ©ographie apparaÃ®t comme un prÃ©requis Ã  plusieurs
-autres disciplines, ce qui lui donne une place plutÃ´t avantageuse dans l'ordre
-d'Â«enchaÃ®nementÂ» des connaissances que les encyclopÃ©distesÂ â€”â€¯tant au XVIII^Ã¨me^
-qu'au XIX^Ã¨me^ siÃ¨cleâ€¯â€”Â s'efforcent de saisir. Elle semble occuper en quelque
-sorte un rÃ´le de pivot en permettant l'articulation de sciences aussi diverses
-que les MathÃ©matiques et l'Histoire. Cette position spÃ©cifique constitue un
-premiÃ¨re confirmation de la pertinence du choix de singulariser cette discipline
-au sein des encyclopÃ©dies dans les prÃ©sents travaux.
+plus ou moins rigides, des dÃ©signants aux simples tournures de phrases en
+passant par des titres de section. La GÃ©ographie apparaÃ®t comme un prÃ©requis Ã 
+plusieurs autres disciplines, ce qui lui donne une place plutÃ´t avantageuse dans
+l'ordre d'Â«enchaÃ®nementÂ» des connaissances que les encyclopÃ©distesÂ â€”â€¯tant au
+XVIII^Ã¨me^ qu'au XIX^Ã¨me^ siÃ¨cleâ€¯â€”Â s'efforcent de saisir. Elle semble occuper en
+quelque sorte un rÃ´le de pivot en permettant l'articulation de sciences aussi
+diverses que les MathÃ©matiques et l'Histoire. Cette position spÃ©cifique
+constitue un premiÃ¨re confirmation de la pertinence du choix de singulariser
+cette discipline au sein des encyclopÃ©dies dans les prÃ©sents travaux.
 
 ### PrÃ©traitements {#sec:corpus_preprocessing}
 
@@ -859,19 +851,19 @@ Certains Ã©lÃ©ments comme `sc`, `blockquote` ou `page` sont utilisÃ©s alors qu'i
 n'existent pas dans le schÃ©ma [@=TEI]. Plus prÃ©occupant, d'autres ne sont pas
 complets: plusieurs Ã©lÃ©ments `<index/>` utilisÃ©s pour reprÃ©senter les
 mÃ©tadonnÃ©es des articles au moyen de leurs attributs (sans contenus donc, ils
-sont censÃ©s Ãªtre auto-fermants) n'ont pas leur `/` final, ce qui syntaxiquement
+sont censÃ©s Ãªtre autofermants) n'ont pas leur `/` final, ce qui syntaxiquement
 signifie qu'ils ne se ferment jamais et englobent tout le reste du fichier aprÃ¨s
 eux. Enfin, certains sont tout simplement mal formÃ©s: on trouve des balises
 pourvues d'attributs mais pas d'un tag (comme `<XREEF="Incorrupticoles">`, sans
 `<` ouvrant avant leur tag, ainsi que quelques erreurs dans les entitÃ©s XML.
 Mais le problÃ¨me le plus spectaculaire rÃ©side dans les quelques occurrences de
-`&amp`Í¾, qui reprÃ©senterait en XML le caractÃ¨re '&' (esperluette), si seulement
+`&amp`Í¾ qui reprÃ©senterait en XML le caractÃ¨re '&' (esperluette), si seulement
 son dernier caractÃ¨re Ã©tait un ';' (point virgule)Â : il s'agit malheureusement
 en rÃ©alitÃ© du caractÃ¨re UTF-8 `U+037e` utilisÃ© en grec pour marquer
-l'interrogation Ã  la place de notre '?', quasi identique visuellement.
-L'irrÃ©gularitÃ© de ces erreurs et en particulier l'homographie en jeu dans la
-derniÃ¨re incite Ã  penser que l'encodage de ces fichiers a Ã©tÃ© rÃ©alisÃ© par des
-opÃ©rateurs humains.
+l'interrogation Ã  la place du '?', quasi identique visuellement, qui prÃ©vaut en
+franÃ§ais et dans de nombreuses langues occidentales. L'irrÃ©gularitÃ© de ces
+erreurs et en particulier l'homographie en jeu dans la derniÃ¨re incite Ã  penser
+que l'encodage de ces fichiers a Ã©tÃ© rÃ©alisÃ© par des opÃ©rateurs humains.
 
 Pour corriger ces erreurs ainsi que pour procÃ©der Ã  la division des tomes
 proprement dite tout en extrayant les mÃ©tadonnÃ©es des articles, quelques scripts
@@ -995,7 +987,7 @@ Chacune de ces unitÃ©s peut seulement venir Â«avantÂ» ou Â«aprÃ¨sÂ» une autre: n
 du langage oral qui se dÃ©ploie dans la seule dimension temporelle: au-delÃ  des
 diffÃ©rences structurelles propres qui peuvent distinguer l'oral de l'Ã©crit,
 toute production Ã©crite peut donner lieu Ã  une production orale (en la lisant)
-et doit donc s'inscrire dans cette unidimensionalitÃ©. Ã€ l'Ã©chelle d'un bloc de
+et doit donc s'inscrire dans cette unidimensionnalitÃ©. Ã€ l'Ã©chelle d'un bloc de
 texte, ces notions se traduisent par la lecture des lignes de haut en bas et, Ã 
 l'intÃ©rieur d'une ligne, des mots de gauche Ã  droite. Mais entre blocs,
 l'Ã©vidence d'ordre s'estompe: les pages comme celle prÃ©sentÃ©e Ã  la figure
@@ -1065,9 +1057,9 @@ plusieurs fichiers). Les auteurs de *LGE* en mentionnent 200â€¯000 quand ils
 fin du projet est encore assez lointaine alors et quand on tient compte des
 difficultÃ©s financiÃ¨res qu'a connu le projet Ã  sa toute fin [@jacquet_pfau2015,
 p.90], il paraÃ®t possible que cette prÃ©vision n'ait pas Ã©tÃ© tout Ã  fait
-atteinte. Le nombre rÃ©el d'article dans *LGE* demeure donc inconnu, mais
-pourrait Ãªtre de l'orde de 150â€¯000 Ã  200â€¯000 articles, soit environ du double au
-triple de celui de l'*EDdA*. Il faut pourtant poursuivre, car la quÃªte d'une
+atteinte. Le nombre rÃ©el d'articles dans *LGE* demeure donc inconnu, mais
+pourrait Ãªtre de l'ordre de 150â€¯000 Ã  200â€¯000 articles, soit environ du double
+au triple de celui de l'*EDdA*. Il faut pourtant poursuivre, car la quÃªte d'une
 qualitÃ© parfaite est sans fin et des erreurs subsistent toujours, mÃªme dans les
 sources les plus fiables. Ainsi la version de l'*EDdA* de l'[@=ARTFL] contient
 aussi au moins un cas de sous-segmentation, l'entrÃ©e pour MÃ‰LER UN CHEVAL
-- 
GitLab