Proofread to the end of Chapt.3 Corpus

5de4591c · Alice Brenon · d0395902 · 5de4591c · 5de4591c · 5de4591c
Commit 5de4591c authored 3 months ago by Alice Brenon
--- a/Corpus/Application.md
+++ b/Corpus/Application.md
@@ -43,8 +43,8 @@ milieu d'une phrase, divisions au mileu des mots coupés par un retour à la
 ligne…). Pour analyser les phrases en syntaxe et morphosyntaxe, un outil doit
 voir au moins toute une phrase d'un coup (il peut en voir plusieurs au sein d'un
 même paragraphe mais donnera une analyse erronée s'il ne reçoit qu'une phrase
-partielle); pour classifier un article, un modèle doit avoir accès à tout le
+partielle); pour classer un article, un modèle doit avoir accès à tout le texte
-texte qu'il contient.
+qu'il contient.
 Puisque le choix fait pour représenter les articles dans des fichiers texte
 consiste à garder la mise en page des lignes telles qu'elles apparaissent dans
@@ -78,22 +78,14 @@ produisent pour chaque texte une valeur symbolique, le nom d'une classe dont
 relève le texte d'après le modèle. Cette information est stockée dans des
 fichiers de métadonnées tabulaires (voir la sous-section
 \ref{sec:corpus_structuring_metadata}). L'analyse syntaxique en dépendances
-universelles (*Universal Dependencies*[^UD], [@=UD] dans le reste de cette
+universelles ([@=UD]) est effectuée avec la librairie python Stanza[^stanza]
-thèse) est effectuée avec la librairie python Stanza[^stanza][@qi2020stanza],
+[@qi2020stanza], qui retourne les articles annotés au format CoNLL-U. Cette
-qui retourne une annotation en  des articles au format CoNLL-U[^conllu]. Cette
+annotation comprend une étiquette morphosyntaxique pour les tokens identifiés,
-annotation comprend une étiquette morphosyntaxique pour des tokens identifiés,
+exprimée avec les parties de discours propres aux [@=UD], les UPOS[^UPOS].
-exprimée avec les parties de discours ([@=POS]) propres aux [@=UD], les
-UPOS[^UPOS].
 [^stanza]:
    [https://stanfordnlp.github.io/stanza/](https://stanfordnlp.github.io/stanza/)
-[^UD]:
-    [https://universaldependencies.org/](https://universaldependencies.org/)
-[^conllu]:
-    [https://universaldependencies.org/format.html](https://universaldependencies.org/format.html)
 [^UPOS]:
    [https://universaldependencies.org/docs/u/pos/](https://universaldependencies.org/docs/u/pos/)
@@ -107,7 +99,7 @@ pages tout en distinguant le rôle de chaque objet et sa relation aux autres. Le
 introduiraient beaucoup d'ambiguïté dans des fichiers texte, à moins d'en
 complexifier encore l'encodage. L'option `-k` (`--keep` en version longue) de
 `soprano` permet de choisir quel type d'éléments conserver et permet de produire
-des fichiers ne contenant que le texte des articles, mais par défaut, tous les
+des fichiers ne contenant que le texte des articles. Par défaut tous les
 éléments sont conservés (en particulier les changements de page, les légendes
 d'images, etc.), ce qui prend tout son sens avec le format XML-[@=TEI].
@@ -275,13 +267,13 @@ désignants normalisés. Il est constitué des classes suivantes:
 Le premier besoin pour attacher des informations additionnelles aux textes sans
 devoir dupliquer leur contenu est la détermination d'une information qui
 identifie de manière unique les fichiers, ce qui constitue une clef primaire
-dans le jargon des bases de données. En distinguant les articles des propriétés
+dans le vocabulaire des bases de données. En distinguant les articles des
-qu'on souhaite pouvoir leur associer, c'est l'approche la plus modulaire
+propriétés qu'on souhaite pouvoir leur associer, c'est l'approche la plus
-puisqu'elle permet de croiser entre elles plusieurs métadonnées issues de
+modulaire puisqu'elle permet de croiser entre elles plusieurs métadonnées issues
-traitements différents ou de sélectionner des sous-corpus, par opposition à une
+de traitements différents ou de sélectionner des sous-corpus, par opposition à
-approche en «jeu de données» ou *datasets* dans laquelle toutes les informations
+une approche en «jeu de données» ou *datasets* dans laquelle toutes les
-requises, texte et métadonnées, seraient groupés ensemble de manière autonome en
+informations requises, texte et métadonnées, seraient groupées ensemble de
-un objet unique.
+manière autonome en un objet unique.
 \label{metadata_primary_key}Les présents travaux optent pour une clef primaire
 simple basée sur le rang des articles dans chaque tome des œuvres du corpus,
@@ -334,7 +326,7 @@ minimales nécessaires pour référencer par exemple les deux articles de la fig
 À cette clef primaire doivent s'ajouter des colonnes pour assurer la navigation
 et le retour au plein texte. La plus évidente est la vedette (un humain cherche
-un article à propos d'EVIAN, pas le 3184ème article de l'*EDdA*). Pour
+un article à propos d'EVIAN, pas le 3 184ème article de l'*EDdA*). Pour
 outrepasser le problème d'homonymie des vedettes soulevé ci-dessus, une version
 normalisée et rendue unique de cette vedette est également stockée, bien qu'elle
 n'ait finalement pas été retenue pour constituer la clef primaire. Enfin, le
@@ -387,7 +379,7 @@ métadonnées mais se manifeste aussi dans chacune des arborescences corresponda
 sont en effet organisés par œuvre (dans un répertoire dont le nom est la valeur
 de l'attribut `work` de l'article). Chaque dossier d'œuvre (`EDdA/` ou `LGE/`
 donc) contient un répertoire par tome, nommé en préfixant la valeur de
 l'attribut `volume` d'un 'T' (t majuscule) : `T1/`, `T2/`… jusqu'à `T17/` dans
 `EDdA/` et `T31/` dans `LGE/`. À l'intérieur de chaque dossier de tome, chaque
 article est nommé par son rang, suffixé de l'extension idoine (`.txt`, `.xml`,
 `.conllu`…). Ainsi, il est extrêmement facile d'accéder aux contenus des
@@ -509,7 +501,7 @@ initiale à d'autres données. Ces quatre critères, résumés au tableau
 cumuler pour produire des recherches dignes de confiance.
 Les seules expériences de cette thèse pouvant viser à la reproductibilité sont
-celles concernant *LGE* exclusivement. Toutes celles qui intègrent l'*EDdA* ne
+celles qui ne portent que sur *LGE*. Toutes celles qui intègrent l'*EDdA* ne
 peuvent par construction viser qu'à la réplicabilité. En pratique, étant donnée
 la part cruciale qu'a jouée l'*EDdA*, notamment dans l'entraînement des modèles
 de classification automatique (voir le chapitre \ref{sec:domains_classification}
@@ -536,28 +528,28 @@ tableau \ref{table:reproducibility_4_flavours}) peut également apporter aux
 phases d'investigation des [@=HN]. La nature irrégulière des objets d'étude gêne
 le développement de traitements s'appliquant parfaitement à toutes les données.
 À l'échelle mésoscopique du présent corpus — la taille des encyclopédies est
-proverbialement grande des encyclopédies, mais les volumes de données en jeu
+proverbialement grande mais les volumes de données en jeu restent très largement
-restent très largement inférieurs aux mégadonnées générées par les collectes
+inférieurs aux mégadonnées générées par les collectes automatiques de
-automatiques de dispositifs numériques — il faut considérer que tout ce qui peut
+dispositifs numériques — il faut considérer que tout ce qui peut arriver
-arriver arrivera. En ce qui concerne les désignants par exemple, il suffit
+arrivera. En ce qui concerne les désignants par exemple, il suffit quasiment
-quasiment d'envisager l'existence d'une régularité et de tenter de la capturer
+d'envisager l'existence d'une régularité et de tenter de la capturer dans un
-dans un motif pour qu'il soit contredit par une donnée du corpus, qu'elle ait
+motif pour qu'il soit contredit par une donnée du corpus, qu'elle ait réellement
-réellement été produite telle quelle par un choix ou une erreur humaine ou
+été produite telle quelle par un choix ou une erreur humaine ou qu'elle émerge à
-qu'elle émerge à cause des bruits générés par les imperfections des différentes
+cause des bruits générés par les imperfections des différentes étapes de
-étapes de traitement (vieillissement du papier et de l'encre, qualité de la
+traitement (vieillissement du papier et de l'encre, qualité de la numérisation,
-numérisation, performances de l'[@=OCR]…). Ainsi, dans ce type d'étude il s'agit
+performances de l'[@=OCR]…). Ainsi, dans ce type d'étude il s'agit en permanence
-en permanence de placer un curseur entre ce qui est acceptable pour répondre à
+de placer un curseur entre ce qui est acceptable pour répondre à une question
-une question précise et ce qui est perfectible en vue d'études futures. Trouver
+précise et ce qui est perfectible en vue d'études futures. Trouver cet équilibre
-cet équilibre engendre un va-et-vient continu entre traitement des données et
+engendre un va-et-vient continu entre traitement des données et analyses. Pour
-analyses. Pour cette raison, les choix faits dans la représentation du corpus et
+cette raison, les choix faits dans la représentation du corpus et en particulier
-en particulier dans la conception des métadonnées favorisent la plus grande
+dans la conception des métadonnées favorisent la plus grande flexibilité, en
-flexibilité, en tâchant de minimiser l'effort nécessaire pour relancer les
+tâchant de minimiser l'effort nécessaire pour relancer les traitements affectés
-traitements affectés par un changement dans une donnée. Cette stratégie repose
+par un changement dans une donnée. Cette stratégie repose sur le constat
-sur le constat empirique qu'il est vain d'espérer que la première version sera
+empirique qu'il est vain d'espérer que la première version sera la bonne et
-la bonne et qu'il vaut mieux considérer toutes les données en aval dans la
+qu'il vaut mieux considérer toutes les données en aval dans la chaîne de
-chaîne de dépendance comme temporaires, susceptibles de mises à jour et donc
+dépendance comme temporaires, susceptibles de mises à jour et donc jetables. La
-jetables. La détermination d'un ensemble de domaines de connaissance présentée à
+détermination d'un ensemble de domaines de connaissance présentée à la
-la sous-section \ref{sec:domains_build_classes}
+sous-section \ref{sec:domains_build_classes}
 p.\pageref{sec:domains_build_classes} d'une façon très linéaire résulte en
 réalité de ce type de négociation entre code et données. Naturellement, pour que
 ces allers et retours conduisent à un processus d'amélioration continue plutôt

--- a/Corpus/Encodage.md
+++ b/Corpus/Encodage.md
@@ -458,7 +458,7 @@ séquentiellement par œuvre et par tome, et à concaténer les trois
 composantes — en base 10 pour celles qui sont numériques — séparées par le
 caractère `_` (tiret bas).
-![L'élément conteneur `div` pour l'article CATHÈTE](figure/text/LGE/cathète_0.png){#fig:cathete-xml-0}
+![L'élément conteneur `div` pour l'article CATHÈTE](figure/article/LGE/cathète_0.png){#fig:cathete-xml-0}
 À l'intérieur de cet élément doit se trouver un `<head/>` contenant la vedette
 de l'article. Un élément `<hi/>` à l'intérieur permet le cas échéant de
@@ -489,7 +489,7 @@ tenant compte de ces remarques.
    un `<usg/>` ne peut pas apparaître non-plus ni dans un `<p/>` ni même
    directement dans un `<div/>`
-![L'encodage de la vedette et du désignant de l'article CATHÈTE](figure/text/LGE/cathète_1.png){#fig:cathete-xml-1}
+![L'encodage de la vedette et du désignant de l'article CATHÈTE](figure/article/LGE/cathète_1.png){#fig:cathete-xml-1}
 Ensuite, chaque sens est encodé par un élément `<div/>` dont l'attribut `type`
 est défini à la valeur `sense` en référence à l'élément `<sense/>` du module
@@ -498,7 +498,7 @@ partir de 0 en fonction de son rang parmi les différents sens couverts par
 l'article et présente même si la vedette n'en a qu'un seul comme c'est le cas
 pour l'article CATHÈTE à la figure \ref{fig:cathete-xml-2}.
-![La structure vide permettant de représenter le seul sens du mot CATHÈTE](figure/text/LGE/cathète_2.png){#fig:cathete-xml-2}
+![La structure vide permettant de représenter le seul sens du mot CATHÈTE](figure/article/LGE/cathète_2.png){#fig:cathete-xml-2}
 De plus, chaque ligne de l'article doit commencer par un élément `<lb/>`, y
 compris avant l'élément `<head/>` comme le présente la figure
@@ -515,7 +515,7 @@ corps de l'article sont encodées de la façon habituelle avec des `<div/>`
 contenant des `<p/>` pour les paragraphes, qui peuvent éventuellement contenir
 des `<head/>` locaux pour représenter leurs titres.
-![Un encodage complet de l'article CATHÈTE](figure/text/LGE/cathète_3.png){#fig:cathete-xml-3}
+![Un encodage complet de l'article CATHÈTE](figure/article/LGE/cathète_3.png){#fig:cathete-xml-3}
 Certains articles comme BOUMERANG (La Grande Encyclopédie, T7, p.704) comportent
 des figures avec des légendes (voir la figure \ref{fig:boumerang-photo}) qui
@@ -543,7 +543,7 @@ l'impossibilité d'utiliser le module *dictionaries*.
 ![Article GELOCUS dans *LGE*, T18, p.699](figure/text/LGE/gelocus_t18.png){#fig:gelocus_photo width=60%}
-![Encodage des renvois dans l'article GELOCUS](figure/text/LGE/gelocus.png){#fig:gelocus-xml}
+![Encodage des renvois dans l'article GELOCUS](figure/article/LGE/gelocus.png){#fig:gelocus-xml}
 Les éléments péritextes évoqués précédemment à la section
 \ref{sec:encyclopedia_anatomy} et qui apparaissent sur les pages d'encyclopédies
@@ -649,7 +649,7 @@ n'implémente pas encore toutes les spécifications de l'encodage proposé
 précédemment. La figure \ref{fig:cathete-xml-current} montre ainsi l'état actuel
 de l'article CATHÈTE à la fin de la phase d'encodage.
-![Encodage actuel de l'article CATHÈTE produit par `soprano`](figure/text/LGE/cathète_current.png){#fig:cathete-xml-current}
+![Encodage actuel de l'article CATHÈTE produit par `soprano`](figure/article/LGE/cathète_current.png){#fig:cathete-xml-current}
 La détection des vedettes ne permet pas encore de reconnaître les désignants et
 c'est pourquoi ils apparaissent à l'extérieur de la balise `<head/>`. Aucun
@@ -728,7 +728,7 @@ texte. Une version numérique constitue une trace qui permet de fixer un texte e
 de le diffuser (partage, copie, sauvegarde).
 Le deuxième aspect de la définition de @rastier_textes_1996[*ibid*] insiste sur
-l'existence d'un texte dans le cadre d'un pratique sociale. Quel que soit le
+l'existence d'un texte dans le cadre d'une pratique sociale. Quel que soit le
 support utilisé pour fixer un texte, c'est rarement la trace elle-même mais
 plutôt l'objet abstrait qu'elle dénote qui intéresse son lectorat ou les
 linguistes. Avant même de considérer quelque niveau d'analyse que ce soit sur le
@@ -888,15 +888,15 @@ privée de son `'-'` final à la deuxième dans le cas contraire. Mais en pratiq
 l'élimination du tiret dépend du contexte: il fait partie de certains mots
 composés comme «peut-être» ou «pis-aller» et permet de rattacher les enclitiques
 au mot qui les précède comme dans «celui-là» ou «puis-je», ce qui interdit sa
-suppression. Si des ressources lexicales peuvent aider dans le premier cas (mais
+suppression. Des ressources lexicales peuvent aider dans le premier cas mais
-avec des risques de faux-positifs, que faire sans analyse sémantique fine d'un
+avec des risques de faux-positifs (que faire sans analyse sémantique fine d'un
 hypothétique nom propre «Pisaller» ne tenant pas sur le reste d'une ligne et qui
-aurait donné lieu à la séquence «Pis-`'\n'`aller» dans un fichier ?), la grande
+aurait donné lieu à la séquence «Pis-`'\n'`aller» dans un fichier ?). Dans le
-variété d'éléments combinables dans le second cas n'incite pas à opter pour une
+second cas, la grande variété d'éléments combinables n'incite de toute façon pas
-simple vérification d'appartenance à une liste préétablie d'exceptions connues.
+à opter pour une simple vérification d'appartenance à une liste préétablie
-Dans tous les cas, une analyse fine des dynamiques au niveau au moins
+d'exceptions connues. Par conséquent, une analyse fine des dynamiques au niveau
-morphosyntaxique sinon syntaxique semble donc requise pour déterminer avec
+au moins morphosyntaxique sinon syntaxique semble donc requise pour déterminer
-certitude le sort d'un tiret survenant juste avant une fin de ligne.
+avec certitude le sort d'un tiret survenant juste avant une fin de ligne.
 Loin de constituer une base commune pour représenter un texte, le format `.txt`
 représente donc en fait un impensé de l'encodage. Dans le cadre des présents
@@ -915,13 +915,13 @@ paragraphe précédent), mais rend de ce fait l'accès au texte un peu plus
 complexe.
 À l'issue de cette section, l'ensemble des paramètres clefs pour représenter les
-textes du corpus ont été identifiés et discutés. La confrontation des besoins
+textes du corpus ont été identifiés et discutés. En confrontant les besoins
-d'encodage définis par l'observation des pages de *LGE* et des structures
+d'encodage définis par l'observation des pages de *LGE* avec les structures
-définies par le schéma d'encodage *TEI*, a montré que le module *dictionaries*
+définies par le schéma d'encodage *TEI*, les limites du module *dictionaries*
-n'était pas adapté à la représentation d'une encyclopédie telle que *LGE*. Un
+pour représenter une encyclopédie telle que *LGE* ont été mises en évidence. Un
 encodage alternatif utilisant des éléments plus généraux de la *TEI* — tout
 comme l'avait fait l'[@=ARTFL] dans sa version de l'*EDdA*, mais en opérant des
-choix légèrement différents — a été démontré sur quelques articles et une
+choix légèrement différents — a été illustré sur quelques articles et une
 portion de cet encodage est implémentée dans l'outil `soprano`, permettant de
 générer automatiquement des articles au format XML-[@=TEI] à partir des pages en
 ALTO livrées par la BnF. Cet outil permet également de produire des fichiers en

--- a/src/article/LGE/cathète_0.md
+++ b/src/article/LGE/cathète_0.md
@@ -3,7 +3,7 @@ header-includes:
 	- \pagestyle{empty}
 	- \usepackage{graphicx}
 	- \usepackage[left=0cm,top=0cm,right=0cm,nohead,nofoot]{geometry}
-	- \geometry{paperwidth=5.6cm, paperheight=0.5cm, margin=0cm}
+	- \geometry{paperwidth=5.8cm, paperheight=0.5cm, margin=0cm}
 ---
 ```xml

--- a/src/article/LGE/gelocus.md
+++ b/src/article/LGE/gelocus.md
@@ -3,12 +3,12 @@ header-includes:
 	- \pagestyle{empty}
 	- \usepackage{graphicx}
 	- \usepackage[left=0cm,top=0cm,right=0cm,nohead,nofoot]{geometry}
-	- \geometry{paperwidth=9.2cm, paperheight=1.8cm, margin=0cm}
+	- \geometry{paperwidth=9.3cm, paperheight=1.8cm, margin=0cm}
 ---
 ```xml
 <p>
-	(V. <ref target="#boeuf-0">Boeuf</ref> et
+	(V. <ref target="#LGE_7_247">Boeuf</ref> et
-	<ref target="#chevrotain-0">Chevrotain</ref>).
+	<ref target="#LGE_10_3368">Chevrotain</ref>).
 </p>
 ```