From 5de4591c9b13bb7f91ff1795c5e6c051159950ef Mon Sep 17 00:00:00 2001 From: Alice BRENON <alice.brenon@ens-lyon.fr> Date: Tue, 1 Apr 2025 21:34:22 +0200 Subject: [PATCH] Proofread to the end of Chapt.3 Corpus --- Corpus/Application.md | 86 ++++++++++++--------------- Corpus/Encodage.md | 40 ++++++------- "src/article/LGE/cath\303\250te_0.md" | 2 +- src/article/LGE/gelocus.md | 6 +- 4 files changed, 63 insertions(+), 71 deletions(-) diff --git a/Corpus/Application.md b/Corpus/Application.md index e3ffbd9..180a708 100644 --- a/Corpus/Application.md +++ b/Corpus/Application.md @@ -43,8 +43,8 @@ milieu d'une phrase, divisions au mileu des mots coupés par un retour à la ligne…). Pour analyser les phrases en syntaxe et morphosyntaxe, un outil doit voir au moins toute une phrase d'un coup (il peut en voir plusieurs au sein d'un même paragraphe mais donnera une analyse erronée s'il ne reçoit qu'une phrase -partielle); pour classifier un article, un modèle doit avoir accès à tout le -texte qu'il contient. +partielle); pour classer un article, un modèle doit avoir accès à tout le texte +qu'il contient. Puisque le choix fait pour représenter les articles dans des fichiers texte consiste à garder la mise en page des lignes telles qu'elles apparaissent dans @@ -78,22 +78,14 @@ produisent pour chaque texte une valeur symbolique, le nom d'une classe dont relève le texte d'après le modèle. Cette information est stockée dans des fichiers de métadonnées tabulaires (voir la sous-section \ref{sec:corpus_structuring_metadata}). L'analyse syntaxique en dépendances -universelles (*Universal Dependencies*[^UD], [@=UD] dans le reste de cette -thèse) est effectuée avec la librairie python Stanza[^stanza][@qi2020stanza], -qui retourne une annotation en des articles au format CoNLL-U[^conllu]. Cette -annotation comprend une étiquette morphosyntaxique pour des tokens identifiés, -exprimée avec les parties de discours ([@=POS]) propres aux [@=UD], les -UPOS[^UPOS]. +universelles ([@=UD]) est effectuée avec la librairie python Stanza[^stanza] +[@qi2020stanza], qui retourne les articles annotés au format CoNLL-U. Cette +annotation comprend une étiquette morphosyntaxique pour les tokens identifiés, +exprimée avec les parties de discours propres aux [@=UD], les UPOS[^UPOS]. [^stanza]: [https://stanfordnlp.github.io/stanza/](https://stanfordnlp.github.io/stanza/) -[^UD]: - [https://universaldependencies.org/](https://universaldependencies.org/) - -[^conllu]: - [https://universaldependencies.org/format.html](https://universaldependencies.org/format.html) - [^UPOS]: [https://universaldependencies.org/docs/u/pos/](https://universaldependencies.org/docs/u/pos/) @@ -107,7 +99,7 @@ pages tout en distinguant le rôle de chaque objet et sa relation aux autres. Le introduiraient beaucoup d'ambiguïté dans des fichiers texte, à moins d'en complexifier encore l'encodage. L'option `-k` (`--keep` en version longue) de `soprano` permet de choisir quel type d'éléments conserver et permet de produire -des fichiers ne contenant que le texte des articles, mais par défaut, tous les +des fichiers ne contenant que le texte des articles. Par défaut tous les éléments sont conservés (en particulier les changements de page, les légendes d'images, etc.), ce qui prend tout son sens avec le format XML-[@=TEI]. @@ -275,13 +267,13 @@ désignants normalisés. Il est constitué des classes suivantes: Le premier besoin pour attacher des informations additionnelles aux textes sans devoir dupliquer leur contenu est la détermination d'une information qui identifie de manière unique les fichiers, ce qui constitue une clef primaire -dans le jargon des bases de données. En distinguant les articles des propriétés -qu'on souhaite pouvoir leur associer, c'est l'approche la plus modulaire -puisqu'elle permet de croiser entre elles plusieurs métadonnées issues de -traitements différents ou de sélectionner des sous-corpus, par opposition à une -approche en «jeu de données» ou *datasets* dans laquelle toutes les informations -requises, texte et métadonnées, seraient groupés ensemble de manière autonome en -un objet unique. +dans le vocabulaire des bases de données. En distinguant les articles des +propriétés qu'on souhaite pouvoir leur associer, c'est l'approche la plus +modulaire puisqu'elle permet de croiser entre elles plusieurs métadonnées issues +de traitements différents ou de sélectionner des sous-corpus, par opposition à +une approche en «jeu de données» ou *datasets* dans laquelle toutes les +informations requises, texte et métadonnées, seraient groupées ensemble de +manière autonome en un objet unique. \label{metadata_primary_key}Les présents travaux optent pour une clef primaire simple basée sur le rang des articles dans chaque tome des œuvres du corpus, @@ -334,7 +326,7 @@ minimales nécessaires pour référencer par exemple les deux articles de la fig À cette clef primaire doivent s'ajouter des colonnes pour assurer la navigation et le retour au plein texte. La plus évidente est la vedette (un humain cherche -un article à propos d'EVIAN, pas le 3184ème article de l'*EDdA*). Pour +un article à propos d'EVIAN, pas le 3 184ème article de l'*EDdA*). Pour outrepasser le problème d'homonymie des vedettes soulevé ci-dessus, une version normalisée et rendue unique de cette vedette est également stockée, bien qu'elle n'ait finalement pas été retenue pour constituer la clef primaire. Enfin, le @@ -387,7 +379,7 @@ métadonnées mais se manifeste aussi dans chacune des arborescences corresponda sont en effet organisés par œuvre (dans un répertoire dont le nom est la valeur de l'attribut `work` de l'article). Chaque dossier d'œuvre (`EDdA/` ou `LGE/` donc) contient un répertoire par tome, nommé en préfixant la valeur de -l'attribut `volume` d'un 'T' (t majuscule) : `T1/`, `T2/`… jusqu'à `T17/` dans +l'attribut `volume` d'un 'T' (t majuscule) : `T1/`, `T2/`… jusqu'à `T17/` dans `EDdA/` et `T31/` dans `LGE/`. À l'intérieur de chaque dossier de tome, chaque article est nommé par son rang, suffixé de l'extension idoine (`.txt`, `.xml`, `.conllu`…). Ainsi, il est extrêmement facile d'accéder aux contenus des @@ -509,7 +501,7 @@ initiale à d'autres données. Ces quatre critères, résumés au tableau cumuler pour produire des recherches dignes de confiance. Les seules expériences de cette thèse pouvant viser à la reproductibilité sont -celles concernant *LGE* exclusivement. Toutes celles qui intègrent l'*EDdA* ne +celles qui ne portent que sur *LGE*. Toutes celles qui intègrent l'*EDdA* ne peuvent par construction viser qu'à la réplicabilité. En pratique, étant donnée la part cruciale qu'a jouée l'*EDdA*, notamment dans l'entraînement des modèles de classification automatique (voir le chapitre \ref{sec:domains_classification} @@ -536,28 +528,28 @@ tableau \ref{table:reproducibility_4_flavours}) peut également apporter aux phases d'investigation des [@=HN]. La nature irrégulière des objets d'étude gêne le développement de traitements s'appliquant parfaitement à toutes les données. À l'échelle mésoscopique du présent corpus — la taille des encyclopédies est -proverbialement grande des encyclopédies, mais les volumes de données en jeu -restent très largement inférieurs aux mégadonnées générées par les collectes -automatiques de dispositifs numériques — il faut considérer que tout ce qui peut -arriver arrivera. En ce qui concerne les désignants par exemple, il suffit -quasiment d'envisager l'existence d'une régularité et de tenter de la capturer -dans un motif pour qu'il soit contredit par une donnée du corpus, qu'elle ait -réellement été produite telle quelle par un choix ou une erreur humaine ou -qu'elle émerge à cause des bruits générés par les imperfections des différentes -étapes de traitement (vieillissement du papier et de l'encre, qualité de la -numérisation, performances de l'[@=OCR]…). Ainsi, dans ce type d'étude il s'agit -en permanence de placer un curseur entre ce qui est acceptable pour répondre à -une question précise et ce qui est perfectible en vue d'études futures. Trouver -cet équilibre engendre un va-et-vient continu entre traitement des données et -analyses. Pour cette raison, les choix faits dans la représentation du corpus et -en particulier dans la conception des métadonnées favorisent la plus grande -flexibilité, en tâchant de minimiser l'effort nécessaire pour relancer les -traitements affectés par un changement dans une donnée. Cette stratégie repose -sur le constat empirique qu'il est vain d'espérer que la première version sera -la bonne et qu'il vaut mieux considérer toutes les données en aval dans la -chaîne de dépendance comme temporaires, susceptibles de mises à jour et donc -jetables. La détermination d'un ensemble de domaines de connaissance présentée à -la sous-section \ref{sec:domains_build_classes} +proverbialement grande mais les volumes de données en jeu restent très largement +inférieurs aux mégadonnées générées par les collectes automatiques de +dispositifs numériques — il faut considérer que tout ce qui peut arriver +arrivera. En ce qui concerne les désignants par exemple, il suffit quasiment +d'envisager l'existence d'une régularité et de tenter de la capturer dans un +motif pour qu'il soit contredit par une donnée du corpus, qu'elle ait réellement +été produite telle quelle par un choix ou une erreur humaine ou qu'elle émerge à +cause des bruits générés par les imperfections des différentes étapes de +traitement (vieillissement du papier et de l'encre, qualité de la numérisation, +performances de l'[@=OCR]…). Ainsi, dans ce type d'étude il s'agit en permanence +de placer un curseur entre ce qui est acceptable pour répondre à une question +précise et ce qui est perfectible en vue d'études futures. Trouver cet équilibre +engendre un va-et-vient continu entre traitement des données et analyses. Pour +cette raison, les choix faits dans la représentation du corpus et en particulier +dans la conception des métadonnées favorisent la plus grande flexibilité, en +tâchant de minimiser l'effort nécessaire pour relancer les traitements affectés +par un changement dans une donnée. Cette stratégie repose sur le constat +empirique qu'il est vain d'espérer que la première version sera la bonne et +qu'il vaut mieux considérer toutes les données en aval dans la chaîne de +dépendance comme temporaires, susceptibles de mises à jour et donc jetables. La +détermination d'un ensemble de domaines de connaissance présentée à la +sous-section \ref{sec:domains_build_classes} p.\pageref{sec:domains_build_classes} d'une façon très linéaire résulte en réalité de ce type de négociation entre code et données. Naturellement, pour que ces allers et retours conduisent à un processus d'amélioration continue plutôt diff --git a/Corpus/Encodage.md b/Corpus/Encodage.md index 8a58c65..de060bd 100644 --- a/Corpus/Encodage.md +++ b/Corpus/Encodage.md @@ -458,7 +458,7 @@ séquentiellement par œuvre et par tome, et à concaténer les trois composantes — en base 10 pour celles qui sont numériques — séparées par le caractère `_` (tiret bas). -{#fig:cathete-xml-0} +{#fig:cathete-xml-0} À l'intérieur de cet élément doit se trouver un `<head/>` contenant la vedette de l'article. Un élément `<hi/>` à l'intérieur permet le cas échéant de @@ -489,7 +489,7 @@ tenant compte de ces remarques. un `<usg/>` ne peut pas apparaître non-plus ni dans un `<p/>` ni même directement dans un `<div/>` -{#fig:cathete-xml-1} +{#fig:cathete-xml-1} Ensuite, chaque sens est encodé par un élément `<div/>` dont l'attribut `type` est défini à la valeur `sense` en référence à l'élément `<sense/>` du module @@ -498,7 +498,7 @@ partir de 0 en fonction de son rang parmi les différents sens couverts par l'article et présente même si la vedette n'en a qu'un seul comme c'est le cas pour l'article CATHÈTE à la figure \ref{fig:cathete-xml-2}. -{#fig:cathete-xml-2} +{#fig:cathete-xml-2} De plus, chaque ligne de l'article doit commencer par un élément `<lb/>`, y compris avant l'élément `<head/>` comme le présente la figure @@ -515,7 +515,7 @@ corps de l'article sont encodées de la façon habituelle avec des `<div/>` contenant des `<p/>` pour les paragraphes, qui peuvent éventuellement contenir des `<head/>` locaux pour représenter leurs titres. -{#fig:cathete-xml-3} +{#fig:cathete-xml-3} Certains articles comme BOUMERANG (La Grande Encyclopédie, T7, p.704) comportent des figures avec des légendes (voir la figure \ref{fig:boumerang-photo}) qui @@ -543,7 +543,7 @@ l'impossibilité d'utiliser le module *dictionaries*. {#fig:gelocus_photo width=60%} -{#fig:gelocus-xml} +{#fig:gelocus-xml} Les éléments péritextes évoqués précédemment à la section \ref{sec:encyclopedia_anatomy} et qui apparaissent sur les pages d'encyclopédies @@ -649,7 +649,7 @@ n'implémente pas encore toutes les spécifications de l'encodage proposé précédemment. La figure \ref{fig:cathete-xml-current} montre ainsi l'état actuel de l'article CATHÈTE à la fin de la phase d'encodage. -{#fig:cathete-xml-current} +{#fig:cathete-xml-current} La détection des vedettes ne permet pas encore de reconnaître les désignants et c'est pourquoi ils apparaissent à l'extérieur de la balise `<head/>`. Aucun @@ -728,7 +728,7 @@ texte. Une version numérique constitue une trace qui permet de fixer un texte e de le diffuser (partage, copie, sauvegarde). Le deuxième aspect de la définition de @rastier_textes_1996[*ibid*] insiste sur -l'existence d'un texte dans le cadre d'un pratique sociale. Quel que soit le +l'existence d'un texte dans le cadre d'une pratique sociale. Quel que soit le support utilisé pour fixer un texte, c'est rarement la trace elle-même mais plutôt l'objet abstrait qu'elle dénote qui intéresse son lectorat ou les linguistes. Avant même de considérer quelque niveau d'analyse que ce soit sur le @@ -888,15 +888,15 @@ privée de son `'-'` final à la deuxième dans le cas contraire. Mais en pratiq l'élimination du tiret dépend du contexte: il fait partie de certains mots composés comme «peut-être» ou «pis-aller» et permet de rattacher les enclitiques au mot qui les précède comme dans «celui-là » ou «puis-je», ce qui interdit sa -suppression. Si des ressources lexicales peuvent aider dans le premier cas (mais -avec des risques de faux-positifs, que faire sans analyse sémantique fine d'un +suppression. Des ressources lexicales peuvent aider dans le premier cas mais +avec des risques de faux-positifs (que faire sans analyse sémantique fine d'un hypothétique nom propre «Pisaller» ne tenant pas sur le reste d'une ligne et qui -aurait donné lieu à la séquence «Pis-`'\n'`aller» dans un fichier ?), la grande -variété d'éléments combinables dans le second cas n'incite pas à opter pour une -simple vérification d'appartenance à une liste préétablie d'exceptions connues. -Dans tous les cas, une analyse fine des dynamiques au niveau au moins -morphosyntaxique sinon syntaxique semble donc requise pour déterminer avec -certitude le sort d'un tiret survenant juste avant une fin de ligne. +aurait donné lieu à la séquence «Pis-`'\n'`aller» dans un fichier ?). Dans le +second cas, la grande variété d'éléments combinables n'incite de toute façon pas +à opter pour une simple vérification d'appartenance à une liste préétablie +d'exceptions connues. Par conséquent, une analyse fine des dynamiques au niveau +au moins morphosyntaxique sinon syntaxique semble donc requise pour déterminer +avec certitude le sort d'un tiret survenant juste avant une fin de ligne. Loin de constituer une base commune pour représenter un texte, le format `.txt` représente donc en fait un impensé de l'encodage. Dans le cadre des présents @@ -915,13 +915,13 @@ paragraphe précédent), mais rend de ce fait l'accès au texte un peu plus complexe. À l'issue de cette section, l'ensemble des paramètres clefs pour représenter les -textes du corpus ont été identifiés et discutés. La confrontation des besoins -d'encodage définis par l'observation des pages de *LGE* et des structures -définies par le schéma d'encodage *TEI*, a montré que le module *dictionaries* -n'était pas adapté à la représentation d'une encyclopédie telle que *LGE*. Un +textes du corpus ont été identifiés et discutés. En confrontant les besoins +d'encodage définis par l'observation des pages de *LGE* avec les structures +définies par le schéma d'encodage *TEI*, les limites du module *dictionaries* +pour représenter une encyclopédie telle que *LGE* ont été mises en évidence. Un encodage alternatif utilisant des éléments plus généraux de la *TEI* — tout comme l'avait fait l'[@=ARTFL] dans sa version de l'*EDdA*, mais en opérant des -choix légèrement différents — a été démontré sur quelques articles et une +choix légèrement différents — a été illustré sur quelques articles et une portion de cet encodage est implémentée dans l'outil `soprano`, permettant de générer automatiquement des articles au format XML-[@=TEI] à partir des pages en ALTO livrées par la BnF. Cet outil permet également de produire des fichiers en diff --git "a/src/article/LGE/cath\303\250te_0.md" "b/src/article/LGE/cath\303\250te_0.md" index 6f1c7a2..d4a8f2f 100644 --- "a/src/article/LGE/cath\303\250te_0.md" +++ "b/src/article/LGE/cath\303\250te_0.md" @@ -3,7 +3,7 @@ header-includes: - \pagestyle{empty} - \usepackage{graphicx} - \usepackage[left=0cm,top=0cm,right=0cm,nohead,nofoot]{geometry} - - \geometry{paperwidth=5.6cm, paperheight=0.5cm, margin=0cm} + - \geometry{paperwidth=5.8cm, paperheight=0.5cm, margin=0cm} --- ```xml diff --git a/src/article/LGE/gelocus.md b/src/article/LGE/gelocus.md index 9c787c8..108994e 100644 --- a/src/article/LGE/gelocus.md +++ b/src/article/LGE/gelocus.md @@ -3,12 +3,12 @@ header-includes: - \pagestyle{empty} - \usepackage{graphicx} - \usepackage[left=0cm,top=0cm,right=0cm,nohead,nofoot]{geometry} - - \geometry{paperwidth=9.2cm, paperheight=1.8cm, margin=0cm} + - \geometry{paperwidth=9.3cm, paperheight=1.8cm, margin=0cm} --- ```xml <p> - (V. <ref target="#boeuf-0">Boeuf</ref> et - <ref target="#chevrotain-0">Chevrotain</ref>). + (V. <ref target="#LGE_7_247">Boeuf</ref> et + <ref target="#LGE_10_3368">Chevrotain</ref>). </p> ``` -- GitLab