Skip to content
Snippets Groups Projects
Commit 5de4591c authored by Alice Brenon's avatar Alice Brenon
Browse files

Proofread to the end of Chapt.3 Corpus

parent d0395902
No related branches found
No related tags found
No related merge requests found
...@@ -43,8 +43,8 @@ milieu d'une phrase, divisions au mileu des mots coupés par un retour à la ...@@ -43,8 +43,8 @@ milieu d'une phrase, divisions au mileu des mots coupés par un retour à la
ligne…). Pour analyser les phrases en syntaxe et morphosyntaxe, un outil doit ligne…). Pour analyser les phrases en syntaxe et morphosyntaxe, un outil doit
voir au moins toute une phrase d'un coup (il peut en voir plusieurs au sein d'un voir au moins toute une phrase d'un coup (il peut en voir plusieurs au sein d'un
même paragraphe mais donnera une analyse erronée s'il ne reçoit qu'une phrase même paragraphe mais donnera une analyse erronée s'il ne reçoit qu'une phrase
partielle); pour classifier un article, un modèle doit avoir accès à tout le partielle); pour classer un article, un modèle doit avoir accès à tout le texte
texte qu'il contient. qu'il contient.
Puisque le choix fait pour représenter les articles dans des fichiers texte Puisque le choix fait pour représenter les articles dans des fichiers texte
consiste à garder la mise en page des lignes telles qu'elles apparaissent dans consiste à garder la mise en page des lignes telles qu'elles apparaissent dans
...@@ -78,22 +78,14 @@ produisent pour chaque texte une valeur symbolique, le nom d'une classe dont ...@@ -78,22 +78,14 @@ produisent pour chaque texte une valeur symbolique, le nom d'une classe dont
relève le texte d'après le modèle. Cette information est stockée dans des relève le texte d'après le modèle. Cette information est stockée dans des
fichiers de métadonnées tabulaires (voir la sous-section fichiers de métadonnées tabulaires (voir la sous-section
\ref{sec:corpus_structuring_metadata}). L'analyse syntaxique en dépendances \ref{sec:corpus_structuring_metadata}). L'analyse syntaxique en dépendances
universelles (*Universal Dependencies*[^UD], [@=UD] dans le reste de cette universelles ([@=UD]) est effectuée avec la librairie python Stanza[^stanza]
thèse) est effectuée avec la librairie python Stanza[^stanza][@qi2020stanza], [@qi2020stanza], qui retourne les articles annotés au format CoNLL-U. Cette
qui retourne une annotation en des articles au format CoNLL-U[^conllu]. Cette annotation comprend une étiquette morphosyntaxique pour les tokens identifiés,
annotation comprend une étiquette morphosyntaxique pour des tokens identifiés, exprimée avec les parties de discours propres aux [@=UD], les UPOS[^UPOS].
exprimée avec les parties de discours ([@=POS]) propres aux [@=UD], les
UPOS[^UPOS].
[^stanza]: [^stanza]:
[https://stanfordnlp.github.io/stanza/](https://stanfordnlp.github.io/stanza/) [https://stanfordnlp.github.io/stanza/](https://stanfordnlp.github.io/stanza/)
[^UD]:
[https://universaldependencies.org/](https://universaldependencies.org/)
[^conllu]:
[https://universaldependencies.org/format.html](https://universaldependencies.org/format.html)
[^UPOS]: [^UPOS]:
[https://universaldependencies.org/docs/u/pos/](https://universaldependencies.org/docs/u/pos/) [https://universaldependencies.org/docs/u/pos/](https://universaldependencies.org/docs/u/pos/)
...@@ -107,7 +99,7 @@ pages tout en distinguant le rôle de chaque objet et sa relation aux autres. Le ...@@ -107,7 +99,7 @@ pages tout en distinguant le rôle de chaque objet et sa relation aux autres. Le
introduiraient beaucoup d'ambiguïté dans des fichiers texte, à moins d'en introduiraient beaucoup d'ambiguïté dans des fichiers texte, à moins d'en
complexifier encore l'encodage. L'option `-k` (`--keep` en version longue) de complexifier encore l'encodage. L'option `-k` (`--keep` en version longue) de
`soprano` permet de choisir quel type d'éléments conserver et permet de produire `soprano` permet de choisir quel type d'éléments conserver et permet de produire
des fichiers ne contenant que le texte des articles, mais par défaut, tous les des fichiers ne contenant que le texte des articles. Par défaut tous les
éléments sont conservés (en particulier les changements de page, les légendes éléments sont conservés (en particulier les changements de page, les légendes
d'images, etc.), ce qui prend tout son sens avec le format XML-[@=TEI]. d'images, etc.), ce qui prend tout son sens avec le format XML-[@=TEI].
...@@ -275,13 +267,13 @@ désignants normalisés. Il est constitué des classes suivantes: ...@@ -275,13 +267,13 @@ désignants normalisés. Il est constitué des classes suivantes:
Le premier besoin pour attacher des informations additionnelles aux textes sans Le premier besoin pour attacher des informations additionnelles aux textes sans
devoir dupliquer leur contenu est la détermination d'une information qui devoir dupliquer leur contenu est la détermination d'une information qui
identifie de manière unique les fichiers, ce qui constitue une clef primaire identifie de manière unique les fichiers, ce qui constitue une clef primaire
dans le jargon des bases de données. En distinguant les articles des propriétés dans le vocabulaire des bases de données. En distinguant les articles des
qu'on souhaite pouvoir leur associer, c'est l'approche la plus modulaire propriétés qu'on souhaite pouvoir leur associer, c'est l'approche la plus
puisqu'elle permet de croiser entre elles plusieurs métadonnées issues de modulaire puisqu'elle permet de croiser entre elles plusieurs métadonnées issues
traitements différents ou de sélectionner des sous-corpus, par opposition à une de traitements différents ou de sélectionner des sous-corpus, par opposition à
approche en «jeu de données» ou *datasets* dans laquelle toutes les informations une approche en «jeu de données» ou *datasets* dans laquelle toutes les
requises, texte et métadonnées, seraient groupés ensemble de manière autonome en informations requises, texte et métadonnées, seraient groupées ensemble de
un objet unique. manière autonome en un objet unique.
\label{metadata_primary_key}Les présents travaux optent pour une clef primaire \label{metadata_primary_key}Les présents travaux optent pour une clef primaire
simple basée sur le rang des articles dans chaque tome des œuvres du corpus, simple basée sur le rang des articles dans chaque tome des œuvres du corpus,
...@@ -334,7 +326,7 @@ minimales nécessaires pour référencer par exemple les deux articles de la fig ...@@ -334,7 +326,7 @@ minimales nécessaires pour référencer par exemple les deux articles de la fig
À cette clef primaire doivent s'ajouter des colonnes pour assurer la navigation À cette clef primaire doivent s'ajouter des colonnes pour assurer la navigation
et le retour au plein texte. La plus évidente est la vedette (un humain cherche et le retour au plein texte. La plus évidente est la vedette (un humain cherche
un article à propos d'EVIAN, pas le 3184ème article de l'*EDdA*). Pour un article à propos d'EVIAN, pas le 3 184ème article de l'*EDdA*). Pour
outrepasser le problème d'homonymie des vedettes soulevé ci-dessus, une version outrepasser le problème d'homonymie des vedettes soulevé ci-dessus, une version
normalisée et rendue unique de cette vedette est également stockée, bien qu'elle normalisée et rendue unique de cette vedette est également stockée, bien qu'elle
n'ait finalement pas été retenue pour constituer la clef primaire. Enfin, le n'ait finalement pas été retenue pour constituer la clef primaire. Enfin, le
...@@ -387,7 +379,7 @@ métadonnées mais se manifeste aussi dans chacune des arborescences corresponda ...@@ -387,7 +379,7 @@ métadonnées mais se manifeste aussi dans chacune des arborescences corresponda
sont en effet organisés par œuvre (dans un répertoire dont le nom est la valeur sont en effet organisés par œuvre (dans un répertoire dont le nom est la valeur
de l'attribut `work` de l'article). Chaque dossier d'œuvre (`EDdA/` ou `LGE/` de l'attribut `work` de l'article). Chaque dossier d'œuvre (`EDdA/` ou `LGE/`
donc) contient un répertoire par tome, nommé en préfixant la valeur de donc) contient un répertoire par tome, nommé en préfixant la valeur de
l'attribut `volume` d'un 'T' (t majuscule) : `T1/`, `T2/` jusqu'à `T17/` dans l'attribut `volume` d'un 'T' (t majuscule) : `T1/`, `T2/` jusqu'à `T17/` dans
`EDdA/` et `T31/` dans `LGE/`. À l'intérieur de chaque dossier de tome, chaque `EDdA/` et `T31/` dans `LGE/`. À l'intérieur de chaque dossier de tome, chaque
article est nommé par son rang, suffixé de l'extension idoine (`.txt`, `.xml`, article est nommé par son rang, suffixé de l'extension idoine (`.txt`, `.xml`,
`.conllu`…). Ainsi, il est extrêmement facile d'accéder aux contenus des `.conllu`…). Ainsi, il est extrêmement facile d'accéder aux contenus des
...@@ -509,7 +501,7 @@ initiale à d'autres données. Ces quatre critères, résumés au tableau ...@@ -509,7 +501,7 @@ initiale à d'autres données. Ces quatre critères, résumés au tableau
cumuler pour produire des recherches dignes de confiance. cumuler pour produire des recherches dignes de confiance.
Les seules expériences de cette thèse pouvant viser à la reproductibilité sont Les seules expériences de cette thèse pouvant viser à la reproductibilité sont
celles concernant *LGE* exclusivement. Toutes celles qui intègrent l'*EDdA* ne celles qui ne portent que sur *LGE*. Toutes celles qui intègrent l'*EDdA* ne
peuvent par construction viser qu'à la réplicabilité. En pratique, étant donnée peuvent par construction viser qu'à la réplicabilité. En pratique, étant donnée
la part cruciale qu'a jouée l'*EDdA*, notamment dans l'entraînement des modèles la part cruciale qu'a jouée l'*EDdA*, notamment dans l'entraînement des modèles
de classification automatique (voir le chapitre \ref{sec:domains_classification} de classification automatique (voir le chapitre \ref{sec:domains_classification}
...@@ -536,28 +528,28 @@ tableau \ref{table:reproducibility_4_flavours}) peut également apporter aux ...@@ -536,28 +528,28 @@ tableau \ref{table:reproducibility_4_flavours}) peut également apporter aux
phases d'investigation des [@=HN]. La nature irrégulière des objets d'étude gêne phases d'investigation des [@=HN]. La nature irrégulière des objets d'étude gêne
le développement de traitements s'appliquant parfaitement à toutes les données. le développement de traitements s'appliquant parfaitement à toutes les données.
À l'échelle mésoscopique du présent corpus — la taille des encyclopédies est À l'échelle mésoscopique du présent corpus — la taille des encyclopédies est
proverbialement grande des encyclopédies, mais les volumes de données en jeu proverbialement grande mais les volumes de données en jeu restent très largement
restent très largement inférieurs aux mégadonnées générées par les collectes inférieurs aux mégadonnées générées par les collectes automatiques de
automatiques de dispositifs numériques — il faut considérer que tout ce qui peut dispositifs numériques — il faut considérer que tout ce qui peut arriver
arriver arrivera. En ce qui concerne les désignants par exemple, il suffit arrivera. En ce qui concerne les désignants par exemple, il suffit quasiment
quasiment d'envisager l'existence d'une régularité et de tenter de la capturer d'envisager l'existence d'une régularité et de tenter de la capturer dans un
dans un motif pour qu'il soit contredit par une donnée du corpus, qu'elle ait motif pour qu'il soit contredit par une donnée du corpus, qu'elle ait réellement
réellement été produite telle quelle par un choix ou une erreur humaine ou été produite telle quelle par un choix ou une erreur humaine ou qu'elle émerge à
qu'elle émerge à cause des bruits générés par les imperfections des différentes cause des bruits générés par les imperfections des différentes étapes de
étapes de traitement (vieillissement du papier et de l'encre, qualité de la traitement (vieillissement du papier et de l'encre, qualité de la numérisation,
numérisation, performances de l'[@=OCR]…). Ainsi, dans ce type d'étude il s'agit performances de l'[@=OCR]…). Ainsi, dans ce type d'étude il s'agit en permanence
en permanence de placer un curseur entre ce qui est acceptable pour répondre à de placer un curseur entre ce qui est acceptable pour répondre à une question
une question précise et ce qui est perfectible en vue d'études futures. Trouver précise et ce qui est perfectible en vue d'études futures. Trouver cet équilibre
cet équilibre engendre un va-et-vient continu entre traitement des données et engendre un va-et-vient continu entre traitement des données et analyses. Pour
analyses. Pour cette raison, les choix faits dans la représentation du corpus et cette raison, les choix faits dans la représentation du corpus et en particulier
en particulier dans la conception des métadonnées favorisent la plus grande dans la conception des métadonnées favorisent la plus grande flexibilité, en
flexibilité, en tâchant de minimiser l'effort nécessaire pour relancer les tâchant de minimiser l'effort nécessaire pour relancer les traitements affectés
traitements affectés par un changement dans une donnée. Cette stratégie repose par un changement dans une donnée. Cette stratégie repose sur le constat
sur le constat empirique qu'il est vain d'espérer que la première version sera empirique qu'il est vain d'espérer que la première version sera la bonne et
la bonne et qu'il vaut mieux considérer toutes les données en aval dans la qu'il vaut mieux considérer toutes les données en aval dans la chaîne de
chaîne de dépendance comme temporaires, susceptibles de mises à jour et donc dépendance comme temporaires, susceptibles de mises à jour et donc jetables. La
jetables. La détermination d'un ensemble de domaines de connaissance présentée à détermination d'un ensemble de domaines de connaissance présentée à la
la sous-section \ref{sec:domains_build_classes} sous-section \ref{sec:domains_build_classes}
p.\pageref{sec:domains_build_classes} d'une façon très linéaire résulte en p.\pageref{sec:domains_build_classes} d'une façon très linéaire résulte en
réalité de ce type de négociation entre code et données. Naturellement, pour que réalité de ce type de négociation entre code et données. Naturellement, pour que
ces allers et retours conduisent à un processus d'amélioration continue plutôt ces allers et retours conduisent à un processus d'amélioration continue plutôt
......
...@@ -458,7 +458,7 @@ séquentiellement par œuvre et par tome, et à concaténer les trois ...@@ -458,7 +458,7 @@ séquentiellement par œuvre et par tome, et à concaténer les trois
composantes — en base 10 pour celles qui sont numériques — séparées par le composantes — en base 10 pour celles qui sont numériques — séparées par le
caractère `_` (tiret bas). caractère `_` (tiret bas).
![L'élément conteneur `div` pour l'article CATHÈTE](figure/text/LGE/cathète_0.png){#fig:cathete-xml-0} ![L'élément conteneur `div` pour l'article CATHÈTE](figure/article/LGE/cathète_0.png){#fig:cathete-xml-0}
À l'intérieur de cet élément doit se trouver un `<head/>` contenant la vedette À l'intérieur de cet élément doit se trouver un `<head/>` contenant la vedette
de l'article. Un élément `<hi/>` à l'intérieur permet le cas échéant de de l'article. Un élément `<hi/>` à l'intérieur permet le cas échéant de
...@@ -489,7 +489,7 @@ tenant compte de ces remarques. ...@@ -489,7 +489,7 @@ tenant compte de ces remarques.
un `<usg/>` ne peut pas apparaître non-plus ni dans un `<p/>` ni même un `<usg/>` ne peut pas apparaître non-plus ni dans un `<p/>` ni même
directement dans un `<div/>` directement dans un `<div/>`
![L'encodage de la vedette et du désignant de l'article CATHÈTE](figure/text/LGE/cathète_1.png){#fig:cathete-xml-1} ![L'encodage de la vedette et du désignant de l'article CATHÈTE](figure/article/LGE/cathète_1.png){#fig:cathete-xml-1}
Ensuite, chaque sens est encodé par un élément `<div/>` dont l'attribut `type` Ensuite, chaque sens est encodé par un élément `<div/>` dont l'attribut `type`
est défini à la valeur `sense` en référence à l'élément `<sense/>` du module est défini à la valeur `sense` en référence à l'élément `<sense/>` du module
...@@ -498,7 +498,7 @@ partir de 0 en fonction de son rang parmi les différents sens couverts par ...@@ -498,7 +498,7 @@ partir de 0 en fonction de son rang parmi les différents sens couverts par
l'article et présente même si la vedette n'en a qu'un seul comme c'est le cas l'article et présente même si la vedette n'en a qu'un seul comme c'est le cas
pour l'article CATHÈTE à la figure \ref{fig:cathete-xml-2}. pour l'article CATHÈTE à la figure \ref{fig:cathete-xml-2}.
![La structure vide permettant de représenter le seul sens du mot CATHÈTE](figure/text/LGE/cathète_2.png){#fig:cathete-xml-2} ![La structure vide permettant de représenter le seul sens du mot CATHÈTE](figure/article/LGE/cathète_2.png){#fig:cathete-xml-2}
De plus, chaque ligne de l'article doit commencer par un élément `<lb/>`, y De plus, chaque ligne de l'article doit commencer par un élément `<lb/>`, y
compris avant l'élément `<head/>` comme le présente la figure compris avant l'élément `<head/>` comme le présente la figure
...@@ -515,7 +515,7 @@ corps de l'article sont encodées de la façon habituelle avec des `<div/>` ...@@ -515,7 +515,7 @@ corps de l'article sont encodées de la façon habituelle avec des `<div/>`
contenant des `<p/>` pour les paragraphes, qui peuvent éventuellement contenir contenant des `<p/>` pour les paragraphes, qui peuvent éventuellement contenir
des `<head/>` locaux pour représenter leurs titres. des `<head/>` locaux pour représenter leurs titres.
![Un encodage complet de l'article CATHÈTE](figure/text/LGE/cathète_3.png){#fig:cathete-xml-3} ![Un encodage complet de l'article CATHÈTE](figure/article/LGE/cathète_3.png){#fig:cathete-xml-3}
Certains articles comme BOUMERANG (La Grande Encyclopédie, T7, p.704) comportent Certains articles comme BOUMERANG (La Grande Encyclopédie, T7, p.704) comportent
des figures avec des légendes (voir la figure \ref{fig:boumerang-photo}) qui des figures avec des légendes (voir la figure \ref{fig:boumerang-photo}) qui
...@@ -543,7 +543,7 @@ l'impossibilité d'utiliser le module *dictionaries*. ...@@ -543,7 +543,7 @@ l'impossibilité d'utiliser le module *dictionaries*.
![Article GELOCUS dans *LGE*, T18, p.699](figure/text/LGE/gelocus_t18.png){#fig:gelocus_photo width=60%} ![Article GELOCUS dans *LGE*, T18, p.699](figure/text/LGE/gelocus_t18.png){#fig:gelocus_photo width=60%}
![Encodage des renvois dans l'article GELOCUS](figure/text/LGE/gelocus.png){#fig:gelocus-xml} ![Encodage des renvois dans l'article GELOCUS](figure/article/LGE/gelocus.png){#fig:gelocus-xml}
Les éléments péritextes évoqués précédemment à la section Les éléments péritextes évoqués précédemment à la section
\ref{sec:encyclopedia_anatomy} et qui apparaissent sur les pages d'encyclopédies \ref{sec:encyclopedia_anatomy} et qui apparaissent sur les pages d'encyclopédies
...@@ -649,7 +649,7 @@ n'implémente pas encore toutes les spécifications de l'encodage proposé ...@@ -649,7 +649,7 @@ n'implémente pas encore toutes les spécifications de l'encodage proposé
précédemment. La figure \ref{fig:cathete-xml-current} montre ainsi l'état actuel précédemment. La figure \ref{fig:cathete-xml-current} montre ainsi l'état actuel
de l'article CATHÈTE à la fin de la phase d'encodage. de l'article CATHÈTE à la fin de la phase d'encodage.
![Encodage actuel de l'article CATHÈTE produit par `soprano`](figure/text/LGE/cathète_current.png){#fig:cathete-xml-current} ![Encodage actuel de l'article CATHÈTE produit par `soprano`](figure/article/LGE/cathète_current.png){#fig:cathete-xml-current}
La détection des vedettes ne permet pas encore de reconnaître les désignants et La détection des vedettes ne permet pas encore de reconnaître les désignants et
c'est pourquoi ils apparaissent à l'extérieur de la balise `<head/>`. Aucun c'est pourquoi ils apparaissent à l'extérieur de la balise `<head/>`. Aucun
...@@ -728,7 +728,7 @@ texte. Une version numérique constitue une trace qui permet de fixer un texte e ...@@ -728,7 +728,7 @@ texte. Une version numérique constitue une trace qui permet de fixer un texte e
de le diffuser (partage, copie, sauvegarde). de le diffuser (partage, copie, sauvegarde).
Le deuxième aspect de la définition de @rastier_textes_1996[*ibid*] insiste sur Le deuxième aspect de la définition de @rastier_textes_1996[*ibid*] insiste sur
l'existence d'un texte dans le cadre d'un pratique sociale. Quel que soit le l'existence d'un texte dans le cadre d'une pratique sociale. Quel que soit le
support utilisé pour fixer un texte, c'est rarement la trace elle-même mais support utilisé pour fixer un texte, c'est rarement la trace elle-même mais
plutôt l'objet abstrait qu'elle dénote qui intéresse son lectorat ou les plutôt l'objet abstrait qu'elle dénote qui intéresse son lectorat ou les
linguistes. Avant même de considérer quelque niveau d'analyse que ce soit sur le linguistes. Avant même de considérer quelque niveau d'analyse que ce soit sur le
...@@ -888,15 +888,15 @@ privée de son `'-'` final à la deuxième dans le cas contraire. Mais en pratiq ...@@ -888,15 +888,15 @@ privée de son `'-'` final à la deuxième dans le cas contraire. Mais en pratiq
l'élimination du tiret dépend du contexte: il fait partie de certains mots l'élimination du tiret dépend du contexte: il fait partie de certains mots
composés comme «peut-être» ou «pis-aller» et permet de rattacher les enclitiques composés comme «peut-être» ou «pis-aller» et permet de rattacher les enclitiques
au mot qui les précède comme dans «celui-là» ou «puis-je», ce qui interdit sa au mot qui les précède comme dans «celui-là» ou «puis-je», ce qui interdit sa
suppression. Si des ressources lexicales peuvent aider dans le premier cas (mais suppression. Des ressources lexicales peuvent aider dans le premier cas mais
avec des risques de faux-positifs, que faire sans analyse sémantique fine d'un avec des risques de faux-positifs (que faire sans analyse sémantique fine d'un
hypothétique nom propre «Pisaller» ne tenant pas sur le reste d'une ligne et qui hypothétique nom propre «Pisaller» ne tenant pas sur le reste d'une ligne et qui
aurait donné lieu à la séquence «Pis-`'\n'`aller» dans un fichier ?), la grande aurait donné lieu à la séquence «Pis-`'\n'`aller» dans un fichier ?). Dans le
variété d'éléments combinables dans le second cas n'incite pas à opter pour une second cas, la grande variété d'éléments combinables n'incite de toute façon pas
simple vérification d'appartenance à une liste préétablie d'exceptions connues. à opter pour une simple vérification d'appartenance à une liste préétablie
Dans tous les cas, une analyse fine des dynamiques au niveau au moins d'exceptions connues. Par conséquent, une analyse fine des dynamiques au niveau
morphosyntaxique sinon syntaxique semble donc requise pour déterminer avec au moins morphosyntaxique sinon syntaxique semble donc requise pour déterminer
certitude le sort d'un tiret survenant juste avant une fin de ligne. avec certitude le sort d'un tiret survenant juste avant une fin de ligne.
Loin de constituer une base commune pour représenter un texte, le format `.txt` Loin de constituer une base commune pour représenter un texte, le format `.txt`
représente donc en fait un impensé de l'encodage. Dans le cadre des présents représente donc en fait un impensé de l'encodage. Dans le cadre des présents
...@@ -915,13 +915,13 @@ paragraphe précédent), mais rend de ce fait l'accès au texte un peu plus ...@@ -915,13 +915,13 @@ paragraphe précédent), mais rend de ce fait l'accès au texte un peu plus
complexe. complexe.
À l'issue de cette section, l'ensemble des paramètres clefs pour représenter les À l'issue de cette section, l'ensemble des paramètres clefs pour représenter les
textes du corpus ont été identifiés et discutés. La confrontation des besoins textes du corpus ont été identifiés et discutés. En confrontant les besoins
d'encodage définis par l'observation des pages de *LGE* et des structures d'encodage définis par l'observation des pages de *LGE* avec les structures
définies par le schéma d'encodage *TEI*, a montré que le module *dictionaries* définies par le schéma d'encodage *TEI*, les limites du module *dictionaries*
n'était pas adapté à la représentation d'une encyclopédie telle que *LGE*. Un pour représenter une encyclopédie telle que *LGE* ont été mises en évidence. Un
encodage alternatif utilisant des éléments plus généraux de la *TEI* — tout encodage alternatif utilisant des éléments plus généraux de la *TEI* — tout
comme l'avait fait l'[@=ARTFL] dans sa version de l'*EDdA*, mais en opérant des comme l'avait fait l'[@=ARTFL] dans sa version de l'*EDdA*, mais en opérant des
choix légèrement différents — a été démontré sur quelques articles et une choix légèrement différents — a été illustré sur quelques articles et une
portion de cet encodage est implémentée dans l'outil `soprano`, permettant de portion de cet encodage est implémentée dans l'outil `soprano`, permettant de
générer automatiquement des articles au format XML-[@=TEI] à partir des pages en générer automatiquement des articles au format XML-[@=TEI] à partir des pages en
ALTO livrées par la BnF. Cet outil permet également de produire des fichiers en ALTO livrées par la BnF. Cet outil permet également de produire des fichiers en
......
...@@ -3,7 +3,7 @@ header-includes: ...@@ -3,7 +3,7 @@ header-includes:
- \pagestyle{empty} - \pagestyle{empty}
- \usepackage{graphicx} - \usepackage{graphicx}
- \usepackage[left=0cm,top=0cm,right=0cm,nohead,nofoot]{geometry} - \usepackage[left=0cm,top=0cm,right=0cm,nohead,nofoot]{geometry}
- \geometry{paperwidth=5.6cm, paperheight=0.5cm, margin=0cm} - \geometry{paperwidth=5.8cm, paperheight=0.5cm, margin=0cm}
--- ---
```xml ```xml
......
...@@ -3,12 +3,12 @@ header-includes: ...@@ -3,12 +3,12 @@ header-includes:
- \pagestyle{empty} - \pagestyle{empty}
- \usepackage{graphicx} - \usepackage{graphicx}
- \usepackage[left=0cm,top=0cm,right=0cm,nohead,nofoot]{geometry} - \usepackage[left=0cm,top=0cm,right=0cm,nohead,nofoot]{geometry}
- \geometry{paperwidth=9.2cm, paperheight=1.8cm, margin=0cm} - \geometry{paperwidth=9.3cm, paperheight=1.8cm, margin=0cm}
--- ---
```xml ```xml
<p> <p>
(V. <ref target="#boeuf-0">Boeuf</ref> et (V. <ref target="#LGE_7_247">Boeuf</ref> et
<ref target="#chevrotain-0">Chevrotain</ref>). <ref target="#LGE_10_3368">Chevrotain</ref>).
</p> </p>
``` ```
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment