Application.md



Des textes au corpus {#sec:corpus_application}
Après avoir décrit les œuvres puis les manières de les représenter par des
formats numériques ainsi que les choix opérés sur cette question, il est temps
pour conclure ce chapitre de montrer comment ces étapes préparatoires
convergent. Elles permettent de constituer un corpus qui structure les données
et facilite leur emploi avec différents outils pour les besoins de cette thèse.
Cette section sera également l'occasion de faire une remarque méthodologique sur
l'obtention et la maintenance du corpus et des métadonnées qu'il contient.

Différents formats pour différents usages {#sec:corpus_application_formats}
Deux formats de départ différents sont utilisés pour représenter les articles du
corpus en amont de tout traitement. Le premier est un format XML-[@=TEI]
utilisant les éléments principaux du schéma (module core, par opposition au
module dictionaries, pour les raisons présentées à la section
\ref{sec:dictionaries_vs_encyclopedias}
p.\pageref{sec:dictionaries_vs_encyclopedias}). Le choix de balises diffère
légèrement entre l'EDdA (pour laquelle l'[@=ARTFL] utilise des éléments
<div1/> pour les articles dont les métadonnées sont stockées dans des éléments
<index/>) et LGE (pour laquelle les rares métadonnées accessibles sont
stockées directement comme attribut de l'élément <div/> choisi pour
représenter les articles). Le second est un format textuel utilisant les choix
d'encodage décrits à la sous-section \ref{sec:text_format}
(p.\pageref{sec:text_linear_format}).
Le second peut s'obtenir du premier en extrayant le contenu de certaines balises
précises dans l'encodage des fichiers. C'est de cette façon qu'a été obtenue la
version texte des articles de l'EDdA. Pour LGE en revanche, la version
textuelle peut être extraite directement à partir des pages en XML-ALTO,
indépendamment de la version XML-[@=TEI], les deux correspondant à des modes de
sortie de soprano (la génération des métadonnées décrite à la section
\ref{sec:corpus_structuring_metadata} constitue également un mode séparé).

Format textuel {#sec:corpus_application_formats_text}
Le format textuel est en pratique le plus utilisé dans les différentes études
conduites au cours de cette thèse. La plupart des outils de [@=TAL] attendent en
entrée un flot d'unités indépendantes de texte (avec toutes les réserves émises
à ce sujet à la section \ref{sec:text_format} p.\pageref{sec:text_format})
débarrassées des contingences liées à leur représentation (retours à la ligne au
milieu d'une phrase, divisions au mileu des mots coupés par un retour à la
ligne…). Pour analyser les phrases en syntaxe et morphosyntaxe, un outil doit
voir au moins toute une phrase d'un coup (il peut en voir plusieurs au sein d'un
même paragraphe mais donnera une analyse erronée s'il ne reçoit qu'une phrase
partielle); pour classifier un article, un modèle doit avoir accès à tout le
texte qu'il contient.
Puisque le choix fait pour représenter les articles dans des fichiers texte
consiste à garder la mise en page des lignes telles qu'elles apparaissent dans
les encyclopédies du corpus, il faut d'abord «nettoyer» le texte avant de
pouvoir appeler dessus une chaîne de classification, un analyseur syntaxique ou
un annotateur d'entités nommées. Pour éviter les redondances de traitement et
s'assurer que tous les outils ont reçu la même entrée, la phase d'extraction a
été factorisée, et une version linéarisée des articles est produite et stockée
dans des fichiers texte utilisant d'autres paramètres d'encodage textuel (voir
p.\pageref{sec:text_lines_paragraph} et seq.).
Le format textuel rempli donc deux rôles dans ces travaux. Il y a d'abord un
format «patrimonial» dont le but est de fournir une représentation relativement
fidèle des articles et de leur mise en page (l'exception majeure étant les
paragraphes, qui sont séparés par des lignes vides pour limiter les ambiguïtés).
De ce format patrimonial est tiré un format texte «linéaire» dont le but est
d'être consommable directement par des outils de [@=TAL]. Ce deuxième format se
caractérise par les paramètres d'encodage textuels suivants: les fichiers
utilisent le même encodage UTF-8 que pour le texte patrimonial, les fins de
lignes typographiques sont ignorées et les mots divisés sont recollés (à l'aide
d'une heuristique simpliste par rapport aux remarques faites à la section
\ref{sec:text_linear_format} en particulier p.\pageref{sec:text_glueing_lines},
ce point est discuté dans la sous-section \ref{sec:shs_reproducibility}). Enfin,
la séparation des paragraphes par des lignes vides, bien qu'inutile en soi
suite au recollement, est conservée pour favoriser la lisibilité de ces fichiers
par des humains à des fins de contrôle de la qualité des données.
Les outils de classification automatique utilisés tout au long du chapitre
\ref{sec:domains_classification} prennent ainsi en entrée du texte linéaire et
produisent pour chaque texte une valeur symbolique, le nom d'une classe dont
relève le texte d'après le modèle. Cette information est stockée dans des
fichiers de métadonnées tabulaires (voir la sous-section
\ref{sec:corpus_structuring_metadata}). L'analyse syntaxique en dépendances
universelles (Universal Dependencies¹, [@=UD] dans le reste de cette
thèse) est effectuée avec la librairie python Stanza²[@qi2020stanza],
qui retourne une annotation en  des articles au format CoNLL-U³. Cette
annotation comprend une étiquette morphosyntaxique pour des tokens identifiés,
exprimée avec les parties de discours ([@=POS]) propres aux [@=UD], les
UPOS⁴.

Format XML-TEI
Le format XML-[@=TEI] (voir la section \ref{sec:xml_tei}), au contraire du
format texte discuté ci-dessus permet de conserver plus d'information sur les
pages tout en distinguant le rôle de chaque objet et sa relation aux autres. Les
éléments péritextes par exemple, présentés à la section
\ref{sec:encyclopedia_anatomy} p.\pageref{sec:encyclopedia_anatomy},
introduiraient beaucoup d'ambiguïté dans des fichiers texte, à moins d'en
complexifier encore l'encodage. L'option -k (--keep en version longue) de
soprano permet de choisir quel type d'éléments conserver et permet de produire
des fichiers ne contenant que le texte des articles, mais par défaut, tous les
éléments sont conservés (en particulier les changements de page, les légendes
d'images, etc.), ce qui prend tout son sens avec le format XML-[@=TEI].
Il constitue donc une version plus riche, cruciale pour la diffusion des données
et leur réutilisation dans le cadre d'autres études. C'est ce qui a permis aux
présents travaux de bénéficier des résultats des efforts des projets [@=ARTFL]
et [@=ENCCRE]. Le projet GEODE comporte une dimension patrimoniale et met à
disposition le texte de LGE au format XML-[@=TEI]. Il est à souhaiter que ces
données connaissent le même destin que celles de l'EDdA. Certains thèmes de
recherche un peu trop éloignés de la problématique initiale et qui n'ont pas pu
être suivis au long de cette thèse pourraient en effet intéresser de nombreux
spécialistes des [@=HN]. Le rapport entre géographie et colonisation suggéré à
la Préface (La Grande Encyclopédie, T1, p.I) — voir la section
\ref{sec:knowledge_domains} p.\pageref{lge_preface_domains}, ou le traitement
des notices biographiques de femmes et d'hommes par exemple mériteraient sans
doute une exploration soigneuse.
Les logiciels de textométrie utilisés dans les présents travaux prennent en
entrée des fichiers au format XML-[@=TEI]. Le logiciel TXM [@heiden_txm_2010]
permet ainsi d'explorer directement le corpus à partir de la version XML-[@=TEI]
des deux œuvres et de faire des mesures de nombre de tokens des œuvres ou de
leur [@=partition]s (notamment par domaine de connaissance, voir la section
\ref{sec:geo_size_metrics} à partir de la page \pageref{sec:geo_size_metrics}).
L'extension intégrant l'étiqueteur TreeTagger⁵ permet même d'accéder
à des étiquettes morphosyntaxiques pour les tokens. En pratique, cette extension
n'a pas été utilisée dans cette étude puisque l'annotation a été faite avec
Stanza sur les fichiers texte, et la sortie en CoNLL-U a été extraite pour
produire une version XML-[@=TEI] intégrant en plus les informations
morphosyntaxiques en UPOS. En ce qui concerne le Lexicoscope
[@kraif_lexicoscope_2016] qui utilise un format dual, conservant du contenu
CoNLL-U dans un environnement de balises XML-[@=TEI] ordinaires (des paragraphes
<p/> groupant des éléments <s/> dont chacun contient l'annotation CoNLL-U de
la phrase qu'elle représente plutôt que du texte directement lisible pour des
humains), les fichiers XML-[@=TEI] ont été entièrement synthétisés à partir des
sorties de Stanza.

Principe de structuration {#sec:corpus_structuring_metadata}
Un corpus n'est pas constitué que de données, quelle que soit la qualité du
format qui les représente. Une part importante de l'effort d'organisation de
cette thèse a été employée à mettre en regard des données des métadonnées qui
soient pertinentes pour les analyses et pratiques à utiliser techniquement.

Des désignants à des ensembles de domaines {#sec:domains_build_classes}
La notion de domaine de connaissance introduite en détail à la section
\ref{sec:knowledge_domains} (p.\pageref{sec:knowledge_domains}) joue un rôle
central dans cette thèse. Disposer d'un ensemble de valeurs à associer aux
articles pour représenter leur appartenance à un domaine a demandé un travail
important de normalisation. Le chapitre \ref{sec:domains_classification} décrit
en détail les techniques utilisées pour identifier le domaine de chaque article
mais il s'agit ici, en amont de ces opérations, de déterminer les valeurs à
utiliser pour la classification (c'est-à-dire le codomaine des fonctions
implémentées par les différents classifieurs).
D'Alembert avait prédit que non seulement une encyclopédie ne serait jamais
complète mais que son organisation même pourrait être renouvelée par
l'expérience de son lectorat. Dans son Discours préliminaire (L'Encyclopédie,
T1, p.xv), il offre du contexte au «Systême» (voir la figure
\ref{fig:systeme_figure} p.\pageref{fig:systeme_figure}) si rigide en apparence
en affirmant que «la forme de l'arbre encyclopédique dépendra du point de vûe où
l'on se mettra pour envisager l'univers littéraire. On peut donc imaginer autant
de systèmes différens de la connoissance humaine, que de Mappemondes de
différentes projections […]».
Il n'est pas surprenant pour un projet de l'envergure de l'EDdA et s'étendant
sur autant d'années (21 au total) que les désignants qui matérialisent les
domaines de connaissance au sein des articles comptent plus de 7 000 formes
uniques différentes. La plupart sont dues à des variations sur les abréviations,
l'orthographe ou la ponctuation utilisée. Une très grande partie de ces formes
uniques n'ont que très peu d'occurrences, et un système automatique n'a pas de
compréhension sémantique des regroupements qu'il pourrait être légitime de
faire. Utiliser ces désignants tels quels n'aurait que peu de sens pour
constituer des classes dans l'optique d'études contrastives. Il faut donc déjà
normaliser les formes variées prises par les désignants, ce qui a fait l'objet
de travaux à la fois par l'[@=ARTFL] et l'[@=ENCCRE]. Dans l'exemple de
l'article EVIAN présenté à la figure \ref{fig:edda_evian}, le désignant «Géog. mod.»
se normalise en «Géographie moderne» ce qui permet de l'identifier à celui
de COMMERCY à la figure \ref{fig:edda_commercy} qui est «Géograph. mod.» et
diffère donc en toute rigueur.