-
Alice Brenon authored08632db2
Des textes au corpus {#sec:corpus_application}
Après avoir décrit les œuvres puis les manières de les représenter par des formats numériques ainsi que les choix opérés sur cette question, il est temps pour conclure ce chapitre de montrer comment ces étapes préparatoires convergent. Elles permettent de constituer un corpus qui structure les données et facilite leur emploi avec différents outils pour les besoins de cette thèse. Cette section sera également l'occasion de faire une remarque méthodologique sur l'obtention et la maintenance du corpus et des métadonnées qu'il contient.
Différents formats pour différents usages {#sec:corpus_application_formats}
Deux formats de départ différents sont utilisés pour représenter les articles du
corpus en amont de tout traitement. Le premier est un format XML-[@=TEI]
utilisant les éléments principaux du schéma (module core, par opposition au
module dictionaries, pour les raisons présentées à la section
\ref{sec:dictionaries_vs_encyclopedias}
p.\pageref{sec:dictionaries_vs_encyclopedias}). Le choix de balises diffère
légèrement entre l'EDdA (pour laquelle l'[@=ARTFL] utilise des éléments
<div1/>
pour les articles dont les métadonnées sont stockées dans des éléments
<index/>
) et LGE (pour laquelle les rares métadonnées accessibles sont
stockées directement comme attribut de l'élément <div/>
choisi pour
représenter les articles). Le second est un format textuel utilisant les choix
d'encodage décrits à la sous-section \ref{sec:text_format}
(p.\pageref{sec:text_linear_format}).
Le second peut s'obtenir du premier en extrayant le contenu de certaines balises
précises dans l'encodage des fichiers. C'est de cette façon qu'a été obtenue la
version texte des articles de l'EDdA. Pour LGE en revanche, la version
textuelle peut être extraite directement à partir des pages en XML-ALTO,
indépendamment de la version XML-[@=TEI], les deux correspondant à des modes de
sortie de soprano
(la génération des métadonnées décrite à la section
\ref{sec:corpus_structuring_metadata} constitue également un mode séparé).
Format textuel {#sec:corpus_application_formats_text}
Le format textuel est en pratique le plus utilisé dans les différentes études conduites au cours de cette thèse. La plupart des outils de [@=TAL] attendent en entrée un flot d'unités indépendantes de texte (avec toutes les réserves émises à ce sujet à la section \ref{sec:text_format} p.\pageref{sec:text_format}) débarrassées des contingences liées à leur représentation (retours à la ligne au milieu d'une phrase, divisions au mileu des mots coupés par un retour à la ligne…). Pour analyser les phrases en syntaxe et morphosyntaxe, un outil doit voir au moins toute une phrase d'un coup (il peut en voir plusieurs au sein d'un même paragraphe mais donnera une analyse erronée s'il ne reçoit qu'une phrase partielle); pour classifier un article, un modèle doit avoir accès à tout le texte qu'il contient.
Puisque le choix fait pour représenter les articles dans des fichiers texte consiste à garder la mise en page des lignes telles qu'elles apparaissent dans les encyclopédies du corpus, il faut d'abord «nettoyer» le texte avant de pouvoir appeler dessus une chaîne de classification, un analyseur syntaxique ou un annotateur d'entités nommées. Pour éviter les redondances de traitement et s'assurer que tous les outils ont reçu la même entrée, la phase d'extraction a été factorisée, et une version linéarisée des articles est produite et stockée dans des fichiers texte utilisant d'autres paramètres d'encodage textuel (voir p.\pageref{sec:text_lines_paragraph} et seq.).
Le format textuel rempli donc deux rôles dans ces travaux. Il y a d'abord un format «patrimonial» dont le but est de fournir une représentation relativement fidèle des articles et de leur mise en page (l'exception majeure étant les paragraphes, qui sont séparés par des lignes vides pour limiter les ambiguïtés). De ce format patrimonial est tiré un format texte «linéaire» dont le but est d'être consommable directement par des outils de [@=TAL]. Ce deuxième format se caractérise par les paramètres d'encodage textuels suivants: les fichiers utilisent le même encodage UTF-8 que pour le texte patrimonial, les fins de lignes typographiques sont ignorées et les mots divisés sont recollés (à l'aide d'une heuristique simpliste par rapport aux remarques faites à la section \ref{sec:text_linear_format} en particulier p.\pageref{sec:text_glueing_lines}, ce point est discuté dans la sous-section \ref{sec:shs_reproducibility}). Enfin, la séparation des paragraphes par des lignes vides, bien qu'inutile en soi suite au recollement, est conservée pour favoriser la lisibilité de ces fichiers par des humains à des fins de contrôle de la qualité des données.
Les outils de classification automatique utilisés tout au long du chapitre \ref{sec:domains_classification} prennent ainsi en entrée du texte linéaire et produisent pour chaque texte une valeur symbolique, le nom d'une classe dont relève le texte d'après le modèle. Cette information est stockée dans des fichiers de métadonnées tabulaires (voir la sous-section \ref{sec:corpus_structuring_metadata}). L'analyse syntaxique en dépendances universelles (Universal Dependencies1, [@=UD] dans le reste de cette thèse) est effectuée avec la librairie python Stanza2[@qi2020stanza], qui retourne une annotation en des articles au format CoNLL-U3. Cette annotation comprend une étiquette morphosyntaxique pour des tokens identifiés, exprimée avec les parties de discours ([@=POS]) propres aux [@=UD], les UPOS4.
Format XML-TEI
Le format XML-[@=TEI] (voir la section \ref{sec:xml_tei}), au contraire du
format texte discuté ci-dessus permet de conserver plus d'information sur les
pages tout en distinguant le rôle de chaque objet et sa relation aux autres. Les
éléments péritextes par exemple, présentés à la section
\ref{sec:encyclopedia_anatomy} p.\pageref{sec:encyclopedia_anatomy},
introduiraient beaucoup d'ambiguïté dans des fichiers texte, à moins d'en
complexifier encore l'encodage. L'option -k
(--keep
en version longue) de
soprano
permet de choisir quel type d'éléments conserver et permet de produire
des fichiers ne contenant que le texte des articles, mais par défaut, tous les
éléments sont conservés (en particulier les changements de page, les légendes
d'images, etc.), ce qui prend tout son sens avec le format XML-[@=TEI].
Il constitue donc une version plus riche, cruciale pour la diffusion des données et leur réutilisation dans le cadre d'autres études. C'est ce qui a permis aux présents travaux de bénéficier des résultats des efforts des projets [@=ARTFL] et [@=ENCCRE]. Le projet GEODE comporte une dimension patrimoniale et met à disposition le texte de LGE au format XML-[@=TEI]. Il est à souhaiter que ces données connaissent le même destin que celles de l'EDdA. Certains thèmes de recherche un peu trop éloignés de la problématique initiale et qui n'ont pas pu être suivis au long de cette thèse pourraient en effet intéresser de nombreux spécialistes des [@=HN]. Le rapport entre géographie et colonisation suggéré à la Préface (La Grande Encyclopédie, T1, p.I) — voir la section \ref{sec:knowledge_domains} p.\pageref{lge_preface_domains}, ou le traitement des notices biographiques de femmes et d'hommes par exemple mériteraient sans doute une exploration soigneuse.
Les logiciels de textométrie utilisés dans les présents travaux prennent en
entrée des fichiers au format XML-[@=TEI]. Le logiciel TXM [@heiden_txm_2010]
permet ainsi d'explorer directement le corpus à partir de la version XML-[@=TEI]
des deux œuvres et de faire des mesures de nombre de tokens des œuvres ou de
leur [@=partition]s (notamment par domaine de connaissance, voir la section
\ref{sec:geo_size_metrics} à partir de la page \pageref{sec:geo_size_metrics}).
L'extension intégrant l'étiqueteur TreeTagger5 permet même d'accéder
à des étiquettes morphosyntaxiques pour les tokens. En pratique, cette extension
n'a pas été utilisée dans cette étude puisque l'annotation a été faite avec
Stanza sur les fichiers texte, et la sortie en CoNLL-U a été extraite pour
produire une version XML-[@=TEI] intégrant en plus les informations
morphosyntaxiques en UPOS. En ce qui concerne le Lexicoscope
[@kraif_lexicoscope_2016] qui utilise un format dual, conservant du contenu
CoNLL-U dans un environnement de balises XML-[@=TEI] ordinaires (des paragraphes
<p/>
groupant des éléments <s/>
dont chacun contient l'annotation CoNLL-U de
la phrase qu'elle représente plutôt que du texte directement lisible pour des
humains), les fichiers XML-[@=TEI] ont été entièrement synthétisés à partir des
sorties de Stanza.
Principe de structuration {#sec:corpus_structuring_metadata}
Un corpus n'est pas constitué que de données, quelle que soit la qualité du format qui les représente. Une part importante de l'effort d'organisation de cette thèse a été employée à mettre en regard des données des métadonnées qui soient pertinentes pour les analyses et pratiques à utiliser techniquement.
Des désignants à des ensembles de domaines {#sec:domains_build_classes}
La notion de domaine de connaissance introduite en détail à la section \ref{sec:knowledge_domains} (p.\pageref{sec:knowledge_domains}) joue un rôle central dans cette thèse. Disposer d'un ensemble de valeurs à associer aux articles pour représenter leur appartenance à un domaine a demandé un travail important de normalisation. Le chapitre \ref{sec:domains_classification} décrit en détail les techniques utilisées pour identifier le domaine de chaque article mais il s'agit ici, en amont de ces opérations, de déterminer les valeurs à utiliser pour la classification (c'est-à-dire le codomaine des fonctions implémentées par les différents classifieurs).
D'Alembert avait prédit que non seulement une encyclopédie ne serait jamais complète mais que son organisation même pourrait être renouvelée par l'expérience de son lectorat. Dans son Discours préliminaire (L'Encyclopédie, T1, p.xv), il offre du contexte au «Systême» (voir la figure \ref{fig:systeme_figure} p.\pageref{fig:systeme_figure}) si rigide en apparence en affirmant que «la forme de l'arbre encyclopédique dépendra du point de vûe où l'on se mettra pour envisager l'univers littéraire. On peut donc imaginer autant de systèmes différens de la connoissance humaine, que de Mappemondes de différentes projections […]».
Il n'est pas surprenant pour un projet de l'envergure de l'EDdA et s'étendant sur autant d'années (21 au total) que les désignants qui matérialisent les domaines de connaissance au sein des articles comptent plus de 7 000 formes uniques différentes. La plupart sont dues à des variations sur les abréviations, l'orthographe ou la ponctuation utilisée. Une très grande partie de ces formes uniques n'ont que très peu d'occurrences, et un système automatique n'a pas de compréhension sémantique des regroupements qu'il pourrait être légitime de faire. Utiliser ces désignants tels quels n'aurait que peu de sens pour constituer des classes dans l'optique d'études contrastives. Il faut donc déjà normaliser les formes variées prises par les désignants, ce qui a fait l'objet de travaux à la fois par l'[@=ARTFL] et l'[@=ENCCRE]. Dans l'exemple de l'article EVIAN présenté à la figure \ref{fig:edda_evian}, le désignant «Géog. mod.» se normalise en «Géographie moderne» ce qui permet de l'identifier à celui de COMMERCY à la figure \ref{fig:edda_commercy} qui est «Géograph. mod.» et diffère donc en toute rigueur.