From 042a7f47986362af8f868b21a51505cce8c1f126 Mon Sep 17 00:00:00 2001
From: Alice BRENON <alice.brenon@ens-lyon.fr>
Date: Thu, 27 Mar 2025 00:17:01 +0100
Subject: [PATCH] Move the discussion of the differences between ARTFL and
 ENCCRE right into the anatomy of encyclopedia articles and add
 cross-references accordingly (add a pointer form the section discussion
 primary keys used)

---
 Classification/Models.md  | 28 +++++++++++----------
 Corpus/Application.md     | 27 +++++++++++----------
 "Corpus/\305\222uvres.md" | 51 ++++++++++++++++++++++++---------------
 3 files changed, 60 insertions(+), 46 deletions(-)

diff --git a/Classification/Models.md b/Classification/Models.md
index a6cf026..a6f2f52 100644
--- a/Classification/Models.md
+++ b/Classification/Models.md
@@ -28,19 +28,21 @@ classe *Métiers* unique (voir p.\pageref{sec:domain_groups}), la conversion est
 en réalité très simple puisqu'elle consiste à conserver la classe initiale
 partout sauf pour les métiers.
 
-Toutefois, les choix de segmentation du texte en articles, légèrement différents
-entre l'[@=ENCCRE] \(dont proviennent les annotations en ensemble de domaines)
-et l'[@=ARTFL] \(qui a fourni les fichiers encodés des articles, voir la section
-\ref{edda_existing_versions} p.\pageref{edda_existing_versions}), compliquent
-cette conversion en empêchant d'établir une correspondance parfaite entre les
-deux corpus. En effet, les synonymes ne sont pas toujours traitées de la même
-façon selon la typographie utilisée dans l'*EDdA*, l'[@=ARTFL] les séparant
-parfois en des articles distincts (au sens de sa numérotation à 2 niveaux: tome
-et rang de l'article) là où l'[@=ENCCRE] en fait des sous-entrées distinctes au
-sein d'un même article (ses textes possèdent des identifiants à 3 niveaux, un
-numéro d'entrée venant s'ajouter au numéro d'article). Par conséquent, seuls
-69 531 articles ont pu être appairés entre ces deux sources sur les 74 190 au
-total présents dans la version de l'œuvre étudiée.
+\label{segmentation_discrepancies}Toutefois, l'[@=ENCCRE] \(dont proviennent les
+annotations en ensemble de domaines) et l'[@=ARTFL] \(qui a fourni les fichiers
+encodés des articles, voir la section \ref{edda_existing_versions}
+p.\pageref{edda_existing_versions}) segmentent différemment l'œuvre en textes ce
+qui complique cette conversion en empêchant d'établir une correspondance
+parfaite entre les deux corpus. En effet, en suivant la distinction faite à la
+section \ref{enccre_artfl_discrepancy} (voir
+p.\pageref{enccre_artfl_discrepancy}) entre «article» et «entrée», l'[@=ARTFL]
+groupe ensemble certaines entrées mais en considère d'autres comme des textes
+individuels, au contraire de l'[@=ENCCRE] pour qui le niveau de référence est
+l'entrée et dont tous les textes correspondent à ce niveau de granularité (dans
+ses métadonnées, un article possède toujours au moins une entrée avec laquelle
+il coïncide si elle est unique). Par conséquent, seuls 69 531 articles ont pu
+être appairés entre ces deux sources sur les 74 190 au total présents dans la
+version de l'œuvre étudiée.
 
 Pour cette raison certains articles sans désignant marqué typographiquement
 possèdent un domaine (inféré par l'[@=ENCCRE] d'expressions telles que «en
diff --git a/Corpus/Application.md b/Corpus/Application.md
index b6ff4f8..e21de95 100644
--- a/Corpus/Application.md
+++ b/Corpus/Application.md
@@ -284,19 +284,20 @@ requises, texte et métadonnées, seraient groupés ensemble de manière autonom
 un objet unique.
 
 \label{metadata_primary_key}Les présents travaux optent pour une clef primaire
-simple basée sur le rang des articles dans chaque tome des œuvres du corpus.
-Elle est ainsi constituée d'un triplet comprenant un code pour l'œuvre (une des
-deux valeurs symboliques `EDdA` ou `LGE`[^work]) d'un numéro de tome et d'un
-numéro d'article qui est son rang dans l'œuvre. Il avait également été envisagé
-d'utiliser à la place du rang un identifiant basé sur la vedette de l'article
-(complétée par un entier pour garantir unicité malgré les homonymies
-potentielles), de manière à obtenir un système plus résistant aux redécoupages
-alors que la segmentation de *LGE* était en cours d'amélioration (ainsi, un
-identifiant avait plus de chance de demeurer identique alors que le rang de tous
-les articles survenant dans un tome après un article où la segmentation avait
-été corrigée se retrouve modifié). Cette idée a été abandonnée suite à la
-difficulté d'obtenir une représentation unifiée d'un système à l'autre de
-caractères accentués[^nfc].
+simple basée sur le rang des articles dans chaque tome des œuvres du corpus,
+suivant le choix de l'[@=ARTFL] \(voir la section \ref{enccre_artfl_discrepancy}
+p.\pageref{enccre_artfl_discrepancy}). Puisque le corpus d'étude comprend
+plusieurs encyclopédies, un code pour chaque œuvre (une des deux valeurs
+symboliques `EDdA` ou `LGE`[^work]) vient compléter les numéros de tome et
+d'article pour former un triplet. Il avait également été envisagé d'utiliser à
+la place du rang un identifiant basé sur la vedette de l'article (complétée par
+un entier pour garantir unicité malgré les homonymies potentielles), de manière
+à obtenir un système plus résistant aux redécoupages alors que la segmentation
+de *LGE* était en cours d'amélioration (ainsi, un identifiant avait plus de
+chance de demeurer identique alors que le rang de tous les articles survenant
+dans un tome après un article où la segmentation avait été corrigée se retrouve
+modifié). Cette idée a été abandonnée suite à la difficulté d'obtenir une
+représentation unifiée d'un système à l'autre de caractères accentués[^nfc].
 
 [^work]: les valeurs `Universalis` et `Wikipedia` étaient également possible
     pour le reste du corpus GEODE mais n'ont pas été utilisées en pratique
diff --git "a/Corpus/\305\222uvres.md" "b/Corpus/\305\222uvres.md"
index 745efc3..8191694 100644
--- "a/Corpus/\305\222uvres.md"
+++ "b/Corpus/\305\222uvres.md"
@@ -292,26 +292,37 @@ concentration élevée).
     \label{fig:anatomy_samples}
 \end{figure}
 
-Dans une encyclopédie, une entrée associe un texte à un mot ou un groupe de
-mots, la «vedette», qui sert tout à la fois de «titre» à l'article et de point
-de référence dans l'ensemble du texte puisque c'est vers ces vedettes que
-pointent les renvois. Tout article d'encyclopédie comporte nécessairement une
-vedette, typographiquement marquée en majuscule (au moins partiellement), comme
-c'est le cas pour les deux articles de la figure \ref{fig:anatomy_samples} où
-elles sont surlignées en violet. La vedette a une existence grammaticale à part
-du reste de l'article, ce qui confirme son rôle de «clef» dans la gigantesque
-table associative constituée par une encyclopédie: quand elle n'est pas séparée
-de la première phrase par un point comme c'est le cas de la figure
-\ref{fig:anatomy_samples_lge}, elle est souvent simplement apposée et tout à
-fait optionnelle, séparée d'une virgule du reste de la première phrase qui est
-alors le plus souvent nominale, déportant tout syntagme verbal dans une
-subordonnée relative comme le montre la figure \ref{fig:anatomy_samples_edda}.
-Elle peut être suivie optionnellement d'un «désignant» entre parenthèses (en
-bleu sur la figure \ref{fig:anatomy_samples}) qui sert à situer l'entrée dans un
-espace structuré de connaissances (notion centrale de cette sous-section et qui
-est développée plus bas dans le segment \ref{sec:knowledge_domains}). Un
-désignant peut ainsi référer à un ou plusieurs domaines de connaissance, souvent
-abréviés.
+\label{enccre_artfl_discrepancy}Dans une encyclopédie, une entrée associe un
+texte à un mot ou un groupe de mots, la «vedette», qui sert tout à la fois de
+«titre» à l'article et de point de référence dans l'ensemble du texte puisque
+ces vedettes engendrent l'ordre (alphabétique) des articles tout en servant de
+lien pour les renvois. Tout article d'encyclopédie comporte nécessairement une
+vedette typographiquement marquée comme c'est le cas pour les deux articles de
+la figure \ref{fig:anatomy_samples} où les vedettes, surlignées en mauve,
+apparaissent en majuscules. Dans l'*EDdA*, il existe même en réalité deux
+niveaux de division: certains termes sujets à une forte homonymie ou possédant
+de nombreux dérivés contiennent plusieurs entrées dont les vedettes sont
+graphiées en petites capitales. Pour cette raison, l'[@=ENCCRE] numérote les
+textes sur trois niveaux, ajoutant aux numéros de tome et d'«adresse» (la
+structure correspondant aux articles dans le cas général) un numéro d'«entrée».
+L'[@=ARTFL] se limite à deux niveaux et regroupe parfois plusieurs entrées au
+sein d'un même «article», une différence à l'origine de certaines complications
+rencontrées lors des travaux de classification (voir section
+\ref{segmentation_discrepancies} p.\pageref{segmentation_discrepancies}).
+
+La vedette a une existence grammaticale à part du reste de l'article, ce qui
+confirme son rôle de «clef» dans la gigantesque table associative formée par une
+encyclopédie: quand elle n'est pas séparée de la première phrase par un point
+comme c'est le cas de la figure \ref{fig:anatomy_samples_lge}, elle est souvent
+simplement apposée et tout à fait optionnelle, séparée d'une virgule du reste de
+la première phrase qui est alors le plus souvent nominale, déportant tout
+syntagme verbal dans une subordonnée relative comme le montre la figure
+\ref{fig:anatomy_samples_edda}. Elle peut être suivie optionnellement d'un
+«désignant» entre parenthèses (en bleu sur la figure \ref{fig:anatomy_samples})
+qui sert à situer l'entrée dans un espace structuré de connaissances (notion
+centrale de cette sous-section et qui est développée plus bas dans le segment
+\ref{sec:knowledge_domains}). Un désignant peut ainsi référer à un ou plusieurs
+domaines de connaissance, souvent abréviés.
 
 Les articles ne constituent pas une collection d'informations isolées mais sont
 au contraire liés entre eux par un système de renvoi, qui constitue un deuxième
-- 
GitLab