Move the discussion of the differences between ARTFL and ENCCRE right into the...

Move the discussion of the differences between ARTFL and ENCCRE right into the anatomy of encyclopedia articles and add cross-references accordingly (add a pointer form the section discussion primary keys used)

Move the discussion of the differences between ARTFL and ENCCRE right into the...
Move the discussion of the differences between ARTFL and ENCCRE right into the anatomy of encyclopedia articles and add cross-references accordingly (add a pointer form the section discussion primary keys used)
042a7f47 · Alice Brenon · 5a6577be · 042a7f47 · 042a7f47 · 042a7f47
Commit 042a7f47 authored 5 months ago by Alice Brenon
--- a/Classification/Models.md
+++ b/Classification/Models.md
@@ -28,19 +28,21 @@ classe *Métiers* unique (voir p.\pageref{sec:domain_groups}), la conversion est
 en réalité très simple puisqu'elle consiste à conserver la classe initiale
 partout sauf pour les métiers.

-Toutefois, les choix de segmentation du texte en articles, légèrement différents
-entre l'[@=ENCCRE] \(dont proviennent les annotations en ensemble de domaines)
-et l'[@=ARTFL] \(qui a fourni les fichiers encodés des articles, voir la section
-\ref{edda_existing_versions} p.\pageref{edda_existing_versions}), compliquent
-cette conversion en empêchant d'établir une correspondance parfaite entre les
-deux corpus. En effet, les synonymes ne sont pas toujours traitées de la même
-façon selon la typographie utilisée dans l'*EDdA*, l'[@=ARTFL] les séparant
-parfois en des articles distincts (au sens de sa numérotation à 2 niveaux: tome
-et rang de l'article) là où l'[@=ENCCRE] en fait des sous-entrées distinctes au
-sein d'un même article (ses textes possèdent des identifiants à 3 niveaux, un
-numéro d'entrée venant s'ajouter au numéro d'article). Par conséquent, seuls
-69 531 articles ont pu être appairés entre ces deux sources sur les 74 190 au
-total présents dans la version de l'œuvre étudiée.
+\label{segmentation_discrepancies}Toutefois, l'[@=ENCCRE] \(dont proviennent les
+annotations en ensemble de domaines) et l'[@=ARTFL] \(qui a fourni les fichiers
+encodés des articles, voir la section \ref{edda_existing_versions}
+p.\pageref{edda_existing_versions}) segmentent différemment l'œuvre en textes ce
+qui complique cette conversion en empêchant d'établir une correspondance
+parfaite entre les deux corpus. En effet, en suivant la distinction faite à la
+section \ref{enccre_artfl_discrepancy} (voir
+p.\pageref{enccre_artfl_discrepancy}) entre «article» et «entrée», l'[@=ARTFL]
+groupe ensemble certaines entrées mais en considère d'autres comme des textes
+individuels, au contraire de l'[@=ENCCRE] pour qui le niveau de référence est
+l'entrée et dont tous les textes correspondent à ce niveau de granularité (dans
+ses métadonnées, un article possède toujours au moins une entrée avec laquelle
+il coïncide si elle est unique). Par conséquent, seuls 69 531 articles ont pu
+être appairés entre ces deux sources sur les 74 190 au total présents dans la
+version de l'œuvre étudiée.

 Pour cette raison certains articles sans désignant marqué typographiquement
 possèdent un domaine (inféré par l'[@=ENCCRE] d'expressions telles que «en

--- a/Corpus/Application.md
+++ b/Corpus/Application.md
@@ -284,19 +284,20 @@ requises, texte et métadonnées, seraient groupés ensemble de manière autonom
 un objet unique.

 \label{metadata_primary_key}Les présents travaux optent pour une clef primaire
-simple basée sur le rang des articles dans chaque tome des œuvres du corpus.
-Elle est ainsi constituée d'un triplet comprenant un code pour l'œuvre (une des
-deux valeurs symboliques `EDdA` ou `LGE`[^work]) d'un numéro de tome et d'un
-numéro d'article qui est son rang dans l'œuvre. Il avait également été envisagé
-d'utiliser à la place du rang un identifiant basé sur la vedette de l'article
-(complétée par un entier pour garantir unicité malgré les homonymies
-potentielles), de manière à obtenir un système plus résistant aux redécoupages
-alors que la segmentation de *LGE* était en cours d'amélioration (ainsi, un
-identifiant avait plus de chance de demeurer identique alors que le rang de tous
-les articles survenant dans un tome après un article où la segmentation avait
-été corrigée se retrouve modifié). Cette idée a été abandonnée suite à la
-difficulté d'obtenir une représentation unifiée d'un système à l'autre de
-caractères accentués[^nfc].
+simple basée sur le rang des articles dans chaque tome des œuvres du corpus,
+suivant le choix de l'[@=ARTFL] \(voir la section \ref{enccre_artfl_discrepancy}
+p.\pageref{enccre_artfl_discrepancy}). Puisque le corpus d'étude comprend
+plusieurs encyclopédies, un code pour chaque œuvre (une des deux valeurs
+symboliques `EDdA` ou `LGE`[^work]) vient compléter les numéros de tome et
+d'article pour former un triplet. Il avait également été envisagé d'utiliser à
+la place du rang un identifiant basé sur la vedette de l'article (complétée par
+un entier pour garantir unicité malgré les homonymies potentielles), de manière
+à obtenir un système plus résistant aux redécoupages alors que la segmentation
+de *LGE* était en cours d'amélioration (ainsi, un identifiant avait plus de
+chance de demeurer identique alors que le rang de tous les articles survenant
+dans un tome après un article où la segmentation avait été corrigée se retrouve
+modifié). Cette idée a été abandonnée suite à la difficulté d'obtenir une
+représentation unifiée d'un système à l'autre de caractères accentués[^nfc].

 [^work]: les valeurs `Universalis` et `Wikipedia` étaient également possible
    pour le reste du corpus GEODE mais n'ont pas été utilisées en pratique

--- a/Corpus/Œuvres.md
+++ b/Corpus/Œuvres.md
@@ -292,26 +292,37 @@ concentration élevée).
    \label{fig:anatomy_samples}
 \end{figure}

-Dans une encyclopédie, une entrée associe un texte à un mot ou un groupe de
-mots, la «vedette», qui sert tout à la fois de «titre» à l'article et de point
-de référence dans l'ensemble du texte puisque c'est vers ces vedettes que
-pointent les renvois. Tout article d'encyclopédie comporte nécessairement une
-vedette, typographiquement marquée en majuscule (au moins partiellement), comme
-c'est le cas pour les deux articles de la figure \ref{fig:anatomy_samples} où
-elles sont surlignées en violet. La vedette a une existence grammaticale à part
-du reste de l'article, ce qui confirme son rôle de «clef» dans la gigantesque
-table associative constituée par une encyclopédie: quand elle n'est pas séparée
-de la première phrase par un point comme c'est le cas de la figure
-\ref{fig:anatomy_samples_lge}, elle est souvent simplement apposée et tout à
-fait optionnelle, séparée d'une virgule du reste de la première phrase qui est
-alors le plus souvent nominale, déportant tout syntagme verbal dans une
-subordonnée relative comme le montre la figure \ref{fig:anatomy_samples_edda}.
-Elle peut être suivie optionnellement d'un «désignant» entre parenthèses (en
-bleu sur la figure \ref{fig:anatomy_samples}) qui sert à situer l'entrée dans un
-espace structuré de connaissances (notion centrale de cette sous-section et qui
-est développée plus bas dans le segment \ref{sec:knowledge_domains}). Un
-désignant peut ainsi référer à un ou plusieurs domaines de connaissance, souvent
-abréviés.
+\label{enccre_artfl_discrepancy}Dans une encyclopédie, une entrée associe un
+texte à un mot ou un groupe de mots, la «vedette», qui sert tout à la fois de
+«titre» à l'article et de point de référence dans l'ensemble du texte puisque
+ces vedettes engendrent l'ordre (alphabétique) des articles tout en servant de
+lien pour les renvois. Tout article d'encyclopédie comporte nécessairement une
+vedette typographiquement marquée comme c'est le cas pour les deux articles de
+la figure \ref{fig:anatomy_samples} où les vedettes, surlignées en mauve,
+apparaissent en majuscules. Dans l'*EDdA*, il existe même en réalité deux
+niveaux de division: certains termes sujets à une forte homonymie ou possédant
+de nombreux dérivés contiennent plusieurs entrées dont les vedettes sont
+graphiées en petites capitales. Pour cette raison, l'[@=ENCCRE] numérote les
+textes sur trois niveaux, ajoutant aux numéros de tome et d'«adresse» (la
+structure correspondant aux articles dans le cas général) un numéro d'«entrée».
+L'[@=ARTFL] se limite à deux niveaux et regroupe parfois plusieurs entrées au
+sein d'un même «article», une différence à l'origine de certaines complications
+rencontrées lors des travaux de classification (voir section
+\ref{segmentation_discrepancies} p.\pageref{segmentation_discrepancies}).
+
+La vedette a une existence grammaticale à part du reste de l'article, ce qui
+confirme son rôle de «clef» dans la gigantesque table associative formée par une
+encyclopédie: quand elle n'est pas séparée de la première phrase par un point
+comme c'est le cas de la figure \ref{fig:anatomy_samples_lge}, elle est souvent
+simplement apposée et tout à fait optionnelle, séparée d'une virgule du reste de
+la première phrase qui est alors le plus souvent nominale, déportant tout
+syntagme verbal dans une subordonnée relative comme le montre la figure
+\ref{fig:anatomy_samples_edda}. Elle peut être suivie optionnellement d'un
+«désignant» entre parenthèses (en bleu sur la figure \ref{fig:anatomy_samples})
+qui sert à situer l'entrée dans un espace structuré de connaissances (notion
+centrale de cette sous-section et qui est développée plus bas dans le segment
+\ref{sec:knowledge_domains}). Un désignant peut ainsi référer à un ou plusieurs
+domaines de connaissance, souvent abréviés.

 Les articles ne constituent pas une collection d'informations isolées mais sont
 au contraire liés entre eux par un système de renvoi, qui constitue un deuxième