From 042a7f47986362af8f868b21a51505cce8c1f126 Mon Sep 17 00:00:00 2001
From: Alice BRENON <alice.brenon@ens-lyon.fr>
Date: Thu, 27 Mar 2025 00:17:01 +0100
Subject: [PATCH] Move the discussion of the differences between ARTFL and
 ENCCRE right into the anatomy of encyclopedia articles and add
 cross-references accordingly (add a pointer form the section discussion
 primary keys used)

---
 Classification/Models.md  | 28 +++++++++++----------
 Corpus/Application.md     | 27 +++++++++++----------
 "Corpus/\305\222uvres.md" | 51 ++++++++++++++++++++++++---------------
 3 files changed, 60 insertions(+), 46 deletions(-)

diff --git a/Classification/Models.md b/Classification/Models.md
index a6cf026..a6f2f52 100644
--- a/Classification/Models.md
+++ b/Classification/Models.md
@@ -28,19 +28,21 @@ classe *MÃ©tiers* unique (voir p.\pageref{sec:domain_groups}), la conversion est
 en rÃ©alitÃ© trÃ¨s simple puisqu'elle consiste Ã  conserver la classe initiale
 partout sauf pour les mÃ©tiers.
 
-Toutefois, les choix de segmentation du texte en articles, lÃ©gÃ¨rement diffÃ©rents
-entre l'[@=ENCCRE] \(dont proviennent les annotations en ensemble de domaines)
-et l'[@=ARTFL] \(qui a fourni les fichiers encodÃ©s des articles, voir la section
-\ref{edda_existing_versions} p.\pageref{edda_existing_versions}), compliquent
-cette conversion en empÃªchant d'Ã©tablir une correspondance parfaite entre les
-deux corpus. En effet, les synonymes ne sont pas toujours traitÃ©es de la mÃªme
-faÃ§on selon la typographie utilisÃ©e dans l'*EDdA*, l'[@=ARTFL] les sÃ©parant
-parfois en des articles distincts (au sens de sa numÃ©rotation Ã  2 niveaux: tome
-et rang de l'article) lÃ  oÃ¹ l'[@=ENCCRE] en fait des sous-entrÃ©es distinctes au
-sein d'un mÃªme article (ses textes possÃ¨dent des identifiants Ã  3 niveaux, un
-numÃ©ro d'entrÃ©e venant s'ajouter au numÃ©ro d'article). Par consÃ©quent, seuls
-69â€¯531 articles ont pu Ãªtre appairÃ©s entre ces deux sources sur les 74â€¯190 au
-total prÃ©sents dans la version de l'Å“uvre Ã©tudiÃ©e.
+\label{segmentation_discrepancies}Toutefois, l'[@=ENCCRE] \(dont proviennent les
+annotations en ensemble de domaines) et l'[@=ARTFL] \(qui a fourni les fichiers
+encodÃ©s des articles, voir la section \ref{edda_existing_versions}
+p.\pageref{edda_existing_versions}) segmentent diffÃ©remment l'Å“uvre en textes ce
+qui complique cette conversion en empÃªchant d'Ã©tablir une correspondance
+parfaite entre les deux corpus. En effet, en suivant la distinction faite Ã  la
+section \ref{enccre_artfl_discrepancy} (voir
+p.\pageref{enccre_artfl_discrepancy}) entre Â«articleÂ» et Â«entrÃ©eÂ», l'[@=ARTFL]
+groupe ensemble certaines entrÃ©es mais en considÃ¨re d'autres comme des textes
+individuels, au contraire de l'[@=ENCCRE] pour qui le niveau de rÃ©fÃ©rence est
+l'entrÃ©e et dont tous les textes correspondent Ã  ce niveau de granularitÃ© (dans
+ses mÃ©tadonnÃ©es, un article possÃ¨de toujours au moins une entrÃ©e avec laquelle
+il coÃ¯ncide si elle est unique). Par consÃ©quent, seuls 69â€¯531 articles ont pu
+Ãªtre appairÃ©s entre ces deux sources sur les 74â€¯190 au total prÃ©sents dans la
+version de l'Å“uvre Ã©tudiÃ©e.
 
 Pour cette raison certains articles sans dÃ©signant marquÃ© typographiquement
 possÃ¨dent un domaine (infÃ©rÃ© par l'[@=ENCCRE] d'expressions telles que Â«en
diff --git a/Corpus/Application.md b/Corpus/Application.md
index b6ff4f8..e21de95 100644
--- a/Corpus/Application.md
+++ b/Corpus/Application.md
@@ -284,19 +284,20 @@ requises, texte et mÃ©tadonnÃ©es, seraient groupÃ©s ensemble de maniÃ¨re autonom
 un objet unique.
 
 \label{metadata_primary_key}Les prÃ©sents travaux optent pour une clef primaire
-simple basÃ©e sur le rang des articles dans chaque tome des Å“uvres du corpus.
-Elle est ainsi constituÃ©e d'un triplet comprenant un code pour l'Å“uvre (une des
-deux valeurs symboliques `EDdA` ou `LGE`[^work]) d'un numÃ©ro de tome et d'un
-numÃ©ro d'article qui est son rang dans l'Å“uvre. Il avait Ã©galement Ã©tÃ© envisagÃ©
-d'utiliser Ã  la place du rang un identifiant basÃ© sur la vedette de l'article
-(complÃ©tÃ©e par un entier pour garantir unicitÃ© malgrÃ© les homonymies
-potentielles), de maniÃ¨re Ã  obtenir un systÃ¨me plus rÃ©sistant aux redÃ©coupages
-alors que la segmentation de *LGE* Ã©tait en cours d'amÃ©lioration (ainsi, un
-identifiant avait plus de chance de demeurer identique alors que le rang de tous
-les articles survenant dans un tome aprÃ¨s un article oÃ¹ la segmentation avait
-Ã©tÃ© corrigÃ©e se retrouve modifiÃ©). Cette idÃ©e a Ã©tÃ© abandonnÃ©e suite Ã  la
-difficultÃ© d'obtenir une reprÃ©sentation unifiÃ©e d'un systÃ¨me Ã  l'autre de
-caractÃ¨res accentuÃ©s[^nfc].
+simple basÃ©e sur le rang des articles dans chaque tome des Å“uvres du corpus,
+suivant le choix de l'[@=ARTFL] \(voir la section \ref{enccre_artfl_discrepancy}
+p.\pageref{enccre_artfl_discrepancy}). Puisque le corpus d'Ã©tude comprend
+plusieurs encyclopÃ©dies, un code pour chaque Å“uvre (une des deux valeurs
+symboliques `EDdA` ou `LGE`[^work]) vient complÃ©ter les numÃ©ros de tome et
+d'article pour former un triplet. Il avait Ã©galement Ã©tÃ© envisagÃ© d'utiliser Ã 
+la place du rang un identifiant basÃ© sur la vedette de l'article (complÃ©tÃ©e par
+un entier pour garantir unicitÃ© malgrÃ© les homonymies potentielles), de maniÃ¨re
+Ã  obtenir un systÃ¨me plus rÃ©sistant aux redÃ©coupages alors que la segmentation
+de *LGE* Ã©tait en cours d'amÃ©lioration (ainsi, un identifiant avait plus de
+chance de demeurer identique alors que le rang de tous les articles survenant
+dans un tome aprÃ¨s un article oÃ¹ la segmentation avait Ã©tÃ© corrigÃ©e se retrouve
+modifiÃ©). Cette idÃ©e a Ã©tÃ© abandonnÃ©e suite Ã  la difficultÃ© d'obtenir une
+reprÃ©sentation unifiÃ©e d'un systÃ¨me Ã  l'autre de caractÃ¨res accentuÃ©s[^nfc].
 
 [^work]: les valeurs `Universalis` et `Wikipedia` Ã©taient Ã©galement possible
     pour le reste du corpus GEODE mais n'ont pas Ã©tÃ© utilisÃ©es en pratique
diff --git "a/Corpus/\305\222uvres.md" "b/Corpus/\305\222uvres.md"
index 745efc3..8191694 100644
--- "a/Corpus/\305\222uvres.md"
+++ "b/Corpus/\305\222uvres.md"
@@ -292,26 +292,37 @@ concentration Ã©levÃ©e).
     \label{fig:anatomy_samples}
 \end{figure}
 
-Dans une encyclopÃ©die, une entrÃ©e associe un texte Ã  un mot ou un groupe de
-mots, la Â«vedetteÂ», qui sert tout Ã  la fois de Â«titreÂ» Ã  l'article et de point
-de rÃ©fÃ©rence dans l'ensemble du texte puisque c'est vers ces vedettes que
-pointent les renvois. Tout article d'encyclopÃ©die comporte nÃ©cessairement une
-vedette, typographiquement marquÃ©e en majuscule (au moins partiellement), comme
-c'est le cas pour les deux articles de la figure \ref{fig:anatomy_samples} oÃ¹
-elles sont surlignÃ©es en violet. La vedette a une existence grammaticale Ã  part
-du reste de l'article, ce qui confirme son rÃ´le de Â«clefÂ» dans la gigantesque
-table associative constituÃ©e par une encyclopÃ©die: quand elle n'est pas sÃ©parÃ©e
-de la premiÃ¨re phrase par un point comme c'est le cas de la figure
-\ref{fig:anatomy_samples_lge}, elle est souvent simplement apposÃ©e et tout Ã 
-fait optionnelle, sÃ©parÃ©e d'une virgule du reste de la premiÃ¨re phrase qui est
-alors le plus souvent nominale, dÃ©portant tout syntagme verbal dans une
-subordonnÃ©e relative comme le montre la figure \ref{fig:anatomy_samples_edda}.
-Elle peut Ãªtre suivie optionnellement d'un Â«dÃ©signantÂ» entre parenthÃ¨ses (en
-bleu sur la figure \ref{fig:anatomy_samples}) qui sert Ã  situer l'entrÃ©e dans un
-espace structurÃ© de connaissances (notion centrale de cette sous-section et qui
-est dÃ©veloppÃ©e plus bas dans le segment \ref{sec:knowledge_domains}). Un
-dÃ©signant peut ainsi rÃ©fÃ©rer Ã  un ou plusieurs domaines de connaissance, souvent
-abrÃ©viÃ©s.
+\label{enccre_artfl_discrepancy}Dans une encyclopÃ©die, une entrÃ©e associe un
+texte Ã  un mot ou un groupe de mots, la Â«vedetteÂ», qui sert tout Ã  la fois de
+Â«titreÂ» Ã  l'article et de point de rÃ©fÃ©rence dans l'ensemble du texte puisque
+ces vedettes engendrent l'ordre (alphabÃ©tique) des articles tout en servant de
+lien pour les renvois. Tout article d'encyclopÃ©die comporte nÃ©cessairement une
+vedette typographiquement marquÃ©e comme c'est le cas pour les deux articles de
+la figure \ref{fig:anatomy_samples} oÃ¹ les vedettes, surlignÃ©es en mauve,
+apparaissent en majuscules. Dans l'*EDdA*, il existe mÃªme en rÃ©alitÃ© deux
+niveaux de division: certains termes sujets Ã  une forte homonymie ou possÃ©dant
+de nombreux dÃ©rivÃ©s contiennent plusieurs entrÃ©es dont les vedettes sont
+graphiÃ©es en petites capitales. Pour cette raison, l'[@=ENCCRE] numÃ©rote les
+textes sur trois niveaux, ajoutant aux numÃ©ros de tome et d'Â«adresseÂ» (la
+structure correspondant aux articles dans le cas gÃ©nÃ©ral) un numÃ©ro d'Â«entrÃ©eÂ».
+L'[@=ARTFL] se limite Ã  deux niveaux et regroupe parfois plusieurs entrÃ©es au
+sein d'un mÃªme Â«articleÂ», une diffÃ©rence Ã  l'origine de certaines complications
+rencontrÃ©es lors des travaux de classification (voir section
+\ref{segmentation_discrepancies} p.\pageref{segmentation_discrepancies}).
+
+La vedette a une existence grammaticale Ã  part du reste de l'article, ce qui
+confirme son rÃ´le de Â«clefÂ» dans la gigantesque table associative formÃ©e par une
+encyclopÃ©die: quand elle n'est pas sÃ©parÃ©e de la premiÃ¨re phrase par un point
+comme c'est le cas de la figure \ref{fig:anatomy_samples_lge}, elle est souvent
+simplement apposÃ©e et tout Ã  fait optionnelle, sÃ©parÃ©e d'une virgule du reste de
+la premiÃ¨re phrase qui est alors le plus souvent nominale, dÃ©portant tout
+syntagme verbal dans une subordonnÃ©e relative comme le montre la figure
+\ref{fig:anatomy_samples_edda}. Elle peut Ãªtre suivie optionnellement d'un
+Â«dÃ©signantÂ» entre parenthÃ¨ses (en bleu sur la figure \ref{fig:anatomy_samples})
+qui sert Ã  situer l'entrÃ©e dans un espace structurÃ© de connaissances (notion
+centrale de cette sous-section et qui est dÃ©veloppÃ©e plus bas dans le segment
+\ref{sec:knowledge_domains}). Un dÃ©signant peut ainsi rÃ©fÃ©rer Ã  un ou plusieurs
+domaines de connaissance, souvent abrÃ©viÃ©s.
 
 Les articles ne constituent pas une collection d'informations isolÃ©es mais sont
 au contraire liÃ©s entre eux par un systÃ¨me de renvoi, qui constitue un deuxiÃ¨me
-- 
GitLab