Skip to content
Snippets Groups Projects
Commit 042a7f47 authored by Alice Brenon's avatar Alice Brenon
Browse files

Move the discussion of the differences between ARTFL and ENCCRE right into the...

Move the discussion of the differences between ARTFL and ENCCRE right into the anatomy of encyclopedia articles and add cross-references accordingly (add a pointer form the section discussion primary keys used)
parent 5a6577be
No related branches found
No related tags found
No related merge requests found
......@@ -28,19 +28,21 @@ classe *Métiers* unique (voir p.\pageref{sec:domain_groups}), la conversion est
en réalité très simple puisqu'elle consiste à conserver la classe initiale
partout sauf pour les métiers.
Toutefois, les choix de segmentation du texte en articles, légèrement différents
entre l'[@=ENCCRE] \(dont proviennent les annotations en ensemble de domaines)
et l'[@=ARTFL] \(qui a fourni les fichiers encodés des articles, voir la section
\ref{edda_existing_versions} p.\pageref{edda_existing_versions}), compliquent
cette conversion en empêchant d'établir une correspondance parfaite entre les
deux corpus. En effet, les synonymes ne sont pas toujours traitées de la même
façon selon la typographie utilisée dans l'*EDdA*, l'[@=ARTFL] les séparant
parfois en des articles distincts (au sens de sa numérotation à 2 niveaux: tome
et rang de l'article) là où l'[@=ENCCRE] en fait des sous-entrées distinctes au
sein d'un même article (ses textes possèdent des identifiants à 3 niveaux, un
numéro d'entrée venant s'ajouter au numéro d'article). Par conséquent, seuls
69 531 articles ont pu être appairés entre ces deux sources sur les 74 190 au
total présents dans la version de l'œuvre étudiée.
\label{segmentation_discrepancies}Toutefois, l'[@=ENCCRE] \(dont proviennent les
annotations en ensemble de domaines) et l'[@=ARTFL] \(qui a fourni les fichiers
encodés des articles, voir la section \ref{edda_existing_versions}
p.\pageref{edda_existing_versions}) segmentent différemment l'œuvre en textes ce
qui complique cette conversion en empêchant d'établir une correspondance
parfaite entre les deux corpus. En effet, en suivant la distinction faite à la
section \ref{enccre_artfl_discrepancy} (voir
p.\pageref{enccre_artfl_discrepancy}) entre «article» et «entrée», l'[@=ARTFL]
groupe ensemble certaines entrées mais en considère d'autres comme des textes
individuels, au contraire de l'[@=ENCCRE] pour qui le niveau de référence est
l'entrée et dont tous les textes correspondent à ce niveau de granularité (dans
ses métadonnées, un article possède toujours au moins une entrée avec laquelle
il coïncide si elle est unique). Par conséquent, seuls 69 531 articles ont pu
être appairés entre ces deux sources sur les 74 190 au total présents dans la
version de l'œuvre étudiée.
Pour cette raison certains articles sans désignant marqué typographiquement
possèdent un domaine (inféré par l'[@=ENCCRE] d'expressions telles que «en
......
......@@ -284,19 +284,20 @@ requises, texte et métadonnées, seraient groupés ensemble de manière autonom
un objet unique.
\label{metadata_primary_key}Les présents travaux optent pour une clef primaire
simple basée sur le rang des articles dans chaque tome des œuvres du corpus.
Elle est ainsi constituée d'un triplet comprenant un code pour l'œuvre (une des
deux valeurs symboliques `EDdA` ou `LGE`[^work]) d'un numéro de tome et d'un
numéro d'article qui est son rang dans l'œuvre. Il avait également été envisagé
d'utiliser à la place du rang un identifiant basé sur la vedette de l'article
(complétée par un entier pour garantir unicité malgré les homonymies
potentielles), de manière à obtenir un système plus résistant aux redécoupages
alors que la segmentation de *LGE* était en cours d'amélioration (ainsi, un
identifiant avait plus de chance de demeurer identique alors que le rang de tous
les articles survenant dans un tome après un article où la segmentation avait
été corrigée se retrouve modifié). Cette idée a été abandonnée suite à la
difficulté d'obtenir une représentation unifiée d'un système à l'autre de
caractères accentués[^nfc].
simple basée sur le rang des articles dans chaque tome des œuvres du corpus,
suivant le choix de l'[@=ARTFL] \(voir la section \ref{enccre_artfl_discrepancy}
p.\pageref{enccre_artfl_discrepancy}). Puisque le corpus d'étude comprend
plusieurs encyclopédies, un code pour chaque œuvre (une des deux valeurs
symboliques `EDdA` ou `LGE`[^work]) vient compléter les numéros de tome et
d'article pour former un triplet. Il avait également été envisagé d'utiliser à
la place du rang un identifiant basé sur la vedette de l'article (complétée par
un entier pour garantir unicité malgré les homonymies potentielles), de manière
à obtenir un système plus résistant aux redécoupages alors que la segmentation
de *LGE* était en cours d'amélioration (ainsi, un identifiant avait plus de
chance de demeurer identique alors que le rang de tous les articles survenant
dans un tome après un article où la segmentation avait été corrigée se retrouve
modifié). Cette idée a été abandonnée suite à la difficulté d'obtenir une
représentation unifiée d'un système à l'autre de caractères accentués[^nfc].
[^work]: les valeurs `Universalis` et `Wikipedia` étaient également possible
pour le reste du corpus GEODE mais n'ont pas été utilisées en pratique
......
......@@ -292,26 +292,37 @@ concentration élevée).
\label{fig:anatomy_samples}
\end{figure}
Dans une encyclopédie, une entrée associe un texte à un mot ou un groupe de
mots, la «vedette», qui sert tout à la fois de «titre» à l'article et de point
de référence dans l'ensemble du texte puisque c'est vers ces vedettes que
pointent les renvois. Tout article d'encyclopédie comporte nécessairement une
vedette, typographiquement marquée en majuscule (au moins partiellement), comme
c'est le cas pour les deux articles de la figure \ref{fig:anatomy_samples} où
elles sont surlignées en violet. La vedette a une existence grammaticale à part
du reste de l'article, ce qui confirme son rôle de «clef» dans la gigantesque
table associative constituée par une encyclopédie: quand elle n'est pas séparée
de la première phrase par un point comme c'est le cas de la figure
\ref{fig:anatomy_samples_lge}, elle est souvent simplement apposée et tout à
fait optionnelle, séparée d'une virgule du reste de la première phrase qui est
alors le plus souvent nominale, déportant tout syntagme verbal dans une
subordonnée relative comme le montre la figure \ref{fig:anatomy_samples_edda}.
Elle peut être suivie optionnellement d'un «désignant» entre parenthèses (en
bleu sur la figure \ref{fig:anatomy_samples}) qui sert à situer l'entrée dans un
espace structuré de connaissances (notion centrale de cette sous-section et qui
est développée plus bas dans le segment \ref{sec:knowledge_domains}). Un
désignant peut ainsi référer à un ou plusieurs domaines de connaissance, souvent
abréviés.
\label{enccre_artfl_discrepancy}Dans une encyclopédie, une entrée associe un
texte à un mot ou un groupe de mots, la «vedette», qui sert tout à la fois de
«titre» à l'article et de point de référence dans l'ensemble du texte puisque
ces vedettes engendrent l'ordre (alphabétique) des articles tout en servant de
lien pour les renvois. Tout article d'encyclopédie comporte nécessairement une
vedette typographiquement marquée comme c'est le cas pour les deux articles de
la figure \ref{fig:anatomy_samples} où les vedettes, surlignées en mauve,
apparaissent en majuscules. Dans l'*EDdA*, il existe même en réalité deux
niveaux de division: certains termes sujets à une forte homonymie ou possédant
de nombreux dérivés contiennent plusieurs entrées dont les vedettes sont
graphiées en petites capitales. Pour cette raison, l'[@=ENCCRE] numérote les
textes sur trois niveaux, ajoutant aux numéros de tome et d'«adresse» (la
structure correspondant aux articles dans le cas général) un numéro d'«entrée».
L'[@=ARTFL] se limite à deux niveaux et regroupe parfois plusieurs entrées au
sein d'un même «article», une différence à l'origine de certaines complications
rencontrées lors des travaux de classification (voir section
\ref{segmentation_discrepancies} p.\pageref{segmentation_discrepancies}).
La vedette a une existence grammaticale à part du reste de l'article, ce qui
confirme son rôle de «clef» dans la gigantesque table associative formée par une
encyclopédie: quand elle n'est pas séparée de la première phrase par un point
comme c'est le cas de la figure \ref{fig:anatomy_samples_lge}, elle est souvent
simplement apposée et tout à fait optionnelle, séparée d'une virgule du reste de
la première phrase qui est alors le plus souvent nominale, déportant tout
syntagme verbal dans une subordonnée relative comme le montre la figure
\ref{fig:anatomy_samples_edda}. Elle peut être suivie optionnellement d'un
«désignant» entre parenthèses (en bleu sur la figure \ref{fig:anatomy_samples})
qui sert à situer l'entrée dans un espace structuré de connaissances (notion
centrale de cette sous-section et qui est développée plus bas dans le segment
\ref{sec:knowledge_domains}). Un désignant peut ainsi référer à un ou plusieurs
domaines de connaissance, souvent abréviés.
Les articles ne constituent pas une collection d'informations isolées mais sont
au contraire liés entre eux par un système de renvoi, qui constitue un deuxième
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment