Skip to content
Snippets Groups Projects
Commit 042a7f47 authored by Alice Brenon's avatar Alice Brenon
Browse files

Move the discussion of the differences between ARTFL and ENCCRE right into the...

Move the discussion of the differences between ARTFL and ENCCRE right into the anatomy of encyclopedia articles and add cross-references accordingly (add a pointer form the section discussion primary keys used)
parent 5a6577be
No related branches found
No related tags found
No related merge requests found
...@@ -28,19 +28,21 @@ classe *Métiers* unique (voir p.\pageref{sec:domain_groups}), la conversion est ...@@ -28,19 +28,21 @@ classe *Métiers* unique (voir p.\pageref{sec:domain_groups}), la conversion est
en réalité très simple puisqu'elle consiste à conserver la classe initiale en réalité très simple puisqu'elle consiste à conserver la classe initiale
partout sauf pour les métiers. partout sauf pour les métiers.
Toutefois, les choix de segmentation du texte en articles, légèrement différents \label{segmentation_discrepancies}Toutefois, l'[@=ENCCRE] \(dont proviennent les
entre l'[@=ENCCRE] \(dont proviennent les annotations en ensemble de domaines) annotations en ensemble de domaines) et l'[@=ARTFL] \(qui a fourni les fichiers
et l'[@=ARTFL] \(qui a fourni les fichiers encodés des articles, voir la section encodés des articles, voir la section \ref{edda_existing_versions}
\ref{edda_existing_versions} p.\pageref{edda_existing_versions}), compliquent p.\pageref{edda_existing_versions}) segmentent différemment l'œuvre en textes ce
cette conversion en empêchant d'établir une correspondance parfaite entre les qui complique cette conversion en empêchant d'établir une correspondance
deux corpus. En effet, les synonymes ne sont pas toujours traitées de la même parfaite entre les deux corpus. En effet, en suivant la distinction faite à la
façon selon la typographie utilisée dans l'*EDdA*, l'[@=ARTFL] les séparant section \ref{enccre_artfl_discrepancy} (voir
parfois en des articles distincts (au sens de sa numérotation à 2 niveaux: tome p.\pageref{enccre_artfl_discrepancy}) entre «article» et «entrée», l'[@=ARTFL]
et rang de l'article) là où l'[@=ENCCRE] en fait des sous-entrées distinctes au groupe ensemble certaines entrées mais en considère d'autres comme des textes
sein d'un même article (ses textes possèdent des identifiants à 3 niveaux, un individuels, au contraire de l'[@=ENCCRE] pour qui le niveau de référence est
numéro d'entrée venant s'ajouter au numéro d'article). Par conséquent, seuls l'entrée et dont tous les textes correspondent à ce niveau de granularité (dans
69 531 articles ont pu être appairés entre ces deux sources sur les 74 190 au ses métadonnées, un article possède toujours au moins une entrée avec laquelle
total présents dans la version de l'œuvre étudiée. il coïncide si elle est unique). Par conséquent, seuls 69 531 articles ont pu
être appairés entre ces deux sources sur les 74 190 au total présents dans la
version de l'œuvre étudiée.
Pour cette raison certains articles sans désignant marqué typographiquement Pour cette raison certains articles sans désignant marqué typographiquement
possèdent un domaine (inféré par l'[@=ENCCRE] d'expressions telles que «en possèdent un domaine (inféré par l'[@=ENCCRE] d'expressions telles que «en
......
...@@ -284,19 +284,20 @@ requises, texte et métadonnées, seraient groupés ensemble de manière autonom ...@@ -284,19 +284,20 @@ requises, texte et métadonnées, seraient groupés ensemble de manière autonom
un objet unique. un objet unique.
\label{metadata_primary_key}Les présents travaux optent pour une clef primaire \label{metadata_primary_key}Les présents travaux optent pour une clef primaire
simple basée sur le rang des articles dans chaque tome des œuvres du corpus. simple basée sur le rang des articles dans chaque tome des œuvres du corpus,
Elle est ainsi constituée d'un triplet comprenant un code pour l'œuvre (une des suivant le choix de l'[@=ARTFL] \(voir la section \ref{enccre_artfl_discrepancy}
deux valeurs symboliques `EDdA` ou `LGE`[^work]) d'un numéro de tome et d'un p.\pageref{enccre_artfl_discrepancy}). Puisque le corpus d'étude comprend
numéro d'article qui est son rang dans l'œuvre. Il avait également été envisagé plusieurs encyclopédies, un code pour chaque œuvre (une des deux valeurs
d'utiliser à la place du rang un identifiant basé sur la vedette de l'article symboliques `EDdA` ou `LGE`[^work]) vient compléter les numéros de tome et
(complétée par un entier pour garantir unicité malgré les homonymies d'article pour former un triplet. Il avait également été envisagé d'utiliser à
potentielles), de manière à obtenir un système plus résistant aux redécoupages la place du rang un identifiant basé sur la vedette de l'article (complétée par
alors que la segmentation de *LGE* était en cours d'amélioration (ainsi, un un entier pour garantir unicité malgré les homonymies potentielles), de manière
identifiant avait plus de chance de demeurer identique alors que le rang de tous à obtenir un système plus résistant aux redécoupages alors que la segmentation
les articles survenant dans un tome après un article où la segmentation avait de *LGE* était en cours d'amélioration (ainsi, un identifiant avait plus de
été corrigée se retrouve modifié). Cette idée a été abandonnée suite à la chance de demeurer identique alors que le rang de tous les articles survenant
difficulté d'obtenir une représentation unifiée d'un système à l'autre de dans un tome après un article où la segmentation avait été corrigée se retrouve
caractères accentués[^nfc]. modifié). Cette idée a été abandonnée suite à la difficulté d'obtenir une
représentation unifiée d'un système à l'autre de caractères accentués[^nfc].
[^work]: les valeurs `Universalis` et `Wikipedia` étaient également possible [^work]: les valeurs `Universalis` et `Wikipedia` étaient également possible
pour le reste du corpus GEODE mais n'ont pas été utilisées en pratique pour le reste du corpus GEODE mais n'ont pas été utilisées en pratique
......
...@@ -292,26 +292,37 @@ concentration élevée). ...@@ -292,26 +292,37 @@ concentration élevée).
\label{fig:anatomy_samples} \label{fig:anatomy_samples}
\end{figure} \end{figure}
Dans une encyclopédie, une entrée associe un texte à un mot ou un groupe de \label{enccre_artfl_discrepancy}Dans une encyclopédie, une entrée associe un
mots, la «vedette», qui sert tout à la fois de «titre» à l'article et de point texte à un mot ou un groupe de mots, la «vedette», qui sert tout à la fois de
de référence dans l'ensemble du texte puisque c'est vers ces vedettes que «titre» à l'article et de point de référence dans l'ensemble du texte puisque
pointent les renvois. Tout article d'encyclopédie comporte nécessairement une ces vedettes engendrent l'ordre (alphabétique) des articles tout en servant de
vedette, typographiquement marquée en majuscule (au moins partiellement), comme lien pour les renvois. Tout article d'encyclopédie comporte nécessairement une
c'est le cas pour les deux articles de la figure \ref{fig:anatomy_samples} où vedette typographiquement marquée comme c'est le cas pour les deux articles de
elles sont surlignées en violet. La vedette a une existence grammaticale à part la figure \ref{fig:anatomy_samples} où les vedettes, surlignées en mauve,
du reste de l'article, ce qui confirme son rôle de «clef» dans la gigantesque apparaissent en majuscules. Dans l'*EDdA*, il existe même en réalité deux
table associative constituée par une encyclopédie: quand elle n'est pas séparée niveaux de division: certains termes sujets à une forte homonymie ou possédant
de la première phrase par un point comme c'est le cas de la figure de nombreux dérivés contiennent plusieurs entrées dont les vedettes sont
\ref{fig:anatomy_samples_lge}, elle est souvent simplement apposée et tout à graphiées en petites capitales. Pour cette raison, l'[@=ENCCRE] numérote les
fait optionnelle, séparée d'une virgule du reste de la première phrase qui est textes sur trois niveaux, ajoutant aux numéros de tome et d'«adresse» (la
alors le plus souvent nominale, déportant tout syntagme verbal dans une structure correspondant aux articles dans le cas général) un numéro d'«entrée».
subordonnée relative comme le montre la figure \ref{fig:anatomy_samples_edda}. L'[@=ARTFL] se limite à deux niveaux et regroupe parfois plusieurs entrées au
Elle peut être suivie optionnellement d'un «désignant» entre parenthèses (en sein d'un même «article», une différence à l'origine de certaines complications
bleu sur la figure \ref{fig:anatomy_samples}) qui sert à situer l'entrée dans un rencontrées lors des travaux de classification (voir section
espace structuré de connaissances (notion centrale de cette sous-section et qui \ref{segmentation_discrepancies} p.\pageref{segmentation_discrepancies}).
est développée plus bas dans le segment \ref{sec:knowledge_domains}). Un
désignant peut ainsi référer à un ou plusieurs domaines de connaissance, souvent La vedette a une existence grammaticale à part du reste de l'article, ce qui
abréviés. confirme son rôle de «clef» dans la gigantesque table associative formée par une
encyclopédie: quand elle n'est pas séparée de la première phrase par un point
comme c'est le cas de la figure \ref{fig:anatomy_samples_lge}, elle est souvent
simplement apposée et tout à fait optionnelle, séparée d'une virgule du reste de
la première phrase qui est alors le plus souvent nominale, déportant tout
syntagme verbal dans une subordonnée relative comme le montre la figure
\ref{fig:anatomy_samples_edda}. Elle peut être suivie optionnellement d'un
«désignant» entre parenthèses (en bleu sur la figure \ref{fig:anatomy_samples})
qui sert à situer l'entrée dans un espace structuré de connaissances (notion
centrale de cette sous-section et qui est développée plus bas dans le segment
\ref{sec:knowledge_domains}). Un désignant peut ainsi référer à un ou plusieurs
domaines de connaissance, souvent abréviés.
Les articles ne constituent pas une collection d'informations isolées mais sont Les articles ne constituent pas une collection d'informations isolées mais sont
au contraire liés entre eux par un système de renvoi, qui constitue un deuxième au contraire liés entre eux par un système de renvoi, qui constitue un deuxième
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment