From 042a7f47986362af8f868b21a51505cce8c1f126 Mon Sep 17 00:00:00 2001 From: Alice BRENON <alice.brenon@ens-lyon.fr> Date: Thu, 27 Mar 2025 00:17:01 +0100 Subject: [PATCH] Move the discussion of the differences between ARTFL and ENCCRE right into the anatomy of encyclopedia articles and add cross-references accordingly (add a pointer form the section discussion primary keys used) --- Classification/Models.md | 28 +++++++++++---------- Corpus/Application.md | 27 +++++++++++---------- "Corpus/\305\222uvres.md" | 51 ++++++++++++++++++++++++--------------- 3 files changed, 60 insertions(+), 46 deletions(-) diff --git a/Classification/Models.md b/Classification/Models.md index a6cf026..a6f2f52 100644 --- a/Classification/Models.md +++ b/Classification/Models.md @@ -28,19 +28,21 @@ classe *Métiers* unique (voir p.\pageref{sec:domain_groups}), la conversion est en réalité très simple puisqu'elle consiste à conserver la classe initiale partout sauf pour les métiers. -Toutefois, les choix de segmentation du texte en articles, légèrement différents -entre l'[@=ENCCRE] \(dont proviennent les annotations en ensemble de domaines) -et l'[@=ARTFL] \(qui a fourni les fichiers encodés des articles, voir la section -\ref{edda_existing_versions} p.\pageref{edda_existing_versions}), compliquent -cette conversion en empêchant d'établir une correspondance parfaite entre les -deux corpus. En effet, les synonymes ne sont pas toujours traitées de la même -façon selon la typographie utilisée dans l'*EDdA*, l'[@=ARTFL] les séparant -parfois en des articles distincts (au sens de sa numérotation à 2 niveaux: tome -et rang de l'article) là où l'[@=ENCCRE] en fait des sous-entrées distinctes au -sein d'un même article (ses textes possèdent des identifiants à 3 niveaux, un -numéro d'entrée venant s'ajouter au numéro d'article). Par conséquent, seuls -69 531 articles ont pu être appairés entre ces deux sources sur les 74 190 au -total présents dans la version de l'œuvre étudiée. +\label{segmentation_discrepancies}Toutefois, l'[@=ENCCRE] \(dont proviennent les +annotations en ensemble de domaines) et l'[@=ARTFL] \(qui a fourni les fichiers +encodés des articles, voir la section \ref{edda_existing_versions} +p.\pageref{edda_existing_versions}) segmentent différemment l'œuvre en textes ce +qui complique cette conversion en empêchant d'établir une correspondance +parfaite entre les deux corpus. En effet, en suivant la distinction faite à la +section \ref{enccre_artfl_discrepancy} (voir +p.\pageref{enccre_artfl_discrepancy}) entre «article» et «entrée», l'[@=ARTFL] +groupe ensemble certaines entrées mais en considère d'autres comme des textes +individuels, au contraire de l'[@=ENCCRE] pour qui le niveau de référence est +l'entrée et dont tous les textes correspondent à ce niveau de granularité (dans +ses métadonnées, un article possède toujours au moins une entrée avec laquelle +il coïncide si elle est unique). Par conséquent, seuls 69 531 articles ont pu +être appairés entre ces deux sources sur les 74 190 au total présents dans la +version de l'œuvre étudiée. Pour cette raison certains articles sans désignant marqué typographiquement possèdent un domaine (inféré par l'[@=ENCCRE] d'expressions telles que «en diff --git a/Corpus/Application.md b/Corpus/Application.md index b6ff4f8..e21de95 100644 --- a/Corpus/Application.md +++ b/Corpus/Application.md @@ -284,19 +284,20 @@ requises, texte et métadonnées, seraient groupés ensemble de manière autonom un objet unique. \label{metadata_primary_key}Les présents travaux optent pour une clef primaire -simple basée sur le rang des articles dans chaque tome des œuvres du corpus. -Elle est ainsi constituée d'un triplet comprenant un code pour l'œuvre (une des -deux valeurs symboliques `EDdA` ou `LGE`[^work]) d'un numéro de tome et d'un -numéro d'article qui est son rang dans l'œuvre. Il avait également été envisagé -d'utiliser à la place du rang un identifiant basé sur la vedette de l'article -(complétée par un entier pour garantir unicité malgré les homonymies -potentielles), de manière à obtenir un système plus résistant aux redécoupages -alors que la segmentation de *LGE* était en cours d'amélioration (ainsi, un -identifiant avait plus de chance de demeurer identique alors que le rang de tous -les articles survenant dans un tome après un article où la segmentation avait -été corrigée se retrouve modifié). Cette idée a été abandonnée suite à la -difficulté d'obtenir une représentation unifiée d'un système à l'autre de -caractères accentués[^nfc]. +simple basée sur le rang des articles dans chaque tome des œuvres du corpus, +suivant le choix de l'[@=ARTFL] \(voir la section \ref{enccre_artfl_discrepancy} +p.\pageref{enccre_artfl_discrepancy}). Puisque le corpus d'étude comprend +plusieurs encyclopédies, un code pour chaque œuvre (une des deux valeurs +symboliques `EDdA` ou `LGE`[^work]) vient compléter les numéros de tome et +d'article pour former un triplet. Il avait également été envisagé d'utiliser à +la place du rang un identifiant basé sur la vedette de l'article (complétée par +un entier pour garantir unicité malgré les homonymies potentielles), de manière +à obtenir un système plus résistant aux redécoupages alors que la segmentation +de *LGE* était en cours d'amélioration (ainsi, un identifiant avait plus de +chance de demeurer identique alors que le rang de tous les articles survenant +dans un tome après un article où la segmentation avait été corrigée se retrouve +modifié). Cette idée a été abandonnée suite à la difficulté d'obtenir une +représentation unifiée d'un système à l'autre de caractères accentués[^nfc]. [^work]: les valeurs `Universalis` et `Wikipedia` étaient également possible pour le reste du corpus GEODE mais n'ont pas été utilisées en pratique diff --git "a/Corpus/\305\222uvres.md" "b/Corpus/\305\222uvres.md" index 745efc3..8191694 100644 --- "a/Corpus/\305\222uvres.md" +++ "b/Corpus/\305\222uvres.md" @@ -292,26 +292,37 @@ concentration élevée). \label{fig:anatomy_samples} \end{figure} -Dans une encyclopédie, une entrée associe un texte à un mot ou un groupe de -mots, la «vedette», qui sert tout à la fois de «titre» à l'article et de point -de référence dans l'ensemble du texte puisque c'est vers ces vedettes que -pointent les renvois. Tout article d'encyclopédie comporte nécessairement une -vedette, typographiquement marquée en majuscule (au moins partiellement), comme -c'est le cas pour les deux articles de la figure \ref{fig:anatomy_samples} où -elles sont surlignées en violet. La vedette a une existence grammaticale à part -du reste de l'article, ce qui confirme son rôle de «clef» dans la gigantesque -table associative constituée par une encyclopédie: quand elle n'est pas séparée -de la première phrase par un point comme c'est le cas de la figure -\ref{fig:anatomy_samples_lge}, elle est souvent simplement apposée et tout à -fait optionnelle, séparée d'une virgule du reste de la première phrase qui est -alors le plus souvent nominale, déportant tout syntagme verbal dans une -subordonnée relative comme le montre la figure \ref{fig:anatomy_samples_edda}. -Elle peut être suivie optionnellement d'un «désignant» entre parenthèses (en -bleu sur la figure \ref{fig:anatomy_samples}) qui sert à situer l'entrée dans un -espace structuré de connaissances (notion centrale de cette sous-section et qui -est développée plus bas dans le segment \ref{sec:knowledge_domains}). Un -désignant peut ainsi référer à un ou plusieurs domaines de connaissance, souvent -abréviés. +\label{enccre_artfl_discrepancy}Dans une encyclopédie, une entrée associe un +texte à un mot ou un groupe de mots, la «vedette», qui sert tout à la fois de +«titre» à l'article et de point de référence dans l'ensemble du texte puisque +ces vedettes engendrent l'ordre (alphabétique) des articles tout en servant de +lien pour les renvois. Tout article d'encyclopédie comporte nécessairement une +vedette typographiquement marquée comme c'est le cas pour les deux articles de +la figure \ref{fig:anatomy_samples} où les vedettes, surlignées en mauve, +apparaissent en majuscules. Dans l'*EDdA*, il existe même en réalité deux +niveaux de division: certains termes sujets à une forte homonymie ou possédant +de nombreux dérivés contiennent plusieurs entrées dont les vedettes sont +graphiées en petites capitales. Pour cette raison, l'[@=ENCCRE] numérote les +textes sur trois niveaux, ajoutant aux numéros de tome et d'«adresse» (la +structure correspondant aux articles dans le cas général) un numéro d'«entrée». +L'[@=ARTFL] se limite à deux niveaux et regroupe parfois plusieurs entrées au +sein d'un même «article», une différence à l'origine de certaines complications +rencontrées lors des travaux de classification (voir section +\ref{segmentation_discrepancies} p.\pageref{segmentation_discrepancies}). + +La vedette a une existence grammaticale à part du reste de l'article, ce qui +confirme son rôle de «clef» dans la gigantesque table associative formée par une +encyclopédie: quand elle n'est pas séparée de la première phrase par un point +comme c'est le cas de la figure \ref{fig:anatomy_samples_lge}, elle est souvent +simplement apposée et tout à fait optionnelle, séparée d'une virgule du reste de +la première phrase qui est alors le plus souvent nominale, déportant tout +syntagme verbal dans une subordonnée relative comme le montre la figure +\ref{fig:anatomy_samples_edda}. Elle peut être suivie optionnellement d'un +«désignant» entre parenthèses (en bleu sur la figure \ref{fig:anatomy_samples}) +qui sert à situer l'entrée dans un espace structuré de connaissances (notion +centrale de cette sous-section et qui est développée plus bas dans le segment +\ref{sec:knowledge_domains}). Un désignant peut ainsi référer à un ou plusieurs +domaines de connaissance, souvent abréviés. Les articles ne constituent pas une collection d'informations isolées mais sont au contraire liés entre eux par un système de renvoi, qui constitue un deuxième -- GitLab