Add a glossary entry for 'partition'

08632db2 · Alice Brenon · b603fbf1 · 08632db2 · 08632db2 · 08632db2
Commit 08632db2 authored 3 months ago by Alice Brenon
--- a/Contrastes/Biographies.md
+++ b/Contrastes/Biographies.md
@@ -221,12 +221,12 @@ corpus.
 Ces deux lemmes inattendus se présentent donc comme des objets incontournables
 pour poursuivre l'exploration. Dans TXM [@heiden_txm_2010], on commence par se
 restreindre au sous-corpus ne contenant que les articles de l'*EDdA*, qu'on
-partitionne par domaine de connaissance. L'outil «Index» paramétré pour compter
-les lemmes et appliqué sur cette partition avec la requête CQL dont le code est
-visible à l'extrait \ref{lst:cql_naitre_mourir} permet de compter les
-occurrences des deux verbes «naître» et «mourir» dans le corpus. Un nombre
+[@=partition]ne par domaine de connaissance. L'outil «Index» paramétré pour
+compter les lemmes et appliqué sur cette [@=partition] avec la requête CQL dont
+le code est visible à l'extrait \ref{lst:cql_naitre_mourir} permet de compter
+les occurrences des deux verbes «naître» et «mourir» dans le corpus. Un nombre
 d'occurrence n'est en soi pas pertinent sans être rapporté à la taille des
-différentes partitions. Le calcul des spécificités (voir la section
+différentes [@=partition]s. Le calcul des spécificités (voir la section
 \ref{sec:EdlA_linguistic_tools} p.\pageref{sec:EdlA_linguistic_tools})
 implémenté dans TXM opère cette traduction pour révéler la quantité
 d'information contenue dans la distribution de formes observées (à quel point
@@ -242,18 +242,18 @@ Sur la figure \ref{fig:naitre_mourir_edda} qui montre le résultat de ces
 calculs, les deux lemmes apparaissent comme extrêmement spécifiques du domaine
 *Géographie*. Le verbe «mourir» obtient une spécificité supérieure à 318 ce qui
 exclut en pratique toute formation spontanée de cette distribution du
-vocabulaire. La surreprésentation du lemme «naître» dans la même partition,
+vocabulaire. La surreprésentation du lemme «naître» dans la même [@=partition],
 certes moindre que le précédent avec un score de «seulement» 84, ne peut pas non
 plus s'expliquer seulement par le hasard. En ce qui concerne les autres
-partitions, le profil est tout autre: les deux lemmes sont très sous-représentés
-dans toutes les autres domaines sauf *Philosophie* (mais où seul «naître» se
-distingue, «mourir» reste peu significatif avec une spécificité de 1), *Histoire
-Naturelle* (où «mourir» est même sous-spécifique) et *Beaux-arts* («mourir» et
-«naître» y obtiennent des scores respectifs de 13 et 19, assez élevés pour
-justifier éventuellement une étude séparée, mais tout de même nettement
-inférieurs à ceux observés en *Géographie*). Les contenus biographiques semblent
-donc bel et bien entretenir une relation particulière avec la *Géographie* dans
-les pages de l'*EDdA*.
+[@=partition]s, le profil est tout autre: les deux lemmes sont très
+sous-représentés dans toutes les autres domaines sauf *Philosophie* (mais où
+seul «naître» se distingue, «mourir» reste peu significatif avec une spécificité
+de 1), *Histoire Naturelle* (où «mourir» est même sous-spécifique) et
+*Beaux-arts* («mourir» et «naître» y obtiennent des scores respectifs de 13 et
+19, assez élevés pour justifier éventuellement une étude séparée, mais tout de
+même nettement inférieurs à ceux observés en *Géographie*). Les contenus
+biographiques semblent donc bel et bien entretenir une relation particulière
+avec la *Géographie* dans les pages de l'*EDdA*.

 ![Spécificités des lemmes «naître» et «mourir» par superdomaine dans
 l'*EDdA*](figure/histogram/textometry/EDdA/mourir_naitre.png){#fig:naitre_mourir_edda}
@@ -261,10 +261,10 @@ l'*EDdA*](figure/histogram/textometry/EDdA/mourir_naitre.png){#fig:naitre_mourir
 L'étape suivante du raisonnement consiste naturellement à se demander si cette
 observation est propre à l'*EDdA* ou s'ils se généralisent à d'autres discours
 encyclopédiques. Pour répondre à cette question, on procède de la même façon en
-partitionnant par domaine de connaissance le sous-corpus ne contenant que les
-articles de *LGE* avant de calculer les spécificités des deux mêmes lemmes. Les
-spécificités obtenues suivent un profil bien plus tranché, de nombreux domaines
-obtenant pour les deux verbes des scores «saturés» (voir la section
+[@=partition]nant par domaine de connaissance le sous-corpus ne contenant que
+les articles de *LGE* avant de calculer les spécificités des deux mêmes lemmes.
+Les spécificités obtenues suivent un profil bien plus tranché, de nombreux
+domaines obtenant pour les deux verbes des scores «saturés» (voir la section
 \ref{textometry_specificity} p.\pageref{textometry_specificity} sur ce point),
 en positif ou en négatif, c'est-à-dire que les deux y sont «infiniment»
 spécifiques. Partout ailleurs, les spécificités sont négatives ou très faibles
@@ -282,22 +282,23 @@ dans quelle mesure ils dépendent du style personnel des contributeurs de
 l'*EDdA*. En effet, le nom de Jaucourt revient fréquemment à propos de ce type
 d'inclusions auxquelles Diderot s'est opposé et dont il semble s'être parfois
 agacé [@laramee_production_2017, p.169]. Pour achever cette étude, on
-partitionne donc cette fois le sous-corpus de l'*EDdA* suivant deux critères,
-pour croiser à la fois les notions d'auteur et de domaine de connaissance. Pour
-la première, il faut en effet pouvoir distinguer les écrits de Jaucourt, ceux de
-Diderot, ceux des autres auteurs et ceux restés anonymes (pour lesquels il n'est
-pas en tout rigueur possible d'écarter la possibilité qu'ils aient été écrit par
-Jaucourt ou Diderot). Puisque certains articles résultent de la collaboration
-entre plusieurs auteurs, il est nécessaire de traiter à part les quatre articles
-écrits à la fois par Jaucourt et Diderot — les entrées CHANVRE (L'Encyclopédie,
-T3, p.147), CHAUSSURE (L'Encyclopédie, T3, p.259), \textsc{Ere Philippique}
-(L'Encyclopédie, T5, p.902) et JALOUSIE (L'Encyclopédie, T8, p.439). La notion
-de domaine demande moins de finesse car, la surreprésentation écrasante des
-lemmes «naître» et «mourir» en *Géographie* ayant déjà été établie, il suffit
-pour chacune des configurations d'auteur(s) possibles de comparer leurs emplois
-de ces deux verbes dans et hors de la *Géographie*. Comme aucun des quatre
-articles écrits par Jaucourt et Diderot ensemble ne porte sur la *Géographie*,
-la partition correspondant à cette configuration reste vide.
+[@=partition]ne donc cette fois le sous-corpus de l'*EDdA* suivant deux
+critères, pour croiser à la fois les notions d'auteur et de domaine de
+connaissance. Pour la première, il faut en effet pouvoir distinguer les écrits
+de Jaucourt, ceux de Diderot, ceux des autres auteurs et ceux restés anonymes
+(pour lesquels il n'est pas en tout rigueur possible d'écarter la possibilité
+qu'ils aient été écrit par Jaucourt ou Diderot). Puisque certains articles
+résultent de la collaboration entre plusieurs auteurs, il est nécessaire de
+traiter à part les quatre articles écrits à la fois par Jaucourt et
+Diderot — les entrées CHANVRE (L'Encyclopédie, T3, p.147), CHAUSSURE
+(L'Encyclopédie, T3, p.259), \textsc{Ere Philippique} (L'Encyclopédie, T5,
+p.902) et JALOUSIE (L'Encyclopédie, T8, p.439). La notion de domaine demande
+moins de finesse car, la surreprésentation écrasante des lemmes «naître» et
+«mourir» en *Géographie* ayant déjà été établie, il suffit pour chacune des
+configurations d'auteur(s) possibles de comparer leurs emplois de ces deux
+verbes dans et hors de la *Géographie*. Comme aucun des quatre articles écrits
+par Jaucourt et Diderot ensemble ne porte sur la *Géographie*, la [@=partition]
+correspondant à cette configuration reste vide.

 Pour rendre compte des deux dimensions d'analyse simultanées, la figure
 \ref{fig:naitre_mourir_edda_domain_authors} comporte deux distributions de

--- a/Contrastes/Contours.md
+++ b/Contrastes/Contours.md
@@ -116,8 +116,8 @@ supplémentaire au décompte.
 La chose la plus évidente lorsque l'on compare la figure
 \ref{fig:edda_words_by_domain_repartition} représentant le nombre de mots par
 domaine dans l'*EDdA* avec celui représentant le nombre d'articles pour la même
-partition (figure \ref{fig:edda_count_by_domain_repartition} p.
-\pageref{fig:edda_count_by_domain_repartition}) est la faible importance
+[@=partition] \(figure \ref{fig:edda_count_by_domain_repartition}
+p.\pageref{fig:edda_count_by_domain_repartition}) est la faible importance
 relative des articles de géographie en terme de taille. En nombre d'articles, la
 *Géographie* est très nettement le domaine le plus représenté avec plus de 20%
 des articles de l'*EDdA* qui lui sont consacrés, soit presque deux fois plus

--- a/Corpus/Application.md
+++ b/Corpus/Application.md
@@ -128,8 +128,8 @@ doute une exploration soigneuse.
 Les logiciels de textométrie utilisés dans les présents travaux prennent en
 entrée des fichiers au format XML-[@=TEI]. Le logiciel TXM [@heiden_txm_2010]
 permet ainsi d'explorer directement le corpus à partir de la version XML-[@=TEI]
-des deux œuvres et de faire des mesures de nombre de tokens, des œuvres ou de
-leur partitions (notamment par domaine de connaissance, voir la section
+des deux œuvres et de faire des mesures de nombre de tokens des œuvres ou de
+leur [@=partition]s (notamment par domaine de connaissance, voir la section
 \ref{sec:geo_size_metrics} à partir de la page \pageref{sec:geo_size_metrics}).
 L'extension intégrant l'étiqueteur TreeTagger[^treetagger] permet même d'accéder
 à des étiquettes morphosyntaxiques pour les tokens. En pratique, cette extension

--- a/Glossaire/partition.md
+++ b/Glossaire/partition.md
+est un concept fondamental pour les linguistiques de corpus. Il consiste à
+regrouper les textes d'un corpus en fonction de critères comme la valeur d'une
+métadonnée (typiquement année, auteur, genre littéraire) en vue de mettre en
+évidence des différences statistiquement significatives entre les groupes dans
+le cadre d'une étude contrastive. Les groupes doivent être disjoints (aucun
+article n'est dans deux partitions à la fois) et leur union égale au corpus
+entier (aucun article n'est dans aucun groupe). Le terme est utilisé aussi bien
+pour désigner une telle division (conjointement avec «partitionnement» dans ce
+cas) qu'un des groupes obtenus.
--- a/ÉdlA/Linguistique_de_corpus.md
+++ b/ÉdlA/Linguistique_de_corpus.md
@@ -135,10 +135,11 @@ des spécificités comme le fait remarquer @pincemin_semantique_2022[p.4]. Avant
 d'expliciter la notion de spécificité, il est utile de remarquer que la plupart
 des outils utilisés dans les linguistiques de corpus reposent sur des décomptes
 de différents objets avec une approche statistique. En creux, ces décomptes
-supposent un partitionnement: il s'agit de recenser les occurrences d'un
-phénomène dans une partie du corpus par rapport aux autres pour dégager des
-critères quantitatifs objectifs qui caractérisent cette partie. Cette approche
-contrastive est fondamentale dans l'ensemble de la discipline.
+supposent un découpage: il s'agit de recenser les occurrences d'un phénomène
+dans une partie du corpus par rapport aux autres pour dégager des critères
+quantitatifs objectifs qui caractérisent cette partie. Ce concept de
+[@=partition] est fondamental dans l'approche contrastive et dans l'ensemble de
+la discipline.

 Guiraud le premier, à la tête des stylisticiens [@leon_histoire_2015, p.129]
 remarque que «la linguistique est la science statistique type»
@@ -360,7 +361,7 @@ partage les textes suivant l'axe des disciplines en plus celui du temps,
 constitutif du corpus assemblé pour cette étude diachronique et qui distingue
 par construction les articles du XVIII^ème^ siècle issus de l'*EDdA* de ceux du
 XIX^ème^ provenant de *LGE*. En annotant les textes en morphosyntaxe et en
-syntaxe à l'aide d'autres méthodes d'[@=AA], ce double partitionnement rend
+syntaxe à l'aide d'autres méthodes d'[@=AA], ce double [@=partition]nement rend
 possible la conduite d'analyses contrastives. C'est ainsi que les méthodes des
 linguistiques de corpus décrites dans la présente section
 \ref{sec:EdlA_corpus_linguistics} sont utilisées au chapitre \ref{sec:contrasts}