Add a glossary entry for 'partition'

08632db2 · Alice Brenon · b603fbf1 · 08632db2 · 08632db2 · 08632db2
Commit 08632db2 authored 2 months ago by Alice Brenon
--- a/Contrastes/Biographies.md
+++ b/Contrastes/Biographies.md
@@ -221,12 +221,12 @@ corpus.
 Ces deux lemmes inattendus se présentent donc comme des objets incontournables
 pour poursuivre l'exploration. Dans TXM [@heiden_txm_2010], on commence par se
 restreindre au sous-corpus ne contenant que les articles de l'*EDdA*, qu'on
-partitionne par domaine de connaissance. L'outil «Index» paramétré pour compter
+[@=partition]ne par domaine de connaissance. L'outil «Index» paramétré pour
-les lemmes et appliqué sur cette partition avec la requête CQL dont le code est
+compter les lemmes et appliqué sur cette [@=partition] avec la requête CQL dont
-visible à l'extrait \ref{lst:cql_naitre_mourir} permet de compter les
+le code est visible à l'extrait \ref{lst:cql_naitre_mourir} permet de compter
-occurrences des deux verbes «naître» et «mourir» dans le corpus. Un nombre
+les occurrences des deux verbes «naître» et «mourir» dans le corpus. Un nombre
 d'occurrence n'est en soi pas pertinent sans être rapporté à la taille des
-différentes partitions. Le calcul des spécificités (voir la section
+différentes [@=partition]s. Le calcul des spécificités (voir la section
 \ref{sec:EdlA_linguistic_tools} p.\pageref{sec:EdlA_linguistic_tools})
 implémenté dans TXM opère cette traduction pour révéler la quantité
 d'information contenue dans la distribution de formes observées (à quel point
@@ -242,18 +242,18 @@ Sur la figure \ref{fig:naitre_mourir_edda} qui montre le résultat de ces
 calculs, les deux lemmes apparaissent comme extrêmement spécifiques du domaine
 *Géographie*. Le verbe «mourir» obtient une spécificité supérieure à 318 ce qui
 exclut en pratique toute formation spontanée de cette distribution du
-vocabulaire. La surreprésentation du lemme «naître» dans la même partition,
+vocabulaire. La surreprésentation du lemme «naître» dans la même [@=partition],
 certes moindre que le précédent avec un score de «seulement» 84, ne peut pas non
 plus s'expliquer seulement par le hasard. En ce qui concerne les autres
-partitions, le profil est tout autre: les deux lemmes sont très sous-représentés
+[@=partition]s, le profil est tout autre: les deux lemmes sont très
-dans toutes les autres domaines sauf *Philosophie* (mais où seul «naître» se
+sous-représentés dans toutes les autres domaines sauf *Philosophie* (mais où
-distingue, «mourir» reste peu significatif avec une spécificité de 1), *Histoire
+seul «naître» se distingue, «mourir» reste peu significatif avec une spécificité
-Naturelle* (où «mourir» est même sous-spécifique) et *Beaux-arts* («mourir» et
+de 1), *Histoire Naturelle* (où «mourir» est même sous-spécifique) et
-«naître» y obtiennent des scores respectifs de 13 et 19, assez élevés pour
+*Beaux-arts* («mourir» et «naître» y obtiennent des scores respectifs de 13 et
-justifier éventuellement une étude séparée, mais tout de même nettement
+19, assez élevés pour justifier éventuellement une étude séparée, mais tout de
-inférieurs à ceux observés en *Géographie*). Les contenus biographiques semblent
+même nettement inférieurs à ceux observés en *Géographie*). Les contenus
-donc bel et bien entretenir une relation particulière avec la *Géographie* dans
+biographiques semblent donc bel et bien entretenir une relation particulière
-les pages de l'*EDdA*.
+avec la *Géographie* dans les pages de l'*EDdA*.
 ![Spécificités des lemmes «naître» et «mourir» par superdomaine dans
 l'*EDdA*](figure/histogram/textometry/EDdA/mourir_naitre.png){#fig:naitre_mourir_edda}
@@ -261,10 +261,10 @@ l'*EDdA*](figure/histogram/textometry/EDdA/mourir_naitre.png){#fig:naitre_mourir
 L'étape suivante du raisonnement consiste naturellement à se demander si cette
 observation est propre à l'*EDdA* ou s'ils se généralisent à d'autres discours
 encyclopédiques. Pour répondre à cette question, on procède de la même façon en
-partitionnant par domaine de connaissance le sous-corpus ne contenant que les
+[@=partition]nant par domaine de connaissance le sous-corpus ne contenant que
-articles de *LGE* avant de calculer les spécificités des deux mêmes lemmes. Les
+les articles de *LGE* avant de calculer les spécificités des deux mêmes lemmes.
-spécificités obtenues suivent un profil bien plus tranché, de nombreux domaines
+Les spécificités obtenues suivent un profil bien plus tranché, de nombreux
-obtenant pour les deux verbes des scores «saturés» (voir la section
+domaines obtenant pour les deux verbes des scores «saturés» (voir la section
 \ref{textometry_specificity} p.\pageref{textometry_specificity} sur ce point),
 en positif ou en négatif, c'est-à-dire que les deux y sont «infiniment»
 spécifiques. Partout ailleurs, les spécificités sont négatives ou très faibles
@@ -282,22 +282,23 @@ dans quelle mesure ils dépendent du style personnel des contributeurs de
 l'*EDdA*. En effet, le nom de Jaucourt revient fréquemment à propos de ce type
 d'inclusions auxquelles Diderot s'est opposé et dont il semble s'être parfois
 agacé [@laramee_production_2017, p.169]. Pour achever cette étude, on
-partitionne donc cette fois le sous-corpus de l'*EDdA* suivant deux critères,
+[@=partition]ne donc cette fois le sous-corpus de l'*EDdA* suivant deux
-pour croiser à la fois les notions d'auteur et de domaine de connaissance. Pour
+critères, pour croiser à la fois les notions d'auteur et de domaine de
-la première, il faut en effet pouvoir distinguer les écrits de Jaucourt, ceux de
+connaissance. Pour la première, il faut en effet pouvoir distinguer les écrits
-Diderot, ceux des autres auteurs et ceux restés anonymes (pour lesquels il n'est
+de Jaucourt, ceux de Diderot, ceux des autres auteurs et ceux restés anonymes
-pas en tout rigueur possible d'écarter la possibilité qu'ils aient été écrit par
+(pour lesquels il n'est pas en tout rigueur possible d'écarter la possibilité
-Jaucourt ou Diderot). Puisque certains articles résultent de la collaboration
+qu'ils aient été écrit par Jaucourt ou Diderot). Puisque certains articles
-entre plusieurs auteurs, il est nécessaire de traiter à part les quatre articles
+résultent de la collaboration entre plusieurs auteurs, il est nécessaire de
-écrits à la fois par Jaucourt et Diderot — les entrées CHANVRE (L'Encyclopédie,
+traiter à part les quatre articles écrits à la fois par Jaucourt et
-T3, p.147), CHAUSSURE (L'Encyclopédie, T3, p.259), \textsc{Ere Philippique}
+Diderot — les entrées CHANVRE (L'Encyclopédie, T3, p.147), CHAUSSURE
-(L'Encyclopédie, T5, p.902) et JALOUSIE (L'Encyclopédie, T8, p.439). La notion
+(L'Encyclopédie, T3, p.259), \textsc{Ere Philippique} (L'Encyclopédie, T5,
-de domaine demande moins de finesse car, la surreprésentation écrasante des
+p.902) et JALOUSIE (L'Encyclopédie, T8, p.439). La notion de domaine demande
-lemmes «naître» et «mourir» en *Géographie* ayant déjà été établie, il suffit
+moins de finesse car, la surreprésentation écrasante des lemmes «naître» et
-pour chacune des configurations d'auteur(s) possibles de comparer leurs emplois
+«mourir» en *Géographie* ayant déjà été établie, il suffit pour chacune des
-de ces deux verbes dans et hors de la *Géographie*. Comme aucun des quatre
+configurations d'auteur(s) possibles de comparer leurs emplois de ces deux
-articles écrits par Jaucourt et Diderot ensemble ne porte sur la *Géographie*,
+verbes dans et hors de la *Géographie*. Comme aucun des quatre articles écrits
-la partition correspondant à cette configuration reste vide.
+par Jaucourt et Diderot ensemble ne porte sur la *Géographie*, la [@=partition]
+correspondant à cette configuration reste vide.
 Pour rendre compte des deux dimensions d'analyse simultanées, la figure
 \ref{fig:naitre_mourir_edda_domain_authors} comporte deux distributions de

--- a/Contrastes/Contours.md
+++ b/Contrastes/Contours.md
@@ -116,8 +116,8 @@ supplémentaire au décompte.
 La chose la plus évidente lorsque l'on compare la figure
 \ref{fig:edda_words_by_domain_repartition} représentant le nombre de mots par
 domaine dans l'*EDdA* avec celui représentant le nombre d'articles pour la même
-partition (figure \ref{fig:edda_count_by_domain_repartition} p.
+[@=partition] \(figure \ref{fig:edda_count_by_domain_repartition}
-\pageref{fig:edda_count_by_domain_repartition}) est la faible importance
+p.\pageref{fig:edda_count_by_domain_repartition}) est la faible importance
 relative des articles de géographie en terme de taille. En nombre d'articles, la
 *Géographie* est très nettement le domaine le plus représenté avec plus de 20%
 des articles de l'*EDdA* qui lui sont consacrés, soit presque deux fois plus

--- a/Corpus/Application.md
+++ b/Corpus/Application.md
@@ -128,8 +128,8 @@ doute une exploration soigneuse.
 Les logiciels de textométrie utilisés dans les présents travaux prennent en
 entrée des fichiers au format XML-[@=TEI]. Le logiciel TXM [@heiden_txm_2010]
 permet ainsi d'explorer directement le corpus à partir de la version XML-[@=TEI]
-des deux œuvres et de faire des mesures de nombre de tokens, des œuvres ou de
+des deux œuvres et de faire des mesures de nombre de tokens des œuvres ou de
-leur partitions (notamment par domaine de connaissance, voir la section
+leur [@=partition]s (notamment par domaine de connaissance, voir la section
 \ref{sec:geo_size_metrics} à partir de la page \pageref{sec:geo_size_metrics}).
 L'extension intégrant l'étiqueteur TreeTagger[^treetagger] permet même d'accéder
 à des étiquettes morphosyntaxiques pour les tokens. En pratique, cette extension

--- a/Glossaire/partition.md
+++ b/Glossaire/partition.md
+est un concept fondamental pour les linguistiques de corpus. Il consiste à
+regrouper les textes d'un corpus en fonction de critères comme la valeur d'une
+métadonnée (typiquement année, auteur, genre littéraire) en vue de mettre en
+évidence des différences statistiquement significatives entre les groupes dans
+le cadre d'une étude contrastive. Les groupes doivent être disjoints (aucun
+article n'est dans deux partitions à la fois) et leur union égale au corpus
+entier (aucun article n'est dans aucun groupe). Le terme est utilisé aussi bien
+pour désigner une telle division (conjointement avec «partitionnement» dans ce
+cas) qu'un des groupes obtenus.
--- a/ÉdlA/Linguistique_de_corpus.md
+++ b/ÉdlA/Linguistique_de_corpus.md
@@ -135,10 +135,11 @@ des spécificités comme le fait remarquer @pincemin_semantique_2022[p.4]. Avant
 d'expliciter la notion de spécificité, il est utile de remarquer que la plupart
 des outils utilisés dans les linguistiques de corpus reposent sur des décomptes
 de différents objets avec une approche statistique. En creux, ces décomptes
-supposent un partitionnement: il s'agit de recenser les occurrences d'un
+supposent un découpage: il s'agit de recenser les occurrences d'un phénomène
-phénomène dans une partie du corpus par rapport aux autres pour dégager des
+dans une partie du corpus par rapport aux autres pour dégager des critères
-critères quantitatifs objectifs qui caractérisent cette partie. Cette approche
+quantitatifs objectifs qui caractérisent cette partie. Ce concept de
-contrastive est fondamentale dans l'ensemble de la discipline.
+[@=partition] est fondamental dans l'approche contrastive et dans l'ensemble de
+la discipline.
 Guiraud le premier, à la tête des stylisticiens [@leon_histoire_2015, p.129]
 remarque que «la linguistique est la science statistique type»
@@ -360,7 +361,7 @@ partage les textes suivant l'axe des disciplines en plus celui du temps,
 constitutif du corpus assemblé pour cette étude diachronique et qui distingue
 par construction les articles du XVIII^ème^ siècle issus de l'*EDdA* de ceux du
 XIX^ème^ provenant de *LGE*. En annotant les textes en morphosyntaxe et en
-syntaxe à l'aide d'autres méthodes d'[@=AA], ce double partitionnement rend
+syntaxe à l'aide d'autres méthodes d'[@=AA], ce double [@=partition]nement rend
 possible la conduite d'analyses contrastives. C'est ainsi que les méthodes des
 linguistiques de corpus décrites dans la présente section
 \ref{sec:EdlA_corpus_linguistics} sont utilisées au chapitre \ref{sec:contrasts}