Skip to content
Snippets Groups Projects
Commit 08632db2 authored by Alice Brenon's avatar Alice Brenon
Browse files

Add a glossary entry for 'partition'

parent b603fbf1
No related branches found
No related tags found
No related merge requests found
......@@ -221,12 +221,12 @@ corpus.
Ces deux lemmes inattendus se présentent donc comme des objets incontournables
pour poursuivre l'exploration. Dans TXM [@heiden_txm_2010], on commence par se
restreindre au sous-corpus ne contenant que les articles de l'*EDdA*, qu'on
partitionne par domaine de connaissance. L'outil «Index» paramétré pour compter
les lemmes et appliqué sur cette partition avec la requête CQL dont le code est
visible à l'extrait \ref{lst:cql_naitre_mourir} permet de compter les
occurrences des deux verbes «naître» et «mourir» dans le corpus. Un nombre
[@=partition]ne par domaine de connaissance. L'outil «Index» paramétré pour
compter les lemmes et appliqué sur cette [@=partition] avec la requête CQL dont
le code est visible à l'extrait \ref{lst:cql_naitre_mourir} permet de compter
les occurrences des deux verbes «naître» et «mourir» dans le corpus. Un nombre
d'occurrence n'est en soi pas pertinent sans être rapporté à la taille des
différentes partitions. Le calcul des spécificités (voir la section
différentes [@=partition]s. Le calcul des spécificités (voir la section
\ref{sec:EdlA_linguistic_tools} p.\pageref{sec:EdlA_linguistic_tools})
implémenté dans TXM opère cette traduction pour révéler la quantité
d'information contenue dans la distribution de formes observées (à quel point
......@@ -242,18 +242,18 @@ Sur la figure \ref{fig:naitre_mourir_edda} qui montre le résultat de ces
calculs, les deux lemmes apparaissent comme extrêmement spécifiques du domaine
*Géographie*. Le verbe «mourir» obtient une spécificité supérieure à 318 ce qui
exclut en pratique toute formation spontanée de cette distribution du
vocabulaire. La surreprésentation du lemme «naître» dans la même partition,
vocabulaire. La surreprésentation du lemme «naître» dans la même [@=partition],
certes moindre que le précédent avec un score de «seulement» 84, ne peut pas non
plus s'expliquer seulement par le hasard. En ce qui concerne les autres
partitions, le profil est tout autre: les deux lemmes sont très sous-représentés
dans toutes les autres domaines sauf *Philosophie* (mais où seul «naître» se
distingue, «mourir» reste peu significatif avec une spécificité de 1), *Histoire
Naturelle* (où «mourir» est même sous-spécifique) et *Beaux-arts* («mourir» et
«naître» y obtiennent des scores respectifs de 13 et 19, assez élevés pour
justifier éventuellement une étude séparée, mais tout de même nettement
inférieurs à ceux observés en *Géographie*). Les contenus biographiques semblent
donc bel et bien entretenir une relation particulière avec la *Géographie* dans
les pages de l'*EDdA*.
[@=partition]s, le profil est tout autre: les deux lemmes sont très
sous-représentés dans toutes les autres domaines sauf *Philosophie* (mais où
seul «naître» se distingue, «mourir» reste peu significatif avec une spécificité
de 1), *Histoire Naturelle* (où «mourir» est même sous-spécifique) et
*Beaux-arts* («mourir» et «naître» y obtiennent des scores respectifs de 13 et
19, assez élevés pour justifier éventuellement une étude séparée, mais tout de
même nettement inférieurs à ceux observés en *Géographie*). Les contenus
biographiques semblent donc bel et bien entretenir une relation particulière
avec la *Géographie* dans les pages de l'*EDdA*.
![Spécificités des lemmes «naître» et «mourir» par superdomaine dans
l'*EDdA*](figure/histogram/textometry/EDdA/mourir_naitre.png){#fig:naitre_mourir_edda}
......@@ -261,10 +261,10 @@ l'*EDdA*](figure/histogram/textometry/EDdA/mourir_naitre.png){#fig:naitre_mourir
L'étape suivante du raisonnement consiste naturellement à se demander si cette
observation est propre à l'*EDdA* ou s'ils se généralisent à d'autres discours
encyclopédiques. Pour répondre à cette question, on procède de la même façon en
partitionnant par domaine de connaissance le sous-corpus ne contenant que les
articles de *LGE* avant de calculer les spécificités des deux mêmes lemmes. Les
spécificités obtenues suivent un profil bien plus tranché, de nombreux domaines
obtenant pour les deux verbes des scores «saturés» (voir la section
[@=partition]nant par domaine de connaissance le sous-corpus ne contenant que
les articles de *LGE* avant de calculer les spécificités des deux mêmes lemmes.
Les spécificités obtenues suivent un profil bien plus tranché, de nombreux
domaines obtenant pour les deux verbes des scores «saturés» (voir la section
\ref{textometry_specificity} p.\pageref{textometry_specificity} sur ce point),
en positif ou en négatif, c'est-à-dire que les deux y sont «infiniment»
spécifiques. Partout ailleurs, les spécificités sont négatives ou très faibles
......@@ -282,22 +282,23 @@ dans quelle mesure ils dépendent du style personnel des contributeurs de
l'*EDdA*. En effet, le nom de Jaucourt revient fréquemment à propos de ce type
d'inclusions auxquelles Diderot s'est opposé et dont il semble s'être parfois
agacé [@laramee_production_2017, p.169]. Pour achever cette étude, on
partitionne donc cette fois le sous-corpus de l'*EDdA* suivant deux critères,
pour croiser à la fois les notions d'auteur et de domaine de connaissance. Pour
la première, il faut en effet pouvoir distinguer les écrits de Jaucourt, ceux de
Diderot, ceux des autres auteurs et ceux restés anonymes (pour lesquels il n'est
pas en tout rigueur possible d'écarter la possibilité qu'ils aient été écrit par
Jaucourt ou Diderot). Puisque certains articles résultent de la collaboration
entre plusieurs auteurs, il est nécessaire de traiter à part les quatre articles
écrits à la fois par Jaucourt et Diderot — les entrées CHANVRE (L'Encyclopédie,
T3, p.147), CHAUSSURE (L'Encyclopédie, T3, p.259), \textsc{Ere Philippique}
(L'Encyclopédie, T5, p.902) et JALOUSIE (L'Encyclopédie, T8, p.439). La notion
de domaine demande moins de finesse car, la surreprésentation écrasante des
lemmes «naître» et «mourir» en *Géographie* ayant déjà été établie, il suffit
pour chacune des configurations d'auteur(s) possibles de comparer leurs emplois
de ces deux verbes dans et hors de la *Géographie*. Comme aucun des quatre
articles écrits par Jaucourt et Diderot ensemble ne porte sur la *Géographie*,
la partition correspondant à cette configuration reste vide.
[@=partition]ne donc cette fois le sous-corpus de l'*EDdA* suivant deux
critères, pour croiser à la fois les notions d'auteur et de domaine de
connaissance. Pour la première, il faut en effet pouvoir distinguer les écrits
de Jaucourt, ceux de Diderot, ceux des autres auteurs et ceux restés anonymes
(pour lesquels il n'est pas en tout rigueur possible d'écarter la possibilité
qu'ils aient été écrit par Jaucourt ou Diderot). Puisque certains articles
résultent de la collaboration entre plusieurs auteurs, il est nécessaire de
traiter à part les quatre articles écrits à la fois par Jaucourt et
Diderot — les entrées CHANVRE (L'Encyclopédie, T3, p.147), CHAUSSURE
(L'Encyclopédie, T3, p.259), \textsc{Ere Philippique} (L'Encyclopédie, T5,
p.902) et JALOUSIE (L'Encyclopédie, T8, p.439). La notion de domaine demande
moins de finesse car, la surreprésentation écrasante des lemmes «naître» et
«mourir» en *Géographie* ayant déjà été établie, il suffit pour chacune des
configurations d'auteur(s) possibles de comparer leurs emplois de ces deux
verbes dans et hors de la *Géographie*. Comme aucun des quatre articles écrits
par Jaucourt et Diderot ensemble ne porte sur la *Géographie*, la [@=partition]
correspondant à cette configuration reste vide.
Pour rendre compte des deux dimensions d'analyse simultanées, la figure
\ref{fig:naitre_mourir_edda_domain_authors} comporte deux distributions de
......
......@@ -116,8 +116,8 @@ supplémentaire au décompte.
La chose la plus évidente lorsque l'on compare la figure
\ref{fig:edda_words_by_domain_repartition} représentant le nombre de mots par
domaine dans l'*EDdA* avec celui représentant le nombre d'articles pour la même
partition (figure \ref{fig:edda_count_by_domain_repartition} p.
\pageref{fig:edda_count_by_domain_repartition}) est la faible importance
[@=partition] \(figure \ref{fig:edda_count_by_domain_repartition}
p.\pageref{fig:edda_count_by_domain_repartition}) est la faible importance
relative des articles de géographie en terme de taille. En nombre d'articles, la
*Géographie* est très nettement le domaine le plus représenté avec plus de 20%
des articles de l'*EDdA* qui lui sont consacrés, soit presque deux fois plus
......
......@@ -128,8 +128,8 @@ doute une exploration soigneuse.
Les logiciels de textométrie utilisés dans les présents travaux prennent en
entrée des fichiers au format XML-[@=TEI]. Le logiciel TXM [@heiden_txm_2010]
permet ainsi d'explorer directement le corpus à partir de la version XML-[@=TEI]
des deux œuvres et de faire des mesures de nombre de tokens, des œuvres ou de
leur partitions (notamment par domaine de connaissance, voir la section
des deux œuvres et de faire des mesures de nombre de tokens des œuvres ou de
leur [@=partition]s (notamment par domaine de connaissance, voir la section
\ref{sec:geo_size_metrics} à partir de la page \pageref{sec:geo_size_metrics}).
L'extension intégrant l'étiqueteur TreeTagger[^treetagger] permet même d'accéder
à des étiquettes morphosyntaxiques pour les tokens. En pratique, cette extension
......
est un concept fondamental pour les linguistiques de corpus. Il consiste à
regrouper les textes d'un corpus en fonction de critères comme la valeur d'une
métadonnée (typiquement année, auteur, genre littéraire) en vue de mettre en
évidence des différences statistiquement significatives entre les groupes dans
le cadre d'une étude contrastive. Les groupes doivent être disjoints (aucun
article n'est dans deux partitions à la fois) et leur union égale au corpus
entier (aucun article n'est dans aucun groupe). Le terme est utilisé aussi bien
pour désigner une telle division (conjointement avec «partitionnement» dans ce
cas) qu'un des groupes obtenus.
......@@ -135,10 +135,11 @@ des spécificités comme le fait remarquer @pincemin_semantique_2022[p.4]. Avant
d'expliciter la notion de spécificité, il est utile de remarquer que la plupart
des outils utilisés dans les linguistiques de corpus reposent sur des décomptes
de différents objets avec une approche statistique. En creux, ces décomptes
supposent un partitionnement: il s'agit de recenser les occurrences d'un
phénomène dans une partie du corpus par rapport aux autres pour dégager des
critères quantitatifs objectifs qui caractérisent cette partie. Cette approche
contrastive est fondamentale dans l'ensemble de la discipline.
supposent un découpage: il s'agit de recenser les occurrences d'un phénomène
dans une partie du corpus par rapport aux autres pour dégager des critères
quantitatifs objectifs qui caractérisent cette partie. Ce concept de
[@=partition] est fondamental dans l'approche contrastive et dans l'ensemble de
la discipline.
Guiraud le premier, à la tête des stylisticiens [@leon_histoire_2015, p.129]
remarque que «la linguistique est la science statistique type»
......@@ -360,7 +361,7 @@ partage les textes suivant l'axe des disciplines en plus celui du temps,
constitutif du corpus assemblé pour cette étude diachronique et qui distingue
par construction les articles du XVIII^ème^ siècle issus de l'*EDdA* de ceux du
XIX^ème^ provenant de *LGE*. En annotant les textes en morphosyntaxe et en
syntaxe à l'aide d'autres méthodes d'[@=AA], ce double partitionnement rend
syntaxe à l'aide d'autres méthodes d'[@=AA], ce double [@=partition]nement rend
possible la conduite d'analyses contrastives. C'est ainsi que les méthodes des
linguistiques de corpus décrites dans la présente section
\ref{sec:EdlA_corpus_linguistics} sont utilisées au chapitre \ref{sec:contrasts}
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment