Skip to content
Snippets Groups Projects
Commit 08632db2 authored by Alice Brenon's avatar Alice Brenon
Browse files

Add a glossary entry for 'partition'

parent b603fbf1
No related branches found
No related tags found
No related merge requests found
...@@ -221,12 +221,12 @@ corpus. ...@@ -221,12 +221,12 @@ corpus.
Ces deux lemmes inattendus se présentent donc comme des objets incontournables Ces deux lemmes inattendus se présentent donc comme des objets incontournables
pour poursuivre l'exploration. Dans TXM [@heiden_txm_2010], on commence par se pour poursuivre l'exploration. Dans TXM [@heiden_txm_2010], on commence par se
restreindre au sous-corpus ne contenant que les articles de l'*EDdA*, qu'on restreindre au sous-corpus ne contenant que les articles de l'*EDdA*, qu'on
partitionne par domaine de connaissance. L'outil «Index» paramétré pour compter [@=partition]ne par domaine de connaissance. L'outil «Index» paramétré pour
les lemmes et appliqué sur cette partition avec la requête CQL dont le code est compter les lemmes et appliqué sur cette [@=partition] avec la requête CQL dont
visible à l'extrait \ref{lst:cql_naitre_mourir} permet de compter les le code est visible à l'extrait \ref{lst:cql_naitre_mourir} permet de compter
occurrences des deux verbes «naître» et «mourir» dans le corpus. Un nombre les occurrences des deux verbes «naître» et «mourir» dans le corpus. Un nombre
d'occurrence n'est en soi pas pertinent sans être rapporté à la taille des d'occurrence n'est en soi pas pertinent sans être rapporté à la taille des
différentes partitions. Le calcul des spécificités (voir la section différentes [@=partition]s. Le calcul des spécificités (voir la section
\ref{sec:EdlA_linguistic_tools} p.\pageref{sec:EdlA_linguistic_tools}) \ref{sec:EdlA_linguistic_tools} p.\pageref{sec:EdlA_linguistic_tools})
implémenté dans TXM opère cette traduction pour révéler la quantité implémenté dans TXM opère cette traduction pour révéler la quantité
d'information contenue dans la distribution de formes observées (à quel point d'information contenue dans la distribution de formes observées (à quel point
...@@ -242,18 +242,18 @@ Sur la figure \ref{fig:naitre_mourir_edda} qui montre le résultat de ces ...@@ -242,18 +242,18 @@ Sur la figure \ref{fig:naitre_mourir_edda} qui montre le résultat de ces
calculs, les deux lemmes apparaissent comme extrêmement spécifiques du domaine calculs, les deux lemmes apparaissent comme extrêmement spécifiques du domaine
*Géographie*. Le verbe «mourir» obtient une spécificité supérieure à 318 ce qui *Géographie*. Le verbe «mourir» obtient une spécificité supérieure à 318 ce qui
exclut en pratique toute formation spontanée de cette distribution du exclut en pratique toute formation spontanée de cette distribution du
vocabulaire. La surreprésentation du lemme «naître» dans la même partition, vocabulaire. La surreprésentation du lemme «naître» dans la même [@=partition],
certes moindre que le précédent avec un score de «seulement» 84, ne peut pas non certes moindre que le précédent avec un score de «seulement» 84, ne peut pas non
plus s'expliquer seulement par le hasard. En ce qui concerne les autres plus s'expliquer seulement par le hasard. En ce qui concerne les autres
partitions, le profil est tout autre: les deux lemmes sont très sous-représentés [@=partition]s, le profil est tout autre: les deux lemmes sont très
dans toutes les autres domaines sauf *Philosophie* (mais où seul «naître» se sous-représentés dans toutes les autres domaines sauf *Philosophie* (mais où
distingue, «mourir» reste peu significatif avec une spécificité de 1), *Histoire seul «naître» se distingue, «mourir» reste peu significatif avec une spécificité
Naturelle* (où «mourir» est même sous-spécifique) et *Beaux-arts* («mourir» et de 1), *Histoire Naturelle* (où «mourir» est même sous-spécifique) et
«naître» y obtiennent des scores respectifs de 13 et 19, assez élevés pour *Beaux-arts* («mourir» et «naître» y obtiennent des scores respectifs de 13 et
justifier éventuellement une étude séparée, mais tout de même nettement 19, assez élevés pour justifier éventuellement une étude séparée, mais tout de
inférieurs à ceux observés en *Géographie*). Les contenus biographiques semblent même nettement inférieurs à ceux observés en *Géographie*). Les contenus
donc bel et bien entretenir une relation particulière avec la *Géographie* dans biographiques semblent donc bel et bien entretenir une relation particulière
les pages de l'*EDdA*. avec la *Géographie* dans les pages de l'*EDdA*.
![Spécificités des lemmes «naître» et «mourir» par superdomaine dans ![Spécificités des lemmes «naître» et «mourir» par superdomaine dans
l'*EDdA*](figure/histogram/textometry/EDdA/mourir_naitre.png){#fig:naitre_mourir_edda} l'*EDdA*](figure/histogram/textometry/EDdA/mourir_naitre.png){#fig:naitre_mourir_edda}
...@@ -261,10 +261,10 @@ l'*EDdA*](figure/histogram/textometry/EDdA/mourir_naitre.png){#fig:naitre_mourir ...@@ -261,10 +261,10 @@ l'*EDdA*](figure/histogram/textometry/EDdA/mourir_naitre.png){#fig:naitre_mourir
L'étape suivante du raisonnement consiste naturellement à se demander si cette L'étape suivante du raisonnement consiste naturellement à se demander si cette
observation est propre à l'*EDdA* ou s'ils se généralisent à d'autres discours observation est propre à l'*EDdA* ou s'ils se généralisent à d'autres discours
encyclopédiques. Pour répondre à cette question, on procède de la même façon en encyclopédiques. Pour répondre à cette question, on procède de la même façon en
partitionnant par domaine de connaissance le sous-corpus ne contenant que les [@=partition]nant par domaine de connaissance le sous-corpus ne contenant que
articles de *LGE* avant de calculer les spécificités des deux mêmes lemmes. Les les articles de *LGE* avant de calculer les spécificités des deux mêmes lemmes.
spécificités obtenues suivent un profil bien plus tranché, de nombreux domaines Les spécificités obtenues suivent un profil bien plus tranché, de nombreux
obtenant pour les deux verbes des scores «saturés» (voir la section domaines obtenant pour les deux verbes des scores «saturés» (voir la section
\ref{textometry_specificity} p.\pageref{textometry_specificity} sur ce point), \ref{textometry_specificity} p.\pageref{textometry_specificity} sur ce point),
en positif ou en négatif, c'est-à-dire que les deux y sont «infiniment» en positif ou en négatif, c'est-à-dire que les deux y sont «infiniment»
spécifiques. Partout ailleurs, les spécificités sont négatives ou très faibles spécifiques. Partout ailleurs, les spécificités sont négatives ou très faibles
...@@ -282,22 +282,23 @@ dans quelle mesure ils dépendent du style personnel des contributeurs de ...@@ -282,22 +282,23 @@ dans quelle mesure ils dépendent du style personnel des contributeurs de
l'*EDdA*. En effet, le nom de Jaucourt revient fréquemment à propos de ce type l'*EDdA*. En effet, le nom de Jaucourt revient fréquemment à propos de ce type
d'inclusions auxquelles Diderot s'est opposé et dont il semble s'être parfois d'inclusions auxquelles Diderot s'est opposé et dont il semble s'être parfois
agacé [@laramee_production_2017, p.169]. Pour achever cette étude, on agacé [@laramee_production_2017, p.169]. Pour achever cette étude, on
partitionne donc cette fois le sous-corpus de l'*EDdA* suivant deux critères, [@=partition]ne donc cette fois le sous-corpus de l'*EDdA* suivant deux
pour croiser à la fois les notions d'auteur et de domaine de connaissance. Pour critères, pour croiser à la fois les notions d'auteur et de domaine de
la première, il faut en effet pouvoir distinguer les écrits de Jaucourt, ceux de connaissance. Pour la première, il faut en effet pouvoir distinguer les écrits
Diderot, ceux des autres auteurs et ceux restés anonymes (pour lesquels il n'est de Jaucourt, ceux de Diderot, ceux des autres auteurs et ceux restés anonymes
pas en tout rigueur possible d'écarter la possibilité qu'ils aient été écrit par (pour lesquels il n'est pas en tout rigueur possible d'écarter la possibilité
Jaucourt ou Diderot). Puisque certains articles résultent de la collaboration qu'ils aient été écrit par Jaucourt ou Diderot). Puisque certains articles
entre plusieurs auteurs, il est nécessaire de traiter à part les quatre articles résultent de la collaboration entre plusieurs auteurs, il est nécessaire de
écrits à la fois par Jaucourt et Diderot — les entrées CHANVRE (L'Encyclopédie, traiter à part les quatre articles écrits à la fois par Jaucourt et
T3, p.147), CHAUSSURE (L'Encyclopédie, T3, p.259), \textsc{Ere Philippique} Diderot — les entrées CHANVRE (L'Encyclopédie, T3, p.147), CHAUSSURE
(L'Encyclopédie, T5, p.902) et JALOUSIE (L'Encyclopédie, T8, p.439). La notion (L'Encyclopédie, T3, p.259), \textsc{Ere Philippique} (L'Encyclopédie, T5,
de domaine demande moins de finesse car, la surreprésentation écrasante des p.902) et JALOUSIE (L'Encyclopédie, T8, p.439). La notion de domaine demande
lemmes «naître» et «mourir» en *Géographie* ayant déjà été établie, il suffit moins de finesse car, la surreprésentation écrasante des lemmes «naître» et
pour chacune des configurations d'auteur(s) possibles de comparer leurs emplois «mourir» en *Géographie* ayant déjà été établie, il suffit pour chacune des
de ces deux verbes dans et hors de la *Géographie*. Comme aucun des quatre configurations d'auteur(s) possibles de comparer leurs emplois de ces deux
articles écrits par Jaucourt et Diderot ensemble ne porte sur la *Géographie*, verbes dans et hors de la *Géographie*. Comme aucun des quatre articles écrits
la partition correspondant à cette configuration reste vide. par Jaucourt et Diderot ensemble ne porte sur la *Géographie*, la [@=partition]
correspondant à cette configuration reste vide.
Pour rendre compte des deux dimensions d'analyse simultanées, la figure Pour rendre compte des deux dimensions d'analyse simultanées, la figure
\ref{fig:naitre_mourir_edda_domain_authors} comporte deux distributions de \ref{fig:naitre_mourir_edda_domain_authors} comporte deux distributions de
......
...@@ -116,8 +116,8 @@ supplémentaire au décompte. ...@@ -116,8 +116,8 @@ supplémentaire au décompte.
La chose la plus évidente lorsque l'on compare la figure La chose la plus évidente lorsque l'on compare la figure
\ref{fig:edda_words_by_domain_repartition} représentant le nombre de mots par \ref{fig:edda_words_by_domain_repartition} représentant le nombre de mots par
domaine dans l'*EDdA* avec celui représentant le nombre d'articles pour la même domaine dans l'*EDdA* avec celui représentant le nombre d'articles pour la même
partition (figure \ref{fig:edda_count_by_domain_repartition} p. [@=partition] \(figure \ref{fig:edda_count_by_domain_repartition}
\pageref{fig:edda_count_by_domain_repartition}) est la faible importance p.\pageref{fig:edda_count_by_domain_repartition}) est la faible importance
relative des articles de géographie en terme de taille. En nombre d'articles, la relative des articles de géographie en terme de taille. En nombre d'articles, la
*Géographie* est très nettement le domaine le plus représenté avec plus de 20% *Géographie* est très nettement le domaine le plus représenté avec plus de 20%
des articles de l'*EDdA* qui lui sont consacrés, soit presque deux fois plus des articles de l'*EDdA* qui lui sont consacrés, soit presque deux fois plus
......
...@@ -128,8 +128,8 @@ doute une exploration soigneuse. ...@@ -128,8 +128,8 @@ doute une exploration soigneuse.
Les logiciels de textométrie utilisés dans les présents travaux prennent en Les logiciels de textométrie utilisés dans les présents travaux prennent en
entrée des fichiers au format XML-[@=TEI]. Le logiciel TXM [@heiden_txm_2010] entrée des fichiers au format XML-[@=TEI]. Le logiciel TXM [@heiden_txm_2010]
permet ainsi d'explorer directement le corpus à partir de la version XML-[@=TEI] permet ainsi d'explorer directement le corpus à partir de la version XML-[@=TEI]
des deux œuvres et de faire des mesures de nombre de tokens, des œuvres ou de des deux œuvres et de faire des mesures de nombre de tokens des œuvres ou de
leur partitions (notamment par domaine de connaissance, voir la section leur [@=partition]s (notamment par domaine de connaissance, voir la section
\ref{sec:geo_size_metrics} à partir de la page \pageref{sec:geo_size_metrics}). \ref{sec:geo_size_metrics} à partir de la page \pageref{sec:geo_size_metrics}).
L'extension intégrant l'étiqueteur TreeTagger[^treetagger] permet même d'accéder L'extension intégrant l'étiqueteur TreeTagger[^treetagger] permet même d'accéder
à des étiquettes morphosyntaxiques pour les tokens. En pratique, cette extension à des étiquettes morphosyntaxiques pour les tokens. En pratique, cette extension
......
est un concept fondamental pour les linguistiques de corpus. Il consiste à
regrouper les textes d'un corpus en fonction de critères comme la valeur d'une
métadonnée (typiquement année, auteur, genre littéraire) en vue de mettre en
évidence des différences statistiquement significatives entre les groupes dans
le cadre d'une étude contrastive. Les groupes doivent être disjoints (aucun
article n'est dans deux partitions à la fois) et leur union égale au corpus
entier (aucun article n'est dans aucun groupe). Le terme est utilisé aussi bien
pour désigner une telle division (conjointement avec «partitionnement» dans ce
cas) qu'un des groupes obtenus.
...@@ -135,10 +135,11 @@ des spécificités comme le fait remarquer @pincemin_semantique_2022[p.4]. Avant ...@@ -135,10 +135,11 @@ des spécificités comme le fait remarquer @pincemin_semantique_2022[p.4]. Avant
d'expliciter la notion de spécificité, il est utile de remarquer que la plupart d'expliciter la notion de spécificité, il est utile de remarquer que la plupart
des outils utilisés dans les linguistiques de corpus reposent sur des décomptes des outils utilisés dans les linguistiques de corpus reposent sur des décomptes
de différents objets avec une approche statistique. En creux, ces décomptes de différents objets avec une approche statistique. En creux, ces décomptes
supposent un partitionnement: il s'agit de recenser les occurrences d'un supposent un découpage: il s'agit de recenser les occurrences d'un phénomène
phénomène dans une partie du corpus par rapport aux autres pour dégager des dans une partie du corpus par rapport aux autres pour dégager des critères
critères quantitatifs objectifs qui caractérisent cette partie. Cette approche quantitatifs objectifs qui caractérisent cette partie. Ce concept de
contrastive est fondamentale dans l'ensemble de la discipline. [@=partition] est fondamental dans l'approche contrastive et dans l'ensemble de
la discipline.
Guiraud le premier, à la tête des stylisticiens [@leon_histoire_2015, p.129] Guiraud le premier, à la tête des stylisticiens [@leon_histoire_2015, p.129]
remarque que «la linguistique est la science statistique type» remarque que «la linguistique est la science statistique type»
...@@ -360,7 +361,7 @@ partage les textes suivant l'axe des disciplines en plus celui du temps, ...@@ -360,7 +361,7 @@ partage les textes suivant l'axe des disciplines en plus celui du temps,
constitutif du corpus assemblé pour cette étude diachronique et qui distingue constitutif du corpus assemblé pour cette étude diachronique et qui distingue
par construction les articles du XVIII^ème^ siècle issus de l'*EDdA* de ceux du par construction les articles du XVIII^ème^ siècle issus de l'*EDdA* de ceux du
XIX^ème^ provenant de *LGE*. En annotant les textes en morphosyntaxe et en XIX^ème^ provenant de *LGE*. En annotant les textes en morphosyntaxe et en
syntaxe à l'aide d'autres méthodes d'[@=AA], ce double partitionnement rend syntaxe à l'aide d'autres méthodes d'[@=AA], ce double [@=partition]nement rend
possible la conduite d'analyses contrastives. C'est ainsi que les méthodes des possible la conduite d'analyses contrastives. C'est ainsi que les méthodes des
linguistiques de corpus décrites dans la présente section linguistiques de corpus décrites dans la présente section
\ref{sec:EdlA_corpus_linguistics} sont utilisées au chapitre \ref{sec:contrasts} \ref{sec:EdlA_corpus_linguistics} sont utilisées au chapitre \ref{sec:contrasts}
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment