diff --git a/Contrastes/Biographies.md b/Contrastes/Biographies.md index ba8a16b8c21c0b2a2942494aeedf65a081f39c64..d750038e1ec633dc2823fa7342f11d92515c1652 100644 --- a/Contrastes/Biographies.md +++ b/Contrastes/Biographies.md @@ -221,12 +221,12 @@ corpus. Ces deux lemmes inattendus se présentent donc comme des objets incontournables pour poursuivre l'exploration. Dans TXM [@heiden_txm_2010], on commence par se restreindre au sous-corpus ne contenant que les articles de l'*EDdA*, qu'on -partitionne par domaine de connaissance. L'outil «Index» paramétré pour compter -les lemmes et appliqué sur cette partition avec la requête CQL dont le code est -visible à l'extrait \ref{lst:cql_naitre_mourir} permet de compter les -occurrences des deux verbes «naître» et «mourir» dans le corpus. Un nombre +[@=partition]ne par domaine de connaissance. L'outil «Index» paramétré pour +compter les lemmes et appliqué sur cette [@=partition] avec la requête CQL dont +le code est visible à l'extrait \ref{lst:cql_naitre_mourir} permet de compter +les occurrences des deux verbes «naître» et «mourir» dans le corpus. Un nombre d'occurrence n'est en soi pas pertinent sans être rapporté à la taille des -différentes partitions. Le calcul des spécificités (voir la section +différentes [@=partition]s. Le calcul des spécificités (voir la section \ref{sec:EdlA_linguistic_tools} p.\pageref{sec:EdlA_linguistic_tools}) implémenté dans TXM opère cette traduction pour révéler la quantité d'information contenue dans la distribution de formes observées (à quel point @@ -242,18 +242,18 @@ Sur la figure \ref{fig:naitre_mourir_edda} qui montre le résultat de ces calculs, les deux lemmes apparaissent comme extrêmement spécifiques du domaine *Géographie*. Le verbe «mourir» obtient une spécificité supérieure à 318 ce qui exclut en pratique toute formation spontanée de cette distribution du -vocabulaire. La surreprésentation du lemme «naître» dans la même partition, +vocabulaire. La surreprésentation du lemme «naître» dans la même [@=partition], certes moindre que le précédent avec un score de «seulement» 84, ne peut pas non plus s'expliquer seulement par le hasard. En ce qui concerne les autres -partitions, le profil est tout autre: les deux lemmes sont très sous-représentés -dans toutes les autres domaines sauf *Philosophie* (mais où seul «naître» se -distingue, «mourir» reste peu significatif avec une spécificité de 1), *Histoire -Naturelle* (où «mourir» est même sous-spécifique) et *Beaux-arts* («mourir» et -«naître» y obtiennent des scores respectifs de 13 et 19, assez élevés pour -justifier éventuellement une étude séparée, mais tout de même nettement -inférieurs à ceux observés en *Géographie*). Les contenus biographiques semblent -donc bel et bien entretenir une relation particulière avec la *Géographie* dans -les pages de l'*EDdA*. +[@=partition]s, le profil est tout autre: les deux lemmes sont très +sous-représentés dans toutes les autres domaines sauf *Philosophie* (mais où +seul «naître» se distingue, «mourir» reste peu significatif avec une spécificité +de 1), *Histoire Naturelle* (où «mourir» est même sous-spécifique) et +*Beaux-arts* («mourir» et «naître» y obtiennent des scores respectifs de 13 et +19, assez élevés pour justifier éventuellement une étude séparée, mais tout de +même nettement inférieurs à ceux observés en *Géographie*). Les contenus +biographiques semblent donc bel et bien entretenir une relation particulière +avec la *Géographie* dans les pages de l'*EDdA*. {#fig:naitre_mourir_edda} @@ -261,10 +261,10 @@ l'*EDdA*](figure/histogram/textometry/EDdA/mourir_naitre.png){#fig:naitre_mourir L'étape suivante du raisonnement consiste naturellement à se demander si cette observation est propre à l'*EDdA* ou s'ils se généralisent à d'autres discours encyclopédiques. Pour répondre à cette question, on procède de la même façon en -partitionnant par domaine de connaissance le sous-corpus ne contenant que les -articles de *LGE* avant de calculer les spécificités des deux mêmes lemmes. Les -spécificités obtenues suivent un profil bien plus tranché, de nombreux domaines -obtenant pour les deux verbes des scores «saturés» (voir la section +[@=partition]nant par domaine de connaissance le sous-corpus ne contenant que +les articles de *LGE* avant de calculer les spécificités des deux mêmes lemmes. +Les spécificités obtenues suivent un profil bien plus tranché, de nombreux +domaines obtenant pour les deux verbes des scores «saturés» (voir la section \ref{textometry_specificity} p.\pageref{textometry_specificity} sur ce point), en positif ou en négatif, c'est-à -dire que les deux y sont «infiniment» spécifiques. Partout ailleurs, les spécificités sont négatives ou très faibles @@ -282,22 +282,23 @@ dans quelle mesure ils dépendent du style personnel des contributeurs de l'*EDdA*. En effet, le nom de Jaucourt revient fréquemment à propos de ce type d'inclusions auxquelles Diderot s'est opposé et dont il semble s'être parfois agacé [@laramee_production_2017, p.169]. Pour achever cette étude, on -partitionne donc cette fois le sous-corpus de l'*EDdA* suivant deux critères, -pour croiser à la fois les notions d'auteur et de domaine de connaissance. Pour -la première, il faut en effet pouvoir distinguer les écrits de Jaucourt, ceux de -Diderot, ceux des autres auteurs et ceux restés anonymes (pour lesquels il n'est -pas en tout rigueur possible d'écarter la possibilité qu'ils aient été écrit par -Jaucourt ou Diderot). Puisque certains articles résultent de la collaboration -entre plusieurs auteurs, il est nécessaire de traiter à part les quatre articles -écrits à la fois par Jaucourt et Diderot — les entrées CHANVRE (L'Encyclopédie, -T3, p.147), CHAUSSURE (L'Encyclopédie, T3, p.259), \textsc{Ere Philippique} -(L'Encyclopédie, T5, p.902) et JALOUSIE (L'Encyclopédie, T8, p.439). La notion -de domaine demande moins de finesse car, la surreprésentation écrasante des -lemmes «naître» et «mourir» en *Géographie* ayant déjà été établie, il suffit -pour chacune des configurations d'auteur(s) possibles de comparer leurs emplois -de ces deux verbes dans et hors de la *Géographie*. Comme aucun des quatre -articles écrits par Jaucourt et Diderot ensemble ne porte sur la *Géographie*, -la partition correspondant à cette configuration reste vide. +[@=partition]ne donc cette fois le sous-corpus de l'*EDdA* suivant deux +critères, pour croiser à la fois les notions d'auteur et de domaine de +connaissance. Pour la première, il faut en effet pouvoir distinguer les écrits +de Jaucourt, ceux de Diderot, ceux des autres auteurs et ceux restés anonymes +(pour lesquels il n'est pas en tout rigueur possible d'écarter la possibilité +qu'ils aient été écrit par Jaucourt ou Diderot). Puisque certains articles +résultent de la collaboration entre plusieurs auteurs, il est nécessaire de +traiter à part les quatre articles écrits à la fois par Jaucourt et +Diderot — les entrées CHANVRE (L'Encyclopédie, T3, p.147), CHAUSSURE +(L'Encyclopédie, T3, p.259), \textsc{Ere Philippique} (L'Encyclopédie, T5, +p.902) et JALOUSIE (L'Encyclopédie, T8, p.439). La notion de domaine demande +moins de finesse car, la surreprésentation écrasante des lemmes «naître» et +«mourir» en *Géographie* ayant déjà été établie, il suffit pour chacune des +configurations d'auteur(s) possibles de comparer leurs emplois de ces deux +verbes dans et hors de la *Géographie*. Comme aucun des quatre articles écrits +par Jaucourt et Diderot ensemble ne porte sur la *Géographie*, la [@=partition] +correspondant à cette configuration reste vide. Pour rendre compte des deux dimensions d'analyse simultanées, la figure \ref{fig:naitre_mourir_edda_domain_authors} comporte deux distributions de diff --git a/Contrastes/Contours.md b/Contrastes/Contours.md index d2b4048b00b0d5340100cab6b5a8a0fc86bea178..47ee8d2e5ac2ed86a492298299626929c6171847 100644 --- a/Contrastes/Contours.md +++ b/Contrastes/Contours.md @@ -116,8 +116,8 @@ supplémentaire au décompte. La chose la plus évidente lorsque l'on compare la figure \ref{fig:edda_words_by_domain_repartition} représentant le nombre de mots par domaine dans l'*EDdA* avec celui représentant le nombre d'articles pour la même -partition (figure \ref{fig:edda_count_by_domain_repartition} p. -\pageref{fig:edda_count_by_domain_repartition}) est la faible importance +[@=partition] \(figure \ref{fig:edda_count_by_domain_repartition} +p.\pageref{fig:edda_count_by_domain_repartition}) est la faible importance relative des articles de géographie en terme de taille. En nombre d'articles, la *Géographie* est très nettement le domaine le plus représenté avec plus de 20% des articles de l'*EDdA* qui lui sont consacrés, soit presque deux fois plus diff --git a/Corpus/Application.md b/Corpus/Application.md index 1928cce7a4c918d66807ff7efd06c3035eb33863..f9c73d7cd59dd5f989868c37db4d8cdbea257654 100644 --- a/Corpus/Application.md +++ b/Corpus/Application.md @@ -128,8 +128,8 @@ doute une exploration soigneuse. Les logiciels de textométrie utilisés dans les présents travaux prennent en entrée des fichiers au format XML-[@=TEI]. Le logiciel TXM [@heiden_txm_2010] permet ainsi d'explorer directement le corpus à partir de la version XML-[@=TEI] -des deux œuvres et de faire des mesures de nombre de tokens, des œuvres ou de -leur partitions (notamment par domaine de connaissance, voir la section +des deux œuvres et de faire des mesures de nombre de tokens des œuvres ou de +leur [@=partition]s (notamment par domaine de connaissance, voir la section \ref{sec:geo_size_metrics} à partir de la page \pageref{sec:geo_size_metrics}). L'extension intégrant l'étiqueteur TreeTagger[^treetagger] permet même d'accéder à des étiquettes morphosyntaxiques pour les tokens. En pratique, cette extension diff --git a/Glossaire/partition.md b/Glossaire/partition.md new file mode 100644 index 0000000000000000000000000000000000000000..4e1e33345fffeaa7be23abdde554a43715a71ed5 --- /dev/null +++ b/Glossaire/partition.md @@ -0,0 +1,9 @@ +est un concept fondamental pour les linguistiques de corpus. Il consiste à +regrouper les textes d'un corpus en fonction de critères comme la valeur d'une +métadonnée (typiquement année, auteur, genre littéraire) en vue de mettre en +évidence des différences statistiquement significatives entre les groupes dans +le cadre d'une étude contrastive. Les groupes doivent être disjoints (aucun +article n'est dans deux partitions à la fois) et leur union égale au corpus +entier (aucun article n'est dans aucun groupe). Le terme est utilisé aussi bien +pour désigner une telle division (conjointement avec «partitionnement» dans ce +cas) qu'un des groupes obtenus. diff --git "a/\303\211dlA/Linguistique_de_corpus.md" "b/\303\211dlA/Linguistique_de_corpus.md" index bafe3d6de769d35b6eb53184aa3b5c81d739eadf..a2428f340e00230a1c0c8cf911c6ef31e4feab3d 100644 --- "a/\303\211dlA/Linguistique_de_corpus.md" +++ "b/\303\211dlA/Linguistique_de_corpus.md" @@ -135,10 +135,11 @@ des spécificités comme le fait remarquer @pincemin_semantique_2022[p.4]. Avant d'expliciter la notion de spécificité, il est utile de remarquer que la plupart des outils utilisés dans les linguistiques de corpus reposent sur des décomptes de différents objets avec une approche statistique. En creux, ces décomptes -supposent un partitionnement: il s'agit de recenser les occurrences d'un -phénomène dans une partie du corpus par rapport aux autres pour dégager des -critères quantitatifs objectifs qui caractérisent cette partie. Cette approche -contrastive est fondamentale dans l'ensemble de la discipline. +supposent un découpage: il s'agit de recenser les occurrences d'un phénomène +dans une partie du corpus par rapport aux autres pour dégager des critères +quantitatifs objectifs qui caractérisent cette partie. Ce concept de +[@=partition] est fondamental dans l'approche contrastive et dans l'ensemble de +la discipline. Guiraud le premier, à la tête des stylisticiens [@leon_histoire_2015, p.129] remarque que «la linguistique est la science statistique type» @@ -360,7 +361,7 @@ partage les textes suivant l'axe des disciplines en plus celui du temps, constitutif du corpus assemblé pour cette étude diachronique et qui distingue par construction les articles du XVIII^ème^ siècle issus de l'*EDdA* de ceux du XIX^ème^ provenant de *LGE*. En annotant les textes en morphosyntaxe et en -syntaxe à l'aide d'autres méthodes d'[@=AA], ce double partitionnement rend +syntaxe à l'aide d'autres méthodes d'[@=AA], ce double [@=partition]nement rend possible la conduite d'analyses contrastives. C'est ainsi que les méthodes des linguistiques de corpus décrites dans la présente section \ref{sec:EdlA_corpus_linguistics} sont utilisées au chapitre \ref{sec:contrasts}