diff --git a/Classification/Application.md b/Classification/Application.md index c14736b7aa2504ff38a9b6923db0fc76ac245248..a29acd672c5e9402018edc71b133d56299b947e5 100644 --- a/Classification/Application.md +++ b/Classification/Application.md @@ -639,7 +639,7 @@ des nombres d'articles de *LGE* par superdomaine est donnée par la figure \label{fig:lge_count_by_domain_repartition} \end{figure} -Cette section conclue les travaux en classification automatique effectués dans +Cette section conclut les travaux en classification automatique effectués dans le cadre de cette thèse. La comparaison de classifieurs opérée à la section \ref{sec:classifiers_comparison} a montré la pertinence de l'emploi d'un modèle de type *BERT* pour appliquer une classification en domaine aux articles. Plus diff --git a/Classification/Relations.md b/Classification/Relations.md index b070ae60d069b25b7428f087063cbc1e0cb63c5c..732494f97ee41e6466706d590d031d57299f5174 100644 --- a/Classification/Relations.md +++ b/Classification/Relations.md @@ -224,7 +224,7 @@ atteindre 0 après quelques classes (ce qui traduit la certitude d'après le modèle que l'article ne relève pas des classes suivantes): il est remarquable que pour ROCHER le modèle attribue une vraisemblance non nulle à 16 classes différentes, traduisant l'ambiguïté d'un article très pauvre en éléments -distinctifs et difficile à situer parmi les domaines de connaissances. Après +distinctifs et difficile à situer parmi les domaines de connaissance. Après *Géographie*, le modèle propose ainsi dans l'ordre la *Grammaire* (17%, ce qui correspondrait au premier type de faux négatifs des «faux multiclasses» identifiés plus haut si l'on conduisait pour la *Grammaire* l'étude conduite ici diff --git a/Classification/text.sh b/Classification/text.sh index dec33e6ee0d49d158d8707f644fd8843c8f6f001..c27a39015f6cdaddcf84a273327a7d2fb806913d 100755 --- a/Classification/text.sh +++ b/Classification/text.sh @@ -1,6 +1,6 @@ #!/bin/sh -source ./chapter.sh 'Classification automatique en domaines de connaissances {#sec:domains_classification}' +source ./chapter.sh 'Classification automatique en domaines de connaissance {#sec:domains_classification}' cat Classification/Introduction.md cat Classification/Models.md diff --git a/Conclusion/Bilan.md b/Conclusion/Bilan.md index d3cfc9696d6469bc81a8d2f6256cc03b50ad51f6..ddc6ea8b4a5daef1c04f9c15b365c6bb8046f5ed 100644 --- a/Conclusion/Bilan.md +++ b/Conclusion/Bilan.md @@ -16,7 +16,7 @@ concentration d'abréviations dans la plupart des entrées de la classe Mais ce seul fait ne doit pas occulter la finesse des mouvements contraires et simultanés auquels la Géographie est sujette. -En premier lieu, la ressemblance entre la classe *Géographie* et les autres +En premier lieu, la ressemblance entre la *Géographie* et les autres classe s'accentue entre l'*EDdA* et *LGE*. Cela se manifeste par exemple au niveau de la distribution du nombre de mot par article, bien plus similaire à celle des autres domaines de connaissance dans la partie du corpus correspondant à *LGE* @@ -26,11 +26,11 @@ apparaissent dans le domaine, particulièrement bref par contraste dans l'*EDdA* Une autre conséquence de ces rapprochements peut s'observer en considérant les occurrences d'[@=EN] comme le fait la section \ref{sec:geo_named_entities} (p.\pageref{sec:geo_named_entities}). Alors que les philosophes des Lumières -emploient surtout les [@=EN] dans les articles de la classe *Géographie*, le profil -d'utilisation des différents types relevés dans l'annotation géo-sémantique des -articles s'harmonise entre les disciplines. Les noms propres de lieu en -particulier (NP-Spatial) se propagent dans une certaine mesure aux autres -domaines. +emploient surtout les [@=EN] dans les articles de la classe *Géographie*, le +profil d'utilisation des différents types relevés dans l'annotation +géo-sémantique des articles s'harmonise entre les disciplines. Les noms propres +de lieu en particulier (NP-Spatial) se propagent dans une certaine mesure aux +autres domaines. Simultanément, la Géographie semble aussi se cloisonner. La très large majorité des articles du domaine dans l'*EDdA* étaient extrêmements brefs et constitués diff --git a/Conclusion/Ouverture.md b/Conclusion/Ouverture.md index 4cf56ac746b0b9ba10807fdba8e5ba8357cddddc..71de456d03bd129d8ba94dbfb8a573df9b39809c 100644 --- a/Conclusion/Ouverture.md +++ b/Conclusion/Ouverture.md @@ -3,7 +3,7 @@ Au-delà des résultats discutés dans la section précédente, les présents travaux ont également permis de dégager des pistes prometteuses pour de futures recherches. Il s'agit pour une part d'améliorations techniques car les logiciels -peuvent bien sûr toujours être perfectionnées sans fin mais ces nouveaux chemins +peuvent bien sûr toujours être perfectionnés sans fin mais ces nouveaux chemins à explorer ne se limitent pas à des détails d'implémentation. Les méthodes utilisées dans le cadre de cette thèse pourraient trouver des applications sur d'autres corpus et, de plus, les données produites pourraient intéresser des @@ -74,8 +74,8 @@ contextes. L'algorithme d'appariement utilisé reste pour l'instant assez naïf il y a sans doute des gains significatifs à obtenir en définissant des méthodes de désambiguïsation plus fines pour permettre de considérer des vedettes proches mais pas rigoureusement identiques, voire pour trouver des paires parmi des -groupes d'articles homonymes. Si la taille du sous-corpus Parallèle ne jouait -pas un rôle déterminant dans l'utilisation qui en est faite dans cette étude, +groupes d'articles homonymes. La taille du sous-corpus Parallèle ne jouait pas +un rôle déterminant dans l'utilisation qui en est faite dans cette étude, mais augmenter sa couverture ouvrirait la porte à des études plus quantitatives. Il pourrait aussi s'avérer utile pour étudier les variations diachroniques au sein d'autres domaines de connaissance. @@ -115,8 +115,8 @@ curiosité et feraient probablement des sujets de recherches passionnants. Les biographies occupent une part substantielle de l'œuvre mais sont à peine mentionnées dans l'Avant-Propos (La Grande Encyclopédie, T1, p.XIII). Classées -dans ces travaux en fonction de la discipline où la personne décrite s'est -illustrée ou en *Histoire*, elles restent à ce jour non répertoriées. La +dans ces travaux en *Histoire* ou bien en fonction de la discipline où la +personne décrite s'est illustrée, elles restent à ce jour non répertoriées. La présence du prénom de la personne en lieu et place du désignant (voir la section \ref{sec:knowledge_domains}) fournit un indice précieux pour les identifier et pourrait sans doute également permettre de discerner le genre de la personne @@ -159,8 +159,8 @@ dans des sections réservées à la démographie et à l'économie des articles *Géographie* semble à première vue concerner autant des pays d'Europe (dont la France elle-même) que des colonies mais la nature des statistiques rapportées pourrait différer suivant les lieux. En revanche, la description des populations -colonisées diffère de manière bien plus visible et est révélatrice de la vision -du monde de l'époque basée sur la notion de «race». Les nombre d'habitants sont +colonisées se distingue de manière bien plus nette et révèle une vision du monde +basée sur une notion de «races» hiérarchisées. Les nombre d'habitants sont souvent partitionnés suivant ce critère, par exemple aux articles PHILIPPEVILLE (La Grande Encyclopédie, T26, p.676) — ancien nom de la ville de Skikda — et ZANZIBAR (La Grande Encyclopédie, T31, p.1305). D'autres articles comme CANAQUES @@ -179,7 +179,7 @@ avec l'esprit républicain de l'époque qui transparaît par ailleurs le reste d l'œuvre. Il faut donc espérer que d'autres s'empareront des myriades de questions qui -subsistent dans les pages de *LGE*. Ces recherches rendront assurément au -centuple en émerveillement et en découvertes les efforts déployés pour les -atteindre, comme elles l'ont fait pour cette thèse. +subsistent dans les pages de *LGE*. Ces recherches rendront assurément les +efforts déployés au centuple, en émerveillement et en découvertes, comme elles +l'ont fait pour cette thèse. diff --git a/Contrastes/Biographies.md b/Contrastes/Biographies.md index 55af8768f524c9160bdf09fe2e452ca602a6381e..5b2d4cb64d7d89047a50113dc7c5ea263da4eaa6 100644 --- a/Contrastes/Biographies.md +++ b/Contrastes/Biographies.md @@ -98,16 +98,260 @@ Géographie de l'*EDdA* pour écrire des Biographies». ### Deux lemmes inattendus +Les réflexions préliminaires de cette section amènent d'abord à examiner les +relations entre la biographie et les différents domaines de connaissance pour +déterminer si les contenus biographiques sont réellement plus présents dans la +Géographie ou si ce n'est qu'une impression donnée par le fait que les exemples +connus de contenus biographiques dans l'*EDdA* apparaissent tous dans cette +discipline. En partant du cas de WOLSTROPE (L'Encyclopédie, T17, p.630), qui +utilise sa ville de naissance pour parler de Newton, il est naturel de prendre +la notion de ville comme point de départ. L'étude des cooccurrents syntaxiques +offre la possibilité de voir les constructions dans lequelles le terme «ville» +est utilisé. + +Dans le Lexicoscope [@kraif_lexicoscope_2016], une requête sur le lemme «ville» +(formulée en langage TQL[^tql] dans le code source \ref{lst:tql_ville}) peut +être utilisée pour mesurer les scores d'associations avec ce lemme des +différents tokens possibles. + +\begin{lstlisting}[caption=Requête TQL sur le lemme «ville» annoté \texttt{NOUN} +(nom commun), label=lst:tql_ville] +<l=ville,c=NOUN,#1> +\end{lstlisting} + +[^tql]: + [http://phraseotext.univ-grenoble-alpes.fr/lexicoscope_beta/doc/Reference%20TQL.fr.pdf](http://phraseotext.univ-grenoble-alpes.fr/lexicoscope_beta/doc/Reference%20TQL.fr.pdf) + +La figure \ref{fig:ville_lemma_geode} représente l'histogramme des dix mesures +les plus élevées obtenues pour cette requête. Sur cette figure, le déterminant +«ce» apparaît comme cooccurrent principal de «ville». Il est intéressant de +constater qu'il obtient même un score d'association (22 958) supérieur à celui +de l'adjectif «natal» (18 773): alors que la nature d'un déterminant fait qu'il +peut potentiellement être utilisé avec n'importe quel nom commun (pas seulement +ville), l'ensemble des noms que peut qualifier un adjectif donné est bien plus +restreint par des considérations sémantiques. En effet, «ce» peut déterminer +aussi bien «ville» que «procédé» par exemple, alors qu'une séquence comme +«procédé natal» n'a aucun sens évident et donc virtuellement aucune chance +d'apparaître dans un texte, à part sous forme de contre-exemple comme dans cette +phrase. Deux autres mots outils figurent parmi les cinq premiers cooccurrents: +le déterminant «le» (intéressant par comparaison avec «ce») ainsi que la +préposition «dans», qui suggère l'emploi du concept de ville comme cadre +circonstanciel dans lequel se produisent les événements qui intéressent les +articles. Un deuxième adjectif, «petit», obtient également un score proche: +l'asymétrie que crée cette observation par rapport au contraire «grand» semble +suggérer qu'on qualifie bien plus volontiers une ville de «petite» que de +«grande» dans les pages des encyclopédies du corpus. + +{#fig:ville_lemma_geode} + +Le Lexicoscope permet ensuite de générer automatiquement une requête qui intègre +un des cooccurrents parmi ces résultats. Cette fonctionnalité correspond à une +étape du procédé itératif permettant de construire progressivement un [@=ALR]. +La nouvelle requête obtenue pour le premier résultat, le déterminant «ce», est +reproduite à l'extrait de code \ref{lst:tql_ce_ville}. + +\begin{lstlisting}[caption=Requête TQL sur la mise en relation syntaxique +quelconque du lemme «ce» annoté comme \texttt{DET} et du lemme «ville» annoté +comme \texttt{NOUN}, label=lst:tql_ce_ville] +<l=ce,c=DET,#2>&&<l=ville,c=NOUN,#1>::(.*,1,2) +\end{lstlisting} + +Son exécution sur le même corpus aboutit à la figure +\ref{fig:ce_ville_lemma_geode} qui retrouve la préposition «dans», mais cette +fois avec la plus forte mesure d'association. Déjà présente sur la figure +\ref{fig:ville_lemma_geode}, la requête \ref{lst:tql_ville} ne pouvait par +construction que rendre compte des intéractions de «ce» et de «dans» avec +«ville» de manière séparée. Cette nouvelle mesure montre qu'en réalité les trois +éléments apparaissent fréquemment ensemble dans le syntagme «dans cette ville». +La préposition «de» suit une trajectoire semblable puis, après l'adjectif +«dernier» avec une mesure d'association de 2 662, déjà bien plus faible, les +autres valeurs chutent très rapidement pour un ensemble de verbes et de noms, à +moins de 10% de celle obtenue par la préposition «dans». + +{#fig:ce_ville_lemma_geode} + +En suivant ce nouveau coocurrent «dans» on construit la requête +\ref{lst:tql_dans_ce_ville}, dont un équivalent sous forme d'arbre syntaxique en +dépendances est visible à la figure \ref{fig:dans_cette_ville_tree} pour plus de +clarté. Les astérisques sur les deux arêtes partant du nœud `ville_NOUN` +représentent l'absence de contrainte sur les relations qui relient «ville» +respectivement à «dans» et à «ce». En pratique, on peut s'attendre à ce que ces +relations soient réalisées par un `case` pour «dans» et par un `det` pour +«ce»[^UDdeps] mais le motif demeure flexible sur ce point. De plus, travaillant +au niveau de la syntaxe et pas de la réalisation de surface des mots, la requête +inclut des résultats comme «dans ces deux villes» à l'article ARABIE +(L'Encyclopédie, T1, p.570) ou «dans cette dernière ville» à l'article DAEHLING +(La Grande Encyclopédie, T13, p.749). L'usage de ce motif est répandu dans le +corpus d'étude comme en atteste la dispersion des résultats: utilisé par au +moins 27 contributeurs distincts (26 dans l'*EDdA* et les métadonnées +disponibles pour les articles de *LGE* ne comportent pas d'auteur), il apparaît +dans 1 674 articles. + +[^UDdeps]: + [https://universaldependencies.org/u/dep/index.html](https://universaldependencies.org/u/dep/index.html) + +\begin{lstlisting}[caption=Requête TQL sur le motif syntaxique «dans cette ville», +label=lst:tql_dans_ce_ville] +<l=dans,c=PREP,#3>&&<l=ce,c=DET,#2>&&<l=ville,c=NOUN,#1>::(.*,1,2)(.*, +1,3) +\end{lstlisting} + +{#fig:dans_cette_ville_tree width=20%} + +En recherchant ce troisième motif, on obtient la figure +\ref{fig:dans_ce_ville_lemma_geode} qui représente les dix coocurrents de «dans +cette ville» avec la plus forte mesure d'association. Sur cette figure, il n'y a +quasiment plus que des verbes et des adjectifs. Le phénomène de remontée d'un +lemme, déjà observé au cours du processus, se produit à nouveau avec l'adjectif +«dernier» qui n'obtenait que la troisième place sur la figure +\ref{fig:ce_ville_lemma_geode} mais devient le cooccurrent principal de «dans +cette ville». De la même manière, le verbe «mourir» prend le deuxième rang, +alors qu'il n'était que sixième pour «cette ville» seulement. De plus, le +troisième rang est occupé par le verbe «naître», absent jusqu'ici des résultats +mais de sens contraire à «mourir» et proche de l'adjectif «natal» discuté lors +de l'analyse de la figure \ref{fig:ville_lemma_geode}. À travers ce vocabulaire +susceptible d'apparaître dans des contenus biographiques, on retrouve le procédé +utilisé dans l'article WOLSTROPE à l'origine de cette étude. Toutefois, en étant +parti seulement du terme «ville», le fait d'observer ce thème émerger du fait +d'associations syntaxiques statistiquement significatives montre que le +phénomène ne se limite pas à ce seul article mais est assez général dans le +corpus. + +{#fig:dans_ce_ville_lemma_geode} + +Ces deux lemmes inattendus se présentent donc comme des objets incontournables +pour poursuivre l'exploration. Dans TXM [@heiden_txm_2010], on commence par se +restreindre au sous-corpus ne contenant que les articles de l'*EDdA*, qu'on +partitionne par domaine de connaissance. L'outil «Index» paramétré pour compter +les lemmes et appliqué sur cette partition avec la requête CQL dont le code est +visible à l'extrait \ref{lst:cql_naitre_mourir} permet de compter les +occurrences des deux verbes «naître» et «mourir» dans le corpus. Un nombre +d'occurrence n'est en soi pas pertinent sans être rapporté à la taille des +différentes partitions. Le calcul des spécificités (voir la section +\ref{sec:EdlA_linguistic_tools} p.\pageref{sec:EdlA_linguistic_tools}) +implémenté dans TXM opère cette traduction pour révéler la quantité +d'information contenue dans la distribution de formes observées (à quel point +elle est susceptible d'apparaître spontanément seulement du fait du hasard ou +témoigne au contraire d'un phénomène). + +\begin{lstlisting}[caption=Requête CQL traduisant ces critères, +label=lst:cql_naitre_mourir] +[lemma="(naître|mourir)"] +\end{lstlisting} + +Sur la figure \ref{fig:naitre_mourir_edda} qui montre le résultat de ces +calculs, les deux lemmes apparaissent comme extrêmement spécifiques du domaine +*Géographie*. Le verbe «mourir» obtient une spécificité supérieure à 318 ce qui +exclut en pratique toute formation spontanée de cette distribution du +vocabulaire. La surreprésentation du lemme «naître» dans la même partition, +certes moindre que le précédent avec un score de «seulement» 84, ne peut pas non +plus s'expliquer seulement par le hasard. En ce qui concerne les autres +partitions, le profil est tout autre: les deux lemmes sont très sous-représentés +dans toutes les autres domaines sauf *Philosophie* (mais où seul «naître» se +distingue, «mourir» reste peu significatif avec une spécificité de 1), *Histoire +Naturelle* (où «mourir» est même sous-spécifique) et *Beaux-arts* («mourir» et +«naître» y obtiennent des scores respectifs de 13 et 19, assez élevés pour +justifier éventuellement une étude séparée, mais restent toute de même bien +moins présents qu'en *Géographie*). Les contenus biographiques semblent donc bel +et bien entretenir une relation particulière avec la *Géographie* dans les pages +de l'*EDdA*. + +{#fig:naitre_mourir_edda} + +L'étape suivante du raisonnement consiste naturellement à se demander si cette +observation est propre à l'*EDdA* ou aux contenus biographiques eux-même. Pour +répondre à cette question, on procède de la même façon en partitionnant par +domaine de connaissance le sous-corpus ne contenant que les articles de *LGE* +avant de calculer les spécificités des deux mêmes lemmes. Les spécificités +obtenues suivent un profil bien plus tranché, de nombreux domaines obtenant pour +les deux verbes des scores «saturés» (voir la section +\ref{textometry_specificity} p.\pageref{textometry_specificity} sur ce point), +en positif ou en négatif, c'est-à -dire que les deux y sont «infiniment» +spécifiques. Partout ailleurs, les spécificités sont négatives ou très faibles +(seul «naître» obtient un score de 8 pour la *Musique*). En ce qui concerne la +*Géographie*, les deux lemmes sont très fortement sous-représentés avec des +spécificités de -1000. Le phénomène détecté dans l'*EDdA* semble donc avoir +disparu 130 ans plus tard dans *LGE*. + +{#fig:naitre_mourir_lge} + +Pour cerner tout à fait l'emploi de ces verbes révélateurs de contenus +biographiques dans les entrées de *Géographie*, il ne reste plus qu'à déterminer +dans quelle mesure ils dépendent du style personnel des contributeurs de +l'*EDdA*. En effet, le nom de Jaucourt revient fréquemment à propos de ce type +d'inclusions auxquelles Diderot s'est opposé et dont il semble s'être parfois +agacé [@laramee_production_2017, p.169]. Pour achever cette étude, on +partitionne donc cette fois le sous-corpus de l'*EDdA* suivant deux critères, +pour croiser à la fois les notions d'auteur et de domaine de connaissance. Pour +la première, il faut en effet pouvoir distinguer les écrits de Jaucourt, ceux de +Diderot, ceux des autres auteurs et ceux restés anonymes (pour lesquels il n'est +pas en tout rigueur possible d'écarter la possibilité qu'ils aient été écrit par +Jaucourt ou Diderot). Puisque certains articles résultent de la collaboration +entre plusieurs auteurs, il est nécessaire de traiter à part les quatre articles +écrits à la fois par Jaucourt et Diderot — les entrées CHANVRE (L'Encyclopédie, +T3, p.147), CHAUSSURE (L'Encyclopédie, T3, p.259), \textsc{Ere Philippique} +(L'Encyclopédie, T5, p.902) et JALOUSIE (L'Encyclopédie, T8, p.439). La notion +de domaine demande moins de finesse car, la surreprésentation écrasante des +lemmes «naître» et «mourir» en *Géographie* ayant déjà été établie, il suffit +pour chacune des configurations d'auteur(s) possibles de comparer leurs emplois +de ces deux verbes dans et hors de la *Géographie*. Comme aucun des quatre +articles écrits par Jaucourt et Diderot ensemble ne porte sur la *Géographie*, +la partition correspondant à cette configuration reste vide. + +Pour rendre compte des deux dimensions d'analyse simultanées, la figure +\ref{fig:naitre_mourir_edda_domain_authors} comporte deux distributions de +spécificités, mesurées en *Géographie* et hors de cette classe pour les mêmes +auteurs. Le trait principal qui ressort de cette figure est la prépondérance des +deux verbes chez le chevalier de Jaucourt en *Géographie*, très au-dessus du +seuil de banalité fixé par convention à 3. Ensuite, l'emploi du verbe «naître» +reste assez élevé dans les autres articles du même auteur (spécificité de 86, +contre 138 en *Géographie*) ce qui souligne l'importance du style de cet auteur, +outre le domaine de la *Géographie* dans l'emploi de ce verbe. La différence +d'ordre de grandeur entre les différentes valeurs mesurées empêche toute analyse +plus fine car les petites mesures et le seuil de banalité lui-même se confondent +avec l'axe des abscisses. + +{#fig:naitre_mourir_edda_domain_authors} + +Pour aller plus loin, il faut masquer les colonnes correspondant à Jaucourt pour +obtenir la figure \ref{fig:naitre_mourir_edda_domain_authors_sans_Jaucourt}. +Cette dernière figure montre que les deux lemmes de l'étude obtiennent des +spécificités fortement négatives hors de la *Géographie* pour les autres auteurs +que Diderot (c'est-à -dire qu'ils sont sous-représentés de manière +statistiquement très significative dans les partitions correspondantes). En +négatif, cette observation révèle deux choses. La première est que les autres +auteurs utilisent tout de même ces deux verbes dans les articles de +*Géographie*, à un niveau assez moyen mais donc supérieur au sous-emploi qui en +est fait hors de ce domaine. Ces deux lemmes et les contenus biographiques +qu'ils permettent d'écrire ne sont donc pas exclusifs à Jaucourt. La seconde +réside dans le fait que Diderot ne semble quant à lui pas sujet au même régime: +son emploi de «naître» et «mourir» reste dans les seuil de banalité hors de la +*Géographie* et même très légèrement positif alors qu'il reste négatif sur les +articles de cet auteur sur le même domaine (le lemme «naître» y est même assez +rare avec une spécificité de -4.6). Diderot apparaît donc plus constant dans son +style d'écriture et utilise davantage les deux verbes hors de la *Géographie*. + +{#fig:naitre_mourir_edda_domain_authors_sans_Jaucourt} + +Cette étude révèle donc une répartition nuancée des contenus biographiques dans +l'*EDdA*. Il existe certes un «effet Jaucourt» qui concentre ces contenus, en +particulier dans la *Géographie*, mais également un signal de fond qui démontre +l'emploi de ces éléments par les autres auteurs pour traiter le domaine, comme +le fait d'Holbach à l'article ISLANDE (L'Encyclopédie, T8, p.916). + ### L'influence des domaines {#sec:biography_domains} -Puisque des éléments biographiques apparaissent dans un article d'histoire de la -médecine, la question qui se présente ensuite naturellement est de savoir si des -articles consacrés exclusivement à une unique figure historique sont une -spécificité de la Géographie ou s'il est possible d'en trouver dans des articles -d'autres disciplines. Malgré le choix éditorial de ne pas mettre en avant de -figure individuelles, le Discours Préliminaire de l'*EDdA* (L'Encyclopédie, T1, -p.xlj) fait mention de nombre de «génies» qui ont façonné les domaines où ils se -sont illustrés. L'attention particulière qui leur est portée dans ce Discours +La section précédente a permis de quantifier l'importance des contenus +biographiques en *Géographie* mais, ce faisant, a aussi mis en lumière l'emploi +de verbes associés à ces contenus dans d'autres domaines. C'est ainsi que la +figure \ref{fig:naitre_mourir_edda} présentait les *Beaux-arts* et surtout la +*Philosophie* comme des pistes intéressantes pour la recherche de biographies. +Malgré le choix éditorial de ne pas mettre en avant de figure individuelles, le +Discours Préliminaire de l'*EDdA* (L'Encyclopédie, T1, p.xlj) fait en effet +mention de nombre de «génies» qui ont façonné les domaines où ils se sont +illustrés. L'attention particulière qui leur est portée dans ce Discours Préliminaire — et le fait que Newton dont on sait qu'il y a une biographie dans les pages de l'*EDdA* soit parmi eux — laisse à penser qu'ils font de bons candidats pour trouver d'éventuelles biographies. @@ -118,11 +362,11 @@ p.625). Malgré sa vedette, l'article ne se limite pas à la philosophie de Lock et, sur toute sa première moitié, donne un récit de la vie du philosophe riche en dates, lieux, et mentions d'autres personnages qui débute par sa naissance et s'achève par sa mort. Il apparaît tout à fait comparable à l'article WOLSTROPE -(L'Encyclopédie, T17, p.630) qui, bien que trois fois plus long environ (7277 -mots contre 2659) contient lui aussi environ une moitié d'éléments -biographiques, le reste de l'article concernant directement les travaux de -Newton, ses théories et jusqu'à l'exposition des travaux de ses précurseurs -comme le paragraphe sur les lois de Kepler. +qui, bien que trois fois plus long environ (7277 mots contre 2659) contient lui +aussi environ une moitié d'éléments biographiques, le reste de l'article +concernant directement les travaux de Newton, ses théories et jusqu'à +l'exposition des travaux de ses précurseurs comme le paragraphe sur les lois de +Kepler. En plus de constituer un premier exemple de biographie individuelle hors de la Géographie (le désignant de l'article est «Hist. de la Philosoph. moder» et le diff --git a/Contrastes/Introduction.md b/Contrastes/Introduction.md index fa477a88f9e7dab1336cc36311d86cc76d95f400..8c54284b129e926806d574ff31ded4ae52037b24 100644 --- a/Contrastes/Introduction.md +++ b/Contrastes/Introduction.md @@ -1,26 +1,26 @@ -Ce dernier chapitre qui s'ouvre constitue une mise en pratique des données -préparés dans le cadre de cette thèse. Le chapitre \ref{sec:corpus} fournit en -effet un corpus structuré et développe la notion de domaine de connaissance, -centrale pour la classification qui est appliquée aux articles au chapitre -\ref{sec:domains_classification}. Les analyses contrastives en diachronie -conduites dans le présent chapitre entre l'*EDdA* et *LGE* permettent de -démontrer l'utilité et la pertinence des efforts déployés dans les deux -précédents. +Ce dernier chapitre qui s'ouvre propose une méthodologie fondée sur une analyse +du corpus à différents niveaux de granularité pour montrer la pertinence des +données préparées dans le cadre de cette thèse. Le chapitre \ref{sec:corpus} +fournit un corpus structuré, annoté en syntaxe et développe la notion de domaine +de connaissance, centrale pour la classification qui est appliquée aux articles +au chapitre \ref{sec:domains_classification}. Ces efforts amènent deux +directions de travail pour le présent chapitre. -Tout en gardant bien à l'esprit les réserves émises à l'Introduction sur la +En gardant bien à l'esprit les réserves émises à l'Introduction sur la différence entre d'une part la Géographie en tant que discipline et d'autre part les discours qui peuvent relever de la géographie (voir \ref{sec:intro_strategy} -p.\pageref{sec:intro_strategy}), il s'agira dans ce chapitre de proposer une -méthodologie fondée sur une analyse du corpus à différents niveaux de -granularité. L'approche proposée sera utilisée pour montrer ce qui a changé dans -ces discours entre le XVIII^ème^ et le XIX^ème^ siècle. +p.\pageref{sec:intro_strategy}), la conduite d'analyse contrastives à l'échelle +des articles permet de mettre en lumière des différences en diachronie entre +l'*EDdA* et *LGE* ainsi qu'entre domaines de connaissance. Une étude plus fine +des textes fondée sur des phénomènes au niveau des phrases, notamment +syntaxiques, révèle des mélanges thématiques au sein des articles et permet de +préciser la place des discours géographiques. -La première étape de cette étude consistera à estimer la place accordée à la -discipline géographique dans les œuvres du corpus au travers de mesures des -articles de *Géographie* (c'est-à -dire en oubliant temporairement la réserve -mentionnée ci-dessus pour assimiler au premier ordre la science et le domaine). -La section \ref{sec:contrasts_objects} s'intéressera ensuite au vocabulaire des +La première étape de cette étude consiste à estimer les variations de la place +accordée à la discipline géographique dans les œuvres du corpus au travers de +mesures des articles de *Géographie* aux XVIII^ème^ et XIX^ème^ siècles. La +section \ref{sec:contrasts_objects} s'intéresse ensuite au vocabulaire des concepts manipulés dans les articles de *Géographie*. Enfin la section -\ref{sec:biographies} étudiera le cas de la relation particulière -qu'entretiennent géographie et biographies. +\ref{sec:biographies} étudie le cas de la relation particulière qu'entretiennent +géographie et biographies. diff --git a/Corpus/Application.md b/Corpus/Application.md index 14adb3a612ba5d624094384063c7aa7edabb90d7..2fcb42829e9e4c70bfa3c3ab36dc830ba646d368 100644 --- a/Corpus/Application.md +++ b/Corpus/Application.md @@ -240,7 +240,7 @@ dimensionnement pour les études contrastives présentées au chapitre \ref{sec:contrasts}. De plus, la réduction du déséquilibre entre classes permet d'obtenir des prédictions de meilleures qualités sur les classes moins représentées. Pour cette raison un nouveau jeu de classes plus simple a été créé -pour représenter les domaines de connaissances dans l'*EDdA*. Ce jeu ne comprend +pour représenter les domaines de connaissance dans l'*EDdA*. Ce jeu ne comprend plus que 17 classes qui ont été construites manuellement par Katherine \textsc{McDonough}, historienne et membre du projet GEODE, en vue de rendre compte de manière concise des thématiques principales abordées dans l'*EDdA* et, diff --git "a/Corpus/\305\222uvres.md" "b/Corpus/\305\222uvres.md" index e331ab792021ef43e00b96e40d3a083a5c9af8b8..249f7b872bc0893d634340a40d4b6193e1ffa824 100644 --- "a/Corpus/\305\222uvres.md" +++ "b/Corpus/\305\222uvres.md" @@ -310,12 +310,12 @@ Elle peut être suivie optionnellement d'un «désignant» entre parenthèses (e bleu sur la figure \ref{fig:anatomy_samples}) qui sert à situer l'entrée dans un espace structuré de connaissances (notion centrale de cette sous-section et qui est développée plus bas dans le segment \ref{sec:knowledge_domains}). Un -désignant peut ainsi référer à un ou plusieurs domaines de connaissances, -souvent abréviés. +désignant peut ainsi référer à un ou plusieurs domaines de connaissance, souvent +abréviés. Les articles ne constituent pas une collection d'informations isolées mais sont au contraire liés entre eux par un système de renvoi, qui constitue un deuxième -mode d'organisation en sus du système de domaines de connaissances +mode d'organisation en sus du système de domaines de connaissance [@blanchard_systeme_2002, p.46]. Les articles peuvent ainsi contenir des renvois, figurés en jaune sur la figure \ref{fig:anatomy_samples} . Ils sont constitués du verbe «voir» à l'impératif ou à l'infinitif jussif et de la @@ -440,7 +440,7 @@ connaissance parmi les autres. Là où certains philosophes tentent de trouver une organisation des connaissances satisfaisantes en elle-même en tant que description du monde dans sa totalité, -formant des systèmes *à priori* dans lesquels n'importe quelle +formant des systèmes à priori dans lesquels n'importe quelle connaissance — contemporaine du système ou ultérieure — est censée pouvoir ensuite trouver sa place, d'autres approches plus empiriques sont également possibles. Ainsi, alors qu'il répertorie et ordonne deux années de @@ -450,12 +450,12 @@ organisation tripartite. Il distingue une «Histoire naturelle» tout à fait générale, une catégorie des «Singularités» — tout ce qui échappe à la norme définie par la première catégorie rendant par construction le système complet — et une troisième catégorie méta qui traite des outils pour étudier les -catégories précédentes. Une telle organisation *à postériori* est par -construction plus facile à équilibrer mais elle a peu de chances de résister à -l'épreuve du temps ou d'être adaptée à plusieurs œuvres encyclopédiques. Il est -intéressant de noter que cette classification sommaire, présentée comme «a more -Natural Method» sert surtout initialement à se libérer de l'arbitraire de -l'ordre alphabétique. +catégories précédentes. Une telle organisation à postériori est par construction +plus facile à équilibrer mais elle a peu de chances de résister à l'épreuve du +temps ou d'être adaptée à plusieurs œuvres encyclopédiques. Il est intéressant +de noter que cette classification sommaire, présentée comme «a more Natural +Method» sert surtout initialement à se libérer de l'arbitraire de l'ordre +alphabétique. Dans l'*EDdA*, l'organisation de la connaissance intègre non seulement les sciences mais également les arts et les métiers. Elle est fondée sur une autre @@ -465,7 +465,7 @@ facultés humaines de la mémoire, l'imagination et la raison [@jaquet_bacon_201 revendiquée par d'Alembert dès le Discours Préliminaire (L'Encyclopédie, T1, p.xvj), elle est aussi visible dans les trois colonnes qui partagent le «Systême figuré des connoissances humaines» reproduit à la figure -\ref{fig:systeme_figure}. Elle témoigne d'une structuration *à priori* des +\ref{fig:systeme_figure}. Elle témoigne d'une structuration à priori des sciences bien plus ambitieuse que la division très pragmatique de Lowthorpe. Sa catégorie des Singularités semble tout de même trouver un écho dans la branche des «Écarts de la Nature» du «Systême» (voir à gauche de l'arbre de la figure @@ -570,7 +570,7 @@ connaissances mais la préface accorde une place majeure à la notion de domaine Dès sa première page (La Grande Encyclopédie, T1, p.I), ses auteurs après avoir justifié le bien-fondé de leur entreprise par le manque d'encyclopédie française à jour en termes de connaissances scientifiques établissent une longue liste de -domaines de connaissances pour montrer la grande variété de sujets que *LGE* se +domaines de connaissance pour montrer la grande variété de sujets que *LGE* se propose de couvrir («en un mot, tout ce qui est de nature à jeter la lumière sur le monde physique et sur le monde intellectuel»). Plus que réellement des noms de sciences, il s'agit plutôt de thématiques choisies pour mettre en valeur les @@ -637,7 +637,7 @@ du projet avant d'accorder place à chacun des domaines (La Grande Encyclopédie T1, p.XI). C'est la première et seule apparition de la liste des 14 domaines retenus plus un domaine «Matières diverses» pour absorber tout élément qui mettrait en défaut ces domaines, témoin s'il était besoin du pragmatisme de -l'approche *à postériori* de leur système — un outil pratique tout au plus mais +l'approche à postériori de leur système — un outil pratique tout au plus mais sans illusions sur une quelconque valeur particulière d'un point de vue philosophique. Ces choix donnent le tableau présenté figure \ref{fig:lge_editors_domains}, d'aspect presque trivial par contraste avec le @@ -756,7 +756,7 @@ bien pour parler d'une araignée (section I.) que d'un mollusque (section II.). #### La place de la Géographie {#sec:domains_geography} -Au milieu de ces domaines, la Géographie occupe une place particulière. Elle +Parmi de ces domaines, la Géographie occupe une place particulière. Elle semble du fait de ses très grandes applications pratiques — situer les villes, permettre les voyages et donc le commerce — relever d'une sorte d'évidence qui fait que sa place aux côtés des autres sciences est discutée au XVIII^ème^ @@ -795,9 +795,11 @@ MILITAIRE (L'Encyclopédie, T5, p.311), il présente la Géographie comme un prérequis à l'Histoire, dont elle servirait à situer les grands événements. En ce sens, il déroge à la classification du «Systême figuré» pour sortir la Géographie de la branche de l'arbre consacrée à la raison et la placer sur celle -de la mémoire. Dans *LGE*, le rapprochement est consommé puisque les deux -disciplines sont associées et leurs articles décomptés ensemble dans le tableau -des répartition des articles entre différents domaines présenté à la figure +de la mémoire. + +Dans *LGE*, le rapprochement est consommé puisque les deux disciplines sont +associées et leurs articles décomptés ensemble dans le tableau des répartition +des articles entre différents domaines présenté à la figure \ref{fig:lge_editors_domains}. De plus, si la liste des collaborateurs du projet n'associe pas chacun à une discipline précise, il est à noter que sur les 12 membres du projet dont la qualité contient le mot «géographie», la moitié diff --git a/Introduction/Cadre.md b/Introduction/Cadre.md index f49f4e9f9d54a3da4e57defc94523f2c4ff0bd83..9c3bb712b65fdb8935ecec72193091e73d13e34f 100644 --- a/Introduction/Cadre.md +++ b/Introduction/Cadre.md @@ -11,7 +11,7 @@ encyclopédique par excellence: > linguistique, sociologie, statistique, démographie, histoire, toutes les > branches des connaissances humaines lui apportent leur contingent de faits > -> -- La Grande Encyclopédie, T18, p.767 +> — La Grande Encyclopédie, T18, p.767 Cet extrait de l'article GÉOGRAPHIE qu'il rédige pour *La Grande Encyclopédie, Inventaire raisonné des Sciences, des Lettres et des Arts par une Société de @@ -154,10 +154,10 @@ XML-TEI [@ide_text_1995], omniprésente en [@=HN]. De plus, le recours à des outils numériques pour le traitement et l'analyse des données fait peser une responsabilité accrue sur ces derniers: leur qualité et -leur précision deviennent deviennent des enjeux pour la solidité des -connaissances produites. C'est ainsi que s'engagent de véritables courses en vue -de repousser l'état de l'art, par exemple de la reconnaissance optique de -caractères [@patel_optical_2012; @wick_comparison_2018] ou du repérage et de la +leur précision deviennent des enjeux pour la solidité des connaissances +produites. C'est ainsi que s'engagent de véritables courses en vue de repousser +l'état de l'art, par exemple de la reconnaissance optique de caractères +[@patel_optical_2012; @wick_comparison_2018] ou du repérage et de la classification d'entités nommées [@nadeau_survey_2007; @humbel_named_2021]. Parfois, des progrès significatifs ne peuvent être obtenus qu'au prix de l'adoption d'approches radicalement différentes comme ont pu l'être les méthodes diff --git a/Makefile b/Makefile index 54b92c3df1bff5e9c793338bc7c544ee6739b6be..0eaae8c2c080db49aa700cf0c5d1c6fad636060a 100644 --- a/Makefile +++ b/Makefile @@ -14,10 +14,10 @@ FIGURES = $(call WITH_STRUCTURE,$(FIGURE_FILES)) TABLES = $(call WITH_STRUCTURE,$(TABLE_FILES)) CSL = apa.csl CUSTOM_FILTER = filter/with-glossary -FILTERS = pandoc-fignos $(CUSTOM_FILTER) +FILTERS = $(CUSTOM_FILTER) LUA_FILTERS = ./filter/with-bibliography.lua ./filter/with-folio.lua WITH_FILTERS = $(FILTERS:%=--filter %) $(LUA_FILTERS:%=--lua-filter %) -PANDOC_OPTIONS = --pdf-engine=xelatex +PANDOC_OPTIONS = --pdf-engine=xelatex --from=markdown-smart FIGURE_GEOPYCK_OPTIONS = --cmap Purples --maxWidth 13 CONFUSION_MATRIX = geopyck drawMatrix $(FIGURE_GEOPYCK_OPTIONS) @@ -109,6 +109,12 @@ data/corpus/domainGroup_frequencies.tsv: data/corpus/metadata.tsv figure/histogram/%.png: data/%.tsv ./visualisation/BarPlot.py $< $@ +figure/histogram/%.png: data/%_bivariate.tsv + ./visualisation/BivariateSpecificity.py $< $@ + +%.tsv: %_TXM.tsv + ./visualisation/LongFormatFromTXM.py $< $@ + %/results.tsv: data/corpus/metadata.tsv %/predictions.tsv sed '1 s/domain/truth/' $(METADATA) > $@ diff --git a/data/textometry/EDdA/mourir_naitre/domaine_auteur_bivariate.tsv b/data/textometry/EDdA/mourir_naitre/domaine_auteur_bivariate.tsv new file mode 100644 index 0000000000000000000000000000000000000000..5f3bb55144817407163608d9dd5620019b309058 --- /dev/null +++ b/data/textometry/EDdA/mourir_naitre/domaine_auteur_bivariate.tsv @@ -0,0 +1,3 @@ +Lines Géographie_Jaucourt Géographie_Diderot Géographie_autre Géographie_anonyme Géographie_Diderot & Jaucourt Autre_Jaucourt Autre_Diderot Autre_autre Autre_anonyme Autre_Diderot & Jaucourt +mourir 1000 -2.5982 0.521 0.7466 0 5.2238 0.3837 -96.115 -31.6257 -0.9482 +naître 137.937 -4.638 -4.247 -4.1009 0 86.7788 1.4803 -84.5007 -29.6572 0.4406 diff --git a/data/textometry/EDdA/mourir_naitre/domaine_auteur_sans_Jaucourt_bivariate.tsv b/data/textometry/EDdA/mourir_naitre/domaine_auteur_sans_Jaucourt_bivariate.tsv new file mode 100644 index 0000000000000000000000000000000000000000..b601941f5fa1afb1fc3e354e7f05fccd8cec4e55 --- /dev/null +++ b/data/textometry/EDdA/mourir_naitre/domaine_auteur_sans_Jaucourt_bivariate.tsv @@ -0,0 +1,3 @@ +Lines Géographie_Diderot Géographie_autre Géographie_anonyme Autre_Diderot Autre_autre Autre_anonyme +mourir -2.5982 0.521 0.7466 0.3837 -96.115 -31.6257 +naître -4.638 -4.247 -4.1009 1.4803 -84.5007 -29.6572 diff --git a/data/textometry/EDdA/mourir_naitre_TXM.tsv b/data/textometry/EDdA/mourir_naitre_TXM.tsv new file mode 100644 index 0000000000000000000000000000000000000000..e75e921fc27f7f4ceccdc9d25785df124648aa07 --- /dev/null +++ b/data/textometry/EDdA/mourir_naitre_TXM.tsv @@ -0,0 +1,3 @@ +Lines Agriculture Beaux-arts Belles-lettres Chasse Commerce Droit Jurisprudence Géographie Histoire Histoire naturelle Médecine Métiers Militaire Musique Philosophie Physique Politique Religion +mourir -4.8281 13.1733 -2.3155 -3.5958 -21.984 -17.1092 318.7533 1.6965 -19.0735 0.4121 -37.5919 -39.9451 -28.1457 1.1999 -15.1664 -3.7059 1.9618 +naître -2.878 19.0777 5.8287 -2.8352 -21.8916 -10.5045 84.2722 -3.8063 20.6149 1.3907 -85.4065 -54.8127 -10.3746 54.2223 -58.5183 -0.996 -2.1004 diff --git a/data/textometry/LGE/mourir_naitre_TXM.tsv b/data/textometry/LGE/mourir_naitre_TXM.tsv new file mode 100644 index 0000000000000000000000000000000000000000..a541b44101f3b9cdd709d45489fcf741cbd9fb76 --- /dev/null +++ b/data/textometry/LGE/mourir_naitre_TXM.tsv @@ -0,0 +1,3 @@ +Lines Agriculture Beaux-arts Belles-lettres Chasse Commerce Droit Jurisprudence Géographie Histoire Histoire naturelle Médecine Métiers Militaire Musique Philosophie Physique Politique Religion +mourir -94.5977 1000.0 1000.0 -26.9996 -153.5156 -1000.0 -1000.0 1000.0 -1000.0 -127.6863 -61.8965 -183.5631 1.2002 -1000.0 -1000.0 -89.2983 -7.1418 +naître -93.8299 1000.0 1000.0 -28.4196 -150.3392 -1000.0 -1000.0 1000.0 -1000.0 -56.5316 -56.5666 -206.5322 8.62 -290.3254 -1000.0 -92.8965 -15.9815 diff --git a/data/textometry/ce_ville.tsv b/data/textometry/ce_ville.tsv new file mode 100644 index 0000000000000000000000000000000000000000..67a8c2759190f64fa07fc1c614f59f5c467c8970 --- /dev/null +++ b/data/textometry/ce_ville.tsv @@ -0,0 +1,11 @@ +coocurrent Association +dans_ADP 8129.077 +de_ADP 7175.453 +dernier_ADJ 2662.256 +université_NOUN 800.725 +petit_ADJ 678.694 +mourir_VERB 658.488 +maire_NOUN 484.996 +académie_NOUN 481.359 +situer_VERB 433.393 +fonder_VERB 383.14 diff --git a/data/textometry/dans_ce_ville.tsv b/data/textometry/dans_ce_ville.tsv new file mode 100644 index 0000000000000000000000000000000000000000..4739c956b75b63f215f0d585f4a1e345dd33b570 --- /dev/null +++ b/data/textometry/dans_ce_ville.tsv @@ -0,0 +1,11 @@ +cooccurrent Association +dernier_ADJ 1606.678 +mourir_VERB 1359.407 +naître_VERB 387.778 +ce_PRON 314.138 +fonder_VERB 269.445 +établir_VERB 266.13 +avoir_VERB 213.89 +tenir_VERB 154.507 +être_AUX 154.171 +même_ADJ 148.112 diff --git a/data/textometry/ville.tsv b/data/textometry/ville.tsv new file mode 100644 index 0000000000000000000000000000000000000000..52659d24b4ddd4e9f16637bca5aee85e796129bd --- /dev/null +++ b/data/textometry/ville.tsv @@ -0,0 +1,11 @@ +coocurrent Association +ce_DET 22958.404 +natal_ADJ 18773.083 +le_DET 18046.513 +petit_ADJ 17382.08 +dans_ADP 16769.63 +de_ADP 9821.292 +prov._NOUN 7949.094 +hôtel_NOUN 7867.023 +Italie_PROPN 5645.113 +Allemagne_PROPN 5489.486 diff --git a/dependencies/pandoc-fignos.scm b/dependencies/pandoc-fignos.scm deleted file mode 100644 index a79ddaede387dc791565018359c41ea29c891c6f..0000000000000000000000000000000000000000 --- a/dependencies/pandoc-fignos.scm +++ /dev/null @@ -1,24 +0,0 @@ -(use-modules ((gnu packages python-xyz) #:select (python-psutil)) - ((gnu packages textutils) #:select (python-pandocfilters)) - (guix build-system python) - ((guix download) #:select (url-fetch)) - ((guix licenses) #:select (gpl3)) - (guix packages)) - -(let - ((python-pandoc-xnos (load "pandoc-xnos.scm"))) - (package - (name "python-pandoc-fignos") - (version "2.4.0") - (source - (origin - (method url-fetch) - (uri (pypi-uri "pandoc-fignos" version)) - (sha256 - (base32 "0jc8glwkhwxi4qc3jh1ssgvrw2jhf9gxv470kwp42948wkmfsn3h")))) - (build-system python-build-system) - (propagated-inputs (list python-pandoc-xnos)) - (home-page "https://github.com/tomduck/pandoc-fignos") - (synopsis "Figure number filter for pandoc") - (description "Figure number filter for pandoc") - (license gpl3))) diff --git a/dependencies/pandoc-xnos.scm b/dependencies/pandoc-xnos.scm deleted file mode 100644 index 0a55d523100b6edbaee98969fccc9e3029fccb7b..0000000000000000000000000000000000000000 --- a/dependencies/pandoc-xnos.scm +++ /dev/null @@ -1,33 +0,0 @@ -(use-modules ((gnu packages python-xyz) #:select (python-psutil)) - ((gnu packages textutils) #:select (python-pandocfilters)) - (guix build-system python) - ((guix download) #:select (url-fetch)) - ((guix licenses) #:select (gpl3)) - (guix packages)) - -(package - (name "python-pandoc-xnos") - (version "2.5.0") - (source - (origin - (method url-fetch) - (uri (pypi-uri "pandoc-xnos" version)) - (sha256 - (base32 "1bjhwbfz67fm8ckvhhadi7y82cnlv2mnarfwfg2wwklyi667663w")))) - (build-system python-build-system) - (arguments - `(#:tests? #f - #:phases - (modify-phases %standard-phases - (replace 'check - (lambda* (#:key tests? #:allow-other-keys) - (if tests? - (begin - (invoke "ls") - (invoke "pwd") - (invoke "./test/test.py")))))))) - (propagated-inputs (list python-pandocfilters python-psutil)) - (home-page "https://github.com/tomduck/pandoc-xnos") - (synopsis "Library code for the pandoc-xnos filter suite.") - (description "Library code for the pandoc-xnos filter suite.") - (license gpl3)) diff --git a/manifest.scm b/manifest.scm index 8e0978c14ccc90b3b7afbdbdb0151ba54cec024a..0fa2b21f27cbfb541acb7bd72b5954c857a1bee8 100644 --- a/manifest.scm +++ b/manifest.scm @@ -12,8 +12,7 @@ ((gnu packages texlive) #:select (texlive)) ((gnu packages wireservice) #:select (csvkit))) -(let ((pandoc-fignos (load "dependencies/pandoc-fignos.scm")) - (python-pysankey (load "dependencies/python-pysankey.scm"))) +(let ((python-pysankey (load "dependencies/python-pysankey.scm"))) (concatenate-manifests (list (packages->manifest (list coreutils @@ -32,7 +31,6 @@ graphviz grep pandoc - pandoc-fignos poppler python python-matplotlib diff --git a/src/syntax/constituents.gv b/src/syntax/constituents.gv index 91a595af5e5d0ee7f7510ba368c49994611b0798..e06c7df005b3ed0faf86267f40a9c50c9043abac 100644 --- a/src/syntax/constituents.gv +++ b/src/syntax/constituents.gv @@ -15,6 +15,12 @@ digraph const { 7 [label="type:N"]; 8 [label="multipolaire:A"]; + subgraph order { + rankdir="LR"; + rank="same"; + 4 -> NP4 [style=invis]; + } + 1, 2 -> NP1; NP1, 3 -> NP3; 4, NP4 -> VP; diff --git a/visualisation/BarPlot.py b/visualisation/BarPlot.py index ffb91784932f4a04b7b8a4579194dbd13c927007..fe2e355cf94cbcc9cc058a5a6a8c3feadb572ab2 100755 --- a/visualisation/BarPlot.py +++ b/visualisation/BarPlot.py @@ -1,6 +1,6 @@ #!/usr/bin/env python3 -from color import highlight +from color import highlight, qualitative from GEODE import legend, tabular from math import floor, log import matplotlib.pyplot as plot @@ -15,16 +15,38 @@ def scientificBeyoundE2(x): if x - floor(x) == 0: return str(int(x)) else: - return ("%.3f" if floor(log(x) / log(10)) > -3 else "%.2e") % x + return ("%.3f" if floor(log(abs(x)) / log(10)) > -3 else "%.2e") % x + +def deduplicate(elements): + known = set() + unique = [] + for element in elements: + if element not in known: + known.add(element) + unique.append(element) + return unique + +def buildBarPlot(rows): + barplot_params = {'zorder': 2, 'x': rows.columns[0], 'y': rows.columns[1]} + withLabels = False + if len(rows.columns) > 2: + barplot_params['hue'] = rows.columns[2] + barplot_params['palette'] = qualitative + else: + barplot_params['color'] = highlight + withLabels = True + ax = barplot(rows, **barplot_params) + if withLabels: + ax.bar_label(ax.containers[0], rotation=45, fmt=scientificBeyoundE2) + return ax def barPlot(inputTSV, outputPNG): rows = tabular(inputTSV) - series = rows.set_index(rows.columns[0])[rows.columns[1]] plot.figure(figsize=(12,3)) - ax = barplot(series, color=highlight, zorder=2) + ax = buildBarPlot(rows) ax.grid(axis='y', zorder=0) - ax.bar_label(ax.containers[0], rotation=45, fmt=scientificBeyoundE2) - ax.set_xticks(range(0, len(series)), legend(series.index, 13)) + x_keys = deduplicate(rows[rows.columns[0]]) + ax.set_xticks(range(0, len(x_keys)), legend(x_keys, 13)) ax.spines[['left', 'top', 'right']].set_visible(False) plot.xticks(rotation=45, ha='right') ax.set_xlabel(None) diff --git a/visualisation/BivariateSpecificity.py b/visualisation/BivariateSpecificity.py new file mode 100755 index 0000000000000000000000000000000000000000..5f034eccf0eee10b761a4b273a742f8c738e8072 --- /dev/null +++ b/visualisation/BivariateSpecificity.py @@ -0,0 +1,34 @@ +#!/usr/bin/env python3 + +from GEODE import tabular +from LongFormatFromTXM import extractBivariate, toLongFormat +from color import qualitative +import matplotlib.pyplot as plot +import seaborn +import sys + +significanceThreshold = 3 + +def showSignificanceThreshold(ax): + ax.refline(y=significanceThreshold) + ax.refline(y=-significanceThreshold) + +def bivariateSpecificity(inputTSV, outputPNG): + specificities = toLongFormat(tabular(inputTSV)) + bivariate = extractBivariate(specificities, '_', ['domaine', 'auteur']) + ax = seaborn.catplot( + data=bivariate.reset_index(), x='auteur', y='Spécificité', + col='domaine', hue='lemme', kind='bar', zorder=3, height=3.5, + aspect=1.6, palette=qualitative) + ax.despine(left=True) + showSignificanceThreshold(ax) + ax.set_xlabels('') + ax.set_titles('{col_name}') + ax.tick_params(axis='x', rotation=45) + ax.tick_params(axis='y', left=False) + for col in specificities['domaine'].unique(): + ax.axes_dict[col].grid(axis='y', zorder=0) + plot.savefig(outputPNG, dpi=300, bbox_inches='tight') + +if __name__ == '__main__': + bivariateSpecificity(*sys.argv[1:]) diff --git a/visualisation/LongFormatFromTXM.py b/visualisation/LongFormatFromTXM.py new file mode 100755 index 0000000000000000000000000000000000000000..39bc75e5fab0786e24295b66053f44f0076ca36f --- /dev/null +++ b/visualisation/LongFormatFromTXM.py @@ -0,0 +1,25 @@ +#!/usr/bin/env python3 + +from GEODE import tabular +import pandas +import sys + +def toLongFormat(txmData): + lemmas = txmData.set_index(txmData.columns[0]).transpose() + lemmas.index.name = lemmas.columns.name + lemmas.columns.name = 'lemme' + specificities = lemmas.stack() + specificities.name = 'Spécificité' + return pandas.DataFrame(specificities) + +def extractBivariate(specificities, sep, into): + index = specificities.index.names + columns = specificities.columns + specificities[into] = [*specificities.index.map(lambda r: r[0].split(sep))] + return specificities.reset_index().set_index(into + index[1:])[columns] + +def convert(inputTSV, outputTSV): + toLongFormat(tabular(inputTSV)).to_csv(outputTSV, sep='\t') + +if __name__ == '__main__': + convert(*sys.argv[1:]) diff --git a/visualisation/SortedFrequencies.py b/visualisation/SortedFrequencies.py index edf426a95464fbc8c72ceab0301f8c8f29aca5d2..c9468ae4d468020d6672b509b2283b835f005126 100755 --- a/visualisation/SortedFrequencies.py +++ b/visualisation/SortedFrequencies.py @@ -3,9 +3,6 @@ from GEODE import tabular import sys -def ticks(l): - return [i+0.5 for i in range(len(l))] - def sortedHistogram(inputTSV, outputTSV, column): rows = tabular(inputTSV) groups = rows.groupby(column).size().sort_values(ascending=False) diff --git a/visualisation/color.py b/visualisation/color.py index dd5a8d5eb04bec553d69821e20d9371c2d2f388a..1938f9d655946cd78c95c82f8c2d9ba610b01005 100644 --- a/visualisation/color.py +++ b/visualisation/color.py @@ -4,6 +4,7 @@ from seaborn import color_palette intensity = 'Purples' highlight = 'mediumpurple' +qualitative = [highlight, 'deeppink'] def wide_sample(f, size): return [f(i/(size-1)) for i in range(size)] diff --git "a/\303\211dlA/Introduction.md" "b/\303\211dlA/Introduction.md" index 56c11e9583c2c596ba370d5e83261ae5d37f3456..369ae70a868d69c85b1fdc60c44baced9553e246 100644 --- "a/\303\211dlA/Introduction.md" +++ "b/\303\211dlA/Introduction.md" @@ -1,15 +1,15 @@ Les travaux présentés dans ce manuscrit reposent sur des considérations issues -d'un spectre de disciplines allant des mathématiques (statistiques, théorie des -graphes) à la linguistique (syntaxe, coocurrences) en passant par l'informatique -(encodage, complexité algorithmique). Cette pratique pluridisplinaire constitue -une illustration représentative des [@=HN], un courant interdisciplinaire né à -la fin du XX^ème^ siècle, ou au moins constitué sous ce nom à cette époque à -partir de la pratique en développement depuis les années 1960 consistant à -appliquer des techniques de calcul automatique à des thématiques des humanités -[@beaudouin_retour_2016, p.17]. Cette rencontre entre l'informatique d'une part -et les sciences humaines et sociales d'autre part a rendu possible l'émergence -de projets ambitieux, capables d'aborder de nouveaux objets d'études et de -révéler ceux déjà connus sous un jour nouveau. +d'un spectre de disciplines centré sur l'informatique (encodage, complexité +algorithmique, [@=AA]) mais allant des mathématiques (statistiques, théorie des +graphes) à la linguistique (syntaxe, coocurrences). Cette pratique +pluridisplinaire constitue une illustration représentative des [@=HN], un +courant interdisciplinaire né à la fin du XX^ème^ siècle, ou au moins constitué +sous ce nom à cette époque à partir de la pratique en développement depuis les +années 1960 consistant à appliquer des techniques de calcul automatique à des +thématiques des humanités [@beaudouin_retour_2016, p.17]. Cette rencontre entre +l'informatique d'une part et les sciences humaines et sociales d'autre part a +rendu possible l'émergence de projets ambitieux, capables d'aborder de nouveaux +objets d'études et de révéler ceux déjà connus sous un jour nouveau. L'encodage des données pour permettre leur manipulation par des outils informatisés, rappelé par l'adjectif «Numérique» dans l'expression «Humanités diff --git "a/\303\211dlA/Linguistique_de_corpus.md" "b/\303\211dlA/Linguistique_de_corpus.md" index e1655c18813a4018d35c9747d8754cdd8808f8a5..0fe81c9855e9250f473f37999b4356bc081a10bf 100644 --- "a/\303\211dlA/Linguistique_de_corpus.md" +++ "b/\303\211dlA/Linguistique_de_corpus.md" @@ -99,7 +99,7 @@ dénominations» [@leon_histoire_2015, p.130]: en plus des traductions de ces de termes on trouve également en français linguistique «quantitative», «appliquée» et «outillée»… -### Les outils de la linguistique +### Les outils de la linguistique {#sec:EdlA_linguistic_tools} Ces termes recouvrent de nombreuses pratiques communes et semblent refléter autant des véritables différences de positions scientifiques que des traditions @@ -177,14 +177,14 @@ l'implémentation dans le logiciel TXM [@heiden_txm_2010]. Dans ce logiciel, la spécificité est exprimée sur une échelle logarithmique: une valeur de spécificité de 2 signifie qu'il y a 1 chance sur 100 ($10^{2} = 100$) que le hasard puisse expliquer la distribution observée. On considère généralement que -le seuil à partir duquel une spécificité devient significative est de 3 -(c'est-à -dire au plus 1 chance sur 1 000 que le hasard explique le phénomène). -Pour des raisons pratiques d'affichage, le logiciel TXM «sature» et n'affiche -pas plus de 1 000 comme valeur pour une spécificité. Peu importe la valeur -réelle dans ce cas puisque cela correspond déjà à des distributions ayant -seulement au mieux 1 chance sur $10^{1000}$ de se produire par hasard, donc -l'affichage de cette valeur dans TXM suffit en pratique à exclure totalement une -coïncidence. +le seuil à partir duquel une spécificité devient significative, dit «seuil de +banalité» est de 3 (c'est-à -dire au plus 1 chance sur 1 000 que le hasard +explique le phénomène). Pour des raisons pratiques d'affichage, le logiciel TXM +«sature» et n'affiche pas plus de 1 000 comme valeur pour une spécificité. Peu +importe la valeur réelle dans ce cas puisque cela correspond déjà à des +distributions ayant seulement au mieux 1 chance sur $10^{1000}$ de se produire +par hasard, donc l'affichage de cette valeur dans TXM suffit en pratique à +exclure totalement une coïncidence. La deuxième contribution majeure des mathématiques à l'école française de linguistique vient un peu plus tard, à partir de la fin des années 1960 avec le @@ -204,7 +204,7 @@ non seulement à la linguistique de Chomsky mais également à l'[@=IA] espace abstrait qu'il appartient à la personne qui conduit les recherches d'interpréter. Pour Benzécri, l'ordinateur n'est pas «intelligent»; bien au contraire le fait qu'il ne le soit pas est vu comme un gage d'objectivité car -l'ordinateur n'a dès lors pas d'a priori et ne peut pas mentir +l'ordinateur n'a dès lors pas d'à priori et ne peut pas mentir [@beaudouin_retour_2016, p.22]. Cette conception est diamétralement opposée aux promesses d'intelligence des architectures les plus récentes de modèles d'[@=AA] comme les *Large Language Models* dont les «hallucinations» sont assez établies diff --git "a/\303\211dlA/TAL.md" "b/\303\211dlA/TAL.md" index 5a10e6ed101d564639c2cbf4e31867422af49fc0..ae22e48455a299e5d48be05b9342cb174a22b857 100644 --- "a/\303\211dlA/TAL.md" +++ "b/\303\211dlA/TAL.md" @@ -272,10 +272,10 @@ associe à chaque mot en entrée une classe possible (sa [@=POS]) parmi celles prédéfinies. Il existe plusieurs jeux d'étiquettes morphosyntaxiques de référence comme celui du Penn Treebank [@marcus_building_1993] mais le jeu à utiliser doit être déterminé en fonction des besoins de l'étude que l'on -souhaite mener. Ainsi @vigier_autour_2017[p.100] recourt à une catégorie «G» -qui regroupe des participes présents, adjectifs verbaux et gérondifs pour tenir -compte du fait que ces objets ne sont pas encore bien différenciés sur les états -de langues les plus anciens de son corpus d'étude. +souhaite mener. Ainsi @vigier_autour_2017[p.100] recourt à une catégorie «G» qui +regroupe des participes présents, adjectifs verbaux et gérondifs pour tenir +compte du fait que ces objets ne sont pas encore bien différenciés dans les +états de langues les plus anciens de son corpus d'étude. Toutefois, à la différence des problèmes de classification habituels, l'annotation en [@=POS] est fortement compliquée par une dépendance contextuelle @@ -329,12 +329,12 @@ la même phrase. \begin{figure} \centering - \begin{subfigure}[b]{0.54\textwidth} + \begin{subfigure}[b]{0.6\textwidth} \includegraphics[width=\textwidth]{figure/syntax/constituents.png} \caption{Analyse en constituants} \label{fig:syntax_trees_constituents} \end{subfigure} - \begin{subfigure}[b]{0.44\textwidth} + \begin{subfigure}[b]{0.38\textwidth} \includegraphics[width=\textwidth]{figure/syntax/dependencies.png} \caption{Analyse en dépendances} \label{fig:syntax_trees_dependencies}