diff --git a/Classification/Application.md b/Classification/Application.md index bf7175ba9d8d3caf3287d1f57efcd0370b50d7f1..6f63ebda149ef275525ead5336e51d7b2666f667 100644 --- a/Classification/Application.md +++ b/Classification/Application.md @@ -1,16 +1,22 @@ ## Annotation des articles {#sec:classification_application} +Après avoir comparé différents modèles de classification automatique, l'étude +des erreurs de prédiction a mis en évidence des ressemblances entre les domaines +de connaissance. Ces parentés suggérent des pistes pour les analyses du chapitre +\ref{sec:contrasts} mais, avant de pouvoir les exploiter, il reste à appliquer +une classification à l'ensemble des articles du corpus. + ### Choix d'un classifieur {#sec:classification_choices} Si le travail de comparaison des méthodes de classification décrit dans cette partie a été effectué sur le jeu des 38 «domaines regroupés», c'est celui des 17 «superdomaines» (les deux sont décrits à la section \ref{sec:domains_build_classes}) qui a été plus utilisé pour les études -contrastives du chapitre suivant (voir chapitre \ref{sec:contrasts}). Il a donc -été non seulement nécessaire de choisir une architecture définitive de modèle de -classification, mais aussi de réappliquer les chaînes de traitement utilisées -pour les comparaisons décrites à la section \ref{sec:classifiers_comparison} -p.\pageref{sec:classifiers_comparison} pour la prédiction de superdomaines. +contrastives. Il a donc été non seulement nécessaire de choisir une architecture +définitive de modèle de classification, mais aussi de réappliquer les chaînes de +traitement utilisées pour les comparaisons décrites à la section +\ref{sec:classifiers_comparison} p.\pageref{sec:classifiers_comparison} pour la +prédiction de superdomaines. #### Superdomaines {#sec:edda_superdomains_classifier} @@ -97,7 +103,7 @@ d'étiquettes des superdomaines a été mesurée à l'aide des outils développ @lacoste_quantifying_2019. L'opération a été effectué pour les deux modèles sur la même machine du Centre Blaise Pascal de l'ENS de Lyon [@quemener_sidussolution_2013] équipée d'une carte GPU de type NVIDIA RTX A2000 -12GB et d'un CPU Intel Core i3-2120 d'une fréquence 3.30GHz +12GB et d'un CPU Intel Core i3-2120 d'une fréquence 3.30GHz. L'ensemble de l'expérience a consommé 594 W·h comme le montre le tableau \ref{tab:energy_consumption}, ce qui représente une quantité d'énergie de @@ -115,9 +121,9 @@ expérience soit l'équivalent d'environ 6km de voyage en Eurostar pour une personne d'après les chiffres de la SNCF[^SNCF]. [^EEA]: - https://www.eea.europa.eu/en/analysis/indicators/greenhouse-gas-emission-intensity-of-1 + [https://www.eea.europa.eu/en/analysis/indicators/greenhouse-gas-emission-intensity-of-1](https://www.eea.europa.eu/en/analysis/indicators/greenhouse-gas-emission-intensity-of-1) [^SNCF]: - https://medias.sncf.com/sncfcom/rse/Methodologie-generale_guide-information-CO2.pdf + [https://ressources.data.sncf.com/explore/dataset/info-ges/information/](https://ressources.data.sncf.com/explore/dataset/info-ges/information/) +---------------+---------------+----------+---------------+ | Modèle | *SGD+TF-IDF* | *BERT* | Total | @@ -236,7 +242,7 @@ demeure trop superficiel et n'y donne pas accès (voir la section \ref{sec:corpus_lge} page \pageref{sec:corpus_lge}). Pour obtenir une classification de ses articles, il faut donc utiliser les prédictions du modèle *BERT* discuté précédemment dans cette section. Cela pose naturellement un -problème épistémologique majeur: l'ensemble de classe des superdomaines a été +problème épistémologique majeur: l'ensemble de classes des superdomaines a été conçu pour représenter de manière simplifiée les domaines de connaissance du XVIII^ème^ siècle, sans prise en compte particulière de l'état des sciences au XIX^ème^ ni même des domaines choisis par les éditeurs de *LGE*. L'application @@ -286,17 +292,16 @@ empiriquement après échantillonnage d'articles ayant une occurrence de l'expression précédente sur leur première ligne. Plus précisément, le motif est sujet à une certaine variation sans doute en -partie du fait de l'envergure de projet de *LGE* — par application de ce -principe empirique proposé au début du présent chapitre qui veut qu'à cette -échelle tout motif subit des mutations (voir la section \ref{sec:principles} -p.\pageref{sec:principles}) — mais surtout à cause des erreurs d'[@=OCR] qui -fournissent un rendu imprécis des caractères présents sur le papier. Certains -'C' majuscules, peut-être à cause d'une tache sur le papier ont été lus comme -'G', certains '.' à la fin des abréviations ont pu être pris pour des ',' voire -être omis entièrement. Pour ces raisons, l'expression régulière écrite pour -rechercher ce motif a été largement étendue pour s'adapter à tous les cas -rencontrés empiriquement dans les articles comme le montre l'extrait de code -source \ref{lst:com_du_dep_regex}. +partie du fait de l'envergure de projet de *LGE* — par application de ce constat +empirique formulé à la section \ref{sec:principles} qui énonce qu'à cette +échelle tout motif subit des mutations (voir p.\pageref{sec:principles}) — mais +surtout à cause des erreurs d'[@=OCR] qui fournissent un rendu imprécis des +caractères présents sur le papier. Certains 'C' majuscules, peut-être à cause +d'une tache sur le papier ont été lus comme 'G', certains '.' à la fin des +abréviations ont pu être pris pour des ',' voire être omis entièrement. Pour ces +raisons, l'expression régulière écrite pour rechercher ce motif a été largement +étendue pour s'adapter à tous les cas rencontrés empiriquement dans les articles +comme le montre l'extrait de code source \ref{lst:com_du_dep_regex}. \begin{lstlisting}[caption=Expression régulière utilisée pour repérer les entrées de communes,label=lst:com_du_dep_regex] @@ -351,12 +356,11 @@ assigne la classe *Géographie* aux articles du sous-corpus des Communes défini ci-dessus, et la classe prédite par le modèle *BERT* entraîné pour les superdomaines sur l'*EDdA* pour les autres articles. Une fois cette définition posée, il devient possible d'évaluer la qualité de cette annotation afin de -juger de son utilité. Le différentiel conceptuel entre ces classes prévu pour le -XVIII^ème^s. et ces articles rédigés au XIX^ème^s. (voir la section -\ref{sec:structuring_knowledge} p.\pageref{sec:structuring_knowledge}) empêche -naturellement les articles de *LGE* de correspondre parfaitement aux classes -proposées. Ainsi, la présence des biographies discutées précédemment (à la -section \ref{sec:knowledge_domains} p.\pageref{sec:knowledge_domains}) perturbe +juger de son utilité. Le différentiel conceptuel entre ces classes prévues pour +le XVIII^ème^s. et ces articles rédigés au XIX^ème^s. empêche naturellement les +articles de *LGE* de correspondre parfaitement aux classes proposées. Ainsi, la +présence des biographies discutées précédemment (à la section +\ref{sec:knowledge_domains} p.\pageref{sec:knowledge_domains}) perturbe évidemment le système de classes des superdomaines modelé sur l'*EDdA* qui les exclut volontairement; de même des domaines anachroniques comme l'Industrie n'existent pas parmi les superdomaines. Une telle évaluation ne peut donc pas @@ -385,19 +389,18 @@ Pour un article qui aurait accepté plusieurs classes, la proposition du modèle la première mentionnée dans le texte). C'est ainsi que la plupart des biographies se retrouvent en *Histoire* ou dans la discipline où la personne s'est illustrée. Pour les renvois, la classe proposée a été acceptée sauf quand -la cible du renvois relevait manifestement d'une autre classe. Pour les -agrégats de plusieurs articles, la classification a été rejetée quand vraiment -aucune des entrées contenues n'avait de rapport avec la classe proposée et -acceptée sinon. +la cible du renvoi relevait manifestement d'une autre classe. Pour les agrégats +de plusieurs articles, la classification a été rejetée quand vraiment aucune des +entrées contenues n'avait de rapport avec la classe proposée et acceptée sinon. Avec cette convention, la méthode composite (*Géographie* pour les Communes, la prédiction de *BERT* pour les autres articles) a prédit une classe acceptable pour 590 articles de l'échantillon, soit 86.8% de la totalité. S'agissant d'une -évaluation binaire, qui dit juste si la classe est acceptable sans fournir de -réponse attendue dans le cas contraire, il n'est pas possible de calculer de -score de rappel ni de générer de matrice de confusion pour observer les biais du -modèle. Le score mesuré correspond à une précision puisqu'il compte le nombre de -vrais positifs divisé par le nombre total d'élements. Le tableau +évaluation binaire, qui se contente de dire si la classe est acceptable sans +fournir de réponse attendue dans le cas contraire, il n'est pas possible de +calculer de score de rappel ni de générer de matrice de confusion pour observer +les biais du modèle. Le score mesuré correspond à une précision puisqu'il compte +le nombre de vrais positifs divisé par le nombre total d'élements. Le tableau \ref{tab:lge_bert_evaluation} montre que le modèle obtient une assez bonne précision sur la plupart des domaines (supérieure à 90% sur 7 domaines). Les domaines qui mettent le plus le modèle en difficulté sont la *Chasse*, le @@ -433,7 +436,7 @@ la première variable vale `vrai` est égale à la précision du modèle dans so ensemble, mais en fonction du résultat de ce premier tirage, la probabilité de succès de la deuxième variable est affectée. Toutefois, les dimensions de l'expérience font que l'échantillon reste assez petit par rapport à l'ensemble -de la population (100 × 680 < 130 000) donc les variables peuvent être +de la population (100 × 680 = 68 000 < 130 000) donc les variables peuvent être considérées indépendantes (le résultat de chaque tirage affecte peu la proportion d'articles dont la classification est satisfaisante parmi les articles restants). Le Théorème Central Limite s'applique donc et permet de @@ -458,7 +461,7 @@ multiplicatif lié seulement pour une loi donnée à la précision attendue, son quantile. Ainsi pour que $p$ ait plus de 95% de chance de faire partie de l'intervalle proposé (encadrement à 95% de confiance), le quantile $z_{97.5\%}$, d'ordre $1 - \frac{5}{2} = 97.5\%$ permet d'écrire en reprenant $n$ pour -désigner le nombre total d'article échantillonnés, l'encadrement de la formule +désigner le nombre total d'articles échantillonnés, l'encadrement de la formule \ref{eq:quality_range_algebraic}. \begin{equation} @@ -526,14 +529,14 @@ Cette section conclut les travaux en classification automatique effectués dans le cadre de cette thèse. La comparaison de classifieurs opérée à la section \ref{sec:classifiers_comparison} a montré la pertinence de l'emploi d'un modèle de type *BERT* pour appliquer une classification en domaine aux articles. Plus -inattendu, cette comparaison a aussi révèlé l'intérêt spécifique de méthodes +inattendu, cette comparaison a aussi révélé l'intérêt spécifique de méthodes classiques d'[@=AA] telles que *SVM* et *SGD* associées à une vectorisation *TF-IDF* sur des volumes de données de l'ordre de grandeur de ceux présents dans le corpus d'étude. Ces modèles nécessitent en effet relativement «peu» de -données pour donner des résultats exploitables par rapport aux méthodes d'[@=AP] -autres que *BERT*. La sous-section \ref{sec:classification_choices}) a en outre -mis en évidence le fait que *SGD*, certes légèrement moins performant que -*BERT*, s'avère en plus particulièrement efficace du point de vue de la +données pour produire des résultats exploitables par rapport aux méthodes +d'[@=AP] autres que *BERT*. La sous-section \ref{sec:classification_choices} a +en outre mis en évidence le fait que *SGD*, certes légèrement moins performant +que *BERT*, s'avère en plus particulièrement efficace du point de vue de la consommation énergétique. Les études conduites à la section \ref{sec:geo_relations} sur les erreurs faites par ce modèle sur les articles de l'*EDdA* suggèrent des pistes intéressantes à explorer dans le chapitre diff --git a/Classification/Relations.md b/Classification/Relations.md index 4c88f627b4272439c49979756feee995fdd65283..4ae9a054942f847e9bebd3ff0b660d2f0dcb3581 100644 --- a/Classification/Relations.md +++ b/Classification/Relations.md @@ -530,21 +530,25 @@ façon de les combiner peut également avoir un impact sur les performances du modèle. Ainsi, la notion de n-gramme propose de remplacer les tokens en entrée par des séquences brèves, faisant l'hypothèse que des fenêtres de mots contigus peuvent lever certaines ambiguïtés lexicales et jouer un rôle décisif dans les -prédiction d'un modèle. Des travaux comme @tan_use_2002 ou -@mladenic_feature_2003 étudient comment sélectionner et combiner les propriétés -apportant le plus d'information sur les textes afin de mieux les classer. La -construction des n-grammes elle-même fait l'objet de recherches pour augmenter -son efficacité [@garcia_efficient_2021]. La longueur des n-grammes joue un rôle -important: si les performances s'accroissent en utilisant des n-grammes par -rapport à de simples tokens (c'est-à -dire quand $n > 1$ puisque les tokens -peuvent être vus comme des «séquences de 1 token» donc des 1-grammes), elles -décroissent en revanche quand $n$ devient trop grand. Si toutes les études -menées ne trouvent pas la même longueur seuil exactement, toutes semblent -s'accorder sur sa faible valeur (inférieure à 5). @furnkranz_study_1998 et à sa -suite @tan_use_2002[p.531] estiment que les performances se dégradent au-delà de -3. - -Pour cette raison, dans ce qui suit les articles seront représentés tour à tour +prédictions d'un modèle. On peut rapprocher cette idée de l'importance accordée +aux collocations par l'école britannique (voir la section +\ref{linguistics_collocation} p.\pageref{linguistics_collocation}). Des travaux +comme @tan_use_2002 ou @mladenic_feature_2003 étudient comment sélectionner et +combiner les propriétés apportant le plus d'information sur les textes afin de +mieux les classer. La construction des n-grammes elle-même fait l'objet de +recherches pour augmenter son efficacité [@garcia_efficient_2021]. La longueur +des n-grammes joue un rôle important: si les performances s'accroissent en +utilisant des n-grammes par rapport à de simples tokens (c'est-à -dire quand $n > +1$ puisque les tokens peuvent être vus comme des «séquences de 1 token» donc des +1-grammes), elles décroissent en revanche quand $n$ devient trop grand. Si +toutes les études menées ne trouvent pas la même longueur seuil exactement, +toutes semblent s'accorder sur sa faible valeur (inférieure à 5). +@furnkranz_study_1998 et à sa suite @tan_use_2002[p.531] estiment que les +performances se dégradent au-delà de 3. Il est intéressant de constater que ces +valeurs sont du même ordre de grandeur que les fenêtres utilisées généralement +pour les recherches de cooccurrences dans les outils de textométrie. + +Pour ces raisons, dans ce qui suit les articles seront représentés tour à tour par des séquences de leurs tokens de longueur 1, 2 puis 3 pour explorer à quel point les similarités lexicales des n-grammes obtenus ressemblent aux erreurs du modèle. D'autres paramètres s'ajoutent à $n$ pour contrôler quelles séquences @@ -588,30 +592,30 @@ les vecteurs obtenus. Ce formalisme revient à faire des *sac de n-grammes*, d'une manière similaire à laquelle *BoW* créait des *sac de mots* à partir des tokens. -Pour un n-gramme $g$ donné, on a besoin de compter son nombre total -d'occurrences parmi tous les articles de la classe $c$, noté $|g|_{c, n}$, -c'est-à -dire qu'on considère la fonction $g \rightarrow |g|_{c, n}$ de l'espace +Pour un n-gramme $t$ donné, on a besoin de compter son nombre total +d'occurrences parmi tous les articles de la classe $c$, noté $|t|_{c, n}$, +c'est-à -dire qu'on considère la fonction $t \rightarrow |t|_{c, n}$ de l'espace $\mathcal{L}^n \rightarrow \mathbb{N}$. Par exemple, $\mathrm{|("à ", "plusieurs", "choses")|_{Géographie, 3}}$ représente le nombre d'occurrence du trigramme $\mathrm{("à ", "plusieurs", "choses")}$ dans l'ensemble des articles classés à *Géographie* par le modèle. Comme chaque classe $c$ sera représentée par l'ensemble de ses n-grammes les plus fréquents, ce qui sera noté -$\mathcal{G}_{c, n, k}$, on pourra alors lui associer un vecteur $V_{c, n, k}$ +$\mathcal{T}_{c, n, k}$, on pourra alors lui associer un vecteur $V_{c, n, k}$ dans l'espace vectoriel $\mathbb{R}^{|\mathcal{L}|^n}$ défini ci-dessus. Les composantes de ce vecteur sont le compte d'occurrences dans la classe avec la fonction précédente $|\dots|_{c, n}$ pour chacun de ses $k$ n-grammes les plus fréquents et 0 pour tous les autres n-grammes possibles. Plus formellement, cela signifie qu'on peut écrire la combinaison linéaire: -$$V_{c, n, k} = \sum_{W \in \mathcal{G}_{c, n, k}} |W|_{c, n} \cdot e_W$$ +$$V_{c, n, k} = \sum_{W \in \mathcal{T}_{c, n, k}} |W|_{c, n} \cdot e_W$$ Représenter ainsi les classes par des vecteurs donne la possibilité d'exprimer des mesures de similarité à l'aide d'outils comme le produit scalaire et les -notions dérivées de normes et de distance. On définit ainsi le produit scalaire +notions dérivées de norme et de distance. On définit ainsi le produit scalaire sur les vecteurs des classes comme la somme des produits des composantes des vecteurs qu'ils ont en commun: -$$\langle V_{c_i, n, k}, V_{c_j, n, k} \rangle = \sum_{W \in \mathcal{G}_{c_i, n, k} \cap \mathcal{G}_{c_j, n, k}}{|W|_{c_i, n} \times |W|_{c_j, n}}$$ +$$\langle V_{c_i, n, k}, V_{c_j, n, k} \rangle = \sum_{W \in \mathcal{T}_{c_i, n, k} \cap \mathcal{T}_{c_j, n, k}}{|W|_{c_i, n} \times |W|_{c_j, n}}$$ Et, par extension, la norme d'un vecteur de classe est définie par la racine carrée de son produit scalaire avec lui-même (c'est-à -dire la racine carrée de @@ -632,7 +636,7 @@ commun — pour la rendre comparable indifféremment de $k$) : \begin{equation} \label{eq:count_similarity} - \langle c_i, c_j \rangle_{n, k, card} = \frac{\|\mathcal{G}_{c_i, n, k} \cap \mathcal{G}_{c_j, n, k} \|}{k} + \langle c_i, c_j \rangle_{n, k, card} = \frac{\|\mathcal{T}_{c_i, n, k} \cap \mathcal{T}_{c_j, n, k} \|}{k} \end{equation} La seconde, qu'on appellera la similarité *scalaire*, s'obtient en calculant @@ -673,33 +677,33 @@ relation qu'elles représentent est symétrique: pour toute paire de classes $c_ et $c_j$, $\langle c_i, c_j \rangle = \langle c_j, c_i \rangle$ (vrai pour chacune des deux métriques considérées, toutes deux définies à partir d'opérations symétriques — produits et sommes d'entiers, intersections -d'ensembles). Par contraste, la matrice de confusion du modèle *SGD+TF-IDF* était -asymétrique car le modèle ne confond pas les articles de *Géographie* avec ceux -d'*Histoire* avec le même taux d'erreur qu'il confond ceux d'*Histoire* avec de -la *Géographie* (un fait déjà visible sur le GPPV du modèle à la figure +d'ensembles). Par contraste, la matrice de confusion du modèle *SGD+TF-IDF* +était asymétrique car le modèle ne confond pas les articles de *Géographie* avec +ceux d'*Histoire* avec le même taux d'erreur qu'il confond ceux d'*Histoire* +avec de la *Géographie* (un fait déjà visible sur le GPPV du modèle à la figure \ref{fig:nn_confusion_graph} p.\pageref{fig:nn_confusion_graph} et discuté à la section \ref{sec:model_errors}). Cette différence est une conséquence de la -simplification opérée sur les résultats des prédictions du modèle. +simplification opérée par rapport aux résultats des prédictions du modèle. Les matrices sont également de plus en plus creuses à mesure que les paramètres -$n$ et $k$ croissent, car la probabilité que deux classes partagent un même de -leurs n-grammes les plus fréquents décroît alors: d'une part plus un n-gramme -est long, plus il tend à être unique et d'autre part plus la liste de n-grammes +$n$ et $k$ croissent, car la probabilité que deux classes partagent un de leurs +n-grammes les plus fréquents décroît alors: d'une part plus un n-gramme est +long, plus il tend à être unique et d'autre part plus la liste de n-grammes considérée est longue, plus des n-grammes différents ont des chances d'apparaître. -Enfin, la première métrique, la similarité *cardinale* présente l'avantage d'être -moins «bruitée» que la similarité *scalaire*, c'est-à -dire que la couleur de fond des -matrice de similarités générées est plus claire, comme cela est visible sur la -figure \ref{fig:similarity_matrices_count} (à gauche) par rapport à la figure -\ref{fig:similarity_matrices_dot} (à droite). Cela peut sembler contre-intuitif -si l'on regarde le calcul de la similarité *cardinale* comme simplement un cas -particulier de la similarité *scalaire* dans lequel tous les coefficients des -vecteurs sont mis à 1, au coefficient multiplicatif de leur norme près. En -effet, on pourrait s'attendre à ce que le produit scalaire des vecteurs de deux -classes soit systématiquement très inférieur au décompte de leurs vecteurs de -base en commun, en ce sens qu'avoir des coefficients différents ne peut que -rendre les vecteurs moins colinéaires. +Enfin, la première métrique, la similarité *cardinale* présente l'avantage +d'être moins «bruitée» que la similarité *scalaire*, c'est-à -dire que la couleur +de fond des matrices de similarités générées est plus claire, comme cela est +visible sur la figure \ref{fig:similarity_matrices_count} (à gauche) par rapport +à la figure \ref{fig:similarity_matrices_dot} (à droite). Cela peut sembler +contre-intuitif si l'on regarde le calcul de la similarité *cardinale* comme +simplement un cas particulier de la similarité *scalaire* dans lequel tous les +coefficients des vecteurs sont mis à 1, au coefficient multiplicatif de leur +norme près. En effet, on pourrait s'attendre à ce que le produit scalaire des +vecteurs de deux classes soit systématiquement très inférieur au décompte de +leurs vecteurs de base en commun, en ce sens qu'avoir des coefficients +différents ne peut que rendre les vecteurs moins colinéaires. Mais cet effet est vaincu par la distribution de «masse» des coefficients dans les vecteurs: si deux vecteurs ont seulement très peu de composantes en commun, @@ -714,9 +718,9 @@ donnera une valeur proche de 1, alors qu'ils ne partageront que quelques n-grammes, ce qui donnera une similarité *cardinale* très faible. En d'autres termes, les classes n'ont que peu en commun mais ce qu'elles ont en commun est précisément ce qui leur est le plus fondamental. Les composantes qu'elles ne -partagent pas ne jouent qu'un rôle tout à fait marginal. Bien entendu, pour que -cet effet s'applique, les deux classes doivent avoir au moins un n-gramme en -commun, sans quoi leur produit scalaire sera simplement nul. +partagent pas ne jouent alors qu'un rôle tout à fait marginal. Bien entendu, +pour que cet effet s'applique, les deux classes doivent avoir au moins un +n-gramme en commun, sans quoi leur produit scalaire sera simplement nul. Cette configuration contre-intuitive se produit par exemple avec les 3-grammes des classes *Histoire* et *Religion*, visibles au tableau @@ -751,18 +755,18 @@ articles des deux domaines concernés. La notion de temps long dans le passé es traduite par 5 autres n-grammes: «avant jesus christ», «depuis long tems» et «depuis tems -là » (reliquat de «depuis ce tems-là » après élimination des mots vides, voir la section \ref{classification_datasets} -p.\pageref{classification_datasets}). Les autres n-grammes sont plus -difficile à analyser: 2 montrent la prévalence de termes d'origine grecque, 4 -semblent des tournures assez communes, et les 2 dernières concernent à nouveau -des auteurs. Le fait de référer à Montesquieu (auteur de l'«Esprit des Lois») -par une périphrase pourrait être propre au style d'un contributeur de ces deux -domaines (Jaucourt ?), mais pourrait également être biaisé par l'observation des +p.\pageref{classification_datasets}). Les autres n-grammes sont plus difficile à +analyser: 2 montrent la prévalence de termes d'origine grecque, 4 semblent des +tournures assez communes, et les 2 dernières concernent à nouveau des auteurs. +Le fait de référer à Montesquieu (auteur de l'«Esprit des Lois») par une +périphrase pourrait être propre au style d'un contributeur de ces deux domaines +(Jaucourt ?), mais pourrait également être biaisé par l'observation des 3-grammes: «Montesquieu» n'a pas de raison d'être environné toujours des mêmes mots et son nom a donc très peu de chance d'obtenir assez d'occurrence pour remonter parmi les 3-grammes les plus fréquents, alors que l'expression «l'auteur de l'Esprit des Lois», devient après la préparation du corpus le 3-gramme «auteur esprit loi», unique, et donc décompté systématiquement à -chacune de ses occurrences. Enfin le dernier 3-gramme laissé, «trévoux chambers +chacune de ses occurrences. Enfin le dernier 3-gramme restant, «trévoux chambers gramme» correspond vraisemblablement à une bibliographie sommaire et à une signature maltraitée par le lemmatiseur. En effet deux sources très communément employées par les auteurs de l'*EDdA* sont le *Dictionnaire universel de @@ -801,7 +805,7 @@ de la figure \ref{fig:nn_similarity_graph_count} et 8 pour celui des 10 contiennent même des nœuds isolés, c'est-à -dire des domaines qui n'ont aucun n-gramme en commun avec aucun autre domaine. Les 3 autres graphes sont tous des GPPV générés pour la similarité *cardinale*. Tous les graphes pour cette mesure -de similarité, même ceux ayant plus de 3 composantes non-connexes possèdent 2 +de similarité, même ceux ayant plus de 3 composantes non connexes possèdent 2 nœuds ou plus reliés à plusieurs autres nœuds, certains jusqu'à 9 comme la classe *Militaire* sur le GPPV des 50 3-grammes. Cet effet, très prononcé pour $k = 10$ s'explique par le faible nombre de valeurs pouvant être prises par les @@ -811,7 +815,7 @@ En effet pour chaque paire de nœuds considérée, elle prend une valeur de la forme $\frac{i}{k}$ avec $i \in \mathbb{N}, i \geq 0, i \leq k$ ($k$ est le paramètre fixé pour le graphe considéré, pouvant valoir 10, 50 ou 100). Pour un nœud donné, en calculant sa similarité *cardinale* avec chacun des 37 autres -nœuds, la métrique retournera donc 1 des seulement 11, 51 ou 101 valeurs +nœuds, la métrique retournera donc une des seulement 11, 51 ou 101 valeurs possibles. Par application du «principe des tiroirs» il y aura nécessairement plusieurs nœuds (de destination) avec la même similarité *cardinale* pour ce nœud considéré pour $k = 10$, des «collisions» dans les valeurs de sortie de la @@ -903,7 +907,7 @@ chaque classe mais dans l'ensemble ses erreurs se compensent). bien évidemment qu'un nombre entier d'articles, mais les nombres réels issus des scores du modèle et qui vont être considérés dans cette partie décrivent un comportement statistique (ils ont d'ailleurs été obtenus à l'origine en - mesurant un nombre entier d'article, les virgules traduisent seulement le + mesurant un nombre entier d'articles, les virgules traduisent seulement le fait que le choix arbitraire de «1000» articles n'est pas multiple du nombre d'articles de *Géographie* présents dans le jeu de test). @@ -912,22 +916,22 @@ chaque classe mais dans l'ensemble ses erreurs se compensent). Les poids attribués par la mesure de centralité permettent de se faire une idée de l'attractivité des nœuds les uns par rapport aux autres car la valeur en un -nœud décrit une situation d'équilibre entre deux paramètres contraires. Elle -peut être d'autant plus élevée (relativement aux autres, c'est-à -dire en -supposant leurs poids fixés) que ce nœud reçoit un flux important des autres -nœuds (en nombre — qu'il y ait beaucoup d'arêtes — ou en volume — des arêtes -avec un coefficient élevé). Cette augmentation du poids est tempérée de manière -linéaire par l'importance du flux qui quitte le nœud considéré (de même, en -nombre ou en volume, ici encore seule la somme des coefficients des arêtes -quittant un nœud donné a une importance) : supposant les coefficients de toutes -les autres arêtes fixés, le poids d'un nœud sera d'autant plus faible que ses -arêtes sortantes ont des coefficients importants. Une mesure de centralité -élevée signifiera donc qu'un nœud est assez bien reconnu (flux de faux négatifs -sortant bas) tout en attirant assez de faux négatifs des autres classes. Sur ce -dernier point, c'est le comportement d'ensemble qui compte, le nœud n'a besoin -d'être le plus fort attracteur d'aucun de ses voisins pour avoir une centralité -élevée, ce qui permet de détecter des tendances qui étaient invisibles en -réduisant les graphes à leurs [@=PPV]. +nœud décrit une situation d'équilibre entre deux effets contraires. Elle peut +être d'autant plus élevée (relativement aux autres, c'est-à -dire en supposant +leurs poids fixés) que ce nœud reçoit un flux important des autres nœuds (en +nombre — qu'il y ait beaucoup d'arêtes — ou en volume — des arêtes avec un +coefficient élevé). Cette augmentation du poids est tempérée de manière linéaire +par l'importance du flux qui quitte le nœud considéré (de même, en nombre ou en +volume, ici encore seule la somme des coefficients des arêtes quittant un nœud +donné a une importance) : supposant les coefficients de toutes les autres arêtes +fixés, le poids d'un nœud sera d'autant plus faible que ses arêtes sortantes ont +des coefficients importants. Une mesure de centralité élevée signifiera donc +qu'un nœud est assez bien reconnu (flux de faux négatifs sortant bas) tout en +attirant assez de faux négatifs des autres classes. Sur ce dernier point, c'est +le comportement d'ensemble qui compte, le nœud n'a besoin d'être le plus fort +attracteur d'aucun de ses voisins pour avoir une centralité élevée, ce qui +permet de détecter des tendances qui étaient invisibles en réduisant les graphes +à leurs [@=PPV]. Pour formaliser le problème de la recherche d'une telle distribution stable qui capturerait les influences entre classes, il est utile de représenter les @@ -938,14 +942,14 @@ permet de faire la transition d'une expérience initiale sur les *articles* où seuls des entiers peuvent avoir du sens à un contexte statistique où il est possible de représenter des distributions moyennes, des probabilités et plus seulement un vrai échantillon donné d'articles. Avec ce formalisme un peu plus -algébrique[^algébrique], et en gardant comme dans la section précédente (Section -\ref{sec:graph_model}) la notation $C$ pour la matrice de confusion de la figure +algébrique[^algébrique], et en gardant comme dans la section précédente +\ref{sec:graph_model} la notation $C$ pour la matrice de confusion de la figure \ref{fig:confusion_matrix} (p.\pageref{fig:confusion_matrix}), la définition de la centralité comme une distribution de poids laissée stable par $C$ se traduit par l'existence d'un vecteur [^algébrique]: Il est à noter qu'avec la convention de placer les vraies - étiquettes de classe en ligne et les étiquettes prédites en colonnes, + étiquettes de classe en lignes et les étiquettes prédites en colonnes, appliquer le modèle correspond à un simple produit matriciel avec le vecteur à gauche de la matrice. @@ -972,26 +976,26 @@ sont égaux à 1, la propriété d'être stochastique à droite peut s'écrire: Cette expression montre que ce vecteur plein de 1 est un vecteur propre de la matrice $C$, mais seulement à droite. Or, les valeurs propres d'une matrice $M$ sont les racines de son polynôme caractéristique $P_M[\lambda] = det(\lambda Id -\- M)$. Puisque par définition du déterminant, invariant par transposition, on a -$det(M) = det(M^T)$, alors $M$ et $M^T$ ont le même polynôme caractéristique et -de ce fait les mêmes valeurs propres. Ayant trouvé un vecteur propre à droite -pour $C$ associé à la valeur propre 1, on sait qu'il doit nécessairement exister -un vecteur propre (à gauche cette fois) avec la même valeur propre, ce qui -prouve que l'Équation \ref{eq:left_eigenvector} doit admettre au moins une -solution. Ayant prouvé son existence, une manière pratique de calculer cette -solution consiste à utiliser le théorème du cercle de Gershgorin qui, appliqué à -une matrice stochastique, montre que toutes les valeurs propres doivent être -inférieures ou égales à 1 en norme (somme des lignes). Par conséquent, itérer la -matrice $C$ de manière répétée va progressivement éliminer les «petits» -coefficients (ceux strictement inférieurs à 1) en les faisant tendre vers 0 -(parce que $\lim_{n \rightarrow \infty} \lambda ^ n = 0$ si $|\lambda| < 1$). -Cela n'est en soi pas suffisant pour garantir la convergence des itérées de $C$ -car il pourrait y avoir plusieurs vecteurs propres associés à la valeur 1 si -celle-ci avait une multiplicité $> 1$[^perron]. Mais par contre, s'il y a -convergence, alors ce sera nécessairement vers *le* vecteur propre (dont -l'unicité serait alors prouvée) associé à cette valeur. Calculer les itérées de -$C$ donne par exemple pour les puissances 4, 16, 64 et 256 les matrices visibles -dans la figure \ref{fig:iterates}. +\minus M)$. Puisque par définition du déterminant, invariant par transposition, +on a $det(M) = det(M^T)$, alors $M$ et $M^T$ ont le même polynôme +caractéristique et de ce fait les mêmes valeurs propres. Ayant trouvé un vecteur +propre à droite pour $C$ associé à la valeur propre 1, on sait qu'il doit +nécessairement exister un vecteur propre (à gauche cette fois) avec la même +valeur propre, ce qui prouve que l'Équation \ref{eq:left_eigenvector} doit +admettre au moins une solution. Ayant prouvé son existence, une manière pratique +de calculer cette solution consiste à utiliser le théorème du cercle de +Gershgorin qui, appliqué à une matrice stochastique, montre que toutes les +valeurs propres doivent être inférieures ou égales à 1 en norme (somme des +lignes). Par conséquent, itérer la matrice $C$ de manière répétée va +progressivement éliminer les «petits» coefficients (ceux strictement inférieurs +à 1) en les faisant tendre vers 0 (parce que $\lim_{n \rightarrow \infty} +\lambda ^ n = 0$ si $|\lambda| < 1$). Cela n'est en soi pas suffisant pour +garantir la convergence des itérées de $C$ car il pourrait y avoir plusieurs +vecteurs propres associés à la valeur 1 si celle-ci avait une multiplicité $> +1$[^perron]. Mais par contre, s'il y a convergence, alors ce sera nécessairement +vers *le* vecteur propre (dont l'unicité serait alors prouvée) associé à cette +valeur. Calculer les itérées de $C$ donne par exemple pour les puissances 4, 16, +64 et 256 les matrices visibles dans la figure \ref{fig:iterates}. [^perron]: l'application du théorème de Perron-Frœbenius permettrait de lever cette réserve en garantissant l'unicité de la valeur propre la plus grande @@ -1067,13 +1071,14 @@ qu'elle obtient le score le plus élevé ($0.43$). Ce résultat suggère que loi jouer un rôle périphérique dans le graphe comme aurait pu le suggérer la figure \ref{fig:nn_confusion_graph} p.\pageref{fig:nn_confusion_graph}, le domaine se place au centre du flux des erreurs de classification d'articles. En accord avec -le nombre de faux positifs plus de trois fois supérieur aux faux négatifs mis en -évidence à la section \ref{sec:geography_errors} ($3 \times 39 = 117 < 152$), le -nœud *Géographie* du graphe reçoit un flux des autres nœuds du graphe supérieur -au flux sortant d'après la remarque précédente sur l'interprétation de la -centralité. Cette analyse montre donc une *Géographie* bien reconnue et détectée -par le modèle dans de nombreux autres domaines, signe de l'importance au -XVIII^ème^ siècle de cette science au contact de nombreuses autres. +le nombre de faux positifs plus de trois fois supérieur à celui des faux +négatifs mis en évidence à la section \ref{sec:geography_errors} ($3 \times 39 = +117 < 152$), le nœud *Géographie* du graphe reçoit un flux des autres nœuds du +graphe supérieur au flux sortant d'après la remarque précédente sur +l'interprétation de la centralité. Cette analyse montre donc une *Géographie* +bien reconnue et détectée par le modèle dans de nombreux autres domaines, signe +de l'importance au XVIII^ème^ siècle de cette science au contact de nombreuses +autres. Au travers des différentes analyses précédentes, cette section amène plusieurs pistes de recherche à exploiter dans le chapitre \ref{sec:contrasts}. L'analyse diff --git "a/\303\211dlA/Linguistique_de_corpus.md" "b/\303\211dlA/Linguistique_de_corpus.md" index ed055508e82d9d55e71eda7a4b60ea0987b9a414..78ad280853f99ac08ce6d125650ffa88aac0b411 100644 --- "a/\303\211dlA/Linguistique_de_corpus.md" +++ "b/\303\211dlA/Linguistique_de_corpus.md" @@ -117,18 +117,19 @@ les replacer dans leur contexte historique et disciplinaire. [^iramuteq]: [http://www.iramuteq.org/](http://www.iramuteq.org/) -La notion de collocation occupe une place centrale depuis les débuts -britanniques de la discipline, chez Firth par exemple [@leon_histoire_2015, -p.161] jusqu'à des travaux plus récents [@fellbaum_idioms_2007]. Le sens du mot -a changé progressivement mais il reste étroitement lié à celui de cooccurrence, -c'est-à -dire l'apparition conjointe de deux termes dans un même empan textuel. -Motivé par la recherche de termes fréquemment associés en vue de caractériser le -sens des mots dans le cadre de la production de dictionnaires (voir section -\ref{sec:EdlA_lexicography_concept}), le concept de collocation en est -progressivement venu à désigner des cooccurrences particulièrement fréquentes -jusqu'à créer une «attente mutuelle» chez les locuteurs [@leon_sources_2008, -p.16]. Caractériser cette attente demande une mesure statistique précise de leur -surreprésentation [@lafon_analyse_1981]. +\label{linguistics_collocation}La notion de collocation occupe une place +centrale depuis les débuts britanniques de la discipline, chez Firth par exemple +[@leon_histoire_2015, p.161] jusqu'à des travaux plus récents +[@fellbaum_idioms_2007]. Le sens du mot a changé progressivement mais il reste +étroitement lié à celui de cooccurrence, c'est-à -dire l'apparition conjointe de +deux termes dans un même empan textuel. Motivé par la recherche de termes +fréquemment associés en vue de caractériser le sens des mots dans le cadre de la +production de dictionnaires (voir section \ref{sec:EdlA_lexicography_concept}), +le concept de collocation en est progressivement venu à désigner des +cooccurrences particulièrement fréquentes jusqu'à créer une «attente mutuelle» +chez les locuteurs [@leon_sources_2008, p.16]. Caractériser cette attente +demande une mesure statistique précise de leur surreprésentation +[@lafon_analyse_1981]. En pratique, l'implémentation du calcul des cooccurrences le rapproche de celui des spécificités comme le fait remarquer @pincemin_semantique_2022[p.4]. Avant