Skip to content
Snippets Groups Projects
Commit 340f7452 authored by Alice Brenon's avatar Alice Brenon
Browse files

Finish proofreading chapter 4 Classification (many changes, variable renamings...

Finish proofreading chapter 4 Classification (many changes, variable renamings in the equations, added an introductory ¶ + comments linking n-grams back to collocation)
parent 2dd3db61
No related branches found
No related tags found
No related merge requests found
## Annotation des articles {#sec:classification_application} ## Annotation des articles {#sec:classification_application}
Après avoir comparé différents modèles de classification automatique, l'étude
des erreurs de prédiction a mis en évidence des ressemblances entre les domaines
de connaissance. Ces parentés suggérent des pistes pour les analyses du chapitre
\ref{sec:contrasts} mais, avant de pouvoir les exploiter, il reste à appliquer
une classification à l'ensemble des articles du corpus.
### Choix d'un classifieur {#sec:classification_choices} ### Choix d'un classifieur {#sec:classification_choices}
Si le travail de comparaison des méthodes de classification décrit dans cette Si le travail de comparaison des méthodes de classification décrit dans cette
partie a été effectué sur le jeu des 38 «domaines regroupés», c'est celui des 17 partie a été effectué sur le jeu des 38 «domaines regroupés», c'est celui des 17
«superdomaines» (les deux sont décrits à la section «superdomaines» (les deux sont décrits à la section
\ref{sec:domains_build_classes}) qui a été plus utilisé pour les études \ref{sec:domains_build_classes}) qui a été plus utilisé pour les études
contrastives du chapitre suivant (voir chapitre \ref{sec:contrasts}). Il a donc contrastives. Il a donc été non seulement nécessaire de choisir une architecture
été non seulement nécessaire de choisir une architecture définitive de modèle de définitive de modèle de classification, mais aussi de réappliquer les chaînes de
classification, mais aussi de réappliquer les chaînes de traitement utilisées traitement utilisées pour les comparaisons décrites à la section
pour les comparaisons décrites à la section \ref{sec:classifiers_comparison} \ref{sec:classifiers_comparison} p.\pageref{sec:classifiers_comparison} pour la
p.\pageref{sec:classifiers_comparison} pour la prédiction de superdomaines. prédiction de superdomaines.
#### Superdomaines {#sec:edda_superdomains_classifier} #### Superdomaines {#sec:edda_superdomains_classifier}
...@@ -97,7 +103,7 @@ d'étiquettes des superdomaines a été mesurée à l'aide des outils développ ...@@ -97,7 +103,7 @@ d'étiquettes des superdomaines a été mesurée à l'aide des outils développ
@lacoste_quantifying_2019. L'opération a été effectué pour les deux modèles sur @lacoste_quantifying_2019. L'opération a été effectué pour les deux modèles sur
la même machine du Centre Blaise Pascal de l'ENS de Lyon la même machine du Centre Blaise Pascal de l'ENS de Lyon
[@quemener_sidussolution_2013] équipée d'une carte GPU de type NVIDIA RTX A2000 [@quemener_sidussolution_2013] équipée d'une carte GPU de type NVIDIA RTX A2000
12GB et d'un CPU Intel Core i3-2120 d'une fréquence 3.30GHz 12GB et d'un CPU Intel Core i3-2120 d'une fréquence 3.30GHz.
L'ensemble de l'expérience a consommé 594 W·h comme le montre le tableau L'ensemble de l'expérience a consommé 594 W·h comme le montre le tableau
\ref{tab:energy_consumption}, ce qui représente une quantité d'énergie de \ref{tab:energy_consumption}, ce qui représente une quantité d'énergie de
...@@ -115,9 +121,9 @@ expérience soit l'équivalent d'environ 6km de voyage en Eurostar pour une ...@@ -115,9 +121,9 @@ expérience soit l'équivalent d'environ 6km de voyage en Eurostar pour une
personne d'après les chiffres de la SNCF[^SNCF]. personne d'après les chiffres de la SNCF[^SNCF].
[^EEA]: [^EEA]:
https://www.eea.europa.eu/en/analysis/indicators/greenhouse-gas-emission-intensity-of-1 [https://www.eea.europa.eu/en/analysis/indicators/greenhouse-gas-emission-intensity-of-1](https://www.eea.europa.eu/en/analysis/indicators/greenhouse-gas-emission-intensity-of-1)
[^SNCF]: [^SNCF]:
https://medias.sncf.com/sncfcom/rse/Methodologie-generale_guide-information-CO2.pdf [https://ressources.data.sncf.com/explore/dataset/info-ges/information/](https://ressources.data.sncf.com/explore/dataset/info-ges/information/)
+---------------+---------------+----------+---------------+ +---------------+---------------+----------+---------------+
| Modèle | *SGD+TF-IDF* | *BERT* | Total | | Modèle | *SGD+TF-IDF* | *BERT* | Total |
...@@ -236,7 +242,7 @@ demeure trop superficiel et n'y donne pas accès (voir la section ...@@ -236,7 +242,7 @@ demeure trop superficiel et n'y donne pas accès (voir la section
\ref{sec:corpus_lge} page \pageref{sec:corpus_lge}). Pour obtenir une \ref{sec:corpus_lge} page \pageref{sec:corpus_lge}). Pour obtenir une
classification de ses articles, il faut donc utiliser les prédictions du modèle classification de ses articles, il faut donc utiliser les prédictions du modèle
*BERT* discuté précédemment dans cette section. Cela pose naturellement un *BERT* discuté précédemment dans cette section. Cela pose naturellement un
problème épistémologique majeur: l'ensemble de classe des superdomaines a été problème épistémologique majeur: l'ensemble de classes des superdomaines a été
conçu pour représenter de manière simplifiée les domaines de connaissance du conçu pour représenter de manière simplifiée les domaines de connaissance du
XVIII^ème^ siècle, sans prise en compte particulière de l'état des sciences au XVIII^ème^ siècle, sans prise en compte particulière de l'état des sciences au
XIX^ème^ ni même des domaines choisis par les éditeurs de *LGE*. L'application XIX^ème^ ni même des domaines choisis par les éditeurs de *LGE*. L'application
...@@ -286,17 +292,16 @@ empiriquement après échantillonnage d'articles ayant une occurrence de ...@@ -286,17 +292,16 @@ empiriquement après échantillonnage d'articles ayant une occurrence de
l'expression précédente sur leur première ligne. l'expression précédente sur leur première ligne.
Plus précisément, le motif est sujet à une certaine variation sans doute en Plus précisément, le motif est sujet à une certaine variation sans doute en
partie du fait de l'envergure de projet de *LGE* — par application de ce partie du fait de l'envergure de projet de *LGE* — par application de ce constat
principe empirique proposé au début du présent chapitre qui veut qu'à cette empirique formulé à la section \ref{sec:principles} qui énonce qu'à cette
échelle tout motif subit des mutations (voir la section \ref{sec:principles} échelle tout motif subit des mutations (voir p.\pageref{sec:principles}) — mais
p.\pageref{sec:principles}) — mais surtout à cause des erreurs d'[@=OCR] qui surtout à cause des erreurs d'[@=OCR] qui fournissent un rendu imprécis des
fournissent un rendu imprécis des caractères présents sur le papier. Certains caractères présents sur le papier. Certains 'C' majuscules, peut-être à cause
'C' majuscules, peut-être à cause d'une tache sur le papier ont été lus comme d'une tache sur le papier ont été lus comme 'G', certains '.' à la fin des
'G', certains '.' à la fin des abréviations ont pu être pris pour des ',' voire abréviations ont pu être pris pour des ',' voire être omis entièrement. Pour ces
être omis entièrement. Pour ces raisons, l'expression régulière écrite pour raisons, l'expression régulière écrite pour rechercher ce motif a été largement
rechercher ce motif a été largement étendue pour s'adapter à tous les cas étendue pour s'adapter à tous les cas rencontrés empiriquement dans les articles
rencontrés empiriquement dans les articles comme le montre l'extrait de code comme le montre l'extrait de code source \ref{lst:com_du_dep_regex}.
source \ref{lst:com_du_dep_regex}.
\begin{lstlisting}[caption=Expression régulière utilisée pour repérer les \begin{lstlisting}[caption=Expression régulière utilisée pour repérer les
entrées de communes,label=lst:com_du_dep_regex] entrées de communes,label=lst:com_du_dep_regex]
...@@ -351,12 +356,11 @@ assigne la classe *Géographie* aux articles du sous-corpus des Communes défini ...@@ -351,12 +356,11 @@ assigne la classe *Géographie* aux articles du sous-corpus des Communes défini
ci-dessus, et la classe prédite par le modèle *BERT* entraîné pour les ci-dessus, et la classe prédite par le modèle *BERT* entraîné pour les
superdomaines sur l'*EDdA* pour les autres articles. Une fois cette définition superdomaines sur l'*EDdA* pour les autres articles. Une fois cette définition
posée, il devient possible d'évaluer la qualité de cette annotation afin de posée, il devient possible d'évaluer la qualité de cette annotation afin de
juger de son utilité. Le différentiel conceptuel entre ces classes prévu pour le juger de son utilité. Le différentiel conceptuel entre ces classes prévues pour
XVIII^ème^s. et ces articles rédigés au XIX^ème^s. (voir la section le XVIII^ème^s. et ces articles rédigés au XIX^ème^s. empêche naturellement les
\ref{sec:structuring_knowledge} p.\pageref{sec:structuring_knowledge}) empêche articles de *LGE* de correspondre parfaitement aux classes proposées. Ainsi, la
naturellement les articles de *LGE* de correspondre parfaitement aux classes présence des biographies discutées précédemment (à la section
proposées. Ainsi, la présence des biographies discutées précédemment (à la \ref{sec:knowledge_domains} p.\pageref{sec:knowledge_domains}) perturbe
section \ref{sec:knowledge_domains} p.\pageref{sec:knowledge_domains}) perturbe
évidemment le système de classes des superdomaines modelé sur l'*EDdA* qui les évidemment le système de classes des superdomaines modelé sur l'*EDdA* qui les
exclut volontairement; de même des domaines anachroniques comme l'Industrie exclut volontairement; de même des domaines anachroniques comme l'Industrie
n'existent pas parmi les superdomaines. Une telle évaluation ne peut donc pas n'existent pas parmi les superdomaines. Une telle évaluation ne peut donc pas
...@@ -385,19 +389,18 @@ Pour un article qui aurait accepté plusieurs classes, la proposition du modèle ...@@ -385,19 +389,18 @@ Pour un article qui aurait accepté plusieurs classes, la proposition du modèle
la première mentionnée dans le texte). C'est ainsi que la plupart des la première mentionnée dans le texte). C'est ainsi que la plupart des
biographies se retrouvent en *Histoire* ou dans la discipline où la personne biographies se retrouvent en *Histoire* ou dans la discipline où la personne
s'est illustrée. Pour les renvois, la classe proposée a été acceptée sauf quand s'est illustrée. Pour les renvois, la classe proposée a été acceptée sauf quand
la cible du renvois relevait manifestement d'une autre classe. Pour les la cible du renvoi relevait manifestement d'une autre classe. Pour les agrégats
agrégats de plusieurs articles, la classification a été rejetée quand vraiment de plusieurs articles, la classification a été rejetée quand vraiment aucune des
aucune des entrées contenues n'avait de rapport avec la classe proposée et entrées contenues n'avait de rapport avec la classe proposée et acceptée sinon.
acceptée sinon.
Avec cette convention, la méthode composite (*Géographie* pour les Communes, la Avec cette convention, la méthode composite (*Géographie* pour les Communes, la
prédiction de *BERT* pour les autres articles) a prédit une classe acceptable prédiction de *BERT* pour les autres articles) a prédit une classe acceptable
pour 590 articles de l'échantillon, soit 86.8% de la totalité. S'agissant d'une pour 590 articles de l'échantillon, soit 86.8% de la totalité. S'agissant d'une
évaluation binaire, qui dit juste si la classe est acceptable sans fournir de évaluation binaire, qui se contente de dire si la classe est acceptable sans
réponse attendue dans le cas contraire, il n'est pas possible de calculer de fournir de réponse attendue dans le cas contraire, il n'est pas possible de
score de rappel ni de générer de matrice de confusion pour observer les biais du calculer de score de rappel ni de générer de matrice de confusion pour observer
modèle. Le score mesuré correspond à une précision puisqu'il compte le nombre de les biais du modèle. Le score mesuré correspond à une précision puisqu'il compte
vrais positifs divisé par le nombre total d'élements. Le tableau le nombre de vrais positifs divisé par le nombre total d'élements. Le tableau
\ref{tab:lge_bert_evaluation} montre que le modèle obtient une assez bonne \ref{tab:lge_bert_evaluation} montre que le modèle obtient une assez bonne
précision sur la plupart des domaines (supérieure à 90% sur 7 domaines). Les précision sur la plupart des domaines (supérieure à 90% sur 7 domaines). Les
domaines qui mettent le plus le modèle en difficulté sont la *Chasse*, le domaines qui mettent le plus le modèle en difficulté sont la *Chasse*, le
...@@ -433,7 +436,7 @@ la première variable vale `vrai` est égale à la précision du modèle dans so ...@@ -433,7 +436,7 @@ la première variable vale `vrai` est égale à la précision du modèle dans so
ensemble, mais en fonction du résultat de ce premier tirage, la probabilité de ensemble, mais en fonction du résultat de ce premier tirage, la probabilité de
succès de la deuxième variable est affectée. Toutefois, les dimensions de succès de la deuxième variable est affectée. Toutefois, les dimensions de
l'expérience font que l'échantillon reste assez petit par rapport à l'ensemble l'expérience font que l'échantillon reste assez petit par rapport à l'ensemble
de la population (100 × 680 < 130 000) donc les variables peuvent être de la population (100 × 680 = 68 000 < 130 000) donc les variables peuvent être
considérées indépendantes (le résultat de chaque tirage affecte peu la considérées indépendantes (le résultat de chaque tirage affecte peu la
proportion d'articles dont la classification est satisfaisante parmi les proportion d'articles dont la classification est satisfaisante parmi les
articles restants). Le Théorème Central Limite s'applique donc et permet de articles restants). Le Théorème Central Limite s'applique donc et permet de
...@@ -458,7 +461,7 @@ multiplicatif lié seulement pour une loi donnée à la précision attendue, son ...@@ -458,7 +461,7 @@ multiplicatif lié seulement pour une loi donnée à la précision attendue, son
quantile. Ainsi pour que $p$ ait plus de 95% de chance de faire partie de quantile. Ainsi pour que $p$ ait plus de 95% de chance de faire partie de
l'intervalle proposé (encadrement à 95% de confiance), le quantile $z_{97.5\%}$, l'intervalle proposé (encadrement à 95% de confiance), le quantile $z_{97.5\%}$,
d'ordre $1 - \frac{5}{2} = 97.5\%$ permet d'écrire en reprenant $n$ pour d'ordre $1 - \frac{5}{2} = 97.5\%$ permet d'écrire en reprenant $n$ pour
désigner le nombre total d'article échantillonnés, l'encadrement de la formule désigner le nombre total d'articles échantillonnés, l'encadrement de la formule
\ref{eq:quality_range_algebraic}. \ref{eq:quality_range_algebraic}.
\begin{equation} \begin{equation}
...@@ -526,14 +529,14 @@ Cette section conclut les travaux en classification automatique effectués dans ...@@ -526,14 +529,14 @@ Cette section conclut les travaux en classification automatique effectués dans
le cadre de cette thèse. La comparaison de classifieurs opérée à la section le cadre de cette thèse. La comparaison de classifieurs opérée à la section
\ref{sec:classifiers_comparison} a montré la pertinence de l'emploi d'un modèle \ref{sec:classifiers_comparison} a montré la pertinence de l'emploi d'un modèle
de type *BERT* pour appliquer une classification en domaine aux articles. Plus de type *BERT* pour appliquer une classification en domaine aux articles. Plus
inattendu, cette comparaison a aussi révèlé l'intérêt spécifique de méthodes inattendu, cette comparaison a aussi révélé l'intérêt spécifique de méthodes
classiques d'[@=AA] telles que *SVM* et *SGD* associées à une vectorisation classiques d'[@=AA] telles que *SVM* et *SGD* associées à une vectorisation
*TF-IDF* sur des volumes de données de l'ordre de grandeur de ceux présents dans *TF-IDF* sur des volumes de données de l'ordre de grandeur de ceux présents dans
le corpus d'étude. Ces modèles nécessitent en effet relativement «peu» de le corpus d'étude. Ces modèles nécessitent en effet relativement «peu» de
données pour donner des résultats exploitables par rapport aux méthodes d'[@=AP] données pour produire des résultats exploitables par rapport aux méthodes
autres que *BERT*. La sous-section \ref{sec:classification_choices}) a en outre d'[@=AP] autres que *BERT*. La sous-section \ref{sec:classification_choices} a
mis en évidence le fait que *SGD*, certes légèrement moins performant que en outre mis en évidence le fait que *SGD*, certes légèrement moins performant
*BERT*, s'avère en plus particulièrement efficace du point de vue de la que *BERT*, s'avère en plus particulièrement efficace du point de vue de la
consommation énergétique. Les études conduites à la section consommation énergétique. Les études conduites à la section
\ref{sec:geo_relations} sur les erreurs faites par ce modèle sur les articles de \ref{sec:geo_relations} sur les erreurs faites par ce modèle sur les articles de
l'*EDdA* suggèrent des pistes intéressantes à explorer dans le chapitre l'*EDdA* suggèrent des pistes intéressantes à explorer dans le chapitre
......
This diff is collapsed.
...@@ -117,18 +117,19 @@ les replacer dans leur contexte historique et disciplinaire. ...@@ -117,18 +117,19 @@ les replacer dans leur contexte historique et disciplinaire.
[^iramuteq]: [http://www.iramuteq.org/](http://www.iramuteq.org/) [^iramuteq]: [http://www.iramuteq.org/](http://www.iramuteq.org/)
La notion de collocation occupe une place centrale depuis les débuts \label{linguistics_collocation}La notion de collocation occupe une place
britanniques de la discipline, chez Firth par exemple [@leon_histoire_2015, centrale depuis les débuts britanniques de la discipline, chez Firth par exemple
p.161] jusqu'à des travaux plus récents [@fellbaum_idioms_2007]. Le sens du mot [@leon_histoire_2015, p.161] jusqu'à des travaux plus récents
a changé progressivement mais il reste étroitement lié à celui de cooccurrence, [@fellbaum_idioms_2007]. Le sens du mot a changé progressivement mais il reste
c'est-à-dire l'apparition conjointe de deux termes dans un même empan textuel. étroitement lié à celui de cooccurrence, c'est-à-dire l'apparition conjointe de
Motivé par la recherche de termes fréquemment associés en vue de caractériser le deux termes dans un même empan textuel. Motivé par la recherche de termes
sens des mots dans le cadre de la production de dictionnaires (voir section fréquemment associés en vue de caractériser le sens des mots dans le cadre de la
\ref{sec:EdlA_lexicography_concept}), le concept de collocation en est production de dictionnaires (voir section \ref{sec:EdlA_lexicography_concept}),
progressivement venu à désigner des cooccurrences particulièrement fréquentes le concept de collocation en est progressivement venu à désigner des
jusqu'à créer une «attente mutuelle» chez les locuteurs [@leon_sources_2008, cooccurrences particulièrement fréquentes jusqu'à créer une «attente mutuelle»
p.16]. Caractériser cette attente demande une mesure statistique précise de leur chez les locuteurs [@leon_sources_2008, p.16]. Caractériser cette attente
surreprésentation [@lafon_analyse_1981]. demande une mesure statistique précise de leur surreprésentation
[@lafon_analyse_1981].
En pratique, l'implémentation du calcul des cooccurrences le rapproche de celui En pratique, l'implémentation du calcul des cooccurrences le rapproche de celui
des spécificités comme le fait remarquer @pincemin_semantique_2022[p.4]. Avant des spécificités comme le fait remarquer @pincemin_semantique_2022[p.4]. Avant
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment