Skip to content
Snippets Groups Projects
Commit 340f7452 authored by Alice Brenon's avatar Alice Brenon
Browse files

Finish proofreading chapter 4 Classification (many changes, variable renamings...

Finish proofreading chapter 4 Classification (many changes, variable renamings in the equations, added an introductory ¶ + comments linking n-grams back to collocation)
parent 2dd3db61
No related branches found
No related tags found
No related merge requests found
## Annotation des articles {#sec:classification_application}
Après avoir comparé différents modèles de classification automatique, l'étude
des erreurs de prédiction a mis en évidence des ressemblances entre les domaines
de connaissance. Ces parentés suggérent des pistes pour les analyses du chapitre
\ref{sec:contrasts} mais, avant de pouvoir les exploiter, il reste à appliquer
une classification à l'ensemble des articles du corpus.
### Choix d'un classifieur {#sec:classification_choices}
Si le travail de comparaison des méthodes de classification décrit dans cette
partie a été effectué sur le jeu des 38 «domaines regroupés», c'est celui des 17
«superdomaines» (les deux sont décrits à la section
\ref{sec:domains_build_classes}) qui a été plus utilisé pour les études
contrastives du chapitre suivant (voir chapitre \ref{sec:contrasts}). Il a donc
été non seulement nécessaire de choisir une architecture définitive de modèle de
classification, mais aussi de réappliquer les chaînes de traitement utilisées
pour les comparaisons décrites à la section \ref{sec:classifiers_comparison}
p.\pageref{sec:classifiers_comparison} pour la prédiction de superdomaines.
contrastives. Il a donc été non seulement nécessaire de choisir une architecture
définitive de modèle de classification, mais aussi de réappliquer les chaînes de
traitement utilisées pour les comparaisons décrites à la section
\ref{sec:classifiers_comparison} p.\pageref{sec:classifiers_comparison} pour la
prédiction de superdomaines.
#### Superdomaines {#sec:edda_superdomains_classifier}
......@@ -97,7 +103,7 @@ d'étiquettes des superdomaines a été mesurée à l'aide des outils développ
@lacoste_quantifying_2019. L'opération a été effectué pour les deux modèles sur
la même machine du Centre Blaise Pascal de l'ENS de Lyon
[@quemener_sidussolution_2013] équipée d'une carte GPU de type NVIDIA RTX A2000
12GB et d'un CPU Intel Core i3-2120 d'une fréquence 3.30GHz
12GB et d'un CPU Intel Core i3-2120 d'une fréquence 3.30GHz.
L'ensemble de l'expérience a consommé 594 W·h comme le montre le tableau
\ref{tab:energy_consumption}, ce qui représente une quantité d'énergie de
......@@ -115,9 +121,9 @@ expérience soit l'équivalent d'environ 6km de voyage en Eurostar pour une
personne d'après les chiffres de la SNCF[^SNCF].
[^EEA]:
https://www.eea.europa.eu/en/analysis/indicators/greenhouse-gas-emission-intensity-of-1
[https://www.eea.europa.eu/en/analysis/indicators/greenhouse-gas-emission-intensity-of-1](https://www.eea.europa.eu/en/analysis/indicators/greenhouse-gas-emission-intensity-of-1)
[^SNCF]:
https://medias.sncf.com/sncfcom/rse/Methodologie-generale_guide-information-CO2.pdf
[https://ressources.data.sncf.com/explore/dataset/info-ges/information/](https://ressources.data.sncf.com/explore/dataset/info-ges/information/)
+---------------+---------------+----------+---------------+
| Modèle | *SGD+TF-IDF* | *BERT* | Total |
......@@ -236,7 +242,7 @@ demeure trop superficiel et n'y donne pas accès (voir la section
\ref{sec:corpus_lge} page \pageref{sec:corpus_lge}). Pour obtenir une
classification de ses articles, il faut donc utiliser les prédictions du modèle
*BERT* discuté précédemment dans cette section. Cela pose naturellement un
problème épistémologique majeur: l'ensemble de classe des superdomaines a été
problème épistémologique majeur: l'ensemble de classes des superdomaines a été
conçu pour représenter de manière simplifiée les domaines de connaissance du
XVIII^ème^ siècle, sans prise en compte particulière de l'état des sciences au
XIX^ème^ ni même des domaines choisis par les éditeurs de *LGE*. L'application
......@@ -286,17 +292,16 @@ empiriquement après échantillonnage d'articles ayant une occurrence de
l'expression précédente sur leur première ligne.
Plus précisément, le motif est sujet à une certaine variation sans doute en
partie du fait de l'envergure de projet de *LGE* — par application de ce
principe empirique proposé au début du présent chapitre qui veut qu'à cette
échelle tout motif subit des mutations (voir la section \ref{sec:principles}
p.\pageref{sec:principles}) — mais surtout à cause des erreurs d'[@=OCR] qui
fournissent un rendu imprécis des caractères présents sur le papier. Certains
'C' majuscules, peut-être à cause d'une tache sur le papier ont été lus comme
'G', certains '.' à la fin des abréviations ont pu être pris pour des ',' voire
être omis entièrement. Pour ces raisons, l'expression régulière écrite pour
rechercher ce motif a été largement étendue pour s'adapter à tous les cas
rencontrés empiriquement dans les articles comme le montre l'extrait de code
source \ref{lst:com_du_dep_regex}.
partie du fait de l'envergure de projet de *LGE* — par application de ce constat
empirique formulé à la section \ref{sec:principles} qui énonce qu'à cette
échelle tout motif subit des mutations (voir p.\pageref{sec:principles}) — mais
surtout à cause des erreurs d'[@=OCR] qui fournissent un rendu imprécis des
caractères présents sur le papier. Certains 'C' majuscules, peut-être à cause
d'une tache sur le papier ont été lus comme 'G', certains '.' à la fin des
abréviations ont pu être pris pour des ',' voire être omis entièrement. Pour ces
raisons, l'expression régulière écrite pour rechercher ce motif a été largement
étendue pour s'adapter à tous les cas rencontrés empiriquement dans les articles
comme le montre l'extrait de code source \ref{lst:com_du_dep_regex}.
\begin{lstlisting}[caption=Expression régulière utilisée pour repérer les
entrées de communes,label=lst:com_du_dep_regex]
......@@ -351,12 +356,11 @@ assigne la classe *Géographie* aux articles du sous-corpus des Communes défini
ci-dessus, et la classe prédite par le modèle *BERT* entraîné pour les
superdomaines sur l'*EDdA* pour les autres articles. Une fois cette définition
posée, il devient possible d'évaluer la qualité de cette annotation afin de
juger de son utilité. Le différentiel conceptuel entre ces classes prévu pour le
XVIII^ème^s. et ces articles rédigés au XIX^ème^s. (voir la section
\ref{sec:structuring_knowledge} p.\pageref{sec:structuring_knowledge}) empêche
naturellement les articles de *LGE* de correspondre parfaitement aux classes
proposées. Ainsi, la présence des biographies discutées précédemment (à la
section \ref{sec:knowledge_domains} p.\pageref{sec:knowledge_domains}) perturbe
juger de son utilité. Le différentiel conceptuel entre ces classes prévues pour
le XVIII^ème^s. et ces articles rédigés au XIX^ème^s. empêche naturellement les
articles de *LGE* de correspondre parfaitement aux classes proposées. Ainsi, la
présence des biographies discutées précédemment (à la section
\ref{sec:knowledge_domains} p.\pageref{sec:knowledge_domains}) perturbe
évidemment le système de classes des superdomaines modelé sur l'*EDdA* qui les
exclut volontairement; de même des domaines anachroniques comme l'Industrie
n'existent pas parmi les superdomaines. Une telle évaluation ne peut donc pas
......@@ -385,19 +389,18 @@ Pour un article qui aurait accepté plusieurs classes, la proposition du modèle
la première mentionnée dans le texte). C'est ainsi que la plupart des
biographies se retrouvent en *Histoire* ou dans la discipline où la personne
s'est illustrée. Pour les renvois, la classe proposée a été acceptée sauf quand
la cible du renvois relevait manifestement d'une autre classe. Pour les
agrégats de plusieurs articles, la classification a été rejetée quand vraiment
aucune des entrées contenues n'avait de rapport avec la classe proposée et
acceptée sinon.
la cible du renvoi relevait manifestement d'une autre classe. Pour les agrégats
de plusieurs articles, la classification a été rejetée quand vraiment aucune des
entrées contenues n'avait de rapport avec la classe proposée et acceptée sinon.
Avec cette convention, la méthode composite (*Géographie* pour les Communes, la
prédiction de *BERT* pour les autres articles) a prédit une classe acceptable
pour 590 articles de l'échantillon, soit 86.8% de la totalité. S'agissant d'une
évaluation binaire, qui dit juste si la classe est acceptable sans fournir de
réponse attendue dans le cas contraire, il n'est pas possible de calculer de
score de rappel ni de générer de matrice de confusion pour observer les biais du
modèle. Le score mesuré correspond à une précision puisqu'il compte le nombre de
vrais positifs divisé par le nombre total d'élements. Le tableau
évaluation binaire, qui se contente de dire si la classe est acceptable sans
fournir de réponse attendue dans le cas contraire, il n'est pas possible de
calculer de score de rappel ni de générer de matrice de confusion pour observer
les biais du modèle. Le score mesuré correspond à une précision puisqu'il compte
le nombre de vrais positifs divisé par le nombre total d'élements. Le tableau
\ref{tab:lge_bert_evaluation} montre que le modèle obtient une assez bonne
précision sur la plupart des domaines (supérieure à 90% sur 7 domaines). Les
domaines qui mettent le plus le modèle en difficulté sont la *Chasse*, le
......@@ -433,7 +436,7 @@ la première variable vale `vrai` est égale à la précision du modèle dans so
ensemble, mais en fonction du résultat de ce premier tirage, la probabilité de
succès de la deuxième variable est affectée. Toutefois, les dimensions de
l'expérience font que l'échantillon reste assez petit par rapport à l'ensemble
de la population (100 × 680 < 130 000) donc les variables peuvent être
de la population (100 × 680 = 68 000 < 130 000) donc les variables peuvent être
considérées indépendantes (le résultat de chaque tirage affecte peu la
proportion d'articles dont la classification est satisfaisante parmi les
articles restants). Le Théorème Central Limite s'applique donc et permet de
......@@ -458,7 +461,7 @@ multiplicatif lié seulement pour une loi donnée à la précision attendue, son
quantile. Ainsi pour que $p$ ait plus de 95% de chance de faire partie de
l'intervalle proposé (encadrement à 95% de confiance), le quantile $z_{97.5\%}$,
d'ordre $1 - \frac{5}{2} = 97.5\%$ permet d'écrire en reprenant $n$ pour
désigner le nombre total d'article échantillonnés, l'encadrement de la formule
désigner le nombre total d'articles échantillonnés, l'encadrement de la formule
\ref{eq:quality_range_algebraic}.
\begin{equation}
......@@ -526,14 +529,14 @@ Cette section conclut les travaux en classification automatique effectués dans
le cadre de cette thèse. La comparaison de classifieurs opérée à la section
\ref{sec:classifiers_comparison} a montré la pertinence de l'emploi d'un modèle
de type *BERT* pour appliquer une classification en domaine aux articles. Plus
inattendu, cette comparaison a aussi révèlé l'intérêt spécifique de méthodes
inattendu, cette comparaison a aussi révélé l'intérêt spécifique de méthodes
classiques d'[@=AA] telles que *SVM* et *SGD* associées à une vectorisation
*TF-IDF* sur des volumes de données de l'ordre de grandeur de ceux présents dans
le corpus d'étude. Ces modèles nécessitent en effet relativement «peu» de
données pour donner des résultats exploitables par rapport aux méthodes d'[@=AP]
autres que *BERT*. La sous-section \ref{sec:classification_choices}) a en outre
mis en évidence le fait que *SGD*, certes légèrement moins performant que
*BERT*, s'avère en plus particulièrement efficace du point de vue de la
données pour produire des résultats exploitables par rapport aux méthodes
d'[@=AP] autres que *BERT*. La sous-section \ref{sec:classification_choices} a
en outre mis en évidence le fait que *SGD*, certes légèrement moins performant
que *BERT*, s'avère en plus particulièrement efficace du point de vue de la
consommation énergétique. Les études conduites à la section
\ref{sec:geo_relations} sur les erreurs faites par ce modèle sur les articles de
l'*EDdA* suggèrent des pistes intéressantes à explorer dans le chapitre
......
This diff is collapsed.
......@@ -117,18 +117,19 @@ les replacer dans leur contexte historique et disciplinaire.
[^iramuteq]: [http://www.iramuteq.org/](http://www.iramuteq.org/)
La notion de collocation occupe une place centrale depuis les débuts
britanniques de la discipline, chez Firth par exemple [@leon_histoire_2015,
p.161] jusqu'à des travaux plus récents [@fellbaum_idioms_2007]. Le sens du mot
a changé progressivement mais il reste étroitement lié à celui de cooccurrence,
c'est-à-dire l'apparition conjointe de deux termes dans un même empan textuel.
Motivé par la recherche de termes fréquemment associés en vue de caractériser le
sens des mots dans le cadre de la production de dictionnaires (voir section
\ref{sec:EdlA_lexicography_concept}), le concept de collocation en est
progressivement venu à désigner des cooccurrences particulièrement fréquentes
jusqu'à créer une «attente mutuelle» chez les locuteurs [@leon_sources_2008,
p.16]. Caractériser cette attente demande une mesure statistique précise de leur
surreprésentation [@lafon_analyse_1981].
\label{linguistics_collocation}La notion de collocation occupe une place
centrale depuis les débuts britanniques de la discipline, chez Firth par exemple
[@leon_histoire_2015, p.161] jusqu'à des travaux plus récents
[@fellbaum_idioms_2007]. Le sens du mot a changé progressivement mais il reste
étroitement lié à celui de cooccurrence, c'est-à-dire l'apparition conjointe de
deux termes dans un même empan textuel. Motivé par la recherche de termes
fréquemment associés en vue de caractériser le sens des mots dans le cadre de la
production de dictionnaires (voir section \ref{sec:EdlA_lexicography_concept}),
le concept de collocation en est progressivement venu à désigner des
cooccurrences particulièrement fréquentes jusqu'à créer une «attente mutuelle»
chez les locuteurs [@leon_sources_2008, p.16]. Caractériser cette attente
demande une mesure statistique précise de leur surreprésentation
[@lafon_analyse_1981].
En pratique, l'implémentation du calcul des cooccurrences le rapproche de celui
des spécificités comme le fait remarquer @pincemin_semantique_2022[p.4]. Avant
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment