Finish proofreading chapter 4 Classification (many changes, variable renamings...

Finish proofreading chapter 4 Classification (many changes, variable renamings in the equations, added an introductory ¶ + comments linking n-grams back to collocation)

Finish proofreading chapter 4 Classification (many changes, variable renamings...
Finish proofreading chapter 4 Classification (many changes, variable renamings in the equations, added an introductory ¶ + comments linking n-grams back to collocation)
340f7452 · Alice Brenon · 2dd3db61 · 340f7452 · 340f7452 · 340f7452
Commit 340f7452 authored 3 months ago by Alice Brenon
--- a/Classification/Application.md
+++ b/Classification/Application.md
 ## Annotation des articles {#sec:classification_application}

+Après avoir comparé différents modèles de classification automatique, l'étude
+des erreurs de prédiction a mis en évidence des ressemblances entre les domaines
+de connaissance. Ces parentés suggérent des pistes pour les analyses du chapitre
+\ref{sec:contrasts} mais, avant de pouvoir les exploiter, il reste à appliquer
+une classification à l'ensemble des articles du corpus.
+
 ### Choix d'un classifieur {#sec:classification_choices}

 Si le travail de comparaison des méthodes de classification décrit dans cette
 partie a été effectué sur le jeu des 38 «domaines regroupés», c'est celui des 17
 «superdomaines» (les deux sont décrits à la section
 \ref{sec:domains_build_classes}) qui a été plus utilisé pour les études
-contrastives du chapitre suivant (voir chapitre \ref{sec:contrasts}). Il a donc
-été non seulement nécessaire de choisir une architecture définitive de modèle de
-classification, mais aussi de réappliquer les chaînes de traitement utilisées
-pour les comparaisons décrites à la section \ref{sec:classifiers_comparison}
-p.\pageref{sec:classifiers_comparison} pour la prédiction de superdomaines.
+contrastives. Il a donc été non seulement nécessaire de choisir une architecture
+définitive de modèle de classification, mais aussi de réappliquer les chaînes de
+traitement utilisées pour les comparaisons décrites à la section
+\ref{sec:classifiers_comparison} p.\pageref{sec:classifiers_comparison} pour la
+prédiction de superdomaines.

 #### Superdomaines {#sec:edda_superdomains_classifier}

@@ -97,7 +103,7 @@ d'étiquettes des superdomaines a été mesurée à l'aide des outils développ
 @lacoste_quantifying_2019. L'opération a été effectué pour les deux modèles sur
 la même machine du Centre Blaise Pascal de l'ENS de Lyon
 [@quemener_sidussolution_2013] équipée d'une carte GPU de type NVIDIA RTX A2000
-12GB et d'un CPU Intel Core i3-2120 d'une fréquence 3.30GHz
+12GB et d'un CPU Intel Core i3-2120 d'une fréquence 3.30GHz.

 L'ensemble de l'expérience a consommé 594 W·h comme le montre le tableau
 \ref{tab:energy_consumption}, ce qui représente une quantité d'énergie de
@@ -115,9 +121,9 @@ expérience soit l'équivalent d'environ 6km de voyage en Eurostar pour une
 personne d'après les chiffres de la SNCF[^SNCF].

 [^EEA]:
-    https://www.eea.europa.eu/en/analysis/indicators/greenhouse-gas-emission-intensity-of-1
+    [https://www.eea.europa.eu/en/analysis/indicators/greenhouse-gas-emission-intensity-of-1](https://www.eea.europa.eu/en/analysis/indicators/greenhouse-gas-emission-intensity-of-1)
 [^SNCF]:
-    https://medias.sncf.com/sncfcom/rse/Methodologie-generale_guide-information-CO2.pdf
+    [https://ressources.data.sncf.com/explore/dataset/info-ges/information/](https://ressources.data.sncf.com/explore/dataset/info-ges/information/)

 +---------------+---------------+----------+---------------+
 | Modèle        | *SGD+TF-IDF*  | *BERT*   | Total         |
@@ -236,7 +242,7 @@ demeure trop superficiel et n'y donne pas accès (voir la section
 \ref{sec:corpus_lge} page \pageref{sec:corpus_lge}). Pour obtenir une
 classification de ses articles, il faut donc utiliser les prédictions du modèle
 *BERT* discuté précédemment dans cette section. Cela pose naturellement un
-problème épistémologique majeur: l'ensemble de classe des superdomaines a été
+problème épistémologique majeur: l'ensemble de classes des superdomaines a été
 conçu pour représenter de manière simplifiée les domaines de connaissance du
 XVIII^ème^ siècle, sans prise en compte particulière de l'état des sciences au
 XIX^ème^ ni même des domaines choisis par les éditeurs de *LGE*. L'application
@@ -286,17 +292,16 @@ empiriquement après échantillonnage d'articles ayant une occurrence de
 l'expression précédente sur leur première ligne.

 Plus précisément, le motif est sujet à une certaine variation sans doute en
-partie du fait de l'envergure de projet de *LGE* — par application de ce
-principe empirique proposé au début du présent chapitre qui veut qu'à cette
-échelle tout motif subit des mutations (voir la section \ref{sec:principles}
-p.\pageref{sec:principles}) — mais surtout à cause des erreurs d'[@=OCR] qui
-fournissent un rendu imprécis des caractères présents sur le papier. Certains
-'C' majuscules, peut-être à cause d'une tache sur le papier ont été lus comme
-'G', certains '.' à la fin des abréviations ont pu être pris pour des ',' voire
-être omis entièrement. Pour ces raisons, l'expression régulière écrite pour
-rechercher ce motif a été largement étendue pour s'adapter à tous les cas
-rencontrés empiriquement dans les articles comme le montre l'extrait de code
-source \ref{lst:com_du_dep_regex}.
+partie du fait de l'envergure de projet de *LGE* — par application de ce constat
+empirique formulé à la section \ref{sec:principles} qui énonce qu'à cette
+échelle tout motif subit des mutations (voir p.\pageref{sec:principles}) — mais
+surtout à cause des erreurs d'[@=OCR] qui fournissent un rendu imprécis des
+caractères présents sur le papier. Certains 'C' majuscules, peut-être à cause
+d'une tache sur le papier ont été lus comme 'G', certains '.' à la fin des
+abréviations ont pu être pris pour des ',' voire être omis entièrement. Pour ces
+raisons, l'expression régulière écrite pour rechercher ce motif a été largement
+étendue pour s'adapter à tous les cas rencontrés empiriquement dans les articles
+comme le montre l'extrait de code source \ref{lst:com_du_dep_regex}.

 \begin{lstlisting}[caption=Expression régulière utilisée pour repérer les
 entrées de communes,label=lst:com_du_dep_regex]
@@ -351,12 +356,11 @@ assigne la classe *Géographie* aux articles du sous-corpus des Communes défini
 ci-dessus, et la classe prédite par le modèle *BERT* entraîné pour les
 superdomaines sur l'*EDdA* pour les autres articles. Une fois cette définition
 posée, il devient possible d'évaluer la qualité de cette annotation afin de
-juger de son utilité. Le différentiel conceptuel entre ces classes prévu pour le
-XVIII^ème^s. et ces articles rédigés au XIX^ème^s. (voir la section
-\ref{sec:structuring_knowledge} p.\pageref{sec:structuring_knowledge}) empêche
-naturellement les articles de *LGE* de correspondre parfaitement aux classes
-proposées. Ainsi, la présence des biographies discutées précédemment (à la
-section \ref{sec:knowledge_domains} p.\pageref{sec:knowledge_domains}) perturbe
+juger de son utilité. Le différentiel conceptuel entre ces classes prévues pour
+le XVIII^ème^s. et ces articles rédigés au XIX^ème^s. empêche naturellement les
+articles de *LGE* de correspondre parfaitement aux classes proposées. Ainsi, la
+présence des biographies discutées précédemment (à la section
+\ref{sec:knowledge_domains} p.\pageref{sec:knowledge_domains}) perturbe
 évidemment le système de classes des superdomaines modelé sur l'*EDdA* qui les
 exclut volontairement; de même des domaines anachroniques comme l'Industrie
 n'existent pas parmi les superdomaines. Une telle évaluation ne peut donc pas
@@ -385,19 +389,18 @@ Pour un article qui aurait accepté plusieurs classes, la proposition du modèle
 la première mentionnée dans le texte). C'est ainsi que la plupart des
 biographies se retrouvent en *Histoire* ou dans la discipline où la personne
 s'est illustrée. Pour les renvois, la classe proposée a été acceptée sauf quand
-la cible du renvois relevait manifestement d'une autre classe. Pour les
-agrégats de plusieurs articles, la classification a été rejetée quand vraiment
-aucune des entrées contenues n'avait de rapport avec la classe proposée et
-acceptée sinon.
+la cible du renvoi relevait manifestement d'une autre classe. Pour les agrégats
+de plusieurs articles, la classification a été rejetée quand vraiment aucune des
+entrées contenues n'avait de rapport avec la classe proposée et acceptée sinon.

 Avec cette convention, la méthode composite (*Géographie* pour les Communes, la
 prédiction de *BERT* pour les autres articles) a prédit une classe acceptable
 pour 590 articles de l'échantillon, soit 86.8% de la totalité. S'agissant d'une
-évaluation binaire, qui dit juste si la classe est acceptable sans fournir de
-réponse attendue dans le cas contraire, il n'est pas possible de calculer de
-score de rappel ni de générer de matrice de confusion pour observer les biais du
-modèle. Le score mesuré correspond à une précision puisqu'il compte le nombre de
-vrais positifs divisé par le nombre total d'élements. Le tableau
+évaluation binaire, qui se contente de dire si la classe est acceptable sans
+fournir de réponse attendue dans le cas contraire, il n'est pas possible de
+calculer de score de rappel ni de générer de matrice de confusion pour observer
+les biais du modèle. Le score mesuré correspond à une précision puisqu'il compte
+le nombre de vrais positifs divisé par le nombre total d'élements. Le tableau
 \ref{tab:lge_bert_evaluation} montre que le modèle obtient une assez bonne
 précision sur la plupart des domaines (supérieure à 90% sur 7 domaines). Les
 domaines qui mettent le plus le modèle en difficulté sont la *Chasse*, le
@@ -433,7 +436,7 @@ la première variable vale `vrai` est égale à la précision du modèle dans so
 ensemble, mais en fonction du résultat de ce premier tirage, la probabilité de
 succès de la deuxième variable est affectée. Toutefois, les dimensions de
 l'expérience font que l'échantillon reste assez petit par rapport à l'ensemble
-de la population (100 × 680 < 130 000) donc les variables peuvent être
+de la population (100 × 680 = 68 000 < 130 000) donc les variables peuvent être
 considérées indépendantes (le résultat de chaque tirage affecte peu la
 proportion d'articles dont la classification est satisfaisante parmi les
 articles restants). Le Théorème Central Limite s'applique donc et permet de
@@ -458,7 +461,7 @@ multiplicatif lié seulement pour une loi donnée à la précision attendue, son
 quantile. Ainsi pour que $p$ ait plus de 95% de chance de faire partie de
 l'intervalle proposé (encadrement à 95% de confiance), le quantile $z_{97.5\%}$,
 d'ordre $1 - \frac{5}{2} = 97.5\%$ permet d'écrire en reprenant $n$ pour
-désigner le nombre total d'article échantillonnés, l'encadrement de la formule
+désigner le nombre total d'articles échantillonnés, l'encadrement de la formule
 \ref{eq:quality_range_algebraic}.

 \begin{equation}
@@ -526,14 +529,14 @@ Cette section conclut les travaux en classification automatique effectués dans
 le cadre de cette thèse. La comparaison de classifieurs opérée à la section
 \ref{sec:classifiers_comparison} a montré la pertinence de l'emploi d'un modèle
 de type *BERT* pour appliquer une classification en domaine aux articles. Plus
-inattendu, cette comparaison a aussi révèlé l'intérêt spécifique de méthodes
+inattendu, cette comparaison a aussi révélé l'intérêt spécifique de méthodes
 classiques d'[@=AA] telles que *SVM* et *SGD* associées à une vectorisation
 *TF-IDF* sur des volumes de données de l'ordre de grandeur de ceux présents dans
 le corpus d'étude. Ces modèles nécessitent en effet relativement «peu» de
-données pour donner des résultats exploitables par rapport aux méthodes d'[@=AP]
-autres que *BERT*. La sous-section \ref{sec:classification_choices}) a en outre
-mis en évidence le fait que *SGD*, certes légèrement moins performant que
-*BERT*, s'avère en plus particulièrement efficace du point de vue de la
+données pour produire des résultats exploitables par rapport aux méthodes
+d'[@=AP] autres que *BERT*. La sous-section \ref{sec:classification_choices} a
+en outre mis en évidence le fait que *SGD*, certes légèrement moins performant
+que *BERT*, s'avère en plus particulièrement efficace du point de vue de la
 consommation énergétique. Les études conduites à la section
 \ref{sec:geo_relations} sur les erreurs faites par ce modèle sur les articles de
 l'*EDdA* suggèrent des pistes intéressantes à explorer dans le chapitre

--- a/Classification/Relations.md
+++ b/Classification/Relations.md
--- a/ÉdlA/Linguistique_de_corpus.md
+++ b/ÉdlA/Linguistique_de_corpus.md
@@ -117,18 +117,19 @@ les replacer dans leur contexte historique et disciplinaire.

 [^iramuteq]: [http://www.iramuteq.org/](http://www.iramuteq.org/)

-La notion de collocation occupe une place centrale depuis les débuts
-britanniques de la discipline, chez Firth par exemple [@leon_histoire_2015,
-p.161] jusqu'à des travaux plus récents [@fellbaum_idioms_2007]. Le sens du mot
-a changé progressivement mais il reste étroitement lié à celui de cooccurrence,
-c'est-à-dire l'apparition conjointe de deux termes dans un même empan textuel.
-Motivé par la recherche de termes fréquemment associés en vue de caractériser le
-sens des mots dans le cadre de la production de dictionnaires (voir section
-\ref{sec:EdlA_lexicography_concept}), le concept de collocation en est
-progressivement venu à désigner des cooccurrences particulièrement fréquentes
-jusqu'à créer une «attente mutuelle» chez les locuteurs [@leon_sources_2008,
-p.16]. Caractériser cette attente demande une mesure statistique précise de leur
-surreprésentation [@lafon_analyse_1981].
+\label{linguistics_collocation}La notion de collocation occupe une place
+centrale depuis les débuts britanniques de la discipline, chez Firth par exemple
+[@leon_histoire_2015, p.161] jusqu'à des travaux plus récents
+[@fellbaum_idioms_2007]. Le sens du mot a changé progressivement mais il reste
+étroitement lié à celui de cooccurrence, c'est-à-dire l'apparition conjointe de
+deux termes dans un même empan textuel. Motivé par la recherche de termes
+fréquemment associés en vue de caractériser le sens des mots dans le cadre de la
+production de dictionnaires (voir section \ref{sec:EdlA_lexicography_concept}),
+le concept de collocation en est progressivement venu à désigner des
+cooccurrences particulièrement fréquentes jusqu'à créer une «attente mutuelle»
+chez les locuteurs [@leon_sources_2008, p.16]. Caractériser cette attente
+demande une mesure statistique précise de leur surreprésentation
+[@lafon_analyse_1981].

 En pratique, l'implémentation du calcul des cooccurrences le rapproche de celui
 des spécificités comme le fait remarquer @pincemin_semantique_2022[p.4]. Avant