Finish proofreading chapter 4 Classification (many changes, variable renamings...

Finish proofreading chapter 4 Classification (many changes, variable renamings in the equations, added an introductory ¶ + comments linking n-grams back to collocation)

Finish proofreading chapter 4 Classification (many changes, variable renamings...
Finish proofreading chapter 4 Classification (many changes, variable renamings in the equations, added an introductory ¶ + comments linking n-grams back to collocation)
340f7452 · Alice Brenon · 2dd3db61 · 340f7452 · 340f7452 · 340f7452
Commit 340f7452 authored 4 months ago by Alice Brenon
--- a/Classification/Application.md
+++ b/Classification/Application.md
 ## Annotation des articles {#sec:classification_application}
+Après avoir comparé différents modèles de classification automatique, l'étude
+des erreurs de prédiction a mis en évidence des ressemblances entre les domaines
+de connaissance. Ces parentés suggérent des pistes pour les analyses du chapitre
+\ref{sec:contrasts} mais, avant de pouvoir les exploiter, il reste à appliquer
+une classification à l'ensemble des articles du corpus.
 ### Choix d'un classifieur {#sec:classification_choices}
 Si le travail de comparaison des méthodes de classification décrit dans cette
 partie a été effectué sur le jeu des 38 «domaines regroupés», c'est celui des 17
 «superdomaines» (les deux sont décrits à la section
 \ref{sec:domains_build_classes}) qui a été plus utilisé pour les études
-contrastives du chapitre suivant (voir chapitre \ref{sec:contrasts}). Il a donc
+contrastives. Il a donc été non seulement nécessaire de choisir une architecture
-été non seulement nécessaire de choisir une architecture définitive de modèle de
+définitive de modèle de classification, mais aussi de réappliquer les chaînes de
-classification, mais aussi de réappliquer les chaînes de traitement utilisées
+traitement utilisées pour les comparaisons décrites à la section
-pour les comparaisons décrites à la section \ref{sec:classifiers_comparison}
+\ref{sec:classifiers_comparison} p.\pageref{sec:classifiers_comparison} pour la
-p.\pageref{sec:classifiers_comparison} pour la prédiction de superdomaines.
+prédiction de superdomaines.
 #### Superdomaines {#sec:edda_superdomains_classifier}
@@ -97,7 +103,7 @@ d'étiquettes des superdomaines a été mesurée à l'aide des outils développ
 @lacoste_quantifying_2019. L'opération a été effectué pour les deux modèles sur
 la même machine du Centre Blaise Pascal de l'ENS de Lyon
 [@quemener_sidussolution_2013] équipée d'une carte GPU de type NVIDIA RTX A2000
-12GB et d'un CPU Intel Core i3-2120 d'une fréquence 3.30GHz
+12GB et d'un CPU Intel Core i3-2120 d'une fréquence 3.30GHz.
 L'ensemble de l'expérience a consommé 594 W·h comme le montre le tableau
 \ref{tab:energy_consumption}, ce qui représente une quantité d'énergie de
@@ -115,9 +121,9 @@ expérience soit l'équivalent d'environ 6km de voyage en Eurostar pour une
 personne d'après les chiffres de la SNCF[^SNCF].
 [^EEA]:
-    https://www.eea.europa.eu/en/analysis/indicators/greenhouse-gas-emission-intensity-of-1
+    [https://www.eea.europa.eu/en/analysis/indicators/greenhouse-gas-emission-intensity-of-1](https://www.eea.europa.eu/en/analysis/indicators/greenhouse-gas-emission-intensity-of-1)
 [^SNCF]:
-    https://medias.sncf.com/sncfcom/rse/Methodologie-generale_guide-information-CO2.pdf
+    [https://ressources.data.sncf.com/explore/dataset/info-ges/information/](https://ressources.data.sncf.com/explore/dataset/info-ges/information/)
 +---------------+---------------+----------+---------------+
 | Modèle        | *SGD+TF-IDF*  | *BERT*   | Total         |
@@ -236,7 +242,7 @@ demeure trop superficiel et n'y donne pas accès (voir la section
 \ref{sec:corpus_lge} page \pageref{sec:corpus_lge}). Pour obtenir une
 classification de ses articles, il faut donc utiliser les prédictions du modèle
 *BERT* discuté précédemment dans cette section. Cela pose naturellement un
-problème épistémologique majeur: l'ensemble de classe des superdomaines a été
+problème épistémologique majeur: l'ensemble de classes des superdomaines a été
 conçu pour représenter de manière simplifiée les domaines de connaissance du
 XVIII^ème^ siècle, sans prise en compte particulière de l'état des sciences au
 XIX^ème^ ni même des domaines choisis par les éditeurs de *LGE*. L'application
@@ -286,17 +292,16 @@ empiriquement après échantillonnage d'articles ayant une occurrence de
 l'expression précédente sur leur première ligne.
 Plus précisément, le motif est sujet à une certaine variation sans doute en
-partie du fait de l'envergure de projet de *LGE* — par application de ce
+partie du fait de l'envergure de projet de *LGE* — par application de ce constat
-principe empirique proposé au début du présent chapitre qui veut qu'à cette
+empirique formulé à la section \ref{sec:principles} qui énonce qu'à cette
-échelle tout motif subit des mutations (voir la section \ref{sec:principles}
+échelle tout motif subit des mutations (voir p.\pageref{sec:principles}) — mais
-p.\pageref{sec:principles}) — mais surtout à cause des erreurs d'[@=OCR] qui
+surtout à cause des erreurs d'[@=OCR] qui fournissent un rendu imprécis des
-fournissent un rendu imprécis des caractères présents sur le papier. Certains
+caractères présents sur le papier. Certains 'C' majuscules, peut-être à cause
-'C' majuscules, peut-être à cause d'une tache sur le papier ont été lus comme
+d'une tache sur le papier ont été lus comme 'G', certains '.' à la fin des
-'G', certains '.' à la fin des abréviations ont pu être pris pour des ',' voire
+abréviations ont pu être pris pour des ',' voire être omis entièrement. Pour ces
-être omis entièrement. Pour ces raisons, l'expression régulière écrite pour
+raisons, l'expression régulière écrite pour rechercher ce motif a été largement
-rechercher ce motif a été largement étendue pour s'adapter à tous les cas
+étendue pour s'adapter à tous les cas rencontrés empiriquement dans les articles
-rencontrés empiriquement dans les articles comme le montre l'extrait de code
+comme le montre l'extrait de code source \ref{lst:com_du_dep_regex}.
-source \ref{lst:com_du_dep_regex}.
 \begin{lstlisting}[caption=Expression régulière utilisée pour repérer les
 entrées de communes,label=lst:com_du_dep_regex]
@@ -351,12 +356,11 @@ assigne la classe *Géographie* aux articles du sous-corpus des Communes défini
 ci-dessus, et la classe prédite par le modèle *BERT* entraîné pour les
 superdomaines sur l'*EDdA* pour les autres articles. Une fois cette définition
 posée, il devient possible d'évaluer la qualité de cette annotation afin de
-juger de son utilité. Le différentiel conceptuel entre ces classes prévu pour le
+juger de son utilité. Le différentiel conceptuel entre ces classes prévues pour
-XVIII^ème^s. et ces articles rédigés au XIX^ème^s. (voir la section
+le XVIII^ème^s. et ces articles rédigés au XIX^ème^s. empêche naturellement les
-\ref{sec:structuring_knowledge} p.\pageref{sec:structuring_knowledge}) empêche
+articles de *LGE* de correspondre parfaitement aux classes proposées. Ainsi, la
-naturellement les articles de *LGE* de correspondre parfaitement aux classes
+présence des biographies discutées précédemment (à la section
-proposées. Ainsi, la présence des biographies discutées précédemment (à la
+\ref{sec:knowledge_domains} p.\pageref{sec:knowledge_domains}) perturbe
-section \ref{sec:knowledge_domains} p.\pageref{sec:knowledge_domains}) perturbe
 évidemment le système de classes des superdomaines modelé sur l'*EDdA* qui les
 exclut volontairement; de même des domaines anachroniques comme l'Industrie
 n'existent pas parmi les superdomaines. Une telle évaluation ne peut donc pas
@@ -385,19 +389,18 @@ Pour un article qui aurait accepté plusieurs classes, la proposition du modèle
 la première mentionnée dans le texte). C'est ainsi que la plupart des
 biographies se retrouvent en *Histoire* ou dans la discipline où la personne
 s'est illustrée. Pour les renvois, la classe proposée a été acceptée sauf quand
-la cible du renvois relevait manifestement d'une autre classe. Pour les
+la cible du renvoi relevait manifestement d'une autre classe. Pour les agrégats
-agrégats de plusieurs articles, la classification a été rejetée quand vraiment
+de plusieurs articles, la classification a été rejetée quand vraiment aucune des
-aucune des entrées contenues n'avait de rapport avec la classe proposée et
+entrées contenues n'avait de rapport avec la classe proposée et acceptée sinon.
-acceptée sinon.
 Avec cette convention, la méthode composite (*Géographie* pour les Communes, la
 prédiction de *BERT* pour les autres articles) a prédit une classe acceptable
 pour 590 articles de l'échantillon, soit 86.8% de la totalité. S'agissant d'une
-évaluation binaire, qui dit juste si la classe est acceptable sans fournir de
+évaluation binaire, qui se contente de dire si la classe est acceptable sans
-réponse attendue dans le cas contraire, il n'est pas possible de calculer de
+fournir de réponse attendue dans le cas contraire, il n'est pas possible de
-score de rappel ni de générer de matrice de confusion pour observer les biais du
+calculer de score de rappel ni de générer de matrice de confusion pour observer
-modèle. Le score mesuré correspond à une précision puisqu'il compte le nombre de
+les biais du modèle. Le score mesuré correspond à une précision puisqu'il compte
-vrais positifs divisé par le nombre total d'élements. Le tableau
+le nombre de vrais positifs divisé par le nombre total d'élements. Le tableau
 \ref{tab:lge_bert_evaluation} montre que le modèle obtient une assez bonne
 précision sur la plupart des domaines (supérieure à 90% sur 7 domaines). Les
 domaines qui mettent le plus le modèle en difficulté sont la *Chasse*, le
@@ -433,7 +436,7 @@ la première variable vale `vrai` est égale à la précision du modèle dans so
 ensemble, mais en fonction du résultat de ce premier tirage, la probabilité de
 succès de la deuxième variable est affectée. Toutefois, les dimensions de
 l'expérience font que l'échantillon reste assez petit par rapport à l'ensemble
-de la population (100 × 680 < 130 000) donc les variables peuvent être
+de la population (100 × 680 = 68 000 < 130 000) donc les variables peuvent être
 considérées indépendantes (le résultat de chaque tirage affecte peu la
 proportion d'articles dont la classification est satisfaisante parmi les
 articles restants). Le Théorème Central Limite s'applique donc et permet de
@@ -458,7 +461,7 @@ multiplicatif lié seulement pour une loi donnée à la précision attendue, son
 quantile. Ainsi pour que $p$ ait plus de 95% de chance de faire partie de
 l'intervalle proposé (encadrement à 95% de confiance), le quantile $z_{97.5\%}$,
 d'ordre $1 - \frac{5}{2} = 97.5\%$ permet d'écrire en reprenant $n$ pour
-désigner le nombre total d'article échantillonnés, l'encadrement de la formule
+désigner le nombre total d'articles échantillonnés, l'encadrement de la formule
 \ref{eq:quality_range_algebraic}.
 \begin{equation}
@@ -526,14 +529,14 @@ Cette section conclut les travaux en classification automatique effectués dans
 le cadre de cette thèse. La comparaison de classifieurs opérée à la section
 \ref{sec:classifiers_comparison} a montré la pertinence de l'emploi d'un modèle
 de type *BERT* pour appliquer une classification en domaine aux articles. Plus
-inattendu, cette comparaison a aussi révèlé l'intérêt spécifique de méthodes
+inattendu, cette comparaison a aussi révélé l'intérêt spécifique de méthodes
 classiques d'[@=AA] telles que *SVM* et *SGD* associées à une vectorisation
 *TF-IDF* sur des volumes de données de l'ordre de grandeur de ceux présents dans
 le corpus d'étude. Ces modèles nécessitent en effet relativement «peu» de
-données pour donner des résultats exploitables par rapport aux méthodes d'[@=AP]
+données pour produire des résultats exploitables par rapport aux méthodes
-autres que *BERT*. La sous-section \ref{sec:classification_choices}) a en outre
+d'[@=AP] autres que *BERT*. La sous-section \ref{sec:classification_choices} a
-mis en évidence le fait que *SGD*, certes légèrement moins performant que
+en outre mis en évidence le fait que *SGD*, certes légèrement moins performant
-*BERT*, s'avère en plus particulièrement efficace du point de vue de la
+que *BERT*, s'avère en plus particulièrement efficace du point de vue de la
 consommation énergétique. Les études conduites à la section
 \ref{sec:geo_relations} sur les erreurs faites par ce modèle sur les articles de
 l'*EDdA* suggèrent des pistes intéressantes à explorer dans le chapitre

--- a/Classification/Relations.md
+++ b/Classification/Relations.md
--- a/ÉdlA/Linguistique_de_corpus.md
+++ b/ÉdlA/Linguistique_de_corpus.md
@@ -117,18 +117,19 @@ les replacer dans leur contexte historique et disciplinaire.
 [^iramuteq]: [http://www.iramuteq.org/](http://www.iramuteq.org/)
-La notion de collocation occupe une place centrale depuis les débuts
+\label{linguistics_collocation}La notion de collocation occupe une place
-britanniques de la discipline, chez Firth par exemple [@leon_histoire_2015,
+centrale depuis les débuts britanniques de la discipline, chez Firth par exemple
-p.161] jusqu'à des travaux plus récents [@fellbaum_idioms_2007]. Le sens du mot
+[@leon_histoire_2015, p.161] jusqu'à des travaux plus récents
-a changé progressivement mais il reste étroitement lié à celui de cooccurrence,
+[@fellbaum_idioms_2007]. Le sens du mot a changé progressivement mais il reste
-c'est-à-dire l'apparition conjointe de deux termes dans un même empan textuel.
+étroitement lié à celui de cooccurrence, c'est-à-dire l'apparition conjointe de
-Motivé par la recherche de termes fréquemment associés en vue de caractériser le
+deux termes dans un même empan textuel. Motivé par la recherche de termes
-sens des mots dans le cadre de la production de dictionnaires (voir section
+fréquemment associés en vue de caractériser le sens des mots dans le cadre de la
-\ref{sec:EdlA_lexicography_concept}), le concept de collocation en est
+production de dictionnaires (voir section \ref{sec:EdlA_lexicography_concept}),
-progressivement venu à désigner des cooccurrences particulièrement fréquentes
+le concept de collocation en est progressivement venu à désigner des
-jusqu'à créer une «attente mutuelle» chez les locuteurs [@leon_sources_2008,
+cooccurrences particulièrement fréquentes jusqu'à créer une «attente mutuelle»
-p.16]. Caractériser cette attente demande une mesure statistique précise de leur
+chez les locuteurs [@leon_sources_2008, p.16]. Caractériser cette attente
-surreprésentation [@lafon_analyse_1981].
+demande une mesure statistique précise de leur surreprésentation
+[@lafon_analyse_1981].
 En pratique, l'implémentation du calcul des cooccurrences le rapproche de celui
 des spécificités comme le fait remarquer @pincemin_semantique_2022[p.4]. Avant