Minor rewording upon reading the end of the state-of-the-art another time

2aa578ed · Alice Brenon · cfce6191 · 2aa578ed · 2aa578ed · 2aa578ed
Commit 2aa578ed authored 5 months ago by Alice Brenon
--- a/ÉdlA/Historique.md
+++ b/ÉdlA/Historique.md
@@ -65,9 +65,9 @@ Mais depuis 2010, le balancier semble cassé si l'on en croit
 @church_pendulum_2011[p.2], qui s'inquiète de ne pas voir les méthodes
 rationalistes faire leur retour à l'issue de la période d'une vingtaine d'années
 qui séparait les pics d'activités dans chacune des deux approches lors des
-oscillations précédentes. Loin de revenir dans les recherches pour combler
+oscillations précédentes. Loin de revenir dans les recherches pour combler les
-d'éventuelles lacunes des méthodes statistiques, elles se retrouvent éclipsées
+lacunes des méthodes statistiques, elles se retrouvent éclipsées jusque dans les
-jusque dans les contenus pédagogiques [@church_pendulum_2011, p.19 et seq.].
+contenus pédagogiques [@church_pendulum_2011, p.19 et seq.].
 Plus d'une décennie plus tard, ses inquiétudes semblent on ne peut plus fondées:
 l'approche empiriste occupe plus que jamais le devant de la scène et le terme
@@ -111,7 +111,8 @@ d'expériences de pensée [@willinsky_wittgenstein_2001, p.197]. L'école
 britannique, de Firth à Sinclair, s'inscrit naturellement tout à fait dans cette
 approche. En France aussi, mais de façon tout à fait différente, les
 mathématiques s'intéressent à la linguistique à cette époque et vont apporter
-énormément à la discipline.
+énormément à la discipline à travers les contributions de chercheurs comme
+Benzécri.
 Il ne s'agit donc pas d'un mouvement homogène mais bien d'une constellation de
 pratiques, ce qui complique déjà le choix d'un nom satisfaisant pour cette seule
@@ -149,7 +150,7 @@ Language Processing*) tant l'emploi de l'acronyme anglais équivalent est massif
 même chez des francophones quand il s'agit d'[@=AA].
 Ainsi, à l'issue des considérations historiques et réflexions précédentes la
-place relative des approches couvertes dans les deux sections suivante de cet
+place relative des approches couvertes dans les deux sections suivantes de cet
 état de l'art devient claire. La section \ref{sec:EdlA_TAL} s'intéresse au
 versant informatique de la discipline, majoritairement à des méthodes empiristes
 mais sans exclure quelques techniques rationalistes. La section

--- a/ÉdlA/Linguistique_de_corpus.md
+++ b/ÉdlA/Linguistique_de_corpus.md
@@ -4,14 +4,14 @@ La branche la plus ancienne des méthodes statistiques présentées à la sectio
 \ref{sec:EdlA_TAL_history} (voir p.\pageref{sec:EdlA_TAL_history}) est née bien
 avant que des réseaux de neurones ne soient utilisables en pratique. On pourrait
 donc la croire éteinte: cette dernière section entend montrer qu'il n'en est
-rien. Puisant aux sources les plus théoriques de la statistique, les linguistes
+rien. Puisant aux sources des mathématiques et de la statistique, les linguistes
 n'ont pas attendu ces technologies pour mobiliser des approches très variées sur
 leurs problématiques de recherche.
 ### Du texte au corpus
 Un dénominateur commun à toutes ces approches existe dans la notion de corpus,
-qui peut en première intention se comprendre comme un «ensemble» de textes.
+qui peut en première intention se comprendre comme une «collection» de textes.
 Avant de décrire dans le reste de cette partie les différentes manières de
 réunir un tel ensemble, il est utile de commencer par s'interroger sur la notion
 de «texte» puisque c'est par rapport à elle que sera définie celle de corpus.

--- a/ÉdlA/TAL.md
+++ b/ÉdlA/TAL.md
@@ -18,16 +18,16 @@ comme un «sac de mots» [@salton1986introduction]. L'ensemble des mots dans un
 corpus (tokens ou lemmes selon les implémentations) constitue le vocabulaire
 utilisé comme base d'un espace vectoriel de très grande dimension dans lequel
 chaque document est représenté. Pour chaque vecteur de cette base (correspondant
-donc à un mot unique du corpus), la composante associée dans le vecteur
+donc à un mot unique du corpus), la composante associée dans le vecteur qui
-représentant un document est un entier positif ou nul égal au nombre
+représente un document est un entier positif ou nul égal au nombre d'occurrences
-d'occurrences du mot (sa fréquence) dans ce document. Le terme anglophone
+du mot (sa fréquence) dans ce document. Le terme anglophone consacré est «*Bag
-consacré est «*Bag of Words*», et bien que ce terme soit le seul pour lequel
+of Words*», et bien que ce terme soit le seul pour lequel l'équivalent français
-l'équivalent français s'emploie, l'acronyme *BoW* sera également utilisé dans ce
+s'emploie, l'acronyme *BoW* sera également utilisé dans ce qui suit par soucis
-qui suit par soucis d'homogénéité avec les autres méthodes. Cette approche
+d'homogénéité avec les autres méthodes. Cette approche produit des
-produit des représentations vectorielles très grandes (beaucoup de nombres) et
+représentations vectorielles très grandes (beaucoup de nombres) et avec peu de
-avec peu de valeurs non nulles (la plupart valent 0) car chaque document
+valeurs non nulles (la plupart valent 0) car chaque document n'utilise qu'une
-n'utilise qu'une fraction de l'ensemble du vocabulaire défini par le corpus
+fraction de l'ensemble du vocabulaire défini par le corpus entier. On parle de
-entier. On parle de représentation *creuse* (*sparse* en anglais).
+représentation *creuse* (*sparse* en anglais).
 La deuxième approche, TF-IDF (*Term Frequency - Inverse Document Frequency*,
 «fréquence du terme - fréquence inverse de document») est un type de
@@ -38,33 +38,32 @@ les *BoW* «purs», les vecteurs produits par cette méthode sont creux, ce qui
 tend à dégrader les performances des algorithmes d'[@=AA] en augmentant leurs
 complexités spatiales et temporelles.
-\label{edla_word_embeddings}Enfin, les plongements de mots constituent une
+\label{edla_word_embeddings} Par contraste avec les deux approches précédentes,
-famille de méthodes fondamentalement différentes des deux précédentes du fait
+les plongements de mots produisent des vecteurs de plus petites dimensions et
-qu'elles capturent le contexte des mots dans leurs représentations vectorielles.
+denses en coefficients non nuls. Ils constituent une famille de méthodes
-Il y a deux approches pour entraîner des plongements de mots: CBOW (*Continuous
+fondamentalement différentes des deux précédentes du fait qu'elles capturent le
-Bag of Words*, «sacs de mots continus») et *skip-gram* («fenêtres à trou»). La
+contexte des mots dans leurs représentations vectorielles. Il y a deux approches
-première consiste à prédire un mot en fonction de son contexte. À l'inverse, une
+pour entraîner des plongements de mots: CBOW (*Continuous Bag of Words*, «sacs
-architecture *skip-gram* apprend à prédire le contexte à partir d'un mot. Par
+de mots continus») et *skip-gram* («fenêtres à trou»). La première consiste à
-contraste avec les deux approches précédentes, les plongements de mots
+prédire un mot en fonction de son contexte. À l'inverse, une architecture
-produisent des vecteurs de plus petites dimensions et denses en coefficients non
+*skip-gram* apprend à prédire le contexte à partir d'un mot. Initialement pensée
-nuls. Initialement pensée au niveau des mots individuels, *Word2Vec*
+au niveau des mots individuels, *Word2Vec* [@mikolov2013efficient] permet déjà
-[@mikolov2013efficient] permet déjà de représenter un texte en combinant les
+de représenter un texte en combinant les vecteurs des mots qu'il contient (par
-vecteurs des mots qu'il contient (par exemple en faisant leur moyenne). Peu
+exemple en faisant leur moyenne). Peu adapté aux textes longs, on lui préfère
-adapté aux textes longs, on lui préfère souvent la méthode voisine *Doc2Vec*
+souvent la méthode voisine *Doc2Vec* [@le2014distributed] sur ce type d'entrées.
-[@le2014distributed] sur ce type d'entrées. Ces méthodes de plongements
+Ces méthodes de plongements nécessitent un entraînement sur le corpus sur lequel
-nécessitent un entraînement sur le corpus sur lequel elles vont être utilisées
+elles vont être utilisées mais d'autres telles que *FastText*
-mais d'autres telles que *FastText* [@bojanowski2017enriching] sont disponibles
+[@bojanowski2017enriching] sont disponibles préentraînées. On parle pour ces
-préentraînées. On parle pour ces méthodes de plongement «statique» parce
+méthodes de plongement «statique» parce qu'elles produisent un vecteur unique
-qu'elles produisent un vecteur unique pour représenter un mot, en combinant tous
+pour représenter un mot, en combinant tous les différents contextes dans
-les différents contextes dans lesquels il peut apparaître. Plus récemment,
+lesquels il peut apparaître. Plus récemment, *BERT*
-*BERT* [@devlin2018bert] — *Bidirectional Encoder Representations from
+[@devlin2018bert] — *Bidirectional Encoder Representations from Transformers*
-Transformers* («Représentations d'Encodeur Bi-directionnels à partir de
+(«Représentations d'Encodeur Bi-directionnels à partir de Transformeurs», voir
-Transformeurs», voir p.\pageref{deep_learning_classifiers}) — utilise un
+p.\pageref{deep_learning_classifiers}) — utilise un plongement contextuel, où la
-plongement contextuel, où la représentation de chaque mot dépend du contexte
+représentation de chaque mot dépend du contexte dans lequel il apparaît dans une
-dans lequel il apparaît dans une phrase, pour la phase de vectorisation qu'il
+phrase, pour la phase de vectorisation qu'il intègre. *BERT* utilise des réseaux
-intègre. *BERT* utilise des réseaux de neurones de type *transformer* et le
+de neurones de type *transformer* et le concept de masque pour prédire les mots
-concept de masque pour prédire les mots qui complètent une amorce de phrase
+qui complètent une amorce de phrase donnée.
-donnée.
 ### Classification {#sec:EdlA_classification}
@@ -106,13 +105,13 @@ articles à travers 4 éditions de l'œuvre [@grabus_representing_2019].
 Dans tous les cas évoqués ci-dessus, l'ensemble de classes à attribuer aux
 documents est défini en amont de l'étude. Il n'est pas pour autant indépendant
-du corpus d'étude mais correspond au contraire à un axe d'étude que l'on suppose
+du corpus mais correspond au contraire à un axe d'analyse que l'on suppose
 pertinent: un partitionnement suivant une sensibilité politique peut avoir un
 intérêt pour classer des discours parlementaires ou des professions de foi
 électorales, mais serait à priori beaucoup moins adapté à des prévisions
 météorologiques ou des recettes de cuisine.
-À partir de l'ensemble de classes, un échantillon des documents doit être classé
+À partir de l'ensemble de classes, un échantillon des documents doit être annoté
 manuellement pour servir de référence pour l'entraînement du modèle de
 classification: il s'agit de classification supervisée. Plus précisément, on
 distingue un jeu d'entraînement qui aide directement à ajuster les coefficients
@@ -138,11 +137,11 @@ adaptés à l'analyse de données séquentielles, trouvent un prolongement dans
 de mieux capturer des dépendances éloignées dans les séquences d'entrées
 [@hochreiter_lstm_1997], ce que les [@=RNN] ne parviennent pas à faire en
 pratique. Une autre technique d'[@=AP] pour garder accès aux premiers éléments
-d'une séquence d'entrée nommée l'«attention» est au centre de l'architecture des
+d'une séquence d'entrée, nommée l'«attention», est au centre de l'architecture
-transformeurs, un autre modèle d'[@=AP] qui définissait l'état de l'art au début
+des transformeurs, un autre modèle d'[@=AP] qui définissait l'état de l'art au
-de cette thèse. Un modèle tel que *BERT*, basé sur des transformeurs, permet à
+début de cette thèse. Un modèle tel que *BERT*, basé sur des transformeurs,
-la fois la vectorisation et la classification de ses entrées. Son très grand
+permet à la fois la vectorisation et la classification de ses entrées. Son très
-nombre de paramètres requiert des ressources de calcul titanesques pour
+grand nombre de paramètres requiert des ressources de calcul titanesques pour
 entraîner un tel modèle à partir de rien. Puisque de tels moyens ne sont à
 l'heure actuelle disponibles qu'à de grands groupes privés, le modèle est
 distribué préentraîné sur des tâches générales et ne doit subir qu'un