diff --git "a/\303\211dlA/Historique.md" "b/\303\211dlA/Historique.md" index f6656da8c625d6bb3781c2aaaf1573e4b9dbae6e..5be5997b407ee3fab2b1e5597b1a185d72419d01 100644 --- "a/\303\211dlA/Historique.md" +++ "b/\303\211dlA/Historique.md" @@ -65,9 +65,9 @@ Mais depuis 2010, le balancier semble cassé si l'on en croit @church_pendulum_2011[p.2], qui s'inquiète de ne pas voir les méthodes rationalistes faire leur retour à l'issue de la période d'une vingtaine d'années qui séparait les pics d'activités dans chacune des deux approches lors des -oscillations précédentes. Loin de revenir dans les recherches pour combler -d'éventuelles lacunes des méthodes statistiques, elles se retrouvent éclipsées -jusque dans les contenus pédagogiques [@church_pendulum_2011, p.19 et seq.]. +oscillations précédentes. Loin de revenir dans les recherches pour combler les +lacunes des méthodes statistiques, elles se retrouvent éclipsées jusque dans les +contenus pédagogiques [@church_pendulum_2011, p.19 et seq.]. Plus d'une décennie plus tard, ses inquiétudes semblent on ne peut plus fondées: l'approche empiriste occupe plus que jamais le devant de la scène et le terme @@ -111,7 +111,8 @@ d'expériences de pensée [@willinsky_wittgenstein_2001, p.197]. L'école britannique, de Firth à Sinclair, s'inscrit naturellement tout à fait dans cette approche. En France aussi, mais de façon tout à fait différente, les mathématiques s'intéressent à la linguistique à cette époque et vont apporter -énormément à la discipline. +énormément à la discipline à travers les contributions de chercheurs comme +Benzécri. Il ne s'agit donc pas d'un mouvement homogène mais bien d'une constellation de pratiques, ce qui complique déjà le choix d'un nom satisfaisant pour cette seule @@ -149,7 +150,7 @@ Language Processing*) tant l'emploi de l'acronyme anglais équivalent est massif même chez des francophones quand il s'agit d'[@=AA]. Ainsi, à l'issue des considérations historiques et réflexions précédentes la -place relative des approches couvertes dans les deux sections suivante de cet +place relative des approches couvertes dans les deux sections suivantes de cet état de l'art devient claire. La section \ref{sec:EdlA_TAL} s'intéresse au versant informatique de la discipline, majoritairement à des méthodes empiristes mais sans exclure quelques techniques rationalistes. La section diff --git "a/\303\211dlA/Linguistique_de_corpus.md" "b/\303\211dlA/Linguistique_de_corpus.md" index dae873b451a349b23cb4a5f833645241ed196b4a..e1655c18813a4018d35c9747d8754cdd8808f8a5 100644 --- "a/\303\211dlA/Linguistique_de_corpus.md" +++ "b/\303\211dlA/Linguistique_de_corpus.md" @@ -4,14 +4,14 @@ La branche la plus ancienne des méthodes statistiques présentées à la sectio \ref{sec:EdlA_TAL_history} (voir p.\pageref{sec:EdlA_TAL_history}) est née bien avant que des réseaux de neurones ne soient utilisables en pratique. On pourrait donc la croire éteinte: cette dernière section entend montrer qu'il n'en est -rien. Puisant aux sources les plus théoriques de la statistique, les linguistes +rien. Puisant aux sources des mathématiques et de la statistique, les linguistes n'ont pas attendu ces technologies pour mobiliser des approches très variées sur leurs problématiques de recherche. ### Du texte au corpus Un dénominateur commun à toutes ces approches existe dans la notion de corpus, -qui peut en première intention se comprendre comme un «ensemble» de textes. +qui peut en première intention se comprendre comme une «collection» de textes. Avant de décrire dans le reste de cette partie les différentes manières de réunir un tel ensemble, il est utile de commencer par s'interroger sur la notion de «texte» puisque c'est par rapport à elle que sera définie celle de corpus. diff --git "a/\303\211dlA/TAL.md" "b/\303\211dlA/TAL.md" index f8c9126ac4905c3dbf4dc9069c6e48bd62e56a8c..74b6f852b6dfc116c6cc0e2bc5b3ea7665f34330 100644 --- "a/\303\211dlA/TAL.md" +++ "b/\303\211dlA/TAL.md" @@ -18,16 +18,16 @@ comme un «sac de mots» [@salton1986introduction]. L'ensemble des mots dans un corpus (tokens ou lemmes selon les implémentations) constitue le vocabulaire utilisé comme base d'un espace vectoriel de très grande dimension dans lequel chaque document est représenté. Pour chaque vecteur de cette base (correspondant -donc à un mot unique du corpus), la composante associée dans le vecteur -représentant un document est un entier positif ou nul égal au nombre -d'occurrences du mot (sa fréquence) dans ce document. Le terme anglophone -consacré est «*Bag of Words*», et bien que ce terme soit le seul pour lequel -l'équivalent français s'emploie, l'acronyme *BoW* sera également utilisé dans ce -qui suit par soucis d'homogénéité avec les autres méthodes. Cette approche -produit des représentations vectorielles très grandes (beaucoup de nombres) et -avec peu de valeurs non nulles (la plupart valent 0) car chaque document -n'utilise qu'une fraction de l'ensemble du vocabulaire défini par le corpus -entier. On parle de représentation *creuse* (*sparse* en anglais). +donc à un mot unique du corpus), la composante associée dans le vecteur qui +représente un document est un entier positif ou nul égal au nombre d'occurrences +du mot (sa fréquence) dans ce document. Le terme anglophone consacré est «*Bag +of Words*», et bien que ce terme soit le seul pour lequel l'équivalent français +s'emploie, l'acronyme *BoW* sera également utilisé dans ce qui suit par soucis +d'homogénéité avec les autres méthodes. Cette approche produit des +représentations vectorielles très grandes (beaucoup de nombres) et avec peu de +valeurs non nulles (la plupart valent 0) car chaque document n'utilise qu'une +fraction de l'ensemble du vocabulaire défini par le corpus entier. On parle de +représentation *creuse* (*sparse* en anglais). La deuxième approche, TF-IDF (*Term Frequency - Inverse Document Frequency*, «fréquence du terme - fréquence inverse de document») est un type de @@ -38,33 +38,32 @@ les *BoW* «purs», les vecteurs produits par cette méthode sont creux, ce qui tend à dégrader les performances des algorithmes d'[@=AA] en augmentant leurs complexités spatiales et temporelles. -\label{edla_word_embeddings}Enfin, les plongements de mots constituent une -famille de méthodes fondamentalement différentes des deux précédentes du fait -qu'elles capturent le contexte des mots dans leurs représentations vectorielles. -Il y a deux approches pour entraîner des plongements de mots: CBOW (*Continuous -Bag of Words*, «sacs de mots continus») et *skip-gram* («fenêtres à trou»). La -première consiste à prédire un mot en fonction de son contexte. À l'inverse, une -architecture *skip-gram* apprend à prédire le contexte à partir d'un mot. Par -contraste avec les deux approches précédentes, les plongements de mots -produisent des vecteurs de plus petites dimensions et denses en coefficients non -nuls. Initialement pensée au niveau des mots individuels, *Word2Vec* -[@mikolov2013efficient] permet déjà de représenter un texte en combinant les -vecteurs des mots qu'il contient (par exemple en faisant leur moyenne). Peu -adapté aux textes longs, on lui préfère souvent la méthode voisine *Doc2Vec* -[@le2014distributed] sur ce type d'entrées. Ces méthodes de plongements -nécessitent un entraînement sur le corpus sur lequel elles vont être utilisées -mais d'autres telles que *FastText* [@bojanowski2017enriching] sont disponibles -préentraînées. On parle pour ces méthodes de plongement «statique» parce -qu'elles produisent un vecteur unique pour représenter un mot, en combinant tous -les différents contextes dans lesquels il peut apparaître. Plus récemment, -*BERT* [@devlin2018bert] — *Bidirectional Encoder Representations from -Transformers* («Représentations d'Encodeur Bi-directionnels à partir de -Transformeurs», voir p.\pageref{deep_learning_classifiers}) — utilise un -plongement contextuel, où la représentation de chaque mot dépend du contexte -dans lequel il apparaît dans une phrase, pour la phase de vectorisation qu'il -intègre. *BERT* utilise des réseaux de neurones de type *transformer* et le -concept de masque pour prédire les mots qui complètent une amorce de phrase -donnée. +\label{edla_word_embeddings} Par contraste avec les deux approches précédentes, +les plongements de mots produisent des vecteurs de plus petites dimensions et +denses en coefficients non nuls. Ils constituent une famille de méthodes +fondamentalement différentes des deux précédentes du fait qu'elles capturent le +contexte des mots dans leurs représentations vectorielles. Il y a deux approches +pour entraîner des plongements de mots: CBOW (*Continuous Bag of Words*, «sacs +de mots continus») et *skip-gram* («fenêtres à trou»). La première consiste à +prédire un mot en fonction de son contexte. À l'inverse, une architecture +*skip-gram* apprend à prédire le contexte à partir d'un mot. Initialement pensée +au niveau des mots individuels, *Word2Vec* [@mikolov2013efficient] permet déjà +de représenter un texte en combinant les vecteurs des mots qu'il contient (par +exemple en faisant leur moyenne). Peu adapté aux textes longs, on lui préfère +souvent la méthode voisine *Doc2Vec* [@le2014distributed] sur ce type d'entrées. +Ces méthodes de plongements nécessitent un entraînement sur le corpus sur lequel +elles vont être utilisées mais d'autres telles que *FastText* +[@bojanowski2017enriching] sont disponibles préentraînées. On parle pour ces +méthodes de plongement «statique» parce qu'elles produisent un vecteur unique +pour représenter un mot, en combinant tous les différents contextes dans +lesquels il peut apparaître. Plus récemment, *BERT* +[@devlin2018bert] — *Bidirectional Encoder Representations from Transformers* +(«Représentations d'Encodeur Bi-directionnels à partir de Transformeurs», voir +p.\pageref{deep_learning_classifiers}) — utilise un plongement contextuel, où la +représentation de chaque mot dépend du contexte dans lequel il apparaît dans une +phrase, pour la phase de vectorisation qu'il intègre. *BERT* utilise des réseaux +de neurones de type *transformer* et le concept de masque pour prédire les mots +qui complètent une amorce de phrase donnée. ### Classification {#sec:EdlA_classification} @@ -106,13 +105,13 @@ articles à travers 4 éditions de l'œuvre [@grabus_representing_2019]. Dans tous les cas évoqués ci-dessus, l'ensemble de classes à attribuer aux documents est défini en amont de l'étude. Il n'est pas pour autant indépendant -du corpus d'étude mais correspond au contraire à un axe d'étude que l'on suppose +du corpus mais correspond au contraire à un axe d'analyse que l'on suppose pertinent: un partitionnement suivant une sensibilité politique peut avoir un intérêt pour classer des discours parlementaires ou des professions de foi électorales, mais serait à priori beaucoup moins adapté à des prévisions météorologiques ou des recettes de cuisine. -À partir de l'ensemble de classes, un échantillon des documents doit être classé +À partir de l'ensemble de classes, un échantillon des documents doit être annoté manuellement pour servir de référence pour l'entraînement du modèle de classification: il s'agit de classification supervisée. Plus précisément, on distingue un jeu d'entraînement qui aide directement à ajuster les coefficients @@ -138,11 +137,11 @@ adaptés à l'analyse de données séquentielles, trouvent un prolongement dans de mieux capturer des dépendances éloignées dans les séquences d'entrées [@hochreiter_lstm_1997], ce que les [@=RNN] ne parviennent pas à faire en pratique. Une autre technique d'[@=AP] pour garder accès aux premiers éléments -d'une séquence d'entrée nommée l'«attention» est au centre de l'architecture des -transformeurs, un autre modèle d'[@=AP] qui définissait l'état de l'art au début -de cette thèse. Un modèle tel que *BERT*, basé sur des transformeurs, permet à -la fois la vectorisation et la classification de ses entrées. Son très grand -nombre de paramètres requiert des ressources de calcul titanesques pour +d'une séquence d'entrée, nommée l'«attention», est au centre de l'architecture +des transformeurs, un autre modèle d'[@=AP] qui définissait l'état de l'art au +début de cette thèse. Un modèle tel que *BERT*, basé sur des transformeurs, +permet à la fois la vectorisation et la classification de ses entrées. Son très +grand nombre de paramètres requiert des ressources de calcul titanesques pour entraîner un tel modèle à partir de rien. Puisque de tels moyens ne sont à l'heure actuelle disponibles qu'à de grands groupes privés, le modèle est distribué préentraîné sur des tâches générales et ne doit subir qu'un