Skip to content
GitLab
Explore
Sign in
Primary navigation
Search or go to…
Project
M
manuscrit
Manage
Activity
Members
Labels
Plan
Issues
0
Issue boards
Milestones
Wiki
Code
Merge requests
0
Repository
Branches
Commits
Tags
Repository graph
Compare revisions
Snippets
Build
Pipelines
Jobs
Pipeline schedules
Artifacts
Deploy
Releases
Package Registry
Model registry
Operate
Environments
Terraform modules
Monitor
Incidents
Analyze
Value stream analytics
Contributor analytics
CI/CD analytics
Repository analytics
Model experiments
Help
Help
Support
GitLab documentation
Compare GitLab plans
Community forum
Contribute to GitLab
Provide feedback
Keyboard shortcuts
?
Snippets
Groups
Projects
Show more breadcrumbs
Alice Brenon
manuscrit
Commits
2aa578ed
Commit
2aa578ed
authored
5 months ago
by
Alice Brenon
Browse files
Options
Downloads
Patches
Plain Diff
Minor rewording upon reading the end of the state-of-the-art another time
parent
cfce6191
No related branches found
No related tags found
No related merge requests found
Changes
3
Hide whitespace changes
Inline
Side-by-side
Showing
3 changed files
ÉdlA/Historique.md
+6
-5
6 additions, 5 deletions
ÉdlA/Historique.md
ÉdlA/Linguistique_de_corpus.md
+2
-2
2 additions, 2 deletions
ÉdlA/Linguistique_de_corpus.md
ÉdlA/TAL.md
+43
-44
43 additions, 44 deletions
ÉdlA/TAL.md
with
51 additions
and
51 deletions
ÉdlA/Historique.md
+
6
−
5
View file @
2aa578ed
...
@@ -65,9 +65,9 @@ Mais depuis 2010, le balancier semble cassé si l'on en croit
...
@@ -65,9 +65,9 @@ Mais depuis 2010, le balancier semble cassé si l'on en croit
@church_pendulum_2011[p.2], qui s'inquiète de ne pas voir les méthodes
@church_pendulum_2011[p.2], qui s'inquiète de ne pas voir les méthodes
rationalistes faire leur retour à l'issue de la période d'une vingtaine d'années
rationalistes faire leur retour à l'issue de la période d'une vingtaine d'années
qui séparait les pics d'activités dans chacune des deux approches lors des
qui séparait les pics d'activités dans chacune des deux approches lors des
oscillations précédentes. Loin de revenir dans les recherches pour combler
oscillations précédentes. Loin de revenir dans les recherches pour combler
les
d'éventuelles
lacunes des méthodes statistiques, elles se retrouvent éclipsées
lacunes des méthodes statistiques, elles se retrouvent éclipsées
jusque dans les
jusque dans les
contenus pédagogiques [@church_pendulum_2011, p.19 et seq.].
contenus pédagogiques [@church_pendulum_2011, p.19 et seq.].
Plus d'une décennie plus tard, ses inquiétudes semblent on ne peut plus fondées:
Plus d'une décennie plus tard, ses inquiétudes semblent on ne peut plus fondées:
l'approche empiriste occupe plus que jamais le devant de la scène et le terme
l'approche empiriste occupe plus que jamais le devant de la scène et le terme
...
@@ -111,7 +111,8 @@ d'expériences de pensée [@willinsky_wittgenstein_2001, p.197]. L'école
...
@@ -111,7 +111,8 @@ d'expériences de pensée [@willinsky_wittgenstein_2001, p.197]. L'école
britannique, de Firth à Sinclair, s'inscrit naturellement tout à fait dans cette
britannique, de Firth à Sinclair, s'inscrit naturellement tout à fait dans cette
approche. En France aussi, mais de façon tout à fait différente, les
approche. En France aussi, mais de façon tout à fait différente, les
mathématiques s'intéressent à la linguistique à cette époque et vont apporter
mathématiques s'intéressent à la linguistique à cette époque et vont apporter
énormément à la discipline.
énormément à la discipline à travers les contributions de chercheurs comme
Benzécri.
Il ne s'agit donc pas d'un mouvement homogène mais bien d'une constellation de
Il ne s'agit donc pas d'un mouvement homogène mais bien d'une constellation de
pratiques, ce qui complique déjà le choix d'un nom satisfaisant pour cette seule
pratiques, ce qui complique déjà le choix d'un nom satisfaisant pour cette seule
...
@@ -149,7 +150,7 @@ Language Processing*) tant l'emploi de l'acronyme anglais équivalent est massif
...
@@ -149,7 +150,7 @@ Language Processing*) tant l'emploi de l'acronyme anglais équivalent est massif
même chez des francophones quand il s'agit d'[@=AA].
même chez des francophones quand il s'agit d'[@=AA].
Ainsi, à l'issue des considérations historiques et réflexions précédentes la
Ainsi, à l'issue des considérations historiques et réflexions précédentes la
place relative des approches couvertes dans les deux sections suivante de cet
place relative des approches couvertes dans les deux sections suivante
s
de cet
état de l'art devient claire. La section
\r
ef{sec:EdlA_TAL} s'intéresse au
état de l'art devient claire. La section
\r
ef{sec:EdlA_TAL} s'intéresse au
versant informatique de la discipline, majoritairement à des méthodes empiristes
versant informatique de la discipline, majoritairement à des méthodes empiristes
mais sans exclure quelques techniques rationalistes. La section
mais sans exclure quelques techniques rationalistes. La section
...
...
This diff is collapsed.
Click to expand it.
ÉdlA/Linguistique_de_corpus.md
+
2
−
2
View file @
2aa578ed
...
@@ -4,14 +4,14 @@ La branche la plus ancienne des méthodes statistiques présentées à la sectio
...
@@ -4,14 +4,14 @@ La branche la plus ancienne des méthodes statistiques présentées à la sectio
\r
ef{sec:EdlA_TAL_history} (voir p.
\p
ageref{sec:EdlA_TAL_history}) est née bien
\r
ef{sec:EdlA_TAL_history} (voir p.
\p
ageref{sec:EdlA_TAL_history}) est née bien
avant que des réseaux de neurones ne soient utilisables en pratique. On pourrait
avant que des réseaux de neurones ne soient utilisables en pratique. On pourrait
donc la croire éteinte: cette dernière section entend montrer qu'il n'en est
donc la croire éteinte: cette dernière section entend montrer qu'il n'en est
rien. Puisant aux sources
l
es
plus théor
iques de la statistique, les linguistes
rien. Puisant aux sources
d
es
mathémat
iques
et
de la statistique, les linguistes
n'ont pas attendu ces technologies pour mobiliser des approches très variées sur
n'ont pas attendu ces technologies pour mobiliser des approches très variées sur
leurs problématiques de recherche.
leurs problématiques de recherche.
### Du texte au corpus
### Du texte au corpus
Un dénominateur commun à toutes ces approches existe dans la notion de corpus,
Un dénominateur commun à toutes ces approches existe dans la notion de corpus,
qui peut en première intention se comprendre comme un «
ensemble
» de textes.
qui peut en première intention se comprendre comme un
e
«
collection
» de textes.
Avant de décrire dans le reste de cette partie les différentes manières de
Avant de décrire dans le reste de cette partie les différentes manières de
réunir un tel ensemble, il est utile de commencer par s'interroger sur la notion
réunir un tel ensemble, il est utile de commencer par s'interroger sur la notion
de «texte» puisque c'est par rapport à elle que sera définie celle de corpus.
de «texte» puisque c'est par rapport à elle que sera définie celle de corpus.
...
...
This diff is collapsed.
Click to expand it.
ÉdlA/TAL.md
+
43
−
44
View file @
2aa578ed
...
@@ -18,16 +18,16 @@ comme un «sac de mots» [@salton1986introduction]. L'ensemble des mots dans un
...
@@ -18,16 +18,16 @@ comme un «sac de mots» [@salton1986introduction]. L'ensemble des mots dans un
corpus (tokens ou lemmes selon les implémentations) constitue le vocabulaire
corpus (tokens ou lemmes selon les implémentations) constitue le vocabulaire
utilisé comme base d'un espace vectoriel de très grande dimension dans lequel
utilisé comme base d'un espace vectoriel de très grande dimension dans lequel
chaque document est représenté. Pour chaque vecteur de cette base (correspondant
chaque document est représenté. Pour chaque vecteur de cette base (correspondant
donc à un mot unique du corpus), la composante associée dans le vecteur
donc à un mot unique du corpus), la composante associée dans le vecteur
qui
représent
ant
un document est un entier positif ou nul égal au nombre
représent
e
un document est un entier positif ou nul égal au nombre
d'occurrences
d'occurrences
du mot (sa fréquence) dans ce document. Le terme anglophone
du mot (sa fréquence) dans ce document. Le terme anglophone
consacré est «
*
Bag
consacré est «
*Bag
of Words*
», et bien que ce terme soit le seul pour lequel
of Words
*
», et bien que ce terme soit le seul pour lequel
l'équivalent français
l'équivalent français
s'emploie, l'acronyme
*BoW*
sera également utilisé dans ce
s'emploie, l'acronyme
*BoW*
sera également utilisé dans ce
qui suit par soucis
qui suit par soucis
d'homogénéité avec les autres méthodes. Cette approche
d'homogénéité avec les autres méthodes. Cette approche
produit des
produit des
représentations vectorielles très grandes (beaucoup de nombres) et
représentations vectorielles très grandes (beaucoup de nombres) et
avec peu de
avec peu de
valeurs non nulles (la plupart valent 0) car chaque document
valeurs non nulles (la plupart valent 0) car chaque document
n'utilise qu'une
n'utilise qu'une
fraction de l'ensemble du vocabulaire défini par le corpus
fraction de l'ensemble du vocabulaire défini par le corpus
entier. On parle de
entier. On parle de
représentation
*creuse*
(
*sparse*
en anglais).
représentation
*creuse*
(
*sparse*
en anglais).
La deuxième approche, TF-IDF (
*Term Frequency - Inverse Document Frequency*
,
La deuxième approche, TF-IDF (
*Term Frequency - Inverse Document Frequency*
,
«fréquence du terme - fréquence inverse de document») est un type de
«fréquence du terme - fréquence inverse de document») est un type de
...
@@ -38,33 +38,32 @@ les *BoW* «purs», les vecteurs produits par cette méthode sont creux, ce qui
...
@@ -38,33 +38,32 @@ les *BoW* «purs», les vecteurs produits par cette méthode sont creux, ce qui
tend à dégrader les performances des algorithmes d'[@=AA] en augmentant leurs
tend à dégrader les performances des algorithmes d'[@=AA] en augmentant leurs
complexités spatiales et temporelles.
complexités spatiales et temporelles.
\l
abel{edla_word_embeddings}Enfin, les plongements de mots constituent une
\l
abel{edla_word_embeddings} Par contraste avec les deux approches précédentes,
famille de méthodes fondamentalement différentes des deux précédentes du fait
les plongements de mots produisent des vecteurs de plus petites dimensions et
qu'elles capturent le contexte des mots dans leurs représentations vectorielles.
denses en coefficients non nuls. Ils constituent une famille de méthodes
Il y a deux approches pour entraîner des plongements de mots: CBOW (
*
Continuous
fondamentalement différentes des deux précédentes du fait qu'elles capturent le
Bag of Words
*, «sacs de mots continus») et *
skip-gram
*
(«fenêtres à trou»). La
contexte des mots dans leurs représentations vectorielles. Il y a deux approches
première consiste à prédire un mot en fonction de son contexte. À l'inverse, une
pour entraîner des plongements de mots: CBOW (
*Continuous Bag of Words*
, «sacs
architecture
*skip-gram*
apprend à prédire le contexte à partir d'un mot. Par
de mots continus») et
*skip-gram*
(«fenêtres à trou»). La première consiste à
contraste avec les deux approches précédentes, les plongements de mots
prédire un mot en fonction de son contexte. À l'inverse, une architecture
produisent des vecteurs de plus petites dimensions et denses en coefficients non
*skip-gram*
apprend à prédire le contexte à partir d'un mot. Initialement pensée
nuls. Initialement pensée au niveau des mots individuels,
*Word2Vec*
au niveau des mots individuels,
*Word2Vec*
[@mikolov2013efficient] permet déjà
[@mikolov2013efficient] permet déjà de représenter un texte en combinant les
de représenter un texte en combinant les vecteurs des mots qu'il contient (par
vecteurs des mots qu'il contient (par exemple en faisant leur moyenne). Peu
exemple en faisant leur moyenne). Peu adapté aux textes longs, on lui préfère
adapté aux textes longs, on lui préfère souvent la méthode voisine
*Doc2Vec*
souvent la méthode voisine
*Doc2Vec*
[@le2014distributed] sur ce type d'entrées.
[@le2014distributed] sur ce type d'entrées. Ces méthodes de plongements
Ces méthodes de plongements nécessitent un entraînement sur le corpus sur lequel
nécessitent un entraînement sur le corpus sur lequel elles vont être utilisées
elles vont être utilisées mais d'autres telles que
*FastText*
mais d'autres telles que
*FastText*
[@bojanowski2017enriching] sont disponibles
[@bojanowski2017enriching] sont disponibles préentraînées. On parle pour ces
préentraînées. On parle pour ces méthodes de plongement «statique» parce
méthodes de plongement «statique» parce qu'elles produisent un vecteur unique
qu'elles produisent un vecteur unique pour représenter un mot, en combinant tous
pour représenter un mot, en combinant tous les différents contextes dans
les différents contextes dans lesquels il peut apparaître. Plus récemment,
lesquels il peut apparaître. Plus récemment,
*BERT*
*BERT*
[@devlin2018bert] —
*
Bidirectional Encoder Representations from
[@devlin2018bert] —
*Bidirectional Encoder Representations from Transformers*
Transformers
*
(«Représentations d'Encodeur Bi-directionnels à partir de
(«Représentations d'Encodeur Bi-directionnels à partir de Transformeurs», voir
Transformeurs», voir p.
\p
ageref{deep_learning_classifiers}) — utilise un
p.
\p
ageref{deep_learning_classifiers}) — utilise un plongement contextuel, où la
plongement contextuel, où la représentation de chaque mot dépend du contexte
représentation de chaque mot dépend du contexte dans lequel il apparaît dans une
dans lequel il apparaît dans une phrase, pour la phase de vectorisation qu'il
phrase, pour la phase de vectorisation qu'il intègre.
*BERT*
utilise des réseaux
intègre.
*BERT*
utilise des réseaux de neurones de type
*transformer*
et le
de neurones de type
*transformer*
et le concept de masque pour prédire les mots
concept de masque pour prédire les mots qui complètent une amorce de phrase
qui complètent une amorce de phrase donnée.
donnée.
### Classification {#sec:EdlA_classification}
### Classification {#sec:EdlA_classification}
...
@@ -106,13 +105,13 @@ articles à travers 4 éditions de l'œuvre [@grabus_representing_2019].
...
@@ -106,13 +105,13 @@ articles à travers 4 éditions de l'œuvre [@grabus_representing_2019].
Dans tous les cas évoqués ci-dessus, l'ensemble de classes à attribuer aux
Dans tous les cas évoqués ci-dessus, l'ensemble de classes à attribuer aux
documents est défini en amont de l'étude. Il n'est pas pour autant indépendant
documents est défini en amont de l'étude. Il n'est pas pour autant indépendant
du corpus
d'étude
mais correspond au contraire à un axe d'
étud
e que l'on suppose
du corpus mais correspond au contraire à un axe d'
analys
e que l'on suppose
pertinent: un partitionnement suivant une sensibilité politique peut avoir un
pertinent: un partitionnement suivant une sensibilité politique peut avoir un
intérêt pour classer des discours parlementaires ou des professions de foi
intérêt pour classer des discours parlementaires ou des professions de foi
électorales, mais serait à priori beaucoup moins adapté à des prévisions
électorales, mais serait à priori beaucoup moins adapté à des prévisions
météorologiques ou des recettes de cuisine.
météorologiques ou des recettes de cuisine.
À partir de l'ensemble de classes, un échantillon des documents doit être
class
é
À partir de l'ensemble de classes, un échantillon des documents doit être
annot
é
manuellement pour servir de référence pour l'entraînement du modèle de
manuellement pour servir de référence pour l'entraînement du modèle de
classification: il s'agit de classification supervisée. Plus précisément, on
classification: il s'agit de classification supervisée. Plus précisément, on
distingue un jeu d'entraînement qui aide directement à ajuster les coefficients
distingue un jeu d'entraînement qui aide directement à ajuster les coefficients
...
@@ -138,11 +137,11 @@ adaptés à l'analyse de données séquentielles, trouvent un prolongement dans
...
@@ -138,11 +137,11 @@ adaptés à l'analyse de données séquentielles, trouvent un prolongement dans
de mieux capturer des dépendances éloignées dans les séquences d'entrées
de mieux capturer des dépendances éloignées dans les séquences d'entrées
[@hochreiter_lstm_1997], ce que les [@=RNN] ne parviennent pas à faire en
[@hochreiter_lstm_1997], ce que les [@=RNN] ne parviennent pas à faire en
pratique. Une autre technique d'[@=AP] pour garder accès aux premiers éléments
pratique. Une autre technique d'[@=AP] pour garder accès aux premiers éléments
d'une séquence d'entrée nommée l'«attention» est au centre de l'architecture
des
d'une séquence d'entrée
,
nommée l'«attention»
,
est au centre de l'architecture
transformeurs, un autre modèle d'[@=AP] qui définissait l'état de l'art au
début
des
transformeurs, un autre modèle d'[@=AP] qui définissait l'état de l'art au
de cette thèse. Un modèle tel que
*BERT*
, basé sur des transformeurs,
permet à
début
de cette thèse. Un modèle tel que
*BERT*
, basé sur des transformeurs,
la fois la vectorisation et la classification de ses entrées. Son très
grand
permet à
la fois la vectorisation et la classification de ses entrées. Son très
nombre de paramètres requiert des ressources de calcul titanesques pour
grand
nombre de paramètres requiert des ressources de calcul titanesques pour
entraîner un tel modèle à partir de rien. Puisque de tels moyens ne sont à
entraîner un tel modèle à partir de rien. Puisque de tels moyens ne sont à
l'heure actuelle disponibles qu'à de grands groupes privés, le modèle est
l'heure actuelle disponibles qu'à de grands groupes privés, le modèle est
distribué préentraîné sur des tâches générales et ne doit subir qu'un
distribué préentraîné sur des tâches générales et ne doit subir qu'un
...
...
This diff is collapsed.
Click to expand it.
Preview
0%
Loading
Try again
or
attach a new file
.
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Save comment
Cancel
Please
register
or
sign in
to comment