Skip to content
GitLab
Explore
Sign in
Primary navigation
Search or go to…
Project
M
manuscrit
Manage
Activity
Members
Labels
Plan
Issues
0
Issue boards
Milestones
Wiki
Code
Merge requests
0
Repository
Branches
Commits
Tags
Repository graph
Compare revisions
Snippets
Build
Pipelines
Jobs
Pipeline schedules
Artifacts
Deploy
Releases
Package Registry
Model registry
Operate
Environments
Terraform modules
Monitor
Incidents
Analyze
Value stream analytics
Contributor analytics
CI/CD analytics
Repository analytics
Model experiments
Help
Help
Support
GitLab documentation
Compare GitLab plans
Community forum
Contribute to GitLab
Provide feedback
Keyboard shortcuts
?
Snippets
Groups
Projects
Show more breadcrumbs
Alice Brenon
manuscrit
Commits
b86d69b2
Commit
b86d69b2
authored
2 months ago
by
Alice Brenon
Browse files
Options
Downloads
Patches
Plain Diff
Finish proofreading the ÉdlA
parent
afc5e6aa
No related branches found
No related tags found
No related merge requests found
Changes
3
Hide whitespace changes
Inline
Side-by-side
Showing
3 changed files
ÉdlA/Historique.md
+5
-5
5 additions, 5 deletions
ÉdlA/Historique.md
ÉdlA/Linguistique_de_corpus.md
+15
-14
15 additions, 14 deletions
ÉdlA/Linguistique_de_corpus.md
ÉdlA/TAL.md
+26
-25
26 additions, 25 deletions
ÉdlA/TAL.md
with
46 additions
and
44 deletions
ÉdlA/Historique.md
+
5
−
5
View file @
b86d69b2
...
...
@@ -10,7 +10,7 @@ qu'elles ont en commun: une approche plus statistique que symbolique du langage.
Pour bien cerner cette distinction, il est utile de revenir à la chronologie
esquissée dans la section
\r
ef{sec:EdlA_lexicography} et de la développer.
###
Une compétition stimulant
e
###
Rivalité historique entre les approches symbolique et statistiqu
e
Aux origines de cette lignée, il est d'abord question de «Traduction
Automatique» (TA) et le domaine de recherche est surtout exploré pour ses
...
...
@@ -64,7 +64,7 @@ Convolutionnels ([@=CNN]), descendants du Neocognitron de
Mais depuis 2010, le balancier semble cassé si l'on en croit
@church_pendulum_2011[p.2], qui s'inquiète de ne pas voir les méthodes
rationalistes faire leur retour à l'issue de la période d'une vingtaine d'années
qui séparait les pics d'activité
s
dans chacune des deux approches lors des
qui séparait les pics d'activité dans chacune des deux approches lors des
oscillations précédentes. Loin de revenir dans les recherches pour combler les
lacunes des méthodes statistiques, elles se retrouvent éclipsées jusque dans les
contenus pédagogiques [@church_pendulum_2011, p.19 et seq.].
...
...
@@ -90,7 +90,7 @@ avoir identifié leurs origines communes, il reste à caractériser ce qui les
sépare pour pouvoir convenir d'une dénomination à utiliser dans le reste de
cette thèse.
###
Convention de nommage
{#sec:EdlA_history_names}
###
Nommer des pratiques très différentes
{#sec:EdlA_history_names}
La linguistique n'a pas attendu l'arrivée de réseaux de neurones artificiels
utilisables pour que sa pratique bénéficie des apports des méthodes
...
...
@@ -155,6 +155,6 @@ place relative des approches couvertes dans les deux sections suivantes de cet
versant informatique de la discipline, majoritairement à des méthodes empiristes
mais sans exclure quelques techniques rationalistes. La section
\r
ef{sec:EdlA_corpus_linguistics} sera au contraire centrée sur les pratiques
linguistiques enrichies d'outils informatiques, héritières des travaux
de
s
écoles britannique et française
initiés dans les années 1960
.
linguistiques enrichies d'outils informatiques, héritières des travaux
initié
s
dans les années 1960 par les
écoles britannique et française.
This diff is collapsed.
Click to expand it.
ÉdlA/Linguistique_de_corpus.md
+
15
−
14
View file @
b86d69b2
...
...
@@ -138,8 +138,8 @@ de différents objets avec une approche statistique. En creux, ces décomptes
supposent un découpage: il s'agit de recenser les occurrences d'un phénomène
dans une partie du corpus par rapport aux autres pour dégager des critères
quantitatifs objectifs qui caractérisent cette partie. Ce concept de
[@=partition] est fondamental dans l'approche contrastive et dans l'ensemble
de
la discipline.
«
[@=partition]
»
est fondamental dans l'approche contrastive et dans l'ensemble
de
la discipline.
Guiraud le premier, à la tête des stylisticiens [@leon_histoire_2015, p.129]
remarque que «la linguistique est la science statistique type»
...
...
@@ -166,10 +166,11 @@ rapportant les fréquences observées à la taille des différentes parties,
@lafon_variabilite_1980 définit la spécificité d'une forme comme une mesure de
la probabilité que la distribution observée résulte d'une répartition purement
aléatoire au sein du corpus. En ce sens, la spécificité quantifie la surprise
que constitue la surreprésentation d'un motif dans une partie du corpus. Avec la
loi de Zipf, ce point constitue un deuxième lien entre la lexicométrie et les
travaux menés en théorie de l'information dès les années 1950 notamment par
Shannon ou Markov [@leon_histoire_2015, chap.4 et en particulier p.56].
que constitue la surreprésentation (ou la sous-représentation) d'un motif dans
une partie du corpus. Avec la loi de Zipf, ce point constitue un deuxième lien
entre la lexicométrie et les travaux menés en théorie de l'information dès les
années 1950 notamment par Shannon ou Markov [@leon_histoire_2015, chap.4 et en
particulier p.56].
\l
abel{textometry_specificity}Différentes lois ont été utilisées pour modéliser
la distribution des mots en vue de calculer des spécificités comme la loi du
...
...
@@ -198,7 +199,7 @@ notion classique de cooccurrent se base uniquement sur la réalisation dite «de
surface» — c'est-à-dire sujette à l'ordre particulier dans lequel les mots
apparaissent dans une phrase (par opposition à la «profondeur» d'un arbre
syntaxique). En réitérant les mesures de cooccurrence pour former peu à peu un
groupe de mots, il est même possible de repér
é
r des motifs discursifs
groupe de mots, il est même possible de repér
e
r des motifs discursifs
[@longree_les_2008] grâce la technique dite des «segments répétés». Comme de
telles tournures de phrase ne sont pas entièrement figées, de nombreux mots
peuvent occuper leurs positions encore libres et cette technique souffre donc
...
...
@@ -209,7 +210,7 @@ rechercher les cooccurrents en se basant sur les relations de syntaxe plutôt qu
sur la proximité séquentielle des mots. À la différence d'une recherche
traditionnelle, il n'y a donc pas de notion de «fenêtre» d'une taille
paramétrable autour du motif considéré, la recherche se limite par construction
a
la phrase entière (au sens d'«arbre syntaxique», dont les éléments sont
à
la phrase entière (au sens d'«arbre syntaxique», dont les éléments sont
nécessairement connexes). En ajoutant progressivement à un noyau initial des
cooccurrents syntaxiques forts, cette technique nommée «Arbres
Lexico-syntaxiques Récurrents» ([@=ALR]) permet d'extraire des motifs courants
...
...
@@ -280,12 +281,12 @@ alimente de nombreuses études [@pincemin_semantique_2022;
@mayaffre_explorer_2019]. Les discours des syndicats font aussi l'objet
d'analyses contrastives [@brugidou_discours_2000]. Des époques plus reculées
comme l'entre-deux-guerres ne sont pas ignorées [@mayaffre_poids_2000]. Enfin,
la taille des intervalles de temps considérés permet la mise en place d'étude
de
productions d'une seule personnalité politique où les contrastes sont
envisagés
selon la dimension temporelle. @labbe_françois_1983 étudie ainsi le
discours
public de François Mitterrand dans la quinzaine d'années avant son
élection au
poste de président de la république puis celui de De Gaulle sur un
peu plus
d'une décennie [@labbe_diachronie_2010].
la taille des intervalles de temps considérés permet la mise en place d'étude
s
des
productions d'une seule personnalité politique où les contrastes sont
envisagés
selon la dimension temporelle. @labbe_françois_1983 étudie ainsi le
discours
public de François Mitterrand dans la quinzaine d'années avant son
élection au
poste de président de la république puis celui de De Gaulle sur un
peu plus
d'une décennie [@labbe_diachronie_2010].
De telles études, dites en diachronie, permettent de capturer des évolutions à
des échelles variées selon la durée considérée, les changements les plus
...
...
This diff is collapsed.
Click to expand it.
ÉdlA/TAL.md
+
26
−
25
View file @
b86d69b2
...
...
@@ -36,10 +36,10 @@ fréquence dans le document considéré tempère ce nombre en le divisant par la
proportion de documents du corpus qui contiennent ce mot. De la même manière que
les
*BoW*
«purs», les vecteurs produits par cette méthode sont creux, ce qui
tend à dégrader les performances des algorithmes d'[@=AA] en augmentant leurs
co
mplexités spatiales et temporelles
.
co
nsommation de mémoire et leurs temps d'exécution
.
\l
abel{edla_word_embeddings} Par contraste avec les deux approches précédentes,
les plongements de mots produisent des vecteurs de plus petite
s
dimension
s
et
les plongements de mots produisent des vecteurs de plus petite dimension et
denses en coefficients non nuls. Ils constituent une famille de méthodes
fondamentalement différentes des deux précédentes du fait qu'elles capturent le
contexte des mots dans leurs représentations vectorielles. Il y a deux approches
...
...
@@ -63,9 +63,9 @@ combinant tous les différents contextes dans lesquels il peut apparaître. Plus
récemment,
*BERT*
[@devlin2018bert] —
*
Bidirectional Encoder Representations
from Transformers
*
(«Représentations d'Encodeur Bi-directionnels à partir de
Transformeurs», voir p.
\p
ageref{deep_learning_classifiers}) — utilise un
plongement contextuel
, où la représentation de chaque mot dépend du context
e
dans lequel il apparaît dans une phrase, pour la phase de vectorisation qu'il
intègr
e.
*BERT*
utilise des réseaux de neurones de type
*transformer*
et le
plongement contextuel
pour la phase de vectorisation qu'il intègre, c'est-à-dir
e
où la représentation d'un mot dépend du contexte dans lequel il apparaît dans
une phras
e.
*BERT*
utilise des réseaux de neurones de type
*transformer*
et le
concept de masque pour prédire les mots qui complètent une amorce de phrase
donnée.
...
...
@@ -97,11 +97,11 @@ classification permettent de prédire les domaines de connaissance des articles
p.
\p
ageref{sec:structuring_knowledge}). Dans le cadre des travaux de l'[@=ARTFL]
sur l'
*EDdA*
, @horton2009mining ont ainsi testé la classification Bayesienne
dite «naïve» ([@=Naive Bayes]) pour prolonger la classification des auteurs de
l'œuvre sur les entrées laissées sans domaine
par les auteurs
. L'Encyclopedia
Britannica a également été étudiée par le
Nineteenth-Century Knowledge Project[^19cProject] qui a utilisé des méthod
es
d'[@=AA] mais aussi des approches basées sur des règles pour indexer 400 000
articles à travers 4 éditions de l'œuvre
[@grabus_representing_2019].
l'œuvre sur les entrées laissées sans domaine. L'Encyclopedia
Britannica a de
même été étudiée par le Nineteenth-Century Knowledge Project[^19cProject] qui a
utilisé des méthodes d'[@=AA] mais aussi des approches basées sur des règl
es
pour indexer 400 000 articles à travers 4 éditions de l'œuvre
[@grabus_representing_2019].
[
^19cProject
]:
[https://tu-plogan.github.io/](https://tu-plogan.github.io/)
...
...
@@ -207,23 +207,23 @@ nouveau.
Enfin, avant de clore complètement cet aperçu des travaux en Classification
Automatique, il est intéressant de mentionner un champ de recherche qui utilise
des techniques de classification sans s'y réduire. Si la localisation des
caractères sur la page et la compréhension des liens qu'ils entretiennent
est un
pré
alable essentiel aux tâches de reconnaissance de caractères
[@sayre_machine_1973, p.213], la classification des zones identifiées en
caractères semble bien plus complexe. Les
moyens classiques semblent inefficaces
pour produire des résultats
généralisables sur des données jamais rencontrées
par l'algorithme et dans la même étude
@sayre_machine_1973[p.216 et seq] explore
donc des méthodes statistiques pour la classification
.
caractères sur la page et la compréhension des liens qu'ils entretiennent
re
pré
sentent certes un type de problèmes entièrement différent, l'identification
des zones trouvées constitue quant à elle un problème de classification. Les
moyens classiques semblent inefficaces
pour produire des résultats
généralisables sur des données jamais rencontrées
par l'algorithme ce qui
conduit
@sayre_machine_1973[p.216 et seq]
à
explore
r des méthodes statistiques
pour reconnaître les caractères
.
En implémentant les [@=CNN], @lecun_backpropagation_1989 parviennent à créer des
modèles capables de lire les codes postaux écrits à la main sur des enveloppes.
De nombreux systèmes récents sont basés sur les
*LSTM*
[@wick_comparison_2018,
p.79], architecture utile en classification ce qui souligne encore la parenté
p.79], architecture utile en classification
,
ce qui souligne encore la parenté
entre les deux tâches. On distingue généralement cette tâche encore plus
difficile de reconnaissance de caractères tracés à la main — donc moins
réguliers — sous le nom de
*Handwritten Text Recognition*
(HTR) par rapport au
problème plus général d'[@=OCR]. Pour favoriser l'évaluation de système de HTR,
@chague_htr_2021 propose la diffusion de jeux de données pouvant servir de
@chague_htr_2021 propose
nt
la diffusion de jeux de données pouvant servir de
vérité terrain. Aujourd'hui, tous les systèmes d'[@=OCR] sont basés sur des
méthodes d'[@=AA].
...
...
@@ -380,10 +380,11 @@ pour annoter en syntaxe le corpus de cette thèse — ou HOPS
[@grobol_analyse_2021], tous deux basés sur de l'[@=AA], permettent d'analyser
un texte en UD et produisent en sortie des fichiers au format CoNLL-U. Le modèle
utilisé par HOPS prédit l'existence de liens dans un graphe dont les nœuds
représentant les mots d'une phrase. Cette stratégie, mise en regard du fait
qu'il est également possible d'utiliser des règles de réécriture de graphe pour
annoter en syntaxe [@guillaume_dependency_2015 ; @bonfante_application_2018,
chap.6] souligne la proximité thématique qui existe entre la théorie des graphes
et l'analyse syntaxique (bien que les arbres syntaxiques, qui n'admettent pas de
boucles, ne soient que des cas particuliers plus simples de graphes).
représentent les mots de la phrase à annoter. Cette stratégie, mise en regard du
fait qu'il est également possible d'utiliser des règles de réécriture de graphe
pour annoter en syntaxe [@guillaume_dependency_2015 ;
@bonfante_application_2018, chap.6] souligne la proximité thématique qui existe
entre la théorie des graphes et l'analyse syntaxique (bien que les arbres
syntaxiques, qui n'admettent pas de boucles, ne soient que des cas particuliers
plus simples de graphes).
This diff is collapsed.
Click to expand it.
Preview
0%
Loading
Try again
or
attach a new file
.
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Save comment
Cancel
Please
register
or
sign in
to comment