Skip to content
Snippets Groups Projects
Commit b86d69b2 authored by Alice Brenon's avatar Alice Brenon
Browse files

Finish proofreading the ÉdlA

parent afc5e6aa
No related branches found
No related tags found
No related merge requests found
......@@ -10,7 +10,7 @@ qu'elles ont en commun: une approche plus statistique que symbolique du langage.
Pour bien cerner cette distinction, il est utile de revenir à la chronologie
esquissée dans la section \ref{sec:EdlA_lexicography} et de la développer.
### Une compétition stimulante
### Rivalité historique entre les approches symbolique et statistique
Aux origines de cette lignée, il est d'abord question de «Traduction
Automatique» (TA) et le domaine de recherche est surtout exploré pour ses
......@@ -64,7 +64,7 @@ Convolutionnels ([@=CNN]), descendants du Neocognitron de
Mais depuis 2010, le balancier semble cassé si l'on en croit
@church_pendulum_2011[p.2], qui s'inquiète de ne pas voir les méthodes
rationalistes faire leur retour à l'issue de la période d'une vingtaine d'années
qui séparait les pics d'activités dans chacune des deux approches lors des
qui séparait les pics d'activité dans chacune des deux approches lors des
oscillations précédentes. Loin de revenir dans les recherches pour combler les
lacunes des méthodes statistiques, elles se retrouvent éclipsées jusque dans les
contenus pédagogiques [@church_pendulum_2011, p.19 et seq.].
......@@ -90,7 +90,7 @@ avoir identifié leurs origines communes, il reste à caractériser ce qui les
sépare pour pouvoir convenir d'une dénomination à utiliser dans le reste de
cette thèse.
### Convention de nommage {#sec:EdlA_history_names}
### Nommer des pratiques très différentes {#sec:EdlA_history_names}
La linguistique n'a pas attendu l'arrivée de réseaux de neurones artificiels
utilisables pour que sa pratique bénéficie des apports des méthodes
......@@ -155,6 +155,6 @@ place relative des approches couvertes dans les deux sections suivantes de cet
versant informatique de la discipline, majoritairement à des méthodes empiristes
mais sans exclure quelques techniques rationalistes. La section
\ref{sec:EdlA_corpus_linguistics} sera au contraire centrée sur les pratiques
linguistiques enrichies d'outils informatiques, héritières des travaux des
écoles britannique et française initiés dans les années 1960.
linguistiques enrichies d'outils informatiques, héritières des travaux initiés
dans les années 1960 par les écoles britannique et française.
......@@ -138,8 +138,8 @@ de différents objets avec une approche statistique. En creux, ces décomptes
supposent un découpage: il s'agit de recenser les occurrences d'un phénomène
dans une partie du corpus par rapport aux autres pour dégager des critères
quantitatifs objectifs qui caractérisent cette partie. Ce concept de
[@=partition] est fondamental dans l'approche contrastive et dans l'ensemble de
la discipline.
«[@=partition]» est fondamental dans l'approche contrastive et dans l'ensemble
de la discipline.
Guiraud le premier, à la tête des stylisticiens [@leon_histoire_2015, p.129]
remarque que «la linguistique est la science statistique type»
......@@ -166,10 +166,11 @@ rapportant les fréquences observées à la taille des différentes parties,
@lafon_variabilite_1980 définit la spécificité d'une forme comme une mesure de
la probabilité que la distribution observée résulte d'une répartition purement
aléatoire au sein du corpus. En ce sens, la spécificité quantifie la surprise
que constitue la surreprésentation d'un motif dans une partie du corpus. Avec la
loi de Zipf, ce point constitue un deuxième lien entre la lexicométrie et les
travaux menés en théorie de l'information dès les années 1950 notamment par
Shannon ou Markov [@leon_histoire_2015, chap.4 et en particulier p.56].
que constitue la surreprésentation (ou la sous-représentation) d'un motif dans
une partie du corpus. Avec la loi de Zipf, ce point constitue un deuxième lien
entre la lexicométrie et les travaux menés en théorie de l'information dès les
années 1950 notamment par Shannon ou Markov [@leon_histoire_2015, chap.4 et en
particulier p.56].
\label{textometry_specificity}Différentes lois ont été utilisées pour modéliser
la distribution des mots en vue de calculer des spécificités comme la loi du
......@@ -198,7 +199,7 @@ notion classique de cooccurrent se base uniquement sur la réalisation dite «de
surface» — c'est-à-dire sujette à l'ordre particulier dans lequel les mots
apparaissent dans une phrase (par opposition à la «profondeur» d'un arbre
syntaxique). En réitérant les mesures de cooccurrence pour former peu à peu un
groupe de mots, il est même possible de repérér des motifs discursifs
groupe de mots, il est même possible de repérer des motifs discursifs
[@longree_les_2008] grâce la technique dite des «segments répétés». Comme de
telles tournures de phrase ne sont pas entièrement figées, de nombreux mots
peuvent occuper leurs positions encore libres et cette technique souffre donc
......@@ -209,7 +210,7 @@ rechercher les cooccurrents en se basant sur les relations de syntaxe plutôt qu
sur la proximité séquentielle des mots. À la différence d'une recherche
traditionnelle, il n'y a donc pas de notion de «fenêtre» d'une taille
paramétrable autour du motif considéré, la recherche se limite par construction
a la phrase entière (au sens d'«arbre syntaxique», dont les éléments sont
à la phrase entière (au sens d'«arbre syntaxique», dont les éléments sont
nécessairement connexes). En ajoutant progressivement à un noyau initial des
cooccurrents syntaxiques forts, cette technique nommée «Arbres
Lexico-syntaxiques Récurrents» ([@=ALR]) permet d'extraire des motifs courants
......@@ -280,12 +281,12 @@ alimente de nombreuses études [@pincemin_semantique_2022;
@mayaffre_explorer_2019]. Les discours des syndicats font aussi l'objet
d'analyses contrastives [@brugidou_discours_2000]. Des époques plus reculées
comme l'entre-deux-guerres ne sont pas ignorées [@mayaffre_poids_2000]. Enfin,
la taille des intervalles de temps considérés permet la mise en place d'étude de
productions d'une seule personnalité politique où les contrastes sont envisagés
selon la dimension temporelle. @labbe_françois_1983 étudie ainsi le discours
public de François Mitterrand dans la quinzaine d'années avant son élection au
poste de président de la république puis celui de De Gaulle sur un peu plus
d'une décennie [@labbe_diachronie_2010].
la taille des intervalles de temps considérés permet la mise en place d'études
des productions d'une seule personnalité politique où les contrastes sont
envisagés selon la dimension temporelle. @labbe_françois_1983 étudie ainsi le
discours public de François Mitterrand dans la quinzaine d'années avant son
élection au poste de président de la république puis celui de De Gaulle sur un
peu plus d'une décennie [@labbe_diachronie_2010].
De telles études, dites en diachronie, permettent de capturer des évolutions à
des échelles variées selon la durée considérée, les changements les plus
......
......@@ -36,10 +36,10 @@ fréquence dans le document considéré tempère ce nombre en le divisant par la
proportion de documents du corpus qui contiennent ce mot. De la même manière que
les *BoW* «purs», les vecteurs produits par cette méthode sont creux, ce qui
tend à dégrader les performances des algorithmes d'[@=AA] en augmentant leurs
complexités spatiales et temporelles.
consommation de mémoire et leurs temps d'exécution.
\label{edla_word_embeddings} Par contraste avec les deux approches précédentes,
les plongements de mots produisent des vecteurs de plus petites dimensions et
les plongements de mots produisent des vecteurs de plus petite dimension et
denses en coefficients non nuls. Ils constituent une famille de méthodes
fondamentalement différentes des deux précédentes du fait qu'elles capturent le
contexte des mots dans leurs représentations vectorielles. Il y a deux approches
......@@ -63,9 +63,9 @@ combinant tous les différents contextes dans lesquels il peut apparaître. Plus
récemment, *BERT* [@devlin2018bert] — *Bidirectional Encoder Representations
from Transformers* («Représentations d'Encodeur Bi-directionnels à partir de
Transformeurs», voir p.\pageref{deep_learning_classifiers}) — utilise un
plongement contextuel, où la représentation de chaque mot dépend du contexte
dans lequel il apparaît dans une phrase, pour la phase de vectorisation qu'il
intègre. *BERT* utilise des réseaux de neurones de type *transformer* et le
plongement contextuel pour la phase de vectorisation qu'il intègre, c'est-à-dire
où la représentation d'un mot dépend du contexte dans lequel il apparaît dans
une phrase. *BERT* utilise des réseaux de neurones de type *transformer* et le
concept de masque pour prédire les mots qui complètent une amorce de phrase
donnée.
......@@ -97,11 +97,11 @@ classification permettent de prédire les domaines de connaissance des articles
p.\pageref{sec:structuring_knowledge}). Dans le cadre des travaux de l'[@=ARTFL]
sur l'*EDdA*, @horton2009mining ont ainsi testé la classification Bayesienne
dite «naïve» ([@=Naive Bayes]) pour prolonger la classification des auteurs de
l'œuvre sur les entrées laissées sans domaine par les auteurs. L'Encyclopedia
Britannica a également été étudiée par le
Nineteenth-Century Knowledge Project[^19cProject] qui a utilisé des méthodes
d'[@=AA] mais aussi des approches basées sur des règles pour indexer 400 000
articles à travers 4 éditions de l'œuvre [@grabus_representing_2019].
l'œuvre sur les entrées laissées sans domaine. L'Encyclopedia Britannica a de
même été étudiée par le Nineteenth-Century Knowledge Project[^19cProject] qui a
utilisé des méthodes d'[@=AA] mais aussi des approches basées sur des règles
pour indexer 400 000 articles à travers 4 éditions de l'œuvre
[@grabus_representing_2019].
[^19cProject]: [https://tu-plogan.github.io/](https://tu-plogan.github.io/)
......@@ -207,23 +207,23 @@ nouveau.
Enfin, avant de clore complètement cet aperçu des travaux en Classification
Automatique, il est intéressant de mentionner un champ de recherche qui utilise
des techniques de classification sans s'y réduire. Si la localisation des
caractères sur la page et la compréhension des liens qu'ils entretiennent est un
préalable essentiel aux tâches de reconnaissance de caractères
[@sayre_machine_1973, p.213], la classification des zones identifiées en
caractères semble bien plus complexe. Les moyens classiques semblent inefficaces
pour produire des résultats généralisables sur des données jamais rencontrées
par l'algorithme et dans la même étude @sayre_machine_1973[p.216 et seq] explore
donc des méthodes statistiques pour la classification.
caractères sur la page et la compréhension des liens qu'ils entretiennent
représentent certes un type de problèmes entièrement différent, l'identification
des zones trouvées constitue quant à elle un problème de classification. Les
moyens classiques semblent inefficaces pour produire des résultats
généralisables sur des données jamais rencontrées par l'algorithme ce qui
conduit @sayre_machine_1973[p.216 et seq] à explorer des méthodes statistiques
pour reconnaître les caractères.
En implémentant les [@=CNN], @lecun_backpropagation_1989 parviennent à créer des
modèles capables de lire les codes postaux écrits à la main sur des enveloppes.
De nombreux systèmes récents sont basés sur les *LSTM* [@wick_comparison_2018,
p.79], architecture utile en classification ce qui souligne encore la parenté
p.79], architecture utile en classification, ce qui souligne encore la parenté
entre les deux tâches. On distingue généralement cette tâche encore plus
difficile de reconnaissance de caractères tracés à la main — donc moins
réguliers — sous le nom de *Handwritten Text Recognition* (HTR) par rapport au
problème plus général d'[@=OCR]. Pour favoriser l'évaluation de système de HTR,
@chague_htr_2021 propose la diffusion de jeux de données pouvant servir de
@chague_htr_2021 proposent la diffusion de jeux de données pouvant servir de
vérité terrain. Aujourd'hui, tous les systèmes d'[@=OCR] sont basés sur des
méthodes d'[@=AA].
......@@ -380,10 +380,11 @@ pour annoter en syntaxe le corpus de cette thèse — ou HOPS
[@grobol_analyse_2021], tous deux basés sur de l'[@=AA], permettent d'analyser
un texte en UD et produisent en sortie des fichiers au format CoNLL-U. Le modèle
utilisé par HOPS prédit l'existence de liens dans un graphe dont les nœuds
représentant les mots d'une phrase. Cette stratégie, mise en regard du fait
qu'il est également possible d'utiliser des règles de réécriture de graphe pour
annoter en syntaxe [@guillaume_dependency_2015 ; @bonfante_application_2018,
chap.6] souligne la proximité thématique qui existe entre la théorie des graphes
et l'analyse syntaxique (bien que les arbres syntaxiques, qui n'admettent pas de
boucles, ne soient que des cas particuliers plus simples de graphes).
représentent les mots de la phrase à annoter. Cette stratégie, mise en regard du
fait qu'il est également possible d'utiliser des règles de réécriture de graphe
pour annoter en syntaxe [@guillaume_dependency_2015 ;
@bonfante_application_2018, chap.6] souligne la proximité thématique qui existe
entre la théorie des graphes et l'analyse syntaxique (bien que les arbres
syntaxiques, qui n'admettent pas de boucles, ne soient que des cas particuliers
plus simples de graphes).
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment