Finish proofreading the ÉdlA

b86d69b2 · Alice Brenon · afc5e6aa · b86d69b2 · b86d69b2 · b86d69b2
Commit b86d69b2 authored 2 months ago by Alice Brenon
--- a/ÉdlA/Historique.md
+++ b/ÉdlA/Historique.md
@@ -10,7 +10,7 @@ qu'elles ont en commun: une approche plus statistique que symbolique du langage.
 Pour bien cerner cette distinction, il est utile de revenir à la chronologie
 esquissée dans la section \ref{sec:EdlA_lexicography} et de la développer.

-### Une compétition stimulante
+### Rivalité historique entre les approches symbolique et statistique

 Aux origines de cette lignée, il est d'abord question de «Traduction
 Automatique» (TA) et le domaine de recherche est surtout exploré pour ses
@@ -64,7 +64,7 @@ Convolutionnels ([@=CNN]), descendants du Neocognitron de
 Mais depuis 2010, le balancier semble cassé si l'on en croit
 @church_pendulum_2011[p.2], qui s'inquiète de ne pas voir les méthodes
 rationalistes faire leur retour à l'issue de la période d'une vingtaine d'années
-qui séparait les pics d'activités dans chacune des deux approches lors des
+qui séparait les pics d'activité dans chacune des deux approches lors des
 oscillations précédentes. Loin de revenir dans les recherches pour combler les
 lacunes des méthodes statistiques, elles se retrouvent éclipsées jusque dans les
 contenus pédagogiques [@church_pendulum_2011, p.19 et seq.].
@@ -90,7 +90,7 @@ avoir identifié leurs origines communes, il reste à caractériser ce qui les
 sépare pour pouvoir convenir d'une dénomination à utiliser dans le reste de
 cette thèse.

-### Convention de nommage {#sec:EdlA_history_names}
+### Nommer des pratiques très différentes {#sec:EdlA_history_names}

 La linguistique n'a pas attendu l'arrivée de réseaux de neurones artificiels
 utilisables pour que sa pratique bénéficie des apports des méthodes
@@ -155,6 +155,6 @@ place relative des approches couvertes dans les deux sections suivantes de cet
 versant informatique de la discipline, majoritairement à des méthodes empiristes
 mais sans exclure quelques techniques rationalistes. La section
 \ref{sec:EdlA_corpus_linguistics} sera au contraire centrée sur les pratiques
-linguistiques enrichies d'outils informatiques, héritières des travaux des
-écoles britannique et française initiés dans les années 1960.
+linguistiques enrichies d'outils informatiques, héritières des travaux initiés
+dans les années 1960 par les écoles britannique et française.

--- a/ÉdlA/Linguistique_de_corpus.md
+++ b/ÉdlA/Linguistique_de_corpus.md
@@ -138,8 +138,8 @@ de différents objets avec une approche statistique. En creux, ces décomptes
 supposent un découpage: il s'agit de recenser les occurrences d'un phénomène
 dans une partie du corpus par rapport aux autres pour dégager des critères
 quantitatifs objectifs qui caractérisent cette partie. Ce concept de
-[@=partition] est fondamental dans l'approche contrastive et dans l'ensemble de
-la discipline.
+«[@=partition]» est fondamental dans l'approche contrastive et dans l'ensemble
+de la discipline.

 Guiraud le premier, à la tête des stylisticiens [@leon_histoire_2015, p.129]
 remarque que «la linguistique est la science statistique type»
@@ -166,10 +166,11 @@ rapportant les fréquences observées à la taille des différentes parties,
 @lafon_variabilite_1980 définit la spécificité d'une forme comme une mesure de
 la probabilité que la distribution observée résulte d'une répartition purement
 aléatoire au sein du corpus. En ce sens, la spécificité quantifie la surprise
-que constitue la surreprésentation d'un motif dans une partie du corpus. Avec la
-loi de Zipf, ce point constitue un deuxième lien entre la lexicométrie et les
-travaux menés en théorie de l'information dès les années 1950 notamment par
-Shannon ou Markov [@leon_histoire_2015, chap.4 et en particulier p.56].
+que constitue la surreprésentation (ou la sous-représentation) d'un motif dans
+une partie du corpus. Avec la loi de Zipf, ce point constitue un deuxième lien
+entre la lexicométrie et les travaux menés en théorie de l'information dès les
+années 1950 notamment par Shannon ou Markov [@leon_histoire_2015, chap.4 et en
+particulier p.56].

 \label{textometry_specificity}Différentes lois ont été utilisées pour modéliser
 la distribution des mots en vue de calculer des spécificités comme la loi du
@@ -198,7 +199,7 @@ notion classique de cooccurrent se base uniquement sur la réalisation dite «de
 surface» — c'est-à-dire sujette à l'ordre particulier dans lequel les mots
 apparaissent dans une phrase (par opposition à la «profondeur» d'un arbre
 syntaxique). En réitérant les mesures de cooccurrence pour former peu à peu un
-groupe de mots, il est même possible de repérér des motifs discursifs
+groupe de mots, il est même possible de repérer des motifs discursifs
 [@longree_les_2008] grâce la technique dite des «segments répétés». Comme de
 telles tournures de phrase ne sont pas entièrement figées, de nombreux mots
 peuvent occuper leurs positions encore libres et cette technique souffre donc
@@ -209,7 +210,7 @@ rechercher les cooccurrents en se basant sur les relations de syntaxe plutôt qu
 sur la proximité séquentielle des mots. À la différence d'une recherche
 traditionnelle, il n'y a donc pas de notion de «fenêtre» d'une taille
 paramétrable autour du motif considéré, la recherche se limite par construction
-a la phrase entière (au sens d'«arbre syntaxique», dont les éléments sont
+à la phrase entière (au sens d'«arbre syntaxique», dont les éléments sont
 nécessairement connexes). En ajoutant progressivement à un noyau initial des
 cooccurrents syntaxiques forts, cette technique nommée «Arbres
 Lexico-syntaxiques Récurrents» ([@=ALR]) permet d'extraire des motifs courants
@@ -280,12 +281,12 @@ alimente de nombreuses études [@pincemin_semantique_2022;
 @mayaffre_explorer_2019]. Les discours des syndicats font aussi l'objet
 d'analyses contrastives [@brugidou_discours_2000]. Des époques plus reculées
 comme l'entre-deux-guerres ne sont pas ignorées [@mayaffre_poids_2000]. Enfin,
-la taille des intervalles de temps considérés permet la mise en place d'étude de
-productions d'une seule personnalité politique où les contrastes sont envisagés
-selon la dimension temporelle. @labbe_françois_1983 étudie ainsi le discours
-public de François Mitterrand dans la quinzaine d'années avant son élection au
-poste de président de la république puis celui de De Gaulle sur un peu plus
-d'une décennie [@labbe_diachronie_2010].
+la taille des intervalles de temps considérés permet la mise en place d'études
+des productions d'une seule personnalité politique où les contrastes sont
+envisagés selon la dimension temporelle. @labbe_françois_1983 étudie ainsi le
+discours public de François Mitterrand dans la quinzaine d'années avant son
+élection au poste de président de la république puis celui de De Gaulle sur un
+peu plus d'une décennie [@labbe_diachronie_2010].

 De telles études, dites en diachronie, permettent de capturer des évolutions à
 des échelles variées selon la durée considérée, les changements les plus

--- a/ÉdlA/TAL.md
+++ b/ÉdlA/TAL.md
@@ -36,10 +36,10 @@ fréquence dans le document considéré tempère ce nombre en le divisant par la
 proportion de documents du corpus qui contiennent ce mot. De la même manière que
 les *BoW* «purs», les vecteurs produits par cette méthode sont creux, ce qui
 tend à dégrader les performances des algorithmes d'[@=AA] en augmentant leurs
-complexités spatiales et temporelles.
+consommation de mémoire et leurs temps d'exécution.

 \label{edla_word_embeddings} Par contraste avec les deux approches précédentes,
-les plongements de mots produisent des vecteurs de plus petites dimensions et
+les plongements de mots produisent des vecteurs de plus petite dimension et
 denses en coefficients non nuls. Ils constituent une famille de méthodes
 fondamentalement différentes des deux précédentes du fait qu'elles capturent le
 contexte des mots dans leurs représentations vectorielles. Il y a deux approches
@@ -63,9 +63,9 @@ combinant tous les différents contextes dans lesquels il peut apparaître. Plus
 récemment, *BERT* [@devlin2018bert] — *Bidirectional Encoder Representations
 from Transformers* («Représentations d'Encodeur Bi-directionnels à partir de
 Transformeurs», voir p.\pageref{deep_learning_classifiers}) — utilise un
-plongement contextuel, où la représentation de chaque mot dépend du contexte
-dans lequel il apparaît dans une phrase, pour la phase de vectorisation qu'il
-intègre. *BERT* utilise des réseaux de neurones de type *transformer* et le
+plongement contextuel pour la phase de vectorisation qu'il intègre, c'est-à-dire
+où la représentation d'un mot dépend du contexte dans lequel il apparaît dans
+une phrase. *BERT* utilise des réseaux de neurones de type *transformer* et le
 concept de masque pour prédire les mots qui complètent une amorce de phrase
 donnée.

@@ -97,11 +97,11 @@ classification permettent de prédire les domaines de connaissance des articles
 p.\pageref{sec:structuring_knowledge}). Dans le cadre des travaux de l'[@=ARTFL]
 sur l'*EDdA*, @horton2009mining ont ainsi testé la classification Bayesienne
 dite «naïve» ([@=Naive Bayes]) pour prolonger la classification des auteurs de
-l'œuvre sur les entrées laissées sans domaine par les auteurs. L'Encyclopedia
-Britannica a également été étudiée par le
-Nineteenth-Century Knowledge Project[^19cProject] qui a utilisé des méthodes
-d'[@=AA] mais aussi des approches basées sur des règles pour indexer 400 000
-articles à travers 4 éditions de l'œuvre [@grabus_representing_2019].
+l'œuvre sur les entrées laissées sans domaine. L'Encyclopedia Britannica a de
+même été étudiée par le Nineteenth-Century Knowledge Project[^19cProject] qui a
+utilisé des méthodes d'[@=AA] mais aussi des approches basées sur des règles
+pour indexer 400 000 articles à travers 4 éditions de l'œuvre
+[@grabus_representing_2019].

 [^19cProject]: [https://tu-plogan.github.io/](https://tu-plogan.github.io/)

@@ -207,23 +207,23 @@ nouveau.
 Enfin, avant de clore complètement cet aperçu des travaux en Classification
 Automatique, il est intéressant de mentionner un champ de recherche qui utilise
 des techniques de classification sans s'y réduire. Si la localisation des
-caractères sur la page et la compréhension des liens qu'ils entretiennent est un
-préalable essentiel aux tâches de reconnaissance de caractères
-[@sayre_machine_1973, p.213], la classification des zones identifiées en
-caractères semble bien plus complexe. Les moyens classiques semblent inefficaces
-pour produire des résultats généralisables sur des données jamais rencontrées
-par l'algorithme et dans la même étude @sayre_machine_1973[p.216 et seq] explore
-donc des méthodes statistiques pour la classification.
+caractères sur la page et la compréhension des liens qu'ils entretiennent
+représentent certes un type de problèmes entièrement différent, l'identification
+des zones trouvées constitue quant à elle un problème de classification. Les
+moyens classiques semblent inefficaces pour produire des résultats
+généralisables sur des données jamais rencontrées par l'algorithme ce qui
+conduit @sayre_machine_1973[p.216 et seq] à explorer des méthodes statistiques
+pour reconnaître les caractères.

 En implémentant les [@=CNN], @lecun_backpropagation_1989 parviennent à créer des
 modèles capables de lire les codes postaux écrits à la main sur des enveloppes.
 De nombreux systèmes récents sont basés sur les *LSTM* [@wick_comparison_2018,
-p.79], architecture utile en classification ce qui souligne encore la parenté
+p.79], architecture utile en classification, ce qui souligne encore la parenté
 entre les deux tâches. On distingue généralement cette tâche encore plus
 difficile de reconnaissance de caractères tracés à la main — donc moins
 réguliers — sous le nom de *Handwritten Text Recognition* (HTR) par rapport au
 problème plus général d'[@=OCR]. Pour favoriser l'évaluation de système de HTR,
-@chague_htr_2021 propose la diffusion de jeux de données pouvant servir de
+@chague_htr_2021 proposent la diffusion de jeux de données pouvant servir de
 vérité terrain. Aujourd'hui, tous les systèmes d'[@=OCR] sont basés sur des
 méthodes d'[@=AA].

@@ -380,10 +380,11 @@ pour annoter en syntaxe le corpus de cette thèse — ou HOPS
 [@grobol_analyse_2021], tous deux basés sur de l'[@=AA], permettent d'analyser
 un texte en UD et produisent en sortie des fichiers au format CoNLL-U. Le modèle
 utilisé par HOPS prédit l'existence de liens dans un graphe dont les nœuds
-représentant les mots d'une phrase. Cette stratégie, mise en regard du fait
-qu'il est également possible d'utiliser des règles de réécriture de graphe pour
-annoter en syntaxe [@guillaume_dependency_2015 ; @bonfante_application_2018,
-chap.6] souligne la proximité thématique qui existe entre la théorie des graphes
-et l'analyse syntaxique (bien que les arbres syntaxiques, qui n'admettent pas de
-boucles, ne soient que des cas particuliers plus simples de graphes).
+représentent les mots de la phrase à annoter. Cette stratégie, mise en regard du
+fait qu'il est également possible d'utiliser des règles de réécriture de graphe
+pour annoter en syntaxe [@guillaume_dependency_2015 ;
+@bonfante_application_2018, chap.6] souligne la proximité thématique qui existe
+entre la théorie des graphes et l'analyse syntaxique (bien que les arbres
+syntaxiques, qui n'admettent pas de boucles, ne soient que des cas particuliers
+plus simples de graphes).