diff --git "a/\303\211dlA/Historique.md" "b/\303\211dlA/Historique.md" index 3e856bb26914f7bfc2a6411f4476a09583dda9a0..34311eb882ed52c53ac6f3ddd5964e2bd4b2be97 100644 --- "a/\303\211dlA/Historique.md" +++ "b/\303\211dlA/Historique.md" @@ -10,7 +10,7 @@ qu'elles ont en commun: une approche plus statistique que symbolique du langage. Pour bien cerner cette distinction, il est utile de revenir à la chronologie esquissée dans la section \ref{sec:EdlA_lexicography} et de la développer. -### Une compétition stimulante +### Rivalité historique entre les approches symbolique et statistique Aux origines de cette lignée, il est d'abord question de «Traduction Automatique» (TA) et le domaine de recherche est surtout exploré pour ses @@ -64,7 +64,7 @@ Convolutionnels ([@=CNN]), descendants du Neocognitron de Mais depuis 2010, le balancier semble cassé si l'on en croit @church_pendulum_2011[p.2], qui s'inquiète de ne pas voir les méthodes rationalistes faire leur retour à l'issue de la période d'une vingtaine d'années -qui séparait les pics d'activités dans chacune des deux approches lors des +qui séparait les pics d'activité dans chacune des deux approches lors des oscillations précédentes. Loin de revenir dans les recherches pour combler les lacunes des méthodes statistiques, elles se retrouvent éclipsées jusque dans les contenus pédagogiques [@church_pendulum_2011, p.19 et seq.]. @@ -90,7 +90,7 @@ avoir identifié leurs origines communes, il reste à caractériser ce qui les sépare pour pouvoir convenir d'une dénomination à utiliser dans le reste de cette thèse. -### Convention de nommage {#sec:EdlA_history_names} +### Nommer des pratiques très différentes {#sec:EdlA_history_names} La linguistique n'a pas attendu l'arrivée de réseaux de neurones artificiels utilisables pour que sa pratique bénéficie des apports des méthodes @@ -155,6 +155,6 @@ place relative des approches couvertes dans les deux sections suivantes de cet versant informatique de la discipline, majoritairement à des méthodes empiristes mais sans exclure quelques techniques rationalistes. La section \ref{sec:EdlA_corpus_linguistics} sera au contraire centrée sur les pratiques -linguistiques enrichies d'outils informatiques, héritières des travaux des -écoles britannique et française initiés dans les années 1960. +linguistiques enrichies d'outils informatiques, héritières des travaux initiés +dans les années 1960 par les écoles britannique et française. diff --git "a/\303\211dlA/Linguistique_de_corpus.md" "b/\303\211dlA/Linguistique_de_corpus.md" index 6b442deafd97dee9b1dea6cab2936749845796d1..ed055508e82d9d55e71eda7a4b60ea0987b9a414 100644 --- "a/\303\211dlA/Linguistique_de_corpus.md" +++ "b/\303\211dlA/Linguistique_de_corpus.md" @@ -138,8 +138,8 @@ de différents objets avec une approche statistique. En creux, ces décomptes supposent un découpage: il s'agit de recenser les occurrences d'un phénomène dans une partie du corpus par rapport aux autres pour dégager des critères quantitatifs objectifs qui caractérisent cette partie. Ce concept de -[@=partition] est fondamental dans l'approche contrastive et dans l'ensemble de -la discipline. +«[@=partition]» est fondamental dans l'approche contrastive et dans l'ensemble +de la discipline. Guiraud le premier, à la tête des stylisticiens [@leon_histoire_2015, p.129] remarque que «la linguistique est la science statistique type» @@ -166,10 +166,11 @@ rapportant les fréquences observées à la taille des différentes parties, @lafon_variabilite_1980 définit la spécificité d'une forme comme une mesure de la probabilité que la distribution observée résulte d'une répartition purement aléatoire au sein du corpus. En ce sens, la spécificité quantifie la surprise -que constitue la surreprésentation d'un motif dans une partie du corpus. Avec la -loi de Zipf, ce point constitue un deuxième lien entre la lexicométrie et les -travaux menés en théorie de l'information dès les années 1950 notamment par -Shannon ou Markov [@leon_histoire_2015, chap.4 et en particulier p.56]. +que constitue la surreprésentation (ou la sous-représentation) d'un motif dans +une partie du corpus. Avec la loi de Zipf, ce point constitue un deuxième lien +entre la lexicométrie et les travaux menés en théorie de l'information dès les +années 1950 notamment par Shannon ou Markov [@leon_histoire_2015, chap.4 et en +particulier p.56]. \label{textometry_specificity}Différentes lois ont été utilisées pour modéliser la distribution des mots en vue de calculer des spécificités comme la loi du @@ -198,7 +199,7 @@ notion classique de cooccurrent se base uniquement sur la réalisation dite «de surface» — c'est-à -dire sujette à l'ordre particulier dans lequel les mots apparaissent dans une phrase (par opposition à la «profondeur» d'un arbre syntaxique). En réitérant les mesures de cooccurrence pour former peu à peu un -groupe de mots, il est même possible de repérér des motifs discursifs +groupe de mots, il est même possible de repérer des motifs discursifs [@longree_les_2008] grâce la technique dite des «segments répétés». Comme de telles tournures de phrase ne sont pas entièrement figées, de nombreux mots peuvent occuper leurs positions encore libres et cette technique souffre donc @@ -209,7 +210,7 @@ rechercher les cooccurrents en se basant sur les relations de syntaxe plutôt qu sur la proximité séquentielle des mots. À la différence d'une recherche traditionnelle, il n'y a donc pas de notion de «fenêtre» d'une taille paramétrable autour du motif considéré, la recherche se limite par construction -a la phrase entière (au sens d'«arbre syntaxique», dont les éléments sont +à la phrase entière (au sens d'«arbre syntaxique», dont les éléments sont nécessairement connexes). En ajoutant progressivement à un noyau initial des cooccurrents syntaxiques forts, cette technique nommée «Arbres Lexico-syntaxiques Récurrents» ([@=ALR]) permet d'extraire des motifs courants @@ -280,12 +281,12 @@ alimente de nombreuses études [@pincemin_semantique_2022; @mayaffre_explorer_2019]. Les discours des syndicats font aussi l'objet d'analyses contrastives [@brugidou_discours_2000]. Des époques plus reculées comme l'entre-deux-guerres ne sont pas ignorées [@mayaffre_poids_2000]. Enfin, -la taille des intervalles de temps considérés permet la mise en place d'étude de -productions d'une seule personnalité politique où les contrastes sont envisagés -selon la dimension temporelle. @labbe_françois_1983 étudie ainsi le discours -public de François Mitterrand dans la quinzaine d'années avant son élection au -poste de président de la république puis celui de De Gaulle sur un peu plus -d'une décennie [@labbe_diachronie_2010]. +la taille des intervalles de temps considérés permet la mise en place d'études +des productions d'une seule personnalité politique où les contrastes sont +envisagés selon la dimension temporelle. @labbe_françois_1983 étudie ainsi le +discours public de François Mitterrand dans la quinzaine d'années avant son +élection au poste de président de la république puis celui de De Gaulle sur un +peu plus d'une décennie [@labbe_diachronie_2010]. De telles études, dites en diachronie, permettent de capturer des évolutions à des échelles variées selon la durée considérée, les changements les plus diff --git "a/\303\211dlA/TAL.md" "b/\303\211dlA/TAL.md" index 08446b16370820f9afe51760badc17bc900e24dc..b1892b6a55514b23685b92bed2aaaff9b5728133 100644 --- "a/\303\211dlA/TAL.md" +++ "b/\303\211dlA/TAL.md" @@ -36,10 +36,10 @@ fréquence dans le document considéré tempère ce nombre en le divisant par la proportion de documents du corpus qui contiennent ce mot. De la même manière que les *BoW* «purs», les vecteurs produits par cette méthode sont creux, ce qui tend à dégrader les performances des algorithmes d'[@=AA] en augmentant leurs -complexités spatiales et temporelles. +consommation de mémoire et leurs temps d'exécution. \label{edla_word_embeddings} Par contraste avec les deux approches précédentes, -les plongements de mots produisent des vecteurs de plus petites dimensions et +les plongements de mots produisent des vecteurs de plus petite dimension et denses en coefficients non nuls. Ils constituent une famille de méthodes fondamentalement différentes des deux précédentes du fait qu'elles capturent le contexte des mots dans leurs représentations vectorielles. Il y a deux approches @@ -63,9 +63,9 @@ combinant tous les différents contextes dans lesquels il peut apparaître. Plus récemment, *BERT* [@devlin2018bert] — *Bidirectional Encoder Representations from Transformers* («Représentations d'Encodeur Bi-directionnels à partir de Transformeurs», voir p.\pageref{deep_learning_classifiers}) — utilise un -plongement contextuel, où la représentation de chaque mot dépend du contexte -dans lequel il apparaît dans une phrase, pour la phase de vectorisation qu'il -intègre. *BERT* utilise des réseaux de neurones de type *transformer* et le +plongement contextuel pour la phase de vectorisation qu'il intègre, c'est-à -dire +où la représentation d'un mot dépend du contexte dans lequel il apparaît dans +une phrase. *BERT* utilise des réseaux de neurones de type *transformer* et le concept de masque pour prédire les mots qui complètent une amorce de phrase donnée. @@ -97,11 +97,11 @@ classification permettent de prédire les domaines de connaissance des articles p.\pageref{sec:structuring_knowledge}). Dans le cadre des travaux de l'[@=ARTFL] sur l'*EDdA*, @horton2009mining ont ainsi testé la classification Bayesienne dite «naïve» ([@=Naive Bayes]) pour prolonger la classification des auteurs de -l'œuvre sur les entrées laissées sans domaine par les auteurs. L'Encyclopedia -Britannica a également été étudiée par le -Nineteenth-Century Knowledge Project[^19cProject] qui a utilisé des méthodes -d'[@=AA] mais aussi des approches basées sur des règles pour indexer 400 000 -articles à travers 4 éditions de l'œuvre [@grabus_representing_2019]. +l'œuvre sur les entrées laissées sans domaine. L'Encyclopedia Britannica a de +même été étudiée par le Nineteenth-Century Knowledge Project[^19cProject] qui a +utilisé des méthodes d'[@=AA] mais aussi des approches basées sur des règles +pour indexer 400 000 articles à travers 4 éditions de l'œuvre +[@grabus_representing_2019]. [^19cProject]: [https://tu-plogan.github.io/](https://tu-plogan.github.io/) @@ -207,23 +207,23 @@ nouveau. Enfin, avant de clore complètement cet aperçu des travaux en Classification Automatique, il est intéressant de mentionner un champ de recherche qui utilise des techniques de classification sans s'y réduire. Si la localisation des -caractères sur la page et la compréhension des liens qu'ils entretiennent est un -préalable essentiel aux tâches de reconnaissance de caractères -[@sayre_machine_1973, p.213], la classification des zones identifiées en -caractères semble bien plus complexe. Les moyens classiques semblent inefficaces -pour produire des résultats généralisables sur des données jamais rencontrées -par l'algorithme et dans la même étude @sayre_machine_1973[p.216 et seq] explore -donc des méthodes statistiques pour la classification. +caractères sur la page et la compréhension des liens qu'ils entretiennent +représentent certes un type de problèmes entièrement différent, l'identification +des zones trouvées constitue quant à elle un problème de classification. Les +moyens classiques semblent inefficaces pour produire des résultats +généralisables sur des données jamais rencontrées par l'algorithme ce qui +conduit @sayre_machine_1973[p.216 et seq] à explorer des méthodes statistiques +pour reconnaître les caractères. En implémentant les [@=CNN], @lecun_backpropagation_1989 parviennent à créer des modèles capables de lire les codes postaux écrits à la main sur des enveloppes. De nombreux systèmes récents sont basés sur les *LSTM* [@wick_comparison_2018, -p.79], architecture utile en classification ce qui souligne encore la parenté +p.79], architecture utile en classification, ce qui souligne encore la parenté entre les deux tâches. On distingue généralement cette tâche encore plus difficile de reconnaissance de caractères tracés à la main — donc moins réguliers — sous le nom de *Handwritten Text Recognition* (HTR) par rapport au problème plus général d'[@=OCR]. Pour favoriser l'évaluation de système de HTR, -@chague_htr_2021 propose la diffusion de jeux de données pouvant servir de +@chague_htr_2021 proposent la diffusion de jeux de données pouvant servir de vérité terrain. Aujourd'hui, tous les systèmes d'[@=OCR] sont basés sur des méthodes d'[@=AA]. @@ -380,10 +380,11 @@ pour annoter en syntaxe le corpus de cette thèse — ou HOPS [@grobol_analyse_2021], tous deux basés sur de l'[@=AA], permettent d'analyser un texte en UD et produisent en sortie des fichiers au format CoNLL-U. Le modèle utilisé par HOPS prédit l'existence de liens dans un graphe dont les nœuds -représentant les mots d'une phrase. Cette stratégie, mise en regard du fait -qu'il est également possible d'utiliser des règles de réécriture de graphe pour -annoter en syntaxe [@guillaume_dependency_2015 ; @bonfante_application_2018, -chap.6] souligne la proximité thématique qui existe entre la théorie des graphes -et l'analyse syntaxique (bien que les arbres syntaxiques, qui n'admettent pas de -boucles, ne soient que des cas particuliers plus simples de graphes). +représentent les mots de la phrase à annoter. Cette stratégie, mise en regard du +fait qu'il est également possible d'utiliser des règles de réécriture de graphe +pour annoter en syntaxe [@guillaume_dependency_2015 ; +@bonfante_application_2018, chap.6] souligne la proximité thématique qui existe +entre la théorie des graphes et l'analyse syntaxique (bien que les arbres +syntaxiques, qui n'admettent pas de boucles, ne soient que des cas particuliers +plus simples de graphes).