From c0b34848aaf4a893e7ccb611aca23193fbaa2388 Mon Sep 17 00:00:00 2001 From: Alice BRENON <alice.brenon@ens-lyon.fr> Date: Sat, 29 Mar 2025 16:21:51 +0100 Subject: [PATCH] =?UTF-8?q?Rework=20the=20order=20of=20the=20=C2=B6=20on?= =?UTF-8?q?=20ALRs=20in=20the=20=C3=89dlA=20+=20introduce=20the=20notion?= =?UTF-8?q?=20of=20syntactic=20cooccurrents=20more=20clearly?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- "\303\211dlA/Linguistique_de_corpus.md" | 34 +++++++++++++++---------- 1 file changed, 20 insertions(+), 14 deletions(-) diff --git "a/\303\211dlA/Linguistique_de_corpus.md" "b/\303\211dlA/Linguistique_de_corpus.md" index 3aeff0e..054eea6 100644 --- "a/\303\211dlA/Linguistique_de_corpus.md" +++ "b/\303\211dlA/Linguistique_de_corpus.md" @@ -192,23 +192,29 @@ par hasard, donc l'affichage de cette valeur dans TXM suffit en pratique à exclure totalement une coïncidence. \label{alr}Le calcul des spécificités permet entre autres d'étudier les -associations lexicales fréquentes à travers le concept de cooccurrences. En -réitérant les mesures de cooccurrence pour former peu à peu un groupe de mots, -il est même possible de repérér des motifs discursifs [@longree_les_2008] grâce -la technique dite des «segments répétés». Comme la notion classique de -cooccurrent se base uniquement sur la réalisation dite «de +associations lexicales fréquentes à travers le concept de cooccurrences. La +notion classique de cooccurrent se base uniquement sur la réalisation dite «de surface» — c'est-à -dire sujette à l'ordre particulier dans lequel les mots apparaissent dans une phrase (par opposition à la «profondeur» d'un arbre -syntaxique) — le procédé souffre du bruit créé par les mots qui peuvent occuper -des positions libres au milieu des tournures de phrase puisque celles-ci ne sont -justement pas entièrement figées [@tutin_routines_2016, p.124]. Pour lever ces +syntaxique). En réitérant les mesures de cooccurrence pour former peu à peu un +groupe de mots, il est même possible de repérér des motifs discursifs +[@longree_les_2008] grâce la technique dite des «segments répétés». Comme de +telles tournures de phrase ne sont pas entièrement figées, de nombreux mots +peuvent occuper leurs positions encore libres et cette technique souffre donc +d'un «bruit considérable» [@tutin_routines_2016, p.124]. Pour lever ces difficultés, @tutin_routines_2016[p.126] introduisent une méthode itérative -semblable mais fondée sur des cooccurrents syntaxiques et nommée les Arbres -Lexico-syntaxiques Récurrents ([@=ALR]). En ajoutant progressivement à un noyau -initial un cooccurrent syntaxique fort, cette technique permet d'extraire des -motifs courants dans un corpus. Cette approche est implémentée dans le -Lexicoscope [@kraif_lexicoscope_2016] et a été utilisée pour mettre en évidence -des routines discursives par exemple dans certains genres littéraires +semblable mais fondée sur des cooccurrents syntaxiques. L'idée consiste à +rechercher les cooccurrents en se basant sur les relations de syntaxe plutôt que +sur la proximité séquentielle des mots. À la différence d'une recherche +traditionnelle, il n'y a donc pas de notion de «fenêtre» d'une taille +paramétrable autour du motif considéré, la recherche se limite par construction +a la phrase entière (au sens d'«arbre syntaxique», dont les éléments sont +nécessairement connexes). En ajoutant progressivement à un noyau initial des +cooccurrents syntaxiques forts, cette technique nommée «Arbres +Lexico-syntaxiques Récurrents» ([@=ALR]) permet d'extraire des motifs courants +dans un corpus. Cette approche est implémentée dans le Lexicoscope +[@kraif_lexicoscope_2016] et a été utilisée pour mettre en évidence des routines +discursives par exemple dans certains genres littéraires [@kraif_constructions_2016] ou des écrits scientifiques [@ji_hal_01956323]. Outre la notion de spécificité, la deuxième contribution majeure des -- GitLab