From 256b1edca54c57bbc4bebc90657f7c8124e5b8e7 Mon Sep 17 00:00:00 2001 From: Alice BRENON <alice.brenon@ens-lyon.fr> Date: Tue, 1 Apr 2025 23:06:44 +0200 Subject: [PATCH] =?UTF-8?q?Move=20footnotes=20on=20syntax=20tooling=20from?= =?UTF-8?q?=20Corpus=20to=20=C3=89dla=20(already=20deleted=20from=20Corpus?= =?UTF-8?q?=20in=205de4591c,=20this=20commit=20should've=20been=20part=20o?= =?UTF-8?q?f=20it)?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- "\303\211dlA/TAL.md" | 46 +++++++++++++++++++++++++------------------- 1 file changed, 26 insertions(+), 20 deletions(-) diff --git "a/\303\211dlA/TAL.md" "b/\303\211dlA/TAL.md" index b1892b6..4965e93 100644 --- "a/\303\211dlA/TAL.md" +++ "b/\303\211dlA/TAL.md" @@ -367,24 +367,30 @@ amélioré et converti à partir du French Treebank en utilisant Grew [@bonfante_application_2018] un outil de réécriture de graphes. Ces grandes collections de données que sont les treebanks sont rendues interopérables grâce à un formalisme commun pour l'annotation syntaxique, les «dépendances -universelles» (*Universal Dependencies* ou [@=UD]) introduites par -@nivre_universal_2017. Ce formalisme qui s'inscrit comme son nom l'indique dans -l'analyse en dépendances de Tesnière fournit des jeux d'étiquettes pour les -[@=POS] et pour les relations syntaxiques créés dans le but de pouvoir couvrir -toutes les langues naturelles. Les annotations en UD sont généralement -représentées en utilisant le format CoNLL-U [@buchholz_conll_2006] qui -s'apparente à un format [@=TSV] enrichi pour pouvoir représenter les séparations -entre phrases, des commentaires ainsi que les «sous-tokens» nécessaires pour -rendre compte des amalgames. Des outils tels que Stanza [@qi2020stanza] — retenu -pour annoter en syntaxe le corpus de cette thèse — ou HOPS -[@grobol_analyse_2021], tous deux basés sur de l'[@=AA], permettent d'analyser -un texte en UD et produisent en sortie des fichiers au format CoNLL-U. Le modèle -utilisé par HOPS prédit l'existence de liens dans un graphe dont les nœuds -représentent les mots de la phrase à annoter. Cette stratégie, mise en regard du -fait qu'il est également possible d'utiliser des règles de réécriture de graphe -pour annoter en syntaxe [@guillaume_dependency_2015 ; -@bonfante_application_2018, chap.6] souligne la proximité thématique qui existe -entre la théorie des graphes et l'analyse syntaxique (bien que les arbres -syntaxiques, qui n'admettent pas de boucles, ne soient que des cas particuliers -plus simples de graphes). +universelles» (*Universal Dependencies*[^UD] ou [@=UD] dans le reste du +manuscrit) introduites par @nivre_universal_2017. Ce formalisme qui s'inscrit +comme son nom l'indique dans l'analyse en dépendances de Tesnière fournit des +jeux d'étiquettes pour les [@=POS] et pour les relations syntaxiques créés dans +le but de pouvoir couvrir toutes les langues naturelles. Les annotations en +[@=UD] sont généralement représentées en utilisant le format CoNLL-U[^conllu] +[@buchholz_conll_2006] qui s'apparente à un format [@=TSV] enrichi pour pouvoir +représenter les séparations entre phrases, des commentaires ainsi que les +«sous-tokens» nécessaires pour rendre compte des amalgames. Des outils tels que +Stanza [@qi2020stanza] — retenu pour annoter en syntaxe le corpus de cette +thèse — ou HOPS [@grobol_analyse_2021], tous deux basés sur de l'[@=AA], +permettent d'analyser un texte en [@=UD] et produisent en sortie des fichiers au +format CoNLL-U. Le modèle utilisé par HOPS prédit l'existence de liens dans un +graphe dont les nœuds représentent les mots de la phrase à annoter. Cette +stratégie, mise en regard du fait qu'il est également possible d'utiliser des +règles de réécriture de graphe pour annoter en syntaxe +[@guillaume_dependency_2015 ; @bonfante_application_2018, chap.6] souligne la +proximité thématique qui existe entre la théorie des graphes et l'analyse +syntaxique (bien que les arbres syntaxiques, qui n'admettent pas de boucles, ne +soient que des cas particuliers plus simples de graphes). + +[^UD]: + [https://universaldependencies.org/](https://universaldependencies.org/) + +[^conllu]: + [https://universaldependencies.org/format.html](https://universaldependencies.org/format.html) -- GitLab