diff --git "a/\303\211dlA/TAL.md" "b/\303\211dlA/TAL.md" index b1892b6a55514b23685b92bed2aaaff9b5728133..4965e93d973b8fc1743015821ead98a4d28b1bcb 100644 --- "a/\303\211dlA/TAL.md" +++ "b/\303\211dlA/TAL.md" @@ -367,24 +367,30 @@ amélioré et converti à partir du French Treebank en utilisant Grew [@bonfante_application_2018] un outil de réécriture de graphes. Ces grandes collections de données que sont les treebanks sont rendues interopérables grâce à un formalisme commun pour l'annotation syntaxique, les «dépendances -universelles» (*Universal Dependencies* ou [@=UD]) introduites par -@nivre_universal_2017. Ce formalisme qui s'inscrit comme son nom l'indique dans -l'analyse en dépendances de Tesnière fournit des jeux d'étiquettes pour les -[@=POS] et pour les relations syntaxiques créés dans le but de pouvoir couvrir -toutes les langues naturelles. Les annotations en UD sont généralement -représentées en utilisant le format CoNLL-U [@buchholz_conll_2006] qui -s'apparente à un format [@=TSV] enrichi pour pouvoir représenter les séparations -entre phrases, des commentaires ainsi que les «sous-tokens» nécessaires pour -rendre compte des amalgames. Des outils tels que Stanza [@qi2020stanza] — retenu -pour annoter en syntaxe le corpus de cette thèse — ou HOPS -[@grobol_analyse_2021], tous deux basés sur de l'[@=AA], permettent d'analyser -un texte en UD et produisent en sortie des fichiers au format CoNLL-U. Le modèle -utilisé par HOPS prédit l'existence de liens dans un graphe dont les nœuds -représentent les mots de la phrase à annoter. Cette stratégie, mise en regard du -fait qu'il est également possible d'utiliser des règles de réécriture de graphe -pour annoter en syntaxe [@guillaume_dependency_2015 ; -@bonfante_application_2018, chap.6] souligne la proximité thématique qui existe -entre la théorie des graphes et l'analyse syntaxique (bien que les arbres -syntaxiques, qui n'admettent pas de boucles, ne soient que des cas particuliers -plus simples de graphes). +universelles» (*Universal Dependencies*[^UD] ou [@=UD] dans le reste du +manuscrit) introduites par @nivre_universal_2017. Ce formalisme qui s'inscrit +comme son nom l'indique dans l'analyse en dépendances de Tesnière fournit des +jeux d'étiquettes pour les [@=POS] et pour les relations syntaxiques créés dans +le but de pouvoir couvrir toutes les langues naturelles. Les annotations en +[@=UD] sont généralement représentées en utilisant le format CoNLL-U[^conllu] +[@buchholz_conll_2006] qui s'apparente à un format [@=TSV] enrichi pour pouvoir +représenter les séparations entre phrases, des commentaires ainsi que les +«sous-tokens» nécessaires pour rendre compte des amalgames. Des outils tels que +Stanza [@qi2020stanza] — retenu pour annoter en syntaxe le corpus de cette +thèse — ou HOPS [@grobol_analyse_2021], tous deux basés sur de l'[@=AA], +permettent d'analyser un texte en [@=UD] et produisent en sortie des fichiers au +format CoNLL-U. Le modèle utilisé par HOPS prédit l'existence de liens dans un +graphe dont les nœuds représentent les mots de la phrase à annoter. Cette +stratégie, mise en regard du fait qu'il est également possible d'utiliser des +règles de réécriture de graphe pour annoter en syntaxe +[@guillaume_dependency_2015 ; @bonfante_application_2018, chap.6] souligne la +proximité thématique qui existe entre la théorie des graphes et l'analyse +syntaxique (bien que les arbres syntaxiques, qui n'admettent pas de boucles, ne +soient que des cas particuliers plus simples de graphes). + +[^UD]: + [https://universaldependencies.org/](https://universaldependencies.org/) + +[^conllu]: + [https://universaldependencies.org/format.html](https://universaldependencies.org/format.html)