From 6f4cda3b521e34c860be1d731f20a7cfdde616a4 Mon Sep 17 00:00:00 2001 From: Alice BRENON <alice.brenon@ens-lyon.fr> Date: Thu, 27 Mar 2025 19:19:50 +0100 Subject: [PATCH] =?UTF-8?q?Explain=20why=20I=20think=20there's=20more=20ho?= =?UTF-8?q?pe=20in=20developing=20compositional=20tools=20to=20improve=20(?= =?UTF-8?q?morpho-)syntactic=20analysis=20(based=20on=20a=20remark=20by=20?= =?UTF-8?q?Fr=C3=A9d=C3=A9rique)?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- Conclusion/Ouverture.md | 38 +++++++++++++++++++++----------------- 1 file changed, 21 insertions(+), 17 deletions(-) diff --git a/Conclusion/Ouverture.md b/Conclusion/Ouverture.md index 512214e..c7919b1 100644 --- a/Conclusion/Ouverture.md +++ b/Conclusion/Ouverture.md @@ -75,23 +75,27 @@ fonctionnalité pour suivre les renvois entre articles apporterait pourtant encore bien plus d'intérêt à une interface web de consultation de l'œuvre. Enfin la conduite des analyses contrastives a révélé certains défauts récurrents -dans l'annotation des textes en syntaxe avec Stanza. Certaines graphies sans -accent du XVIII^ème^ siècle ont gêné la lemmatisation, ce qui est d'autant plus -regrettable que ces questions ont été précédemment résolues à la conception de -la chaîne de traitement du projet PRESTO [@diwersy_ressources_2017]. Cette étape -de reconnaissance des lemmes semble également avoir souffert de la forte -concentration d'abréviations dans *LGE* laissées telles quelles par l'outil. La -position de substantifs en tête des phrases nominales par lesquelles débutent de -nombreux articles constitue une dernière source d'erreur facilement détectable -dans les sorties de Stanza. Les majuscules à l'initiale de ces noms communs les -font passer pour des noms propres et leur typographie a été conservée dans le -lemme associé au token. Ces imprécisions diminuent l'intérêt de l'étape de -lemmatisation, de nombreuses variantes graphiques devant être introduites dans -les requêtes textométriques de la même façon que si elles portaient directement -sur la forme des mots plutôt que sur leur lemme. Des progrès restent donc à -accomplir dans la qualité de l'analyse syntaxique et, plus encore que le -développement d'une nouvelle chaîne d'annotation, un travail sur la -composabilité des solutions déjà disponibles paraît le plus prometteur. +dans l'annotation des textes en morphosyntaxe et en syntaxe avec Stanza. +Certaines graphies sans accent du XVIII^ème^ siècle ont gêné la lemmatisation, +ce qui est d'autant plus regrettable que ces questions ont été précédemment +résolues à la conception de la chaîne de traitement du projet PRESTO +[@diwersy_ressources_2017] qui en revanche ne gère que l'annotation en +morphosyntaxe. L'étape de reconnaissance des lemmes semble également avoir +souffert de la forte concentration d'abréviations dans *LGE* laissées telles +quelles par l'outil. La position de substantifs en tête des phrases nominales +par lesquelles débutent de nombreux articles constitue une dernière source +d'erreur facilement détectable dans les sorties de Stanza. Les majuscules à +l'initiale de ces noms communs les font passer pour des noms propres et leur +typographie a été conservée dans le lemme associé au token. Ces imprécisions +diminuent l'intérêt de l'étape de lemmatisation, de nombreuses variantes +graphiques devant être introduites dans les requêtes textométriques de la même +façon que si elles portaient directement sur la forme des mots plutôt que sur +leur lemme. Des progrès restent donc à accomplir dans la qualité de ce type +d'analyses, et ce malgré le nombre important d'outils très performants déjà +développés. Il semble donc quelque peu illusoire d'espérer régler tous les +problèmes en créant encore une nouvelle chaîne d'annotation. Trouver des moyens +pour pouvoir réutiliser en partie les solutions déjà disponibles et les composer +paraît plus prometteur. ### Les discours disciplinaires d'autres encyclopédies {.unnumbered .unlisted} -- GitLab