diff --git a/Conclusion/Ouverture.md b/Conclusion/Ouverture.md index 512214e49f29876ed5e47e03def31fb71ea7803a..c7919b15e6e95dbba1513fc4262eea6effca8ef1 100644 --- a/Conclusion/Ouverture.md +++ b/Conclusion/Ouverture.md @@ -75,23 +75,27 @@ fonctionnalité pour suivre les renvois entre articles apporterait pourtant encore bien plus d'intérêt à une interface web de consultation de l'œuvre. Enfin la conduite des analyses contrastives a révélé certains défauts récurrents -dans l'annotation des textes en syntaxe avec Stanza. Certaines graphies sans -accent du XVIII^ème^ siècle ont gêné la lemmatisation, ce qui est d'autant plus -regrettable que ces questions ont été précédemment résolues à la conception de -la chaîne de traitement du projet PRESTO [@diwersy_ressources_2017]. Cette étape -de reconnaissance des lemmes semble également avoir souffert de la forte -concentration d'abréviations dans *LGE* laissées telles quelles par l'outil. La -position de substantifs en tête des phrases nominales par lesquelles débutent de -nombreux articles constitue une dernière source d'erreur facilement détectable -dans les sorties de Stanza. Les majuscules à l'initiale de ces noms communs les -font passer pour des noms propres et leur typographie a été conservée dans le -lemme associé au token. Ces imprécisions diminuent l'intérêt de l'étape de -lemmatisation, de nombreuses variantes graphiques devant être introduites dans -les requêtes textométriques de la même façon que si elles portaient directement -sur la forme des mots plutôt que sur leur lemme. Des progrès restent donc à -accomplir dans la qualité de l'analyse syntaxique et, plus encore que le -développement d'une nouvelle chaîne d'annotation, un travail sur la -composabilité des solutions déjà disponibles paraît le plus prometteur. +dans l'annotation des textes en morphosyntaxe et en syntaxe avec Stanza. +Certaines graphies sans accent du XVIII^ème^ siècle ont gêné la lemmatisation, +ce qui est d'autant plus regrettable que ces questions ont été précédemment +résolues à la conception de la chaîne de traitement du projet PRESTO +[@diwersy_ressources_2017] qui en revanche ne gère que l'annotation en +morphosyntaxe. L'étape de reconnaissance des lemmes semble également avoir +souffert de la forte concentration d'abréviations dans *LGE* laissées telles +quelles par l'outil. La position de substantifs en tête des phrases nominales +par lesquelles débutent de nombreux articles constitue une dernière source +d'erreur facilement détectable dans les sorties de Stanza. Les majuscules à +l'initiale de ces noms communs les font passer pour des noms propres et leur +typographie a été conservée dans le lemme associé au token. Ces imprécisions +diminuent l'intérêt de l'étape de lemmatisation, de nombreuses variantes +graphiques devant être introduites dans les requêtes textométriques de la même +façon que si elles portaient directement sur la forme des mots plutôt que sur +leur lemme. Des progrès restent donc à accomplir dans la qualité de ce type +d'analyses, et ce malgré le nombre important d'outils très performants déjà +développés. Il semble donc quelque peu illusoire d'espérer régler tous les +problèmes en créant encore une nouvelle chaîne d'annotation. Trouver des moyens +pour pouvoir réutiliser en partie les solutions déjà disponibles et les composer +paraît plus prometteur. ### Les discours disciplinaires d'autres encyclopédies {.unnumbered .unlisted}