Skip to content
Snippets Groups Projects
Commit 6f4cda3b authored by Alice Brenon's avatar Alice Brenon
Browse files

Explain why I think there's more hope in developing compositional tools to...

Explain why I think there's more hope in developing compositional tools to improve (morpho-)syntactic analysis (based on a remark by Frédérique)
parent 5674db0f
No related branches found
No related tags found
No related merge requests found
...@@ -75,23 +75,27 @@ fonctionnalité pour suivre les renvois entre articles apporterait pourtant ...@@ -75,23 +75,27 @@ fonctionnalité pour suivre les renvois entre articles apporterait pourtant
encore bien plus d'intérêt à une interface web de consultation de l'œuvre. encore bien plus d'intérêt à une interface web de consultation de l'œuvre.
Enfin la conduite des analyses contrastives a révélé certains défauts récurrents Enfin la conduite des analyses contrastives a révélé certains défauts récurrents
dans l'annotation des textes en syntaxe avec Stanza. Certaines graphies sans dans l'annotation des textes en morphosyntaxe et en syntaxe avec Stanza.
accent du XVIII^ème^ siècle ont gêné la lemmatisation, ce qui est d'autant plus Certaines graphies sans accent du XVIII^ème^ siècle ont gêné la lemmatisation,
regrettable que ces questions ont été précédemment résolues à la conception de ce qui est d'autant plus regrettable que ces questions ont été précédemment
la chaîne de traitement du projet PRESTO [@diwersy_ressources_2017]. Cette étape résolues à la conception de la chaîne de traitement du projet PRESTO
de reconnaissance des lemmes semble également avoir souffert de la forte [@diwersy_ressources_2017] qui en revanche ne gère que l'annotation en
concentration d'abréviations dans *LGE* laissées telles quelles par l'outil. La morphosyntaxe. L'étape de reconnaissance des lemmes semble également avoir
position de substantifs en tête des phrases nominales par lesquelles débutent de souffert de la forte concentration d'abréviations dans *LGE* laissées telles
nombreux articles constitue une dernière source d'erreur facilement détectable quelles par l'outil. La position de substantifs en tête des phrases nominales
dans les sorties de Stanza. Les majuscules à l'initiale de ces noms communs les par lesquelles débutent de nombreux articles constitue une dernière source
font passer pour des noms propres et leur typographie a été conservée dans le d'erreur facilement détectable dans les sorties de Stanza. Les majuscules à
lemme associé au token. Ces imprécisions diminuent l'intérêt de l'étape de l'initiale de ces noms communs les font passer pour des noms propres et leur
lemmatisation, de nombreuses variantes graphiques devant être introduites dans typographie a été conservée dans le lemme associé au token. Ces imprécisions
les requêtes textométriques de la même façon que si elles portaient directement diminuent l'intérêt de l'étape de lemmatisation, de nombreuses variantes
sur la forme des mots plutôt que sur leur lemme. Des progrès restent donc à graphiques devant être introduites dans les requêtes textométriques de la même
accomplir dans la qualité de l'analyse syntaxique et, plus encore que le façon que si elles portaient directement sur la forme des mots plutôt que sur
développement d'une nouvelle chaîne d'annotation, un travail sur la leur lemme. Des progrès restent donc à accomplir dans la qualité de ce type
composabilité des solutions déjà disponibles paraît le plus prometteur. d'analyses, et ce malgré le nombre important d'outils très performants déjà
développés. Il semble donc quelque peu illusoire d'espérer régler tous les
problèmes en créant encore une nouvelle chaîne d'annotation. Trouver des moyens
pour pouvoir réutiliser en partie les solutions déjà disponibles et les composer
paraît plus prometteur.
### Les discours disciplinaires d'autres encyclopédies {.unnumbered .unlisted} ### Les discours disciplinaires d'autres encyclopédies {.unnumbered .unlisted}
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment