Skip to content

Améliorations

API

  • L'API ne permet plus d'ajouter un mot dans un lexique d'une autre langue que le français.
  • Ajouter une fonction de rafraîchissement du token pour éviter des erreurs API après un certain temps d'inutilisation de l'extension.
  • Ajouter un appel API qui permet d'ajouter un label à une entrée

Interface utilisateur :

  • Créer une fenêtre contextuelle lors de l’ajout d'un mot pour que l'utilisateur puisse choisir une définition et un exemple à ajouter (permet de désambigüiser).
  • Stoplist pour les mots outils / Filtrage de mots Actuellement, la stoplist est stockée dans un .txt puis chargée : si l'utilisateur veut avoir une stoplist personnalisée, éventuellement créer une interface pour modifier la stoplist.
  • Ajouter les labels pour les mots ajoutés automatiquement/manuellement

Statistiques

  • Éventuellement ajouter d'autres informations (temps passé sur la page par exemple)

Efficacité des traitements pour l’ajout automatique et les statistiques

  • Tokénisation : regex basée sur les espaces (délimitations des mots) avec un traitement spécial pour le français : Comment gérer les langues comme le japonais ? Peut-on gérer les MWE ? (Pour le français, on peut ajouter des expressions régulières mais on ne peut pas couvrir toutes les expressions poylexicales - doit-on importer un fichier ?)

Détection de la langue

…avec Simplemma téléchargé dans Pyodide depuis Pypi.

  • Peut-on détecter la langue dans le code source, et si elle n’y est pas, utiliser langdetect() de simplemma ?
  • On pourrait utiliser les éléments html de la page en premier (puis Simplemma ?)
  • D'autres outils que simplemma pour compléter l'analyse ?

Lemmatisation

Actuellement, la langue est détectée à partir d’un élément html ex. p, h1, h2, span… ? Comment gérer les cas où on a par exemple un mot anglais dans une phrase en français ?

Stoplists

  • Implémenter les stoplists de base pour les langues autres que le français

Lisibilité du code

Edited by Mathieu Loiseau