Améliorations
API
- L'API ne permet plus d'ajouter un mot dans un lexique d'une autre langue que le français.
- Ajouter une fonction de rafraîchissement du token pour éviter des erreurs API après un certain temps d'inutilisation de l'extension.
- Ajouter un appel API qui permet d'ajouter un label à une entrée
Interface utilisateur :
- Créer une fenêtre contextuelle lors de l’ajout d'un mot pour que l'utilisateur puisse choisir une définition et un exemple à ajouter (permet de désambigüiser).
- Stoplist pour les mots outils / Filtrage de mots Actuellement, la stoplist est stockée dans un .txt puis chargée : si l'utilisateur veut avoir une stoplist personnalisée, éventuellement créer une interface pour modifier la stoplist.
- Ajouter les labels pour les mots ajoutés automatiquement/manuellement
Statistiques
- Éventuellement ajouter d'autres informations (temps passé sur la page par exemple)
Efficacité des traitements pour l’ajout automatique et les statistiques
- Tokénisation : regex basée sur les espaces (délimitations des mots) avec un traitement spécial pour le français : Comment gérer les langues comme le japonais ? Peut-on gérer les MWE ? (Pour le français, on peut ajouter des expressions régulières mais on ne peut pas couvrir toutes les expressions poylexicales - doit-on importer un fichier ?)
Détection de la langue
…avec Simplemma téléchargé dans Pyodide depuis Pypi.
- Peut-on détecter la langue dans le code source, et si elle n’y est pas, utiliser langdetect() de simplemma ?
- On pourrait utiliser les éléments html de la page en premier (puis Simplemma ?)
- D'autres outils que simplemma pour compléter l'analyse ?
Lemmatisation
Actuellement, la langue est détectée à partir d’un élément html ex. p, h1, h2, span… ? Comment gérer les cas où on a par exemple un mot anglais dans une phrase en français ?
Stoplists
- Implémenter les stoplists de base pour les langues autres que le français
Lisibilité du code
- Voir si l'on peut stocker le code python appelé par pyodide dans des fichier
.py
et les appeler avecFileReader.readAsText()