petite amélioration tokénisation fr

4dab4c7e · Prénom Nom · 0502e06f · 4dab4c7e · 4dab4c7e
Commit 4dab4c7e authored 4 months ago by Prénom Nom
--- a/src/utils/stats.js
+++ b/src/utils/stats.js
@@ -240,7 +240,7 @@
        }
    }
    /**
-     * Fonction pour nettoyer le texte
+     * Fonction pour prétraiter le texte 
     */
    function cleanText(text) {
        text = text.replace(/[\u2022\u00b7•·■◆▪▸▹▶►▻⇨]/g, " ");  // Supprime puces et flèches

--- a/src/workers/pyodide_worker.js
+++ b/src/workers/pyodide_worker.js
@@ -104,28 +104,45 @@ self.onmessage = async (event) => {
        import re
        import simplemma
        from simplemma import langdetect
+        abrev_pat = re.compile(r"""\\b(
+            p\\.ex|M\\.|MM\\.|cf\\.|e\\.g|etc\\.
+        )\\b""", re.X)
+        tokgrm = re.compile(r"""
+            (?:etc\\.|p\\.ex\\.|cf\\.|M\\.)|
+            (?:pomme de terre|pomme de pin|c'est-à-dire|peut-être|aujourd'hui|avant-hier|après-demain|tout-à-l’heure)|
+            \\w+(?=(?:-(?:je|tu|ils?|elles?|nous|vous|leur|lui|les?|ce|t-|même|ci|là)))|
+            [\\w\\-]+'?|
+            [^\\d\\W]+
+        """, re.X)
        def detect_language(text):
            lang_scores = simplemma.langdetect(text, lang=("fr", "en", "es", "de", "it", "pt"))
            return lang_scores[0][0] if lang_scores else "unk"
-        def tokenize(text):
+        def tokenize(text, lang):
+            if lang == "fr":
+                tokens = tokgrm.findall(text.lower())
+                # Exclure nombres & ponctuation
+                tokens = [t for t in tokens if not re.match(r"^[\\d.,:!?;]+$", t)]  
+                return tokens
            return re.findall(r"\\b[a-zA-ZÀ-ÿ'-]+\\b", text.lower())
        text = """${data.text.replace(/\"/g, '\\"')}"""
        detected_lang = detect_language(text)
        if detected_lang == "unk":
            detected_lang = "other"
-        tokens = tokenize(text)
+        tokens = tokenize(text, detected_lang)
        lemmatized_tokens = [simplemma.lemmatize(token, lang=detected_lang) for token in tokens]
        freq = {}
        for token in lemmatized_tokens:
            freq[token] = freq.get(token, 0) + 1
        json.dumps({"lang": detected_lang, "frequencies": freq}, ensure_ascii=False)
-        `);
+`);
          const parsedResult = JSON.parse(result);
          const detectedLang = parsedResult.lang;
          if (!storedFrequencies[detectedLang]) {