... | @@ -16,7 +16,7 @@ |
... | @@ -16,7 +16,7 @@ |
|
## [Fonctions TAL](https://gitlab.liris.cnrs.fr/lex-game/balex2ff/-/blob/main/src/workers/pyodide_worker.js)
|
|
## [Fonctions TAL](https://gitlab.liris.cnrs.fr/lex-game/balex2ff/-/blob/main/src/workers/pyodide_worker.js)
|
|
|
|
|
|
* **Tokénisation des phrases**
|
|
* **Tokénisation des phrases**
|
|
* Expression régulière **`re.findall`** pour extraire les mots valides du texte
|
|
* Expression régulière [**`re.findall`**](https://gitlab.liris.cnrs.fr/lex-game/balex2ff/-/blob/main/src/workers/pyodide_worker.js#L130) pour extraire les mots valides du texte
|
|
* Utilise la délimitation d'un mot
|
|
* Utilise la délimitation d'un mot
|
|
* Exclut les nombres et la ponctuation (`^[\d.,:!?;]+$`)
|
|
* Exclut les nombres et la ponctuation (`^[\d.,:!?;]+$`)
|
|
* Pour améliorer la tokénisation en français, on ajoute l'expression régulière `tokgrm` pour gérer par exemple :
|
|
* Pour améliorer la tokénisation en français, on ajoute l'expression régulière `tokgrm` pour gérer par exemple :
|
... | @@ -26,7 +26,7 @@ |
... | @@ -26,7 +26,7 @@ |
|
* Exclure les nombres
|
|
* Exclure les nombres
|
|
* **Détection de la langue**
|
|
* **Détection de la langue**
|
|
|
|
|
|
**`simplemma.langdetect`** pour analyser le texte et attribuer une langue probable
|
|
[**`simplemma.langdetect`**](https://gitlab.liris.cnrs.fr/lex-game/balex2ff/-/blob/main/src/workers/pyodide_worker.js#L121) pour analyser le texte et attribuer une langue probable
|
|
|
|
|
|
>>>
|
|
>>>
|
|
def detect_language(text):
|
|
def detect_language(text):
|
... | @@ -40,11 +40,11 @@ |
... | @@ -40,11 +40,11 @@ |
|
>>>
|
|
>>>
|
|
* **Lemmatisation :**
|
|
* **Lemmatisation :**
|
|
|
|
|
|
`simplemma.lemmatize(token, lang=detected_lang)` pour appliquer la lemmatisation sur chaque mot extrait (`token`) en fonction de la langue détectée
|
|
[`simplemma.lemmatize(token, lang=detected_lang)`](https://gitlab.liris.cnrs.fr/lex-game/balex2ff/-/blob/main/src/workers/pyodide_worker.js#L138) pour appliquer la lemmatisation sur chaque mot extrait (`token`) en fonction de la langue détectée
|
|
|
|
|
|
> lemmatized_tokens = \[simplemma.lemmatize(token,lang=detected_lang) for token in tokens\]
|
|
> lemmatized_tokens = \[simplemma.lemmatize(token,lang=detected_lang) for token in tokens\]
|
|
|
|
|
|
* **Calcul des fréquences :** stockage du nombre d'apparitions de chaque mot lemmatisé dans un dictionnaire
|
|
* **Calcul des fréquences :** stockage du nombre d'apparitions de chaque mot lemmatisé dans un [dictionnaire](https://gitlab.liris.cnrs.fr/lex-game/balex2ff/-/blob/main/src/workers/pyodide_worker.js#L140)
|
|
|
|
|
|
>>>
|
|
>>>
|
|
freq = {}
|
|
freq = {}
|
... | @@ -56,8 +56,3 @@ |
... | @@ -56,8 +56,3 @@ |
|
```
|
|
```
|
|
|
|
|
|
>>> |
|
>>> |
|
|
|
\ No newline at end of file |
|
* **Filtrage des mots avec une stoplist**
|
|
|
|
|
|
|
|
> stoplistsByLang\[lang\] = set(words.lower().strip() for words in stoplists\[lang\])
|
|
|
|
|
|
|
|
Avec suppression des espaces et normalisation en minuscule pour prendre en compte les variations des mots |
|
|
|
\ No newline at end of file |
|
|