... | ... | @@ -16,15 +16,14 @@ |
|
|
## Fonctions TAL
|
|
|
|
|
|
* **Tokénisation des phrases**
|
|
|
* Expression régulière **`re.findall`** pour extraire les mots du texte
|
|
|
* Exclut les nombres et la ponctuation (`^[\d.,:!?;]+$`).
|
|
|
* Pour le français, on utilise l'expression régulière `tokgrm` pour gérer par exemple :
|
|
|
* Expression régulière **`re.findall`** pour extraire les mots valides du texte
|
|
|
* Utilise la délimitation d'un mot
|
|
|
* Exclut les nombres et la ponctuation (`^[\d.,:!?;]+$`)
|
|
|
* Pour améliorer la tokénisation en français, on ajoute l'expression régulière `tokgrm` pour gérer par exemple :
|
|
|
* Expressions multi-mots : "pomme de terre"
|
|
|
* mots avec apostrophes : "aujourd'hui"
|
|
|
* les abréviations courantes en français (etc., p.ex, M. ...)
|
|
|
* Exclure les nombres
|
|
|
|
|
|
|
|
|
* **Détection de la langue**
|
|
|
|
|
|
**`simplemma.langdetect`** pour analyser le texte et attribuer une langue probable
|
... | ... | |