Skip to content
Snippets Groups Projects
Commit c36e5881 authored by lmoncla's avatar lmoncla
Browse files

Update README.md

parent c4e79f7b
No related branches found
No related tags found
1 merge request!2Construction d'un corpus labellisé
......@@ -2,20 +2,22 @@
Nous avons dans cette communauté les notebooks Jupyter ainsi que le corpus de données pour un projet de stage de Master.
L’objectif général de ce projet était de développer une méthode adaptée pour l’extraction d’informations géo-sémantiques issues de documents textuels (romans).
Nous avions comme problématique principale l’hétérogénéité de ces documents et l’ambiguïté de la langue qui est un verrou important pour les méthodes d’extraction automatique d’informations. Afin d’appliquer ces méthodes sur des données homogènes et génériques, l’hypothèse était de segmenter le texte afin de faire un premier filtre et de repérer les parties du texte qui contiennent des informations géographiques. Nous faisons ce filtre en effectuant une méthode de classification automatique de phrases (segmentation de texte).
Cette méthode est composée de deux étapes (parties) principales. La première a pour objectif la construction automatique d’un corpus labellisé. Ce corpus de phrases labellisées servira de jeu de données d’entraînement et d’évaluation pour la phase de classification supervisée. La deuxième étape de notre proposition concerne donc l’entraînement supervisé d’un modèle de classification. Notre objectif est d’identifier de manière automatique les phrases qui comportent des informations géographiques du type expression de déplacement associé à la présence d’un nom de lieu.
Notre méthode prend comme entrée des romans (grands textes) au format TXT ainsi que des fichiers XML contenant des annotations sémantiques réalisées de manière automatique par l’outil PERDIDO.
L’objectif général de ce projet est de développer une méthode adaptée pour l’extraction d’informations géo-sémantiques issues de documents textuels (romans).
L’hétérogénéité de ces documents et l’ambiguïté de la langue est un verrou important afin d’appliquer les méthodes d’extraction automatique d’informations sur des données homogènes et génériques, l’hypothèse était de segmenter le texte afin de faire un premier filtre et de repérer les parties du texte qui contiennent des informations géographiques.
Nous proposons dans ce travail de faire filtre en effectuant une méthode de classification automatique de phrases (segmentation de texte) afin d'identifier les parties du textes qui seront pertinentes d'analyser et avec comme objectif de réduire la reconnaissance de faux positifs.
Notre méthode est composée de deux étapes principales. La première a pour objectif la construction automatique d’un corpus labellisé. Ce corpus de phrases labellisées servira de jeu de données d’entraînement et d’évaluation pour la phase de classification supervisée. La deuxième étape de notre proposition concerne donc l’entraînement supervisé d’un modèle de classification. Notre objectif est d’identifier de manière automatique les phrases qui comportent des informations géographiques du type expression de déplacement associé à la présence d’un nom de lieu.
Notre méthode prend comme entrée des romans au format TXT ainsi que des fichiers XML contenant des annotations sémantiques réalisées de manière automatique par l’outil PERDIDO.
![segmentation_de_texte](/uploads/2e46368fb7caf0a5df1a3a41b7e3f63b/segmentation_de_texte.png)
Schéma du processus de classification automatique de phrases
**Labellisation automatique d’un corpus :**
## Labellisation automatique d’un corpus
Il s’agit de créer un jeu de données composé en deux parties : deux jeux de données, un pour l'entraînement et l’autre pour l’évaluation. Ce jeu de données contient deux colonnes : sentences, labels. Ces deux colonnes indiquent des phrases et des labels qui permettent de savoir si les phrases sont des indications géographiques ou non (label 0 : pas géographique, label 1 : géographique)
Il s’agit de créer un jeu de données composé de deux parties : une pour l'entraînement et l’autre pour l’évaluation. Ce jeu de données contient deux colonnes : sentences, labels. Ces deux colonnes indiquent des phrases et des labels qui permettent de savoir si les phrases sont des indications géographiques ou non (label 0 : pas géographique, label 1 : géographique)
![labellisation_de_corpus](/uploads/4061ec057c8d846693b1ba088c68527a/labellisation_de_corpus.png)
......@@ -24,10 +26,9 @@ Schéma de la construction automatique non-supervisée d’un corpus labellisé
**Classification de phrases :**
Cette étape prend comme entrée le corpus labellisés et généré par l’étape précédent. Dans cette étape, nous créons et entraînons notre modèle à partir d’un modèle pré-entraîner Multilinguel de BERT.
## Classification de phrases
Cette étape prend comme entrée le corpus labellisés et généré par l’étape précédent. Dans cette étape, nous créons et entraînons notre modèle à partir d’un modèle pré-entraîné Multilinguel de BERT.
......@@ -37,9 +38,9 @@ Schéma de la classification automatique des phrases
**Executer :**
## Executer
Veuillez trouver dans les notebooks les commentaires utiles pour comprendre mieux la méthode. Vous pouvez exectuer ces notebooks en utilisant Google Colab. De plus, dans cette communauté vous pouvez trouver le corpus (les romans) de première étape ainsi que le corpus labellisé généré par la première étape qui est utilisé pour entraîner et évaluer le modèle dans la deuxième étape.
Vous trouver dans les notebooks les commentaires utiles pour comprendre mieux la méthode. Vous pouvez exectuer ces notebooks en utilisant Google Colab. De plus, vous trouverez dans le dossier Data le corpus (les romans) de première étape ainsi que le corpus labellisé généré par la première étape qui est utilisé pour entraîner et évaluer le modèle dans la deuxième étape.
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment