# Word embeddings et deep learning pour la segmentation automatique de textes et l’extraction d’informations géographiques
## Description
Ce repository regroupe les notebooks et les données d'un travail sur la classification de phrases mené dans le cadre du projet [HextGEO](https://www.insa-lyon.fr/fr/hextgeo).
Ce travail a été réalisé par Hussam Ghanem dans le cadre de son stage de fin d'étude de Master 2 Informatique du l'Université de Strasbourg.
Nous avons dans cette communauté les notebooks Jupyter ainsi que le corpus de données pour un projet de stage de Master.
L’objectif général de ce projet est de développer une méthode adaptée pour l’extraction d’informations géo-sémantiques issues de documents textuels (romans).
L’objectif général de ce projet est de développer une méthode adaptée pour l’extraction d’informations géo-sémantiques issues de documents textuels (romans).
L’hétérogénéité de ces documents et l’ambiguïté de la langue est un verrou important afin d’appliquer les méthodes d’extraction automatique d’informations sur des données homogènes et génériques, l’hypothèse était de segmenter le texte afin de faire un premier filtre et de repérer les parties du texte qui contiennent des informations géographiques.
L’hétérogénéité de ces documents et l’ambiguïté de la langue est un verrou important afin d’appliquer les méthodes d’extraction automatique d’informations sur des données homogènes et génériques, l’hypothèse était de segmenter le texte afin de faire un premier filtre et de repérer les parties du texte qui contiennent des informations géographiques.
...
@@ -15,7 +18,7 @@ Notre méthode prend comme entrée des romans au format TXT ainsi que des fichie
...
@@ -15,7 +18,7 @@ Notre méthode prend comme entrée des romans au format TXT ainsi que des fichie
Schéma du processus de classification automatique de phrases
Schéma du processus de classification automatique de phrases
## Labellisation automatique d’un corpus
### Labellisation automatique d’un corpus
Il s’agit de créer un jeu de données composé de deux parties : une pour l'entraînement et l’autre pour l’évaluation. Ce jeu de données contient deux colonnes : sentences, labels. Ces deux colonnes indiquent des phrases et des labels qui permettent de savoir si les phrases sont des indications géographiques ou non (label 0 : pas géographique, label 1 : géographique)
Il s’agit de créer un jeu de données composé de deux parties : une pour l'entraînement et l’autre pour l’évaluation. Ce jeu de données contient deux colonnes : sentences, labels. Ces deux colonnes indiquent des phrases et des labels qui permettent de savoir si les phrases sont des indications géographiques ou non (label 0 : pas géographique, label 1 : géographique)
...
@@ -26,7 +29,7 @@ Schéma de la construction automatique non-supervisée d’un corpus labellisé
...
@@ -26,7 +29,7 @@ Schéma de la construction automatique non-supervisée d’un corpus labellisé
## Classification de phrases
### Classification de phrases
Cette étape prend comme entrée le corpus labellisés et généré par l’étape précédent. Dans cette étape, nous créons et entraînons notre modèle à partir d’un modèle pré-entraîné Multilinguel de BERT.
Cette étape prend comme entrée le corpus labellisés et généré par l’étape précédent. Dans cette étape, nous créons et entraînons notre modèle à partir d’un modèle pré-entraîné Multilinguel de BERT.
...
@@ -38,12 +41,14 @@ Schéma de la classification automatique des phrases
...
@@ -38,12 +41,14 @@ Schéma de la classification automatique des phrases
## Executer
## Execution
Vous trouver dans les notebooks les commentaires utiles pour comprendre mieux la méthode. Vous pouvez exectuer ces notebooks en utilisant Google Colab. De plus, vous trouverez dans le dossier Data le corpus (les romans) de première étape ainsi que le corpus labellisé généré par la première étape qui est utilisé pour entraîner et évaluer le modèle dans la deuxième étape.
Vous trouver dans les notebooks les commentaires utiles pour comprendre mieux la méthode. Vous pouvez exectuer ces notebooks en utilisant Google Colab. De plus, vous trouverez dans le dossier Data le corpus (les romans) de première étape ainsi que le corpus labellisé généré par la première étape qui est utilisé pour entraîner et évaluer le modèle dans la deuxième étape.
## Remerciement
Ce travail a été réalisé grâce au soutien financier du LABEX IMU (ANR-10-LABX-0088) et du Projet IDEXLYON de l’Université de Lyon, dans le cadre du programme « Investissements d’Avenir » (ANR-11-IDEX-0007) et (ANR-16-IDEX-0005).