Update README.md

802ac2c3 · Ghanem Hussam · 155147a0 · 802ac2c3
Commit 802ac2c3 authored 4 years ago by Ghanem Hussam
--- a/README.md
+++ b/README.md
 # sentence-classification

+
+Nous avons dans cette communauté les notebooks Jupyter ainsi que le corpus de données pour un projet de stage de Master. 
+L’objectif général de ce projet était de développer une méthode adaptée pour l’extraction d’informations géo-sémantiques issues de documents textuels (romans). 
+Nous avions comme problématique principale l’hétérogénéité de ces documents et l’ambiguïté de la langue qui est un verrou important pour les méthodes d’extraction automatique d’informations. 
+Afin d’appliquer ces méthodes sur des données homogènes et génériques,
+l’hypothèse était de segmenter le texte afin de faire un premier filtre et de repérer les parties du texte qui contiennent des informations géographiques. 
+Nous faisons ce filtre en effectuant une méthode de classification automatique de phrases (segmentation de texte). 
+Cette méthode est composée de deux étapes (parties) principales. La première a pour objectif la construction automatique d’un corpus labellisé. 
+Ce corpus de phrases labellisées servira de jeu de données d’entraînement et d’évaluation pour la phase de classification supervisée. 
+La deuxième étape de notre proposition concerne donc l’entraînement supervisé d’un modèle de classification. 
+Notre objectif est d’identifier de manière automatique les phrases qui comportent des informations géographiques du type expression de déplacement associé à la présence d’un nom de lieu.
+
+Notre méthode prend comme entrée des romans (grands textes) au format TXT ainsi que des fichiers XML contenant des annotations sémantiques réalisées de manière automatique par l’outil PERDIDO.
+
+
+
+
+
+Labellisation automatique d’un corpus :
+
+Il s’agit de créer un jeu de données décomposé en deux parties : deux jeux de données, un pour l'entraînement et l’autre pour l’évaluation. 
+Ce jeu de données contient deux colonnes : sentences, labels. 
+Ces deux colonnes indiquent des phrases et des labels qui permettent de savoir si les phrases sont des indications géographiques ou non (label 0 : pas géographique, label 1 :  géographique)
+
+