diff --git a/README.md b/README.md index e8b7e3fd286236ad3ae6038bc6f1345f2e729a5b..8cfcca2b0e8ff212555d96ceae0354850ea4d947 100644 --- a/README.md +++ b/README.md @@ -1,2 +1,27 @@ # sentence-classification + +Nous avons dans cette communauté les notebooks Jupyter ainsi que le corpus de données pour un projet de stage de Master. +L’objectif général de ce projet était de développer une méthode adaptée pour l’extraction d’informations géo-sémantiques issues de documents textuels (romans). +Nous avions comme problématique principale l’hétérogénéité de ces documents et l’ambiguïté de la langue qui est un verrou important pour les méthodes d’extraction automatique d’informations. +Afin d’appliquer ces méthodes sur des données homogènes et génériques, +l’hypothèse était de segmenter le texte afin de faire un premier filtre et de repérer les parties du texte qui contiennent des informations géographiques. +Nous faisons ce filtre en effectuant une méthode de classification automatique de phrases (segmentation de texte). +Cette méthode est composée de deux étapes (parties) principales. La première a pour objectif la construction automatique d’un corpus labellisé. +Ce corpus de phrases labellisées servira de jeu de données d’entraînement et d’évaluation pour la phase de classification supervisée. +La deuxième étape de notre proposition concerne donc l’entraînement supervisé d’un modèle de classification. +Notre objectif est d’identifier de manière automatique les phrases qui comportent des informations géographiques du type expression de déplacement associé à la présence d’un nom de lieu. + +Notre méthode prend comme entrée des romans (grands textes) au format TXT ainsi que des fichiers XML contenant des annotations sémantiques réalisées de manière automatique par l’outil PERDIDO. + + + + + +Labellisation automatique d’un corpus : + +Il s’agit de créer un jeu de données décomposé en deux parties : deux jeux de données, un pour l'entraînement et l’autre pour l’évaluation. +Ce jeu de données contient deux colonnes : sentences, labels. +Ces deux colonnes indiquent des phrases et des labels qui permettent de savoir si les phrases sont des indications géographiques ou non (label 0 : pas géographique, label 1 : géographique) + +