Construction d'un corpus labellisé
Compare changes
- Ghanem Hussam authored
+ 52
− 1
L’hétérogénéité de ces documents et l’ambiguïté de la langue est un verrou important afin d’appliquer les méthodes d’extraction automatique d’informations sur des données homogènes et génériques, l’hypothèse était de segmenter le texte afin de faire un premier filtre et de repérer les parties du texte qui contiennent des informations géographiques.
Notre méthode est composée de deux étapes principales. La première a pour objectif la construction automatique d’un corpus labellisé. Ce corpus de phrases labellisées servira de jeu de données d’entraînement et d’évaluation pour la phase de classification supervisée. La deuxième étape de notre proposition concerne donc l’entraînement supervisé d’un modèle de classification. Notre objectif est d’identifier de manière automatique les phrases qui comportent des informations géographiques du type expression de déplacement associé à la présence d’un nom de lieu.
Il s’agit de créer un jeu de données composé de deux parties : une pour l'entraînement et l’autre pour l’évaluation. Ce jeu de données contient deux colonnes : sentences, labels. Ces deux colonnes indiquent des phrases et des labels qui permettent de savoir si les phrases sont des indications géographiques ou non (label 0 : pas géographique, label 1 : géographique)
Vous trouver dans les notebooks les commentaires utiles pour comprendre mieux la méthode. Vous pouvez exectuer ces notebooks en utilisant Google Colab. De plus, vous trouverez dans le dossier Data le corpus (les romans) de première étape ainsi que le corpus labellisé généré par la première étape qui est utilisé pour entraîner et évaluer le modèle dans la deuxième étape.