Tutoriel - ANF TDM 2022 Python Geoparsing
Supports pour l'atelier Librairies Python et Services Web pour la reconnaissance d’entités nommées et la résolution de toponymes de la formation CNRS ANF TDM 2022.
Dans ce tutoriel, nous montrons comment utiliser des librairies Python pour la reconnaissance des entités nommées (Named Entity Recognition) et pour la résolution de toponymes (Geocoding). Pour cela, nous utiliserons les librairies (spaCy, Stanza) et Perdido.
Nous expérimenterons et comparerons ces librairies au travers deux études de cas : le traitement d'articles encyclopédiques (corpus issu du projet GEODE) et le traitement de descriptions de randonnées (corpus issu du projet ANR CHOUCAS).
Animateurs: Ludovic Moncla (INSA Lyon) et Alice Brenon (CNRS / INSA Lyon)
Tâches et problématiques abordées
- Reconnaissance et classification des entités nommées en français
- Résolution de toponymes (problématique de désambiguïsation)
- Créer et afficher une carte à partir d'un texte
Vous pouvez exécuter le notebook à distance en utilisant ou
Sinon, pour exécuter ce tutoriel depuis un environnement local sur votre ordinateur, vous pouvez suivre les instructions ci-dessous.
Configurer un environnement conda
Cloner ce dépôt git
git clone https://gitlab.liris.cnrs.fr/lmoncla/tutoriel-anf-tdm-2022-python-geoparsing.git
Configurer l'environnement avec toutes les dépendances nécessaires
Méthode 1
- Créer un nouvel environnement nommé
tdm-geoparsing-py39
avec toutes les dépendances nécessaire en utilisant le fichier de configurationenvironment.yml
:
conda env create -f environment.yml
- Activer l'environnement
conda activate tdm-geoparsing-py39
Méthode 2
- Créer un nouvel environnement nommé
tdm-geoparsing-py39
conda create -n tdm-geoparsing-py39 python=3.9
- Activer l'environnement
conda activate tdm-geoparsing-py39
- Installer les dépendances avec
pip
pip install -r requirements.txt
Lancer le serveur Jupyter
jupyter notebook