Tutoriel - ANF TDM 2022 Python Geoparsing
Supports pour l'atelier Librairies Python et Services Web pour la reconnaissance d’entités nommées et la résolution de toponymes de la formation CNRS ANF TDM 2022.
Dans ce tutoriel, nous montrons comment utiliser des librairies Python pour la reconnaissance des entités nommées (Named Entity Recognition) et pour la résolution de toponymes (Geocoding). Pour cela, nous utiliserons les librairies (spaCy, Stanza) et Perdido.
Nous expérimenterons et comparerons ces librairies au travers deux études de cas : le traitement d'articles encyclopédiques (corpus issu du projet GEODE) et le traitement de descriptions de randonnées (corpus issu du projet ANR CHOUCAS).
Animateurs: Ludovic Moncla (INSA Lyon) et Alice Brenon (CNRS / INSA Lyon)
Tâches et problématiques abordées
- Reconnaissance et classification des entités nommées en français
- Résolution de toponymes (problématique de désambiguïsation)
- Créer et afficher une carte à partir d'un texte
Vous pouvez exécuter le notebook à distance en utilisant ou
.
Sinon, pour exécuter ce tutoriel depuis un environnement local sur votre ordinateur, vous pouvez suivre les instructions ci-dessous.
Installer conda
Conda est un système de gestion de paquets et d'environnement open source. Il installe, exécute et met à jour rapidement les paquets et leurs dépendances. Nous l'utiliserons pour gérer l'environnement python et toutes les bibliothèques python nécessaires pour les tutoriels. Il existe plusieurs façons d'installer conda sur votre ordinateur :
- Anaconda distribution: fournit des applications, de nombreux paquets de science des données et d'apprentissage automatique sont déjà installés.
- Miniconda: une installation minimale pour conda, sans application graphique
- Miniforge: une autre installation minimale pour conda, sans application graphique (recommandée pour les puces Mac ARM M1 ou M2 (Apple Silicon))
Configurer un environnement conda
Cloner ce dépôt git
git clone https://gitlab.liris.cnrs.fr/lmoncla/tutoriel-anf-tdm-2022-python-geoparsing.git
Configurer l'environnement avec toutes les dépendances nécessaires
Méthode 1
- Uilisateurs MacOS/Linux : Créer un nouvel environnement nommé
tdm-geoparsing-py39
avec toutes les dépendances nécessaire en utilisant le fichier de configurationenvironment-osx-linux.yml
:
conda env create -f environment-osx-linux.yml
- Uilisateurs Windows : Créer un nouvel environnement nommé
tdm-geoparsing-py39
avec toutes les dépendances nécessaire en utilisant le fichier de configurationenvironment-win64.yml
:
conda env create -f environment-win64.yml
- Activer l'environnement
conda activate tdm-geoparsing-py39
Méthode 2
- Créer un nouvel environnement nommé
tdm-geoparsing-py39
conda create -n tdm-geoparsing-py39 python=3.9
- Activer l'environnement
conda activate tdm-geoparsing-py39
- Installer le paquet
fiona
avec conda (évite une erreur lors de l'installation de cette dépendence avecpip
)
conda install fiona==1.8.21
- Installer les dépendances avec
pip
pip install -r requirements.txt
Lancer le serveur Jupyter
jupyter notebook