Skip to content
Snippets Groups Projects
user avatar
Ludovic Moncla authored
2fdf5505

CNRS

Tutoriel - ANF TDM 2022 Python Geoparsing

Supports pour l'atelier Librairies Python et Services Web pour la reconnaissance d’entités nommées et la résolution de toponymes de la formation CNRS ANF TDM 2022.

Dans ce tutoriel, nous montrons comment utiliser des librairies Python pour la reconnaissance des entités nommées (Named Entity Recognition) et pour la résolution de toponymes (Geocoding). Pour cela, nous utiliserons les librairies (spaCy, Stanza) et Perdido.

Nous expérimenterons et comparerons ces librairies au travers deux études de cas : le traitement d'articles encyclopédiques (corpus issu du projet GEODE) et le traitement de descriptions de randonnées (corpus issu du projet ANR CHOUCAS).

Animateurs: Ludovic Moncla (INSA Lyon) et Alice Brenon (CNRS / INSA Lyon)

Tâches et problématiques abordées

  1. Reconnaissance et classification des entités nommées en français
  2. Résolution de toponymes (problématique de désambiguïsation)
  3. Créer et afficher une carte à partir d'un texte

Vous pouvez exécuter le notebook à distance en utilisant Open In Colab ou Binder. Sinon, pour exécuter ce tutoriel depuis un environnement local sur votre ordinateur, vous pouvez suivre les instructions ci-dessous.

Installer conda

Conda est un système de gestion de paquets et d'environnement open source. Il installe, exécute et met à jour rapidement les paquets et leurs dépendances. Nous l'utiliserons pour gérer l'environnement python et toutes les bibliothèques python nécessaires pour les tutoriels. Il existe plusieurs façons d'installer conda sur votre ordinateur :

  1. Anaconda distribution: fournit des applications, de nombreux paquets de science des données et d'apprentissage automatique sont déjà installés.
  2. Miniconda: une installation minimale pour conda, sans application graphique
  3. Miniforge: une autre installation minimale pour conda, sans application graphique (recommandée pour les puces Mac ARM M1 ou M2 (Apple Silicon))

Configurer un environnement conda

Cloner ce dépôt git

git clone https://gitlab.liris.cnrs.fr/lmoncla/tutoriel-anf-tdm-2022-python-geoparsing.git

Configurer l'environnement avec toutes les dépendances nécessaires

Méthode 1

  • Uilisateurs MacOS/Linux : Créer un nouvel environnement nommé tdm-geoparsing-py39 avec toutes les dépendances nécessaire en utilisant le fichier de configuration environment-osx-linux.yml :
conda env create -f environment-osx-linux.yml
  • Uilisateurs Windows : Créer un nouvel environnement nommé tdm-geoparsing-py39 avec toutes les dépendances nécessaire en utilisant le fichier de configuration environment-win64.yml :
conda env create -f environment-win64.yml
  • Activer l'environnement
conda activate tdm-geoparsing-py39

Méthode 2

  • Créer un nouvel environnement nommé tdm-geoparsing-py39
conda create -n tdm-geoparsing-py39 python=3.9
  • Activer l'environnement
conda activate tdm-geoparsing-py39
  • Installer le paquet fiona avec conda (évite une erreur lors de l'installation de cette dépendence avec pip)
conda install fiona==1.8.21
  • Installer les dépendances avec pip
pip install -r requirements.txt

Lancer le serveur Jupyter

jupyter notebook