Skip to content
Snippets Groups Projects
Commit feec2d35 authored by Ludovic Moncla's avatar Ludovic Moncla
Browse files

Update Tutoriel-geoparsing.ipynb

parent 2a4cc6df
No related branches found
No related tags found
No related merge requests found
%% Cell type:markdown id: tags: %% Cell type:markdown id: tags:
![CNRS](https://anf-tdm-2022.sciencesconf.org/data/header/LOGO_CNRS_CMJN_150x150.png) ![CNRS](https://anf-tdm-2022.sciencesconf.org/data/header/LOGO_CNRS_CMJN_150x150.png)
# Tutoriel - ANF TDM 2022 Python Geoparsing # Tutoriel - ANF TDM 2022 Python Geoparsing
Supports pour l'atelier [Librairies Python et Services Web pour la reconnaissance d’entités nommées et la résolution de toponymes](https://anf-tdm-2022.sciencesconf.org/resource/page/id/11) de la formation CNRS [ANF TDM 2022](https://anf-tdm-2022.sciencesconf.org). Supports pour l'atelier [Librairies Python et Services Web pour la reconnaissance d’entités nommées et la résolution de toponymes](https://anf-tdm-2022.sciencesconf.org/resource/page/id/11) de la formation CNRS [ANF TDM 2022](https://anf-tdm-2022.sciencesconf.org).
## 1. En bref ## 1. En bref
Dans ce tutoriel, nous allons apprendre plusieurs choses : Dans ce tutoriel, nous allons apprendre plusieurs choses :
- Charger des jeu de données : - Charger des jeu de données :
- à partir de la librairie Python [Perdido](https://github.com/ludovicmoncla/perdido) dans un [Pandas dataframe](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) (articles encyclopédiques et descriptions de randonnées) ; - à partir de la librairie Python [Perdido](https://github.com/ludovicmoncla/perdido) dans un [Pandas dataframe](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) (articles encyclopédiques et descriptions de randonnées) ;
- à partir de fichiers txt importés depuis le disque dur. - à partir de fichiers txt importés depuis le disque dur.
- Manipuler et interroger un dataframe - Manipuler et interroger un dataframe
- Utiliser des librairies de reconnaissance d'entités nommées ([spaCy](https://spacy.io), [Stanza](https://stanfordnlp.github.io/stanza/index.html) et [Perdido](https://github.com/ludovicmoncla/perdido)) - Utiliser des librairies de reconnaissance d'entités nommées ([spaCy](https://spacy.io), [Stanza](https://stanfordnlp.github.io/stanza/index.html) et [Perdido](https://github.com/ludovicmoncla/perdido))
- Utiliser la librarie `Perdido` pour le geoparsing : - Utiliser la librarie `Perdido` pour le geoparsing :
- afficher les entités nommées annotées ; - afficher les entités nommées annotées ;
- cartographier les lieux geocodés. - cartographier les lieux geocodés.
- Comparer les résultats de`spaCy`, `Stanza` et `Perdido` - Comparer les résultats de`spaCy`, `Stanza` et `Perdido`
- Discuter les limites des 3 outils pour la tâche de NER - Discuter les limites des 3 outils pour la tâche de NER
- Illustrer la problématique de désambiguïsation des toponymes - Illustrer la problématique de désambiguïsation des toponymes
%% Cell type:markdown id: tags: %% Cell type:markdown id: tags:
## 2. Introduction ## 2. Introduction
%% Cell type:markdown id: tags: %% Cell type:markdown id: tags:
### 2.1 spaCy ### 2.1 spaCy
### 2.2 Stanza NER ### 2.2 Stanza NER
### 2.3 Perdido Geoparser ### 2.3 Perdido Geoparser
%% Cell type:markdown id: tags: %% Cell type:markdown id: tags:
## 3. Configurer l'environnement ## 3. Configurer l'environnement
### 3.1 Installer les librairies Python ### 3.1 Installer les librairies Python
* Si vous avez configuré votre environnement Conda en utilisant le fichier `requirements.txt`, vous pouvez sauter cette étape et aller à la section `3.2 Importer les librairies`. * Si vous avez configuré votre environnement Conda en utilisant le fichier `requirements.txt`, vous pouvez sauter cette étape et aller à la section `3.2 Importer les librairies`.
* Si vous avez configuré votre environnement Conda en utilisant le fichier `environment.yml` ou si vous utilisez un environnement Google Colab, vous devez installer `perdido` en utilisant `pip` : * Si vous avez configuré votre environnement Conda en utilisant le fichier `environment.yml` ou si vous utilisez un environnement Google Colab / Binder, vous devez installer `perdido` en utilisant `pip` :
%% Cell type:code id: tags: %% Cell type:code id: tags:
``` python ``` python
!pip install --upgrade perdido !pip install --upgrade perdido
``` ```
%% Cell type:markdown id: tags: %% Cell type:markdown id: tags:
* Si vous avez déjà configuré votre environnement conda, soit avec conda, soit avec pip (voir le fichier readme), vous pouvez ignorer la cellule suivante. * Si vous avez déjà configuré votre environnement conda, soit avec conda, soit avec pip (voir le fichier readme), vous pouvez ignorer la cellule suivante.
* Si vous exécutez ce notebook depuis Google Colab, vous devez exécuter la cellule suivante : * Si vous exécutez ce notebook depuis Google Colab / Binder, vous devez exécuter la cellule suivante :
%% Cell type:code id: tags: %% Cell type:code id: tags:
``` python ``` python
!pip install stanza !pip install stanza
``` ```
%% Cell type:markdown id: tags: %% Cell type:markdown id: tags:
### 3.2 Importer les librairies ### 3.2 Importer les librairies
Tout d'abord, nous allons charger certaines bibliothèques spécifiques de `Perdido` que nous utiliserons dans ce notebook. Ensuite, nous importons quelques outils qui nous aideront à analyser et à visualiser le texte. Tout d'abord, nous allons charger certaines bibliothèques spécifiques de `Perdido` que nous utiliserons dans ce notebook. Ensuite, nous importons quelques outils qui nous aideront à analyser et à visualiser le texte.
%% Cell type:code id: tags: %% Cell type:code id: tags:
``` python ``` python
from perdido.geoparser import Geoparser from perdido.geoparser import Geoparser
from perdido.geocoder import Geocoder from perdido.geocoder import Geocoder
from perdido.datasets import load_edda_artfl, load_edda_perdido from perdido.datasets import load_edda_artfl, load_edda_perdido
from spacy import displacy from spacy import displacy
``` ```
%% Cell type:code id: tags: %% Cell type:code id: tags:
``` python ``` python
``` ```
%% Cell type:code id: tags: %% Cell type:code id: tags:
``` python ``` python
``` ```
%% Cell type:code id: tags: %% Cell type:code id: tags:
``` python ``` python
``` ```
%% Cell type:code id: tags: %% Cell type:code id: tags:
``` python ``` python
``` ```
%% Cell type:code id: tags: %% Cell type:code id: tags:
``` python ``` python
``` ```
%% Cell type:code id: tags: %% Cell type:code id: tags:
``` python ``` python
``` ```
%% Cell type:code id: tags: %% Cell type:code id: tags:
``` python ``` python
``` ```
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment