"Pour vérifier l'hypothèse que ce retour perturbe le repérage par `spaCy`, corrigeons une nouvelle fois le texte.\n"
"Pour vérifier l'hypothèse que ce retour perturbe le repérage par `spaCy`, corrigeons une nouvelle fois le texte.\n"
...
@@ -1224,7 +1224,7 @@
...
@@ -1224,7 +1224,7 @@
"\n",
"\n",
"Ce problème d'ambiguïtés peut aussi être illustrer en allant directement interroger le site web du [géoportail](https://www.geoportail.gouv.fr) comme le montre la capture ci-dessous.\n",
"Ce problème d'ambiguïtés peut aussi être illustrer en allant directement interroger le site web du [géoportail](https://www.geoportail.gouv.fr) comme le montre la capture ci-dessous.\n",
"\n",
"\n",
"\n"
"\n"
Supports pour l'atelier [Librairies Python et Services Web pour la reconnaissance d’entités nommées et la résolution de toponymes](https://anf-tdm-2022.sciencesconf.org/resource/page/id/11) de la formation CNRS [ANF TDM 2022](https://anf-tdm-2022.sciencesconf.org).
Supports pour l'atelier [Librairies Python et Services Web pour la reconnaissance d’entités nommées et la résolution de toponymes](https://anf-tdm-2022.sciencesconf.org/resource/page/id/11) de la formation CNRS [ANF TDM 2022](https://anf-tdm-2022.sciencesconf.org).
**Animateurs**: [Ludovic Moncla](https://ludovicmoncla.github.io)(INSA Lyon) et [Alice Brenon](https://perso.liris.cnrs.fr/abrenon/)(CNRS / INSA Lyon)
**Animateurs**: [Ludovic Moncla](https://ludovicmoncla.github.io)(INSA Lyon) et [Alice Brenon](https://perso.liris.cnrs.fr/abrenon/)(CNRS / INSA Lyon)
## 1. En bref
## 1. En bref
Dans ce tutoriel, nous allons apprendre plusieurs choses :
Dans ce tutoriel, nous allons apprendre plusieurs choses :
- Charger des jeux de données :
- Charger des jeux de données :
- à partir de fichiers txt importés depuis le disque dur ;
- à partir de fichiers txt importés depuis le disque dur ;
- à partir de la librairie Python [Perdido](https://github.com/ludovicmoncla/perdido) dans un [Pandas dataframe](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)(articles encyclopédiques et descriptions de randonnées).
- à partir de la librairie Python [Perdido](https://github.com/ludovicmoncla/perdido) dans un [Pandas dataframe](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)(articles encyclopédiques et descriptions de randonnées).
- Manipuler et interroger un dataframe
- Manipuler et interroger un dataframe
- Utiliser les librairies [Stanza](https://stanfordnlp.github.io/stanza/index.html), [spaCy](https://spacy.io) et [Perdido](https://github.com/ludovicmoncla/perdido) pour la reconnaissance d'entités nommées
- Utiliser les librairies [Stanza](https://stanfordnlp.github.io/stanza/index.html), [spaCy](https://spacy.io) et [Perdido](https://github.com/ludovicmoncla/perdido) pour la reconnaissance d'entités nommées
- afficher les entités nommées annotées ;
- afficher les entités nommées annotées ;
- comparer les résultats de `Stanza`, `spaCy` et `Perdido` ;
- comparer les résultats de `Stanza`, `spaCy` et `Perdido` ;
- discuter les dimites des 3 outils pour la tâche de NER.
- discuter les dimites des 3 outils pour la tâche de NER.
- Utiliser la librarie `Perdido` pour le geoparsing et le geocoding :
- Utiliser la librarie `Perdido` pour le geoparsing et le geocoding :
- cartographier les lieux geocodés ;
- cartographier les lieux geocodés ;
- illustrer la problématique de désambiguïsation des toponymes.
- illustrer la problématique de désambiguïsation des toponymes.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
## 2. Configurer l'environnement
## 2. Configurer l'environnement
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Si vous avez déjà configuré votre environnement, soit avec conda, soit avec pip (voir le fichier [README.md](https://gitlab.liris.cnrs.fr/lmoncla/tutoriel-anf-tdm-2022-python-geoparsing/-/blob/main/README.md)), vous pouvez ignorer la section suivante et passer directement à la 2.2.
* Si vous avez déjà configuré votre environnement, soit avec conda, soit avec pip (voir le fichier [README.md](https://gitlab.liris.cnrs.fr/lmoncla/tutoriel-anf-tdm-2022-python-geoparsing/-/blob/main/README.md)), vous pouvez ignorer la section suivante et passer directement à la 2.2.
* Si vous exécutez ce notebook depuis Google Colab, vous devez exécuter les cellules suivantes :
* Si vous exécutez ce notebook depuis Google Colab, vous devez exécuter les cellules suivantes :
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
### 2.1 Installer les librairies Python (uniquement si vous n'avez pas configuré l'environnement Python)
### 2.1 Installer les librairies Python (uniquement si vous n'avez pas configuré l'environnement Python)
Tout d'abord, nous allons charger certaines bibliothèques spécifiques de `Perdido` que nous utiliserons dans ce notebook. Ensuite, nous importons quelques outils qui nous aideront à analyser et à visualiser le texte.
Tout d'abord, nous allons charger certaines bibliothèques spécifiques de `Perdido` que nous utiliserons dans ce notebook. Ensuite, nous importons quelques outils qui nous aideront à analyser et à visualiser le texte.
### 3.1 Chargement d'un document texte à partir d'un fichier
### 3.1 Chargement d'un document texte à partir d'un fichier
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
# On définit une fonction qui prend en paramètre le chemin d'un fichier et qui retourne sont contenu
# On définit une fonction qui prend en paramètre le chemin d'un fichier et qui retourne sont contenu
defload_txt(filepath):
defload_txt(filepath):
withopen(filepath)asf:
withopen(filepath)asf:
returnf.read()
returnf.read()
```
```
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
# On utilise la fonction précédente pour récupérer le contenu de l'article encyclopédique 'Arques' (volume01-4083.txt) présent dans le dossier data
# On utilise la fonction précédente pour récupérer le contenu de l'article encyclopédique 'Arques' (volume01-4083.txt) présent dans le dossier data
arques=load_txt('data/edda-volume01-4083.txt')
arques=load_txt('data/edda-volume01-4083.txt')
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Afficher le contenu du fichier
* Afficher le contenu du fichier
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
print(arques)
print(arques)
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
### 3.2 Chargement d'un jeu de données à partir de la librairie Perdido
### 3.2 Chargement d'un jeu de données à partir de la librairie Perdido
La libraire de geoparsing [Perdido](https://github.com/ludovicmoncla/perdido) embarque deux jeux de données :
La libraire de geoparsing [Perdido](https://github.com/ludovicmoncla/perdido) embarque deux jeux de données :
1. des articles encyclopédiques (volume 7 de l'Encyclopédie de Diderot et d'Alembert (1751-1772)), fournit par l'[ARTFL](https://encyclopedie.uchicago.edu) dans le cadre du projet [GEODE](https://geode-project.github.io) ;
1. des articles encyclopédiques (volume 7 de l'Encyclopédie de Diderot et d'Alembert (1751-1772)), fournit par l'[ARTFL](https://encyclopedie.uchicago.edu) dans le cadre du projet [GEODE](https://geode-project.github.io) ;
2. des descriptions de randonnées (chaque description est associée à sa trace GPS. Elles proviennent du site [www.visorando.fr](https://www.visorando.com) et ont été collectées dans le cadre du projet [ANR CHOUCAS](http://choucas.ign.fr).
2. des descriptions de randonnées (chaque description est associée à sa trace GPS. Elles proviennent du site [www.visorando.fr](https://www.visorando.com) et ont été collectées dans le cadre du projet [ANR CHOUCAS](http://choucas.ign.fr).
Dans un premier temps nous allons nous intéresser au jeu de données des articles encyclopédiques. Ce jeu de données est présent dans la librairie en deux versions, une version "brute" (articles fournis par l'ARTFL) au format dataframe et une version déjà annotée par Perdido (format PerdidoCollection). Nous allons charger la version brute et voir comment manipuler un dataframe.
Dans un premier temps nous allons nous intéresser au jeu de données des articles encyclopédiques. Ce jeu de données est présent dans la librairie en deux versions, une version "brute" (articles fournis par l'ARTFL) au format dataframe et une version déjà annotée par Perdido (format PerdidoCollection). Nous allons charger la version brute et voir comment manipuler un dataframe.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Charger le jeu de données :
* Charger le jeu de données :
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
dataset_artfl=load_edda_artfl()
dataset_artfl=load_edda_artfl()
data_artfl=dataset_artfl['data']
data_artfl=dataset_artfl['data']
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Afficher les informations sur le jeu de données :
* Afficher les informations sur le jeu de données :
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
data_artfl.info()
data_artfl.info()
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
On remarque que certaines colonnes ont une donnée manquante (3384 lignes non nulles contre 3385 lignes au total). Pour la suite des opérations que nous allons réaliser il est nécessaire de supprimer les lignes incomplètes.
On remarque que certaines colonnes ont une donnée manquante (3384 lignes non nulles contre 3385 lignes au total). Pour la suite des opérations que nous allons réaliser il est nécessaire de supprimer les lignes incomplètes.
Nous avons maintenant accès à tous les attributs et méthodes de l'objet [dataframe](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html). Par exemple, nous pouvons facilement connaître le nombre de lignes dans notre dataframe qui correspond au nombre d'articles dans notre corpus :
Nous avons maintenant accès à tous les attributs et méthodes de l'objet [dataframe](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html). Par exemple, nous pouvons facilement connaître le nombre de lignes dans notre dataframe qui correspond au nombre d'articles dans notre corpus :
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
n=data_artfl.shape[0]
n=data_artfl.shape[0]
print('Il y a '+str(n)+' articles dans le jeu de données.')
print('Il y a '+str(n)+' articles dans le jeu de données.')
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
#### 3.3.1 Recherche par métadonnées
#### 3.3.1 Recherche par métadonnées
Maintenant que les données sont chargées dans un dataframe, nous pouvons sélectionner des groupes d'articles sur la base de leurs métadonnées.
Maintenant que les données sont chargées dans un dataframe, nous pouvons sélectionner des groupes d'articles sur la base de leurs métadonnées.
Pour cela on utilise la méthode [loc()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html).
Pour cela on utilise la méthode [loc()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html).
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Selectionner la ligne du dataframe qui correspond à l'article 'FRONTIGNAN' :
* Selectionner la ligne du dataframe qui correspond à l'article 'FRONTIGNAN' :
On peut également regrouper les données selon un ou plusieurs attributs (colonnes) et compter le nombre de données de chaque groupe avec les méthodes [groupby()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html) et [count()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.count.html).
On peut également regrouper les données selon un ou plusieurs attributs (colonnes) et compter le nombre de données de chaque groupe avec les méthodes [groupby()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html) et [count()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.count.html).
* Afficher le nombre d'articles classés en Géographie par auteur :
* Afficher le nombre d'articles classés en Géographie par auteur :
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
d_geo.groupby(['author'])["filename"].count()
d_geo.groupby(['author'])["filename"].count()
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
Dans cette partie nous avons vu brievement comment manipuler un dataframe pour selectionner certaines données en filtrant selon certaines métadonnées ou par une recheche par mot clés. Ces opérations sont utiles mais un peu limitées, nous allons voir dans la suite de ce notebook comment enrichir les métadonnées et en particulier comment annoter les entités nommées présents dans les textes.
Dans cette partie nous avons vu brievement comment manipuler un dataframe pour selectionner certaines données en filtrant selon certaines métadonnées ou par une recheche par mot clés. Ces opérations sont utiles mais un peu limitées, nous allons voir dans la suite de ce notebook comment enrichir les métadonnées et en particulier comment annoter les entités nommées présents dans les textes.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
## 4. Reconnaissance d'Entités Nommées (NER)
## 4. Reconnaissance d'Entités Nommées (NER)
La reconnaissance d'entités nommées, *Named Entity Recognition* (NER) en anglais, est une tâche très importante et incontournable en traitement automatique des langues (TAL) et en compréhension du langage naturel (NLU en anglais).
La reconnaissance d'entités nommées, *Named Entity Recognition* (NER) en anglais, est une tâche très importante et incontournable en traitement automatique des langues (TAL) et en compréhension du langage naturel (NLU en anglais).
Cette tâche consiste à rechercher des objets textuels (un mot, ou un groupe de mots, souvent associés aux noms propres) catégorisables dans des classes telles que noms de personnes, noms d'organisations ou d'entreprises, noms de lieux, quantités, distances, valeurs, dates, etc.
Cette tâche consiste à rechercher des objets textuels (un mot, ou un groupe de mots, souvent associés aux noms propres) catégorisables dans des classes telles que noms de personnes, noms d'organisations ou d'entreprises, noms de lieux, quantités, distances, valeurs, dates, etc.
Les typologies et les jeux d'étiquettes sont dépendents de chaque outil.
Les typologies et les jeux d'étiquettes sont dépendents de chaque outil.
Dans cet atelier nous allons expérimenter et comparer trois outils de NER :
Dans cet atelier nous allons expérimenter et comparer trois outils de NER :
`Stanza` est une librairie Python de traitement du langage naturel. Elle contient des outils, qui peuvent être utilisés dans une chaîne de traitement, pour convertir du texte en listes de phrases et de mots, pour générer les formes de base de ces mots, leurs parties du discours et leurs caractéristiques morphologiques, pour produire une analyse syntaxique de dépendance, et pour reconnaître les entités nommées.
`Stanza` est une librairie Python de traitement du langage naturel. Elle contient des outils, qui peuvent être utilisés dans une chaîne de traitement, pour convertir du texte en listes de phrases et de mots, pour générer les formes de base de ces mots, leurs parties du discours et leurs caractéristiques morphologiques, pour produire une analyse syntaxique de dépendance, et pour reconnaître les entités nommées.
`Stanza` se base sur des modèles entrainés par des réseaux de neurones à partir de la bibliothèque [PyTorch](https://pytorch.org) et permet de traiter plus de 70 langues.
`Stanza` se base sur des modèles entrainés par des réseaux de neurones à partir de la bibliothèque [PyTorch](https://pytorch.org) et permet de traiter plus de 70 langues.
Dans cette partie nous allons voir comment utiliser `Stanza` pour la reconnaissance d'entités nommées à partir de textes en français.
Dans cette partie nous allons voir comment utiliser `Stanza` pour la reconnaissance d'entités nommées à partir de textes en français.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Importer la librairie `Stanza` :
* Importer la librairie `Stanza` :
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
importstanza
importstanza
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Télécharger le modèle pré-entrainé pour le français :
* Télécharger le modèle pré-entrainé pour le français :
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
stanza.download('fr')
stanza.download('fr')
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Instancier et paramétrer la chaîne de traitement :
* Instancier et paramétrer la chaîne de traitement :
* On utilise la variable `arques` qui contient le texte chargé précédemment à partir du fichier txt
* On utilise la variable `arques` qui contient le texte chargé précédemment à partir du fichier txt
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
print(arques)
print(arques)
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Executer la reconnaissance d'entités nommées :
* Executer la reconnaissance d'entités nommées :
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
arques_stanza=stanza_parser(arques)
arques_stanza=stanza_parser(arques)
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Afficher la liste des entités nommées repérées. Avec Stanza, le résultat de l'analyse est un itérateur:
* Afficher la liste des entités nommées repérées. Avec Stanza, le résultat de l'analyse est un itérateur:
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
# On définit une fonction qui prend en paramètre le retour du traitement par Stanza, qui parcourt et affiche la liste des entités et leur type
# On définit une fonction qui prend en paramètre le retour du traitement par Stanza, qui parcourt et affiche la liste des entités et leur type
defshow_ents(stanza_output):
defshow_ents(stanza_output):
forentinstanza_output.ents:
forentinstanza_output.ents:
print(ent.text,ent.type)
print(ent.text,ent.type)
```
```
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
# On utilise la fonction précédente pour afficher la liste des entités repérées
# On utilise la fonction précédente pour afficher la liste des entités repérées
show_ents(arques_stanza)
show_ents(arques_stanza)
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
### 4.2 SpaCy NER
### 4.2 SpaCy NER
`spaCy` est également une librairie Python de traitement du langage naturel.
`spaCy` est également une librairie Python de traitement du langage naturel.
Elle se compose de modèles pré-entrainés et supporte actuellement la tokenisation et l'entrainement pour plus de 60 langues. Elle est dotée de modèles de réseaux de neuronnes pour l'étiquettage, l'analyse syntaxique, la reconnaissance d'entités nommées, la classification de textes, l'apprentissage multi-tâches avec des transformateurs pré-entraînés comme BERT, ainsi qu'un système d'entraînement prêt pour la production et un déploiement simple des modèles. `spaCy` est un logiciel commercial, publié en open-source sous la licence MIT.
Elle se compose de modèles pré-entrainés et supporte actuellement la tokenisation et l'entrainement pour plus de 60 langues. Elle est dotée de modèles de réseaux de neuronnes pour l'étiquettage, l'analyse syntaxique, la reconnaissance d'entités nommées, la classification de textes, l'apprentissage multi-tâches avec des transformateurs pré-entraînés comme BERT, ainsi qu'un système d'entraînement prêt pour la production et un déploiement simple des modèles. `spaCy` est un logiciel commercial, publié en open-source sous la licence MIT.
Dans cette partie nous allons voir comment utiliser `spaCy` pour la reconnaissance d'entités nommées toujours à partir de notre exemple en français.
Dans cette partie nous allons voir comment utiliser `spaCy` pour la reconnaissance d'entités nommées toujours à partir de notre exemple en français.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Installer le modèle français pré-entrainé de `spaCy` :
* Installer le modèle français pré-entrainé de `spaCy` :
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
!python-mspacydownloadfr_core_news_sm
!python-mspacydownloadfr_core_news_sm
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Importer la librarie `spaCy` :
* Importer la librarie `spaCy` :
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
importspacy
importspacy
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Charger le modèle français pré-entrainé de `spaCy`
* Charger le modèle français pré-entrainé de `spaCy`
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
spacy_parser=spacy.load('fr_core_news_sm')
spacy_parser=spacy.load('fr_core_news_sm')
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Executer la reconnaissance d'entités nommées :
* Executer la reconnaissance d'entités nommées :
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
arques_spacy=spacy_parser(arques)
arques_spacy=spacy_parser(arques)
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Afficher la liste des entités nommées repérées. Les sorties de SpaCy sont dans un format similaire à celui de Stanza mais les étiquettes sont portées par l'attribut `label_` et pas `type`:
* Afficher la liste des entités nommées repérées. Les sorties de SpaCy sont dans un format similaire à celui de Stanza mais les étiquettes sont portées par l'attribut `label_` et pas `type`:
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
forentinarques_spacy.ents:
forentinarques_spacy.ents:
print(ent.text,ent.label_)
print(ent.text,ent.label_)
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
*`spaCy` fournit également une fonction pour effectuer un rendu plus graphique des annotations avec `displaCy` :
*`spaCy` fournit également une fonction pour effectuer un rendu plus graphique des annotations avec `displaCy` :
On remarque des différences entre les résultats de Stanza et de spaCy. En particulier spaCy repère trois entités à tord (faux positifs) : `Géog`, `Long` et `lat`, là où Stanza ne repérait à tord que `Géog)`. Et spaCy ne repère pas la première occurrence `ARQUES` sans doute du au fait que le mot est en majuscule.
On remarque des différences entre les résultats de Stanza et de spaCy. En particulier spaCy repère trois entités à tord (faux positifs) : `Géog`, `Long` et `lat`, là où Stanza ne repérait à tord que `Géog)`. Et spaCy ne repère pas la première occurrence `ARQUES` sans doute du au fait que le mot est en majuscule.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
### 4.3 Perdido Geoparser
### 4.3 Perdido Geoparser
`Perdido` est une librairie Python pour le geoparsing de texte en français. Le geoparsing se décompose en deux tâches : le geotagging et le geocoding. Le geotagging est similaire à la tâche de reconnaissance des entités nommées avec un focus particulier pour le repérage d'information spatiale. En plus des entités nommées, nous nous intéressons en particuliers aux relations entres ces entités telles que les relations spatiales (distances, topologie, orientation, etc.).
`Perdido` est une librairie Python pour le geoparsing de texte en français. Le geoparsing se décompose en deux tâches : le geotagging et le geocoding. Le geotagging est similaire à la tâche de reconnaissance des entités nommées avec un focus particulier pour le repérage d'information spatiale. En plus des entités nommées, nous nous intéressons en particuliers aux relations entres ces entités telles que les relations spatiales (distances, topologie, orientation, etc.).
Le geocoding (ou résolution de toponymes) a pour rôle d'attribuer aux entités de lieux des coordonnées géographiques non ambigues.
Le geocoding (ou résolution de toponymes) a pour rôle d'attribuer aux entités de lieux des coordonnées géographiques non ambigues.
`Perdido` s'appuie sur une approche hybride principalement construite à base de règles pour la repérage et la classification des entités nommées. La librairie est disponible en 2 versions : une version standard et une version spécialement adaptée pour les articles encyclopédiques.
`Perdido` s'appuie sur une approche hybride principalement construite à base de règles pour la repérage et la classification des entités nommées. La librairie est disponible en 2 versions : une version standard et une version spécialement adaptée pour les articles encyclopédiques.
Dans cette partie nous allons voir comment utiliser `Perdido` pour la reconnaissance d'entités nommées toujours à partir de notre exemple `Arques`.
Dans cette partie nous allons voir comment utiliser `Perdido` pour la reconnaissance d'entités nommées toujours à partir de notre exemple `Arques`.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Instancier et paramétrer la chaîne de traitement :
* Instancier et paramétrer la chaîne de traitement :
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
geoparser=Geoparser(version="Encyclopedie")
geoparser=Geoparser(version="Encyclopedie")
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Executer la reconnaissance d'entités nommées :
* Executer la reconnaissance d'entités nommées :
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
arques_perdido=geoparser(arques)
arques_perdido=geoparser(arques)
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
Perdido effectuant la tâche de geocoding en plus du NER, le temps de traitement est plus long qu'avec Stanza ou spaCy, du fait de l'interrogation de ressources geographiques externes pour chaque nom de lieu repéré.
Perdido effectuant la tâche de geocoding en plus du NER, le temps de traitement est plus long qu'avec Stanza ou spaCy, du fait de l'interrogation de ressources geographiques externes pour chaque nom de lieu repéré.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Afficher la liste des entités nommées repérées :
* Afficher la liste des entités nommées repérées :
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
forentinarques_perdido.named_entities:
forentinarques_perdido.named_entities:
print(ent.text,ent.tag)
print(ent.text,ent.tag)
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Afficher de manière graphique les entités nommées avec `displaCy` grâce à la méthode de conversion `to_spacy_doc`:
* Afficher de manière graphique les entités nommées avec `displaCy` grâce à la méthode de conversion `to_spacy_doc`:
Cet exemple permet d'illustrer les différences qu'il peut y avoir entre des outils de NER généraliste et ou un outil de geoparsing. On observe ici que Perdido permet une annotation plus fine grâce aux entités imbriquées (ville de, petite rivière) ainsi que le repérage des coordonnées géographiques. En fonction du besoin le repérage de ces éléments peut etre utile pour les traitements suivants ou les analyses qui s'appuient sur ces résultats.
Cet exemple permet d'illustrer les différences qu'il peut y avoir entre des outils de NER généraliste et ou un outil de geoparsing. On observe ici que Perdido permet une annotation plus fine grâce aux entités imbriquées (ville de, petite rivière) ainsi que le repérage des coordonnées géographiques. En fonction du besoin le repérage de ces éléments peut etre utile pour les traitements suivants ou les analyses qui s'appuient sur ces résultats.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
### 4.4 Expérimentations et comparaison
### 4.4 Expérimentations et comparaison
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Charger l'article `Beaufort` (volume 2, numéro 1365) disponible dans le dossier `data` :
* Charger l'article `Beaufort` (volume 2, numéro 1365) disponible dans le dossier `data` :
Ce changement ne corrige pas l'erreur d'annotation, au contraire l'entité n'est même plus repérée. Cependant, on observe également un saut de ligne entre les mots «rivière» et «d'Oron».
Ce changement ne corrige pas l'erreur d'annotation, au contraire l'entité n'est même plus repérée. Cependant, on observe également un saut de ligne entre les mots «rivière» et «d'Oron».
Ce retour à la ligne est due à la largeur de la colonne dans l'œuvre originale.
Ce retour à la ligne est due à la largeur de la colonne dans l'œuvre originale.
Cette fois l'entité étendue incluant le nom commun «rivière» a été reconnu par `spaCy`, qui a pu ainsi corriger le type de l'entité nommée et se rendre compte que l'Oron était un lieu et pas une personne.
Cette fois l'entité étendue incluant le nom commun «rivière» a été reconnu par `spaCy`, qui a pu ainsi corriger le type de l'entité nommée et se rendre compte que l'Oron était un lieu et pas une personne.
Essayons maintenant avec `Stanza`.
Essayons maintenant avec `Stanza`.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
- Stanza
- Stanza
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
beaufort_stanza=stanza_parser(beaufort)
beaufort_stanza=stanza_parser(beaufort)
show_ents(beaufort_stanza)
show_ents(beaufort_stanza)
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
Stanza a directement repéré que l'Oron était un lieu mais veut, comme SpaCy, annoter «Géog» qui ne devrait pas l'être.
Stanza a directement repéré que l'Oron était un lieu mais veut, comme SpaCy, annoter «Géog» qui ne devrait pas l'être.
Regardons maintenant ce que l'on dit sur la même ville de Beaufort un peu plus d'un siècle plus tard, fin XIXème siecle, dans [La Grande Encyclopédie](https://www.collexpersee.eu/projet/disco-lge/)(LGE).
Regardons maintenant ce que l'on dit sur la même ville de Beaufort un peu plus d'un siècle plus tard, fin XIXème siecle, dans [La Grande Encyclopédie](https://www.collexpersee.eu/projet/disco-lge/)(LGE).
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
lge_beaufort=load_txt('data/lge-beaufort.txt')
lge_beaufort=load_txt('data/lge-beaufort.txt')
print(lge_beaufort)
print(lge_beaufort)
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
Cette fois l'article est un peu plus long et comporte des césures de lignes importantes, définissons donc une fonction pour recoller les morceaux :
Cette fois l'article est un peu plus long et comporte des césures de lignes importantes, définissons donc une fonction pour recoller les morceaux :
2. spaCy ne classe pas correctement Albertville (Personne) contrairement à Perdido et Stanza (Lieu), spaCy ne repère pas l'entité Heni IV contrairement à Perdido et Stanza.
2. spaCy ne classe pas correctement Albertville (Personne) contrairement à Perdido et Stanza (Lieu), spaCy ne repère pas l'entité Heni IV contrairement à Perdido et Stanza.
3. Stanza repère et classe correctement l'entité "Saint-Maximede-Bf.aufort", Perdido la repère mais ne sait pas la classer et spaCy ne la repère pas.
3. Stanza repère et classe correctement l'entité "Saint-Maximede-Bf.aufort", Perdido la repère mais ne sait pas la classer et spaCy ne la repère pas.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
## 5. Geoparsing / Geocoding
## 5. Geoparsing / Geocoding
En complément de la tâche de reconnaissance des entités nommées la librairie `Perdido` propose également celle de résolution des toponymes, on parle alors de *Geoparsing*. Cette tâche consiste a associer à un nom de lieu des coordonnées géographiques non ambigus. De manière classique elle s'appuie sur le repérage des entités spatiales identifées lors de la reconnaissance des entités nommées et fait appel à des ressources externes de type *gazetier* (ou dictionnaires topographique) pour localiser les lieux.
En complément de la tâche de reconnaissance des entités nommées la librairie `Perdido` propose également celle de résolution des toponymes, on parle alors de *Geoparsing*. Cette tâche consiste a associer à un nom de lieu des coordonnées géographiques non ambigus. De manière classique elle s'appuie sur le repérage des entités spatiales identifées lors de la reconnaissance des entités nommées et fait appel à des ressources externes de type *gazetier* (ou dictionnaires topographique) pour localiser les lieux.
* En plus de pouvoir afficher la liste des entités nommées comme nous l'avons fait précédemmment, nous pouvons directement afficher la carte des lieux localisés
* En plus de pouvoir afficher la liste des entités nommées comme nous l'avons fait précédemmment, nous pouvons directement afficher la carte des lieux localisés
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
# afficher la carte des lieux localisés
# afficher la carte des lieux localisés
arques_perdido.get_folium_map()
arques_perdido.get_folium_map()
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
Par défaut, lors de l'instanciation du `Geoparser()`, seul [OpenStreetMap](https://www.openstreetmap.org/) est utilisé pour le geocoding et au maximum un résultat est retourné pour chaque lieu (nous verrons dans la suite comment paramétrer le geocoding).
Par défaut, lors de l'instanciation du `Geoparser()`, seul [OpenStreetMap](https://www.openstreetmap.org/) est utilisé pour le geocoding et au maximum un résultat est retourné pour chaque lieu (nous verrons dans la suite comment paramétrer le geocoding).
On a déjà ici un aperçu de la difficulté de la tâche de résolution des toponymes. En effet, un grand nombre d'ambiguïtés existent tels que plusieurs lieux ayant le même nom, plusieurs noms pour un même lieu ou encore le fait qu'un lieu ne soit pas référencé dans les ressources que l'on interroge.
On a déjà ici un aperçu de la difficulté de la tâche de résolution des toponymes. En effet, un grand nombre d'ambiguïtés existent tels que plusieurs lieux ayant le même nom, plusieurs noms pour un même lieu ou encore le fait qu'un lieu ne soit pas référencé dans les ressources que l'on interroge.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
### 5.2 Perdido Geocoder
### 5.2 Perdido Geocoder
En complément du `Geoparser` qui prend en paramètre un texte et qui fait la reconnaissance d'entités nommées en amont de l'étape de geocoding, `Perdido` propose également une fonction de geocoding disctincte prenant en paramètre directement un nom de lieu (ou une liste de noms de lieux).
En complément du `Geoparser` qui prend en paramètre un texte et qui fait la reconnaissance d'entités nommées en amont de l'étape de geocoding, `Perdido` propose également une fonction de geocoding disctincte prenant en paramètre directement un nom de lieu (ou une liste de noms de lieux).
### 5.3 Résolution de toponymes / désambiguïsation
### 5.3 Résolution de toponymes / désambiguïsation
#### 5.3.1 Exemple : Arques
#### 5.3.1 Exemple : Arques
* Cherchons à localiser la ville `Arques`
* Cherchons à localiser la ville `Arques`
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
geocoder=Geocoder()
geocoder=Geocoder()
doc=geocoder('Arques')
doc=geocoder('Arques')
doc.get_folium_map()
doc.get_folium_map()
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
On remarque que par défaut, la localisation retournée pour le nom de lieu `Arques` n'est pas celle que l'on recherche. En effet, le texte indique qu'il s'agit d'une ville de Normandie, or ici la localisation proposée est située dans le Pas-de-Calais !
On remarque que par défaut, la localisation retournée pour le nom de lieu `Arques` n'est pas celle que l'on recherche. En effet, le texte indique qu'il s'agit d'une ville de Normandie, or ici la localisation proposée est située dans le Pas-de-Calais !
Changeons les paramètres du `Geocoder` (ces paramètres sont similaires pour le `Geoparser`) pour essayer de retrouver la bonne localisation.
Changeons les paramètres du `Geocoder` (ces paramètres sont similaires pour le `Geoparser`) pour essayer de retrouver la bonne localisation.
* Augmenter le nombre de résultats retournés par les gazetiers interrogés
* Augmenter le nombre de résultats retournés par les gazetiers interrogés
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
geocoder=Geocoder(max_rows=10)
geocoder=Geocoder(max_rows=10)
doc=geocoder('Arques')
doc=geocoder('Arques')
doc.get_folium_map()
doc.get_folium_map()
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
On observe parmi les 10 localisations retournées par OpenStreetMap (gazetier par défaut) qu'aucune ne se situe en Normandie.
On observe parmi les 10 localisations retournées par OpenStreetMap (gazetier par défaut) qu'aucune ne se situe en Normandie.
* Remplacer OpenStreetMap par l'IGN
* Remplacer OpenStreetMap par l'IGN
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
geocoder=Geocoder(sources=['ign'])
geocoder=Geocoder(sources=['ign'])
doc=geocoder('Arques')
doc=geocoder('Arques')
doc.get_folium_map()
doc.get_folium_map()
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
On observe que le premier résultat retourné par l'IGN ne se situe ni en Normandie (comme attendu), ni dans le Pas-de-Calais comme le premier résultat retourné par OpenStreetMap.
On observe que le premier résultat retourné par l'IGN ne se situe ni en Normandie (comme attendu), ni dans le Pas-de-Calais comme le premier résultat retourné par OpenStreetMap.
* Augmenter le nombre de résultats retournés par l'IGN
* Augmenter le nombre de résultats retournés par l'IGN
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
geocoder=Geocoder(sources=['ign'],max_rows=10)
geocoder=Geocoder(sources=['ign'],max_rows=10)
doc=geocoder('Arques')
doc=geocoder('Arques')
doc.get_folium_map()
doc.get_folium_map()
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
Cette fois-ci on retrouve bien une localisation en Normandie au sud de Dieppe avec pour nom `Arques-la-Bataille'. On peut faire l'hypotèse que le nom a évolué car cette localisation se situe bien dans le Pays de Caux (voir illustration ci-dessous, source [Wikipedia](https://fr.wikipedia.org/wiki/Pays_de_Caux)) comme l'indique le texte de l'article.
Cette fois-ci on retrouve bien une localisation en Normandie au sud de Dieppe avec pour nom `Arques-la-Bataille'. On peut faire l'hypotèse que le nom a évolué car cette localisation se situe bien dans le Pays de Caux (voir illustration ci-dessous, source [Wikipedia](https://fr.wikipedia.org/wiki/Pays_de_Caux)) comme l'indique le texte de l'article.


Ce problème d'ambiguïtés peut aussi être illustrer en allant directement interroger le site web du [géoportail](https://www.geoportail.gouv.fr) comme le montre la capture ci-dessous.
Ce problème d'ambiguïtés peut aussi être illustrer en allant directement interroger le site web du [géoportail](https://www.geoportail.gouv.fr) comme le montre la capture ci-dessous.


%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
Il reste néanmoins le problème de retrouver cette localisation de manière automatique.
Il reste néanmoins le problème de retrouver cette localisation de manière automatique.
Plusieurs approches existent dans la littérature mais ne sont pas encore implémentées dans `Perdido`.
Plusieurs approches existent dans la littérature mais ne sont pas encore implémentées dans `Perdido`.
Cet exemple illustre bien la difficulté de la problématique de désambiguïsation des toponymes avec notamment la gestion des natures de lieux différentes (pays, régions, communes, lieux-dits, lac, rivières, etc.) associés à un même nom, l'homonymie, la non exaustivité des ressources, l'évolution des noms au cours du temps ou encore les erreurs d'orthographe.
Cet exemple illustre bien la difficulté de la problématique de désambiguïsation des toponymes avec notamment la gestion des natures de lieux différentes (pays, régions, communes, lieux-dits, lac, rivières, etc.) associés à un même nom, l'homonymie, la non exaustivité des ressources, l'évolution des noms au cours du temps ou encore les erreurs d'orthographe.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Afficher la carte obtenue après le geoparsing avec l'IGN et 10 résultats max par nom de lieu
* Afficher la carte obtenue après le geoparsing avec l'IGN et 10 résultats max par nom de lieu
Prenons maintenant l'exemple du geoparsing de descriptions de randonnées. Certaines solutions de désambiguisation ont pu être développées et intégrées au sein de la librairie `Perdido` (d'autres sont en cours d'intégration). Les solutions décrites dans la suite de cette partie ont été développées dans le cadre des projets [Perdido](http://erig.univ-pau.fr/PERDIDO/) (2012-2015) et [ANR CHOUCAS](http://choucas.ign.fr) (2017-2022).
Prenons maintenant l'exemple du geoparsing de descriptions de randonnées. Certaines solutions de désambiguisation ont pu être développées et intégrées au sein de la librairie `Perdido` (d'autres sont en cours d'intégration). Les solutions décrites dans la suite de cette partie ont été développées dans le cadre des projets [Perdido](http://erig.univ-pau.fr/PERDIDO/) (2012-2015) et [ANR CHOUCAS](http://choucas.ign.fr) (2017-2022).
> Ludovic Moncla, Walter Renteria-Agualimpia, Javier Nogueras-Iso and Mauro Gaio (2014). "Geocoding for texts with fine-grain toponyms: an experiment on a geoparsed hiking descriptions corpus". In Proceedings of the 22nd ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems, pp 183-192.
> Ludovic Moncla, Walter Renteria-Agualimpia, Javier Nogueras-Iso and Mauro Gaio (2014). "Geocoding for texts with fine-grain toponyms: an experiment on a geoparsed hiking descriptions corpus". In Proceedings of the 22nd ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems, pp 183-192.
> Mauro Gaio and Ludovic Moncla (2019). “Geoparsing and geocoding places in a dynamic space context.“ In The Semantics of Dynamic Space in French: Descriptive, experimental and formal studies on motion expression, 66, 353.
> Mauro Gaio and Ludovic Moncla (2019). “Geoparsing and geocoding places in a dynamic space context.“ In The Semantics of Dynamic Space in French: Descriptive, experimental and formal studies on motion expression, 66, 353.
Nous avons choisi un exemple pour illustrer les différentes phases du processus que nous avons mis en place dans le cadre du geoparsing de descriptions de randonnées :
Nous avons choisi un exemple pour illustrer les différentes phases du processus que nous avons mis en place dans le cadre du geoparsing de descriptions de randonnées :
1. filtrer les résultats en fonction du pays
1. filtrer les résultats en fonction du pays
2. filtrer les résultats en fonction d'une zone géographique définie
2. filtrer les résultats en fonction d'une zone géographique définie
3. regrouper les résultats en utilisant un algorithme de clustering spatial (DBSCAN, *density-based spatial clustering of applications with noise*)
3. regrouper les résultats en utilisant un algorithme de clustering spatial (DBSCAN, *density-based spatial clustering of applications with noise*)
4. selectionner le cluster qui contient le plus d'entités distinctes
4. selectionner le cluster qui contient le plus d'entités distinctes
La librairie Perdido utilise la méthode DBSCAN implémentée dans la librairie [Scikit-Learn](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html).
La librairie Perdido utilise la méthode DBSCAN implémentée dans la librairie [Scikit-Learn](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html).
Cette stratégie est adaptée pour une description d'itinéraire où les différents lieux cités sont supposés être localisés à proximité les uns des autres.
Cette stratégie est adaptée pour une description d'itinéraire où les différents lieux cités sont supposés être localisés à proximité les uns des autres.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
* Charger le jeu de données CHOUCAS de descriptions de randonnées fourni par `Perdido`
* Charger le jeu de données CHOUCAS de descriptions de randonnées fourni par `Perdido`
On observe ici le résultat déjà pré-traité par `Perdido`. Nous allons maintenant illustrer le processus de désambiguïsation.
On observe ici le résultat déjà pré-traité par `Perdido`. Nous allons maintenant illustrer le processus de désambiguïsation.
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
On recommence le processus de geoparsing en entier à partir du texte de la randonnées choisie.
On recommence le processus de geoparsing en entier à partir du texte de la randonnées choisie.
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
geoparser = Geoparser()
geoparser = Geoparser()
doc_geoparsed = geoparser(doc.text)
doc_geoparsed = geoparser(doc.text)
```
```
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
doc_geoparsed.get_folium_map()
doc_geoparsed.get_folium_map()
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
On voit clairement la différence par rapport au résultat précédent. Nous allons alors essayer de retrouver le même résultat en déroulant les différentes étapes pour désambiguïser avec `Perdido`.
On voit clairement la différence par rapport au résultat précédent. Nous allons alors essayer de retrouver le même résultat en déroulant les différentes étapes pour désambiguïser avec `Perdido`.
Pour gagner un peu de temps lors des prochaines executions nous allons faire directement appel à la fonction de geocoding à partir de la liste des noms de lieux.
Pour gagner un peu de temps lors des prochaines executions nous allons faire directement appel à la fonction de geocoding à partir de la liste des noms de lieux.
* Récuperer la liste des noms de lieux (sans doublon)
* Récuperer la liste des noms de lieux (sans doublon)
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
places_list = list(set([ent.text for ent in doc_geoparsed.ne_place]))
places_list = list(set([ent.text for ent in doc_geoparsed.ne_place]))
print(places_list)
print(places_list)
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
#### 5.4.1 Ajout d'un filtre "code pays"
#### 5.4.1 Ajout d'un filtre "code pays"
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
# instancier le geocoder avec le code pays
# instancier le geocoder avec le code pays
geocoder = Geocoder(country_code = 'fr')
geocoder = Geocoder(country_code = 'fr')
doc_geocoded = geocoder(places_list)
doc_geocoded = geocoder(places_list)
# ajouter la trace GPS
# ajouter la trace GPS
doc_geocoded.geometry_layer = doc.geometry_layer
doc_geocoded.geometry_layer = doc.geometry_layer
doc_geocoded.get_folium_map()
doc_geocoded.get_folium_map()
```
```
%% Cell type:markdown id: tags:
%% Cell type:markdown id: tags:
#### 5.4.2 Ajout d'un filtre "bounding box"
#### 5.4.2 Ajout d'un filtre "bounding box"
%% Cell type:code id: tags:
%% Cell type:code id: tags:
``` python
``` python
bbox = [5.62216508714297, 45.051683489057, 7.18563279407213, 45.9384576816403] # zone d'intervention du PGHM Isère
bbox = [5.62216508714297, 45.051683489057, 7.18563279407213, 45.9384576816403] # zone d'intervention du PGHM Isère
# instancier le geocoder avec le code pays et une bounding box
# instancier le geocoder avec le code pays et une bounding box