diff --git a/Tutoriel-geoparsing.ipynb b/Tutoriel-geoparsing.ipynb index 374f91c4f1efe5021ef1693f2dfbf37c64f5d5a9..c8fb5a3938625f935e092cb9cd6a53c920093961 100644 --- a/Tutoriel-geoparsing.ipynb +++ b/Tutoriel-geoparsing.ipynb @@ -40,12 +40,26 @@ "source": [ "## 2. Configurer l'environnement\n", "\n", - "### 2.1 Installer les librairies Python\n", - "\n", - "* Si vous avez déjà configuré votre environnement, soit avec conda, soit avec pip (voir le fichier readme), vous pouvez ignorer la cellule suivante.\n", + "* Si vous avez déjà configuré votre environnement, soit avec conda, soit avec pip (voir le fichier [README.md](https://gitlab.liris.cnrs.fr/lmoncla/tutoriel-anf-tdm-2022-python-geoparsing/-/blob/main/README.md)), vous pouvez ignorer la section suivante et passer directement à la 2.2.\n", "* Si vous exécutez ce notebook depuis Google Colab / Binder, vous devez exécuter la cellule suivante :" ] }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "path = ''" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### 2.1 Installer les librairies Python (uniquement depuis un environement distant du type Google Colab ou Binder)" + ] + }, { "cell_type": "code", "execution_count": null, @@ -53,9 +67,25 @@ "outputs": [], "source": [ "! pip install perdido==0.1.27\n", - "! pip install stanza==1.4.2\n", + "! pip install stanza==1.4.2" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "* Cloner le repository pour récupérer le dossier `data` dans votre environment distant :" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "! git clone https://gitlab.liris.cnrs.fr/lmoncla/tutoriel-anf-tdm-2022-python-geoparsing.git\n", "\n", - "! git clone https://gitlab.liris.cnrs.fr/lmoncla/tutoriel-anf-tdm-2022-python-geoparsing.git" + "path = 'tutoriel-anf-tdm-2022-python-geoparsing/'" ] }, { @@ -114,7 +144,7 @@ "outputs": [], "source": [ "# On utilise la fonction précédente pour récupérer le contenu de l'article encyclopédique 'Arques' (volume01-4083.txt) présent dans le dossier data\n", - "arques = load_txt('data/edda-volume01-4083.txt')" + "arques = load_txt(path + 'data/edda-volume01-4083.txt')" ] }, { @@ -1782,7 +1812,7 @@ } ], "source": [ - "beaufort = load_txt('data/edda-volume02-1365.txt')\n", + "beaufort = load_txt(path + 'data/edda-volume02-1365.txt')\n", "\n", "print(beaufort)" ] @@ -2205,7 +2235,7 @@ "Ce retour à la ligne est due à la largeur de la colonne dans l'œuvre originale. \n", "\n", "\n", - "\n", + "\n", "\n", "\n", "Pour vérifier l'hypothèse que ce retour perturbe le repérage par `spaCy`, corrigeons une nouvelle fois le texte.\n" @@ -2329,7 +2359,7 @@ } ], "source": [ - "lge_beaufort = load_txt('data/lge-beaufort.txt')\n", + "lge_beaufort = load_txt(path + 'data/lge-beaufort.txt')\n", "print(lge_beaufort)" ] }, @@ -3894,7 +3924,11 @@ "source": [ "Cette fois-ci on retrouve bien une localisation en Normandie au sud de Dieppe avec pour nom `Arques-la-Bataille'. On peut faire l'hypotèse que le nom a évolué car cette localisation se situe bien dans le Pays de Caux (voir illustration ci-dessous, source [Wikipedia](https://fr.wikipedia.org/wiki/Pays_de_Caux)) comme l'indique le texte de l'article.\n", "\n", - "" + "\n", + "\n", + "Ce problème d'ambiguïtés peut aussi être illustrer en allant directement interroger le site web du [géoportail](https://www.geoportail.gouv.fr) comme le montre la capture ci-dessous.\n", + "\n", + "\n" ] }, {