From d7ead727bd3ed0172654c758a03494b89d5c9181 Mon Sep 17 00:00:00 2001 From: Ludovic Moncla <moncla.ludovic@gmail.com> Date: Fri, 9 Sep 2022 20:13:08 +0200 Subject: [PATCH] Update Tutoriel-geoparsing.ipynb --- Tutoriel-geoparsing.ipynb | 108 ++++++++++++++++++++++++++++++++++---- 1 file changed, 99 insertions(+), 9 deletions(-) diff --git a/Tutoriel-geoparsing.ipynb b/Tutoriel-geoparsing.ipynb index 81392cd..2692b60 100644 --- a/Tutoriel-geoparsing.ipynb +++ b/Tutoriel-geoparsing.ipynb @@ -176,19 +176,28 @@ "metadata": {}, "source": [ "## 5. Reconnaissance d'Entités Nommées (NER)\n", - "\n", - "\n", - "### 5.1 Stanza NER\n", - "\n", - "\n", "\n" ] }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### 5.1 Stanza NER" + ] + }, { "cell_type": "markdown", "metadata": {}, "source": [ - "* Importer la librairie `Stanza` et télécharger le modèles pré-entrainé pour le français : " + "* Importer la librairie `Stanza` et télécharger le modèle pré-entrainé pour le français : " ] }, { @@ -202,6 +211,13 @@ "stanza.download('fr')" ] }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "* Instancier et paramétrer la chaîne de traitement :" + ] + }, { "cell_type": "code", "execution_count": null, @@ -211,6 +227,13 @@ "stanza_parser = stanza.Pipeline(lang='fr', processors='tokenize,ner')" ] }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "* Executer la reconnaissance d'entités nommées :" + ] + }, { "cell_type": "code", "execution_count": null, @@ -220,6 +243,13 @@ "doc = stanza_parser(content)" ] }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "* Afficher la liste des entités nommées repérées :" + ] + }, { "cell_type": "code", "execution_count": null, @@ -341,12 +371,28 @@ "### 5.3 Perdido Geoparser" ] }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "* Instancier et paramétrer la chaîne de traitement :" + ] + }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], - "source": [] + "source": [ + "geoparser = Geoparser(version=\"Encyclopedie\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "* Executer la reconnaissance d'entités nommées :" + ] }, { "cell_type": "code", @@ -354,13 +400,57 @@ "metadata": {}, "outputs": [], "source": [ - "displacy.render(d['data'][1].to_spacy_doc(), style=\"ent\", jupyter=True) " + "doc = geoparser(content)" ] }, { "cell_type": "markdown", "metadata": {}, - "source": [] + "source": [ + "* Afficher la liste des entités nommées repérées :" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "for ent in doc.named_entities:\n", + " print(ent.text, ent.tag)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "* Afficher de manière graphique les entités nommées avec `displaCy` :" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "displacy.render(doc.to_spacy_doc(), style=\"ent\", jupyter=True)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "* Afficher de manière graphique les entités nommées étendues avec `displaCy` :" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "displacy.render(doc.to_spacy_doc(), style=\"span\", jupyter=True)" + ] }, { "cell_type": "markdown", -- GitLab