Move the section on unsupervised classification to the end of the models comparison

94fc600d · Alice Brenon · 760343e4 · 94fc600d · 94fc600d
Commit 94fc600d authored 3 months ago by Alice Brenon
--- a/Classification/Application.md
+++ b/Classification/Application.md
 ## Annotation des articles {#sec:classification_application}
-### Classification non supervisée
-En complément des méthodes de classification supervisées, des tentatives ont été
-faites pour utiliser de l'apprentissage non supervisé, permettant d'étudier
-autrement les relations entre les contenus des articles, les systèmes de
-classification et les prédictions générées automatiquement. Des techniques de
-*clustering* ont ainsi été employées pour grouper automatiquement les articles
-suivant leurs similarités, sans s'attacher aux étiquettes à appliquer à ces
-groupes (c'est-à-dire à une quelconque interprétation qu'il faudrait faire de
-ces groupes). Cette «similarité» est basée sur un calcul de distance entre les
-représentations vectorielles des articles. Pour cette expérience, la méthode des
-*K-Means* a été testée avec une vectorisation *TF-IDF*. La première expérience
-consiste à entraîner un modèle de *clustering* pour construire 38 classes (le
-nombre de domaines regroupés choisis précédemment). Des résultats décevants
-amènent à rechercher automatiquement le meilleur nombre de clusters en utilisant
-la méthode Silhouette [@shahapure2020cluster]. Les résultats suggèrent 36 comme
-le nombre optimal de clusters, mais la répétition de l'expérience précédente
-avec ce nombre produit des résultats similaires.
-La figure \ref{fig:clustersperclass} montre une carte de chaleur des
-distributions normalisées des nombres de clusters trouvés automatiquement avec
-la méthode *K-Means* en compartimentant les articles en 36 clusters. La plupart
-des clusters comportent un nombre important d'articles de plusieurs domaines et
-le cluster n°0 regroupe des articles de quasiment tous les domaines. De plus,
-pour beaucoup de clusters, la proportion est élevée et, de la même manière,
-beaucoup de domaines se retrouvent étalés sur plusieurs clusters. Cela est
-particulièrement vrai pour la *Géographie*, l'*Histoire naturelle* et les *Arts
-et métiers*. Bien que les résultats soient complexes, l'analyse des clusters
-demeure utile: par exemple le cluster n°22 regroupe des articles étiquetés
-*Belles-lettres - Poésie*, *Histoire*, *Médailles*, *Religion* et
-*Superstition*. Ces catégories possèdent des similarités thématiques qui
-dénotent leur classification initiale dans l'*EDdA* ainsi que celle choisie en
-termes de domaine regroupé (elles contiennent fréquemment du contenu à propos
-d'histoires réelles mais aussi fictionnelles et mythologiques). De manière
-semblable, le cluster n°7 comporte des articles des domaines *Médecine -
-Chirurgie*, *Anatomie*, *Physique - \[Sciences physico-mathématiques\]* et
-*Pharmacie*. Il semble possible de percevoir une thématique autour du corps et
-de la médecine dans cet ensemble de classes. Enfin, le cluster n°30 en
-rassemblant des articles de *Commerce* et de *Mesure* suggère une thématique
-autour des nombres et d'unités. Quelques clusters restent particulièrement
-homogènes et donc proches des classes comme le cluster n°10 composé à 96.46%
-d'articles des classes *Géographie* ou le n°34, à 99.05% de l'*Histoire
-naturelle*.
-![Distributions normalisées des nombres de clusters par classe.](figure/classification/unsupervised/cluster36_tf_idf_per_classes.png){#fig:clustersperclass width=80%}
-À l'inverse, la figure \ref{fig:classespercluster} montre la distribution de
-domaine regroupés par cluster. Comme sur la figure \ref{fig:clustersperclass},
-le cluster n°0 ressort particulièrement en rassemblant plus de 14 000 articles
-de quasiment toutes les classes, alors que la très large majorité des autres
-comporte moins de 2 000 articles. Cet écart considérable entre ce cluster et les
-autres illustre toute la difficulté qu'il y a à trouver automatiquement une
-catégorisation satisfaisante des articles du jeu de données. Cette nouvelle
-figure montre encore l'hétérogénité des classes de quasiment tous les clusters
-(exceptés les cas discutés plus haut) et par là-même la difficulté à donner un
-sens aux clusters proposés par *K-Means*, sinon en terme de thématiques pour
-quelques uns d'entre eux.
-![Nombre d'articles de chaque classe par cluster](figure/classification/unsupervised/classes_per_cluster_cluster36_tf_idf.png){#fig:classespercluster width=80%}
-De plus, sur les 38 classes, seules 15 apparaissent comme la classe principale
-d'un des clusters (voir le tableau \ref{tab:maxclasspercluster}). Parmi les
-clusters, 9 apparaissent relativement homogènes avec une classe principale
-«pure» dans ces clusters à plus de 90% (cela est le cas pour les clusters n°1,
-6, 10, 13, 15, 19, 31, 33 et 34). Mais pour ces 9 clusters, seules 3 classes
-apparaissent comme la classe principale, et la *Géographie* est la classe
-principale de 7 d'entre eux. Cela empêche d'interpréter la pureté importante des
-clusters comme la correspondance de certains d'entre eux avec des classes
-existantes, une hypothèse qui était pourtant à priori intéressante au vu de la
-proximité entre le nombre de classes (38) et de clusters (36). De plus, la
-classe *Géographie* est présente dans 31 clusters différents, c'est-à-dire la
-quasi-totalité d'entre eux, ce qui contredit une interprétation des 7 clusters
-comme autant de types d'articles de *Géographie* possibles.
-Cluster n° | Classe principale     |  Part    | Cluster n° | Classe principale     |  Part    
----------:|-----------------------|---------:|-----------:|-----------------------|---------:
-         0 | Droit - Jurisprudence |  15.85 % |         18 | Métiers               |  20.51 %
-         1 | Géographie            |  91.95 % |         19 | Droit - Jurisprudence |  95.50 %
-         2 | Droit - Jurisprudence |  71.54 % |         20 | Chimie                |  12.33 %
-         3 | Géographie            |  89.03 % |         21 | Histoire naturelle    |  74.48 %
-         4 | Antiquité             |  51.38 % |         22 | Histoire              |  16.99 %
-         5 | Métiers               |  58.78 % |         23 | Mathématiques         |  30.95 %
-         6 | Géographie            |  99.28 % |         24 | Droit - Jurisprudence |  52.67 %
-         7 | Médecine - Chirurgie  |  66.10 % |         25 | Métiers               |  51.76 %
-         8 | Métiers               |  42.17 % |         26 | Métiers               |  39.85 %
-         9 | Géographie            |  15.25 % |         27 | Droit - Jurisprudence |  82.77 %
-        10 | Géographie            |  96.46 % |         28 | Histoire naturelle    |  52.82 %
-        11 | Maréchage - Manège    |  70.80 % |         29 | Anatomie              |  82.93 %
-        12 | Histoire naturelle    |  83.24 % |         30 | Commerce              |  52.82 %
-        13 | Géographie            |  96.53 % |         31 | Géographie            |  95.50 %
-        14 | Marine                |  74.93 % |         32 | Histoire naturelle    |  65.09 %
-        15 | Géographie            | 100.00 % |         33 | Géographie            |  99.47 %
-        16 | Grammaire             |  44.65 % |         34 | Histoire naturelle    |  99.05 %
-        17 | Blason                |  24.06 % |         35 | Histoire naturelle    |  71.61 %
-: Part de la classe la plus représentée dans chaque cluster.
-\label{tab:maxclasspercluster}
-Il est difficile de tirer des conclusions des résultats de cette expérience de
-*clustering* et, avant d'aller plus loin, davantage d'analyses qualitatives sont
-nécessaires pour pouvoir décider si l'apprentissage non supervisé peut être
-utile comme une méthode complémentaire pour classer automatiquement les articles
-de l'*EDdA* et à terme de *LGE*. Le *clustering* est, comme le *topic modeling*
-par *LDA* (*Latent Dirichlet Allocation* — allocation latente de dirichlet), une
-manière d'organiser le contenu du corpus sans présupposer un ensemble de classes
-qui serait *la* manière correcte de structurer la connaissance. Le choix fait
-précédemment de reprendre le nombre de domaines regroupés utilisés pour la
-classification supervisée pour le nombre de clusters biaisait nécessairement la
-découverte de clusters, mais le fait que l'heuristique Silhouette ait trouvé un
-nombre proche de clusters (36) demeure troublant. Il pourrait être intéressant
-dans de futurs travaux de tester de manière systématique un bien plus grand
-nombre de possibilités en partant d'un très petit nombre de clusters et en
-augmentant leur nombre tout en évaluant manuellement la pertinence du système
-trouvé à chaque étape. Dans le contexte de cette thèse, ces méthodes n'ont pas
-permis d'avancées significatives et ne sont pas retenues dans le reste des
-analyses.
 ### Choix d'un classifieur {#sec:classification_choices}
 Si le travail de comparaison des méthodes de classification décrit dans cette

--- a/Classification/Models.md
+++ b/Classification/Models.md
@@ -429,3 +429,119 @@ où il y une forte proximité sémantique le modèle tend à choisir la classe l
 mieux représentée dans le jeu de donnée, privilégiant ainsi les domaines
 regroupés qui contiennent le plus d'articles.
+### Classification non supervisée
+En complément des méthodes de classification supervisées, des tentatives ont été
+faites pour utiliser de l'apprentissage non supervisé, permettant d'étudier
+autrement les relations entre les contenus des articles, les systèmes de
+classification et les prédictions générées automatiquement. Des techniques de
+*clustering* ont ainsi été employées pour grouper automatiquement les articles
+suivant leurs similarités, sans s'attacher aux étiquettes à appliquer à ces
+groupes (c'est-à-dire à une quelconque interprétation qu'il faudrait faire de
+ces groupes). Cette «similarité» est basée sur un calcul de distance entre les
+représentations vectorielles des articles. Pour cette expérience, la méthode des
+*K-Means* a été testée avec une vectorisation *TF-IDF*. La première expérience
+consiste à entraîner un modèle de *clustering* pour construire 38 classes (le
+nombre de domaines regroupés choisis précédemment). Des résultats décevants
+amènent à rechercher automatiquement le meilleur nombre de clusters en utilisant
+la méthode Silhouette [@shahapure2020cluster]. Les résultats suggèrent 36 comme
+le nombre optimal de clusters, mais la répétition de l'expérience précédente
+avec ce nombre produit des résultats similaires.
+La figure \ref{fig:clustersperclass} montre une carte de chaleur des
+distributions normalisées des nombres de clusters trouvés automatiquement avec
+la méthode *K-Means* en compartimentant les articles en 36 clusters. La plupart
+des clusters comportent un nombre important d'articles de plusieurs domaines et
+le cluster n°0 regroupe des articles de quasiment tous les domaines. De plus,
+pour beaucoup de clusters, la proportion est élevée et, de la même manière,
+beaucoup de domaines se retrouvent étalés sur plusieurs clusters. Cela est
+particulièrement vrai pour la *Géographie*, l'*Histoire naturelle* et les *Arts
+et métiers*. Bien que les résultats soient complexes, l'analyse des clusters
+demeure utile: par exemple le cluster n°22 regroupe des articles étiquetés
+*Belles-lettres - Poésie*, *Histoire*, *Médailles*, *Religion* et
+*Superstition*. Ces catégories possèdent des similarités thématiques qui
+dénotent leur classification initiale dans l'*EDdA* ainsi que celle choisie en
+termes de domaine regroupé (elles contiennent fréquemment du contenu à propos
+d'histoires réelles mais aussi fictionnelles et mythologiques). De manière
+semblable, le cluster n°7 comporte des articles des domaines *Médecine -
+Chirurgie*, *Anatomie*, *Physique - \[Sciences physico-mathématiques\]* et
+*Pharmacie*. Il semble possible de percevoir une thématique autour du corps et
+de la médecine dans cet ensemble de classes. Enfin, le cluster n°30 en
+rassemblant des articles de *Commerce* et de *Mesure* suggère une thématique
+autour des nombres et d'unités. Quelques clusters restent particulièrement
+homogènes et donc proches des classes comme le cluster n°10 composé à 96.46%
+d'articles des classes *Géographie* ou le n°34, à 99.05% de l'*Histoire
+naturelle*.
+![Distributions normalisées des nombres de clusters par classe.](figure/classification/unsupervised/cluster36_tf_idf_per_classes.png){#fig:clustersperclass width=80%}
+À l'inverse, la figure \ref{fig:classespercluster} montre la distribution de
+domaine regroupés par cluster. Comme sur la figure \ref{fig:clustersperclass},
+le cluster n°0 ressort particulièrement en rassemblant plus de 14 000 articles
+de quasiment toutes les classes, alors que la très large majorité des autres
+comporte moins de 2 000 articles. Cet écart considérable entre ce cluster et les
+autres illustre toute la difficulté qu'il y a à trouver automatiquement une
+catégorisation satisfaisante des articles du jeu de données. Cette nouvelle
+figure montre encore l'hétérogénité des classes de quasiment tous les clusters
+(exceptés les cas discutés plus haut) et par là-même la difficulté à donner un
+sens aux clusters proposés par *K-Means*, sinon en terme de thématiques pour
+quelques uns d'entre eux.
+![Nombre d'articles de chaque classe par cluster](figure/classification/unsupervised/classes_per_cluster_cluster36_tf_idf.png){#fig:classespercluster width=80%}
+De plus, sur les 38 classes, seules 15 apparaissent comme la classe principale
+d'un des clusters (voir le tableau \ref{tab:maxclasspercluster}). Parmi les
+clusters, 9 apparaissent relativement homogènes avec une classe principale
+«pure» dans ces clusters à plus de 90% (cela est le cas pour les clusters n°1,
+6, 10, 13, 15, 19, 31, 33 et 34). Mais pour ces 9 clusters, seules 3 classes
+apparaissent comme la classe principale, et la *Géographie* est la classe
+principale de 7 d'entre eux. Cela empêche d'interpréter la pureté importante des
+clusters comme la correspondance de certains d'entre eux avec des classes
+existantes, une hypothèse qui était pourtant à priori intéressante au vu de la
+proximité entre le nombre de classes (38) et de clusters (36). De plus, la
+classe *Géographie* est présente dans 31 clusters différents, c'est-à-dire la
+quasi-totalité d'entre eux, ce qui contredit une interprétation des 7 clusters
+comme autant de types d'articles de *Géographie* possibles.
+Cluster n° | Classe principale     |  Part    | Cluster n° | Classe principale     |  Part    
+----------:|-----------------------|---------:|-----------:|-----------------------|---------:
+         0 | Droit - Jurisprudence |  15.85 % |         18 | Métiers               |  20.51 %
+         1 | Géographie            |  91.95 % |         19 | Droit - Jurisprudence |  95.50 %
+         2 | Droit - Jurisprudence |  71.54 % |         20 | Chimie                |  12.33 %
+         3 | Géographie            |  89.03 % |         21 | Histoire naturelle    |  74.48 %
+         4 | Antiquité             |  51.38 % |         22 | Histoire              |  16.99 %
+         5 | Métiers               |  58.78 % |         23 | Mathématiques         |  30.95 %
+         6 | Géographie            |  99.28 % |         24 | Droit - Jurisprudence |  52.67 %
+         7 | Médecine - Chirurgie  |  66.10 % |         25 | Métiers               |  51.76 %
+         8 | Métiers               |  42.17 % |         26 | Métiers               |  39.85 %
+         9 | Géographie            |  15.25 % |         27 | Droit - Jurisprudence |  82.77 %
+        10 | Géographie            |  96.46 % |         28 | Histoire naturelle    |  52.82 %
+        11 | Maréchage - Manège    |  70.80 % |         29 | Anatomie              |  82.93 %
+        12 | Histoire naturelle    |  83.24 % |         30 | Commerce              |  52.82 %
+        13 | Géographie            |  96.53 % |         31 | Géographie            |  95.50 %
+        14 | Marine                |  74.93 % |         32 | Histoire naturelle    |  65.09 %
+        15 | Géographie            | 100.00 % |         33 | Géographie            |  99.47 %
+        16 | Grammaire             |  44.65 % |         34 | Histoire naturelle    |  99.05 %
+        17 | Blason                |  24.06 % |         35 | Histoire naturelle    |  71.61 %
+: Part de la classe la plus représentée dans chaque cluster.
+\label{tab:maxclasspercluster}
+Il est difficile de tirer des conclusions des résultats de cette expérience de
+*clustering* et, avant d'aller plus loin, davantage d'analyses qualitatives sont
+nécessaires pour pouvoir décider si l'apprentissage non supervisé peut être
+utile comme une méthode complémentaire pour classer automatiquement les articles
+de l'*EDdA* et à terme de *LGE*. Le *clustering* est, comme le *topic modeling*
+par [@=LDA], une manière d'organiser le contenu du corpus sans présupposer un
+ensemble de classes qui serait *la* manière correcte de structurer la
+connaissance. Le choix fait précédemment de reprendre le nombre de domaines
+regroupés utilisés pour la classification supervisée pour le nombre de clusters
+biaisait nécessairement la découverte de clusters, mais le fait que
+l'heuristique Silhouette ait trouvé un nombre proche de clusters (36) demeure
+troublant. Il pourrait être intéressant dans de futurs travaux de tester de
+manière systématique un bien plus grand nombre de possibilités en partant d'un
+très petit nombre de clusters et en augmentant leur nombre tout en évaluant
+manuellement la pertinence du système trouvé à chaque étape. Dans le contexte de
+cette thèse, ces méthodes n'ont pas permis d'avancées significatives et ne sont
+pas retenues dans le reste des analyses.