Skip to content
Snippets Groups Projects
Commit 94fc600d authored by Alice Brenon's avatar Alice Brenon
Browse files

Move the section on unsupervised classification to the end of the models comparison

parent 760343e4
No related branches found
No related tags found
No related merge requests found
## Annotation des articles {#sec:classification_application} ## Annotation des articles {#sec:classification_application}
### Classification non supervisée
En complément des méthodes de classification supervisées, des tentatives ont été
faites pour utiliser de l'apprentissage non supervisé, permettant d'étudier
autrement les relations entre les contenus des articles, les systèmes de
classification et les prédictions générées automatiquement. Des techniques de
*clustering* ont ainsi été employées pour grouper automatiquement les articles
suivant leurs similarités, sans s'attacher aux étiquettes à appliquer à ces
groupes (c'est-à-dire à une quelconque interprétation qu'il faudrait faire de
ces groupes). Cette «similarité» est basée sur un calcul de distance entre les
représentations vectorielles des articles. Pour cette expérience, la méthode des
*K-Means* a été testée avec une vectorisation *TF-IDF*. La première expérience
consiste à entraîner un modèle de *clustering* pour construire 38 classes (le
nombre de domaines regroupés choisis précédemment). Des résultats décevants
amènent à rechercher automatiquement le meilleur nombre de clusters en utilisant
la méthode Silhouette [@shahapure2020cluster]. Les résultats suggèrent 36 comme
le nombre optimal de clusters, mais la répétition de l'expérience précédente
avec ce nombre produit des résultats similaires.
La figure \ref{fig:clustersperclass} montre une carte de chaleur des
distributions normalisées des nombres de clusters trouvés automatiquement avec
la méthode *K-Means* en compartimentant les articles en 36 clusters. La plupart
des clusters comportent un nombre important d'articles de plusieurs domaines et
le cluster n°0 regroupe des articles de quasiment tous les domaines. De plus,
pour beaucoup de clusters, la proportion est élevée et, de la même manière,
beaucoup de domaines se retrouvent étalés sur plusieurs clusters. Cela est
particulièrement vrai pour la *Géographie*, l'*Histoire naturelle* et les *Arts
et métiers*. Bien que les résultats soient complexes, l'analyse des clusters
demeure utile: par exemple le cluster n°22 regroupe des articles étiquetés
*Belles-lettres - Poésie*, *Histoire*, *Médailles*, *Religion* et
*Superstition*. Ces catégories possèdent des similarités thématiques qui
dénotent leur classification initiale dans l'*EDdA* ainsi que celle choisie en
termes de domaine regroupé (elles contiennent fréquemment du contenu à propos
d'histoires réelles mais aussi fictionnelles et mythologiques). De manière
semblable, le cluster n°7 comporte des articles des domaines *Médecine -
Chirurgie*, *Anatomie*, *Physique - \[Sciences physico-mathématiques\]* et
*Pharmacie*. Il semble possible de percevoir une thématique autour du corps et
de la médecine dans cet ensemble de classes. Enfin, le cluster n°30 en
rassemblant des articles de *Commerce* et de *Mesure* suggère une thématique
autour des nombres et d'unités. Quelques clusters restent particulièrement
homogènes et donc proches des classes comme le cluster n°10 composé à 96.46%
d'articles des classes *Géographie* ou le n°34, à 99.05% de l'*Histoire
naturelle*.
![Distributions normalisées des nombres de clusters par classe.](figure/classification/unsupervised/cluster36_tf_idf_per_classes.png){#fig:clustersperclass width=80%}
À l'inverse, la figure \ref{fig:classespercluster} montre la distribution de
domaine regroupés par cluster. Comme sur la figure \ref{fig:clustersperclass},
le cluster n°0 ressort particulièrement en rassemblant plus de 14 000 articles
de quasiment toutes les classes, alors que la très large majorité des autres
comporte moins de 2 000 articles. Cet écart considérable entre ce cluster et les
autres illustre toute la difficulté qu'il y a à trouver automatiquement une
catégorisation satisfaisante des articles du jeu de données. Cette nouvelle
figure montre encore l'hétérogénité des classes de quasiment tous les clusters
(exceptés les cas discutés plus haut) et par là-même la difficulté à donner un
sens aux clusters proposés par *K-Means*, sinon en terme de thématiques pour
quelques uns d'entre eux.
![Nombre d'articles de chaque classe par cluster](figure/classification/unsupervised/classes_per_cluster_cluster36_tf_idf.png){#fig:classespercluster width=80%}
De plus, sur les 38 classes, seules 15 apparaissent comme la classe principale
d'un des clusters (voir le tableau \ref{tab:maxclasspercluster}). Parmi les
clusters, 9 apparaissent relativement homogènes avec une classe principale
«pure» dans ces clusters à plus de 90% (cela est le cas pour les clusters n°1,
6, 10, 13, 15, 19, 31, 33 et 34). Mais pour ces 9 clusters, seules 3 classes
apparaissent comme la classe principale, et la *Géographie* est la classe
principale de 7 d'entre eux. Cela empêche d'interpréter la pureté importante des
clusters comme la correspondance de certains d'entre eux avec des classes
existantes, une hypothèse qui était pourtant à priori intéressante au vu de la
proximité entre le nombre de classes (38) et de clusters (36). De plus, la
classe *Géographie* est présente dans 31 clusters différents, c'est-à-dire la
quasi-totalité d'entre eux, ce qui contredit une interprétation des 7 clusters
comme autant de types d'articles de *Géographie* possibles.
Cluster n° | Classe principale | Part | Cluster n° | Classe principale | Part
----------:|-----------------------|---------:|-----------:|-----------------------|---------:
0 | Droit - Jurisprudence | 15.85 % | 18 | Métiers | 20.51 %
1 | Géographie | 91.95 % | 19 | Droit - Jurisprudence | 95.50 %
2 | Droit - Jurisprudence | 71.54 % | 20 | Chimie | 12.33 %
3 | Géographie | 89.03 % | 21 | Histoire naturelle | 74.48 %
4 | Antiquité | 51.38 % | 22 | Histoire | 16.99 %
5 | Métiers | 58.78 % | 23 | Mathématiques | 30.95 %
6 | Géographie | 99.28 % | 24 | Droit - Jurisprudence | 52.67 %
7 | Médecine - Chirurgie | 66.10 % | 25 | Métiers | 51.76 %
8 | Métiers | 42.17 % | 26 | Métiers | 39.85 %
9 | Géographie | 15.25 % | 27 | Droit - Jurisprudence | 82.77 %
10 | Géographie | 96.46 % | 28 | Histoire naturelle | 52.82 %
11 | Maréchage - Manège | 70.80 % | 29 | Anatomie | 82.93 %
12 | Histoire naturelle | 83.24 % | 30 | Commerce | 52.82 %
13 | Géographie | 96.53 % | 31 | Géographie | 95.50 %
14 | Marine | 74.93 % | 32 | Histoire naturelle | 65.09 %
15 | Géographie | 100.00 % | 33 | Géographie | 99.47 %
16 | Grammaire | 44.65 % | 34 | Histoire naturelle | 99.05 %
17 | Blason | 24.06 % | 35 | Histoire naturelle | 71.61 %
: Part de la classe la plus représentée dans chaque cluster.
\label{tab:maxclasspercluster}
Il est difficile de tirer des conclusions des résultats de cette expérience de
*clustering* et, avant d'aller plus loin, davantage d'analyses qualitatives sont
nécessaires pour pouvoir décider si l'apprentissage non supervisé peut être
utile comme une méthode complémentaire pour classer automatiquement les articles
de l'*EDdA* et à terme de *LGE*. Le *clustering* est, comme le *topic modeling*
par *LDA* (*Latent Dirichlet Allocation* — allocation latente de dirichlet), une
manière d'organiser le contenu du corpus sans présupposer un ensemble de classes
qui serait *la* manière correcte de structurer la connaissance. Le choix fait
précédemment de reprendre le nombre de domaines regroupés utilisés pour la
classification supervisée pour le nombre de clusters biaisait nécessairement la
découverte de clusters, mais le fait que l'heuristique Silhouette ait trouvé un
nombre proche de clusters (36) demeure troublant. Il pourrait être intéressant
dans de futurs travaux de tester de manière systématique un bien plus grand
nombre de possibilités en partant d'un très petit nombre de clusters et en
augmentant leur nombre tout en évaluant manuellement la pertinence du système
trouvé à chaque étape. Dans le contexte de cette thèse, ces méthodes n'ont pas
permis d'avancées significatives et ne sont pas retenues dans le reste des
analyses.
### Choix d'un classifieur {#sec:classification_choices} ### Choix d'un classifieur {#sec:classification_choices}
Si le travail de comparaison des méthodes de classification décrit dans cette Si le travail de comparaison des méthodes de classification décrit dans cette
......
...@@ -429,3 +429,119 @@ où il y une forte proximité sémantique le modèle tend à choisir la classe l ...@@ -429,3 +429,119 @@ où il y une forte proximité sémantique le modèle tend à choisir la classe l
mieux représentée dans le jeu de donnée, privilégiant ainsi les domaines mieux représentée dans le jeu de donnée, privilégiant ainsi les domaines
regroupés qui contiennent le plus d'articles. regroupés qui contiennent le plus d'articles.
### Classification non supervisée
En complément des méthodes de classification supervisées, des tentatives ont été
faites pour utiliser de l'apprentissage non supervisé, permettant d'étudier
autrement les relations entre les contenus des articles, les systèmes de
classification et les prédictions générées automatiquement. Des techniques de
*clustering* ont ainsi été employées pour grouper automatiquement les articles
suivant leurs similarités, sans s'attacher aux étiquettes à appliquer à ces
groupes (c'est-à-dire à une quelconque interprétation qu'il faudrait faire de
ces groupes). Cette «similarité» est basée sur un calcul de distance entre les
représentations vectorielles des articles. Pour cette expérience, la méthode des
*K-Means* a été testée avec une vectorisation *TF-IDF*. La première expérience
consiste à entraîner un modèle de *clustering* pour construire 38 classes (le
nombre de domaines regroupés choisis précédemment). Des résultats décevants
amènent à rechercher automatiquement le meilleur nombre de clusters en utilisant
la méthode Silhouette [@shahapure2020cluster]. Les résultats suggèrent 36 comme
le nombre optimal de clusters, mais la répétition de l'expérience précédente
avec ce nombre produit des résultats similaires.
La figure \ref{fig:clustersperclass} montre une carte de chaleur des
distributions normalisées des nombres de clusters trouvés automatiquement avec
la méthode *K-Means* en compartimentant les articles en 36 clusters. La plupart
des clusters comportent un nombre important d'articles de plusieurs domaines et
le cluster n°0 regroupe des articles de quasiment tous les domaines. De plus,
pour beaucoup de clusters, la proportion est élevée et, de la même manière,
beaucoup de domaines se retrouvent étalés sur plusieurs clusters. Cela est
particulièrement vrai pour la *Géographie*, l'*Histoire naturelle* et les *Arts
et métiers*. Bien que les résultats soient complexes, l'analyse des clusters
demeure utile: par exemple le cluster n°22 regroupe des articles étiquetés
*Belles-lettres - Poésie*, *Histoire*, *Médailles*, *Religion* et
*Superstition*. Ces catégories possèdent des similarités thématiques qui
dénotent leur classification initiale dans l'*EDdA* ainsi que celle choisie en
termes de domaine regroupé (elles contiennent fréquemment du contenu à propos
d'histoires réelles mais aussi fictionnelles et mythologiques). De manière
semblable, le cluster n°7 comporte des articles des domaines *Médecine -
Chirurgie*, *Anatomie*, *Physique - \[Sciences physico-mathématiques\]* et
*Pharmacie*. Il semble possible de percevoir une thématique autour du corps et
de la médecine dans cet ensemble de classes. Enfin, le cluster n°30 en
rassemblant des articles de *Commerce* et de *Mesure* suggère une thématique
autour des nombres et d'unités. Quelques clusters restent particulièrement
homogènes et donc proches des classes comme le cluster n°10 composé à 96.46%
d'articles des classes *Géographie* ou le n°34, à 99.05% de l'*Histoire
naturelle*.
![Distributions normalisées des nombres de clusters par classe.](figure/classification/unsupervised/cluster36_tf_idf_per_classes.png){#fig:clustersperclass width=80%}
À l'inverse, la figure \ref{fig:classespercluster} montre la distribution de
domaine regroupés par cluster. Comme sur la figure \ref{fig:clustersperclass},
le cluster n°0 ressort particulièrement en rassemblant plus de 14 000 articles
de quasiment toutes les classes, alors que la très large majorité des autres
comporte moins de 2 000 articles. Cet écart considérable entre ce cluster et les
autres illustre toute la difficulté qu'il y a à trouver automatiquement une
catégorisation satisfaisante des articles du jeu de données. Cette nouvelle
figure montre encore l'hétérogénité des classes de quasiment tous les clusters
(exceptés les cas discutés plus haut) et par là-même la difficulté à donner un
sens aux clusters proposés par *K-Means*, sinon en terme de thématiques pour
quelques uns d'entre eux.
![Nombre d'articles de chaque classe par cluster](figure/classification/unsupervised/classes_per_cluster_cluster36_tf_idf.png){#fig:classespercluster width=80%}
De plus, sur les 38 classes, seules 15 apparaissent comme la classe principale
d'un des clusters (voir le tableau \ref{tab:maxclasspercluster}). Parmi les
clusters, 9 apparaissent relativement homogènes avec une classe principale
«pure» dans ces clusters à plus de 90% (cela est le cas pour les clusters n°1,
6, 10, 13, 15, 19, 31, 33 et 34). Mais pour ces 9 clusters, seules 3 classes
apparaissent comme la classe principale, et la *Géographie* est la classe
principale de 7 d'entre eux. Cela empêche d'interpréter la pureté importante des
clusters comme la correspondance de certains d'entre eux avec des classes
existantes, une hypothèse qui était pourtant à priori intéressante au vu de la
proximité entre le nombre de classes (38) et de clusters (36). De plus, la
classe *Géographie* est présente dans 31 clusters différents, c'est-à-dire la
quasi-totalité d'entre eux, ce qui contredit une interprétation des 7 clusters
comme autant de types d'articles de *Géographie* possibles.
Cluster n° | Classe principale | Part | Cluster n° | Classe principale | Part
----------:|-----------------------|---------:|-----------:|-----------------------|---------:
0 | Droit - Jurisprudence | 15.85 % | 18 | Métiers | 20.51 %
1 | Géographie | 91.95 % | 19 | Droit - Jurisprudence | 95.50 %
2 | Droit - Jurisprudence | 71.54 % | 20 | Chimie | 12.33 %
3 | Géographie | 89.03 % | 21 | Histoire naturelle | 74.48 %
4 | Antiquité | 51.38 % | 22 | Histoire | 16.99 %
5 | Métiers | 58.78 % | 23 | Mathématiques | 30.95 %
6 | Géographie | 99.28 % | 24 | Droit - Jurisprudence | 52.67 %
7 | Médecine - Chirurgie | 66.10 % | 25 | Métiers | 51.76 %
8 | Métiers | 42.17 % | 26 | Métiers | 39.85 %
9 | Géographie | 15.25 % | 27 | Droit - Jurisprudence | 82.77 %
10 | Géographie | 96.46 % | 28 | Histoire naturelle | 52.82 %
11 | Maréchage - Manège | 70.80 % | 29 | Anatomie | 82.93 %
12 | Histoire naturelle | 83.24 % | 30 | Commerce | 52.82 %
13 | Géographie | 96.53 % | 31 | Géographie | 95.50 %
14 | Marine | 74.93 % | 32 | Histoire naturelle | 65.09 %
15 | Géographie | 100.00 % | 33 | Géographie | 99.47 %
16 | Grammaire | 44.65 % | 34 | Histoire naturelle | 99.05 %
17 | Blason | 24.06 % | 35 | Histoire naturelle | 71.61 %
: Part de la classe la plus représentée dans chaque cluster.
\label{tab:maxclasspercluster}
Il est difficile de tirer des conclusions des résultats de cette expérience de
*clustering* et, avant d'aller plus loin, davantage d'analyses qualitatives sont
nécessaires pour pouvoir décider si l'apprentissage non supervisé peut être
utile comme une méthode complémentaire pour classer automatiquement les articles
de l'*EDdA* et à terme de *LGE*. Le *clustering* est, comme le *topic modeling*
par [@=LDA], une manière d'organiser le contenu du corpus sans présupposer un
ensemble de classes qui serait *la* manière correcte de structurer la
connaissance. Le choix fait précédemment de reprendre le nombre de domaines
regroupés utilisés pour la classification supervisée pour le nombre de clusters
biaisait nécessairement la découverte de clusters, mais le fait que
l'heuristique Silhouette ait trouvé un nombre proche de clusters (36) demeure
troublant. Il pourrait être intéressant dans de futurs travaux de tester de
manière systématique un bien plus grand nombre de possibilités en partant d'un
très petit nombre de clusters et en augmentant leur nombre tout en évaluant
manuellement la pertinence du système trouvé à chaque étape. Dans le contexte de
cette thèse, ces méthodes n'ont pas permis d'avancées significatives et ne sont
pas retenues dans le reste des analyses.
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment