## Annotation des articles {#sec:classification_application}
## Annotation des articles {#sec:classification_application}
### Classification non supervisée
En complément des méthodes de classification supervisées, des tentatives ont été
faites pour utiliser de l'apprentissage non supervisé, permettant d'étudier
autrement les relations entre les contenus des articles, les systèmes de
classification et les prédictions générées automatiquement. Des techniques de
*clustering* ont ainsi été employées pour grouper automatiquement les articles
suivant leurs similarités, sans s'attacher aux étiquettes à appliquer à ces
groupes (c'est-à-dire à une quelconque interprétation qu'il faudrait faire de
ces groupes). Cette «similarité» est basée sur un calcul de distance entre les
représentations vectorielles des articles. Pour cette expérience, la méthode des
*K-Means* a été testée avec une vectorisation *TF-IDF*. La première expérience
consiste à entraîner un modèle de *clustering* pour construire 38 classes (le
nombre de domaines regroupés choisis précédemment). Des résultats décevants
amènent à rechercher automatiquement le meilleur nombre de clusters en utilisant
la méthode Silhouette [@shahapure2020cluster]. Les résultats suggèrent 36 comme
le nombre optimal de clusters, mais la répétition de l'expérience précédente
avec ce nombre produit des résultats similaires.
La figure \ref{fig:clustersperclass} montre une carte de chaleur des
distributions normalisées des nombres de clusters trouvés automatiquement avec
la méthode *K-Means* en compartimentant les articles en 36 clusters. La plupart
des clusters comportent un nombre important d'articles de plusieurs domaines et
le cluster n°0 regroupe des articles de quasiment tous les domaines. De plus,
pour beaucoup de clusters, la proportion est élevée et, de la même manière,
beaucoup de domaines se retrouvent étalés sur plusieurs clusters. Cela est
particulièrement vrai pour la *Géographie*, l'*Histoire naturelle* et les *Arts
et métiers*. Bien que les résultats soient complexes, l'analyse des clusters
demeure utile: par exemple le cluster n°22 regroupe des articles étiquetés
*Belles-lettres - Poésie*, *Histoire*, *Médailles*, *Religion* et
*Superstition*. Ces catégories possèdent des similarités thématiques qui
dénotent leur classification initiale dans l'*EDdA* ainsi que celle choisie en
termes de domaine regroupé (elles contiennent fréquemment du contenu à propos
d'histoires réelles mais aussi fictionnelles et mythologiques). De manière
semblable, le cluster n°7 comporte des articles des domaines *Médecine -
Chirurgie*, *Anatomie*, *Physique - \[Sciences physico-mathématiques\]* et
*Pharmacie*. Il semble possible de percevoir une thématique autour du corps et
de la médecine dans cet ensemble de classes. Enfin, le cluster n°30 en
rassemblant des articles de *Commerce* et de *Mesure* suggère une thématique
autour des nombres et d'unités. Quelques clusters restent particulièrement
homogènes et donc proches des classes comme le cluster n°10 composé à 96.46%
d'articles des classes *Géographie* ou le n°34, à 99.05% de l'*Histoire
naturelle*.
{#fig:clustersperclass width=80%}
À l'inverse, la figure \ref{fig:classespercluster} montre la distribution de
domaine regroupés par cluster. Comme sur la figure \ref{fig:clustersperclass},
le cluster n°0 ressort particulièrement en rassemblant plus de 14 000 articles
de quasiment toutes les classes, alors que la très large majorité des autres
comporte moins de 2 000 articles. Cet écart considérable entre ce cluster et les
autres illustre toute la difficulté qu'il y a à trouver automatiquement une
catégorisation satisfaisante des articles du jeu de données. Cette nouvelle
figure montre encore l'hétérogénité des classes de quasiment tous les clusters
(exceptés les cas discutés plus haut) et par là-même la difficulté à donner un
sens aux clusters proposés par *K-Means*, sinon en terme de thématiques pour
quelques uns d'entre eux.
{#fig:classespercluster width=80%}
De plus, sur les 38 classes, seules 15 apparaissent comme la classe principale
d'un des clusters (voir le tableau \ref{tab:maxclasspercluster}). Parmi les
clusters, 9 apparaissent relativement homogènes avec une classe principale
«pure» dans ces clusters à plus de 90% (cela est le cas pour les clusters n°1,
6, 10, 13, 15, 19, 31, 33 et 34). Mais pour ces 9 clusters, seules 3 classes
apparaissent comme la classe principale, et la *Géographie* est la classe
principale de 7 d'entre eux. Cela empêche d'interpréter la pureté importante des
clusters comme la correspondance de certains d'entre eux avec des classes
existantes, une hypothèse qui était pourtant à priori intéressante au vu de la
proximité entre le nombre de classes (38) et de clusters (36). De plus, la
classe *Géographie* est présente dans 31 clusters différents, c'est-à-dire la
quasi-totalité d'entre eux, ce qui contredit une interprétation des 7 clusters
comme autant de types d'articles de *Géographie* possibles.
Cluster n° | Classe principale | Part | Cluster n° | Classe principale | Part
@@ -429,3 +429,119 @@ où il y une forte proximité sémantique le modèle tend à choisir la classe l
...
@@ -429,3 +429,119 @@ où il y une forte proximité sémantique le modèle tend à choisir la classe l
mieux représentée dans le jeu de donnée, privilégiant ainsi les domaines
mieux représentée dans le jeu de donnée, privilégiant ainsi les domaines
regroupés qui contiennent le plus d'articles.
regroupés qui contiennent le plus d'articles.
### Classification non supervisée
En complément des méthodes de classification supervisées, des tentatives ont été
faites pour utiliser de l'apprentissage non supervisé, permettant d'étudier
autrement les relations entre les contenus des articles, les systèmes de
classification et les prédictions générées automatiquement. Des techniques de
*clustering* ont ainsi été employées pour grouper automatiquement les articles
suivant leurs similarités, sans s'attacher aux étiquettes à appliquer à ces
groupes (c'est-à-dire à une quelconque interprétation qu'il faudrait faire de
ces groupes). Cette «similarité» est basée sur un calcul de distance entre les
représentations vectorielles des articles. Pour cette expérience, la méthode des
*K-Means* a été testée avec une vectorisation *TF-IDF*. La première expérience
consiste à entraîner un modèle de *clustering* pour construire 38 classes (le
nombre de domaines regroupés choisis précédemment). Des résultats décevants
amènent à rechercher automatiquement le meilleur nombre de clusters en utilisant
la méthode Silhouette [@shahapure2020cluster]. Les résultats suggèrent 36 comme
le nombre optimal de clusters, mais la répétition de l'expérience précédente
avec ce nombre produit des résultats similaires.
La figure \ref{fig:clustersperclass} montre une carte de chaleur des
distributions normalisées des nombres de clusters trouvés automatiquement avec
la méthode *K-Means* en compartimentant les articles en 36 clusters. La plupart
des clusters comportent un nombre important d'articles de plusieurs domaines et
le cluster n°0 regroupe des articles de quasiment tous les domaines. De plus,
pour beaucoup de clusters, la proportion est élevée et, de la même manière,
beaucoup de domaines se retrouvent étalés sur plusieurs clusters. Cela est
particulièrement vrai pour la *Géographie*, l'*Histoire naturelle* et les *Arts
et métiers*. Bien que les résultats soient complexes, l'analyse des clusters
demeure utile: par exemple le cluster n°22 regroupe des articles étiquetés
*Belles-lettres - Poésie*, *Histoire*, *Médailles*, *Religion* et
*Superstition*. Ces catégories possèdent des similarités thématiques qui
dénotent leur classification initiale dans l'*EDdA* ainsi que celle choisie en
termes de domaine regroupé (elles contiennent fréquemment du contenu à propos
d'histoires réelles mais aussi fictionnelles et mythologiques). De manière
semblable, le cluster n°7 comporte des articles des domaines *Médecine -
Chirurgie*, *Anatomie*, *Physique - \[Sciences physico-mathématiques\]* et
*Pharmacie*. Il semble possible de percevoir une thématique autour du corps et
de la médecine dans cet ensemble de classes. Enfin, le cluster n°30 en
rassemblant des articles de *Commerce* et de *Mesure* suggère une thématique
autour des nombres et d'unités. Quelques clusters restent particulièrement
homogènes et donc proches des classes comme le cluster n°10 composé à 96.46%
d'articles des classes *Géographie* ou le n°34, à 99.05% de l'*Histoire
naturelle*.
{#fig:clustersperclass width=80%}
À l'inverse, la figure \ref{fig:classespercluster} montre la distribution de
domaine regroupés par cluster. Comme sur la figure \ref{fig:clustersperclass},
le cluster n°0 ressort particulièrement en rassemblant plus de 14 000 articles
de quasiment toutes les classes, alors que la très large majorité des autres
comporte moins de 2 000 articles. Cet écart considérable entre ce cluster et les
autres illustre toute la difficulté qu'il y a à trouver automatiquement une
catégorisation satisfaisante des articles du jeu de données. Cette nouvelle
figure montre encore l'hétérogénité des classes de quasiment tous les clusters
(exceptés les cas discutés plus haut) et par là-même la difficulté à donner un
sens aux clusters proposés par *K-Means*, sinon en terme de thématiques pour
quelques uns d'entre eux.
{#fig:classespercluster width=80%}
De plus, sur les 38 classes, seules 15 apparaissent comme la classe principale
d'un des clusters (voir le tableau \ref{tab:maxclasspercluster}). Parmi les
clusters, 9 apparaissent relativement homogènes avec une classe principale
«pure» dans ces clusters à plus de 90% (cela est le cas pour les clusters n°1,
6, 10, 13, 15, 19, 31, 33 et 34). Mais pour ces 9 clusters, seules 3 classes
apparaissent comme la classe principale, et la *Géographie* est la classe
principale de 7 d'entre eux. Cela empêche d'interpréter la pureté importante des
clusters comme la correspondance de certains d'entre eux avec des classes
existantes, une hypothèse qui était pourtant à priori intéressante au vu de la
proximité entre le nombre de classes (38) et de clusters (36). De plus, la
classe *Géographie* est présente dans 31 clusters différents, c'est-à-dire la
quasi-totalité d'entre eux, ce qui contredit une interprétation des 7 clusters
comme autant de types d'articles de *Géographie* possibles.
Cluster n° | Classe principale | Part | Cluster n° | Classe principale | Part