diff --git a/Classification/Application.md b/Classification/Application.md index 0320746a99be51f3ad192aad0f8c73dcbcab3fbf..cff6db2720639c643f05502748df7b5d0ac758f1 100644 --- a/Classification/Application.md +++ b/Classification/Application.md @@ -1,122 +1,5 @@ ## Annotation des articles {#sec:classification_application} -### Classification non supervisée - -En complément des méthodes de classification supervisées, des tentatives ont été -faites pour utiliser de l'apprentissage non supervisé, permettant d'étudier -autrement les relations entre les contenus des articles, les systèmes de -classification et les prédictions générées automatiquement. Des techniques de -*clustering* ont ainsi été employées pour grouper automatiquement les articles -suivant leurs similarités, sans s'attacher aux étiquettes à appliquer à ces -groupes (c'est-à -dire à une quelconque interprétation qu'il faudrait faire de -ces groupes). Cette «similarité» est basée sur un calcul de distance entre les -représentations vectorielles des articles. Pour cette expérience, la méthode des -*K-Means* a été testée avec une vectorisation *TF-IDF*. La première expérience -consiste à entraîner un modèle de *clustering* pour construire 38 classes (le -nombre de domaines regroupés choisis précédemment). Des résultats décevants -amènent à rechercher automatiquement le meilleur nombre de clusters en utilisant -la méthode Silhouette [@shahapure2020cluster]. Les résultats suggèrent 36 comme -le nombre optimal de clusters, mais la répétition de l'expérience précédente -avec ce nombre produit des résultats similaires. - -La figure \ref{fig:clustersperclass} montre une carte de chaleur des -distributions normalisées des nombres de clusters trouvés automatiquement avec -la méthode *K-Means* en compartimentant les articles en 36 clusters. La plupart -des clusters comportent un nombre important d'articles de plusieurs domaines et -le cluster n°0 regroupe des articles de quasiment tous les domaines. De plus, -pour beaucoup de clusters, la proportion est élevée et, de la même manière, -beaucoup de domaines se retrouvent étalés sur plusieurs clusters. Cela est -particulièrement vrai pour la *Géographie*, l'*Histoire naturelle* et les *Arts -et métiers*. Bien que les résultats soient complexes, l'analyse des clusters -demeure utile: par exemple le cluster n°22 regroupe des articles étiquetés -*Belles-lettres - Poésie*, *Histoire*, *Médailles*, *Religion* et -*Superstition*. Ces catégories possèdent des similarités thématiques qui -dénotent leur classification initiale dans l'*EDdA* ainsi que celle choisie en -termes de domaine regroupé (elles contiennent fréquemment du contenu à propos -d'histoires réelles mais aussi fictionnelles et mythologiques). De manière -semblable, le cluster n°7 comporte des articles des domaines *Médecine - -Chirurgie*, *Anatomie*, *Physique - \[Sciences physico-mathématiques\]* et -*Pharmacie*. Il semble possible de percevoir une thématique autour du corps et -de la médecine dans cet ensemble de classes. Enfin, le cluster n°30 en -rassemblant des articles de *Commerce* et de *Mesure* suggère une thématique -autour des nombres et d'unités. Quelques clusters restent particulièrement -homogènes et donc proches des classes comme le cluster n°10 composé à 96.46% -d'articles des classes *Géographie* ou le n°34, à 99.05% de l'*Histoire -naturelle*. - -{#fig:clustersperclass width=80%} - -À l'inverse, la figure \ref{fig:classespercluster} montre la distribution de -domaine regroupés par cluster. Comme sur la figure \ref{fig:clustersperclass}, -le cluster n°0 ressort particulièrement en rassemblant plus de 14 000 articles -de quasiment toutes les classes, alors que la très large majorité des autres -comporte moins de 2 000 articles. Cet écart considérable entre ce cluster et les -autres illustre toute la difficulté qu'il y a à trouver automatiquement une -catégorisation satisfaisante des articles du jeu de données. Cette nouvelle -figure montre encore l'hétérogénité des classes de quasiment tous les clusters -(exceptés les cas discutés plus haut) et par là -même la difficulté à donner un -sens aux clusters proposés par *K-Means*, sinon en terme de thématiques pour -quelques uns d'entre eux. - -{#fig:classespercluster width=80%} - -De plus, sur les 38 classes, seules 15 apparaissent comme la classe principale -d'un des clusters (voir le tableau \ref{tab:maxclasspercluster}). Parmi les -clusters, 9 apparaissent relativement homogènes avec une classe principale -«pure» dans ces clusters à plus de 90% (cela est le cas pour les clusters n°1, -6, 10, 13, 15, 19, 31, 33 et 34). Mais pour ces 9 clusters, seules 3 classes -apparaissent comme la classe principale, et la *Géographie* est la classe -principale de 7 d'entre eux. Cela empêche d'interpréter la pureté importante des -clusters comme la correspondance de certains d'entre eux avec des classes -existantes, une hypothèse qui était pourtant à priori intéressante au vu de la -proximité entre le nombre de classes (38) et de clusters (36). De plus, la -classe *Géographie* est présente dans 31 clusters différents, c'est-à -dire la -quasi-totalité d'entre eux, ce qui contredit une interprétation des 7 clusters -comme autant de types d'articles de *Géographie* possibles. - -Cluster n° | Classe principale | Part | Cluster n° | Classe principale | Part -----------:|-----------------------|---------:|-----------:|-----------------------|---------: - 0 | Droit - Jurisprudence | 15.85 % | 18 | Métiers | 20.51 % - 1 | Géographie | 91.95 % | 19 | Droit - Jurisprudence | 95.50 % - 2 | Droit - Jurisprudence | 71.54 % | 20 | Chimie | 12.33 % - 3 | Géographie | 89.03 % | 21 | Histoire naturelle | 74.48 % - 4 | Antiquité | 51.38 % | 22 | Histoire | 16.99 % - 5 | Métiers | 58.78 % | 23 | Mathématiques | 30.95 % - 6 | Géographie | 99.28 % | 24 | Droit - Jurisprudence | 52.67 % - 7 | Médecine - Chirurgie | 66.10 % | 25 | Métiers | 51.76 % - 8 | Métiers | 42.17 % | 26 | Métiers | 39.85 % - 9 | Géographie | 15.25 % | 27 | Droit - Jurisprudence | 82.77 % - 10 | Géographie | 96.46 % | 28 | Histoire naturelle | 52.82 % - 11 | Maréchage - Manège | 70.80 % | 29 | Anatomie | 82.93 % - 12 | Histoire naturelle | 83.24 % | 30 | Commerce | 52.82 % - 13 | Géographie | 96.53 % | 31 | Géographie | 95.50 % - 14 | Marine | 74.93 % | 32 | Histoire naturelle | 65.09 % - 15 | Géographie | 100.00 % | 33 | Géographie | 99.47 % - 16 | Grammaire | 44.65 % | 34 | Histoire naturelle | 99.05 % - 17 | Blason | 24.06 % | 35 | Histoire naturelle | 71.61 % - -: Part de la classe la plus représentée dans chaque cluster. -\label{tab:maxclasspercluster} - -Il est difficile de tirer des conclusions des résultats de cette expérience de -*clustering* et, avant d'aller plus loin, davantage d'analyses qualitatives sont -nécessaires pour pouvoir décider si l'apprentissage non supervisé peut être -utile comme une méthode complémentaire pour classer automatiquement les articles -de l'*EDdA* et à terme de *LGE*. Le *clustering* est, comme le *topic modeling* -par *LDA* (*Latent Dirichlet Allocation* — allocation latente de dirichlet), une -manière d'organiser le contenu du corpus sans présupposer un ensemble de classes -qui serait *la* manière correcte de structurer la connaissance. Le choix fait -précédemment de reprendre le nombre de domaines regroupés utilisés pour la -classification supervisée pour le nombre de clusters biaisait nécessairement la -découverte de clusters, mais le fait que l'heuristique Silhouette ait trouvé un -nombre proche de clusters (36) demeure troublant. Il pourrait être intéressant -dans de futurs travaux de tester de manière systématique un bien plus grand -nombre de possibilités en partant d'un très petit nombre de clusters et en -augmentant leur nombre tout en évaluant manuellement la pertinence du système -trouvé à chaque étape. Dans le contexte de cette thèse, ces méthodes n'ont pas -permis d'avancées significatives et ne sont pas retenues dans le reste des -analyses. - ### Choix d'un classifieur {#sec:classification_choices} Si le travail de comparaison des méthodes de classification décrit dans cette diff --git a/Classification/Models.md b/Classification/Models.md index a6f2f528d451b6cb837120180feb2f3322388d5c..a8f2f300845bd5d1883f63da95cf930bba3d2c8b 100644 --- a/Classification/Models.md +++ b/Classification/Models.md @@ -429,3 +429,119 @@ où il y une forte proximité sémantique le modèle tend à choisir la classe l mieux représentée dans le jeu de donnée, privilégiant ainsi les domaines regroupés qui contiennent le plus d'articles. +### Classification non supervisée + +En complément des méthodes de classification supervisées, des tentatives ont été +faites pour utiliser de l'apprentissage non supervisé, permettant d'étudier +autrement les relations entre les contenus des articles, les systèmes de +classification et les prédictions générées automatiquement. Des techniques de +*clustering* ont ainsi été employées pour grouper automatiquement les articles +suivant leurs similarités, sans s'attacher aux étiquettes à appliquer à ces +groupes (c'est-à -dire à une quelconque interprétation qu'il faudrait faire de +ces groupes). Cette «similarité» est basée sur un calcul de distance entre les +représentations vectorielles des articles. Pour cette expérience, la méthode des +*K-Means* a été testée avec une vectorisation *TF-IDF*. La première expérience +consiste à entraîner un modèle de *clustering* pour construire 38 classes (le +nombre de domaines regroupés choisis précédemment). Des résultats décevants +amènent à rechercher automatiquement le meilleur nombre de clusters en utilisant +la méthode Silhouette [@shahapure2020cluster]. Les résultats suggèrent 36 comme +le nombre optimal de clusters, mais la répétition de l'expérience précédente +avec ce nombre produit des résultats similaires. + +La figure \ref{fig:clustersperclass} montre une carte de chaleur des +distributions normalisées des nombres de clusters trouvés automatiquement avec +la méthode *K-Means* en compartimentant les articles en 36 clusters. La plupart +des clusters comportent un nombre important d'articles de plusieurs domaines et +le cluster n°0 regroupe des articles de quasiment tous les domaines. De plus, +pour beaucoup de clusters, la proportion est élevée et, de la même manière, +beaucoup de domaines se retrouvent étalés sur plusieurs clusters. Cela est +particulièrement vrai pour la *Géographie*, l'*Histoire naturelle* et les *Arts +et métiers*. Bien que les résultats soient complexes, l'analyse des clusters +demeure utile: par exemple le cluster n°22 regroupe des articles étiquetés +*Belles-lettres - Poésie*, *Histoire*, *Médailles*, *Religion* et +*Superstition*. Ces catégories possèdent des similarités thématiques qui +dénotent leur classification initiale dans l'*EDdA* ainsi que celle choisie en +termes de domaine regroupé (elles contiennent fréquemment du contenu à propos +d'histoires réelles mais aussi fictionnelles et mythologiques). De manière +semblable, le cluster n°7 comporte des articles des domaines *Médecine - +Chirurgie*, *Anatomie*, *Physique - \[Sciences physico-mathématiques\]* et +*Pharmacie*. Il semble possible de percevoir une thématique autour du corps et +de la médecine dans cet ensemble de classes. Enfin, le cluster n°30 en +rassemblant des articles de *Commerce* et de *Mesure* suggère une thématique +autour des nombres et d'unités. Quelques clusters restent particulièrement +homogènes et donc proches des classes comme le cluster n°10 composé à 96.46% +d'articles des classes *Géographie* ou le n°34, à 99.05% de l'*Histoire +naturelle*. + +{#fig:clustersperclass width=80%} + +À l'inverse, la figure \ref{fig:classespercluster} montre la distribution de +domaine regroupés par cluster. Comme sur la figure \ref{fig:clustersperclass}, +le cluster n°0 ressort particulièrement en rassemblant plus de 14 000 articles +de quasiment toutes les classes, alors que la très large majorité des autres +comporte moins de 2 000 articles. Cet écart considérable entre ce cluster et les +autres illustre toute la difficulté qu'il y a à trouver automatiquement une +catégorisation satisfaisante des articles du jeu de données. Cette nouvelle +figure montre encore l'hétérogénité des classes de quasiment tous les clusters +(exceptés les cas discutés plus haut) et par là -même la difficulté à donner un +sens aux clusters proposés par *K-Means*, sinon en terme de thématiques pour +quelques uns d'entre eux. + +{#fig:classespercluster width=80%} + +De plus, sur les 38 classes, seules 15 apparaissent comme la classe principale +d'un des clusters (voir le tableau \ref{tab:maxclasspercluster}). Parmi les +clusters, 9 apparaissent relativement homogènes avec une classe principale +«pure» dans ces clusters à plus de 90% (cela est le cas pour les clusters n°1, +6, 10, 13, 15, 19, 31, 33 et 34). Mais pour ces 9 clusters, seules 3 classes +apparaissent comme la classe principale, et la *Géographie* est la classe +principale de 7 d'entre eux. Cela empêche d'interpréter la pureté importante des +clusters comme la correspondance de certains d'entre eux avec des classes +existantes, une hypothèse qui était pourtant à priori intéressante au vu de la +proximité entre le nombre de classes (38) et de clusters (36). De plus, la +classe *Géographie* est présente dans 31 clusters différents, c'est-à -dire la +quasi-totalité d'entre eux, ce qui contredit une interprétation des 7 clusters +comme autant de types d'articles de *Géographie* possibles. + +Cluster n° | Classe principale | Part | Cluster n° | Classe principale | Part +----------:|-----------------------|---------:|-----------:|-----------------------|---------: + 0 | Droit - Jurisprudence | 15.85 % | 18 | Métiers | 20.51 % + 1 | Géographie | 91.95 % | 19 | Droit - Jurisprudence | 95.50 % + 2 | Droit - Jurisprudence | 71.54 % | 20 | Chimie | 12.33 % + 3 | Géographie | 89.03 % | 21 | Histoire naturelle | 74.48 % + 4 | Antiquité | 51.38 % | 22 | Histoire | 16.99 % + 5 | Métiers | 58.78 % | 23 | Mathématiques | 30.95 % + 6 | Géographie | 99.28 % | 24 | Droit - Jurisprudence | 52.67 % + 7 | Médecine - Chirurgie | 66.10 % | 25 | Métiers | 51.76 % + 8 | Métiers | 42.17 % | 26 | Métiers | 39.85 % + 9 | Géographie | 15.25 % | 27 | Droit - Jurisprudence | 82.77 % + 10 | Géographie | 96.46 % | 28 | Histoire naturelle | 52.82 % + 11 | Maréchage - Manège | 70.80 % | 29 | Anatomie | 82.93 % + 12 | Histoire naturelle | 83.24 % | 30 | Commerce | 52.82 % + 13 | Géographie | 96.53 % | 31 | Géographie | 95.50 % + 14 | Marine | 74.93 % | 32 | Histoire naturelle | 65.09 % + 15 | Géographie | 100.00 % | 33 | Géographie | 99.47 % + 16 | Grammaire | 44.65 % | 34 | Histoire naturelle | 99.05 % + 17 | Blason | 24.06 % | 35 | Histoire naturelle | 71.61 % + +: Part de la classe la plus représentée dans chaque cluster. +\label{tab:maxclasspercluster} + +Il est difficile de tirer des conclusions des résultats de cette expérience de +*clustering* et, avant d'aller plus loin, davantage d'analyses qualitatives sont +nécessaires pour pouvoir décider si l'apprentissage non supervisé peut être +utile comme une méthode complémentaire pour classer automatiquement les articles +de l'*EDdA* et à terme de *LGE*. Le *clustering* est, comme le *topic modeling* +par [@=LDA], une manière d'organiser le contenu du corpus sans présupposer un +ensemble de classes qui serait *la* manière correcte de structurer la +connaissance. Le choix fait précédemment de reprendre le nombre de domaines +regroupés utilisés pour la classification supervisée pour le nombre de clusters +biaisait nécessairement la découverte de clusters, mais le fait que +l'heuristique Silhouette ait trouvé un nombre proche de clusters (36) demeure +troublant. Il pourrait être intéressant dans de futurs travaux de tester de +manière systématique un bien plus grand nombre de possibilités en partant d'un +très petit nombre de clusters et en augmentant leur nombre tout en évaluant +manuellement la pertinence du système trouvé à chaque étape. Dans le contexte de +cette thèse, ces méthodes n'ont pas permis d'avancées significatives et ne sont +pas retenues dans le reste des analyses. +