@@ -194,19 +194,19 @@ et 46 807 articles au total.
### Évaluation des performances {#sec:classifier_benchmark}
Les résultats de classification sont évalués en mesurant la précision, le rappel
et le F1-score (moyenne harmonique de la précision et du rappel) de chaque
et la F-mesure (moyenne harmonique de la précision et du rappel) de chaque
méthode. Afin d'obtenir des résultats généraux pour toutes les classes, les
F1-scores moyens sur les 38 classes pondérés par leur nombre d'articles sont
examinés. Le tableau \ref{tab:result_1} présente les F1-scores obtenus par les
F-mesures moyennes sur les 38 classes pondérées par leur nombre d'articles sont
examinés. Le tableau \ref{tab:result_1} présente les F-mesures obtenues par les
différentes méthodes.
::: {}
: F1-score moyens pour les différents modèles entraînés sur un échantillon de 500 articles maximum par classe (1), 1500 maximum par classes (2) et tous les articles disponibles de chaque classe (3) appliqués sur le jeu de test.
: F-mesures moyennes pour les différents modèles entraînés sur un échantillon de 500 articles maximum par classe (1), 1500 maximum par classes (2) et tous les articles disponibles de chaque classe (3) appliqués sur le jeu de test.
@@ -266,12 +266,12 @@ meilleures méthodes d'[@=AA] traditionnelles associées à la vectorisation
pour les méthodes traditionnelles à cause de la réduction du jeu de données
qu'il occasionne. Les modèles de langue préentraînés tel que *BERT* Multilingue
et *CamemBERT* obtiennent des résultats encore meilleurs de peu aux méthodes
classiques d'[@=AA], offrant des performances très comparables avec 86% pour le
meilleur F1-score. Les résultats de *BERT* Multilingue et *CamemBERT* sont très
classiques d'[@=AA], offrant des performances très comparables avec 86% pour la
meilleure F-mesure. Les résultats de *BERT* Multilingue et *CamemBERT* sont très
proches pour ce qui est de la moyenne globale mais diffèrent un peu sur chaque
classe, en fonction de la taille d'échantillonnage.
La figure \ref{fig:F1Scores_BERTvsCAMEMBERT} montre les F1-scores obtenus pour
La figure \ref{fig:F1Scores_BERTvsCAMEMBERT} montre les F-mesures obtenus pour
*BERT* Multilingue (courbe bleue) et *CamemBERT* (courbe orange) pour chacune
des classes (les courbes grises correspondent aux autres méthodes). Les classes
sont triées de gauche à droite par ordre de prévalence dans l'échantillon
...
...
@@ -319,24 +319,24 @@ correctement la majorité des classes et ses performances ne chutent
dramatiquement que sur les classes avec moins de 200 articles dans toute
l'*EDdA* (de *Mesure* à *Spectacle*).
{#fig:F1Scores_NB_TF width=80%}
{#fig:F1Scores_NB_TF width=80%}
Parmi les méthodes traditionnelles d'[@=AA], la vectorisation *TF-IDF* obtient
quasi-systématiquement de meilleurs résultats que les *BoW* et *Doc2Vec*. Cela
reste vrai aussi bien sur les F1-scores globaux que sur les performances
reste vrai aussi bien sur les F-mesures globales que sur les performances
obtenues sur chaque classe. La figure \ref{fig:F1Scores_SGD} montre ainsi les
scores obtenus par le classifieur *SGD* sur chacune des classes avec les trois
différentes vectorisations testées et dans chaque cas sans échantillonnage. Les
résultats sont très voisins mais le modèle *TF-IDF* (courbe orange) est
légèrement au-dessus pour la plupart des classes.
{#fig:F1Scores_SGD width=80%}
{#fig:F1Scores_SGD width=80%}
Le tableau \ref{tab:res_per_class} et la figure \ref{fig:res_per_class}
présentent les différences de résultats obtenus en termes de F1-score sur le jeu
présentent les différences de résultats obtenus en termes de F-mesure sur le jeu
de test (sans échantillonnage) pour toutes les classes (triées par le nombre
d'articles dans chacune) pour (1) *SGD+TF-IDF*, (2) *BiLSTM+FastText* et (3)
*BERT* Multilingue. *BERT* obtient un F1-score supérieur à 70% sur 31 des 38
*BERT* Multilingue. *BERT* obtient une F-mesure supérieure à 70% sur 31 des 38
classes au total que comporte le jeu des domaines regroupés (pour *SGD+TF-IDF*
25 classes, et *BiLSTM+FastText* seulement 19). Les performances du modèle *BERT*
sont inférieures à 50% pour seulement 3 classes (5 avec *SGD+TF-IDF* et 10 avec
...
...
@@ -393,13 +393,13 @@ Musique 137 0.87 0.83 0.88 Spectacle
: F1-scores par classe obtenus sur le jeu de test par les combinaisons *SGD +
: F-mesures par classe obtenues sur le jeu de test par les combinaisons *SGD +
TF-IDF* (1), *BiLSTM + FastText* (2) et *BERT* Multilingue (3).
\label{tab:res_per_class}
:::
{#fig:res_per_class width=80%}
{#fig:res_per_class width=80%}
Au-delà de l'importance du nombre d'articles par classes, ces résultats
soulignent la difficulté à distinguer entre certaines classes pour des raisons