From da560344e5121fd8b9aaeb6b85242af46ee64be5 Mon Sep 17 00:00:00 2001 From: lmoncla <moncla.ludovic@gmail.com> Date: Thu, 20 Jan 2022 10:30:54 +0100 Subject: [PATCH] Update README.md --- README.md | 52 ++++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 52 insertions(+) diff --git a/README.md b/README.md index 154d277..4545687 100644 --- a/README.md +++ b/README.md @@ -24,6 +24,58 @@ Nos expeÌrimentations concernent l’eÌtude de diffeÌrentes approches de clas + + +### F-mesures moyennes des différents modèles pour les jeux de validation et de test avec un échantillonnage max de 500 (1) et 1 500 (2) articles par classe et sans échantillonnage (3). + +| Classifieur | Vectorisation | | Test | | +| ------------------------------- | ------------- | ---- | ---- | ---- | +| | | (1) | (2) | (3) | +| Naive Bayes | Bag of Words | 0.72 | 0.68 | 0.61 | +| | TF-IDF | 0.74 | 0.59 | 0.37 | +| Logistic Regression | Bag of Words | 0.85 | 0.85 | 0.86 | +| | TF-IDF | 0.88 | 0.88 | 0.88 | +| | Doc2Vec | 0.39 | 0.39 | 0.44 | +| Random Forest | Bag of Words | 0.50 | 0.49 | 0.17 | +| | TF-IDF | 0.48 | 0.48 | 0.16 | +| | Doc2Vec | 0.28 | 0.29 | 0.37 | +| SGD | Bag of Words | 0.85 | 0.86 | 0.86 | +| | TF-IDF | 0.88 | 0.88 | 0.88 | +| | Doc2Vec | 0.43 | 0.42 | 0.44 | +| SVM | Bag of Words | 0.85 | 0.85 | 0.86 | +| | TF-IDF | 0.86 | 0.86 | 0.87 | +| | Doc2Vec | 0.32 | 0.32 | 0.43 | +| CNN | FastText | 0.04 | 0.05 | 0.09 | +| LSTM | FastText | 0.10 | 0.10 | 0.12 | +| BERT Multilingual (fine-tuning) | - | 0.84 | 0.88 | 0.89 | +| CamemBERT (fine-tuning) | - | 0.82 | 0.86 | 0.88 | + +### F-mesures obtenues par ensemble de domaines avec les approches SGD + TF-IDF (1), LSTM + FastText (2) et BERT (3) sans échantillonnage et sur le jeu de test. + +| Ensemble de domaines | Support | (1) | (2) | (3) | Ensemble de domaines | Support | (1) | (2) | (3) | +| ----------------------- | ------- | ---- | ---- | ---- | -------------------- | ------- | ---- | ---- | ---- | +| Géographie | 2 870 | 0.98 | 0.22 | 0.99 | Arts et métiers | 132 | 0.45 | 0.00 | 0.51 | +| Droit - Jurisprudence | 1 452 | 0.92 | 0.39 | 0.94 | Blason | 126 | 0.93 | 0.00 | 0.93 | +| Métiers | 1 220 | 0.87 | 0.07 | 0.89 | Chasse | 124 | 0.92 | 0.01 | 0.92 | +| Histoire naturelle | 1 130 | 0.92 | 0.06 | 0.95 | Maréchage [\ldots] | 118 | 0.90 | 0.00 | 0.88 | +| Histoire | 726 | 0.76 | 0.08 | 0.80 | Chimie | 115 | 0.75 | 0.02 | 0.72 | +| Grammaire | 575 | 0.77 | 0.08 | 0.81 | Philosophie | 115 | 0.75 | 0.01 | 0.69 | +| Médecine [\ldots] | 535 | 0.87 | 0.07 | 0.87 | Beaux-arts | 103 | 0.86 | 0.00 | 0.84 | +| Marine | 454 | 0.93 | 0.03 | 0.94 | Monnaie | 74 | 0.81 | 0.00 | 0.79 | +| Commerce | 437 | 0.85 | 0.04 | 0.85 | Pharmacie | 75 | 0.65 | 0.00 | 0.58 | +| Religion | 389 | 0.89 | 0.02 | 0.90 | Jeu | 67 | 0.85 | 0.00 | 0.87 | +| Architecture | 326 | 0.88 | 0.01 | 0.88 | Pêche | 48 | 0.93 | 0.00 | 0.90 | +| Antiquité | 321 | 0.80 | 0.01 | 0.82 | Mesure | 43 | 0.65 | 0.00 | 0.74 | +| Physique | 309 | 0.85 | 0.04 | 0.86 | Economie domestique | 31 | 0.75 | 0.00 | 0.58 | +| Militaire [\ldots] | 304 | 0.92 | 0.01 | 0.92 | Médailles | 28 | 0.84 | 0.00 | 0.79 | +| Agriculture [\ldots] | 259 | 0.80 | 0.04 | 0.80 | Caractères | 27 | 0.67 | 0.00 | 0.51 | +| Belles-lettres - Poésie | 246 | 0.75 | 0.01 | 0.74 | Politique | 27 | 0.31 | 0.00 | 0.00 | +| Anatomie | 245 | 0.92 | 0.02 | 0.91 | Minéralogie | 26 | 0.68 | 0.00 | 0.65 | +| Mathématiques | 164 | 0.88 | 0.00 | 0.89 | Superstition | 26 | 0.81 | 0.00 | 0.73 | +| Musique | 163 | 0.94 | 0.01 | 0.94 | Spectacle | 11 | 0.17 | 0.00 | 0.00 | + + + ## Citation Moncla, L., Chabane, K., et Brenon, A. (2022). Classification automatique d’articles encyclopédiques. *Conférence francophone sur l’Extraction et la Gestion des Connaissances (EGC)*. Blois, France. -- GitLab