Skip to content
Snippets Groups Projects
Commit da560344 authored by lmoncla's avatar lmoncla
Browse files

Update README.md

parent 72150483
No related branches found
No related tags found
No related merge requests found
......@@ -24,6 +24,58 @@ Nos expérimentations concernent l’étude de différentes approches de clas
### F-mesures moyennes des différents modèles pour les jeux de validation et de test avec un échantillonnage max de 500 (1) et 1 500 (2) articles par classe et sans échantillonnage (3).
| Classifieur | Vectorisation | | Test | |
| ------------------------------- | ------------- | ---- | ---- | ---- |
| | | (1) | (2) | (3) |
| Naive Bayes | Bag of Words | 0.72 | 0.68 | 0.61 |
| | TF-IDF | 0.74 | 0.59 | 0.37 |
| Logistic Regression | Bag of Words | 0.85 | 0.85 | 0.86 |
| | TF-IDF | 0.88 | 0.88 | 0.88 |
| | Doc2Vec | 0.39 | 0.39 | 0.44 |
| Random Forest | Bag of Words | 0.50 | 0.49 | 0.17 |
| | TF-IDF | 0.48 | 0.48 | 0.16 |
| | Doc2Vec | 0.28 | 0.29 | 0.37 |
| SGD | Bag of Words | 0.85 | 0.86 | 0.86 |
| | TF-IDF | 0.88 | 0.88 | 0.88 |
| | Doc2Vec | 0.43 | 0.42 | 0.44 |
| SVM | Bag of Words | 0.85 | 0.85 | 0.86 |
| | TF-IDF | 0.86 | 0.86 | 0.87 |
| | Doc2Vec | 0.32 | 0.32 | 0.43 |
| CNN | FastText | 0.04 | 0.05 | 0.09 |
| LSTM | FastText | 0.10 | 0.10 | 0.12 |
| BERT Multilingual (fine-tuning) | - | 0.84 | 0.88 | 0.89 |
| CamemBERT (fine-tuning) | - | 0.82 | 0.86 | 0.88 |
### F-mesures obtenues par ensemble de domaines avec les approches SGD + TF-IDF (1), LSTM + FastText (2) et BERT (3) sans échantillonnage et sur le jeu de test.
| Ensemble de domaines | Support | (1) | (2) | (3) | Ensemble de domaines | Support | (1) | (2) | (3) |
| ----------------------- | ------- | ---- | ---- | ---- | -------------------- | ------- | ---- | ---- | ---- |
| Géographie | 2 870 | 0.98 | 0.22 | 0.99 | Arts et métiers | 132 | 0.45 | 0.00 | 0.51 |
| Droit - Jurisprudence | 1 452 | 0.92 | 0.39 | 0.94 | Blason | 126 | 0.93 | 0.00 | 0.93 |
| Métiers | 1 220 | 0.87 | 0.07 | 0.89 | Chasse | 124 | 0.92 | 0.01 | 0.92 |
| Histoire naturelle | 1 130 | 0.92 | 0.06 | 0.95 | Maréchage [\ldots] | 118 | 0.90 | 0.00 | 0.88 |
| Histoire | 726 | 0.76 | 0.08 | 0.80 | Chimie | 115 | 0.75 | 0.02 | 0.72 |
| Grammaire | 575 | 0.77 | 0.08 | 0.81 | Philosophie | 115 | 0.75 | 0.01 | 0.69 |
| Médecine [\ldots] | 535 | 0.87 | 0.07 | 0.87 | Beaux-arts | 103 | 0.86 | 0.00 | 0.84 |
| Marine | 454 | 0.93 | 0.03 | 0.94 | Monnaie | 74 | 0.81 | 0.00 | 0.79 |
| Commerce | 437 | 0.85 | 0.04 | 0.85 | Pharmacie | 75 | 0.65 | 0.00 | 0.58 |
| Religion | 389 | 0.89 | 0.02 | 0.90 | Jeu | 67 | 0.85 | 0.00 | 0.87 |
| Architecture | 326 | 0.88 | 0.01 | 0.88 | Pêche | 48 | 0.93 | 0.00 | 0.90 |
| Antiquité | 321 | 0.80 | 0.01 | 0.82 | Mesure | 43 | 0.65 | 0.00 | 0.74 |
| Physique | 309 | 0.85 | 0.04 | 0.86 | Economie domestique | 31 | 0.75 | 0.00 | 0.58 |
| Militaire [\ldots] | 304 | 0.92 | 0.01 | 0.92 | Médailles | 28 | 0.84 | 0.00 | 0.79 |
| Agriculture [\ldots] | 259 | 0.80 | 0.04 | 0.80 | Caractères | 27 | 0.67 | 0.00 | 0.51 |
| Belles-lettres - Poésie | 246 | 0.75 | 0.01 | 0.74 | Politique | 27 | 0.31 | 0.00 | 0.00 |
| Anatomie | 245 | 0.92 | 0.02 | 0.91 | Minéralogie | 26 | 0.68 | 0.00 | 0.65 |
| Mathématiques | 164 | 0.88 | 0.00 | 0.89 | Superstition | 26 | 0.81 | 0.00 | 0.73 |
| Musique | 163 | 0.94 | 0.01 | 0.94 | Spectacle | 11 | 0.17 | 0.00 | 0.00 |
## Citation
Moncla, L., Chabane, K., et Brenon, A. (2022). Classification automatique d’articles encyclopédiques. *Conférence francophone sur l’Extraction et la Gestion des Connaissances (EGC)*. Blois, France.
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment