diff --git a/README.md b/README.md index b216c0954d76a3a78dd664f1ac1b15bdd27d203e..31b043815d8e1a0c7239b51b529e0485c5efadbd 100644 --- a/README.md +++ b/README.md @@ -1,33 +1,35 @@ +# Classification automatique d'articles encyclopédiques -This repository is proposed by **Khaled Chabane**, **Ludovic Moncla** and **Alice Brenon** as part of the GEODE project. +Ce dépôt est proposé par **Khaled Chabane**, **Ludovic Moncla** et **Alice Brenon** dans le cadre du [Projet GEODE](https://geode-project.github.io/). +Il contient le code développé pour l'article "*Classification automatique d'articles encyclopédiques*" ([https://hal.archives-ouvertes.fr/hal-03481219v1](https://hal.archives-ouvertes.fr/hal-03481219v1)) présenté lors de la conférence [EGC 2022](https://egc2022.univ-tours.fr/). +## Présentation -# Install dependencies +Ce dépôt contient le code développée pour une eÌtude comparative de diffeÌrentes approches de classification superviseÌe appliqueÌes aÌ€ la classification automatique d’articles encyclopeÌdiques. Notre corpus d’apprentissage est constitueÌ des 17 volumes de texte de l’EncyclopeÌdie de Diderot et d’Alembert (1751-1772) repreÌsentant un total d’environ 70 000 articles. Nous avons expeÌrimenteÌ diffeÌrentes approches de vectorisation de textes (sac de mots et plongement de mots) combineÌes aÌ€ des meÌthodes d’apprentissage automatique classiques, d’apprentissage profond et des architectures BERT. En plus de la comparaison de ces diffeÌrentes approches, notre objectif est d’identifier de manieÌ€re automatique les domaines des articles non classeÌs de l’EncyclopeÌdie (environ 2 400 articles). - pip3 install -r requirements.txt +## Méthodes testées - python -m spacy dowload fr_core_news_sm +Nos expeÌrimentations concernent l’eÌtude de diffeÌrentes approches de classification com- prenant deux eÌtapes principales : la vectorisation et la classification superviseÌe. Nous avons testeÌ et compareÌ les diffeÌrentes combinaisons suivantes : +1. vectorisation en sac de mots et apprentissage automatique classique (Naive Bayes, Lo- gistic regression, Random Forest, SVM et SGD) ; +2. vectorisationenplongementdemotsstatiques(Doc2Vec)etapprentissageautomatique classique (Logistic regression, Random Forest, SVM et SGD) ; +3. vectorisationenplongementdemotsstatiques(FastText)etapprentissageprofond(CNN et LSTM) ; +4. approche*end-to-end*utilisantunmodeÌ€ledelanguepreÌ-entraiÌ‚neÌ(BERT,CamemBERT) et une technique de *fine-tuning* pour adapter le modeÌ€le sur notre taÌ‚che de classification. -# Get Started -To run the script for preparing data use the following command : +## Résultats - python tmp_preprocess_data.py -In order to run the classifiers, use the following command : - python experimentsClassicClassifiers.py <dataset_tsv_file> <content_column_name> <labels_column_name> <min_sample_per_class> <max_sample_per_class> -In order to run Classification with pre-trained models, use the following command : +## Citation - - cd experiments/ - - python bert_experiments.py <model_Name> <classifier> +Moncla, L., Chabane, K., et Brenon, A. (2022). Classification automatique d’articles encyclopédiques. *Conférence francophone sur l’Extraction et la Gestion des Connaissances (EGC)*. Blois, France. -# Acknowledgment -The authors are grateful to the ASLAN project (ANR-10-LABX-0081) of the Université de Lyon, for its financial support within the French program "Investments for the Future" operated by the National Research Agency (ANR). + +## Remerciements + +Les auteurs remercient le [LABEX ASLAN](https://aslan.universite-lyon.fr/) (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme français "Investissements d'Avenir" géré par l'Agence Nationale de la Recherche (ANR).