From 73942bcf0b4934bf0660c02157eef408de070efe Mon Sep 17 00:00:00 2001 From: lmoncla <moncla.ludovic@gmail.com> Date: Thu, 6 Jan 2022 11:00:13 +0100 Subject: [PATCH] Update README.md --- README.md | 34 ++++++++++++++++++---------------- 1 file changed, 18 insertions(+), 16 deletions(-) diff --git a/README.md b/README.md index b216c09..31b0438 100644 --- a/README.md +++ b/README.md @@ -1,33 +1,35 @@ +# Classification automatique d'articles encyclopédiques -This repository is proposed by **Khaled Chabane**, **Ludovic Moncla** and **Alice Brenon** as part of the GEODE project. +Ce dépôt est proposé par **Khaled Chabane**, **Ludovic Moncla** et **Alice Brenon** dans le cadre du [Projet GEODE](https://geode-project.github.io/). +Il contient le code développé pour l'article "*Classification automatique d'articles encyclopédiques*" ([https://hal.archives-ouvertes.fr/hal-03481219v1](https://hal.archives-ouvertes.fr/hal-03481219v1)) présenté lors de la conférence [EGC 2022](https://egc2022.univ-tours.fr/). +## Présentation -# Install dependencies +Ce dépôt contient le code développée pour une eÌtude comparative de diffeÌrentes approches de classification superviseÌe appliqueÌes aÌ€ la classification automatique d’articles encyclopeÌdiques. Notre corpus d’apprentissage est constitueÌ des 17 volumes de texte de l’EncyclopeÌdie de Diderot et d’Alembert (1751-1772) repreÌsentant un total d’environ 70 000 articles. Nous avons expeÌrimenteÌ diffeÌrentes approches de vectorisation de textes (sac de mots et plongement de mots) combineÌes aÌ€ des meÌthodes d’apprentissage automatique classiques, d’apprentissage profond et des architectures BERT. En plus de la comparaison de ces diffeÌrentes approches, notre objectif est d’identifier de manieÌ€re automatique les domaines des articles non classeÌs de l’EncyclopeÌdie (environ 2 400 articles). - pip3 install -r requirements.txt +## Méthodes testées - python -m spacy dowload fr_core_news_sm +Nos expeÌrimentations concernent l’eÌtude de diffeÌrentes approches de classification com- prenant deux eÌtapes principales : la vectorisation et la classification superviseÌe. Nous avons testeÌ et compareÌ les diffeÌrentes combinaisons suivantes : +1. vectorisation en sac de mots et apprentissage automatique classique (Naive Bayes, Lo- gistic regression, Random Forest, SVM et SGD) ; +2. vectorisationenplongementdemotsstatiques(Doc2Vec)etapprentissageautomatique classique (Logistic regression, Random Forest, SVM et SGD) ; +3. vectorisationenplongementdemotsstatiques(FastText)etapprentissageprofond(CNN et LSTM) ; +4. approche*end-to-end*utilisantunmodeÌ€ledelanguepreÌ-entraiÌ‚neÌ(BERT,CamemBERT) et une technique de *fine-tuning* pour adapter le modeÌ€le sur notre taÌ‚che de classification. -# Get Started -To run the script for preparing data use the following command : +## Résultats - python tmp_preprocess_data.py -In order to run the classifiers, use the following command : - python experimentsClassicClassifiers.py <dataset_tsv_file> <content_column_name> <labels_column_name> <min_sample_per_class> <max_sample_per_class> -In order to run Classification with pre-trained models, use the following command : +## Citation - - cd experiments/ - - python bert_experiments.py <model_Name> <classifier> +Moncla, L., Chabane, K., et Brenon, A. (2022). Classification automatique d’articles encyclopédiques. *Conférence francophone sur l’Extraction et la Gestion des Connaissances (EGC)*. Blois, France. -# Acknowledgment -The authors are grateful to the ASLAN project (ANR-10-LABX-0081) of the Université de Lyon, for its financial support within the French program "Investments for the Future" operated by the National Research Agency (ANR). + +## Remerciements + +Les auteurs remercient le [LABEX ASLAN](https://aslan.universite-lyon.fr/) (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme français "Investissements d'Avenir" géré par l'Agence Nationale de la Recherche (ANR). -- GitLab