Update

6827bb95 · lmoncla · a0d132bb · 6827bb95 · 6827bb95 · 6827bb95
Commit 6827bb95 authored 4 years ago by lmoncla
--- a/experimentsClassicClassifiers.py
+++ b/experimentsClassicClassifiers.py
@@ -13,6 +13,11 @@ from evaluate_model import evaluate_model
 from sklearn.model_selection import GridSearchCV
 import configparser

+import nltk
+nltk.download('stopwords')
+nltk.download('punkt')
+
+

 parser = argparse.ArgumentParser()
 parser.add_argument("dataPath", help="Path of the dataframe")
@@ -77,6 +82,8 @@ doc2vec_lr = float(config.get('vectorizers','doc2vec_lr'))

 for columnInput in [columnText, 'firstParagraph']:

+    print('Process: ' + columnInput)
+
    extractor = feature_extractor(df,columnText, columnClass)
    #extractor_paragraphe = feature_extractor(df,'paragraphe', columnClass)


--- a/requirements.txt
+++ b/requirements.txt
+pandas
+matplotlib
+seaborn
 beautifulsoup4
 lxml
 Unidecode

--- a/script.txt
+++ b/script.txt
-mkdir -p reports/domaine_enccre
-mkdir -p reports/ensemble_domaine_enccre
-mkdir -p reports/normClass_artfl
 pip install -r requirements.txt
 python tmp_preprocess_data.py 
-python experimentsClassicClassifiers.py data/EDdA_dataframe_withContent.tsv contentWithoutClass ensemble_domaine_enccre 300 1500
-python experimentsClassicClassifiers.py data/EDdA_dataframe_withContent.tsv contentWithoutClass ensemble_domaine_enccre 50 1500 
-python experimentsClassicClassifiers.py data/EDdA_dataframe_withContent.tsv contentWithoutClass ensemble_domaine_enccre 50 800     
-python experimentsClassicClassifiers.py data/EDdA_dataframe_withContent.tsv contentWithoutClass ensemble_domaine_enccre 100 1500   
-python experimentsClassicClassifiers.py data/EDdA_dataframe_withContent.tsv contentWithoutClass domaine_enccre 300 1500
-python experimentsClassicClassifiers.py data/EDdA_dataframe_withContent.tsv contentWithoutClass domaine_enccre 50 1500
-python experimentsClassicClassifiers.py data/EDdA_dataframe_withContent.tsv contentWithoutClass domaine_enccre 300 500            
-python experimentsClassicClassifiers.py data/EDdA_dataframe_withContent.tsv contentWithoutClass normClass_artfl 300 1500
-python experimentsClassicClassifiers.py data/EDdA_dataframe_withContent.tsv contentWithoutClass normClass_artfl 50 2000
-python experimentsClassicClassifiers.py data/EDdA_dataframe_withContent.tsv contentWithoutClass normClass_artfl 50 500
+python experimentsClassicClassifiers.py data/dataframe_with_ensemble_domaine_enccre.csv contentWithoutClass ensemble_domaine_enccre 300 1500
+python experimentsClassicClassifiers.py data/dataframe_with_ensemble_domaine_enccre.csv contentWithoutClass ensemble_domaine_enccre 50 1500 
+python experimentsClassicClassifiers.py data/dataframe_with_ensemble_domaine_enccre.csv contentWithoutClass ensemble_domaine_enccre 50 800     
+python experimentsClassicClassifiers.py data/dataframe_with_ensemble_domaine_enccre.csv contentWithoutClass ensemble_domaine_enccre 100 1500   
+python experimentsClassicClassifiers.py data/dataframe_with_domaine_enccre.csv contentWithoutClass domaine_enccre 300 1500
+python experimentsClassicClassifiers.py data/dataframe_with_domaine_enccre.csv contentWithoutClass domaine_enccre 50 1500
+python experimentsClassicClassifiers.py data/dataframe_with_domaine_enccre.csv contentWithoutClass domaine_enccre 300 500            
+python experimentsClassicClassifiers.py data/dataframe_with_normClass.csv contentWithoutClass normClass 300 1500
+python experimentsClassicClassifiers.py data/dataframe_with_normClass.csv contentWithoutClass normClass 50 2000
+python experimentsClassicClassifiers.py data/dataframe_with_normClass.csv contentWithoutClass normClass 50 500