From d2bcec955ffba66cbec18151bf6e0885fbc7b77c Mon Sep 17 00:00:00 2001
From: Schneider Leo <leo.schneider@etu.ec-lyon.fr>
Date: Wed, 22 Jan 2025 15:02:22 +0100
Subject: [PATCH] dataset

---
 data/data_processing.py | 18 +++++++++---------
 1 file changed, 9 insertions(+), 9 deletions(-)

diff --git a/data/data_processing.py b/data/data_processing.py
index 97d3ebf..9f7fd3e 100644
--- a/data/data_processing.py
+++ b/data/data_processing.py
@@ -156,16 +156,16 @@ def numerical_to_alphabetical_str(s):
 if __name__ == '__main__':
     # main()
 
-    df_base = pd.read_csv('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/data/data_PXD006109/plasma_train/data_aligned_train_plasma.csv')
+    df_base = pd.read_csv('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/data/data_PXD006109/e_coli/data_aligned_train_coli.csv')
     df_base = df_base[['sequence', 'irt_scaled','state']]
     t = [0.05,0.1,0.2,0.3,0.4,0.5,0.7,1,10]
     #reste 07 1 et all
     name = ['005','01','02','03','04','05','07','1','all']
-    df_0 = pd.read_csv('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/output/out_plasma_aligned_train_0.csv')
-    df_1 = pd.read_csv('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/output/out_plasma_aligned_train_1.csv')
-    df_2 = pd.read_csv('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/output/out_plasma_aligned_train_2.csv')
-    df_3 = pd.read_csv('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/output/out_plasma_aligned_train_3.csv')
-    df_4 = pd.read_csv('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/output/out_plasma_aligned_train_4.csv')
+    df_0 = pd.read_csv('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/output/out_coli_aligned_train_0.csv')
+    df_1 = pd.read_csv('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/output/out_coli_aligned_train_1.csv')
+    df_2 = pd.read_csv('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/output/out_coli_aligned_train_2.csv')
+    df_3 = pd.read_csv('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/output/out_coli_aligned_train_3.csv')
+    df_4 = pd.read_csv('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/output/out_coli_aligned_train_4.csv')
 
     list_df = [df_0, df_1, df_2, df_3, df_4]
     for i in range(len(name)):
@@ -173,12 +173,12 @@ if __name__ == '__main__':
         print('thresold {} en cours'.format(name[i]))
         #
         df = select_best_data(list_df, t[i])
-        df.to_pickle('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/data/data_PXD006109/plasma_train/data_ISA_additionnal_{}.pkl'.format(name[i]))
-        df = pd.read_pickle('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/data/data_PXD006109/plasma_train/data_ISA_additionnal_{}.pkl'.format(name[i]))
+        df.to_pickle('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/data/data_PXD006109/e_coli/data_ISA_additionnal_{}.pkl'.format(name[i]))
+        df = pd.read_pickle('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/data/data_PXD006109/e_coli/data_ISA_additionnal_{}.pkl'.format(name[i]))
         df['state'] = 'train'
         df['sequence'] = df['sequence'].map(numerical_to_alphabetical_str)
         df_augmented_1 = pd.concat([df, df_base], axis=0).reset_index(drop=True)
         df_augmented_1.columns = ['sequence', 'irt_scaled','state']
 
-        df_augmented_1.to_csv('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/data/data_PXD006109/plasma_train/plasma_data_augmented_{}.csv'.format(name[i]), index=False)
+        df_augmented_1.to_csv('/lustre/fswork/projects/rech/bun/ucg81ws/these/dia-augmentation/data/data_PXD006109/e_coli/plasma_data_augmented_{}.csv'.format(name[i]), index=False)
         print(df_augmented_1.shape)
\ No newline at end of file
-- 
GitLab