Mon idée de base était de tracer les courbes qui correspondent à la distribution des indicateurs dans le but de pouvoir les comparer.
Les indicateurs utilisés sont ceux de la liste de taille 10.
Pour chaque IRIS expertisé :
1. Récupérer ses indicateurs normalisés selon la liste de taille 10
2. Récupérer la valeur maximale pour les indicateurs normalisées parmi tout le jeu de données des IRIS expertisés
3. Tracer les points (i.e. les valeurs des indicateurs normalisés) dans un graphe et mettre la valeur maximale de l’axe y à la valeur maximale du jeu de données. Cela permet d’avoir des courbes visuellement sur la même échelle et donc de pouvoir les comparer équitablement
4. Relier les points entre eux.
Idées pour la similarité entre deux courbes :
Soit C1 et C2 les deux courbes à comparer. Chaque est composée de 10 indicateurs, classés dans le même ordre. Les deux courbes ont pour valeur maximale de l’ordonnée la velue m
**1ère idée** : calculer les différences entre les indicateurs uns à un et les cumuler pour calculer la dissimilarité.
Formule utilisée :
$$ dissimilarité = somme sur i de 1 à nb_points(abs(Yi1 - Yi2))/(max_value*nb_points) $$
Similarité = (1-dissimilarity) * 100
2ème idée : prendre en compte l’inclinaison des pentes pour augmenter le score de dissimilarité quand les points sont au même niveau mais que la courbe n’est pas ressemblante
Formule utilisée :
dissimilarité = somme sur i de 1 à nb_points (abs(Yi1 - Yi2) / max_value + facteur_dissim(Xi1, Yi1, Xi2, Yi2) ) / 2*nb_points
Mais cette formule ne convient pas si les courbes sont identiques mais placées à des niveaux différents.
Autre question que je me posais au niveau de la normalisation : est-ce que les valeurs normalisées ont un
Après avoir calculé les similarité, il fait regrouper les courbes "qui se ressemblent", i.e. celles qui ont une grande similarité.
Plusieurs verrous :
- avec un nombre élevé d'IRIS, va prendre pas mal de temps
-
Je n'ai pas encore trouvé de solution implémentable pour le moment. J'avais pensé à calculer les similarités deux à deux mais après je n'ai pas encore trouvé de moyens pour les regrouper.