J'essaie d'évaluer les performances de clustering. Je lisais la documentation skiscit-learn sur les métriques . Je ne comprends pas la différence entre ARI et AMI. Il me semble qu'ils font la même chose de deux manières différentes.
Citant de la documentation:
Compte tenu de la connaissance des affectations de classe de vérité au sol labels_true et de nos affectations d'algorithme de clustering des mêmes échantillons labels_pred, l' indice Rand ajusté est une fonction qui mesure la similitude des deux affectations, en ignorant les permutations et avec une normalisation fortuite.
contre
Compte tenu de la connaissance des affectations de classe de vérité au sol labels_true et de nos affectations d'algorithme de clustering des mêmes échantillons labels_pred, les informations mutuelles sont une fonction qui mesure l'accord des deux affectations, en ignorant les permutations ... AMI a été proposé plus récemment et est normalisé par rapport à chance.
Dois-je les utiliser tous les deux dans mon évaluation de clustering ou cela serait-il redondant?
la source
Réponses:
Ils sont deux sur une douzaine qui essaient tous de comparer les regroupements.
Mais ils ne sont pas équivalents. Ils utilisent une théorie différente.
Parfois, l'ARI peut préférer un résultat et l'AMI un autre. Mais souvent, ils sont d'accord de préférence (pas dans les chiffres).
la source
La règle d'or est la suivante:
J'ai travaillé sur ce sujet. Référence: ajustement pour les mesures de comparaison de regroupement aléatoire
la source