Quelle est l'intuition derrière la métrique de variation de l'information (VI) pour la validation de cluster?

11

Pour les non-statisticiens comme moi, il est très difficile de saisir l'idée de VImétrique (variation des informations) même après avoir lu l'article pertinent de Marina Melia " Comparing clusterings - An information based distance " (Journal of Multivariate Analysis, 2007). En fait, je ne connais pas la plupart des termes des regroupements.

Vous trouverez ci-dessous un MWE et j'aimerais savoir ce que signifie la sortie dans les différentes métriques utilisées. J'ai ces deux clusters en R et dans le même ordre d'id:

> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")

Nous faisons maintenant des comparaisons basées sur les VImétriques / indices ainsi que sur d'autres et dans l'ordre chronologique de leur apparition dans la littérature.

library(igraph)
  # Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi")) 
[1] 0.8673525
  # Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi")) 
[1] 0.2451685
  # Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence") 
[1] 0.8800522
  # van Dongen S metric 2000:
compare(a, b, method = c("split.join")) 
[1] 8
  # Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand")) 
[1] 0.8750403
  # Rand Index 1971:
compare(a, b, method = c("rand")) 
[1] 0.9374788

Comme vous pouvez le voir, la VIvaleur était différente de toutes les autres.

  • Que dit cette valeur (et comment est-elle liée à la figure ci-dessous)?
  • Quelles sont les lignes directrices pour considérer cette valeur basse ou élevée?
  • Y a-t-il des directives définies?

Peut-être que des experts dans le domaine peuvent fournir des descriptions sensées à des profanes comme moi lorsqu'ils essaient de rendre compte de tels résultats. J'apprécierais vraiment que quelqu'un fournisse également des lignes directrices pour d'autres mesures (quand considérer la valeur est grande ou petite, c'est-à-dire par rapport à une similitude entre deux grappes).

J'ai lu des fils de CV connexes ici et ici , mais je ne pouvais toujours pas saisir l'intuition derrière VI. Quelqu'un peut-il expliquer cela en anglais simple?

La figure ci-dessous est la figure 2 de l'article mentionné ci-dessus VI.

entrez la description de l'image ici

doctorat
la source
2
Toutes ces similitudes et mesures (notez la différence entre les deux types) mesurent d'une manière ou d'une autre la quantité de fragmentation associée au plus grand sous-cluster commun entre les deux partitions. Ils utilisent tous ce que l'on appelle la matrice de confusion. En considérant la formule précise pour VI, on peut comprendre qu'elle mesure cette fragmentation. Je suggérerais de regarder la formule dans l'une des publications de Meila, et aussi de lire sur les versions normalisées de toutes ces distances, car elles ont toutes des échelles différentes. C'est peut-être le point le plus important.
micans
Je me débattais également avec l'interprétation du VI et j'ai trouvé cet article très utile!
Pizza du

Réponses:

1

Vous devez comprendre que les mesures peuvent avoir une interprétation différente.

À en juger par votre intrigue, un VI faible est bon.

1 - 0.2451685 = 0.7548315

ce qui est beaucoup plus conforme aux autres mesures.

Cependant, notez que la plupart de ces mesures mesurent quelque chose de différent .

Il n'y a aucune raison de supposer que, simplement parce qu'une mesure est de 0,8, une autre devrait également être de 0,8

A QUIT - Anony-Mousse
la source
Je pense que le PO apprécierait si vous pouviez expliquer quelle chose différente chacun mesure.
gung - Rétablir Monica
Je ne les connais pas assez bien pour expliquer chacun d'eux. Il est tout simplement clair que le n'ont pas une échelle / unité comparable. Tout comme les volts et les pieds ne sont pas comparables.
A QUIT - Anony-Mousse