Comparaison des regroupements: indice Rand vs variation de l'information

21

Je me demandais si quelqu'un avait une idée ou une intuition derrière la différence entre la variation de l'information et l' indice Rand pour comparer les regroupements.

J'ai lu l'article « Comparing Clusterings - An Information Based Distance » de Marina Melia (Journal of Multivariate Analysis, 2007), mais, à part remarquer la différence dans les définitions, je ne comprends pas ce que signifie la variation de l'information capture que l'index rand ne capture pas.

Amelio Vazquez-Reina
la source

Réponses:

8

La différence entre les deux méthodes est subtile. La meilleure façon d'y penser est de considérer le réseau défini par l'opération de fusion-fractionnement sur les clusters. Ces deux mesures peuvent être reconstruites en définissant une fonction sur un clustering, puis en définissant la distance entre deux clusterings par la formule:F

(C,C)=F(C)+F(C)-2F(CC)
où est la jointure des deux grappes du réseau.CC

Soit maintenant C={C1,C2,,Ck} et laissez nje=|Cje|. Fixer F(C)=nje2 donne l'indice rand, et fixer F(C)=njeJournalnje donne VI.

Suresh Venkatasubramanian
la source
Merci Suresh! Savez-vous si (et comment) la différence dans ces formules explique pourquoi l'indice rand et la variation des informations pénalisent la cohérence (dans quelle mesure l'un des regroupements est un sous-regroupement de l'autre) entre les regroupements différemment? (selon micans'answer)
Amelio Vazquez-Reina
2
Comme le souligne micans, l'indice Rand a un comportement quadratique, il est donc plus sensible aux changements de confinement que la fonction d'entropie, qui est proche de la linéarité.
Suresh Venkatasubramanian
Désolé, mais je ne vois toujours pas comment le confinement affecte les termes quadratiques plus que d'autres types de divergences entre les regroupements. Pourriez-vous développer un peu plus ce point?
Amelio Vazquez-Reina
@ user023472 Bonjour user023472. Je suis intéressé par vos résultats, vous avez posé cette question il y a quelque temps, semble-t-il. Avez-vous appris à quoi correspond vraiment la différence entre les deux méthodes? Merci.
Creatron
14

À mon avis, il y a d'énormes différences. L'indice Rand est très affecté par la granularité des clusters sur lesquels il opère. Dans ce qui suit, j'utiliserai la distance de Mirkin, qui est une forme ajustée de l'indice Rand (facile à voir, mais voir par exemple Meila). J'utiliserai également la distance de séparation / jointure, qui est également mentionnée dans certains articles de Meila (avertissement: la distance de séparation / jointure a été proposée par moi). Supposons un univers de cent éléments. Je vais utiliser Top pour désigner le clustering avec un seul cluster contenant tous les éléments, Bottom pour désigner le clustering où tous les nœuds sont dans des ensembles singleton séparés, Left pour désigner le clustering {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} , et Right pour désigner le regroupement {{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}}.

À mon avis, Bottom et Top sont des clusters cohérents (imbriqués), tandis que Left et Right sont des clusters en conflit maximal. Les distances par rapport aux métriques mentionnées pour ces deux comparaisons par paires sont les suivantes:

               Top-Bottom     Left-Right 

Mirkin            9900          1800
VI                4.605         4.605
Split/join        99            180

Il s'ensuit que Mirkin / Rand considère la paire haut-bas cohérente beaucoup plus éloignée que la paire gauche-droite en conflit maximal. C'est un exemple extrême pour illustrer ce point, mais Mirkin / Rand sont en général très affectés par la granularité des clusters sur lesquels il opère. La raison sous-jacente est une relation quadratique entre cette métrique et les tailles de cluster, expliquée par le fait que le comptage des paires de nœuds est impliqué. En effet, la distance de Mirkin est une distance de Hamming entre des ensembles de bords d'unions de graphes complets induits par des regroupements (c'est la réponse à votre question, je pense).

En ce qui concerne les différences entre la variation des informations et la division / jointure, la première est plus sensible à certaines situations de conflit comme l'a démontré Meila. C'est-à-dire que Split / Join ne considère que la meilleure correspondance pour chaque cluster et ignore la fragmentation qui peut se produire sur la partie restante de ce cluster, tandis que la variation des informations la récupérera. Cela dit, Split / Join est facilement interprétable comme le nombre de nœuds qui doivent être déplacés pour obtenir un cluster de l'autre , et en ce sens, sa plage est plus facile à comprendre; dans la pratique, le problème de la fragmentation n'est peut-être pas aussi courant.

Chacune de ces métriques peut être formée comme la somme de deux distances, à savoir les distances de chacun des deux regroupements à leur plus grand sous-cluster commun. Je pense qu'il est souvent avantageux de travailler avec ces parties distinctes plutôt que simplement leur somme. Le tableau ci-dessus devient alors:

               Top-Bottom     Left-Right 

Mirkin          0,9900          900,900
VI              0,4.605       2.303,2.303
Split/join      0,99             90,90

La relation de subsomption entre le haut et le bas devient immédiatement claire. Il est souvent très utile de savoir si deux grappes sont cohérentes (c'est-à-dire que l'une est (presque) une sous-grappe de l'autre) pour détendre la question de savoir si elles sont proches . Un regroupement peut être assez éloigné d'un étalon-or, mais toujours cohérent ou presque cohérent. Dans un tel cas, il ne peut y avoir aucune raison de considérer le clustering mauvais par rapport à cet étalon-or. Bien sûr, les regroupements triviaux Top et Bottom seront cohérents avec tout clustering, donc cela doit être pris en compte.

Enfin, je crois que des métriques telles que Mirkin, Variation of Information et Split / Join sont les outils naturels pour comparer les clusters. Pour la plupart des applications, les méthodes qui tentent d'incorporer l'indépendance statistique et de corriger le hasard sont trop artificielles et obscurcies plutôt que clarifiées.

Deuxième exemple Considérons les paires de regroupements suivantes: C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} avec C2 = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}

et C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} avec {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}

Ici, C2 peut être formé à partir de C1 en déplaçant les nœuds 9 et 10 et C3 peut être formé à partir de C3 en déplaçant les nœuds 11 et 12. Les deux changements sont identiques ("déplacer deux nœuds") sauf pour le fait que les tailles des grappes impliquées diffèrent . Le tableau des métriques de clustering pour ces deux exemples est le suivant:

            C1-C2         C3-C4

Mirkin       56            40 
VI            0.594         0.520
Split/Join    4             4

On peut voir que Mirkin / Rand et la variation des informations sont affectées par les tailles de cluster (et Mirkin dans une plus large mesure; cela sera plus prononcé lorsque les tailles de cluster divergent), tandis que la distance Split / Join n'est pas (sa valeur est 4 car il "déplace" les nœuds d'un cluster à l'autre via toujours le plus grand sous-cluster commun). Cela peut être un trait souhaitable selon les circonstances. L'interprétation simple de Split / Join (nombre de nœuds à déplacer) et son indépendance de la taille du cluster méritent d'être connues. Entre Mirkin et la variation de l'information, je pense que cette dernière est très préférable.

micans
la source
Merci micans, c'est très perspicace. Je ne suis pas sûr d'avoir compris le deuxième tableau. Pourquoi y a-t-il deux nombres séparés par une virgule pour chaque entrée du tableau? De plus, savez-vous comment cet argument se rapporte à celui de @ Suresh?
Amelio Vazquez-Reina
1
Si A et B sont des regroupements, alors d (A, B) peut être divisé en d (A, B) = d (A, X) + d (B, X) où X est le plus grand regroupement qui est un sous-regroupement de tous les deux. Dans la notation de Suresh, nous avons que d (A, B) = f (A) + f (B) -2f (X). Cela peut être réécrit comme f (A) + f (X) -2f (X) + f (B) + f (X) -2f (X) = d (A, X) + d (B, X). Ci-dessus, j'ai écrit les deux composants d (A, X) et d (B, X) séparés par des virgules. La plus grande différence entre les deux est de loin les caractéristiques quadratiques de Mirkin / Rand. Si vous regardez les exemples Haut / Bas et Gauche / Droite, la distance Haut-Bas est énorme; cela est entièrement dû à la taille de Top.
micans