Je me demandais si quelqu'un avait une idée ou une intuition derrière la différence entre la variation de l'information et l' indice Rand pour comparer les regroupements.
J'ai lu l'article « Comparing Clusterings - An Information Based Distance » de Marina Melia (Journal of Multivariate Analysis, 2007), mais, à part remarquer la différence dans les définitions, je ne comprends pas ce que signifie la variation de l'information capture que l'index rand ne capture pas.
la source
À mon avis, il y a d'énormes différences. L'indice Rand est très affecté par la granularité des clusters sur lesquels il opère. Dans ce qui suit, j'utiliserai la distance de Mirkin, qui est une forme ajustée de l'indice Rand (facile à voir, mais voir par exemple Meila). J'utiliserai également la distance de séparation / jointure, qui est également mentionnée dans certains articles de Meila (avertissement: la distance de séparation / jointure a été proposée par moi). Supposons un univers de cent éléments. Je vais utiliser Top pour désigner le clustering avec un seul cluster contenant tous les éléments, Bottom pour désigner le clustering où tous les nœuds sont dans des ensembles singleton séparés, Left pour désigner le clustering {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} , et Right pour désigner le regroupement {{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}}.
À mon avis, Bottom et Top sont des clusters cohérents (imbriqués), tandis que Left et Right sont des clusters en conflit maximal. Les distances par rapport aux métriques mentionnées pour ces deux comparaisons par paires sont les suivantes:
Il s'ensuit que Mirkin / Rand considère la paire haut-bas cohérente beaucoup plus éloignée que la paire gauche-droite en conflit maximal. C'est un exemple extrême pour illustrer ce point, mais Mirkin / Rand sont en général très affectés par la granularité des clusters sur lesquels il opère. La raison sous-jacente est une relation quadratique entre cette métrique et les tailles de cluster, expliquée par le fait que le comptage des paires de nœuds est impliqué. En effet, la distance de Mirkin est une distance de Hamming entre des ensembles de bords d'unions de graphes complets induits par des regroupements (c'est la réponse à votre question, je pense).
En ce qui concerne les différences entre la variation des informations et la division / jointure, la première est plus sensible à certaines situations de conflit comme l'a démontré Meila. C'est-à-dire que Split / Join ne considère que la meilleure correspondance pour chaque cluster et ignore la fragmentation qui peut se produire sur la partie restante de ce cluster, tandis que la variation des informations la récupérera. Cela dit, Split / Join est facilement interprétable comme le nombre de nœuds qui doivent être déplacés pour obtenir un cluster de l'autre , et en ce sens, sa plage est plus facile à comprendre; dans la pratique, le problème de la fragmentation n'est peut-être pas aussi courant.
Chacune de ces métriques peut être formée comme la somme de deux distances, à savoir les distances de chacun des deux regroupements à leur plus grand sous-cluster commun. Je pense qu'il est souvent avantageux de travailler avec ces parties distinctes plutôt que simplement leur somme. Le tableau ci-dessus devient alors:
La relation de subsomption entre le haut et le bas devient immédiatement claire. Il est souvent très utile de savoir si deux grappes sont cohérentes (c'est-à-dire que l'une est (presque) une sous-grappe de l'autre) pour détendre la question de savoir si elles sont proches . Un regroupement peut être assez éloigné d'un étalon-or, mais toujours cohérent ou presque cohérent. Dans un tel cas, il ne peut y avoir aucune raison de considérer le clustering mauvais par rapport à cet étalon-or. Bien sûr, les regroupements triviaux Top et Bottom seront cohérents avec tout clustering, donc cela doit être pris en compte.
Enfin, je crois que des métriques telles que Mirkin, Variation of Information et Split / Join sont les outils naturels pour comparer les clusters. Pour la plupart des applications, les méthodes qui tentent d'incorporer l'indépendance statistique et de corriger le hasard sont trop artificielles et obscurcies plutôt que clarifiées.
Deuxième exemple Considérons les paires de regroupements suivantes: C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} avec C2 = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}
et C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} avec {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}
Ici, C2 peut être formé à partir de C1 en déplaçant les nœuds 9 et 10 et C3 peut être formé à partir de C3 en déplaçant les nœuds 11 et 12. Les deux changements sont identiques ("déplacer deux nœuds") sauf pour le fait que les tailles des grappes impliquées diffèrent . Le tableau des métriques de clustering pour ces deux exemples est le suivant:
On peut voir que Mirkin / Rand et la variation des informations sont affectées par les tailles de cluster (et Mirkin dans une plus large mesure; cela sera plus prononcé lorsque les tailles de cluster divergent), tandis que la distance Split / Join n'est pas (sa valeur est 4 car il "déplace" les nœuds d'un cluster à l'autre via toujours le plus grand sous-cluster commun). Cela peut être un trait souhaitable selon les circonstances. L'interprétation simple de Split / Join (nombre de nœuds à déplacer) et son indépendance de la taille du cluster méritent d'être connues. Entre Mirkin et la variation de l'information, je pense que cette dernière est très préférable.
la source