Utilisation de la corrélation comme mesure de distance (pour le clustering hiérarchique)

22

Je voudrais regrouper hiérarchiquement mes données, mais plutôt que d'utiliser la distance euclidienne, je voudrais utiliser la corrélation. De plus, comme le coefficient de corrélation varie de -1 à 1, -1 et 1 désignant la «corégulation» dans mon étude, je traite à la fois -1 et 1 comme d = 0. Mon calcul est donc d = 1 - | r | d=1|r|

J'ai lu dans une question distincte (concernant le clustering k-means), que vous devriez convertir r en vrai euclidien d en utilisant le théorème du cosinus: d=2(1r)

Quelle est la façon la plus précise de convertir la corrélation en distance pour le clustering hiérarchique?

Megatron
la source
3
Oui, l'une des manières possibles - et géométriquement vraies - est la dernière formule. Mais vous pouvez ignorer le signe de si cela a du sens pour vous, de sorte que . Dans la plupart des cas, vous pouvez supprimer toute sécurité sans affecter les résultats du clustering. La distance peut être traitée comme une euclidienne au carré . Dans ce fil, il a été discuté si les mesures de corrélation converties en distance sont des distances métriques. d 2 = 2 ( 1 - | r | ) 2rd2=2(1|r|)2
ttnphns
2
De plus, vous n'avez pas besoin de toujours convertir en une dissimilarité linéaire telle que la distance euclidienne. Il n'est pas rare que les gens fassent un cluster basé directement sur r ou | r | comme sur la similitude; c'est la similitude angulairerr|r|
ttnphns

Réponses:

21

Conditions requises pour le clustering hiérarchique

Le regroupement hiérarchique peut être utilisé avec des mesures arbitraires de similitude et de dissimilarité. (La plupart des outils s'attendent à une dissimilarité, mais permettront des valeurs négatives - c'est à vous de vous assurer que les petites ou les grandes valeurs seront préférées.).

Seules les méthodes basées sur les centroïdes ou la variance (comme la méthode de Ward) sont spéciales et doivent être utilisées avec des Euclidiennes au carré. (Pour comprendre pourquoi, veuillez étudier attentivement ces liens.)

La liaison simple, la liaison moyenne, la liaison complète ne sont pas beaucoup affectées, ce sera toujours le minimum / la moyenne / le maximum des dissemblances par paire.

Corrélation comme mesure de distance

Si vous prétraitez vos données ( n observations, p entités) de telle sorte que chaque entité ait μ=0 et σ=1 (ce qui interdit les entités constantes!), Alors la corrélation se réduit en cosinus:

Corr(X,Y)=Cov(X,Y)σXσY=E[(XμX)(YμY)]σXσY=E[XY]=1nX,Y

Dans les mêmes conditions, la distance euclidienne au carré se réduit également en cosinus:

dEuclid2(X,Y)=(XiYi)2=Xi2+Yi22XiYi=2n2X,Y=2n[1Corr(X,Y)]

Par conséquent, à moins que vos données ne soient dégénérées, l'utilisation de la corrélation pour le clustering hiérarchique devrait être acceptable. Il suffit de le prétraiter comme expliqué ci-dessus, puis d'utiliser la distance euclidienne au carré.

Anony-Mousse -Reinstate Monica
la source
1
Only ward's method is special, and should be used with squared Euclidean. Pas seulement celui de Ward. Toute méthode de calcul des centroïdes ou des écarts par rapport aux centroïdes aura besoin d'une distance euclidienne ou euclidienne au carré (selon l'implémentation), pour des raisons de précision géométrique. Avec une telle perte et l'avertissement dû, ils pourraient être utilisés avec d'autres distances métriques. Ces méthodes sont centroïdes, «médianes», de Ward, variance (à ne pas confondre avec celles de Ward!) Et quelques autres.
ttnphns
Merci, je l'ai dit plus clairement. Je n'étais pas au courant de ces variations, je ne pensais qu'à single / average / complete / ward.
Anony-Mousse -Reinstate Monica
1
Il y a beaucoup de fautes de frappe et d'expressions indéfinies dans ce post! Pourriez-vous, s'il vous plaît, l'examiner, le corriger et expliquer ce que sont les « » et ce à quoi « d i m » pourrait faire référence? ,dim
whuber