Je voudrais regrouper hiérarchiquement mes données, mais plutôt que d'utiliser la distance euclidienne, je voudrais utiliser la corrélation. De plus, comme le coefficient de corrélation varie de -1 à 1, -1 et 1 désignant la «corégulation» dans mon étude, je traite à la fois -1 et 1 comme d = 0. Mon calcul est donc d = 1 - | r |
J'ai lu dans une question distincte (concernant le clustering k-means), que vous devriez convertir r en vrai euclidien d en utilisant le théorème du cosinus:
Quelle est la façon la plus précise de convertir la corrélation en distance pour le clustering hiérarchique?
Réponses:
Conditions requises pour le clustering hiérarchique
Le regroupement hiérarchique peut être utilisé avec des mesures arbitraires de similitude et de dissimilarité. (La plupart des outils s'attendent à une dissimilarité, mais permettront des valeurs négatives - c'est à vous de vous assurer que les petites ou les grandes valeurs seront préférées.).
Seules les méthodes basées sur les centroïdes ou la variance (comme la méthode de Ward) sont spéciales et doivent être utilisées avec des Euclidiennes au carré. (Pour comprendre pourquoi, veuillez étudier attentivement ces liens.)
La liaison simple, la liaison moyenne, la liaison complète ne sont pas beaucoup affectées, ce sera toujours le minimum / la moyenne / le maximum des dissemblances par paire.
Corrélation comme mesure de distance
Si vous prétraitez vos données (n observations, p entités) de telle sorte que chaque entité ait μ=0 et σ=1 (ce qui interdit les entités constantes!), Alors la corrélation se réduit en cosinus:
Dans les mêmes conditions, la distance euclidienne au carré se réduit également en cosinus:
Par conséquent, à moins que vos données ne soient dégénérées, l'utilisation de la corrélation pour le clustering hiérarchique devrait être acceptable. Il suffit de le prétraiter comme expliqué ci-dessus, puis d'utiliser la distance euclidienne au carré.
la source
Only ward's method is special, and should be used with squared Euclidean
. Pas seulement celui de Ward. Toute méthode de calcul des centroïdes ou des écarts par rapport aux centroïdes aura besoin d'une distance euclidienne ou euclidienne au carré (selon l'implémentation), pour des raisons de précision géométrique. Avec une telle perte et l'avertissement dû, ils pourraient être utilisés avec d'autres distances métriques. Ces méthodes sont centroïdes, «médianes», de Ward, variance (à ne pas confondre avec celles de Ward!) Et quelques autres.