Cela dépend de vos données. Et en fait, cela n'a rien à voir avec le clustering hiérarchique, mais avec les fonctions de distance elles-mêmes.
Le problème est lorsque vous avez des attributs mixtes .
Disons que vous avez des données sur les personnes. Poids en grammes et pointure. Les tailles de chaussures diffèrent très peu, tandis que les différences de masse corporelle (en grammes) sont beaucoup plus importantes. Vous pouvez trouver des dizaines d'exemples. Vous ne pouvez tout simplement pas comparer 1 g et 1 différence de pointure. En fait, dans cet exemple, vous calculez quelque chose qui aurait l' unité physique de !g⋅ pointure---------√
Habituellement, dans ces cas, la distance euclidienne n'a tout simplement pas de sens. Mais cela peut toujours fonctionner, dans de nombreuses situations si vous normalisez vos données. Même si cela n'a pas de sens, c'est une bonne heuristique pour les situations où vous n'avez pas de fonction de distance "prouvée correcte", comme la distance euclidienne dans le monde physique à l'échelle humaine.
Si vous ne standardisez pas vos données, les variables mesurées en unités de grande valeur domineront la dissimilarité calculée et les variables mesurées en unités de petite valeur contribueront très peu.
Nous pouvons visualiser cela dans R via:
dist1
contient les distances euclidiennes pour les 100 observations basées sur les trois variables tandis quedist2
contient la distance euclidienne basée survar1
seul.Notez à quel point les distributions des distances sont similaires, indiquant une faible contribution de
var2
etvar3
, et les distances réelles sont très similaires:Si nous standardisons les données
puis il y a un grand changement dans les distances basées uniquement sur
var1
et celles basées sur les trois variables:Comme le clustering hiérarchique utilise ces distances, le fait qu'il soit souhaitable de standardiser ou non dépendra du type de données / variables que vous avez et si vous voulez que les grandes choses dominent les distances et donc dominent la formation du clustering. La réponse à cela est spécifique au domaine et spécifique à l'ensemble de données.
la source
Anony-Mousse a donné une excellente réponse . J'ajouterais simplement que la métrique de distance qui a du sens dépendrait de la forme des distributions multivariées. Pour la gaussienne multivariée, la distance de Mahalanobis est la mesure appropriée.
la source