J'ai 17 variables numériques et 5 variables binaires (0-1), avec 73 échantillons dans mon jeu de données. J'ai besoin d'exécuter une analyse de cluster. Je sais que la distance de Gower est une bonne métrique pour les ensembles de données avec des variables mixtes. Cependant, je ne pouvais pas comprendre comment la distance de Gower calcule la différence entre les variables binaires . Il me semble que ce n'est pas différent de la distance euclidienne.
clustering
distance
mixed-type-data
Emrah Bilgiç
la source
la source
Gower
? stats.stackexchange.com/a/15313/3277Réponses:
Que diriez-vous des attributs binaires qui ont les valeurs "m" et "f", pour "mâle" et "femelle"?
Vous vous rendez compte que pour une variable dicotomique, tout ce que vous pouvez en tirer est "identique" ou "différent"? La différence de point clé entre les distances n'est pas si la valeur est 1 ou 0; mais comment plusieurs variables sont combinées.
la source
Gower distance utilise Manhattan pour calculer la distance entre les points de données continus et Dice pour calculer la distance entre les points de données catégoriels
la source