Considérez l'exemple R ci-dessous:
plot( hclust(dist(USArrests), "ave") )
Que signifie exactement l'axe Y "Hauteur"?
En regardant la Caroline du Nord et la Californie (plutôt à gauche). La Californie est-elle "plus proche" de la Caroline du Nord que l'Arizona? Puis-je faire cette interprétation?
Hawaii (à droite) rejoint le cluster assez tard. Je peux le voir car il est «plus élevé» que les autres États. En général, comment puis-je interpréter correctement le fait que les étiquettes sont "supérieures" ou "inférieures" dans le dendrogramme?
?hclust
.Réponses:
1) L'axe des y est une mesure de la proximité des points de données individuels ou des grappes.
2) La Californie et l'Arizona sont également éloignés de la Floride car CA et AZ sont dans un cluster avant que l'un ou l'autre ne rejoigne FL.
3) Hawaï se joint assez tard; à environ 50. Cela signifie que le cluster qu'il rejoint est plus proche avant HI se joint. Mais pas beaucoup plus près. Notez que le cluster auquel il rejoint (celui tout à droite) ne se forme qu'environ 45. Le fait que HI rejoigne un cluster plus tard que tout autre état signifie simplement que (en utilisant la métrique que vous avez sélectionnée) HI n'est pas si proche de tout état particulier.
la source
J'avais les mêmes questions lorsque j'ai essayé d'apprendre le clustering hiérarchique et j'ai trouvé le pdf suivant très utile.
http://www.econ.upf.edu/~michael/stanford/maeb7.pdf
Même si Richard est déjà clair sur la procédure, ceux qui parcourent la question peuvent probablement utiliser le pdf, son esp très simple et clair pour ceux qui n'ont pas assez de fond en mathématiques.
la source
L'axe horizontal représente les grappes. L'échelle verticale sur le dendrogramme représente la distance ou la dissimilarité. Chaque jonction (fusion) de deux grappes est représentée sur le diagramme par la division d'une ligne verticale en deux lignes verticales. La position verticale de la scission, indiquée par une barre courte donne la distance (dissimilarité) entre les deux grappes.
la source