Comment interpréter le dendrogramme d'une analyse de cluster hiérarchique

25

Considérez l'exemple R ci-dessous:

plot( hclust(dist(USArrests), "ave") )
  1. Que signifie exactement l'axe Y "Hauteur"?

  2. En regardant la Caroline du Nord et la Californie (plutôt à gauche). La Californie est-elle "plus proche" de la Caroline du Nord que l'Arizona? Puis-je faire cette interprétation?

  3. Hawaii (à droite) rejoint le cluster assez tard. Je peux le voir car il est «plus élevé» que les autres États. En général, comment puis-je interpréter correctement le fait que les étiquettes sont "supérieures" ou "inférieures" dans le dendrogramme?

entrez la description de l'image ici

Ric
la source
1
Réponses ?hclust.
Scortchi - Réintégrer Monica
3
Les positions des étiquettes n'ont aucune signification. Si vous ne comprenez pas l'axe des y, il est étrange que vous ayez l'impression de bien comprendre le regroupement hiérarchique.
Stéphane Laurent
1
Veuillez également noter que le clustering hiérarchique ne vous donne généralement pas de classification hiérarchique (arborescente) . La méthode moyenne (que vous avez utilisée) ne le fait pas, en particulier. Voir le dernier point ici .
ttnphns
1
La position d'une étiquette a cependant un peu de sens. Plus la position est élevée, plus l'objet est lié à d'autres par la suite, et donc plus comme s'il s'agissait d'une valeur aberrante ou errante.
ttnphns
3
@ StéphaneLaurent Tu as raison que cela sonne comme une contradiction. D'un côté, je pense toujours pouvoir interpréter un dendogramme de données que je connais bien. De plus, la position des lables a un peu de sens comme le soulignent ttnphns et Peter Flom. Enfin, votre commentaire n'a pas été constructif pour moi.
Ric

Réponses:

17

1) L'axe des y est une mesure de la proximité des points de données individuels ou des grappes.

2) La Californie et l'Arizona sont également éloignés de la Floride car CA et AZ sont dans un cluster avant que l'un ou l'autre ne rejoigne FL.

3) Hawaï se joint assez tard; à environ 50. Cela signifie que le cluster qu'il rejoint est plus proche avant HI se joint. Mais pas beaucoup plus près. Notez que le cluster auquel il rejoint (celui tout à droite) ne se forme qu'environ 45. Le fait que HI rejoigne un cluster plus tard que tout autre état signifie simplement que (en utilisant la métrique que vous avez sélectionnée) HI n'est pas si proche de tout état particulier.

Peter Flom - Réintégrer Monica
la source
Ainsi, la «hauteur» me donne une idée de la valeur du critère de lien (comme ici ) - dans mon cas, la distance moyenne des clusters les uns par rapport aux autres. Est-ce correct? Merci!
Ric
L'axe des Y n'est-il pas une mesure de la dis- similitude entre les clusters et les points? C'est-à-dire négatif la proximité, car c'est le plus grand quand les choses sont les plus dissemblables, et non l'inverse @PeterFlom
Felipe Almeida
21

J'avais les mêmes questions lorsque j'ai essayé d'apprendre le clustering hiérarchique et j'ai trouvé le pdf suivant très utile.

http://www.econ.upf.edu/~michael/stanford/maeb7.pdf

Même si Richard est déjà clair sur la procédure, ceux qui parcourent la question peuvent probablement utiliser le pdf, son esp très simple et clair pour ceux qui n'ont pas assez de fond en mathématiques.

Srmsbrmnm
la source
3
Je veux juste réitérer que le pdf lié est très bon.
Heisenberg
Référence: Klimberg, Ronald K. et BD McCullough. 2013. «Chapter 7: Hierarchical Cluster Analysis». In Fundamentals of Predictive Analytics with JMP. Cary, NC: SAS Institute.
jay.sf
1

L'axe horizontal représente les grappes. L'échelle verticale sur le dendrogramme représente la distance ou la dissimilarité. Chaque jonction (fusion) de deux grappes est représentée sur le diagramme par la division d'une ligne verticale en deux lignes verticales. La position verticale de la scission, indiquée par une barre courte donne la distance (dissimilarité) entre les deux grappes.

Babaasa
la source