Sur la corrélation cophénétique pour le regroupement des dendrogrammes

10

Considérez le contexte d'un regroupement de dendrogrammes. Appelons dissemblances originales les distances entre les individus. Après avoir construit le dendrogramme, nous définissons la dissimilarité cophénétique entre deux individus comme la distance entre les grappes auxquelles ces individus appartiennent.

Certaines personnes considèrent que la corrélation entre les dissemblances originales et les dissemblances cophénétiques (appelées corrélation cophénétique ) est un "indice d'adéquation" de la classification. Cela me semble totalement déroutant. Mon objection ne repose pas sur le choix particulier de la corrélation de Pearson, mais sur l'idée générale que tout lien entre les dissemblances originales et les dissemblances cophénétiques pourrait être lié à l'adéquation de la classification.

Êtes-vous d'accord avec moi ou pourriez-vous présenter un argument en faveur de l'utilisation de la corrélation cophénétique comme indice d'adéquation pour la classification des dendrogrammes?

Stéphane Laurent
la source
Vous n'expliquez pas votre objection au (assez intuitif) general idea that any link between the original dissimilarities and the cophenetic dissimilarities could be related to the suitability of the classification. La classification doit refléter les différences d'origine. La caractéristique de base de la classification dendrogrammique pour ce faire est via la dissimilarité cophénétique. Y a-t-il quelque chose. faux?
ttnphns
1
Soit dit en passant, il ne faut pas mélanger le concept de regroupement hiérarchique (agglomératif) avec la classification hiérarchique (dendrogrammique) . Le clustering produit son dendrogramme sous forme de rapport de processus ; il ne prétend pas qu'il s'agit d' un résultat de classification hiérarchique .
ttnphns
1
La corrélation cophénétique a été proposée pour les classifications "dogmatiques" uniquement - où la classification devrait refléter des dissimilarités par paires, d'où la notion d'utilité de la corrélation (cophénétique) qui suit de manière immé diate.
ttnphns
2
Vous voudrez peut-être lire cet article sur la corrélation
cophénétique
3
@ StéphaneLaurent Je n'ai rien à apporter comme réponse à votre question mais j'ai lu la boîte de dialogue. Rien de ce que vous avez dit ne m'a paru offensant. Vous avez également dit que vous ne connaissiez pas la différence entre la classification et le regroupement et je n'ai pas vu la réponse à cette simple question. C'est la différence entre ce que les gens qui apprennent par machine appellent apprentissage supervisé et non supervisé. Dans la classification, vous connaissez toutes les étiquettes de classe pour vos données et utilisez ces informations pour construire une règle de classification pour les cas futurs qui n'ont pas d'étiquettes. Dans le cluster, vous n'avez pas d'étiquetage.
Michael R. Chernick

Réponses:

2

... est un "indice d'adéquation" de la classification

Pour moi, ce n'est pas très clair ce que cela signifie. La façon dont je l'ai eu, c'est que

la corrélation entre les dissimilarités originales et les dissimilarités cophénétiques (appelées corrélation cophénétique)

est une mesure de la structure hiérarchique entre les observations , c'est-à-dire leurs distances. C'est-à-dire que les différences entre les observations d'un groupe différent sont de préférence similaires. Compte tenu des ensembles de données A et B regroupés en utilisant la distance euclidienne et une liaison complète ... entrez la description de l'image ici ... même sans regarder la carte des distances cophénétiques ou calculer la corrélation cophénétique, on peut voir que la corrélation cophénétique de A est supérieure à celle de B Dans une hiérarchie, il y a des niveaux. Ainsi, le CC indique si les distances aux observations au même niveau (cluster) sont similaires.

Par souci d'exhaustivité: les corrélations cophénétiques sont CC (A) = 0,936 et CC (B) = 0,691


la source
1
J'aurais aimé être plus expert à ce sujet. Je ne suis pas tout à fait votre exemple avec les heatmaps. Qu'est-ce que vous voyez qui rend évident le CC (A)> le CC (B)? Par exemple, si les triangles supérieurs étaient des distances cophénétiques et les triangles inférieurs étaient des distances originales, et les deux affichaient des modèles similaires, alors je reconnaîtrais que le CC serait élevé, etc. W / ceux-ci, je ne sais pas comment faire une telle inférence . Est-ce juste que A donnera naturellement lieu à un meilleur clustering et que le CC résultant devra donc bien correspondre?
gung - Réintégrer Monica