Considérez le contexte d'un regroupement de dendrogrammes. Appelons dissemblances originales les distances entre les individus. Après avoir construit le dendrogramme, nous définissons la dissimilarité cophénétique entre deux individus comme la distance entre les grappes auxquelles ces individus appartiennent.
Certaines personnes considèrent que la corrélation entre les dissemblances originales et les dissemblances cophénétiques (appelées corrélation cophénétique ) est un "indice d'adéquation" de la classification. Cela me semble totalement déroutant. Mon objection ne repose pas sur le choix particulier de la corrélation de Pearson, mais sur l'idée générale que tout lien entre les dissemblances originales et les dissemblances cophénétiques pourrait être lié à l'adéquation de la classification.
Êtes-vous d'accord avec moi ou pourriez-vous présenter un argument en faveur de l'utilisation de la corrélation cophénétique comme indice d'adéquation pour la classification des dendrogrammes?
la source
general idea that any link between the original dissimilarities and the cophenetic dissimilarities could be related to the suitability of the classification
. La classification doit refléter les différences d'origine. La caractéristique de base de la classification dendrogrammique pour ce faire est via la dissimilarité cophénétique. Y a-t-il quelque chose. faux?Réponses:
Pour moi, ce n'est pas très clair ce que cela signifie. La façon dont je l'ai eu, c'est que
est une mesure de la structure hiérarchique entre les observations , c'est-à-dire leurs distances. C'est-à-dire que les différences entre les observations d'un groupe différent sont de préférence similaires. Compte tenu des ensembles de données A et B regroupés en utilisant la distance euclidienne et une liaison complète ... ... même sans regarder la carte des distances cophénétiques ou calculer la corrélation cophénétique, on peut voir que la corrélation cophénétique de A est supérieure à celle de B Dans une hiérarchie, il y a des niveaux. Ainsi, le CC indique si les distances aux observations au même niveau (cluster) sont similaires.
Par souci d'exhaustivité: les corrélations cophénétiques sont CC (A) = 0,936 et CC (B) = 0,691
la source