Des questions:
J'ai une grande matrice de corrélation. Au lieu de regrouper les corrélations individuelles, je veux regrouper les variables en fonction de leurs corrélations l'une avec l'autre, c'est-à-dire si la variable A et la variable B ont des corrélations similaires aux variables C à Z, alors A et B doivent faire partie du même cluster. Un bon exemple concret de cela est les différentes classes d'actifs - les corrélations intra-classe d'actifs sont plus élevées que les corrélations inter-classes d'actifs.
J'envisage également de regrouper les variables en termes de relation étroite entre elles, par exemple lorsque la corrélation entre les variables A et B est proche de 0, elles agissent plus ou moins indépendamment. Si soudainement certaines conditions sous-jacentes changent et qu'une forte corrélation apparaît (positive ou négative), nous pouvons penser que ces deux variables appartiennent au même cluster. Ainsi, au lieu de chercher une corrélation positive, on chercherait une relation contre aucune relation. Je suppose qu'une analogie pourrait être un groupe de particules chargées positivement et négativement. Si la charge tombe à 0, la particule s'éloigne du groupe. Cependant, les charges positives et négatives attirent les particules vers des amas révélateurs.
Je m'excuse si certains de ces éléments ne sont pas très clairs. Veuillez me le faire savoir, je vais clarifier des détails spécifiques.
la source
Réponses:
Voici un exemple simple dans R utilisant l'
bfi
ensemble de données: bfi est un ensemble de données de 25 éléments de test de personnalité organisés autour de 5 facteurs.Une analyse de grappes hiearchical utilisant la distance euclidienne entre les variables basée sur la corrélation absolue entre les variables peut être obtenue comme suit:
Le dendrogramme montre comment les éléments se regroupent généralement avec d'autres éléments selon les groupes théorisés (par exemple, les éléments N (névrosisme) se regroupent). Il montre également comment certains éléments au sein des clusters sont plus similaires (par exemple, C5 et C1 peuvent être plus similaires que C5 avec C3). Cela suggère également que le cluster N est moins similaire aux autres clusters.
Vous pouvez également effectuer une analyse factorielle standard comme suit:
la source
Lors du regroupement des corrélations, il est important de ne pas calculer la distance deux fois. Lorsque vous prenez la matrice de corrélation, vous effectuez essentiellement un calcul de distance. Vous voudrez le convertir en une vraie distance en prenant 1 - la valeur absolue.
Lorsque vous allez convertir cette matrice en objet distance, si vous utilisez la fonction dist, vous prendrez les distances entre vos corrélations. Au lieu de cela, vous souhaitez utiliser la
as.dist()
fonction qui transformera simplement vos distances pré-calculées en un en un"dist"
objet.Application de cette méthode à l'exemple d'Alglim
entraîne un dendroggram différent
la source