Comment visualiser ce que fait l'analyse de corrélation canonique (par rapport à l'analyse de composante principale)?

70

L'analyse canonique de corrélation (CCA) est une technique liée à l'analyse en composantes principales (ACP). Bien qu'il soit facile d'enseigner l'ACP ou la régression linéaire à l'aide d'un nuage de points (voir quelques milliers d'exemples sur la recherche d'images dans Google), je n'ai pas vu un exemple intuitif similaire à deux dimensions pour l'ACC. Comment expliquer visuellement ce que fait l'ACC linéaire?

figure
la source
1
De quelle manière la CCA généralise-t-elle la PCA? Je ne dirais pas que c'est sa généralisation. PCA fonctionne avec un ensemble de variables, CCA avec deux (ou plusieurs implémentations modernes), ce qui constitue une différence majeure.
ttnphns
2
Eh bien, à proprement parler, les relations pourraient être un meilleur choix de mot. Quoi qu'il en soit, PCA fonctionne sur une matrice de covariance et CCA sur une matrice de covariance croisée. Si vous ne possédez qu'un jeu de données, le calcul de ses covariances croisées par rapport à lui-même revient au cas le plus simple (PCA).
figure
4
Eh bien, oui, "apparenté", c'est mieux. La DPA prend en compte à la fois les covariances inter et les covariances croisées.
ttnphns
1
Certains ont suggéré de visualiser les corrélations canoniques à l'aide d'héliographes. Vous voudrez peut-être lire le document ti.arc.nasa.gov/m/profile/adegani/Composite_Heliographs.pdf

Réponses:

97

Eh bien, je pense qu'il est vraiment difficile de présenter une explication visuelle de l' analyse de corrélation canonique (CCA) par rapport à l' analyse en composantes principales ou la régression linéaire . Les deux derniers sont souvent expliqués et comparés au moyen d'un nuage de points de données 2D ou 3D, mais je doute que cela soit possible avec l'ACC. Ci-dessous, j'ai dessiné des images qui pourraient expliquer l'essence et les différences entre les trois procédures, mais même avec ces images - qui sont des représentations vectorielles dans "l'espace sujet" - la capture adéquate de l'ACC pose des problèmes. (Pour l'algèbre / algorithme d'analyse de corrélation canonique, regardez ici .)

Dessiner des individus en tant que points dans un espace où les axes sont des variables, un diagramme de dispersion habituel, est un espace variable . Si vous dessinez le chemin inverse - des variables sous forme de points et des individus sous forme d'axes - vous obtiendrez un espace de sujet . Dessiner les nombreux axes est en fait inutile car l'espace a le nombre de dimensions non redondantes égal au nombre de variables non colinéaires. Les points variables sont liés à l'origine et les vecteurs de forme, les flèches, couvrant l'espace sujet; alors nous voici ( voir aussi ). Dans un espace de sujet, si les variables ont été centrées, le cosinus de l'angle entre leurs vecteurs est la corrélation de Pearson entre elles, et les longueurs des vecteurs au carré sont leurs variances.. Sur les images ci-dessous, les variables affichées sont centrées (pas besoin de constante).

Composants principaux

entrez la description de l'image ici

X1X2P1P2P1P2P1abbb12/(|P1||X2|)a

Régression multiple

entrez la description de l'image ici

YX1X2YYYXeYYYbbb2/|X2|

Corrélation canonique

En ACP, un ensemble de variables se prédisent elles-mêmes: elles modélisent les composants principaux, qui ensuite les modélisent, vous ne laissez pas l’espace des prédicteurs et (si vous utilisez tous les composants) la prédiction est sans erreur. Dans la régression multiple, un ensemble de variables permet de prédire une variable étrangère et génère donc une erreur de prédiction. En DPA, la situation est similaire à celle de la régression, mais (1) les variables externes sont multiples et forment un ensemble distinct; (2) les deux ensembles se prédisent simultanément (d'où la corrélation plutôt que la régression); (3) ce qu'ils prédisent l'un avec l'autre est plutôt un extrait, une variable latente, que le prédictand observé d'une régression ( voir aussi ).

entrez la description de l'image ici

Y1Y2XYVxVyYYYVxVyVyVxϕXYX1 X2Y1 Y2Vx(2)VxVy(2)Vy

Pour la différence entre la régression CCA et PCA +, voir aussi Faire une CCA ou construire une variable dépendante avec PCA, puis une régression .

tnphns
la source
3
+1 (d'il y a des jours). J'espère vraiment que vous vous retrouverez avec plus de 6 votes positifs pour cela; c'est un très bon aperçu du fonctionnement de l'ACC.
Gay - Rétablir Monica
2
Cela m'aide beaucoup à comprendre l'ACC.
Zhenglei
@Glen_b, j'ai été pris de court, tellement heureux que vous ayez décidé de récompenser cette réponse.
ttnphns
1
@ttnphns, superbe. Même si je n’ai pas tout compris, c’est de loin la meilleure explication de la DPA que j’ai rencontrée. Et je pense qu'il est vraiment important de visualiser ce qui se passe, car je sais que je me souviendrai de quelque chose si je peux le visualiser, par opposition aux méandres de différents théorèmes.
Christian
P1X1X2
2

Pour moi, il était très utile de lire dans le livre de S. Mulaik, "The Foundations of Factoranalysis" (1972), qu'il existe une méthode purement de rotation d'une matrice de chargements de facteurs pour aboutir à une corrélation canonique. cela dans cet ensemble de concepts que j’avais déjà compris jusqu’à présent de l’analyse en composantes principales et l’analyse factorielle.

Vous êtes peut-être intéressé par cet exemple (que j'ai reconstruit à partir d'une première mise en œuvre / discussion d'environ 1998 il y a quelques jours à peine pour vérifier et revérifier la méthode par rapport au calcul effectué par SPSS). Voir ici . J'utilise ma petite matrice / pca-tools Inside-[R]et Matmatepour cela, mais je pense qu'elle peut être reconstruite Rsans trop d'effort.

Gottfried Helms
la source
2

Cette réponse ne constitue pas une aide visuelle pour la compréhension de la DPA, mais une bonne interprétation géométrique de la DPA est présentée au chapitre 12 d’Anderson-1958 [1]. L'essentiel est le suivant:

Nx1,x2,...,xNpXp×NxiXp(N1)p1p2x1,...,xp1p2xp1+1,...,xp

Je trouve cette perspective intéressante pour ces raisons:

  • Il fournit une interprétation géométrique intéressante concernant les entrées de variables canoniques de CCA.
  • Les coefficients de corrélation sont liés à l'angle entre les deux projections CCA.
  • p1Np2N(N1)N

p1p2

(N1)Nmean(xi)=0

[1] Anderson, TW Introduction à l'analyse statistique multivariée. Vol. 2. New York: Wiley, 1958.

idnavid
la source
1
Pouvez-vous ajouter des images de ce livre pour visualiser la réponse?
Les
Malheureusement, le livre ne contient pas d'images pour ce chapitre (en fait, je ne pense pas qu'il y ait de chiffres dans tout le livre).
idnavide
@ttnphns J'ai passé du temps l'autre jour et ai mis en place un petit exemple pour illustrer ce point. Merci pour la suggestion!
idnavid
1

La meilleure façon d'enseigner les statistiques est d'utiliser des données. Les techniques statistiques multivariées sont souvent très compliquées avec des matrices peu intuitives. Je voudrais expliquer CCA en utilisant Excel. Créez deux échantillons, ajoutez de nouvelles variables (colonnes essentiellement) et affichez le calcul. Et en ce qui concerne la construction matricielle de l'ACC, le meilleur moyen est d'enseigner d'abord avec un cas à deux variables, puis de l'étendre.

S Chapman
la source