L'ACC entre deux ensembles de données identiques est-elle équivalente à l'ACP sur cet ensemble de données?

9

En lisant Wikipédia sur l'analyse de corrélation canonique (CCA) pour deux vecteurs aléatoires et Y , je me demandais si l'anslysis du composant principal (PCA) est le même que le CCA lorsque X = Y ?XYX=Y

Tim
la source
Veuillez préciser: 1) vectors X and YS'agit-il de deux variables (colonnes de données) ou de deux cas (lignes); étant donné que nous allons effectuer les analyses de variables. 2) X and Y are the sameVouliez-vous dire que X = Y ou autrement?
ttnphns
@ttnphns: 1) X et Y sont deux vecteurs aléatoires. Ce sont deux vecteurs de variables aléatoires, deux ensembles de colonnes de données, et non deux cas (lignes). 2) X=Y .
Tim
Si chaque ensemble se compose d'une seule variable, il y a une corrélation canonique qui est exactement le r de Pearson entre eux; et CCA devient une régression linéaire de X par Y et vice versa. La décomposition de ce r au moyen de l'ACP est une autre histoire. PCA et CCA sont des analyses différentes.
ttnphns
Bonjour, @Tim, je me demande si ma réponse a été utile ou si vous avez peut-être encore d'autres questions? Si oui, je serais heureux de clarifier.
amibe
@amoeba: Oui, ça l'est. Je n'ai pas d'autres questions pour le moment et lirai votre réponse plus tard. Merci pour votre réponse. + 1
Tim

Réponses:

6

Soit soit et soit les matrices de données, représentant deux jeux de données avec échantillons ( par exemple les observations de vos vecteurs lignes aléatoires et ) dans chacun d'eux.n × p 1 Y n × p 2 n X YXn×p1Yn×p2nXY

L'ACC recherche une combinaison linéaire de variables dans et une combinaison linéaire de variables dans telle sorte qu'elles soient corrélées au maximum entre elles; puis il recherche la paire suivante, sous une contrainte de corrélation nulle avec la première paire; etc. X p 2 Yp1Xp2Y

Dans le cas (et ), toute combinaison linéaire dans un ensemble de données aura une corrélation triviale avec la même combinaison linéaire dans un autre ensemble de données. Ainsi, toutes les paires CCA auront des corrélations , et l'ordre des paires est arbitraire. La seule contrainte qui subsiste est que les combinaisons linéaires ne doivent pas être corrélées entre elles. Il existe un nombre infini de façons de choisir combinaisons linéaires non corrélées (notez que les poids n'ont pas à être orthogonaux dans l' espace dimensionnel) et aucune d'entre elles ne produira une solution CCA valide. Une telle manière est en effet donnée par PCA, car deux PC quelconques ont une corrélation nulle.p 1 = p 2 = p 1 1 p pX=Yp1=p2=p11pp

La solution PCA sera donc une solution CCA valide, mais il existe dans ce cas un nombre infini de solutions CCA équivalentes.


Mathématiquement, CCA recherche les vecteurs singuliers droit ( ) et gauche ( ) de , qui dans ce cas est égal à , tout vecteur étant un vecteur propre. Donc peut être arbitraire. L'ACC obtient alors les poids de combinaison linéaire comme et . Dans ce cas, cela revient à prendre une base arbitraire et à la transformer avec , ce qui produira effectivement des directions non corrélées .b C - 1 / 2 X X C X Y C - 1 / 2 Y Y I a = b C - 1 / 2 X X a C - 1 / 2 Y Y b C - 1 / 2 X XabCXX1/2CXYCYY1/2Ia=bCXX1/2aCYY1/2bCXX1/2

amibe
la source