En lisant Wikipédia sur l'analyse de corrélation canonique (CCA) pour deux vecteurs aléatoires et Y , je me demandais si l'anslysis du composant principal (PCA) est le même que le CCA lorsque X = Y ?
9
En lisant Wikipédia sur l'analyse de corrélation canonique (CCA) pour deux vecteurs aléatoires et Y , je me demandais si l'anslysis du composant principal (PCA) est le même que le CCA lorsque X = Y ?
vectors X and Y
S'agit-il de deux variables (colonnes de données) ou de deux cas (lignes); étant donné que nous allons effectuer les analyses de variables. 2)X and Y are the same
Vouliez-vous dire que X = Y ou autrement?Réponses:
Soit soit et soit les matrices de données, représentant deux jeux de données avec échantillons ( par exemple les observations de vos vecteurs lignes aléatoires et ) dans chacun d'eux.n × p 1 Y n × p 2 n X YX n×p1 Y n×p2 n X Y
L'ACC recherche une combinaison linéaire de variables dans et une combinaison linéaire de variables dans telle sorte qu'elles soient corrélées au maximum entre elles; puis il recherche la paire suivante, sous une contrainte de corrélation nulle avec la première paire; etc. X p 2 Yp1 X p2 Y
Dans le cas (et ), toute combinaison linéaire dans un ensemble de données aura une corrélation triviale avec la même combinaison linéaire dans un autre ensemble de données. Ainsi, toutes les paires CCA auront des corrélations , et l'ordre des paires est arbitraire. La seule contrainte qui subsiste est que les combinaisons linéaires ne doivent pas être corrélées entre elles. Il existe un nombre infini de façons de choisir combinaisons linéaires non corrélées (notez que les poids n'ont pas à être orthogonaux dans l' espace dimensionnel) et aucune d'entre elles ne produira une solution CCA valide. Une telle manière est en effet donnée par PCA, car deux PC quelconques ont une corrélation nulle.p 1 = p 2 = p 1 1 p pX=Y p1=p2=p 1 1 p p
La solution PCA sera donc une solution CCA valide, mais il existe dans ce cas un nombre infini de solutions CCA équivalentes.
Mathématiquement, CCA recherche les vecteurs singuliers droit ( ) et gauche ( ) de , qui dans ce cas est égal à , tout vecteur étant un vecteur propre. Donc peut être arbitraire. L'ACC obtient alors les poids de combinaison linéaire comme et . Dans ce cas, cela revient à prendre une base arbitraire et à la transformer avec , ce qui produira effectivement des directions non corrélées .b C - 1 / 2 X X C X Y C - 1 / 2 Y Y I a = b C - 1 / 2 X X a C - 1 / 2 Y Y b C - 1 / 2 X Xa b C−1/2XXCXYC−1/2YY I a=b C−1/2XXa C−1/2YYb C−1/2XX
la source