C'est une bonne question, mais comme il apparaît que vous connaissez bien le PCA et le CCA, vous pouvez donc y répondre vous-même. Et vous faites:
[CCA] construit les variantes canoniques pour ne pas aveuglément [par rapport à l'existence de X] maximiser la variance expliquée [en Y], mais déjà dans le but final de maximiser la corrélation avec X à l'esprit.
Absolument vrai. La corrélation du PC du 1er Y avec l'ensemble X sera presque toujours plus faible que la corrélation du CV du 1er Y avec lui. Cela ressort des images comparant l'ACP aux actions de l'ACC.
La régression PCA + que vous envisagez est une stratégie en deux étapes, initialement «non supervisée» («aveugle», comme vous l'avez dit), tandis que l'ACC est une stratégie en une étape, «supervisée». Les deux sont valides - chacun dans ses propres paramètres d'enquête!
1er composant principal (PC1) obtenu en ACP de l'ensemble Y est une combinaison linéaire de variables Y. La première variable canonique (CV1) extraite de l'ensemble Y dans CCA des ensembles Y et X est également une combinaison linéaire de variables Y. Mais ils sont différents. (Explorez les photos liées, faites également attention à la phrase selon laquelle le CCA est plus proche - en fait une forme de - régression que le PCA.)
PC1 représente un ensemble Y . C'est le résumé linéaire et le «suppléant» de l'ensemble Y, pour affronter plus tard les relations avec le monde extérieur (comme dans une régression ultérieure de PC1 par les variables X).
CV1 représente l' ensemble X dans l' ensemble Y. C'est l'image linéaire de X appartenant à Y, "l'initié" dans Y. La relation YX est déjà là: CCA est une régression multivariée.
Supposons que j'ai les résultats d'un échantillon d'enfants sur un questionnaire d'anxiété scolaire (tel que le test de Phillips) - Y items, et leurs résultats sur un questionnaire d'adaptation sociale - X items. Je veux établir la relation entre les deux ensembles. Les éléments à la fois à l'intérieur de X et à l'intérieur de Y sont corrélés, mais ils sont assez différents et je ne suis pas satisfait de l'idée de résumer carrément les scores des articles en un seul score dans l'un ou l'autre ensemble, alors je choisis de rester multivarié.
Si je fais PCA de Y, extraire PC1, puis régresser sur X éléments, qu'est-ce que cela signifie? Cela signifie que je respecte le questionnaire d'anxiété (items Y) comme domaine souverain (fermé) des phénomènes, qui peuvent s'exprimer. Exprimez en émettant sa meilleure somme pondérée d'éléments (qui tient compte de la variance maximale) qui représente l'ensemble Y - son facteur / pivot / tendance général, le «complexe d'anxiété scolaire ordinaire», le PC1. Ce n'est pas avant que cette représentation soit formée que je passe à la question suivante comment elle pourrait être liée à l'adaptation sociale, la question que je vérifierai dans la régression.
Si je fais selbständig producteur de celui-ci. CCAde Y vs X, extraire la 1ère paire de variables canoniques - une de chaque ensemble - ayant une corrélation maximale, qu'est-ce que cela signifie? Cela signifie que je soupçonne le facteur commun entre (derrière) à la fois l'anxiété et l'adaptation qui les fait corréler les uns avec les autres. Cependant, je n'ai aucune raison ni motif d'extraire ou de modéliser ce facteur au moyen de l'ACP ou de l'analyse factorielle de l'ensemble combiné "Variables X + Variables Y" (parce que, par exemple, je vois l'anxiété et l'adaptation comme deux domaines très différents sur le plan conceptuel, ou parce que les deux questionnaires ont des échelles (unités) très différentes ou des distributions de formes différentes que je crains de «fusionner», ou le nombre d'articles y est très différent). Je me contenterai de la corrélation canonique entre les ensembles. Ou je pourrais ne pas supposer de "facteur commun" derrière les décors, et pensez simplement "X effets Y". Puisque Y est multivarié, l'effet est multidimensionnel, et je demande l'effet le plus fort du 1er ordre. Il est donné par la 1ère corrélation canonique et la variable de prédiction qui lui correspond est le CV1 de l'ensemble Y. CV1 est pêché à partir de Y, Y n'est pas