Je sais que dans une situation de régression, si vous avez un ensemble de variables hautement corrélées, cela est généralement "mauvais" en raison de l'instabilité des coefficients estimés (la variance va vers l'infini car le déterminant va vers zéro).
Ma question est de savoir si cette «méchanceté» persiste dans une situation de PCA. Les coefficients / charges / poids / vecteurs propres pour un PC particulier deviennent-ils instables / arbitraires / non uniques lorsque la matrice de covariance devient singulière? Je m'intéresse particulièrement au cas où seule la première composante principale est conservée, et toutes les autres sont rejetées comme "bruit" ou "autre chose" ou "sans importance".
Je ne pense pas que ce soit le cas, car il vous restera juste quelques composants principaux qui ont une variance nulle ou proche de zéro.
Facile à voir, ce n'est pas le cas dans le cas extrême simple avec 2 variables - supposons qu'elles soient parfaitement corrélées. Ensuite, le premier PC sera la relation linéaire exacte, et le deuxième PC sera perpindiculaire au premier PC, avec toutes les valeurs de PC égales à zéro pour toutes les observations (c.-à-d. Variance nulle). Vous vous demandez si c'est plus général.
la source
Réponses:
La réponse pourrait être donnée en termes encore plus simples: la régression multiple a un pas de plus que le pca si elle est vue en termes d'algèbre linéaire, et à partir de la deuxième étape l'instabilité prend naissance:
La première étape de pca et mult. la régression peut être considérée comme une factorisation de la matrice de corrélation en deux facteurs cholesky , qui sont triangulaires - et qui est indifférent aux corrélations faibles ou élevées. (Le pca peut alors être vu comme une rotation de ce facteur cholesky (triangulaire) vers la position pc (ceci est appelé Jacobi-rotation pour autant que je m'en souvienne) L ⋅ L tR L ⋅ Lt
Le mult. la procédure de régression consiste à appliquer une inversion de ce facteur cholesky moins la ligne et la colonne de la variable dépendante, qui se trouve commodément dans la dernière ligne de la matrice de corrélation. L'instabilité entre en jeu ici: si les variables indépendantes sont fortement corrélées, alors la diagonale du facteur cholesky peut dégénérer en de très petites valeurs numériques - et inverser cela introduit alors le problème de la division par presque zéro.LL
L
la source
L'ACP est souvent un moyen pour atteindre des fins; menant à soit des entrées à une régression multiple, soit à utiliser dans une analyse en grappes. Je pense que dans votre cas, vous parlez d'utiliser les résultats d'une ACP pour effectuer une régression.
Dans ce cas, votre objectif de réaliser une ACP est de se débarrasser de la multicolinéarité et d'obtenir des entrées orthogonales pour une régression multiple, sans surprise cela s'appelle la régression des composants principaux. Ici, si toutes vos entrées d'origine étaient orthogonales, faire une PCA vous donnerait un autre ensemble d'entrées orthogonales. Par conséquent; si vous faites une PCA, on supposerait que vos entrées ont une multicolinéarité.
Les références
Johnson et Wichern (2001). Analyse statistique multivariée appliquée (6e édition). Prentice Hall.
la source