Supposons que je courais une régression . Pourquoi en sélectionnant les premiers composants de , le modèle conserve-t-il son pouvoir prédictif sur ?k X Y
Je comprends que du point de vue de la réduction de dimensionnalité / sélection des caractéristiques, si sont les vecteurs propres de la matrice de covariance de avec les premières valeurs propres, alors sont les principaux composants principaux avec des écarts maximum. Nous pouvons ainsi réduire le nombre de caractéristiques à et conserver la majeure partie de la puissance prédictive, si je comprends bien. X k X v 1 , X v 2 . . . X v k k k
Mais pourquoi les premiers composants conservent-ils le pouvoir prédictif sur ?Y
Si nous parlons d'un général OLS , il n'y a aucune raison de penser que si la fonction a une variance maximale, a le pouvoir le plus prédictif sur .Z i Z i Y
Mise à jour après avoir vu des commentaires: Je suppose que j'ai vu des tonnes d'exemples d'utilisation de PCA pour réduire la dimensionnalité. Je suppose que cela signifie que les dimensions qui nous restent ont le pouvoir le plus prédictif. Sinon quel est le point de réduction de la dimensionnalité?
Réponses:
En effet, rien ne garantit que les principaux composants principaux (PC) ont plus de pouvoir prédictif que ceux à faible variance.
Des exemples réels peuvent être trouvés là où ce n'est pas le cas, et il est facile de construire un exemple artificiel où, par exemple, seul le plus petit PC a une relation avec .y
Ce sujet a été beaucoup discuté sur notre forum, et en l'absence (malheureuse) d'un fil clairement canonique, je ne peux que donner plusieurs liens qui, ensemble, fournissent divers exemples réels ainsi que des exemples artificiels:
Et le même sujet, mais dans le cadre de la classification:
Cependant, dans la pratique, souvent top PC ne disposent souvent plus de pouvoir prédictif que ceux à faible variance, et de plus, en utilisant uniquement des PC peut donner un meilleur pouvoir prédictif que d' utiliser tous les PC.
Dans les situations avec beaucoup de prédicteurs et relativement peu de points de données n (par exemple lorsque p ≈ n ou même p > n ), la régression ordinaire surajustera et devra être régularisée. La régression en composantes principales (PCR) peut être considérée comme un moyen de régulariser la régression et aura tendance à donner des résultats supérieurs. De plus, il est étroitement lié à la régression des crêtes, qui est un moyen standard de régularisation du retrait. Alors que l'utilisation de la régression de crête est généralement une meilleure idée, la PCR se comportera souvent raisonnablement bien. Voir Pourquoi le retrait fonctionne-t-il? pour la discussion générale sur le compromis biais-variance et sur la façon dont le retrait peut être bénéfique.p n p ≈ n p > n
D'une certaine manière, on peut dire que la régression des crêtes et la PCR supposent que la plupart des informations sur sont contenues dans les grands PC de X , et cette hypothèse est souvent justifiée.y X
Voir la réponse ultérieure de @cbeleites (+1) pour une discussion sur la raison pour laquelle cette hypothèse est souvent justifiée (et aussi sur ce fil plus récent: la réduction de la dimensionnalité est-elle presque toujours utile pour la classification? Pour d'autres commentaires).
Hastie et al. dans The Elements of Statistical Learning (section 3.4.1), commentez ceci dans le contexte de la régression des crêtes:
Voir mes réponses dans les fils suivants pour plus de détails:
Conclusion
Pour les problèmes de grande dimension, le prétraitement avec PCA (ce qui signifie réduire la dimensionnalité et ne garder que les meilleurs PC) peut être considéré comme un moyen de régularisation et améliorera souvent les résultats de toute analyse ultérieure, que ce soit une régression ou une méthode de classification. Mais rien ne garantit que cela fonctionnera et il existe souvent de meilleures approches de régularisation.
la source
En plus des réponses qui se concentrent déjà sur les propriétés mathématiques, je voudrais commenter d'un point de vue expérimental.
Résumé: les processus de génération de données sont souvent optimisés de manière à ce que les données conviennent à la régression par composante principale (PCR) ou par moindres carrés partiels (PLS).
Je suis chimiste analytique. Lorsque je conçois une expérience / méthode pour mesurer (régression ou classification) quelque chose, j'utilise mes connaissances sur l'application et les instruments disponibles pour obtenir des données qui portent un bon rapport signal / bruit par rapport à la tâche à accomplir. Cela signifie que les données que je génère sont conçues pour avoir une grande covariance avec la propriété d'intérêt.
Cela conduit à une structure de variance où la variance intéressante est grande, et les derniers PC ne porteront que le (petit) bruit.
Je préférerais également des méthodes qui fournissent des informations redondantes sur la tâche à accomplir, afin d'avoir des résultats plus robustes ou plus précis. PCA concentre les canaux de mesure redondants dans un PC, qui présente alors beaucoup de variance et est donc l'un des premiers PC.
S'il existe des facteurs de confusion connus qui entraîneront une grande variance qui n'est pas corrélée avec la propriété d'intérêt, j'essaierai généralement de les corriger autant que possible lors du prétraitement des données: dans de nombreux cas, ces facteurs de confusion sont connus nature physique ou chimique, et cette connaissance suggère des moyens appropriés de corriger les facteurs de confusion. Par exemple, je mesure les spectres Raman au microscope. Leur intensité dépend de l'intensité de la lumière laser ainsi que de la façon dont je peux focaliser le microscope. Les deux conduisent à des changements qui peuvent être corrigés en normalisant par exemple un signal connu pour être constant.
Ainsi, les grands contributeurs de variance qui ne contribuent pas à la solution peuvent avoir été éliminés avant que les données ne pénètrent dans l'ACP, laissant une variance principalement significative dans les premiers PC.
Dernier point mais non le moindre, il y a une sorte de prophétie auto-réalisatrice ici: de toute évidence, la PCR est effectuée avec des données où l'hypothèse que les informations portant la variance sont importantes a du sens. Si, par exemple, je pense qu'il pourrait y avoir des facteurs de confusion importants que je ne sais pas comment corriger, je choisirais immédiatement PLS qui est mieux à ignorer les contributions importantes qui n'aident pas la tâche de prédiction.
la source
PCA est parfois utilisé pour corriger des problèmes causés par des variables colinéaires de sorte que la majeure partie de la variation dans l'espace X est capturée par les K composants principaux.
Mais ce problème mathématique n'est bien sûr pas la même chose que la capture de la plupart des variations dans l'espace X, Y de telle manière qu'une variation inexpliquée soit aussi petite que possible.
Les moindres carrés partiels essaient de le faire dans le dernier sens:
http://en.wikipedia.org/wiki/Partial_least_squares_regression
la source
Comme d'autres l'ont souligné, il n'y a pas de lien direct entre les k premiers vecteurs propres et le pouvoir prédictif. En choisissant le sommet et en les utilisant comme base, vous conservez une énergie supérieure (ou une variance le long de ces axes).
Il se peut que l'axe expliquant le plus de variance soit réellement utile pour la prédiction mais en général ce n'est pas le cas.
la source
Permettez-moi de proposer une explication simple.
PCA revient à supprimer intuitivement certaines fonctionnalités. Cela diminue les chances de sur-ajustement.
la source