Comment les principaux composants principaux peuvent-ils conserver le pouvoir prédictif sur une variable dépendante (ou même conduire à de meilleures prédictions)?

25

Supposons que je courais une régression . Pourquoi en sélectionnant les premiers composants de , le modèle conserve-t-il son pouvoir prédictif sur ?k X YOuiXkXOui

Je comprends que du point de vue de la réduction de dimensionnalité / sélection des caractéristiques, si sont les vecteurs propres de la matrice de covariance de avec les premières valeurs propres, alors sont les principaux composants principaux avec des écarts maximum. Nous pouvons ainsi réduire le nombre de caractéristiques à et conserver la majeure partie de la puissance prédictive, si je comprends bien. X k X v 1 , X v 2 . . . X v k k kv1,v2,...vkXkXv1,Xv2...Xvkkk

Mais pourquoi les premiers composants conservent-ils le pouvoir prédictif sur ?YkOui

Si nous parlons d'un général OLS , il n'y a aucune raison de penser que si la fonction a une variance maximale, a le pouvoir le plus prédictif sur .Z i Z i YOuiZZjeZjeOui

Mise à jour après avoir vu des commentaires: Je suppose que j'ai vu des tonnes d'exemples d'utilisation de PCA pour réduire la dimensionnalité. Je suppose que cela signifie que les dimensions qui nous restent ont le pouvoir le plus prédictif. Sinon quel est le point de réduction de la dimensionnalité?

Vengeance
la source
3
Vous avez raison: il n'y a aucune raison mathématique de supposer que les PC supérieurs de X ont un pouvoir prédictif - tout comme il n'y a généralement aucune raison mathématique de supposer qu'un ensemble de covariables X a une quelconque relation avec un Y donné . Il semble que vous vous référiez à une déclaration que vous avez rencontrée: que dit-elle exactement et qui l'a dit? KXXOui
whuber
@whuber Je suppose que j'ai l'air de tonnes d'exemples d'utilisation de PCA pour réduire les dimensions. Je suppose que cela signifie que les dimensions qui nous restent ont les pouvoirs les plus prédictifs. Sinon, c'est le point de réduire les dimensions?
Vendetta

Réponses:

43

En effet, rien ne garantit que les principaux composants principaux (PC) ont plus de pouvoir prédictif que ceux à faible variance.

Des exemples réels peuvent être trouvés là où ce n'est pas le cas, et il est facile de construire un exemple artificiel où, par exemple, seul le plus petit PC a une relation avec .y

Ce sujet a été beaucoup discuté sur notre forum, et en l'absence (malheureuse) d'un fil clairement canonique, je ne peux que donner plusieurs liens qui, ensemble, fournissent divers exemples réels ainsi que des exemples artificiels:

Et le même sujet, mais dans le cadre de la classification:


Cependant, dans la pratique, souvent top PC ne disposent souvent plus de pouvoir prédictif que ceux à faible variance, et de plus, en utilisant uniquement des PC peut donner un meilleur pouvoir prédictif que d' utiliser tous les PC.

Dans les situations avec beaucoup de prédicteurs et relativement peu de points de données n (par exemple lorsque p n ou même p > n ), la régression ordinaire surajustera et devra être régularisée. La régression en composantes principales (PCR) peut être considérée comme un moyen de régulariser la régression et aura tendance à donner des résultats supérieurs. De plus, il est étroitement lié à la régression des crêtes, qui est un moyen standard de régularisation du retrait. Alors que l'utilisation de la régression de crête est généralement une meilleure idée, la PCR se comportera souvent raisonnablement bien. Voir Pourquoi le retrait fonctionne-t-il? pour la discussion générale sur le compromis biais-variance et sur la façon dont le retrait peut être bénéfique.pnpnp>n

D'une certaine manière, on peut dire que la régression des crêtes et la PCR supposent que la plupart des informations sur sont contenues dans les grands PC de X , et cette hypothèse est souvent justifiée.yX

Voir la réponse ultérieure de @cbeleites (+1) pour une discussion sur la raison pour laquelle cette hypothèse est souvent justifiée (et aussi sur ce fil plus récent: la réduction de la dimensionnalité est-elle presque toujours utile pour la classification? Pour d'autres commentaires).

Hastie et al. dans The Elements of Statistical Learning (section 3.4.1), commentez ceci dans le contexte de la régression des crêtes:

X

Voir mes réponses dans les fils suivants pour plus de détails:


Conclusion

Pour les problèmes de grande dimension, le prétraitement avec PCA (ce qui signifie réduire la dimensionnalité et ne garder que les meilleurs PC) peut être considéré comme un moyen de régularisation et améliorera souvent les résultats de toute analyse ultérieure, que ce soit une régression ou une méthode de classification. Mais rien ne garantit que cela fonctionnera et il existe souvent de meilleures approches de régularisation.

amibe dit réintégrer Monica
la source
Merci d'avoir collecté les références dans votre réponse. En voici un autre récent. Il y a une réponse avec d'autres liens.
ttnphns
Merci, @ttnphns! Je n'ai pas vu ce message, car il n'avait pas de balise [pca] (je ne suis que de très près une poignée de balises spécifiques). En fait, je suis plutôt mécontent qu'il y ait une collection lâche de 5 à 10 fils étroitement liés, sans aucune question ni réponse étant vraiment parfaite et sans réel doublon entre eux. Je préférerais avoir un thread canonique qui pourrait être utilisé pour de futures références ...
Amoeba dit Reinstate Monica
J'ai ajouté la balise à cette question. La réponse encyclodédique "parfaite" sur ce thème intéressant attend son auteur. :-) Vous pourriez décider de le devenir.
ttnphns
Également pertinent: la réponse d' Onestop
kjetil b halvorsen
11

En plus des réponses qui se concentrent déjà sur les propriétés mathématiques, je voudrais commenter d'un point de vue expérimental.

Résumé: les processus de génération de données sont souvent optimisés de manière à ce que les données conviennent à la régression par composante principale (PCR) ou par moindres carrés partiels (PLS).


Je suis chimiste analytique. Lorsque je conçois une expérience / méthode pour mesurer (régression ou classification) quelque chose, j'utilise mes connaissances sur l'application et les instruments disponibles pour obtenir des données qui portent un bon rapport signal / bruit par rapport à la tâche à accomplir. Cela signifie que les données que je génère sont conçues pour avoir une grande covariance avec la propriété d'intérêt.
Cela conduit à une structure de variance où la variance intéressante est grande, et les derniers PC ne porteront que le (petit) bruit.

Je préférerais également des méthodes qui fournissent des informations redondantes sur la tâche à accomplir, afin d'avoir des résultats plus robustes ou plus précis. PCA concentre les canaux de mesure redondants dans un PC, qui présente alors beaucoup de variance et est donc l'un des premiers PC.

S'il existe des facteurs de confusion connus qui entraîneront une grande variance qui n'est pas corrélée avec la propriété d'intérêt, j'essaierai généralement de les corriger autant que possible lors du prétraitement des données: dans de nombreux cas, ces facteurs de confusion sont connus nature physique ou chimique, et cette connaissance suggère des moyens appropriés de corriger les facteurs de confusion. Par exemple, je mesure les spectres Raman au microscope. Leur intensité dépend de l'intensité de la lumière laser ainsi que de la façon dont je peux focaliser le microscope. Les deux conduisent à des changements qui peuvent être corrigés en normalisant par exemple un signal connu pour être constant.
Ainsi, les grands contributeurs de variance qui ne contribuent pas à la solution peuvent avoir été éliminés avant que les données ne pénètrent dans l'ACP, laissant une variance principalement significative dans les premiers PC.


Dernier point mais non le moindre, il y a une sorte de prophétie auto-réalisatrice ici: de toute évidence, la PCR est effectuée avec des données où l'hypothèse que les informations portant la variance sont importantes a du sens. Si, par exemple, je pense qu'il pourrait y avoir des facteurs de confusion importants que je ne sais pas comment corriger, je choisirais immédiatement PLS qui est mieux à ignorer les contributions importantes qui n'aident pas la tâche de prédiction.

cbeleites soutient Monica
la source
+1. Ceci est un excellent ajout, merci d'avoir rejoint la discussion.
amibe dit Réintégrer Monica
@amoeba: merci pour les aimables paroles. Comme toujours, votre réponse est également très complète. En fait, je compte sur vous pour prendre soin de [pca]!
cbeleites prend en charge Monica
6

PCA est parfois utilisé pour corriger des problèmes causés par des variables colinéaires de sorte que la majeure partie de la variation dans l'espace X est capturée par les K composants principaux.

Mais ce problème mathématique n'est bien sûr pas la même chose que la capture de la plupart des variations dans l'espace X, Y de telle manière qu'une variation inexpliquée soit aussi petite que possible.

Les moindres carrés partiels essaient de le faire dans le dernier sens:

http://en.wikipedia.org/wiki/Partial_least_squares_regression

Analyste
la source
3

Comme d'autres l'ont souligné, il n'y a pas de lien direct entre les k premiers vecteurs propres et le pouvoir prédictif. En choisissant le sommet et en les utilisant comme base, vous conservez une énergie supérieure (ou une variance le long de ces axes).

Il se peut que l'axe expliquant le plus de variance soit réellement utile pour la prédiction mais en général ce n'est pas le cas.

Vladislavs Dovgalecs
la source
Quand vous dites "en général", voulez-vous dire en général en pratique ou en général en théorie?
amibe dit Réintégrer Monica
@amoeba En général, car il est facile de construire un ensemble de données où la projection des données sur l'axe de variance maximale des k premiers n'est pas prédictive / discriminante.
Vladislavs Dovgalecs
-1

Permettez-moi de proposer une explication simple.

PCA revient à supprimer intuitivement certaines fonctionnalités. Cela diminue les chances de sur-ajustement.

habitant du nord
la source