Dans Statistical Methods in the Atmospheric Sciences , Daniel Wilks note que la régression linéaire multiple peut entraîner des problèmes s'il existe de très fortes intercorrélations entre les prédicteurs (3e édition, pages 559-560):
Une pathologie qui peut se produire dans une régression linéaire multiple est qu'un ensemble de variables prédictives ayant de fortes corrélations mutuelles peut entraîner le calcul d'une relation de régression instable.
(...)
Il introduit ensuite la régression en composantes principales:
Une approche pour remédier à ce problème consiste à transformer d'abord les prédicteurs en leurs principales composantes, dont les corrélations sont nulles.
Jusqu'ici tout va bien. Mais ensuite, il fait quelques déclarations qu'il n'explique pas (ou du moins pas suffisamment en détail pour que je puisse comprendre):
Si toutes les composantes principales sont conservées dans une régression de composante principale, alors rien n'est gagné sur les moindres carrés conventionnels ajustés à l'ensemble de prédicteurs complet.
(..) et:
Il est possible de réexprimer la régression de la composante principale en termes de prédicteurs d'origine, mais le résultat impliquera en général toutes les variables de prédicteur d'origine même si seulement un ou quelques prédicteurs de composante principale ont été utilisés. Cette régression reconstituée sera biaisée, bien que souvent la variance soit beaucoup plus faible, ce qui se traduira par un MSE global plus petit.
Je ne comprends pas ces deux points.
Bien entendu, si toutes les composantes principales sont conservées, nous utilisons les mêmes informations que lorsque nous utilisions les prédicteurs dans leur espace d'origine. Cependant, le problème des corrélations mutuelles est éliminé en travaillant dans l'espace des composants principaux. Nous avons peut-être encore du sur-ajustement, mais est-ce le seul problème? Pourquoi ne gagne-t-on rien?
Deuxièmement, même si nous tronquons les principales composantes (peut-être pour la réduction du bruit et / ou pour éviter le sur-ajustement), pourquoi et comment cela conduit-il à une régression biaisée reconstituée? Biais de quelle manière?
Source du livre: Daniel S. Wilks, Méthodes statistiques dans les sciences de l'atmosphère, troisième édition, 2011. International Geophysics Series Volume 100, Academic Press.
la source
Réponses:
Que se passe-t-il lorsque tous les PC sont utilisés?
Si tous les PC sont utilisés, les coefficients de régression résultants seront identiques à ceux obtenus avec la régression OLS, et cette procédure ne devrait donc pas être appelée "régression en composantes principales". Il s'agit d'une régression standard, effectuée uniquement de manière détournée.
On ne gagne donc rien.
Que se passe-t-il lorsque seuls quelques PC sont utilisés?
Ceci est un exemple de compromis biais-variance . Voir Pourquoi le retrait fonctionne-t-il? pour une discussion plus approfondie.
Dans les commentaires, @whuber a souligné que la solution PCR n'ont à différer de celui OLS et donc ne pas avoir à être biaisé. En effet, si la variable dépendantey y y
Pourquoi utiliser des PC à variance élevée est une bonne idée?
Cela ne faisait pas partie de la question, mais vous pourriez être intéressé par le fil suivant pour la lecture supplémentaire: Comment les principaux composants principaux peuvent-ils conserver le pouvoir prédictif sur une variable dépendante (ou même conduire à de meilleures prédictions)?
la source