Les techniques de régression pas à pas augmentent-elles le pouvoir prédictif d'un modèle?

8

Je comprends certains des nombreux problèmes de régression pas à pas. Cependant, en tant qu'entreprise universitaire, supposons que je souhaite utiliser la régression pas à pas pour un modèle prédictif et que je souhaite mieux comprendre les impacts qu'il peut avoir sur la performance.

Étant donné un modèle linéaire, par exemple, la régression pas à pas du modèle a-t-elle tendance à augmenter ou à diminuer le pouvoir prédictif du modèle lorsqu'il est présenté avec de nouvelles données?

Y a-t-il des impacts théoriques qu'une régression pas à pas aura sur la capacité prédictive?

Une expérience pratique serait également utile; peut-être des situations où la régression pas à pas améliore la prédiction, et quand ce n'est pas le cas.

Underminer
la source
8
Je ne comprends pas: vous commencez par nous demander d'ignorer les problèmes - qui incluent les problèmes de pouvoir prédictif - et vous demandez ensuite s'il existe de tels problèmes! Pourquoi ne pas chercher sur notre site les réponses? L'un des plus populaires se trouve sur stats.stackexchange.com/questions/20836 .
whuber
3
Je veux me concentrer sur les questions entourant le pouvoir prédictif (pas les valeurs de p, les biais de coefficient, etc.). Sur la base de vos commentaires, je rendrai la formulation de ma question moins ambiguë. Ma recherche sur le site n'a pas donné de réponses spécifiques aux performances prédictives des modèles complets, par rapport aux modèles réduits pas à pas.
Underminer
1
Est-ce que «ignorer les problèmes de…» inclurait ignorer de meilleures alternatives, même dans le cadre du pouvoir prédictif?
Matthew Drury
@MatthewDrury Je m'intéresse principalement aux effets de la régression pas à pas. Cela étant dit, je serais certainement intéressé par les résultats de méthodes automatisées similaires.
Underminer
Dans les trois derniers paragraphes, il y a trois choses différentes? Quel problème ou objectif précis voulez-vous résoudre?
Subhash C. Davar

Réponses:

7

Il y a une variété de problèmes avec la sélection pas à pas. J'ai discuté pas à pas dans ma réponse ici: Algorithmes pour la sélection automatique de modèle . Dans cette réponse, je ne me suis pas principalement concentré sur les problèmes d'inférence, mais sur le fait que les coefficients sont biaisés (les athlètes essayant sont analogues aux variables). Étant donné que les coefficients sont biaisés loin de leurs valeurs réelles, l'erreur prédictive hors échantillon doit être agrandie, toutes choses égales par ailleurs.

Considérons la notion de compromis biais-variance . Si vous considérez la précision de votre modèle comme la variance des erreurs de prédiction (c'est-à-dire MSE: ), l'erreur de prédiction attendue est la somme de trois sources différentes de variance :1/n(yiy^i)2

E[(yiy^i)2]=Var(f^)+[Bias(f^)]2+Var(ε)
Ces trois termes sont respectivement la variance de votre estimation de la fonction, le carré du biais de l'estimation et l'erreur irréductible dans le processus de génération de données. (Ce dernier existe parce que les données ne sont pas déterministes - vous n'obtiendrez jamais de prévisions plus proches que cela en moyenne.) Les deux premiers proviennent de la procédure utilisée pour estimer votre modèle. Par défaut, nous pourrions penser que l' OLS est la procédure utilisée pour estimer le modèle, mais il est plus correct de dire que la sélection par étapes sur les estimations de l'OLS est la procédure. L'idée du compromis biais-variance est que, alors qu'un modèle explicatif met à juste titre l'accent sur l'impartialité, un modèle prédictif peut bénéficier de l'utilisation d'une procédure biaisée si la variance est suffisamment réduite (pour une explication plus complète, voir:Quel problème les méthodes de retrait résolvent-elles? ).

Avec ces idées à l'esprit, le point de ma réponse lié en haut est que beaucoup de biais sont induits. Toutes choses étant égales par ailleurs, cela aggravera les prévisions des échantillons. Malheureusement, la sélection pas à pas ne réduit pas la variance de l'estimation. Au mieux, sa variance est la même, mais elle risque également d'aggraver la variance (par exemple, @Glen_b rapporte que seulement 15,5% des fois où les bonnes variables ont été choisies dans une étude de simulation discutée ici: pourquoi valeurs p trompeuses après avoir effectué une sélection pas à pas? ).

gung - Réintégrer Monica
la source
3
Je déteste être le gars pour défendre la régression pas à pas ... mais je ne pense pas que ce soit vraiment universellement le cas que l'AIC pas à pas conduira à des prédictions pires que de brancher toutes les covariables sans pénalités, surtout si . Voir ici pour une simulation dans laquelle stepAIC fait beaucoup, beaucoup mieux que de brancher toutes les covariables. np
Cliff AB
2
Merci, @CliffAB. J'ai voté cela depuis longtemps, mais je l'avais oublié. Votre réponse de fond suggère que le modèle EDA vaut la peine d'être pris au sérieux après la réplication sur un nouvel échantillon, et votre modèle de prédiction vaut la peine d'être pris au sérieux après l'avoir validé par rapport aux données d'exclusion. Je suis d'accord avec les deux. Je reconnais que l'étape par étape a mieux fonctionné dans votre simulation, mais je suis sûr que vous convenez que la situation a été étroitement conçue pour la favoriser.
gung - Rétablir Monica
0

Les effets exacts dépendront du modèle et de la "vérité" que, bien sûr, nous ne pouvons pas connaître. Vous pouvez examiner les effets de l'étape par étape dans un cas particulier en effectuant une validation croisée ou en utilisant une approche de train et de test simple.

Peter Flom
la source