Je comprends certains des nombreux problèmes de régression pas à pas. Cependant, en tant qu'entreprise universitaire, supposons que je souhaite utiliser la régression pas à pas pour un modèle prédictif et que je souhaite mieux comprendre les impacts qu'il peut avoir sur la performance.
Étant donné un modèle linéaire, par exemple, la régression pas à pas du modèle a-t-elle tendance à augmenter ou à diminuer le pouvoir prédictif du modèle lorsqu'il est présenté avec de nouvelles données?
Y a-t-il des impacts théoriques qu'une régression pas à pas aura sur la capacité prédictive?
Une expérience pratique serait également utile; peut-être des situations où la régression pas à pas améliore la prédiction, et quand ce n'est pas le cas.
regression
predictive-models
stepwise-regression
Underminer
la source
la source
Réponses:
Il y a une variété de problèmes avec la sélection pas à pas. J'ai discuté pas à pas dans ma réponse ici: Algorithmes pour la sélection automatique de modèle . Dans cette réponse, je ne me suis pas principalement concentré sur les problèmes d'inférence, mais sur le fait que les coefficients sont biaisés (les athlètes essayant sont analogues aux variables). Étant donné que les coefficients sont biaisés loin de leurs valeurs réelles, l'erreur prédictive hors échantillon doit être agrandie, toutes choses égales par ailleurs.
Considérons la notion de compromis biais-variance . Si vous considérez la précision de votre modèle comme la variance des erreurs de prédiction (c'est-à-dire MSE: ), l'erreur de prédiction attendue est la somme de trois sources différentes de variance :1 / n ∑ (yje-y^je)2
Avec ces idées à l'esprit, le point de ma réponse lié en haut est que beaucoup de biais sont induits. Toutes choses étant égales par ailleurs, cela aggravera les prévisions des échantillons. Malheureusement, la sélection pas à pas ne réduit pas la variance de l'estimation. Au mieux, sa variance est la même, mais elle risque également d'aggraver la variance (par exemple, @Glen_b rapporte que seulement 15,5% des fois où les bonnes variables ont été choisies dans une étude de simulation discutée ici: pourquoi valeurs p trompeuses après avoir effectué une sélection pas à pas? ).
la source
Les effets exacts dépendront du modèle et de la "vérité" que, bien sûr, nous ne pouvons pas connaître. Vous pouvez examiner les effets de l'étape par étape dans un cas particulier en effectuant une validation croisée ou en utilisant une approche de train et de test simple.
la source