En psychologie et dans d'autres domaines, une forme de régression par étapes est souvent employée et implique les éléments suivants:
- Examinez les prédicteurs restants (il n'y en a pas dans le modèle au début) et identifiez le prédicteur qui entraîne le plus grand changement du carré r;
- Si la valeur de p de la variation du carré r est inférieure à alpha (généralement 0,05), incluez ce prédicteur et revenez à l'étape 1, sinon arrêtez.
Par exemple, consultez cette procédure dans SPSS .
La procédure est régulièrement critiquée pour un large éventail de raisons (voir cette discussion sur le site Web de Stata avec des références ).
En particulier, le site Web de Stata résume plusieurs commentaires de Frank Harrell. Je suis intéressé par la réclamation:
[régression pas à pas] donne des valeurs R au carré qui sont fortement biaisées pour être élevées.
Plus précisément, certaines de mes recherches actuelles portent sur l'estimation du r-carré de la population . Par carré de population, je me réfère au pourcentage de variance expliqué par les données de population générant l'équation dans la population. Une grande partie de la littérature existante que j'examine a utilisé des procédures de régression pas à pas et je veux savoir si les estimations fournies sont biaisées et, dans l'affirmative, dans quelle mesure. En particulier, une étude typique aurait 30 prédicteurs, n = 200, un alpha d'entrée de 0,05 et des estimations du carré r autour de 0,50.
Ce que je sais:
- De manière asymptotique, tout prédicteur avec un coefficient non nul serait un prédicteur statistiquement significatif, et r carré serait égal à r carré ajusté. Ainsi, une régression asymptotiquement pas à pas devrait estimer l'équation de régression vraie et le vrai carré de la population.
- Avec des échantillons de plus petite taille, l'omission possible de certains prédicteurs se traduira par un carré r plus petit que si tous les prédicteurs avaient été inclus dans le modèle. Mais aussi le biais habituel du r-carré aux données d'échantillonnage augmenterait le r-carré. Ainsi, ma pensée naïve est que, potentiellement, ces deux forces opposées pourraient dans certaines conditions aboutir à un r-carré non biaisé. Et plus généralement, la direction du biais dépendrait de diverses caractéristiques des données et des critères d'inclusion alpha.
- La définition d'un critère d'inclusion alpha plus rigoureux (par exemple, 0,01, 0,001, etc.) devrait réduire le r-carré estimé attendu car la probabilité d'inclure tout prédicteur dans toute génération de données sera moindre.
- En général, le carré r est une estimation biaisée à la hausse du carré r de la population et le degré de ce biais augmente avec plus de prédicteurs et des échantillons de plus petite taille.
Question
Alors finalement, ma question:
- Dans quelle mesure le carré r de la régression pas à pas se traduit-il par une estimation biaisée du carré r de la population?
- Dans quelle mesure ce biais est-il lié à la taille de l'échantillon, au nombre de prédicteurs, au critère d'inclusion alpha ou aux propriétés des données?
- Y a-t-il des références sur ce sujet?
la source
Réponses:
la source
Aperçu
J'ai exécuté quelques simulations dans différentes conditions. La valeur de p de l'entrée du prédicteur qui a donné une estimation approximativement non biaisée variait souvent entre 0,05 et 0,0001. Cependant, je n'ai pas encore lu de simulations qui explorent explicitement cela ou fournissent des conseils sur le type de biais à attendre de la publication publiéeR2 valeurs utilisant une valeur p d'entrée donnée et compte tenu des caractéristiques des données.
Simulation
La simulation suivante a quatre prédicteurs non corrélés où le carré de la population est de 40%. Deux des prédicteurs expliquent chacun 20% et les deux autres prédicteurs expliquent 0%. La simulation génère 1 000 ensembles de données et estime le r-carré de régression pas à pas en pourcentage pour chaque ensemble de données.
Le code suivant renvoie le carré r avec un alpha pour l'entrée de .01, .001, .0001 et .00001.
Les résultats suivants indiquent le biais pour chacune des cinq entrées alpha. Notez que j'ai multiplié le carré r par 100 pour le rendre plus facile à voir les différences.
Les résultats suggèrent que l'alpha des entrées de .01 et .001 entraîne un biais positif et l'alpha des entrées de .0001 et .00001 entraîne un biais négatif. Donc, vraisemblablement, un alpha d'entrée autour de .0005 entraînerait une régression par étapes non biaisée.
La principale conclusion que j'en tire est que la régression pas à pas n'est pas intrinsèquement biaisée dans une direction particulière. Cela dit, il sera au moins quelque peu biaisé pour toutes les valeurs p sauf une de l'entrée prédictive. Je comprends l'argument de @Peter Flom selon lequel, dans le monde réel, nous ne connaissons pas le processus de génération de données. Cependant, j'imagine qu'une exploration plus détaillée de la façon dont ce biais varie, n, alpha d'entrée, processus de génération de données et procédure de régression pas à pas (par exemple, y compris le passage en arrière) pourrait éclairer considérablement la compréhension de ce biais.
Les références
la source