Pourquoi les valeurs de p sont-elles trompeuses après avoir effectué une sélection pas à pas?

Prenons par exemple un modèle de régression linéaire. J'ai entendu dire que, dans l'exploration de données, après avoir effectué une sélection par étapes basée sur le critère AIC, il est trompeur de regarder les valeurs de p pour tester l'hypothèse nulle selon laquelle chaque véritable coefficient de régression est nul. J'ai entendu dire que l'on devrait plutôt considérer toutes les variables laissées dans le modèle comme ayant un véritable coefficient de régression différent de zéro. Quelqu'un peut-il m'expliquer pourquoi? Merci.

multiple-regression predictive-models data-mining stepwise-regression John M
la source

Voici plus d'informations. Les références qui y sont citées sont également utiles.

S.Kolassa - Rétablir Monica

Dans theoryecology.wordpress.com/2018/05/03/… , je montre un code R démontrant l'inflation de type I après la sélection AIC. Notez qu'il n'a pas d'importance si c'est pas à pas ou global, le fait est que la sélection de modèle est essentiellement un test multiple.

Florian Hartig

après avoir effectué une sélection pas à pas sur la base du critère AIC, il est trompeur de regarder les valeurs de p pour tester l'hypothèse nulle que chaque vrai coefficient de régression est nul.

En effet, les valeurs de p représentent la probabilité de voir une statistique de test au moins aussi extrême que celle que vous avez, lorsque l'hypothèse nulle est vraie. Si $H_0$ est vrai, la valeur de p devrait avoir une distribution uniforme.

Mais après une sélection pas à pas (ou bien, après une variété d'autres approches de sélection de modèle), les valeurs de p de ces termes qui restent dans le modèle n'ont pas cette propriété, même lorsque nous savons que l'hypothèse nulle est vraie.

Cela se produit parce que nous choisissons les variables qui ont ou ont tendance à avoir de petites valeurs de p (en fonction des critères précis que nous avons utilisés). Cela signifie que les valeurs de p des variables laissées dans le modèle sont généralement beaucoup plus petites qu'elles ne le seraient si nous avions ajusté un seul modèle. Notez que la sélection choisira en moyenne des modèles qui semblent s'ajuster encore mieux que le vrai modèle, si la classe de modèles inclut le vrai modèle, ou si la classe de modèles est suffisamment flexible pour se rapprocher étroitement du vrai modèle.

[De plus, et pour la même raison, les coefficients qui restent sont biaisés loin de zéro et leurs erreurs standard sont biaisées faibles; cela a également un impact sur les intervalles de confiance et les prévisions - nos prévisions seront trop étroites par exemple.]

Pour voir ces effets, nous pouvons effectuer une régression multiple où certains coefficients sont 0 et certains ne le sont pas, effectuer une procédure pas à pas, puis pour les modèles qui contiennent des variables qui avaient zéro coefficients, regardez les valeurs de p qui en résultent.

(Dans la même simulation, vous pouvez regarder les estimations et les écarts-types pour les coefficients et découvrir que ceux qui correspondent à des coefficients non nuls sont également impactés.)

En bref, il n'est pas approprié de considérer les valeurs de p habituelles comme significatives.

J'ai entendu dire que l'on devrait plutôt considérer toutes les variables laissées dans le modèle comme significatives.

Quant à savoir si toutes les valeurs du modèle après pas à pas doivent être «considérées comme significatives», je ne sais pas dans quelle mesure c'est une façon utile de l'examiner. Que signifie alors «signification»?

Voici le résultat de l'exécution de R stepAICavec des paramètres par défaut sur 1000 échantillons simulés avec n = 100 et dix variables candidates (dont aucune n'est liée à la réponse). Dans chaque cas, le nombre de termes restants dans le modèle a été compté:

Seulement 15,5% du temps était le bon modèle choisi; le reste du temps, le modèle comprenait des termes qui n'étaient pas différents de zéro. S'il est effectivement possible qu'il y ait des variables à coefficient nul dans l'ensemble des variables candidates, nous avons probablement plusieurs termes où le vrai coefficient est nul dans notre modèle. Par conséquent, il n'est pas clair que ce soit une bonne idée de les considérer tous comme différents de zéro.

Glen_b -Reinstate Monica
la source

Avec la phrase "J'ai entendu dire que l'on devrait plutôt considérer toutes les variables laissées dans le modèle comme significatives", je voulais dire: "J'ai entendu que l'on devrait considérer toutes les variables laissées dans le modèle comme ayant un véritable coefficient de régression différent de zéro"

John M

D'accord; J'ai ajouté les résultats d'une simulation qui en parle.

Glen_b -Reinstate Monica

k = 3

$k=3$

39

$39$

10 k

$10k$

@whuber en effet, voir quel effet aurait un Bonferroni (sur une variété d'aspects du problème) était ma tendance immédiate à terminer la simulation ci-dessus également, mais ce n'est pas ce que les gens ont tendance à faire par étapes, donc je n'ai pas abordé c'est ici. Je serais fasciné de vous entendre discuter des méthodes de sélection des modèles. Je pense que j'apprendrais pas mal.

Glen_b -Reinstate Monica

@Glen_b: (d'après votre réponse) Cela signifie que les valeurs de p des variables laissées dans le modèle sont généralement beaucoup plus petites qu'elles ne le seraient si nous avions ajusté un seul modèle même "si le seul modèle que nous ajustons se trouve être celui qui a généré les données, que le vrai modèle soit nul ou non ". Pouvez-vous expliquer un peu la partie en surbrillance? Comment se peut-il que les valeurs de p soient plus petites dans le modèle qui a la même spécification que le processus de génération de données (vrai modèle)?

shani

Pourquoi les valeurs de p sont-elles trompeuses après avoir effectué une sélection pas à pas?

Réponses: