Prenons par exemple un modèle de régression linéaire. J'ai entendu dire que, dans l'exploration de données, après avoir effectué une sélection par étapes basée sur le critère AIC, il est trompeur de regarder les valeurs de p pour tester l'hypothèse nulle selon laquelle chaque véritable coefficient de régression est nul. J'ai entendu dire que l'on devrait plutôt considérer toutes les variables laissées dans le modèle comme ayant un véritable coefficient de régression différent de zéro. Quelqu'un peut-il m'expliquer pourquoi? Merci.
28
Réponses:
En effet, les valeurs de p représentent la probabilité de voir une statistique de test au moins aussi extrême que celle que vous avez, lorsque l'hypothèse nulle est vraie. SiH0 est vrai, la valeur de p devrait avoir une distribution uniforme.
Mais après une sélection pas à pas (ou bien, après une variété d'autres approches de sélection de modèle), les valeurs de p de ces termes qui restent dans le modèle n'ont pas cette propriété, même lorsque nous savons que l'hypothèse nulle est vraie.
Cela se produit parce que nous choisissons les variables qui ont ou ont tendance à avoir de petites valeurs de p (en fonction des critères précis que nous avons utilisés). Cela signifie que les valeurs de p des variables laissées dans le modèle sont généralement beaucoup plus petites qu'elles ne le seraient si nous avions ajusté un seul modèle. Notez que la sélection choisira en moyenne des modèles qui semblent s'ajuster encore mieux que le vrai modèle, si la classe de modèles inclut le vrai modèle, ou si la classe de modèles est suffisamment flexible pour se rapprocher étroitement du vrai modèle.
[De plus, et pour la même raison, les coefficients qui restent sont biaisés loin de zéro et leurs erreurs standard sont biaisées faibles; cela a également un impact sur les intervalles de confiance et les prévisions - nos prévisions seront trop étroites par exemple.]
Pour voir ces effets, nous pouvons effectuer une régression multiple où certains coefficients sont 0 et certains ne le sont pas, effectuer une procédure pas à pas, puis pour les modèles qui contiennent des variables qui avaient zéro coefficients, regardez les valeurs de p qui en résultent.
(Dans la même simulation, vous pouvez regarder les estimations et les écarts-types pour les coefficients et découvrir que ceux qui correspondent à des coefficients non nuls sont également impactés.)
En bref, il n'est pas approprié de considérer les valeurs de p habituelles comme significatives.
Quant à savoir si toutes les valeurs du modèle après pas à pas doivent être «considérées comme significatives», je ne sais pas dans quelle mesure c'est une façon utile de l'examiner. Que signifie alors «signification»?
Voici le résultat de l'exécution de R
stepAIC
avec des paramètres par défaut sur 1000 échantillons simulés avec n = 100 et dix variables candidates (dont aucune n'est liée à la réponse). Dans chaque cas, le nombre de termes restants dans le modèle a été compté:Seulement 15,5% du temps était le bon modèle choisi; le reste du temps, le modèle comprenait des termes qui n'étaient pas différents de zéro. S'il est effectivement possible qu'il y ait des variables à coefficient nul dans l'ensemble des variables candidates, nous avons probablement plusieurs termes où le vrai coefficient est nul dans notre modèle. Par conséquent, il n'est pas clair que ce soit une bonne idée de les considérer tous comme différents de zéro.
la source
la source