J'ai une question qui, je pense, sera assez basique pour beaucoup d'utilisateurs.
J'utilise des modèles de régression linéaire pour (i) étudier la relation entre plusieurs variables explicatives et ma variable de réponse et (ii) prédire ma variable de réponse en utilisant les variables explicatives.
Une variable explicative particulière X semble avoir un impact significatif sur ma variable de réponse. Afin de tester la valeur ajoutée de cette variable explicative X aux fins des prévisions hors échantillon de ma variable de réponse, j'ai utilisé deux modèles: le modèle (a) qui a utilisé toutes les variables explicatives et le modèle (b) qui a utilisé toutes les variables sauf variable X. Pour les deux modèles, je signale uniquement les performances hors échantillon. Il semble que les deux modèles fonctionnent presque à l'identique comme bons. En d'autres termes, l'ajout de la variable explicative X n'améliore pas les prévisions hors échantillon. Notez que j'ai également utilisé le modèle (a), c'est-à-dire le modèle avec toutes les variables explicatives, pour constater que la variable explicative X a un impact significatif sur ma variable de réponse.
Ma question est maintenant: comment interpréter cette conclusion? La conclusion directe est que, même si la variable X semble influencer de manière significative ma variable de réponse à l'aide de modèles inférentiels, elle n'améliore pas les prédictions hors échantillon. Cependant, j'ai du mal à expliquer davantage cette conclusion. Comment cela est-il possible et quelles sont les explications de ce résultat?
Merci d'avance!
Informations supplémentaires: avec «influence significative», je veux dire que 0 n'est pas inclus dans l'intervalle de densité postérieure le plus élevé à 95% de l'estimation des paramètres (im en utilisant une approche bayésienne). En termes fréquentistes, cela correspond à peu près à une valeur de p inférieure à 0,05. J'utilise uniquement des priors diffus (non informatifs) pour tous les paramètres de mes modèles. Mes données ont une structure longitudinale et contiennent environ 7 000 observations au total. Pour les prévisions hors échantillon, j'ai utilisé 90% des données pour ajuster mes modèles et 10% des données pour évaluer les modèles en utilisant plusieurs réplications. C'est-à-dire que j'ai effectué le fractionnement du test de train plusieurs fois et finalement j'ai rendu compte des mesures de performances moyennes.
Réponses:
Lorsqu'un prédicteur particulier est statistiquement significatif, cela ne signifie pas vraiment qu'il améliore également considérablement les performances prédictives d'un modèle. Les performances prédictives sont davantage liées à la taille de l'effet. À titre d'exemple, la fonction ci-dessous simule les données d'un modèle de régression linéaire avec deux prédicteursR2
x1
etx2
, et adapte deux modèles, l'un avec les deuxx1
etx2
, et l'autre avecx1
seul. Dans la fonction, vous pouvez modifier la taille de l'effet pourx2
. La fonction rapporte les intervalles de confiance pour les coefficients dex1
etx2
, et les valeurs des deux modèles comme mesure de la performance prédictive.La fonction est:
À titre d'exemple, pour les valeurs par défaut que nous obtenons,
C'est doncR2
x2
important, et ne pas l'inclure dans le modèle a un grand impact sur le .Mais si nous fixons la taille de l'effet à 0,3, nous obtenons:
Le coefficient est toujours significatif mais l'amélioration du est très faible.R2
la source
C'est une chose assez normale qui se produit en régression multiple. La raison la plus courante est que vos prédicteurs sont liés les uns aux autres. En d'autres termes, vous pouvez déduire X des valeurs des autres prédicteurs. Par conséquent, bien qu'il soit utile pour les prévisions s'il s'agit du seul prédicteur dont vous disposez, une fois que vous disposez de tous les autres prédicteurs, il ne fournit pas beaucoup d'informations supplémentaires. Vous pouvez vérifier si c'est le cas en régressant X sur les autres prédicteurs. Je ferais également référence au chapitre sur la régression linéaire dans le manuel en ligne gratuit, Elements of Statistical Learning.
la source