J'ai une question sur le biais variable omis dans la régression logistique et linéaire.
Supposons que j'omet certaines variables d'un modèle de régression linéaire. Imaginez que ces variables omises ne sont pas corrélées avec les variables que j'ai incluses dans mon modèle. Ces variables omises ne biaisent pas les coefficients de mon modèle.
Mais dans la régression logistique, je viens d'apprendre que ce n'est pas vrai. Les variables omises biaiseront les coefficients des variables incluses même si les variables omises ne sont pas corrélées avec les variables incluses. J'ai trouvé un article sur ce sujet, mais je ne peux pas en faire la tête ni la queue.
Voici le document et quelques diapositives PowerPoint.
Apparemment, le biais est toujours vers zéro. Quelqu'un peut-il expliquer comment cela fonctionne?
la source
Réponses:
Le cas du «biais d'atténuation» peut être présenté plus clairement si nous examinons le modèle «probit» - mais le résultat est également reporté à la régression logistique.
Sous les modèles de probabilité conditionnelle (modèles logistiques (logit), "probit" et "probabilité linéaire"), nous pouvons postuler un modèle de régression linéaire latente (non observable):
oùy∗ est une variable continue non observable (et est la matrice de régresseur). Le terme d'erreur est supposé être indépendant des régresseurs, et suivre une distribution qui a une densité symétrique autour de zéro , et dans notre cas, la distribution normale standard F U ( u ) = Φ ( u ) .X FU( u ) = Φ ( u )
Nous supposons que ce que nous observons, c'est-à-dire la variable binaire , est une fonction indicatrice de l'inobservable y ∗ :y y∗
la dernière égalité due à la propriété "réfléchissante" de la fonction de distribution cumulative standard, qui provient de la symétrie de la fonction de densité autour de zéro. Notez que bien que nous ayons supposé queu X X Xβ
Si nous supposons queXβ=b0+b1X1+b2X2
en raison de la fermeture-sous-addition de la distribution normale (et de l'hypothèse d'indépendance). Appliquant la même logique qu'auparavant, nous avons ici
qui est le résultat du "biais vers zéro".
la source