Biais variable omis dans la régression logistique vs biais variable omis dans la régression des moindres carrés ordinaires

17

J'ai une question sur le biais variable omis dans la régression logistique et linéaire.

Supposons que j'omet certaines variables d'un modèle de régression linéaire. Imaginez que ces variables omises ne sont pas corrélées avec les variables que j'ai incluses dans mon modèle. Ces variables omises ne biaisent pas les coefficients de mon modèle.

Mais dans la régression logistique, je viens d'apprendre que ce n'est pas vrai. Les variables omises biaiseront les coefficients des variables incluses même si les variables omises ne sont pas corrélées avec les variables incluses. J'ai trouvé un article sur ce sujet, mais je ne peux pas en faire la tête ni la queue.

Voici le document et quelques diapositives PowerPoint.

Apparemment, le biais est toujours vers zéro. Quelqu'un peut-il expliquer comment cela fonctionne?

ConfusedEconometricsUndergrad
la source
Connaissez-vous la façon dont le modèle de régression logistique émerge d'un modèle de régression linéaire "variable latente" sous-jacent?
Alecos Papadopoulos
@AlecosPapadopoulos Je ne le suis pas pour ma part. Quel est le plat?
Alexis
Il y a d'autres articles qui en discutent, mais celui auquel vous avez lié est le plus simple que je connaisse. Je ne pense donc pas pouvoir l'améliorer.
Maarten Buis
Cher M. Papadopoulos: J'ai lu sur l'idée de variable latente. Pourquoi demandez-vous?
ConfusedEconometricsUndergrad
@ Alexis Voir par exemple ce post, stats.stackexchange.com/questions/80611/… , et l'article wikipedia, en.wikipedia.org/wiki/… . Cette approche précise également que c'est l'hypothèse que nous faisons sur le terme d'erreur du modèle sous-jacent qui détermine le modèle que nous obtiendrons au niveau des probabilités. Pour un autre exemple, si nous supposons que l'erreur sous-jacente suit un uniforme, nous obtenons le modèle de probabilité linéaire, voir, stats.stackexchange.com/questions/81789
Alecos Papadopoulos

Réponses:

20

Le cas du «biais d'atténuation» peut être présenté plus clairement si nous examinons le modèle «probit» - mais le résultat est également reporté à la régression logistique.

Sous les modèles de probabilité conditionnelle (modèles logistiques (logit), "probit" et "probabilité linéaire"), nous pouvons postuler un modèle de régression linéaire latente (non observable):

y=Xβ+u

y est une variable continue non observable (et est la matrice de régresseur). Le terme d'erreur est supposé être indépendant des régresseurs, et suivre une distribution qui a une densité symétrique autour de zéro , et dans notre cas, la distribution normale standard F U ( u ) = Φ ( u ) .XFU(u)=Φ(u)

Nous supposons que ce que nous observons, c'est-à-dire la variable binaire , est une fonction indicatrice de l'inobservable y :yy

y=1siy>0,y=0siy0

y1

P(y=1X)=P(y>0X)=P(Xβ+u>0X)=P(u>XβX)=1Φ(Χβ)=Φ(Xβ)

la dernière égalité due à la propriété "réfléchissante" de la fonction de distribution cumulative standard, qui provient de la symétrie de la fonction de densité autour de zéro. Notez que bien que nous ayons supposé que uXXXβ

Si nous supposons que Xβ=b0+b1X1+b2X2

(1)P(y=1X)=Φ(b0+b1X1+b2X2)

X2X1

y=b0+b1X1+ϵ
X2X2N(μ2,σ22)

ϵ=u+b2X2N(b2μ2,1+b22σ22)

en raison de la fermeture-sous-addition de la distribution normale (et de l'hypothèse d'indépendance). Appliquant la même logique qu'auparavant, nous avons ici

P(y=1X1)=P(y>0X1)=P(b0+b1X1+ϵ>0X1)=P(ϵ>b0b1X1X1)

ϵ

P(y=1X1)=1P(ϵb2μ21+b22σ22(b0+b2μ2)1+b22σ22b11+b22σ22X1X1)

(2)P(y=1X1)=Φ((b0+b2μ2)1+b22σ22+b11+b22σ22X1)

(1)(2)

b1 va converger, car il reste un estimateur cohérent, dans le sens où il convergera vers la quantité théorique qui existe réellement dans le modèle (et bien sûr, pas dans le sens où il trouvera de toute façon la "vérité"):

b^1pb11+b22σ22|b^1|<|b1|

qui est le résultat du "biais vers zéro".

ϵ . La distribution logistique n'est pas fermée en cours d'ajout. Cela signifie que si nous omettons une variable pertinente dans la régression logistique, nous créons également des erreurs de distribution, car le terme d'erreur (qui inclut désormais la variable omise) ne suit plus une distribution logistique. Mais cela ne change pas le résultat du biais (voir la note de bas de page 6 du document lié par le PO).

Alecos Papadopoulos
la source