Distribution des erreurs pour la régression linéaire et logistique

9

Avec des données continues, une régression linéaire Y=β1+β2X2+u suppose que le terme d'erreur est distribué N (0, σ2 )

1) Supposons-nous que Var (Y | x) est également ~ N (0, σ2 )?

2) Quelle est cette distribution d'erreur dans la régression logistique? Lorsque les données sont sous la forme d'un enregistrement par cas, où le «Y» est 1 ou 0, le terme d'erreur est-il distribué Bernoulli (c.-à-d. La variance est p (1-p))) et lorsque les données sont sous la forme # succès sur # d'essais, est-il supposé binomial (c'est-à-dire que la variance est np (1-p)), où p est la probabilité que Y soit 1?

B_Miner
la source
2
Vous n'êtes pas précis. L'hypothèse du modèle est que les termes d'erreur sont indépendants et identiquement distribués avec une distribution qui est N (0, σ 2 ) et n'est pas liée à la COVARIATE. Qu'est-ce que Var (Y | x)? Êtes-vous conditionné sur X 2 = x? Le modèle suppose-t-il que la covariable est aléatoire d'une manière ou d'une autre, alors nous supposons que la covariable est fixée selon une matrice de conception? Je pense que c'est ce dernier et donc Var (Y | X 2 = x) est impliqué par les hypothèses et n'a pas besoin d'être supposé. 222
Michael R. Chernick
@MichaelChernick Pourquoi le modèle suppose-t-il que est fixe? Il peut certainement être le cas, mais il peut également être aléatoire. Rien dans la question ne m'implique. X2
Peter Flom
@PeterFlom J'ai lu dans la question que la régression linéaire avec cette distribution d'erreur supposée signifiait OLS qui nécessite que X 2 soit fixé et connu. Si quelqu'un a une régression de Deming (c.-à-d. Une erreur de régression des variables), cela serait spécifié dans la question. En regardant la réponse donnée par Stat, il indique qu'il a également interprété la question de cette façon. 2
Michael R. Chernick
@Michael, je supposais un X fixe.
B_Miner

Réponses:

10

1) Si a une distribution normale c'est-à-dire alors , puisque n'est pas une variable aléatoire.uV a r ( Y | X 2 ) = V a r ( β 1 + β 2 X 2 ) + V a r ( u ) = 0 + σ 2 = σ 2 β 1 + β 2 X 2N(0,σ2)Var(Y|X2)=Var(β1+β2X2)+Var(u)=0+σ2=σ2β1+β2X2

2) Dans la régression logistique, on suppose que les erreurs suivent une distribution binomiale comme mentionné ici . Il vaut mieux l'écrire comme , puisque ces probabilités dépendent de , comme référencé ici ou dans la régression logistique appliquée .X jVar(Yj|Xj)=mj.E[Yj|Xj].(1E[Yj|Xj])=mjπ(Xj).(1π(Xj))Xj

Stat
la source
Stat, Donc, il est correct de dire que la variance pour la ième erreur individuelle, , est (1- ) qui est équivalente à ce que vous avez montré en supposant qu'il y a plus d'une observation dans les données avec la même covariable modèle (autrement dit = 1 pour tout j)? p i p i m jeipipimj
B_Miner
2
Oui, c'est correct. Si avec , alors avec probabilité ou avec probabilité . Par conséquent, a une distribution avec une moyenne de et une variance égale à . P ( YYi=pi+eiP(Yi=1)=1P(Yi=0)=piei=1pipiei=pi1piei0pi(1pi)
Stat
Un point supplémentaire ici, Stat, nous devons supposer que les X sont fixes, non aléatoires pour Var (Y | X) = Var (e) pour les deux cas de régression linéaire et logistique correct?
B_Miner
NB avec probabilité ou avec probabilité n'est pas une distribution binomiale pour . p i e i = - p i 1 - p i e iei=1pipiei=pi1piei
Scortchi - Réintégrer Monica
B_Miner: signifie la variance de conditionnelle à ce que la variable aléatoire prenne une valeur observée . Peu importe donc que vos prédicteurs soient fixés par une expérience ou observés dans un échantillon: ce que dit @ Stat, c'est qu'ils ne sont plus considérés comme des variables aléatoires aux fins de la régression. Y X xVar(Y|X)=Var(Y|X=x)YXx
Scortchi - Réintégrer Monica