Avec des données continues, une régression linéaire suppose que le terme d'erreur est distribué N (0, )
1) Supposons-nous que Var (Y | x) est également ~ N (0, )?
2) Quelle est cette distribution d'erreur dans la régression logistique? Lorsque les données sont sous la forme d'un enregistrement par cas, où le «Y» est 1 ou 0, le terme d'erreur est-il distribué Bernoulli (c.-à-d. La variance est p (1-p))) et lorsque les données sont sous la forme # succès sur # d'essais, est-il supposé binomial (c'est-à-dire que la variance est np (1-p)), où p est la probabilité que Y soit 1?
Réponses:
1) Si a une distribution normale c'est-à-dire alors , puisque n'est pas une variable aléatoire.u V a r ( Y | X 2 ) = V a r ( β 1 + β 2 X 2 ) + V a r ( u ) = 0 + σ 2 = σ 2 β 1 + β 2 X 2N(0,σ2) Var(Y|X2)=Var(β1+β2X2)+Var(u)=0+σ2=σ2 β1+β2X2
2) Dans la régression logistique, on suppose que les erreurs suivent une distribution binomiale comme mentionné ici . Il vaut mieux l'écrire comme , puisque ces probabilités dépendent de , comme référencé ici ou dans la régression logistique appliquée .X jVar(Yj|Xj)=mj.E[Yj|Xj].(1−E[Yj|Xj])=mjπ(Xj).(1−π(Xj)) Xj
la source