Hypothèses de distribution résiduelle de régression

12

Pourquoi est-il nécessaire de poser l'hypothèse distributionnelle sur les erreurs, c'est-à-dire

ϵ iN ( 0 , σ 2 )yi=Xβ+ϵi , avec .ϵiN(0,σ2)

Pourquoi ne pas écrire

y i ~ N ( X β , σ 2 )yi=Xβ+ϵi , avec ,yiN(Xβ^,σ2)

où dans les deux cas . Je l'ai vu souligné que les hypothèses de distribution sont placées sur les erreurs, pas sur les données, mais sans explication. ϵi=yiy^

Je ne comprends pas vraiment la différence entre ces deux formulations. À certains endroits, je vois des hypothèses de distribution être placées sur les données (Bayesian lit. il semble surtout), mais la plupart du temps, les hypothèses sont placées sur les erreurs.

Lors de la modélisation, pourquoi choisir / devrait-on commencer par des hypothèses sur l'une ou l'autre?

bill_e
la source
Tout d'abord, ce n'est pas "nécessaire", cela dépend de ce que vous avez l'intention de faire. Il y a de bonnes réponses, mais je pense que le nœud est l'hypothèse sous-jacente de causalité, dans le sens où les X "provoquent" le y, et si vous le regardez de cette façon, vous voyez que la distribution de y est "causée" par la distribution des rhs, c'est-à-dire les Xs et les erreurs (le cas échéant). Vous pouvez faire beaucoup d'économétrie avec des hypothèses de distribution très limitées et, en particulier, sans normalité. Dieu merci.
PatrickT
3
XdeYE( y )=E(y)=Xβy^ n'est pas , et la moyenne de la population des n'est pas la même que l'estimation de l'échantillon. Ce qui veut dire que la deuxième chose n'est pas en fait la même chose que la première, mais si vous la remplacez par son attente ( ), les deux seraient équivalentes. XβyE(y^)=E(y)=Xβ
Glen_b -Reinstate Monica
Qu'est-ce que ? Et si varie avec , pourquoi varie-t-il pas? Veuillez décider quelle notation vous souhaitez utiliser, le vecteur ou la matrice. Maintenant, si nous supposons que votre notation est plus que bizzare: , c'est-à-dire que vous définissez la distribution de en fonction de lui-même et de toutes les autres observations ! yiiXβ y =X β yi~N(x ' i (Σxjx ' j )-1Σxjyj,σ2)yiyjy^yiiXβy^=Xβ^yiN(xi(xjxj)1xjyj,σ2)yiyj
mpiktas
1
J'ai dévalorisé la question parce que je pense que la notation prête à confusion et cela a déjà donné lieu à plusieurs réponses subtilement contradictoires.
mpiktas

Réponses:

9

Dans un cadre de régression linéaire, il est courant de faire des analyses et de dériver des résultats conditionnels à , c'est-à-dire conditionnels aux "données". Ainsi, ce dont vous avez besoin est que soit normal, c'est-à-dire que vous avez besoin de pour être normal. Comme l'illustre l'exemple de Peter Flom, on peut avoir la normalité de sans avoir la normalité de , et donc, puisque ce dont vous avez besoin est la normalité de , c'est l'hypothèse sensée.y X ϵ ϵ y ϵXyXϵϵyϵ

ekvall
la source
9

J'écrirais la deuxième définition comme

yiN(Xiβ,σ2)

ou (comme le suggère Karl Oskar +1)

yi|XiN(Xiβ,σ2)

c'est-à-dire que l'hypothèse de modélisation est que la variable de réponse est normalement distribuée autour de la droite de régression (qui est une estimation de la moyenne conditionnelle), avec une variance constante . Ce n'est pas la même chose que de suggérer que sont normalement distribués, car la moyenne de la distribution dépend de .y i X iσ2yiXi

Je pense avoir vu des formulations similaires à cela dans la littérature sur l'apprentissage automatique; pour autant que je puisse voir qu'elle est équivalente à la première définition, tout ce que j'ai fait est de ré-exprimer la deuxième formulation un peu différemment pour éliminer les et les .yϵiy^

Dikran Marsupial
la source
3

La différence est plus facile à illustrer avec un exemple. En voici une simple:

Supposons que Y soit bimodal, la modalité étant représentée par une variable indépendante. Par exemple, supposons que Y soit la hauteur et que votre échantillon (pour une raison quelconque) se compose de jockeys et de basketteurs. par exemple dansR

set.seed(123)
tall <- rnorm(100, 78, 3)
short <- rnorm(100, 60, 3)

height <- c(tall, short)
sport <- c(rep("B", 100), rep("H",100))

plot(density(height))

m1 <- lm(height~sport)
plot(m1)

la première densité est très anormale. Mais les résidus du modèle sont extrêmement proches de la normale.

Quant à savoir pourquoi les restrictions sont placées de cette façon - je laisserai quelqu'un d'autre répondre à celle-ci.

Peter Flom - Réintégrer Monica
la source
1
yiϵi
Dans ce cas, l'hétéroscédasticité serait un problème et vous auriez besoin d'utiliser une autre forme de régression, ou éventuellement une transformation, ou vous pourriez ajouter une autre variable (dans cet exemple idiot, la position jouée au basket-ball pourrait le faire).
Peter Flom - Réintègre Monica
Je ne suis pas sûr que la formulation vise à suggérer que les y sont normalement distribués, juste qu'ils ont une distribution conditionnelle normale.
Dikran Marsupial
2


yiN(y^i,σε2)
y^xi

y^i y i ~ N ( x i β , σ 2 ε ) E [ x i β ]xiβ^

yiN(xiβ^,σε2)

E[xiβ^]=E[xiβ^+E[N(0,σε2)]]=E[xiβ^+0]=E[xiβ^]
(Et évidemment les variances sont égales.) En d'autres termes, ce n'est pas une différence d'hypothèses, mais simplement une différence de notation.

La question devient donc: y a-t-il une raison de préférer présenter l'idée en utilisant la première formulation?

Je pense que la réponse est oui pour deux raisons:

  1. Les gens confondent souvent si les données brutes doivent être normalement distribuées (ie, ), ou si les données conditionnelles à / les erreurs doivent être normalement distribuées (ie, / ), par exemple, voir : Et si les résidus sont normalement distribués, mais y ne l'est pas?YXY|Xε
  2. Les gens confondent également souvent ce qui est censé être indépendant, les données brutes ou les erreurs. De plus, nous mentionnons souvent le fait que quelque chose devrait être iid (indépendant et identique); si vous pensez en termes de cela peut être une autre source potentielle de confusion, car peut être indépendant, mais ne peut être distribué de manière identique à moins que l'hypothèse nulle ne soit vérifiée (car la moyenne varierait). Y|XY|X

Je crois que ces confusions utilisent plus probablement la deuxième formulation que la première.

gung - Réintégrer Monica
la source
1
@Glen_b, je ne suis pas votre commentaire. Je ne prétends pas que est égal à , mais plutôt que est égal à . Le indexant les observations est pertinent. L'idée est que la valeur prédite, , pour une observation donnée est . Cela n'a rien à voir avec / la moyenne de la population de . (Il semble que j'avais oublié d'ajouter des chapeaux à mes bêtas, cependant; j'ai corrigé cela maintenant.)y^Xβy^ixiβ^iy^ixiβ^Y
gung - Réinstallez Monica
@Glen_b s'il s'agissait de l'échantillon, ce serait plutôt que . J'ai d'abord trouvé la notation déroutante également, mais le fait que découle des déclarations que et . Pour que ces deux choses soient vraies, ne peut être que . y y =Xβyi=Xβ+εiεi=yi - y y Xβy¯y^y^=Xβyi=Xβ+ϵiϵi=yiy^y^Xβ
Dikran Marsupial