Pourquoi est-il nécessaire de poser l'hypothèse distributionnelle sur les erreurs, c'est-à-dire
ϵ i ∼ N ( 0 , σ 2 ) , avec .
Pourquoi ne pas écrire
y i ~ N ( X β , σ 2 ) , avec ,
où dans les deux cas . Je l'ai vu souligné que les hypothèses de distribution sont placées sur les erreurs, pas sur les données, mais sans explication.
Je ne comprends pas vraiment la différence entre ces deux formulations. À certains endroits, je vois des hypothèses de distribution être placées sur les données (Bayesian lit. il semble surtout), mais la plupart du temps, les hypothèses sont placées sur les erreurs.
Lors de la modélisation, pourquoi choisir / devrait-on commencer par des hypothèses sur l'une ou l'autre?
Réponses:
Dans un cadre de régression linéaire, il est courant de faire des analyses et de dériver des résultats conditionnels à , c'est-à-dire conditionnels aux "données". Ainsi, ce dont vous avez besoin est que soit normal, c'est-à-dire que vous avez besoin de pour être normal. Comme l'illustre l'exemple de Peter Flom, on peut avoir la normalité de sans avoir la normalité de , et donc, puisque ce dont vous avez besoin est la normalité de , c'est l'hypothèse sensée.y ∣ X ϵ ϵ y ϵX y∣X ϵ ϵ y ϵ
la source
J'écrirais la deuxième définition comme
ou (comme le suggère Karl Oskar +1)
c'est-à-dire que l'hypothèse de modélisation est que la variable de réponse est normalement distribuée autour de la droite de régression (qui est une estimation de la moyenne conditionnelle), avec une variance constante . Ce n'est pas la même chose que de suggérer que sont normalement distribués, car la moyenne de la distribution dépend de .y i X iσ2 yi Xi
Je pense avoir vu des formulations similaires à cela dans la littérature sur l'apprentissage automatique; pour autant que je puisse voir qu'elle est équivalente à la première définition, tout ce que j'ai fait est de ré-exprimer la deuxième formulation un peu différemment pour éliminer les et les .yϵi y^
la source
La différence est plus facile à illustrer avec un exemple. En voici une simple:
Supposons que Y soit bimodal, la modalité étant représentée par une variable indépendante. Par exemple, supposons que Y soit la hauteur et que votre échantillon (pour une raison quelconque) se compose de jockeys et de basketteurs. par exemple dans
R
la première densité est très anormale. Mais les résidus du modèle sont extrêmement proches de la normale.
Quant à savoir pourquoi les restrictions sont placées de cette façon - je laisserai quelqu'un d'autre répondre à celle-ci.
la source
La question devient donc: y a-t-il une raison de préférer présenter l'idée en utilisant la première formulation?
Je pense que la réponse est oui pour deux raisons:
Je crois que ces confusions utilisent plus probablement la deuxième formulation que la première.
la source