Comment la distribution du terme d'erreur affecte-t-elle la distribution de la réponse?

14

Donc, quand je suppose que les termes d'erreur sont normalement distribués dans une régression linéaire, qu'est-ce que cela signifie pour la variable de réponse, y ?

MarkDollar
la source

Réponses:

7

Peut-être que je m'en vais, mais je pense que nous devrions nous interroger sur , c'est ainsi que je lis l'OP. Dans le cas le plus simple de régression linéaire, si votre modèle est y = X β + ϵ, la seule composante stochastique de votre modèle est le terme d'erreur. En tant que tel, il détermine la distribution d'échantillonnage de y . Si ϵ N ( 0 , σ 2 I ) alors y | X , β N ( X β ,f(y|β,X)y=Xβ+ϵyϵN(0,σ2I) . Ce que dit @Aniko est certainement vrai pour f ( y ) (légèrement sur X , β ), cependant. En l'état, la question est légèrement vague.y|X,βN(Xβ,σ2I)f(y)X,β

JMS
la source
J'aime tous les commentaires! Et ils semblent tous avoir raison. Mais je cherchais juste la réponse la plus simple :) Que se passe-t-il lorsque vous supposez que le terme errer est distribué normalement. Que cela se produise maintenant très souvent en réalité ressort clairement des autres réponses! Merci beaucoup!
MarkDollar
17

La réponse courte est que vous ne pouvez rien conclure sur la distribution de , car cela dépend de la distribution des x et de la force et de la forme de la relation. Plus formellement, y aura une distribution de "mélange de normales", qui dans la pratique peut être à peu près n'importe quoi.yxy

Voici deux exemples extrêmes pour illustrer cela:

  1. Supposons qu'il n'y ait que deux valeurs possibles , 0 et 1, et y = 10 x + N ( 0 , 1 ) . Alors yxy=10x+N(0,1)y aura une distribution fortement bimodale avec des bosses à 0 et 10.
  2. Supposons maintenant la même relation, mais que soit uniformément distribué sur l'intervalle 0-1 avec beaucoup de valeurs. Ensuite, y sera réparti presque uniformément sur l'intervalle 0-10 (avec quelques queues semi-normales sur les bords).xy

En fait, puisque chaque distribution peut être approximativement arbitrairement bien avec un mélange de normales, vous pouvez vraiment obtenir n'importe quelle distribution pour .y

Aniko
la source
8
+1 Concernant la dernière déclaration: j'ai fait une fois l'erreur de penser cela aussi. Mathématiquement, vous avez raison, mais en pratique, il est presque impossible d'approximer un pic non différenciable avec des normales (telles que des distributions en J ou en U): les normales sont tout simplement trop plates à leurs pics pour capturer la densité dans les pointes. Vous avez besoin de beaucoup trop de composants. Les normales sont bonnes pour approximer les distributions dont les pdfs sont très lisses.
whuber
1
@whuber D'accord. Je ne suggérerais pas d'utiliser une approximation de mélange normal pour n'importe quelle distribution dans la pratique, j'essayais juste de donner un contre-exemple extrême.
Aniko
5

Nous inventons le terme d'erreur en imposant un modèle fictif aux données réelles; la distribution du terme d'erreur n'affecte pas la distribution de la réponse.

Nous supposons souvent que l'erreur est distribuée normalement et essayons donc de construire le modèle de telle sorte que nos résidus estimés soient normalement distribués. Cela peut être difficile pour certaines distributions de . Dans ces cas, je suppose que vous pourriez dire que la distribution de la réponse affecte le terme d'erreur.y

Thomas Levine
la source
2
« Nous essayons souvent de construire le modèle tel que notre terme d'erreur est normalement distribué » - pour être précis, je pense que vous faites référence aux résidus . Ce sont des estimations des termes d'erreur de la même manière que X β est une estimation de E ( y ) = X β . Nous aimerions que les résidus semblent normaux, car c'est ce que nous avons supposé au sujet des termes d'erreur pour commencer. Nous «inventons» le terme d'erreur en spécifiant un modèle et non en l'adaptant. yXβ^Xβ^E(y)=Xβ
JMS
Je suis d'accord avec votre précision, JMS. +1 et j'ajusterai ma réponse.
Thomas Levine
2

Si vous écrivez la réponse comme m est le "modèle" (la prédiction pour y ) et e est les "erreurs", alors cela peut être réorganisé pour indiquer y - m = e . Assigner une distribution pour les erreurs revient donc à indiquer les façons dont votre modèle est incomplet. Autrement dit, cela indique dans quelle mesure vous ne savez pas pourquoi la réponse observée était la valeur qu'elle était réellement, et non ce que le modèle avait prédit. Si vous saviez que votre modèle était parfait, vous attribueriez une distribution de probabilité avec toute sa masse à zéro pour les erreurs. Attribution d'un N (

y=m+e
myeym=eN(0,σ2)σσCauchy(0,γ)

memeyy=m+e=(m+b)+(eb)=m+e. L'affectation d'une distribution d'erreur et d'une équation de modèle indique essentiellement quels vecteurs arbitraires sont plus plausibles que d'autres.

probabilityislogic
la source
"This seems strange because you will only observe y once and only once (y is the complete vector/matrix/etc. of responses). How can this be "distributed"? In my view it can only be distributed in some imaginary ensemble, nothing to do with your actual observed response. At the very least, any such presumption of the response "being distributed" is untestable" I'm confused; are you saying we can't test H0:yf0 vs H1:yf1?
JMS
no, sorry, that can't be what you're saying. I'm still confused though. Maybe it's slightly imprecise, but the way I read it he's got n samples of yi from Y with fixed xi, his model is Y=Xβ+ϵ, and he's wondering what the assumed distribution of ϵ implies about the distribution of Y|β,X under his model. Here it would imply that it's normal; we can test that with our sample
JMS
@JMS - I think I might delete that first paragraph. I don't think it adds anything to my answer (besides confusion).
probabilityislogic
one of my favorite things to add to my answers :)
JMS