Que se passe-t-il si les résidus sont normalement distribués, mais que y ne le soit pas?

110

J'ai une question étrange. Supposons que vous avez un petit échantillon dans lequel la variable dépendante que vous allez analyser avec un modèle linéaire simple est fortement asymétrique. Ainsi , on suppose que est normalement distribué, car cela entraînerait une distribution normale y . Mais lorsque vous calculez le graphe QQ-Normal, il est évident que les résidus sont normalement distribués. Ainsi, n'importe qui peut supposer que le terme d'erreur est normalement distribué, bien que y ne le soit pas. Alors , qu'est-ce que cela signifie, lorsque le terme d'erreur semble être normalement distribué, mais y ne fonctionne pas?uyyy

MarkDollar
la source

Réponses:

143

yN(βx,σ2)β=1yxyxxxyxyx

Dikran Marsupial
la source
9
(+1) Je ne pense pas que cela puisse être répété assez souvent! Voir aussi le même sujet discuté ici .
Wolfgang
1
β=1yN(1x,σ2)E(y|x)xyN(value,σ2)yxy
4
p(y,x)E(y|x)yxyxx
Dikran Marsupial
2
yxyy
E(y|x)p(y,x)
100

YX

β0β1

BPsys=1601×daily drug dosage+εwhere εN(0,9)
X

entrez la description de l'image ici

Y

entrez la description de l'image ici

YY

YXp<.05β1

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532                   

entrez la description de l'image ici

Ces résultats montrent que tout se passe bien.

X YX

gung - Rétablir Monica
la source
1
Donc, l'hypothèse de la distribution normale des résidus n'est que pour que les valeurs p soient correctes? Pourquoi les valeurs p risquent-elles de mal tourner si le résidu n'est pas normal?
avocat
3
@loganecolss, cela pourrait être mieux comme nouvelle question. Quoi qu'il en soit, oui, il faut vérifier si les valeurs p sont correctes. Si vos résidus sont suffisamment non normaux et que votre nombre d'azote est faible, la distribution d'échantillonnage sera différente de celle théorisée. Étant donné que la valeur p correspond au pourcentage de cette distribution d'échantillonnage qui dépasse les statistiques de test, la valeur p sera erronée.
gung - Réintégrer Monica
0

XYX

Dovini Jayasinghe
la source
3
La distribution marginale de la réponse n'est pas "sans signification" du tout; c'est la distribution marginale de la réponse (et devrait souvent faire allusion à des modèles autres que la régression simple avec des erreurs normales). Vous avez raison de souligner que les distributions conditionnelles sont importantes une fois que nous examinons le modèle en question, mais cela n'ajoute rien aux excellentes réponses existantes.
Nick Cox le