Hétéroscédasticité et normalité des résidus

12

J'ai une régression linéaire qui est assez bonne, je suppose (c'est pour un projet universitaire donc je n'ai pas vraiment besoin d'être super précis).

Le fait est que, si je trace les valeurs résiduelles par rapport aux valeurs prédites, il y a (selon mon professeur) une pointe d'hétéroskédasticité.

Mais si je trace le QQ-Plot des résidus, il est clair qu'ils sont normalement distribués. De plus, le test de Shapiro sur les résidus a une valeur de de , donc je pense qu'il n'y a aucun doute que les résidus sont en fait normalement distribués.0,8p0.8

Question: Comment peut-il y avoir une hétéroscédasticité sur les valeurs prédites si les résidus sont normalement distribués?

Fourmi
la source
1
Un très court ajout à @whubers excellente réponse: vous pouvez utiliser la ncvTestfonction du package de voiture pour Reffectuer un test formel d'hétéroscédasticité. Dans l'exemple de whuber, la commande ncvTest(fit)produit une valeur qui est presque nulle et fournit des preuves solides contre la variance d'erreur constante (ce qui était prévu, bien sûr). p
COOLSerdash

Réponses:

16

Une façon d'aborder cette question est de la regarder à l'envers: comment pourrions-nous commencer avec des résidus normalement distribués et les arranger pour qu'ils soient hétéroscédastiques? De ce point de vue, la réponse devient évidente: associer les plus petits résidus aux plus petites valeurs prédites.

Pour illustrer, voici une construction explicite.

Figure

Les données de gauche sont clairement hétéroscédastiques par rapport à l'ajustement linéaire (montré en rouge). Ceci est déterminé par les résidus par rapport au graphique prévu à droite. Mais - par construction - l' ensemble non ordonné de résidus est proche de la distribution normale, comme le montre leur histogramme au milieu. (La valeur de p dans le test de normalité de Shapiro-Wilk est de 0,60, obtenue avec la Rcommande shapiro.test(residuals(fit))émise après l'exécution du code ci-dessous.)

Les données réelles peuvent également ressembler à ceci. La morale est que l' hétéroscédasticité caractérise une relation entre la taille résiduelle et les prédictions alors que la normalité ne nous dit rien sur la façon dont les résidus sont liés à autre chose.


Voici le Rcode de cette construction.

set.seed(17)
n <- 256
x <- (1:n)/n                       # The set of x values
e <- rnorm(n, sd=1)                # A set of *normally distributed* values
i <- order(runif(n, max=dnorm(e))) # Put the larger ones towards the end on average
y <- 1 + 5 * x + e[rev(i)]         # Generate some y values plus "error" `e`.
fit <- lm(y ~ x)                   # Regress `y` against `x`.
par(mfrow=c(1,3))                  # Set up the plots ...
plot(x,y, main="Data", cex=0.8)
abline(coef(fit), col="Red")
hist(residuals(fit), main="Residuals")
plot(predict(fit), residuals(fit), cex=0.8, main="Residuals vs. Predicted")
whuber
la source
2
ok donc vous dites que si j'associe de faibles résidus à des valeurs prédites élevées, une hétéroscédasticité peut se produire même si les résidus sont normalement distribués? Je pense que je l'ai, bien que je devrais vraiment y penser plus .. merci de toute façon!
Ant
... ou de faibles résidus avec de faibles valeurs prédites (comme dans l'exemple ici), ou même de manière plus complexe. Par exemple, l'hétéroscédasticité existe lorsque la magnitude moyenne des résidus oscille avec la valeur prédite. (La plupart des tests formels d'hétéroscédasticité ne le détectent pas, mais les tracés diagnostiques habituels le montrent clairement.)
whuber
0

Dans la régression des moindres carrés pondérés (WLS), ce sont les facteurs aléatoires des résidus estimés que vous voudrez peut-être voir sont normalement distribués, bien que ce ne soit souvent pas très important. Les résidus estimés peuvent être pris en compte, comme indiqué dans un cas de régression simple (un régresseur et à travers l'origine), au bas de la page 1, et les moitiés inférieures des pages 2 et 7 dans https://www.researchgate.net/publication / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys Quoi qu'il en soit, cela pourrait aider à montrer où la normalité peut entrer dans l'image.

Jim Knaub
la source
Bienvenue sur le site, @JimKnaub. Nous serions ravis de vous avoir autour de vous pour apporter votre expertise sur la question occasionnelle. Pourquoi ne pas enregistrer votre compte? Vous pouvez découvrir comment dans la section Mon compte de notre centre d'aide . Puisque vous êtes nouveau ici, vous voudrez peut-être faire notre visite , qui contient des informations pour les nouveaux utilisateurs.
gung - Rétablir Monica
3
Nous essayons de construire un référentiel permanent d'informations statistiques de haute qualité sous forme de questions et réponses. Ainsi, nous nous méfions des réponses qui dépendent des liens, en raison de linkrot. Pouvez-vous publier une citation complète et un résumé des informations (par exemple, des chiffres / explications) à partir du lien afin que les informations restent utiles même si le lien disparaît?
gung - Rétablir Monica