J'ai une régression linéaire qui est assez bonne, je suppose (c'est pour un projet universitaire donc je n'ai pas vraiment besoin d'être super précis).
Le fait est que, si je trace les valeurs résiduelles par rapport aux valeurs prédites, il y a (selon mon professeur) une pointe d'hétéroskédasticité.
Mais si je trace le QQ-Plot des résidus, il est clair qu'ils sont normalement distribués. De plus, le test de Shapiro sur les résidus a une valeur de de , donc je pense qu'il n'y a aucun doute que les résidus sont en fait normalement distribués.0,8
Question: Comment peut-il y avoir une hétéroscédasticité sur les valeurs prédites si les résidus sont normalement distribués?
ncvTest
fonction du package de voiture pourR
effectuer un test formel d'hétéroscédasticité. Dans l'exemple de whuber, la commandencvTest(fit)
produit une valeur qui est presque nulle et fournit des preuves solides contre la variance d'erreur constante (ce qui était prévu, bien sûr).Réponses:
Une façon d'aborder cette question est de la regarder à l'envers: comment pourrions-nous commencer avec des résidus normalement distribués et les arranger pour qu'ils soient hétéroscédastiques? De ce point de vue, la réponse devient évidente: associer les plus petits résidus aux plus petites valeurs prédites.
Pour illustrer, voici une construction explicite.
Les données de gauche sont clairement hétéroscédastiques par rapport à l'ajustement linéaire (montré en rouge). Ceci est déterminé par les résidus par rapport au graphique prévu à droite. Mais - par construction - l' ensemble non ordonné de résidus est proche de la distribution normale, comme le montre leur histogramme au milieu. (La valeur de p dans le test de normalité de Shapiro-Wilk est de 0,60, obtenue avec la
R
commandeshapiro.test(residuals(fit))
émise après l'exécution du code ci-dessous.)Les données réelles peuvent également ressembler à ceci. La morale est que l' hétéroscédasticité caractérise une relation entre la taille résiduelle et les prédictions alors que la normalité ne nous dit rien sur la façon dont les résidus sont liés à autre chose.
Voici le
R
code de cette construction.la source
Dans la régression des moindres carrés pondérés (WLS), ce sont les facteurs aléatoires des résidus estimés que vous voudrez peut-être voir sont normalement distribués, bien que ce ne soit souvent pas très important. Les résidus estimés peuvent être pris en compte, comme indiqué dans un cas de régression simple (un régresseur et à travers l'origine), au bas de la page 1, et les moitiés inférieures des pages 2 et 7 dans https://www.researchgate.net/publication / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys Quoi qu'il en soit, cela pourrait aider à montrer où la normalité peut entrer dans l'image.
la source