Je voudrais faire un test W de Shapiro Wilk et un test de Kolmogorov-Smirnov sur les résidus d'un modèle linéaire pour vérifier la normalité. Je me demandais simplement quels résidus utiliser pour cela - les résidus bruts, les résidus Pearson, les résidus studentisés ou les résidus standardisés? Pour un test W de Shapiro-Wilk, il apparaît que les résultats pour les résidus bruts et Pearson sont identiques mais pas pour les autres.
fit=lm(mpg ~ 1 + hp + wt, data=mtcars)
res1=residuals(fit,type="response")
res2=residuals(fit,type="pearson")
res3=rstudent(fit)
res4=rstandard(fit)
shapiro.test(res1) # W = 0.9279, p-value = 0.03427
shapiro.test(res2) # W = 0.9279, p-value = 0.03427
shapiro.test(res3) # W = 0.9058, p-value = 0.008722
shapiro.test(res4) # W = 0.9205, p-value = 0.02143
Même question pour KS, et aussi si les résidus doivent être testés contre une distribution normale (pnorm) comme dans
ks.test(res1, "pnorm") # D = 0.296, p-value = 0.005563
ou une distribution t-étudiant avec nk-2 degrés de liberté, comme dans
ks.test(res3, "pt",df=nrow(mtcars)-2-2)
Un conseil peut-être? De plus, quelles sont les valeurs recommandées pour les statistiques de test W (> 0,9?) Et D afin que la distribution soit suffisamment proche de la normalité et n'affecte pas trop votre inférence?
Enfin, le fait de prendre en compte l' approche de l'incertitude dans les coefficients de lm intégrés ou fonctionnerait cumres()
dans le paquet gof()
mieux à cet égard?
cheers, Tom
la source
Réponses:
Grew trop longtemps pour un commentaire.
Pour un modèle de régression ordinaire (tel que serait ajusté par
lm
), il n'y a pas de distinction entre les deux premiers types résiduels que vous considérez;type="pearson"
est pertinent pour les GLM non gaussiens, mais est le même queresponse
pour les modèles gaussiens.Les observations auxquelles vous appliquez vos tests (une certaine forme de résidus) ne sont pas indépendantes, donc les statistiques habituelles n'ont pas la distribution correcte. De plus, à strictement parler, aucun des résidus que vous considérez ne sera exactement normal, car vos données ne seront jamais exactement normales. [Les tests formels répondent à la mauvaise question - une question plus pertinente serait «dans quelle mesure cette non-normalité aura-t-elle un impact sur ma déduction?», Une question à laquelle la bonté habituelle des tests d'hypothèse d'ajustement ne répond pas.]
Même si vos données devaient être exactement normales, ni le troisième ni le quatrième type de résidu ne seraient exactement normaux. Néanmoins, il est beaucoup plus courant que les gens les examinent (disons par les parcelles QQ) que les résidus bruts.
la source