Que dois-je vérifier pour la normalité: données brutes ou résidus?

27

J'ai appris que je dois tester la normalité non pas sur les données brutes mais sur leurs résidus. Dois-je calculer les résidus et ensuite faire le test W de Shapiro-Wilk?

Les résidus sont-ils calculés comme : ?Ximean

Veuillez consulter cette question précédente pour mes données et la conception.

Stan
la source
Faites-vous cela en utilisant un logiciel (et si oui, quel logiciel) ou essayez-vous de faire les calculs à la main?
Chris Simokat
@Chris Simokat: J'essaie de le faire avec R et Statistica ...
stan
3
Cette question peut être intéressante: que-si-les-résidus-sont-normalement-distribués-mais-y-n'est pas ; il couvre également la question de savoir si la normalité est exigée des données brutes ou des résidus.
gung - Réintégrer Monica
1
Désolé, je ne suis pas assez averti avec SAS pour savoir comment le faire automatiquement dans différentes situations. Cependant, lorsque vous exécutez une régression, vous devriez pouvoir enregistrer les résidus dans un jeu de données en sortie, et un qq-plot peut alors être créé.
gung - Rétablir Monica
1
Bonne info par Karen Grace-Martin: ceci et cela
stan

Réponses:

37

Pourquoi devez-vous tester la normalité?

L'hypothèse standard en régression linéaire est que les résidus théoriques sont indépendants et normalement distribués. Les résidus observés sont une estimation des résidus théoriques, mais ne sont pas indépendants (il y a des transformations sur les résidus qui éliminent une partie de la dépendance, mais ne donnent toujours qu'une approximation des vrais résidus). Un test sur les résidus observés ne garantit donc pas l'adéquation des résidus théoriques.

Si les résidus théoriques ne sont pas exactement distribués normalement, mais que la taille de l'échantillon est suffisamment grande, le théorème de la limite centrale dit que l'inférence habituelle (tests et intervalles de confiance, mais pas nécessairement les intervalles de prédiction) basée sur l'hypothèse de normalité sera toujours approximativement correcte .

Notez également que les tests de normalité sont des tests d'exclusion, ils peuvent vous dire qu'il est peu probable que les données proviennent d'une distribution normale. Mais si le test n'est pas significatif, cela ne signifie pas que les données proviennent d'une distribution normale, cela peut également signifier que vous n'avez tout simplement pas assez de puissance pour voir la différence. Des échantillons plus grands donnent plus de pouvoir pour détecter la non-normalité, mais des échantillons plus grands et le CLT signifient que la non-normalité est la moins importante. Ainsi, pour les petits échantillons, l'hypothèse de normalité est importante mais les tests n'ont pas de sens, pour les grands échantillons, les tests peuvent être plus précis, mais la question de la normalité exacte devient vide de sens.

Donc, en combinant tout ce qui précède, ce qui est plus important qu'un test de normalité exacte est une compréhension de la science derrière les données pour voir si la population est assez proche de la normale. Des graphiques comme qqplots peuvent être de bons diagnostics, mais une compréhension de la science est également nécessaire. Si l'on craint qu'il y ait trop d'asymétrie ou de potentiel pour les valeurs aberrantes, alors des méthodes non paramétriques sont disponibles qui ne nécessitent pas l'hypothèse de normalité.

Greg Snow
la source
6
Pour répondre à la question de la première ligne: la normalité approximative est cruciale pour appliquer les tests F en ANOVA et pour créer des limites de confiance autour des variances. (+1) pour les bonnes idées.
whuber
4
@whuber, oui la normalité approximative est importante, mais les tests testent la normalité exacte, pas approximative. Et pour les échantillons de grande taille, il n'est pas nécessaire que les données soient très proches (là où les tests sont les plus susceptibles de rejeter). Une bonne intrigue et une bonne connaissance de la science qui a produit les données sont beaucoup plus utiles qu'un test formel de normalité si vous justifiez à l'aide de tests F (ou d'une autre inférence basée sur la normale).
Greg Snow
Greg, OK je fais l'ajustement de la distribution et je vois que mes données proviennent, disons, de la distribution bêta ou gamma et que dois-je faire alors? ANOVA qui suppose la loi gaussienne?
stan
2
(+1) Cela s'est bien passé sauf à la fin. Vous n'avez pas à choisir entre (a) une régression basée sur une hypothèse de normalité et (b) des procédures non paramétriques. Les transformations avant régression et / ou les modèles linéaires généralisés ne sont que deux alternatives majeures. Je reconnais que vous n'essayez pas ici de résumer tout sur la modélisation statistique, mais la dernière partie pourrait être légèrement amplifiée.
Nick Cox
Donc au final, en régression linéaire, faut-il tester la normalité des données brutes ou la normalité des résidus?
vasili111
7

Les Asuumptions gaussiennes se réfèrent aux résidus du modèle. Aucune hypothèse n'est nécessaire sur les données d'origine. Par exemple, la distribution des ventes quotidiennes de bière. entrez la description de l'image iciAprès qu'un modèle raisonnable a capturé le jour de la semaine, les effets de vacances / événements, les changements de niveau / les tendances temporelles que nous obtenonsentrez la description de l'image ici

IrishStat
la source
Merci pour votre réponse. Vous voulez dire que nous pouvons transformer nos données en distribution gaussienne ...?
stan
3
Stan, le rôle de la modélisation est de faire exactement cela pour que l'inférence puisse être faite et l'hypothèse testée.
IrishStat
6

D'abord, vous pouvez le «globe oculaire» en utilisant un QQ-plot pour avoir un sens général, voici comment en générer un dans R.

Selon le manuel R, vous pouvez alimenter votre vecteur de données directement dans la fonction shapiro.test ().

Si vous souhaitez calculer les résidus vous-même, oui, chaque résidu est calculé de cette façon sur votre ensemble d'observations. Vous pouvez en voir plus ici .

Chris Simokat
la source
Donc, pour autant que je comprenne, les méthodes de normalité vérifient en fait la normalité des résidus de nos données brutes. Ils le font automatiquement et nous ne devons pas calculer les résidus et les soumettre au test. Et dans le discours de tous les jours, nous passons généralement à "mes données sont normalement distribuées" en supposant que les résidus de mes données sont "normaux". S'il vous plaît corrigez-moi.
stan
6
Je ne suis pas d'accord avec votre dernier point. Les gens qui disent que mes données sont normalement distribuées ne font généralement pas référence aux résidus. Je pense que les gens disent cela parce qu'ils pensent que chaque procédure statistique exige que toutes les données soient normales.
Glen
@Glen franchement, je pense (à tort) la même chose jusqu'à présent ... Je ne peux pas comprendre (c'est mon problème) si j'ai un gamma ou une bêta ou quoi que ce soit de données distribuées dois-je faire des statistiques pour eux comme elles sont normalement distribué malgré leur distribution vraie / naturelle? Et le fait de la distribution n'est qu'indicatif? Je n'ai connu que la distribution gaussienne avant ce site ...
stan