Quels tests dois-je utiliser pour confirmer que les résidus sont normalement distribués?

J'ai quelques données qui semblent en traçant un graphique des résidus en fonction du temps presque normal mais je veux en être sûr. Comment puis-je tester la normalité des résidus d'erreur?

hypothesis-testing normal-distribution assumptions pb1
la source

Étroitement liés: tests de normalité appropriés pour les petits échantillons . Voici quelques autres questions pouvant présenter un intérêt: les tests de normalité sont-ils essentiellement inutiles , pour une discussion sur la valeur des tests de normalité, et ce qui se passe si les résidus sont normalement distribués mais y est non , pour une discussion / clarification du sens dans lequel la normalité est une hypothèse d'un modèle linéaire.

gung - Rétablir Monica

On peut voir un malentendu très courant de l'essentiel d'un test de Shapiro Wilk! Le sens correct en faveur de H0 est que le H0 ne peut pas être rejeté, mais ATTENTION! Cela ne signifie pas automatiquement "les données sont normalement distribuées" !!! Le résultat alternatif est "Les données ne sont pas normalement distribuées".

Joe Hallenbeck

Réponses:

Aucun test ne vous dira que vos résidus sont normalement distribués. En fait, vous pouvez parier de manière fiable qu'ils ne le sont pas .
Les tests d'hypothèse ne sont généralement pas une bonne idée pour vérifier vos hypothèses. L'effet de la non-normalité sur votre inférence n'est généralement pas fonction de la taille de l'échantillon *, mais le résultat d'un test de signification l' est . Un petit écart par rapport à la normalité sera évident pour un échantillon de grande taille, même si la réponse à la question de l'intérêt réel («dans quelle mesure cela a-t-il affecté ma déduction?») Peut être «presque pas du tout». De même, un écart important par rapport à la normalité pour un petit échantillon peut ne pas approcher de la signification.

* (ajouté dans l'édition) - en fait, c'est une déclaration beaucoup trop faible. L'impact de la non-normalité diminue en fait avec la taille de l'échantillon à peu près à chaque fois que le CLT et le théorème de Slutsky vont tenir, tandis que la capacité de rejeter la normalité (et probablement d'éviter les procédures de théorie normale) augmente avec la taille de l'échantillon ... vous êtes le plus en mesure d'identifier la non-normalité quand cela n'a pas d'importance toute façon ... et le test n'est d'aucune aide quand il est réellement important, dans de petits échantillons. $^\dagger$

$\dagger$ bien, au moins en ce qui concerne le niveau de signification. La puissance peut toujours être un problème, mais si nous considérons de grands échantillons comme ici, cela peut aussi être moins un problème.
Ce qui se rapproche le plus de la mesure de la taille de l'effet est un diagnostic (soit un affichage, soit une statistique) qui mesure le degré de non-normalité d'une manière ou d'une autre. Un tracé QQ est un affichage évident, et un tracé QQ de la même population à une taille d'échantillon et à une taille d'échantillon différentes sont au moins les deux estimations bruyantes de la même courbe - montrant à peu près la même `` non-normalité ''; elle devrait au moins être approximativement liée de façon monotone à la réponse souhaitée à la question d'intérêt.

Si vous devez utiliser un test, Shapiro-Wilk est probablement à peu près aussi bon que n'importe quoi d'autre (le test Chen-Shapiro est généralement un peu meilleur sur les alternatives d'intérêt commun, mais plus difficile à trouver des implémentations de) - mais il répond à une question que vous connaissent déjà la réponse à; chaque fois que vous refusez de le rejeter, cela donne une réponse dont vous pouvez être sûr qu'il a tort.

Glen_b -Reinstate Monica
la source

+1 Glen_b parce que vous marquez plusieurs bons points. Cependant, je ne serais pas si négatif quant à l'utilisation des tests de qualité de l'ajustement. Lorsque la taille de l'échantillon est petite ou modérée, le test n'aura pas une puissance suffisante pour détecter de légers écarts par rapport à la distribution normale. De très grandes différences peuvent entraîner des valeurs de p très faibles (par exemple 0,0001 ou moins). Celles-ci peuvent être des indications plus formelles que l'observation visuelle d'une parcelle qq mais elles sont toujours très utiles. On peut également examiner les estimations de l'asymétrie et du kurtosis. C'est dans de très grands échantillons que la qualité des tests d'ajustement pose problème.

Michael R. Chernick

Dans ces cas, de petits départs seront détectés. Tant que l'analyste reconnaît que, dans la pratique, la distribution de la population ne sera pas exactement normale et rejeter l'hypothèse nulle lui dit simplement que sa distribution est légèrement non normale, il ne s'égarera pas. L'enquêteur doit alors juger par lui-même si l'hypothèse de normalité est une préoccupation ou non compte tenu du léger écart que le test détecte. Shapiro-Wilk est en fait l'un des tests les plus puissants contre l'hypothèse de normalité.

Michael R. Chernick

+1, j'aime particulièrement le point # 2; dans ce sens, il convient de noter que même si l'inclinaison ou le kurtosis est assez mauvais, avec un N très grand, le théorème de la limite centrale vous couvrira, c'est donc le moment où vous avez le moins besoin de normalité.

gung - Rétablir Monica

@gung il y a des circonstances où une bonne approximation de la normalité sera importante. Par exemple, lors de la construction d'intervalles de prédiction à l'aide d'hypothèses normales. Mais je compterais toujours plus sur un diagnostic (qui montre à quel point c'est

anormal

Votre point sur les intervalles de prédiction est bon.

gung - Réintégrer Monica

Le test de Shapiro-Wilk est une possibilité.

Test de Shapiro-Wilk

Ce test est implémenté dans presque tous les progiciels statistiques. L'hypothèse nulle est que les résidus sont normalement distribués, donc une petite valeur p indique que vous devez rejeter le nul et conclure que les résidus ne sont pas normalement distribués.

Notez que si la taille de votre échantillon est grande, vous rejetterez presque toujours, donc la visualisation des résidus est plus importante.

Glen
la source

Il s'agit de "Wilk" et non de "Wilks".

Michael R. Chernick

De wikipedia:

Les tests de normalité univariée comprennent le test du carré K de D'Agostino, le test Jarque – Bera, le test Anderson – Darling, le critère Cramér – von Mises, le test Lilliefors pour la normalité (lui-même une adaptation du test Kolmogorov – Smirnov), le Test de Shapiro – Wilk, test du chi carré de Pearson et test de Shapiro – Francia. Un article de 2011 du Journal of Statistical Modeling and Analytics [1] conclut que Shapiro-Wilk a le meilleur pouvoir pour une signification donnée, suivi de près par Anderson-Darling lors de la comparaison de Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors et Anderson- Tests chérie.

Taylor
la source

-1: Vous pouvez inclure un lien vers la page Wikipedia, supprimer la note de bas de page ("[1]") et utiliser la fonction blockquote.

Bernd Weiss

La mise en garde que Glen_b donne est importante à garder à l'esprit chaque fois que l'un de ces tests de qualité de l'ajustement est utilisé. Je pense que le résultat que vous vous inquiétez de Shapiro-Wilk n'est pas aussi général que vous le prétendez. Je ne pense pas qu'il existe un test de normalité le plus puissant au monde.

Michael R. Chernick

n \geq 1

$n \ge 1$

@GregSnow Je n'ai pas le temps d'examiner attentivement votre package et je ne suis peut-être pas assez habile avec R pour tout suivre. Êtes-vous en train de dire qu'il existe un test de normalité le plus puissant au monde ou dites-vous que vous fournissez des exemples pour montrer quand différents tests sont les plus puissants et donc qu'il n'existe pas de test global. J'ai des doutes quant à son existence et je ne pense pas que Shapiro-Wilk le serait. Si vous prétendez qu'il en existe un, j'aimerais voir une preuve mathématique ou une référence à celle-ci.

Michael R. Chernick

@MichaelChernick, mon affirmation est que mon test aura autant de puissance ou plus (sera autant ou plus susceptible de rejeter l'hypothèse nulle des données provenant d'une normale exacte) que tout autre test de normalité. Le code R n'est pas difficile à suivre, le code de base pour calculer la valeur de p est "tmp.p <- if (any (is.rational (x))) {0", la preuve de sa puissance doit être évidente ( J'ai seulement prétendu qu'il est puissant et que la documentation peut être utile, pas que le test lui-même soit utile, google pour "l'aphorisme de Cochrane").

Greg Snow