J'ai lu quelque part dans la littérature que le test de Shapiro-Wilk est considéré comme le meilleur test de normalité car pour un niveau de signification donné, , la probabilité de rejeter l'hypothèse nulle si elle est fausse est plus élevée que dans le cas de l'autre tests de normalité.
Pourriez-vous s'il vous plaît m'expliquer, en utilisant si possible des arguments mathématiques, comment cela fonctionne exactement par rapport à certains des autres tests de normalité (par exemple le test d'Anderson – Darling)?
Réponses:
D'abord un commentaire général: Notez que le test d'Anderson-Darling est pour des distributions complètement spécifiées, tandis que le Shapiro-Wilk est pour des normales avec n'importe quelle moyenne et variance. Cependant, comme indiqué dans D'Agostino & Stephens Anderson-Darling s'adapte de manière très pratique au cas d'estimation, semblable à (mais converge plus rapidement et est modifié d'une manière qui est plus simple à gérer que le Test de Lilliefors pour l'affaire Kolmogorov-Smirnov). Plus précisément, à la normale, par , les tables de la valeur asymptotique de peut être utilisé (ne testez pas la qualité de l'ajustement pour n <5).[ 1 ] n = 5 UNE∗= A2( 1 + 4n- 25n2)
En règle générale, c'est faux.
Les tests de normalité qui sont «meilleurs» dépendent des classes d'alternatives qui vous intéressent. L'une des raisons pour lesquelles le Shapiro-Wilk est populaire est qu'il a tendance à avoir un très bon pouvoir dans une large gamme d'alternatives utiles. Il revient dans de nombreuses études sur le pouvoir et fonctionne généralement très bien, mais ce n'est pas universellement le meilleur.
Il est assez facile de trouver des alternatives sous lesquelles il est moins puissant.
Par exemple, contre des alternatives à queue légère, elle a souvent moins de puissance que la plage étudiée (comparez-les sur un test de normalité sur des données uniformes , par exemple - à , un test basé sur a une puissance d'environ 63% contre un peu plus de 38% pour le Shapiro Wilk).u = max ( x ) - min ( x )s d( x ) n = 30 u
L'Anderson-Darling (ajusté pour l'estimation des paramètres) fait mieux à la double exponentielle. L'inclinaison du moment fait mieux contre certaines alternatives de biais.
Je vais vous expliquer en termes généraux (si vous voulez des détails plus précis, les articles originaux et certains des articles ultérieurs qui en discutent seraient votre meilleur pari):
Considérons un test plus simple mais étroitement lié, le Shapiro-Francia; c'est en fait une fonction de la corrélation entre les statistiques de commande et les statistiques de commande attendues dans le cadre de la normalité (et en tant que telle, une mesure assez directe de la "droite de la ligne" dans le tracé QQ normal). Si je me souviens bien, le Shapiro-Wilk est plus puissant car il prend également en compte les covariances entre les statistiques d'ordre, produisant un meilleur estimateur linéaire de partir du tracé QQ, qui est ensuite mis à l'échelle par . Lorsque la distribution est loin d'être normale, le ratio n'est pas proche de 1.σ s
En comparaison, l'Anderson-Darling, comme le Kolmogorov-Smirnov et le Cramér-von Mises, est basé sur le CDF empirique. Plus précisément, il est basé sur les écarts pondérés entre ECDF et ECDF théorique (la pondération pour la variance le rend plus sensible aux écarts dans la queue).
Le test de Shapiro et Chen (1995) (basé sur les espacements entre les statistiques d'ordre) montre souvent un peu plus de puissance que le Shapiro-Wilk (mais pas toujours); ils fonctionnent souvent de manière très similaire.[ 2 ]
-
Utilisez le Shapiro Wilk car il est souvent puissant, largement disponible et beaucoup de gens le connaissent (supprimant la nécessité d'expliquer en détail ce que c'est si vous l'utilisez dans un document) - ne l'utilisez pas sous l'illusion qu'il est "le meilleur test de normalité". Il n'y a pas de meilleur test de normalité.
[1]: D'Agostino, RB et Stephens, MA (1986)
Goodness of Fit Techniques ,
Marcel Dekker, New York.
[2]: Chen, L. et Shapiro, S. (1995)
"An Alternative test for normality based on normalized spacings."
Journal of Statistical Computation and Simulation 53 , 269-287.
la source
shapiro.test
dans R obtiendra une erreur.sample size must be between 3 and 5000
Ensuite, quel autre test devrait être utilisé?De toute évidence, la comparaison que vous avez lue ne comprenait pas
SnowsPenultimateNormalityTest
( http://cran.r-project.org/web/packages/TeachingDemos/TeachingDemos.pdf ) car elle a la puissance la plus élevée possible parmi toutes les alternatives. Il devrait donc être considéré comme "meilleur" si le pouvoir est la seule considération (notez que mes opinions sont clairement biaisées, mais documentées dans le lien / la documentation).Cependant, je suis d'accord avec le commentaire de Nick Cox selon lequel le meilleur test est un complot plutôt qu'un test formel puisque la question de "assez Normal" est beaucoup plus importante que "Exactement normal". Si vous voulez un test significatif, je suggère de combiner l'intrigue qq avec la méthodologie de cet article:
Une implémentation de cela est la
vis.test
fonction dans le package TeachingDemos pour R (même package queSnowsPenultimateNormalityTest
).la source
Je suis en retard à la fête, mais je répondrai en faisant référence aux recherches publiées par des pairs. La raison pour laquelle je ne réponds pas Oui / Non à la question d'OP est que c'est plus compliqué qu'il n'y paraît. Il n'y a pas un seul test qui serait le plus puissant pour les échantillons provenant de n'importe quelle distribution avec ou sans valeurs aberrantes. Les valeurs aberrantes peuvent sérieusement diminuer la puissance d'un test et augmenter pour un autre. Certains tests fonctionnent mieux lorsque l'échantillon provient d'une distribution symétrique, etc.
et
Si vous voulez vraiment résumer leur recherche à oui / non, alors la réponse est OUI. Le test de Shapiro-Wilks semble être un peu plus puissant dans la plupart des cas que Anderson-Darling. Ils recommandent le test Shapiro Wilk lorsque vous n'avez pas en tête une distribution alternative particulière. Cependant, si vous êtes intéressé par ce sujet, le document mérite d'être lu. Regardez au moins les tableaux.
Edith Seier, Normality Tests: Power Comparison , dans International Encyclopedia of Statistical Science, 2014 - A survey of published research on the subject. Encore une fois, la réponse dépend de l'échantillon et de vos connaissances sur la distribution alternative, mais la réponse banalisée serait OUI, Shapiro-Wilk est généralement plus puissant, mais pas toujours.
Henry C. Thode, Normality Tests , dans International Encyclopedia of Statistical Science, 2014 - Description of popular normality tests. Sa recommandation:
Maintenant, il s'agissait de tests univariés. Le Thode (2002) propose également des tests multivariés, des données censurées, des mélanges normaux, des tests en présence de valeurs aberrantes et bien plus encore.
la source
Une réponse plus sérieuse pour approfondir cette question et surtout l'intérêt continu de @ silverfish. Une approche pour répondre à des questions comme celle-ci consiste à effectuer des simulations pour comparer. Vous trouverez ci-dessous un code R qui simule les données sous diverses alternatives et effectue plusieurs tests de normalité et compare la puissance (et un intervalle de confiance sur la puissance, car la puissance est estimée par simulation). J'ai légèrement ajusté la taille des échantillons car ce n'était pas intéressant lorsque de nombreux pouvoirs étaient proches de 100% ou 5%, j'ai trouvé des nombres ronds qui donnaient des pouvoirs proches de 80%. Toute personne intéressée pourrait facilement prendre ce code et le modifier pour différentes hypothèses, différentes alternatives, etc.
Vous pouvez voir qu'il existe des alternatives pour lesquelles certains des tests font mieux et d'autres où ils font pire. La question importante est alors de savoir quelles alternatives sont les plus réalistes pour vos questions / domaines scientifiques. Cela devrait vraiment être suivi d'une simulation de l'effet des types de non-normalité d'intérêt sur d'autres tests en cours. Certains de ces types de non-normalité affectent grandement d'autres tests normaux, d'autres ne les affectent pas beaucoup.
la source