Quelle est la différence entre le test de normalité de Shapiro-Wilk et le test de normalité de Kolmogorov-Smirnov?

Réponses:

23

Vous ne pouvez même pas vraiment comparer les deux puisque le Kolmogorov-Smirnov est pour une distribution complètement spécifiée (donc si vous testez la normalité, vous devez spécifier la moyenne et la variance; ils ne peuvent pas être estimés à partir des données *), tandis que le Shapiro-Wilk est pour la normalité, avec une moyenne et une variance non spécifiées.

* vous ne pouvez pas non plus standardiser en utilisant des paramètres estimés et tester la normale standard; c'est en fait la même chose.

Une façon de comparer serait de compléter le Shapiro-Wilk avec un test pour la moyenne et la variance spécifiées dans une normale (en combinant les tests d'une certaine manière), ou en faisant ajuster les tables KS pour l'estimation des paramètres (mais alors ce n'est plus la distribution -libre).

Il existe un tel test (équivalent au test de Kolmogorov-Smirnov avec des paramètres estimés) - le test de Lilliefors; la version de test de normalité pourrait être valablement comparée au Shapiro-Wilk (et aura généralement une puissance inférieure). Le test d'Anderson-Darling (qui doit également être ajusté pour que l'estimation des paramètres soit valide) est plus compétitif.


Quant à ce qu'ils testent - le test KS (et le Lilliefors) examine la plus grande différence entre le CDF empirique et la distribution spécifiée, tandis que le Shapiro Wilk compare efficacement deux estimations de la variance; la Shapiro-Francia étroitement apparentée peut être considérée comme une fonction monotone de la corrélation au carré dans un tracé QQ; si je me souviens bien, le Shapiro-Wilk prend également en compte les covariances entre les statistiques de commande.

Modifié pour ajouter: Alors que le Shapiro-Wilk bat presque toujours le test de Lilliefors sur les alternatives d'intérêt, un exemple où ce n'est pas le dans les échantillons de moyenne à grande taille ( -ish). Là, le Lilliefors a une puissance plus élevée.t30n>60

[Il ne faut pas oublier qu'il existe beaucoup plus de tests de normalité que ceux-ci.]

Glen_b -Reinstate Monica
la source
C'est une réponse intéressante, mais j'ai un peu de mal à comprendre comment l'adapter à la pratique. Peut-être que ces questions devraient être différentes, mais quelle est la conséquence de l'ignorance de l'estimation des paramètres dans le test KS? Est-ce à dire que le test de Lillefors a moins de puissance qu'un KS mal conduit dans lequel les paramètres ont été estimés à partir des données?
russellpierce
@rpierce - Le principal impact du traitement des paramètres estimés comme connus est de réduire considérablement le niveau de signification réel (et donc la courbe de puissance) de ce qu'il devrait être si vous en tenez compte (comme le fait le Lilliefors). Autrement dit, le Lilliefors est le KS «bien fait» pour l'estimation des paramètres et il a une puissance sensiblement meilleure que le KS. D'un autre côté, le Lilliefors a une puissance bien pire que le test Shapiro-Wilk. En bref, le KS n'est pas un test particulièrement puissant pour commencer, et nous le rendons pire en ignorant que nous faisons une estimation de paramètre.
Glen_b -Reinstate Monica
... en gardant à l'esprit lorsque nous disons «meilleur pouvoir» et «pire pouvoir» que nous faisons généralement référence au pouvoir par rapport à ce que les gens considèrent généralement comme des sortes intéressantes d'alternatives.
Glen_b -Reinstate Monica
1
J'ai vu une courbe de puissance, je ne pensais tout simplement pas à ce que cela signifierait un abaissement ou une augmentation et à la place, Dieu est resté sur votre deuxième commentaire: "garder à l'esprit". D'une manière ou d'une autre, je me suis tordu et j'ai pensé que vous disiez qu'un "meilleur" pouvoir signifiait avoir la courbe de puissance là où elle "devrait" être. Que peut-être nous trichions et obtenions un pouvoir irréaliste dans le KS parce que nous lui remettions des paramètres qu'il aurait dû être pénalisé pour l'estimation (parce que c'est ce à quoi je suis habitué en conséquence de ne pas reconnaître qu'un paramètre provient d'une estimation) .
russellpierce
1
Je ne sais pas comment j'ai manqué ces commentaires auparavant, mais oui, les valeurs de p calculées à l'aide du test KS avec des paramètres estimés comme s'ils étaient connus / spécifiés auront tendance à être trop élevées. Essayez-le dans R: hist(replicate(1000,ks.test(scale(rnorm(x)),pnorm)$p.value))- si les valeurs de p étaient telles qu'elles devraient être, cela aurait l'air uniforme!
Glen_b -Reinstate Monica
24

En bref, le test de Shapiro-Wilk est un test spécifique de normalité, tandis que la méthode utilisée par le test de Kolmogorov-Smirnov est plus générale, mais moins puissante (ce qui signifie qu'elle rejette correctement l'hypothèse nulle de normalité moins souvent). Les deux statistiques prennent la normalité comme nulle et établissent une statistique de test basée sur l'échantillon, mais la façon dont elles le font est différente l'une de l'autre de manière à les rendre plus ou moins sensibles aux caractéristiques des distributions normales.

La façon exacte dont W (la statistique de test pour Shapiro-Wilk) est calculée est un peu compliquée, mais conceptuellement, cela implique de disposer les valeurs de l'échantillon par taille et de mesurer l'ajustement par rapport aux moyennes, variances et covariances attendues. Ces multiples comparaisons par rapport à la normalité, si je comprends bien, confèrent au test plus de puissance que le test de Kolmogorov-Smirnov, qui est une manière dont elles peuvent différer.

En revanche, le test de Kolmogorov-Smirnov pour la normalité est dérivé d'une approche générale pour évaluer la qualité de l'ajustement en comparant la distribution cumulative attendue à la distribution cumulative empirique, vis:

texte alternatif

En tant que tel, il est sensible au centre de la distribution et non aux queues. Cependant, le KS est le test est convergent, dans le sens où comme n tend vers l'infini, le test converge vers la vraie réponse en probabilité (je crois que le théorème de Glivenko-Cantelli s'applique ici, mais quelqu'un peut me corriger). Ce sont deux autres façons dont ces deux tests peuvent différer dans leur évaluation de la normalité.

John L. Taylor
la source
3
D'ailleurs ... Le test de Shapiro-Wilk est souvent utilisé pour estimer les écarts par rapport à la normalité dans de petits échantillons. Excellente réponse, John! Merci.
aL3xa
+1, deux autres notes sur KS: il peut être utilisé pour tester contre n'importe quelle distribution majeure (alors que SW est uniquement pour la normalité), et la puissance inférieure pourrait être une bonne chose avec des échantillons plus grands.
gung - Réintègre Monica
En quoi une puissance moindre est-elle une bonne chose? Tant que le Type I reste le même, une puissance plus élevée n'est-elle pas toujours meilleure? En outre, KS n'est généralement pas moins puissant, peut-être seulement pour la leptokurtose? Par exemple, KS est beaucoup plus puissant pour l'inclinaison sans augmentation proportionnelle des erreurs de type 1.
John
Le Kolmogorov-Smirnov est destiné à une distribution entièrement spécifiée. Le Shapiro Wilk ne l'est pas. Ils ne peuvent pas être comparés ... car dès que vous faites les ajustements nécessaires pour les rendre comparables, vous n'avez plus ni l'un ni l'autre test .
Glen_b -Reinstate Monica
Trouvé cette étude de simulation, au cas où cela ajouterait quelque chose d'utile en termes de détails. Même conclusion générale que ci-dessus: le test de Shapiro-Wilk est plus sensible. ukm.my/jsm/pdf_files/SM-PDF-40-6-2011/15%20NorAishah.pdf
Nick Stauner