Le test de Kolmogorov-Smirnov est-il valide avec des distributions discrètes?

29

Je compare un échantillon et vérifie s'il est distribué comme une distribution discrète. Cependant, je ne suis pas sûr que Kolmogorov-Smirnov s'applique. Wikipédia semble impliquer que non. Si ce n'est pas le cas, comment puis-je tester la distribution de l'échantillon?

Wilhelm
la source
+1 Un bel exemple d'application erronée du test KS à des données avec (de nombreux) liens est donné sur la page d'aide pour un module complémentaire de statistiques Excel sur real-statistics.com/non-parametric-tests/goodness-of-fit- tests /… . Le résultat est faux pour plusieurs raisons. Caveat lector!
whuber
Des tests KS pour les distributions nulles discrètes sont disponibles: en.wikipedia.org/wiki/…
Astrid

Réponses:

14

Elle ne s'applique pas aux distributions discrètes. Voir http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm par exemple.

Y a-t-il une raison pour laquelle vous ne pouvez pas utiliser un test d'adéquation du chi carré? voir http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm pour plus d'informations.

PeterR
la source
Désolé pour l'intrusion, mais je ne comprends pas vraiment pourquoi elle s'applique uniquement à la distribution continue (KS et autres tests de validation). Quelqu'un peut-il m'expliquer ce fait?
Maurizio
6
@Maurizio - la statistique du test KS a la même distribution sous toutes les distributions continues , mais si la distribution réelle n'est pas continue, et on essaie de construire un test de niveau supposant que la distribution est continue, alors le niveau réel du test avec moins de . (cf. Lehmann & Romano Testing Statistical Hypotheses, troisième édition , p. 584). Vous pouvez toujours faire un test de niveau basé sur la statistique KS, mais vous devrez trouver une autre méthode pour obtenir la valeur critique, par exemple par simulation. ααα
DavidR
Il existe un test KS discret: stat.yale.edu/~jay/EmersonMaterials/DiscreteGOF.pdf
Astrid
7

Comme c'est souvent le cas en statistique, cela dépend de ce que vous voulez dire .

  1. Si vous voulez dire "Je calcule ma statistique de test sur un échantillon tiré d'une distribution discrète et je recherche ensuite les tableaux standard", vous obtiendrez un taux d'erreur de type I vrai inférieur à celui que vous avez choisi (peut-être beaucoup plus bas).

    Le montant dépend de la «discrétion» de la distribution. Si la probabilité d'un résultat est assez faible (donc la proportion de valeurs liées dans les données devrait être faible), cela n'aura pas beaucoup d'importance - beaucoup de gens n'auraient pas de problème avec l'exécution d'un 5 % test à 4,5% disent. Ainsi, par exemple, si vous testez un uniforme discret sur [1,1000], vous n'avez probablement pas à vous inquiéter.

    Mais s'il y a une forte probabilité qu'une valeur soit liée, alors l'effet sur le taux d'erreur de type I peut être marqué. Si vous obtenez un niveau de signification de 0,005 lorsque vous vouliez 0,05, cela peut être un problème, car cela aura un impact correspondant sur la puissance.

  2. Si au contraire vous voulez dire "je calcule ma statistique de test sur un échantillon tiré d'une distribution discrète et ensuite j'utilise une valeur critique appropriée / calcule une valeur de p appropriée pour ma situation" (disons via un test de permutation, par exemple), alors le test est certainement valable dans le sens où vous obtiendrez le bon taux d'erreur de type I - jusqu'à la discrétion de la statistique de test elle-même, bien sûr. (Bien qu'il puisse y avoir de meilleurs tests pour votre objectif particulier, tout comme il y en a généralement dans le cas continu.)

    Notez que la distribution de la statistique de test elle-même n'est plus sans distribution, mais un test de permutation évite ce problème.

Donc, parfois, il est normal d'utiliser les tables standard même avec des distributions discrètes, et même lorsque ce n'est pas correct, ce n'est pas tant la statistique de test que les valeurs critiques / valeurs p que vous utilisez avec qui est le problème.

Glen_b -Reinstate Monica
la source
Comme d'habitude Glen, votre réponse est de haute qualité. Mais peut-être que la meilleure partie est que vous avez fait écho à la blague que j'ai faite dans ce post à propos des statisticiens disant "ça dépend"! stats.stackexchange.com/questions/182442/…
Sycorax dit de réintégrer Monica
1
@ user777 qui n'était pas accidentel; cela m'a amusé, et je pensais en lisant cette question "eh bien, ça dépend" ... alors je me suis assuré de le dire explicitement pour faire écho à votre message.
Glen_b -Reinstate Monica
1
Ma soirée s'est encore améliorée. À votre santé!
Sycorax dit Réintégrer Monica
2

XFF(X)XXF(X)=X

F RA
la source