Puis-je utiliser Kolmogorov-Smirnov pour comparer deux distributions empiriques?

16

Peut-on utiliser le test d'ajustement de Kolmogorov-Smirnov pour comparer deux distributions empiriques afin de déterminer si elles semblent provenir de la même distribution sous-jacente, plutôt que de comparer une distribution empirique à une distribution de référence prédéfinie?

Permettez-moi d'essayer de poser cette question d'une autre manière. Je collecte N échantillons d'une distribution à un endroit. Je collecte M échantillons à un autre endroit. Les données sont continues (chaque échantillon est un nombre réel compris entre 0 et 10, par exemple) mais pas normalement distribuées. Je veux tester si ces échantillons N + M proviennent tous de la même distribution sous-jacente. Est-il raisonnable d'utiliser le test de Kolmogorov-Smirnov à cette fin?

En particulier, j'ai pu calculer la distribution empirique partir des N échantillons, et la distribution empirique F 1 à partir des M échantillons. Ensuite, j'ai pu calculer la statistique du test de Kolmogorov-Smirnov pour mesurer la distance entre F 0 et F 1 : c'est-à-dire calculer D = sup x | F 0 ( x ) - F 1 ( x ) | et utilisez DF0NF1MF0F1D=supx|F0(x)F1(x)|Dcomme ma statistique de test comme dans le test de Kolmogorov-Smirnov pour la qualité de l'ajustement. Est-ce une approche raisonnable?

(J'ai lu ailleurs que le test de Kolmogorov-Smirnov pour la qualité de l'ajustement n'est pas valable pour les distributions discrètes , mais j'avoue que je ne comprends pas ce que cela signifie ou pourquoi cela pourrait être vrai. Cela signifie-t-il que mon approche proposée est mauvaise? )

Ou recommandez-vous autre chose à la place?

DW
la source
Je me demande si, sur la base des commentaires de @ Glen_b ici ( stats.stackexchange.com/questions/362/… ), on ne devrait pas utiliser le test KS pour comparer les distributions empiriques parce que le test KS ne devrait pas être utilisé lorsque les paramètres sont estimés (? ).
russellpierce

Réponses:

19

C'est correct et tout à fait raisonnable. Il est appelé test de Kolmogorov-Smirnov à deux échantillons . Mesurer la différence entre deux fonctions de distribution par la supnorm est toujours judicieux, mais pour faire un test formel, vous voulez connaître la distribution sous l'hypothèse que les deux échantillons sont indépendants et chacun iid de la même distribution sous-jacente. Pour s'appuyer sur la théorie asymptotique habituelle, vous aurez besoin de la continuité de la distribution commune sous-jacente (et non des distributions empiriques). Voir la page Wikipedia liée à ci-dessus pour plus de détails.

Dans R, vous pouvez utiliser le ks.test, qui calcule exactementp-valeurs pour les petits échantillons.

NRH
la source
8
Dans R, vous pouvez également effectuer un test KS amorcé sekhon.berkeley.edu/matching/ks.boot.html qui supprime l'exigence de continuité
Dr G
5
plus d' informations si vous utilisez Matlab
Artem Kaznatcheev