Comment interpréter la valeur de p du test de Kolmogorov-Smirnov (python)?

30

J'ai deux échantillons que je veux tester (en utilisant python) s'ils sont tirés de la même distribution. Pour ce faire, j'utilise la fonction statistique ks_2samp de scipy.stats. Il renvoie 2 valeurs et j'ai du mal à les interpréter. Aidez-moi, s'il vous plaît!

meri
la source

Réponses:

23

Comme l'a souligné Stijn, le test ks renvoie une statistique D et une valeur p correspondant à la statistique D. La statistique D est la distance maximale absolue (supremum) entre les CDF des deux échantillons. Plus ce nombre est proche de 0, plus il est probable que les deux échantillons ont été tirés de la même distribution. Consultez la page Wikipedia pour le test ks. Il fournit une bonne explication: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

La valeur de p renvoyée par le test ks a la même interprétation que les autres valeurs de p. Vous rejetez l'hypothèse nulle selon laquelle les deux échantillons ont été tirés de la même distribution si la valeur p est inférieure à votre niveau de signification. Vous pouvez trouver des tableaux en ligne pour la conversion de la statistique D en une valeur p si vous êtes intéressé par la procédure.

CrossValidatedTrading
la source
Merci pour votre réponse. En fait, je connais la signification des 2 valeurs D et P mais je ne vois pas la relation entre elles. Comment puis-je définir le niveau de signification? Pouvez-vous me donner un lien pour la conversion de la statistique D en une valeur p?
Meri
Bien sûr, table de conversion de la statistique D en valeur p: soest.hawaii.edu/wessel/courses/gg313/Critical_KS.pdf
CrossValidatedTrading
@CrossValidatedTrading: Votre lien vers la table des valeurs D-stat-to-p est désormais 404.
james.garriss
@CrossValidatedTrading Doit-il y avoir une relation entre les valeurs p et les valeurs D du test KS bilatéral? Dans certains cas, j'ai vu une relation proportionnelle, où la statistique D augmente avec la valeur p. Cela semble être l'inverse: que deux courbes avec une différence plus grande (plus grande statistique D), seraient plus significativement différentes (faible valeur p) ...
Thomas Matthew
si la valeur p est> 0,05, vos deux échantillons doivent être identiques et équilibrés.
user798719
5

Lorsque vous effectuez une recherche Google sur ks_2samp, le premier accès est ce site Web. Sur celui-ci, vous pouvez voir la spécification de la fonction:

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value
Stijn
la source
Les paramètres a et b sont ma séquence de données ou devrais-je calculer les CDF pour utiliser ks_2samp?
Meri
@meri: il y a un exemple sur la page à laquelle j'ai lié.
Stijn