Comment interpréter la valeur de p du test de Kolmogorov-Smirnov (python)?
30
J'ai deux échantillons que je veux tester (en utilisant python) s'ils sont tirés de la même distribution. Pour ce faire, j'utilise la fonction statistique ks_2samp de scipy.stats. Il renvoie 2 valeurs et j'ai du mal à les interpréter. Aidez-moi, s'il vous plaît!
Comme l'a souligné Stijn, le test ks renvoie une statistique D et une valeur p correspondant à la statistique D. La statistique D est la distance maximale absolue (supremum) entre les CDF des deux échantillons. Plus ce nombre est proche de 0, plus il est probable que les deux échantillons ont été tirés de la même distribution. Consultez la page Wikipedia pour le test ks. Il fournit une bonne explication: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
La valeur de p renvoyée par le test ks a la même interprétation que les autres valeurs de p. Vous rejetez l'hypothèse nulle selon laquelle les deux échantillons ont été tirés de la même distribution si la valeur p est inférieure à votre niveau de signification. Vous pouvez trouver des tableaux en ligne pour la conversion de la statistique D en une valeur p si vous êtes intéressé par la procédure.
Merci pour votre réponse. En fait, je connais la signification des 2 valeurs D et P mais je ne vois pas la relation entre elles. Comment puis-je définir le niveau de signification? Pouvez-vous me donner un lien pour la conversion de la statistique D en une valeur p?
@CrossValidatedTrading: Votre lien vers la table des valeurs D-stat-to-p est désormais 404.
james.garriss
@CrossValidatedTrading Doit-il y avoir une relation entre les valeurs p et les valeurs D du test KS bilatéral? Dans certains cas, j'ai vu une relation proportionnelle, où la statistique D augmente avec la valeur p. Cela semble être l'inverse: que deux courbes avec une différence plus grande (plus grande statistique D), seraient plus significativement différentes (faible valeur p) ...
Thomas Matthew
si la valeur p est> 0,05, vos deux échantillons doivent être identiques et équilibrés.
user798719
5
Lorsque vous effectuez une recherche Google sur ks_2samp, le premier accès est ce site Web. Sur celui-ci, vous pouvez voir la spécification de la fonction:
Thisis a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.Parameters:
a, b : sequence of 1-D ndarrays
two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be differentReturns:
D : float, KS statistic
p-value : float, two-tailed p-value
Lorsque vous effectuez une recherche Google sur ks_2samp, le premier accès est ce site Web. Sur celui-ci, vous pouvez voir la spécification de la fonction:
la source