Pourquoi les valeurs de p et les statistiques du test ks diminuent avec l'augmentation de la taille de l'échantillon? Prenez ce code Python comme exemple:
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
Les résultats sont:
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
Je comprends intuitivement qu'à mesure que n grandit, le test est "plus sûr" que les deux distributions sont différentes. Mais si la taille de l'échantillon est très grande, à quoi servent des tests de similitude comme celui-ci et disons le test d'Anderson Darling, ou le test t, parce que dans de tels cas, quand n est très grand, les distributions seront toujours trouvées "significativement différent!? Maintenant, je me demande quel est le point des valeurs p. Cela dépend tellement de la taille de l'échantillon ... si p> 0,05 et que vous voulez qu'il soit inférieur, obtenez simplement plus de données; et si p <0,05 et que vous voulez qu'il soit plus élevé, supprimez simplement certaines données.
De plus, si les deux distributions étaient identiques, la statistique du test ks serait 0 et la valeur p 1. Mais dans mon exemple, à mesure que n augmente, la statistique du test ks suggère que les distributions deviennent de plus en plus similaires avec le temps (diminue) , mais en fonction de la valeur de p, ils deviennent de plus en plus différents avec le temps (diminue également).
Réponses:
La statistique de test diminue car vos distributions sont très similaires et les échantillons plus gros ont moins de bruit. Si vous deviez comparer les deux distributions théoriques que vous avez utilisées, vous devriez obtenir la "vraie" statistique KS. Au fur et à mesure que vous ajoutez des données, votre statistique KS estimée devrait approcher cette vraie valeur. Cependant, même lorsque votre statistique KS diminue, votre confiance augmente qu'il s'agit en fait de deux distributions différentes (c.-à-d. Que la valeur p diminue) parce que vous avez une plus grande confiance dans vos estimations des distributions individuelles.
la source
la source