J'utilise le test à deux échantillons de Kolmogorov – Smirnov pour comparer les distributions, et j'ai remarqué qu'une valeur de est fréquemment indiquée comme statistique de test. Comment cette valeur est-elle déterminée? Je sais que c'est la probabilité d'obtenir un résultat au moins aussi grand que celui obtenu, mais comment cette valeur est-elle déterminée étant donné qu'il s'agit d'un test non paramétrique? Autrement dit, nous ne pouvons pas supposer les fluctuations gaussiennes de la distribution et calculer la valeur aide d'un test .
Merci!
kolmogorov-smirnov
Credo
la source
la source
Réponses:
Dans l'hypothèse nulle, la distribution asymptotique de la statistique de Kolmogorov-Smirnov à deux échantillons est la distribution de Kolmogorov, qui a CDF
Les valeurs peuvent être calculées à partir de ce CDF - voir les sections 4 et 2 de la page Wikipedia sur le test de Kolmogorov – Smirnov.p
Vous semblez dire qu'une statistique de test non paramétrique ne devrait pas avoir de distribution - ce n'est pas le cas - ce qui rend ce test non paramétrique est que la distribution de la statistique de test ne dépend pas de la distribution de probabilité continue des données d'origine viens de. Notez que le test KS a cette propriété même pour les échantillons finis comme indiqué par @cardinal dans les commentaires.
la source
La valeur de p, disons 0,80, implique que 80% des échantillons de taille n d'échantillons de la population auront une statistique D inférieure à celle obtenue à partir du test. Ceci est calculé sur la base de la statistique D du test KS, qui mesure la distance maximale entre les CDF de distribution théorique et empirique, pour la distribution donnée par rapport à laquelle l'échantillon est évalué.
Notez que seule la valeur D * SQRT (taille de l'échantillon) a une distribution kolmogrov et non D elle-même. Si vous souhaitez calculer manuellement la valeur p en fonction de la valeur D, vous pouvez consulter les tableaux publiés disponibles sur Internet pour la distribution de kolomogrov. C'est aussi la valeur donnée dans des packages comme R
la source