En lisant le test KS à 2 échantillons, je comprends exactement ce qu'il fait, mais je ne comprends pas pourquoi cela fonctionne .
En d'autres termes, je peux suivre toutes les étapes pour calculer les fonctions de distribution empiriques, trouver la différence maximale entre les deux pour trouver la statistique D, calculer les valeurs critiques, convertir la statistique D en une valeur p, etc.
Mais, je n'ai aucune idée pourquoi tout cela me dit réellement quelque chose sur les deux distributions.
Quelqu'un aurait tout aussi bien pu me dire que je dois sauter par-dessus un âne et compter à quelle vitesse il s'enfuit et si la vitesse est inférieure à 2 km / h, je rejette l'hypothèse nulle. Bien sûr, je peux faire ce que vous m'avez dit de faire, mais qu'est-ce que cela a à voir avec l'hypothèse nulle?
Pourquoi le test KS à 2 échantillons fonctionne-t-il? Qu'est-ce que le calcul de la différence maximale entre les ECDF a à voir avec la différence entre les deux distributions?
Toute aide est appréciée. Je ne suis pas statisticien, alors supposez que je suis idiot si possible.
Réponses:
Fondamentalement, le test est cohérent en tant que résultat direct du théorème de Glivenko Cantelli, l'un des résultats les plus importants des processus empiriques et peut-être des statistiques.
Combien de temps? Mmyyeeaa je ne sais pas. La puissance du test est un peu douteuse. Je ne l'aurais jamais utilisé en réalité.
http://www.math.utah.edu/~davar/ps-pdf-files/Kolmogorov-Smirnov.pdf
la source
Nous avons deux échantillons indépendants et univariés:
la source
Une prise intuitive:
Le test de Kolmogorov-Smirnov s'appuie assez fondamentalement sur l'ordre des observations par distribution. La logique est que si les deux distributions sous-jacentes sont identiques, alors - en fonction de la taille des échantillons - l'ordre doit être assez bien mélangé entre les deux.
la source