J'essaie de comprendre comment obtenir des valeurs de pour le test unilatéral de Kolmogorov-Smirnov , et j'ai du mal à trouver des CDF pour et dans le cas à deux échantillons. Ce qui suit est cité à quelques endroits comme le CDF pour dans un cas à un échantillon:
De plus, whuber sez il y a une formulation légèrement différente de ce CDF à un échantillon (je remplace pour dans sa citation pour la cohérence avec ma notation ici):
En utilisant la transformée intégrale de probabilité, Donald Knuth dérive leur distribution (commune) sur p. 57 et exercice 17 du TAoCP Volume 2. Je cite:
Cela s'appliquerait aux hypothèses unilatérales dans le cas d'un échantillon, telles que: H , où est le CDF empirique de , et est un CDF.
Je pense que le dans ce cas est la valeur de dans son échantillon, et que est le plus grand entier de . (Est-ce correct?)
Mais quel est le CDF pour (ou ) quand on a deux échantillons? Par exemple, lorsque H pour les CDF empiriques de et ? Comment obtenir ?
la source
Réponses:
Ok, je vais essayer ça. Les informations critiques sont les bienvenues.
À la page 192, Gibbons et Chakraborti (1992), citant Hodges, 1958, commencent par un CDF à petit échantillon (exact?) Pour le test bilatéral (j'échange leur notation et pour et , respectivement):m,n d n1,n2 x
Où est produit par une énumération de chemins (augmentant de façon monotone dans et ) de l'origine au point travers un graphique avec — en remplaçant par —les valeurs de l' axe x et de l' axe y sont et . Les chemins doivent en outre obéir à la contrainte de rester à l'intérieur des limites (où est la valeur de la statistique de test de Kolmogorov-Smirnov):A(n1,n2) n1 n2 (n1,n2) Sm(x) Fn1(x) n1F1(x) n2F2(x) x
Ci-dessous, leur image Figure 3.2 fournit un exemple pour , avec 12 de ces chemins:A(3,4)
Gibbons et Chakaborti continuent en disant que la valeur unilatérale est obtenue en utilisant cette même méthode graphique, mais avec seulement la borne inférieure pour , et seulement la partie supérieure pour .p D+n1,n2 D−n1,n2
Ces approches à petit échantillon impliquent des algorithmes d'énumération de chemin et / ou des relations de récurrence, ce qui rend sans aucun doute souhaitable des calculs asymptotiques. Gibbons et Chakraborti notent également les CDF limites lorsque et approchent de l'infini, de :n1 n2 Dn1,n2
Et ils donnent le CDF limite de (ou ) comme:D+n1,n2 D−n1,n2
Parce que et sont strictement non négatifs, le CDF ne peut prendre que des valeurs non nulles sur :D+ D− [0,∞)
Références
Gibbons, JD et Chakraborti, S. (1992). Inférence statistique non paramétrique . Marcel Decker, Inc., 3e édition, édition révisée et augmentée.
Hodges, JL (1958). La probabilité de signification du test à deux échantillons de Smirnov. Arkiv för matematik . 3 (5): 469--486.
la source