Quel est le CDF à deux échantillons de

J'essaie de comprendre comment obtenir des valeurs de pour le test unilatéral de Kolmogorov-Smirnov , et j'ai du mal à trouver des CDF pour et dans le cas à deux échantillons. Ce qui suit est cité à quelques endroits comme le CDF pour dans un cas à un échantillon: $p$ $D^{+}_{n_{1},n_{2}}$ $D^{-}_{n_{1},n_{2}}$ $D^{+}_{n}$

p_{n}^{+} (x) = P (D_{n}^{+} \geq x | H_{0}) = x \sum_{j = 0}^{⌊ n (1 - x) ⌋} (\binom{n}{j}) {(\frac{j}{n} + x)}^{j - 1} {(1 - x - \frac{j}{n})}^{n - j}

$p^{+}_{n}\left(x\right) = \text{P}\left(D^{+}_{n} \ge x | \text{H}_{0}\right) = x\sum_{j=0}^{\lfloor n\left(1-x\right)\rfloor}{ \binom{n}{j} \left(\frac{j}{n}+x\right)^{j-1}\left(1 - x - \frac{j}{n}\right)^{n-j}}$

De plus, whuber sez il y a une formulation légèrement différente de ce CDF à un échantillon (je remplace $x$ pour $t$ dans sa citation pour la cohérence avec ma notation ici):

En utilisant la transformée intégrale de probabilité, Donald Knuth dérive leur distribution (commune) sur p. 57 et exercice 17 du TAoCP Volume 2. Je cite:

(D_{n}^{+} \leq \frac{x}{\sqrt{n}}) = \frac{x}{n^{n}} \sum_{c \leq k \leq x} (\binom{n}{k}) {(k - x)}^{k} {(x + n - k)}^{n - k - 1}

$\left(D^{+}_{n}\le \frac{x}{\sqrt{n}}\right)=\frac{x}{n^{n}}\sum_{c\le k\le x}\binom{n}{k}\left(k-x\right)^{k}\left(x+n-k\right)^{n-k-1}$

Cela s'appliquerait aux hypothèses unilatérales dans le cas d'un échantillon, telles que: H $_{0}\text{: }F(x)-F_{0} \le 0$ , où $F(x)$ est le CDF empirique de $x$ , et $F_{0}$ est un CDF.

Je pense que le $x$ dans ce cas est la valeur de $D^{+}_{n}$ dans son échantillon, et que $\lfloor n\left(1-x\right)\rfloor$ est le plus grand entier de $n-nx$ . (Est-ce correct?)

Mais quel est le CDF pour (ou ) quand on a deux échantillons? Par exemple, lorsque H pour les CDF empiriques de et ? Comment obtenir ? $D^{+}_{n_{1},n_{2}}$ $D^{-}_{n_{1},n_{2}}$ $_{0}\text{: }F_{A}(x)-F_{B}(x) \le 0$ $A$ $B$ $p^{+}_{n_{1},n_{2}}$

self-study kolmogorov-smirnov cdf Alexis
la source

Tout comme un pointeur pour quiconque cherche à répondre à cette question - ma réponse à la question précédente d'Alexis (qui est liée à la question ci-dessus) a des liens vers plusieurs références avec une discussion de l'histoire, chacune avec un certain nombre de références pertinentes. Vous pouvez vérifier ces documents et leur liste de références.

Glen_b -Reinstate Monica

@Glen_b Merci! J'apprécie vraiment votre excellente réponse à mon autre question, et j'ai suivi les ressources citées, mais je n'ai eu aucune traction sur le CDF pour là-bas, et plutôt que d'enliser les commentaires, je pensais que j'ouvrirais simplement une nouvelle requête . Des références supplémentaires sont les bienvenues, si vous en connaissez qui fonctionneront pour cela.

D^{+}

$D^{+}$

Alexis

Alexis: aucune critique n'a été voulue par mon commentaire; votre choix d'ouvrir une nouvelle question était tout à fait juste (à mon avis). Je voulais juste épargner aux gens un peu de travail pour retrouver certaines des références pertinentes - je me suis dit que tout le monde ne pourrait pas nécessairement suivre votre lien vers l'autre question, et cela pourrait ne pas arriver aux personnes qui ont fait ces liens dans mon la réponse contenait des références dont ils voudraient peut-être avoir connaissance.

Glen_b -Reinstate Monica

Réponses:

Ok, je vais essayer ça. Les informations critiques sont les bienvenues.

À la page 192, Gibbons et Chakraborti (1992), citant Hodges, 1958, commencent par un CDF à petit échantillon (exact?) Pour le test bilatéral (j'échange leur notation et pour et , respectivement): $m,n$ $d$ $n_{1},n_{2}$ $x$

P (D_{n_{1}, n_{2}} \geq x) = 1 - P (D_{n_{1}, n_{2}} \leq x) = 1 - \frac{A (n_{1}, n_{2})}{(\binom{n_{1} + n_{2}}{n_{1}})}

$\text{P}{\left(D_{n_{1},n_{2}}\ge x\right)} = 1 - \text{P}\left(D_{n_{1},n_{2}} \leq x\right)=1-\frac{A\left(n_{1},n_{2}\right)}{\binom{n_{1}+n_{2}}{n_{1}}}$

Où est produit par une énumération de chemins (augmentant de façon monotone dans et ) de l'origine au point travers un graphique avec — en remplaçant par —les valeurs de l' axe x et de l' axe y sont et . Les chemins doivent en outre obéir à la contrainte de rester à l'intérieur des limites (où est la valeur de la statistique de test de Kolmogorov-Smirnov): $A\left(n_{1},n_{2}\right)$ $n_{1}$ $n_{2}$ $\left(n_{1},n_{2}\right)$ $S_{m}(x)$ $F_{n_{1}}(x)$ $n_{1}F_{1}\left(x\right)$ $n_{2}F_{2}\left(x\right)$ $x$

\frac{n_{2}}{n_{1}} \pm \frac{(n_{1} + n_{2}) x}{(\binom{n_{1} + n_{2}}{n_{1}})}

$\frac{n_{2}}{n_{1}} \pm \frac{\left(n_{1}+n_{2}\right)x}{\binom{n_{1}+n_{2}}{n_{1}}}$

Ci-dessous, leur image Figure 3.2 fournit un exemple pour , avec 12 de ces chemins: $A(3,4)$

Figure 3.2 de la page 193 de Gibbons et Chakraborti (1992) Inférence statistique non paramétrique.

Gibbons et Chakaborti continuent en disant que la valeur unilatérale est obtenue en utilisant cette même méthode graphique, mais avec seulement la borne inférieure pour , et seulement la partie supérieure pour . $p$ $D^{+}_{n_{1},n_{2}}$ $D^{-}_{n_{1},n_{2}}$

Ces approches à petit échantillon impliquent des algorithmes d'énumération de chemin et / ou des relations de récurrence, ce qui rend sans aucun doute souhaitable des calculs asymptotiques. Gibbons et Chakraborti notent également les CDF limites lorsque et approchent de l'infini, de : $n_{1}$ $n_{2}$ $D_{n_{1},n_{2}}$

lim_{n_{1}, n_{2} \to \infty} P (\sqrt{\frac{n_{1} n_{2}}{n_{1} + n_{2}}} D_{n_{1}, n_{2}} \leq x) = 1 - 2 \sum_{i = 1}^{\infty} {(- 1)}^{i - 1} e^{- 2 i^{2} x^{2}}

$\lim_{n_{1},n_{2}\to \infty}\text{P}\left(\sqrt{\frac{n_{1}n_{2}}{n_{1}+n_{2}}}D_{n_{1},n_{2}} \le x\right) = 1 - 2\sum_{i=1}^{\infty}{\left(-1\right)^{i-1}e^{-2i^{2}x^{2}}}$

Et ils donnent le CDF limite de (ou ) comme: $D^{+}_{n_{1},n_{2}}$ $D^{-}_{n_{1},n_{2}}$

lim_{n_{1}, n_{2} \to \infty} P (\sqrt{\frac{n_{1} n_{2}}{n_{1} + n_{2}}} D_{n_{1}, n_{2}}^{+} \leq x) = 1 - e^{- 2 x^{2}}

$\lim_{n_{1},n_{2}\to \infty}\text{P}\left(\sqrt{\frac{n_{1}n_{2}}{n_{1}+n_{2}}}D^{+}_{n_{1},n_{2}} \le x\right) = 1 - e^{-2x^{2}}$

Parce que et sont strictement non négatifs, le CDF ne peut prendre que des valeurs non nulles sur : $D^{+}$ $D^{-}$ $[0,\infty)$

$CDF de $ D ^ {+} $ (ou $ D ^ {-} $)$

Références
Gibbons, JD et Chakraborti, S. (1992). Inférence statistique non paramétrique . Marcel Decker, Inc., 3e édition, édition révisée et augmentée.

Hodges, JL (1958). La probabilité de signification du test à deux échantillons de Smirnov. Arkiv för matematik . 3 (5): 469--486.

Alexis
la source

Le cdf réel existe partout, mais pour le cdf sera nul; la forme fonctionnelle que vous avez donnée ne s'applique qu'à (cela se prête à un raisonnement simple; qu'est-ce que ?

(- \infty, 0)

$(-\infty,0)$

x \geq 0

$x\geq 0$

P (D^{+} < 0)

$P(D^+<0)$

Glen_b -Reinstate Monica