Est-il judicieux d'effectuer un test unilatéral de Kolmogorov-Smirnov?

15

Est-il significatif et possible d'effectuer un test KS unilatéral? Quelle serait l'hypothèse nulle d'un tel test? Ou le test KS est-il intrinsèquement un test bilatéral?

Je bénéficierais d'une réponse qui m'a aidé à comprendre la distribution de D (je travaille à travers l'article de Massey de 1951 et je trouve la description difficile, par exemple et D - le supremum et l'infimum des différences de la valeur non absolue des différences dans les CDF empiriques?).+D

Question de suivi: comment les valeurs pour D + et D - sont-elles obtenues? Beaucoup de publications que je rencontre présentent des valeurs présentées, plutôt que des CDF de D n , D + et D - .pD+DDnD+D

Mise à jour: je viens de découvrir la question connexe Quelle est l'hypothèse nulle dans un test unilatéral de Kolmogorov-Smirnov? , que j'ai raté lors de mon scan initial avant d'écrire celui-ci.

Alexis
la source

Réponses:

20

Est-il significatif et possible d'effectuer un test KS unilatéral?

Absolument.

le test KS est-il intrinsèquement un test bilatéral?

Pas du tout.

Quelle serait l'hypothèse nulle d'un tel test?

Vous ne précisez pas si vous parlez du test à un échantillon ou du test à deux échantillons. Ma réponse ici couvre les deux - si vous considérez comme représentant le cdf de la population à partir de laquelle un échantillon X a été tiré, il s'agit de deux échantillons, tandis que vous obtenez le cas d'un échantillon en considérant F X comme une distribution hypothétique ( F 0 , si tu préfères).FXXFXF0

Vous pouvez dans certains cas écrire le null comme une égalité (par exemple, si cela n'a pas été considéré comme possible pour qu'il aille dans l'autre sens), mais si vous voulez écrire un null directionnel pour une alternative unilatérale, vous pouvez écrire quelque chose comme ceci :

H0:FY(t)FX(t)

H1:FOui(t)<FX(t), pour au moins un t

(ou son contraire pour l'autre queue, naturellement)

Si nous ajoutons une hypothèse lorsque nous utilisons le test qu'ils sont égaux ou que sera plus petit, alors le rejet de la valeur nulle implique un ordre stochastique (premier ordre) / dominance stochastique du premier ordre . Dans des échantillons suffisamment grands, il est possible que les F se croisent - même plusieurs fois, et rejettent toujours le test unilatéral, donc l'hypothèse est strictement nécessaire pour que la dominance stochastique se vérifie.FOui

Librement si avec inégalité stricte pour au moins une partie t alors Y « a tendance à être plus grand » que X .FOui(t)FX(t)tOuiX

L'ajout d'hypothèses comme celle-ci n'est pas étrange; c'est standard. Ce n'est pas particulièrement différent de supposer (disons dans une ANOVA) qu'une différence de moyens est due à un changement de l'ensemble de la distribution (plutôt qu'à un changement d'asymétrie, où une partie de la distribution diminue et d'autres augmente, mais dans un tel façon dont la moyenne a changé).


Considérons donc, par exemple, un changement de moyenne pour une normale:

entrez la description de l'image ici

Le fait que la distribution de soit légèrement décalée vers la droite de celle de YY implique que F Y est inférieure à F X . Le test unilatéral de Kolmogorov-Smirnov aura tendance à rejeter dans cette situation.XFYFX

De même, considérons un changement d'échelle dans un gamma:

entrez la description de l'image ici

Encore une fois, le passage à une plus grande échelle produit un F. inférieur. Encore une fois, le test unilatéral de Kolmogorov-Smirnov aura tendance à rejeter dans cette situation.

Il existe de nombreuses situations où un tel test peut être utile.


Alors, quels sont D+D

Dans le test à un échantillon, est l' écart positif maximal de l'échantillon cdf par rapport à la courbe hypothétique (c'est-à-dire la plus grande distance de l'ECDF est supérieure à F 0 , tandis que D - est l' écart maximal négatif - la plus grande distance de l'ECDF est en dessous de F 0 ). Tous les deuxD+F0DF0D+D

entrez la description de l'image ici

Un test unilatéral de Kolmogorov-Smirnov examinerait soit D+D

H0:FY(t)F0(t)

H1:FY(t)<F0(t), pour au moins un t

YFF0DFY(t)<F0(t)D


D+D

Ce n'est pas une chose simple. Il existe une variété d'approches qui ont été utilisées.

Si je me souviens bien de l'une des façons dont la distribution a été obtenue via l'utilisation de processus de ponts browniens ( ce document semble soutenir ce souvenir ).

Je crois que cet article, et l'article de Marsaglia et al ici couvrent tous les deux le contexte et donnent des algorithmes de calcul avec beaucoup de références.

Entre ceux-ci, vous obtiendrez une grande partie de l'histoire et des différentes approches qui ont été utilisées. S'ils ne couvrent pas ce dont vous avez besoin, vous devrez probablement poser cette question comme une nouvelle question.

DnD+D

Ce n'est pas particulièrement une surprise. Si je me souviens bien, même la distribution asymptotique est obtenue sous forme de série (ce souvenir serait bien faux), et dans les échantillons finis, elle est discrète et pas sous une forme simple. Dans les deux cas et il n'y a aucun moyen pratique de présenter les informations, sauf sous forme de graphique ou de tableau.

Glen_b -Reinstate Monica
la source
2
"Dans des échantillons suffisamment grands, il est possible que les F traversent - même plusieurs fois, et rejettent toujours le test unilatéral" - notez que cela signifie que vous pouvez rejeter le test unilatéral dans les deux directions pour les mêmes données!
Hao Ye
2
@HaoYe Oui, c'est possible. Ce serait une indication claire que la dominance stochastique serait intenable.
Glen_b -Reinstate Monica