Tests de permutation à deux échantillons de Kolmogorov-Smirnov

8

Bien qu'il soit plus facile d'utiliser le test de type chi carré Pearson / Cressie-Read, je voudrais tester l'égalité des proportions dans les catégories dans deux groupes en utilisant un test de type Kolmogorov-Smirnov de la forme proposée par Pettitt & Stephens (1977 ) (voir aussi ici ).k

En particulier, comme le soulignent les auteurs de ce document, il peut avoir un certain pouvoir contre les alternatives de tendance. Ainsi, leur test de Kolmogorov-Smirnov nominal / catégoriel à un échantillon a la forme: où \ pi est une permutation de l'ordre des catégories, f _ {., i} sont les fréquences observées et attendues (ou de manière équivalente, proportion d'observations) dans la catégorie i . Cela peut s'écrire de la même manière: D_n = \ frac {1} {2} \ sum_ {i = 1} ^ k \ vert f_ {exp, i} -f_ {obs, i} \ vert Je voudrais étendre ceci à un cas à deux échantillons utilisant une procédure de randomisation / permutation, tel que:

Dn=supπsup1jk|i=1j(fexp,π(i)fobs,π(i))|
πf.,ii
Dn=12i=1k|fexp,ifobs,i|
Dn(r)=12i=1k|fgroup1,i(r)fgroup2,i(r)|,r=1,,R
where .(r) dénote une statistique calculée sur la base de la permutation rth de la variable catégorielle. Rejeter si la valeur de la statistique d'origine est supérieure à la valeur de 95% des statistiques permutées.

Tout commentaire sur le pour / le contre / la validité d'une telle procédure est le bienvenu. Merci.

myrtille
la source

Réponses:

3

La réponse dépend de la nature du processus de génération de données et de l'hypothèse alternative que vous avez en tête.

Votre test est une sorte de chi carré non pondéré. En raison de ce manque de pondération, les changements qui affectent principalement les catégories les moins peuplées seront difficiles à détecter. Par exemple, votre test va être beaucoup moins puissant que le test du chi carré pour un décalage uniforme de l'emplacement, qui est détecté principalement en remarquant que presque toute la probabilité dans une queue est décalée dans l'autre queue.

Par exemple, supposons que vos catégories sont des plages entières indexées par et que vous observez des variances normales de variance unitaire mais une moyenne inconnue. 100 observations d'une variable normale standard, disons, occuperont principalement les catégories à , bien que vous puissiez vous attendre à ce que quelques-unes occupent les catégories et . Même pour un énorme décalage de erreurs standard ( c'est-à - dire un changement de moyenne de ), la puissance de votre test de type KD n'est que d'environ 50% (lorsque ).[i,i+1)i213255/100=0.5α=0.05

Il est difficile de concevoir un cadre où ce test sera plus puissant que le test du chi carré. Si vous pensez que vous êtes dans une telle situation, effectuez quelques simulations pour découvrir quelle est la puissance et comment elle se compare aux tests alternatifs standard.

whuber
la source
si je comprends bien ce que vous avez écrit, serait-il pas le même pour tous les ? aussi - je peux voir comment obtenir une valeur critique estimée de monte-carlo pour ; mais qu'en est-il de ? Dn(r)rDnDn(r)
ronaf
@ronaf Pourriez-vous fournir plus de détails sur ? Qu'est-ce que R? Je ne vois pas que la permutation des catégories fait quoi que ce soit: notez qu'aucune permutation ne changera la somme des différences absolues de leurs nombres. Dn(r)
whuber