Valeurs critiques de Wilcoxon-Mann-Whitney dans R

10

J'ai remarqué que lorsque j'essaie de trouver les valeurs critiques pour le Mann-Whitney U en utilisant R, les valeurs sont toujours 1 + valeur critique. Par exemple, pour , la valeur critique (bilatérale) est 8, tandis que pour , la (bilatérale) ) la valeur critique est 22 (consultez les tableaux ), mais:α = 0,05 , n = 12 , m = 8α=.05,n=10,m=5α=.05,n=12,m=8

> qwilcox(.05/2,10,5)
[1] 9
> qwilcox(.05/2,12,8)
[1] 23

Bien sûr, je ne pense pas à quelque chose, mais ... n'importe qui pourrait m'expliquer pourquoi?

this.is.not.a.nick
la source

Réponses:

17

Je pense que la réponse ici pourrait être que vous comparez des pommes et des oranges.

Soit le cdf de la statistique Mann-Whitney . est la fonction de quantile du . Par définition, il s'agit donc de F(x)UqwilcoxQ(α)U

Q(α)=inf{xN:F(x)α},α(0,1).

Parce que est discret, il n'y a généralement pas de tel que , donc généralement .UxF(x)=αF(Q(α))>α

Maintenant, considérez la valeur critique pour le test. Dans ce cas, vous voulez , puisque vous aurez par ailleurs un test avec un taux d'erreur de type I qui est plus grande que celle nominale. Ceci est généralement considéré comme indésirable; les tests conservateurs ont tendance à être préférés. Par conséquent, A moins qu'il y ait un tel que , on a donc .C(α)F(C(α))α

C(α)=sup{xN:F(x)α},α(0,1).
xF(x)=αC(α)=Q(α)1

La raison de cet écart est qu'il qwilcoxa été conçu pour calculer des quantiles et non des valeurs critiques!

MånsT
la source
1
(+1) Description bonne, simple et concise. :)
cardinal
2

N'oubliez pas que la statistique de test de somme de rang est discrète et que vous devez donc utiliser une valeur critique telle que la probabilité de queue soit par rapport au spécifié . Pour certaines tailles d'échantillon, il n'est pas possible d'obtenir alpha, et c'est pourquoi je suppose que vous avez besoin du +1.αα

Michael R. Chernick
la source
4
Alors pourquoi +1 est-il nécessaire dans R et non dans les tableaux habituels?
MånsT
1
@ this.is.not.a.nick: peut-être plus important encore, tandis que , ce qui signifie que dans le premier cas, le niveau de signification réel sera et que dans le second, il sera . Habituellement, les gens ont tendance à préférer se tromper du côté droit, c'est-à-dire avoir un niveau de signification inférieur à celui nominal (ce qui signifie que les valeurs des tableaux sont préférables). 0,02868937 > 0,025 < 0,05 > 0,050.0236723<0.0250.02868937>0.025<0.05>0.05
MånsT
1
Droit à la fois à Procrastinator et MansT. En fait, la définition du niveau de signification exige que les probabilités de queue ne totalisent rien de plus élevé que alpha. J'en parle dans mon article avec Christine Liu sur le comportement en dents de scie de la fonction de puissance pour des tests binomiaux exacts via la méthode Clopper-Pearson (voir American Statistician (2002)).
Michael R. Chernick
2
@Michael: C'est sur la même page que celle-ci. Les tableaux suivent la définition standard, ce qui signifie que les valeurs critiques ne sont pas des quantiles.
MånsT
3
@Michael: D'accord. Dans un certain sens, qwilcoxfait ce qu'il est censé faire, mais pas ce que vous attendez de lui.
MånsT