Puissance d'un test de Mann Whitney par rapport au test

10

Ainsi, un test de Mann Whitney U est censé être environ 95% aussi puissant qu'un test t lorsque les hypothèses de normalité et de variance homogène du test t sont satisfaites. Je sais également qu'un test de Mann Whitney U est plus puissant qu'un test t lorsque ces hypothèses ne sont pas satisfaites. Ma question est la suivante: un test de Mann Whitney sur des données où les hypothèses ne sont pas satisfaites est-il ou presque aussi puissant qu'un test t sur des données où les hypothèses sont satisfaites?

Je pose la question parce que je vois souvent des gens faire des calculs de puissance en supposant qu'ils fonctionneront au test. Après avoir collecté les données, ils explorent les données et décident d'utiliser un test de Mann Whitney à la place et ne reviennent pas vraiment sur la façon dont la modification du test affecte la puissance.

Merci!

Jimj
la source
" Je sais également qu'un test de Mann Whitney U est plus puissant qu'un test t lorsque ces hypothèses ne sont pas satisfaites ". C'est une déclaration trop forte. Disons que les données ont été uniformément distribuées (par exemple). Vous dites que vous savez que dans ces circonstances, un test U est plus puissant que le t , mais ce n'est pas le cas.
Glen_b -Reinstate Monica

Réponses:

9

1) Le test de Mann-Whitney n'est pas garanti d'être plus puissant qu'un test t lorsque les hypothèses du test t ne sont pas satisfaites, bien que pour les types de violations que nous avons tendance à voir dans le monde réel, il l'est. Considérons une distribution normale standard tronquée à +/- 100 et une différence entre les moyennes de deux groupes de 0,01; ce n'est pas normal, mais les deux tests fonctionneront comme si c'était le cas, car la différence entre les deux distributions est si petite.

2) Le test t est le test uniformément le plus puissant pour la différence entre les moyennes de deux variables normales bla bla bla, donc il ne sera pas battu par le Mann-Whitney sur ce genre de données quoi qu'il arrive. Cependant, le pire que le Mann-Whitney puisse jamais réaliser par rapport au test t est d'environ 0,864 en termes d'efficacité relative asymptotique, c'est-à-dire qu'il faudrait 1 / 0,864x autant de données pour donner la même puissance (asymptotiquement). ( Hollander et Wolfe , Méthodes statistiques non paramétriques.) Il n'y a pas de limite allant dans l'autre sens. En reproduisant certains nombres de Hollander et Wolfe, pour différentes distributions, nous obtenons un ARE du MW au test t de:

  1. Normal: 0,955
  2. Uniforme: 1,0 <- également un contre-exemple du MW étant meilleur que le t pour les dist'ns non normales
  3. Logistique: 1.097
  4. Double exponentielle: 1,5
  5. Exponentielle: 3.0
  6. Cauchy (enfin c'est facile):

Le point étant bien sûr que vous ne pouvez pas vous tirer une balle dans le pied en utilisant le test de Mann-Whitney au lieu du test t, mais l'inverse n'est pas vrai.

jbowman
la source
Pourquoi Cauchy est-il facile? Et pourquoi est ARE 0? Pour N fini, l'efficacité relative ne peut pas êtreinf, car la puissance du test t n'est pas 0. Mais avec N infini, la variance de la distribution n'est pas définie. Ce Cauchy est bien sûr pervers!
Peter Flom
@PeterFlom Intéressant en effet! La différence entre la valeur limite et la valeur à la limite pointe la tête; le Pitman ARE est le premier, pas le dernier.
jbowman
2
@PeterFlom ARE concerne le rapport des dérivées secondes ("courbure") des courbes de puissance à la valeur nulle, car la taille de l'échantillon va à l'infini. Il est possible qu'une courbe de puissance y ait une dérivée seconde nulle. Dans la pratique, pour les échantillons de petite à moyenne taille, les deux échantillons t conviennent plutôt bien au Cauchy si cela ne vous dérange pas que vos niveaux de signification soient bien inférieurs aux valeurs nominales.
Glen_b -Reinstate Monica
En d'autres termes, disons que j'étais paresseux et que je ne voulais pas vérifier mes hypothèses de normalité, etc. et j'ai simplement décidé d'aller de l'avant et d'utiliser un test MW au lieu d'un test t. Je pourrais utiliser le test MW et dire que, au pire, j'aurais besoin de 1 / 0,864x autant de données pour atteindre ce même niveau de puissance qu'au test où toutes les hypothèses étaient remplies. Cela a-t-il du sens?
Jimj
1
@Jimj non, ce n'est pas ce que cela signifie. Vous pouvez utiliser le test MW et dire que (dans les grands échantillons), au pire, vous auriez besoin de 1 / 0,864 fois plus de données pour atteindre le même niveau de puissance qu'au test sur des ensembles de données de la même distribution (que 0,864 ne se produit pas lorsque toutes les hypothèses du t sont remplies ... quand elles le sont, l'ARE est de 0,955)
Glen_b -Reinstate Monica
10

est un test de Mann Whitney sur des données où les hypothèses ne sont pas satisfaites ou presque aussi puissant qu'un test t sur des données où les hypothèses sont satisfaites?

Une phrase comme «aussi puissant» ne fonctionne pas vraiment comme une déclaration générale.

La puissance n'est pas particulièrement comparable entre les différents modèles de distribution. La taille d'un effet donné a différentes significations dans différentes parties de la distribution. Imaginez que vous ayez une distribution qui est assez pointue, mais qui a une queue lourde; Dans quelle mesure dirons-nous qu'une taille particulière de déviation est similaire à quelque chose avec un centre beaucoup plus plat et une queue plus petite? Une petite déviation pourrait être à peu près aussi facile à détecter, mais une grande déviation pourrait être (par rapport à l'autre possibilité de distribution pour laquelle nous essayons de comparer la puissance) plus difficile.

Avec deux ensembles possibles de distributions normales, une paire avec un grand sd et une avec un petit sd, il est facile de dire «eh bien, la puissance évoluera simplement avec l'écart-type; si nous définissons notre taille d'effet en termes de nombre d'écarts-types, nous pouvons relier les deux courbes de puissance ».

Mais maintenant, avec des distributions de formes différentes , il n'y a pas de choix d'échelle évident. Nous devons faire des choix sur la façon de les comparer. Les choix que nous ferons détermineront leur "comparaison".

Par exemple, comment comparer la puissance lorsque les données sont Cauchy avec la puissance lorsque les données sont, par exemple, une version bêta (2,2)? Qu'est-ce qu'une taille d'effet comparable? Le Cauchy ci-dessous a plus de sa distribution entre -1 et 1 et moins de sa distribution entre -3 et 3 que l'autre. Par exemple, leurs plages interquartiles sont différentes. Quelle est notre base de comparaison?

Cauchy vs beta évolutive

Si vous pouvez résoudre cette énigme, considérez maintenant si l'une des distributions est asymétrique à gauche et l'autre est bimodale, ou l'une des innombrables autres possibilités.

Vous pouvez toujours calculer la puissance sous n'importe quel ensemble particulier d'hypothèses, mais la comparaison d'un test à travers différentes hypothèses de distribution plutôt que de deux tests sous une hypothèse de distribution donnée est conceptuellement très délicate.

Glen_b -Reinstate Monica
la source