Ainsi, un test de Mann Whitney U est censé être environ 95% aussi puissant qu'un test t lorsque les hypothèses de normalité et de variance homogène du test t sont satisfaites. Je sais également qu'un test de Mann Whitney U est plus puissant qu'un test t lorsque ces hypothèses ne sont pas satisfaites. Ma question est la suivante: un test de Mann Whitney sur des données où les hypothèses ne sont pas satisfaites est-il ou presque aussi puissant qu'un test t sur des données où les hypothèses sont satisfaites?
Je pose la question parce que je vois souvent des gens faire des calculs de puissance en supposant qu'ils fonctionneront au test. Après avoir collecté les données, ils explorent les données et décident d'utiliser un test de Mann Whitney à la place et ne reviennent pas vraiment sur la façon dont la modification du test affecte la puissance.
Merci!
Réponses:
1) Le test de Mann-Whitney n'est pas garanti d'être plus puissant qu'un test t lorsque les hypothèses du test t ne sont pas satisfaites, bien que pour les types de violations que nous avons tendance à voir dans le monde réel, il l'est. Considérons une distribution normale standard tronquée à +/- 100 et une différence entre les moyennes de deux groupes de 0,01; ce n'est pas normal, mais les deux tests fonctionneront comme si c'était le cas, car la différence entre les deux distributions est si petite.
2) Le test t est le test uniformément le plus puissant pour la différence entre les moyennes de deux variables normales bla bla bla, donc il ne sera pas battu par le Mann-Whitney sur ce genre de données quoi qu'il arrive. Cependant, le pire que le Mann-Whitney puisse jamais réaliser par rapport au test t est d'environ 0,864 en termes d'efficacité relative asymptotique, c'est-à-dire qu'il faudrait 1 / 0,864x autant de données pour donner la même puissance (asymptotiquement). ( Hollander et Wolfe , Méthodes statistiques non paramétriques.) Il n'y a pas de limite allant dans l'autre sens. En reproduisant certains nombres de Hollander et Wolfe, pour différentes distributions, nous obtenons un ARE du MW au test t de:
Le point étant bien sûr que vous ne pouvez pas vous tirer une balle dans le pied en utilisant le test de Mann-Whitney au lieu du test t, mais l'inverse n'est pas vrai.
la source
Une phrase comme «aussi puissant» ne fonctionne pas vraiment comme une déclaration générale.
La puissance n'est pas particulièrement comparable entre les différents modèles de distribution. La taille d'un effet donné a différentes significations dans différentes parties de la distribution. Imaginez que vous ayez une distribution qui est assez pointue, mais qui a une queue lourde; Dans quelle mesure dirons-nous qu'une taille particulière de déviation est similaire à quelque chose avec un centre beaucoup plus plat et une queue plus petite? Une petite déviation pourrait être à peu près aussi facile à détecter, mais une grande déviation pourrait être (par rapport à l'autre possibilité de distribution pour laquelle nous essayons de comparer la puissance) plus difficile.
Avec deux ensembles possibles de distributions normales, une paire avec un grand sd et une avec un petit sd, il est facile de dire «eh bien, la puissance évoluera simplement avec l'écart-type; si nous définissons notre taille d'effet en termes de nombre d'écarts-types, nous pouvons relier les deux courbes de puissance ».
Mais maintenant, avec des distributions de formes différentes , il n'y a pas de choix d'échelle évident. Nous devons faire des choix sur la façon de les comparer. Les choix que nous ferons détermineront leur "comparaison".
Par exemple, comment comparer la puissance lorsque les données sont Cauchy avec la puissance lorsque les données sont, par exemple, une version bêta (2,2)? Qu'est-ce qu'une taille d'effet comparable? Le Cauchy ci-dessous a plus de sa distribution entre -1 et 1 et moins de sa distribution entre -3 et 3 que l'autre. Par exemple, leurs plages interquartiles sont différentes. Quelle est notre base de comparaison?
Si vous pouvez résoudre cette énigme, considérez maintenant si l'une des distributions est asymétrique à gauche et l'autre est bimodale, ou l'une des innombrables autres possibilités.
Vous pouvez toujours calculer la puissance sous n'importe quel ensemble particulier d'hypothèses, mais la comparaison d'un test à travers différentes hypothèses de distribution plutôt que de deux tests sous une hypothèse de distribution donnée est conceptuellement très délicate.
la source