Quel résultat choisir quand Kruskal-Wallis et Mann-Whitney semblent retourner des résultats contradictoires?

10

J'ai ces groupes où les valeurs sont des réponses à un élément Likert en 10 points:

g1 <- c(10,9,10,9,10,8,9)
g2 <- c(4,9,4,9,8,8,8)
g3 <- c(9,7,9,4,8,9,10)

J'ai donc utilisé Kruskal-Wallis pour déterminer les différences entre les réponses dans les groupes, et le résultat était:

Kruskal-Wallis chi-squared = 5.9554, df = 2, p-value = 0.05091

Cependant, si je lance un test de Mann-Whitney exact entre les groupes g1 et g2, j'obtiens:

Exact Wilcoxon Mann-Whitney Rank Sum Test (using coin::wilcox_test)
Z = 2.3939, p-value = 0.02797

ce qui renvoie une différence significative à alpha = 0,05.

Quel test dois-je choisir et pourquoi?

mljrg
la source
1
Pour quelques rires et sur le sujet des coupures en noir et blanc: mchankins.wordpress.com/2013/04/21/still-not-significant-2
Hank

Réponses:

11

Je suis d'accord avec la réponse de Michael Chernick, mais je pense qu'elle peut être renforcée un peu. Ignorez le seuil de 0,05 dans la plupart des circonstances. Elle n'est pertinente que pour l'approche Neyman-Pearson, qui est en grande partie sans rapport avec l'utilisation inférentielle des statistiques dans de nombreux domaines scientifiques.

Les deux tests indiquent que vos données contiennent des preuves modérées contre l'hypothèse nulle. Considérez ces preuves à la lumière de tout ce que vous savez sur le système et les conséquences qui découlent des décisions (ou de l'indécision) sur l'état du monde réel. Soutenez un cas motivé et procédez de manière à reconnaître la possibilité d'une réévaluation ultérieure.

J'explique plus dans cet article: http://www.ncbi.nlm.nih.gov/pubmed/22394284

[Addendum ajouté en novembre 2019: j'ai une nouvelle référence qui explique les problèmes plus en détail https://arxiv.org/abs/1910.02042v1 ]

Michael Lew
la source
@MichaelChernick Je suis devenu pour apprendre de vous qu'il y a beaucoup plus sur les statistiques que simplement rechercher "p <0,05". Michael Lew: J'ai téléchargé votre article et je vais certainement le lire. Je suivrai votre suggestion d'avoir un bon raisonnement sur mes données dans cette situation. Merci à tous!
mljrg
3
@MichaelLew Je ne partage pas votre faible opinion de l'approche Neyman-Pearson pour le test d'hypothèses. Je pense toujours que c'est fondamental pour l'inférence fréquentiste. Ce n'est que le strict respect du niveau 0,05 auquel je m'oppose.
Michael R. Chernick
@MichaelChernick Donc, dites-vous que l'on devrait choisir un seuil de signification avant l'expérience, ou que vous pouvez le choisir après que les résultats soient entrés. Le premier est OK, mais pas le second. L'approche de Neyman-Pearson traite des taux d'erreur, et le taux d'erreur de type I n'est protégé que lorsque le seuil de signification est choisi à l'avance. Ainsi, si vous informez quelqu'un qu'un peu plus de 0,05 est suffisamment proche parce qu'il aurait pu choisir un seuil supérieur, alors vous n'utilisez pas réellement l'approche Neyman-Pearson, mais une approche hybride mal formée comme je l'explique dans l'article lié.
Michael Lew
Les gens peuvent choisir 0,01, 0,05 ou 0,10 s'ils le souhaitent. Cela devrait être fait sans être influencé par les données. Mais le choix de 0,01 ou 0,05 n'est pas le problème auquel je fais référence. C'est la croyance en noir et blanc dans le niveau de signification car ces 0,049 signifient une signification statistique et 0,0501 ne l'est pas!
Michael R. Chernick
Les scientifiques sont intéressants en preuve, mais ils ne sont pas accrochés à la méthodologie utilisée pour décider de l'importance.
Michael R. Chernick
13

Le test de Mann-Whitney ou Wilcoxon compare deux groupes tandis que le test de Kruskal-Wallis en compare 3. Tout comme dans l'ANOVA ordinaire avec trois groupes ou plus, la procédure généralement suggérée est de faire d'abord le test ANOVA F global, puis de regarder les comparaisons par paires dans cas il y a une différence significative. Je ferais la même chose ici avec l'ANOVA non paramétrique. Mon interprétation de votre résultat est qu'il existe une différence marginale significative entre les groupes au niveau 0,05 et si vous l'acceptez, la différence basée sur le test de Mann-Whitney indique qu'elle pourrait être attribuée à g1 et g2 étant significativement différent.

Ne vous attardez pas avec la magie du niveau de signification de 0,05! Tout simplement parce que le test de Kruskal-Wallis donne une valeur de p légèrement supérieure à 0,05, ne pensez pas que cela signifie qu'il n'y a pas de différence statistiquement significative entre les groupes. De plus, le fait que le test de Mann-Whitney donne une valeur de p pour la différence entre g1 et g2un peu en dessous de 0,03 ne fait pas en quelque sorte la différence entre les deux groupes très significative. Les deux valeurs de p sont proches de 0,05. Un ensemble de données légèrement différent pourrait facilement se transformer en valeur p de Kruskal-Wallis de cette façon.

Toute pensée que vous pourriez avoir que les résultats sont contradictoires devrait provenir de la pensée d'un 0,05 coupé comme frontière noire et blanche sans zone grise dans le voisinage de 0,05. Je pense que ces résultats sont raisonnables et tout à fait compatibles.

Michael R. Chernick
la source
2
Vous communiquerez mieux votre réponse lorsque vous la relirez pour les erreurs (de ponctuation, de grammaire, de typographie et d'orthographe) et utilisez un formatage efficace. Veuillez consulter la page d'aide Markdown .
whuber
L'opinion la plus classique est que vous n'avez pas trouvé de signification statistique avec votre premier test, vous ne devez donc pas signaler (dans une publication professionnelle) d'autres tests comme indications statistiquement significatives des différences entre les groupes. Pour ce faire, vous devez utiliser un alpha autre que .05. Cela est particulièrement problématique (du point de vue classique) car vous n'avez pas choisi l'alpha supérieur avant de procéder au test, votre alpha est donc inconnu. Bien sûr, lorsque vous essayez de comprendre vos données, pour guider votre propre programme de recherche futur, vous pouvez prendre note de la différence entre les groupes 1 et 2.
Joel W.
@JoelW. Essayez-vous de me dire que 0,05091 est vraiment différent de 0,05? Quoi qu'il en soit, mon propos n'est pas de rendre compte des conclusions, mais plutôt de dire que les deux tests ne sont pas en conflit. J'accepte que la façon dont vous analysez les données soit précisée à l'avance avant de les consulter.
Michael R. Chernick
1
@whuber Désolé de ne pas avoir édité le post plus tôt. J'espère que ça va beaucoup mieux maintenant.
Michael R. Chernick
@JoelW Votre point de vue «plus classique» est en fait l'approche du comportement inductif de Neyman en matière d'inférence. Elle concerne un petit sous-ensemble des utilisations des statistiques à l'appui de l'inférence. Il est très regrettable qu'il soit présenté si souvent comme étant classique.
Michael Lew
4

Les résultats des tests Kruskal-Wallis et Mann-Whitney U peuvent différer car

  • Les rangs utilisés pour le test de Mann-Whitney U ne sont pas les rangs utilisés par le test de Kruskal-Wallis; et
  • Les tests de somme de rang n'utilisent pas la variance groupée impliquée par l'hypothèse nulle de Kruskal-Wallis.

Par conséquent, il n'est pas recommandé d'utiliser le test de Mann-whitney U comme test post hoc après le test de Kruskal-Wallis.

D'autres tests comme le test de Dunn (couramment utilisé), les tests Conover-Iman et Dwass-Steel-Citchlow-Fligner peuvent être utilisés comme test post-hoc pour le test de kruskal-wallis.

Dr Nisha Arora
la source
3

C'est en réponse à @vinesh ainsi qu'en regardant le principe général de la question d'origine.

Il y a vraiment 2 problèmes ici avec les comparaisons multiples: à mesure que nous augmentons le nombre de comparaisons effectuées, nous avons plus d'informations qui permettent de voir plus facilement les différences réelles, mais l'augmentation du nombre de comparaisons facilite également la détection des différences qui n'existent pas (faux positifs, dragage de données, torturer les données jusqu'à ce qu'elles confessent).

Pensez à une classe de 100 élèves, chacun reçoit une pièce équitable et doit retourner la pièce 10 fois et utiliser les résultats pour tester l'hypothèse nulle que la proportion de têtes est de 50%. Nous nous attendrions à ce que les valeurs de p se situent entre 0 et 1 et, par hasard, nous nous attendrions à ce qu'environ 5 des élèves obtiennent des valeurs de p inférieures à 0,05. En fait, nous serions très surpris si aucun d'entre eux n'obtenait une valeur de p inférieure à 0,05 (moins de 1% de chance que cela se produise). Si nous ne regardons que les quelques valeurs significatives et ignorons toutes les autres, nous conclurons à tort que les pièces sont biaisées, mais si nous utilisons une technique qui prend en compte les comparaisons multiples, nous jugerons probablement encore correctement que les pièces sont justes. (ou du moins ne pas rejeter cela ou juste).

D'un autre côté, considérons un cas similaire où 10 élèves lancent un dé et déterminent si la valeur est dans l'ensemble {1,2,3} ou l'ensemble {4,5,6} dont chacun aura 50% chance à chaque lancer si le dé est juste (mais pourrait être différent si le dé est truqué). Les 10 élèves calculent les valeurs p (la valeur nulle est 50%) et obtiennent des valeurs comprises entre 0,06 et 0,25. Maintenant, dans ce cas, aucun d'entre eux n'a atteint le seuil magique de 5%, donc en regardant les résultats individuels des élèves, cela n'entraînera pas une déclaration non équitable, mais toutes les valeurs de p sont inférieures à 0,5, si tous les dés sont justes alors les valeurs de p doivent être uniformément réparties et ont 50% de chances d'être supérieures à 0,5. La chance d'obtenir 10 valeurs de p indépendantes toutes inférieures à 0,5 lorsque les valeurs nulles sont vraies est inférieure à la magie 0,05 et cela suggère que les dés sont biaisés,

Maintenant, le retournement de pièces et le lancer de dés sont un peu artificiels, donc un exemple différent: j'ai un nouveau médicament que je veux tester. Mon budget me permet de tester le médicament sur 1000 sujets (ce sera une comparaison par paires avec chaque sujet étant leur propre contrôle). J'envisage 2 plans d'étude différents, dans le premier j'ai recruté 1 000 sujets qui font l'étude et rapportent une seule valeur p. Dans le deuxième plan, j'ai recruté 1 000 sujets mais les ai divisés en 100 groupes de 10 chacun, je fais l'étude sur chacun des 100 groupes de 10 et je calcule une valeur de p pour chaque groupe (100 valeurs de p totales). Réfléchissez aux différences potentielles entre les 2 méthodologies et à la façon dont les conclusions pourraient différer. Une approche objective nécessiterait que les deux modèles d'étude conduisent à la même conclusion (étant donné les mêmes 1 000 patients et tout le reste est le même).

@mljrg, pourquoi avez-vous choisi de comparer g1 et g2? Si c'était une question d'intérêt avant de collecter des données, alors la valeur p de MW est raisonnable et significative, cependant si vous avez fait le test KW, vous avez ensuite regardé quels groupes étaient les plus différents et le test MW n'a été effectué que sur ceux qui semblait le plus différent, les hypothèses du test MW ont été violées et la valeur p MW n'a pas de sens et la valeur p KW est la seule à avoir une signification potentielle.

Greg Snow
la source