J'ai ces groupes où les valeurs sont des réponses à un élément Likert en 10 points:
g1 <- c(10,9,10,9,10,8,9)
g2 <- c(4,9,4,9,8,8,8)
g3 <- c(9,7,9,4,8,9,10)
J'ai donc utilisé Kruskal-Wallis pour déterminer les différences entre les réponses dans les groupes, et le résultat était:
Kruskal-Wallis chi-squared = 5.9554, df = 2, p-value = 0.05091
Cependant, si je lance un test de Mann-Whitney exact entre les groupes g1 et g2, j'obtiens:
Exact Wilcoxon Mann-Whitney Rank Sum Test (using coin::wilcox_test)
Z = 2.3939, p-value = 0.02797
ce qui renvoie une différence significative à alpha = 0,05.
Quel test dois-je choisir et pourquoi?
Réponses:
Je suis d'accord avec la réponse de Michael Chernick, mais je pense qu'elle peut être renforcée un peu. Ignorez le seuil de 0,05 dans la plupart des circonstances. Elle n'est pertinente que pour l'approche Neyman-Pearson, qui est en grande partie sans rapport avec l'utilisation inférentielle des statistiques dans de nombreux domaines scientifiques.
Les deux tests indiquent que vos données contiennent des preuves modérées contre l'hypothèse nulle. Considérez ces preuves à la lumière de tout ce que vous savez sur le système et les conséquences qui découlent des décisions (ou de l'indécision) sur l'état du monde réel. Soutenez un cas motivé et procédez de manière à reconnaître la possibilité d'une réévaluation ultérieure.
J'explique plus dans cet article: http://www.ncbi.nlm.nih.gov/pubmed/22394284
[Addendum ajouté en novembre 2019: j'ai une nouvelle référence qui explique les problèmes plus en détail https://arxiv.org/abs/1910.02042v1 ]
la source
Le test de Mann-Whitney ou Wilcoxon compare deux groupes tandis que le test de Kruskal-Wallis en compare 3. Tout comme dans l'ANOVA ordinaire avec trois groupes ou plus, la procédure généralement suggérée est de faire d'abord le test ANOVA F global, puis de regarder les comparaisons par paires dans cas il y a une différence significative. Je ferais la même chose ici avec l'ANOVA non paramétrique. Mon interprétation de votre résultat est qu'il existe une différence marginale significative entre les groupes au niveau 0,05 et si vous l'acceptez, la différence basée sur le test de Mann-Whitney indique qu'elle pourrait être attribuée à g1 et g2 étant significativement différent.
Ne vous attardez pas avec la magie du niveau de signification de 0,05! Tout simplement parce que le test de Kruskal-Wallis donne une valeur de p légèrement supérieure à 0,05, ne pensez pas que cela signifie qu'il n'y a pas de différence statistiquement significative entre les groupes. De plus, le fait que le test de Mann-Whitney donne une valeur de p pour la différence entre g1 et g2 un peu en dessous de 0,03 ne fait pas en quelque sorte la différence entre les deux groupes très significative. Les deux valeurs de p sont proches de 0,05. Un ensemble de données légèrement différent pourrait facilement se transformer en valeur p de Kruskal-Wallis de cette façon.
Toute pensée que vous pourriez avoir que les résultats sont contradictoires devrait provenir de la pensée d'un 0,05 coupé comme frontière noire et blanche sans zone grise dans le voisinage de 0,05. Je pense que ces résultats sont raisonnables et tout à fait compatibles.
la source
Les résultats des tests Kruskal-Wallis et Mann-Whitney U peuvent différer car
Par conséquent, il n'est pas recommandé d'utiliser le test de Mann-whitney U comme test post hoc après le test de Kruskal-Wallis.
D'autres tests comme le test de Dunn (couramment utilisé), les tests Conover-Iman et Dwass-Steel-Citchlow-Fligner peuvent être utilisés comme test post-hoc pour le test de kruskal-wallis.
la source
C'est en réponse à @vinesh ainsi qu'en regardant le principe général de la question d'origine.
Il y a vraiment 2 problèmes ici avec les comparaisons multiples: à mesure que nous augmentons le nombre de comparaisons effectuées, nous avons plus d'informations qui permettent de voir plus facilement les différences réelles, mais l'augmentation du nombre de comparaisons facilite également la détection des différences qui n'existent pas (faux positifs, dragage de données, torturer les données jusqu'à ce qu'elles confessent).
Pensez à une classe de 100 élèves, chacun reçoit une pièce équitable et doit retourner la pièce 10 fois et utiliser les résultats pour tester l'hypothèse nulle que la proportion de têtes est de 50%. Nous nous attendrions à ce que les valeurs de p se situent entre 0 et 1 et, par hasard, nous nous attendrions à ce qu'environ 5 des élèves obtiennent des valeurs de p inférieures à 0,05. En fait, nous serions très surpris si aucun d'entre eux n'obtenait une valeur de p inférieure à 0,05 (moins de 1% de chance que cela se produise). Si nous ne regardons que les quelques valeurs significatives et ignorons toutes les autres, nous conclurons à tort que les pièces sont biaisées, mais si nous utilisons une technique qui prend en compte les comparaisons multiples, nous jugerons probablement encore correctement que les pièces sont justes. (ou du moins ne pas rejeter cela ou juste).
D'un autre côté, considérons un cas similaire où 10 élèves lancent un dé et déterminent si la valeur est dans l'ensemble {1,2,3} ou l'ensemble {4,5,6} dont chacun aura 50% chance à chaque lancer si le dé est juste (mais pourrait être différent si le dé est truqué). Les 10 élèves calculent les valeurs p (la valeur nulle est 50%) et obtiennent des valeurs comprises entre 0,06 et 0,25. Maintenant, dans ce cas, aucun d'entre eux n'a atteint le seuil magique de 5%, donc en regardant les résultats individuels des élèves, cela n'entraînera pas une déclaration non équitable, mais toutes les valeurs de p sont inférieures à 0,5, si tous les dés sont justes alors les valeurs de p doivent être uniformément réparties et ont 50% de chances d'être supérieures à 0,5. La chance d'obtenir 10 valeurs de p indépendantes toutes inférieures à 0,5 lorsque les valeurs nulles sont vraies est inférieure à la magie 0,05 et cela suggère que les dés sont biaisés,
Maintenant, le retournement de pièces et le lancer de dés sont un peu artificiels, donc un exemple différent: j'ai un nouveau médicament que je veux tester. Mon budget me permet de tester le médicament sur 1000 sujets (ce sera une comparaison par paires avec chaque sujet étant leur propre contrôle). J'envisage 2 plans d'étude différents, dans le premier j'ai recruté 1 000 sujets qui font l'étude et rapportent une seule valeur p. Dans le deuxième plan, j'ai recruté 1 000 sujets mais les ai divisés en 100 groupes de 10 chacun, je fais l'étude sur chacun des 100 groupes de 10 et je calcule une valeur de p pour chaque groupe (100 valeurs de p totales). Réfléchissez aux différences potentielles entre les 2 méthodologies et à la façon dont les conclusions pourraient différer. Une approche objective nécessiterait que les deux modèles d'étude conduisent à la même conclusion (étant donné les mêmes 1 000 patients et tout le reste est le même).
@mljrg, pourquoi avez-vous choisi de comparer g1 et g2? Si c'était une question d'intérêt avant de collecter des données, alors la valeur p de MW est raisonnable et significative, cependant si vous avez fait le test KW, vous avez ensuite regardé quels groupes étaient les plus différents et le test MW n'a été effectué que sur ceux qui semblait le plus différent, les hypothèses du test MW ont été violées et la valeur p MW n'a pas de sens et la valeur p KW est la seule à avoir une signification potentielle.
la source