Disons que nous avons les données suivantes:
set.seed(123)
data <- data.frame(x = c(rnorm(50, 1, 1), rnorm(50, 5, 2)),
y = c(rep('A', 50), rep('B', 50)))
Ce qui donne le boxplot suivant ( boxplot(data$x ~ data$y)
):
Supposons maintenant que je souhaite tester si les deux échantillons ont les mêmes paramètres de localisation (médiane et / ou moyenne). Dans mon cas réel, les données ne sont clairement pas normales , j'ai donc décidé d'exécuter le test de Wilcoxon-Mann-Whitney, comme ceci:
wilcox.test(data$x ~ data$y)
Cependant, je voudrais que l'hypothèse alternative soit que data$y
le "deuxième" facteur de B , provient d'une distribution avec des paramètres de position plus élevés. J'ai essayé de régler le alternative
paramètre sur "supérieur" et "inférieur", mais apparemment, les hypothèses alternatives ne sont pas ce que je recherche. Par exemple, alternative = "greater"
me dit "hypothèse alternative: le vrai décalage d'emplacement est supérieur à 0"; alternative = "less"
me dit "hypothèse alternative: le vrai décalage de position est inférieur à 0".
Comment puis-je modifier la wilcox.test()
fonction afin d'avoir l'hypothèse alternative que je veux (B provient d'une distribution avec des paramètres de position plus élevés que A)? Ou devrais-je simplement utiliser un autre test à la place?
la source
rnorm()
, elles doivent donc être normales . Je me demande si vous êtes confus quant à la nature de l'hypothèse de normalité; cela peut vous aider à lire ce fil: Que faire si les résidus sont normalement distribués mais y ne l'est pas .Réponses:
Techniquement, la catégorie de référence et la direction du test dépendent de la façon dont la variable de facteur est codée. Avec vos données de jouets:
Notez que la statistique W est la même dans les deux cas, mais le test utilise des queues opposées de sa distribution d'échantillonnage. Examinons maintenant la variable facteur:
On peut le recoder pour faire de "B" le premier niveau:
Maintenant nous avons:
Notez que nous n'avons pas modifié les données elles - mêmes , juste la façon dont la variable catégorielle est encodée «sous le capot»:
Mais les directions du test sont désormais inversées:
La statistique W est différente mais la valeur p est la même que pour le
alternative="less"
test avec les catégories dans l'ordre d'origine. Avec les données d'origine, cela pourrait être interprété comme «le décalage de localisation de B vers A est inférieur à 0» et avec les données recodées, il devient «le décalage de localisation de A vers B est supérieur à 0» mais c'est vraiment la même hypothèse (mais voir les commentaires de Glen_b à la question pour l'interprétation correcte).Dans votre cas, il semble donc que le test que vous souhaitez soit
alternative="less"
(ou, de manière équivalente,alternative="greater"
avec les données recodées). Est ce que ça aide?la source