Une valeur de p de 0,04993 est-elle suffisante pour rejeter l'hypothèse nulle?

20

Dans un test de signification statistique des rangs signés de Wilcoxon, nous avons trouvé des données qui produisent une valeur de de . Avec un seuil de , ce résultat est-il suffisant pour rejeter l'hypothèse nulle, ou est-il plus sûr de dire que le test n'était pas concluant, car si nous arrondissons la valeur de p à 3 décimales, il devient ?0,04993 p < 0,05 0,050p0,04993p<0,050,050

Islam El-Nabarawy
la source
24
0,04993 <0,05, il est donc juste inférieur. Votre instinct est bon qu'aucune valeur de P ne peut être approuvée à plusieurs décimales, mais si le programme indique moins de 0,05, les gens le prennent généralement comme délivré. Le vrai problème ici est de faire un fétiche des tests de signification de niveau fixe de sorte que <0,05 signifie "réel", "publiable", "cause de bonheur" et l'inverse signifie "illusoire", "non publiable", "cause de misère" . La plupart des bons textes introductifs sur les statistiques en discutent dans une certaine mesure. Un bon est Freedman, Pisani, Purves, Statistics . New York: WW Norton, toute édition.
Nick Cox
8
Vous devez vous demander quelle serait votre décision si la valeur de p est de 0,051? que faire si c'est 0,049? Prendriez-vous des décisions différentes? Pourquoi?
AlefSin
2
Merci pour vos commentaires. Dans notre cas, nous ne nous demandons pas si les données sont publiables ou non, etc. .
Islam El-Nabarawy
3
Signaler P = 0,04993 est ce qui me vient à l'esprit. Il est difficile de prévoir les commentaires des réviseurs ou des éditeurs. Si vous souhaitez arrondir, spécifier une convention d'arrondi cohérente est toujours une bonne idée et largement acceptable. Certaines personnes arrondiraient à 3 dp et pourraient également utiliser une sorte de convention de mise en vedette, donc signaler 0,050 (3 dp) et la mettre en vedette comme <0,05 sont cohérents.
Nick Cox
2
Je ne sais pas ... nous devrions peut-être exécuter un double bootstrap et calculer un intervalle de confiance pour la valeur ! En toute honnêteté, je dirais: "Les résultats étaient significatifs à la limite, 0,049 < p < 0,050 ." À ce stade, vous divisez les cheveux, et tout le monde se souvient soudain que 1/20 de cotes de faux positifs est une façon complètement arbitraire de diriger la science. p0,049<p<0,050
AdamO

Réponses:

21

Il y a deux problèmes ici:

1) Si vous faites un test d'hypothèse formel (et si vous allez jusqu'à citer une valeur p dans mon livre, vous l'êtes déjà), quelle est la règle de rejet formelle?

Lorsque vous comparez des statistiques de test à des valeurs critiques, la valeur critique se trouve dans la région de rejet . Bien que cette formalité importe peu lorsque tout est continu, elle importe lorsque la distribution de la statistique de test est discrète.

De même, lors de la comparaison des valeurs de p et des niveaux de signification, la règle est:

          Rejeter si pα

Veuillez noter que, même si vous avez arrondi votre valeur de p à 0,05, même si la valeur de p était exactement de 0,05, vous devez toujours le rejeter .

2) En termes de «ce que notre valeur p nous dit», alors en supposant que vous pouvez même interpréter une valeur p comme une «preuve contre le nul» (disons que l'opinion à ce sujet est quelque peu divisée), 0,0499 et 0,0501 ne sont pas dire vraiment des choses différentes sur les données (la taille des effets aurait tendance à être presque identique).

Ma suggestion serait de (1) rejeter formellement le nul, et peut-être souligner que même s'il était exactement 0,05, il devrait toujours être rejeté; (2) notez qu'il n'y a rien de particulièrement spécial à propos de α=0,05 et qu'il est très proche de cette limite - même un seuil de signification légèrement plus petit ne conduirait pas au rejet.

Glen_b -Reinstate Monica
la source
2
Mais, encore une fois, vous pouvez utiliser des arguments très similaires pour ne pas rejeter null. Il n'y a rien de spécial à propos de 0,05, si vous aviez choisi 0,06 comme limite, vous ne poseriez probablement pas la question, mais la situation ne serait pas si différente ... Plutôt dans ces situations, je demanderais: "quelle est la vraie- sens de la vie de ce résultat? ". Par exemple, s'il s'agissait d'une expérience biologique, je chercherais la signification biologique du résultat spécifique, rapporterais la valeur p telle qu'elle est et ferais plutôt des commentaires sur la biologie.
nico
@nico c'était déjà le point de mon article (2); il plaide contre le recours
excessif
Merci Glen et nico. Cette partie des données était secondaire à nos expériences, nous avons donc fini par rapporter la valeur telle quelle. En tout cas, je marque cela comme la réponse acceptée. Merci encore à tous ceux qui ont participé avec des réponses ou des commentaires.
Islam El-Nabarawy
5

Cela réside dans l'œil du spectateur.

αα=0,05

Donc, cela se résume vraiment à ce qu'AlefSin a commenté auparavant. Il ne peut pas y avoir de «bonne réponse» à votre question. Déclarez ce que vous avez obtenu, arrondi ou non.

Il existe une énorme littérature sur la «signification de la signification»; voir par exemple le récent article de l'un des principaux statisticiens allemands Walter Krämer sur "Le culte de la signification statistique - Ce que les économistes devraient et ne devraient pas faire pour faire parler leurs données", Schmollers Jahrbuch 131 , 455-468, 2011.

Skullduggery
la source
-6

p=0,05

Le problème clé est cette phrase: "Nous sommes tombés sur des données ...".

pp

Il existe un nom pour ce type de malversations statistiques: le dragage de données . Je suis ambivalent au sujet de le rapporter dans le papier comme hypothèse intéressante; a-t-il une raison physique à laquelle vous vous attendez?

Il existe cependant une issue. Peut-être que vous avez décidé a priori pour effectuer tout ce un test sur tout ce un ensemble de données. Vous avez écrit cela dans votre cahier de laboratoire, devant quelqu'un afin que vous puissiez le prouver plus tard. Ensuite, vous avez fait votre test.

p=0,05

Mike McCoy
la source
14
Cela peut dépendre trop d'un choix particulier de phrasé; vous présumez beaucoup de ce qui pourrait être simplement un mauvais choix de mots - tout le monde ici n'a pas l'anglais comme première langue. Cela vaut vraiment la peine d'être soulevé en tant que problème potentiel, mais simplement énoncer les choses de manière aussi simple ("absolument pas") implique que vous en savez plus que ce que nous pouvons dire de ce qui se trouve ici. (De plus, la référence à un `` cahier de laboratoire '' implique que l'OP travaille dans un laboratoire. Je doute que ce soit le cas. Encore une fois, vous impliquez que vous en savez plus que ce que nous avons ici.)
Glen_b -Reinstate Monica
10
Mike McCoy, merci pour votre réponse, mais je crains que dans ce cas, Glen_b ait raison. Je ne suis pas un anglophone natif, et bien que je m'efforce d'écrire et de parler aussi couramment que mes compétences le permettent, l'utilisation et la connotation continuent de m'échapper. Donc, dans ce cas particulier, nous n'avons pas essayé différentes choses jusqu'à ce que nous trouvions quelque chose d'important. En fait, ce que nous essayions de prouver, c'est qu'il n'y avait pas d'augmentation statistiquement significative de certaines valeurs d'erreur, et dans un cas particulier, nous avons constaté que l'erreur était en fait réduite, et lorsque nous avons effectué le test W, c'est là que nous avons obtenu le 0,0499 .
Islam El-Nabarawy
1
Mike, je n'ai pas vu non plus de problème dans la formulation de la question. Et il semble que personne d'autre n'ait vu de signes d'espionnage de données, d'exploitation minière, de dragage, que ce soit ici ... Et cela se trouve définitivement dans l'œil du spectateur. Il n'y a pas de fait mathématique mais une règle de décision choisie par le statisticien. Relisez ce que AlefSin, Glen dans son point (2) et j'ai écrit.
Skullduggery
3
@ IslamEl-Nabarawy Si vous vouliez établir une équivalence / un manque de différence, vous avez bien d'autres problèmes que la façon d'interpréter une valeur proche du seuil ou la recherche potentielle de données. Il ne suffit certainement pas de trouver une valeur p légèrement supérieure à 0,05 (ou quel que soit le niveau d'erreur que vous choisissez). Recherchez «tester l'équivalence» ici et ailleurs ou posez une question spécifique à ce sujet, car c'est un problème complètement différent.
Gala du
4
"Il y a, cependant, une issue. Peut-être avez-vous décidé a priori de faire juste ce seul test sur ce seul ensemble de données. Vous avez écrit cela dans votre cahier de laboratoire, devant quelqu'un afin que vous puissiez le prouver plus tard. Ensuite vous avez fait votre test. Si vous avez fait cela, alors votre résultat est valide au niveau p = 0,05, et vous pouvez le sauvegarder à des sceptiques comme moi. Sinon, désolé, ce n'est pas un résultat statistiquement significatif " Parlez de coupable jusqu'à preuve du contraire innocent. Donc, en l'absence de preuves médico-légales excluant la malhonnêteté académique, une analyse ne vaut rien? Sheesh.
GoF_Logistic