J'ai eu une discussion avec un statisticien en 2009, où il a déclaré que la valeur exacte d'une valeur p n'était pas pertinente: la seule chose importante est de savoir si elle est significative ou non. C'est-à-dire qu'un résultat ne peut pas être plus significatif qu'un autre; vos échantillons, par exemple, proviennent de la même population ou non.
J'ai quelques scrupules à cela, mais je peux peut-être comprendre l'idéologie:
Le seuil de 5% est arbitraire, c'est-à-dire que p = 0,051 n'est pas significatif et que p = 0,049 est, ne devrait pas vraiment changer la conclusion de votre observation ou expérience, malgré un résultat significatif et l'autre non significatif.
La raison pour laquelle je soulève cette question maintenant est que j'étudie pour une maîtrise en bioinformatique, et après avoir parlé à des gens dans le domaine, il semble y avoir une volonté déterminée d'obtenir une valeur p exacte pour chaque ensemble de statistiques qu'ils font. Par exemple, s'ils «atteignent» une valeur de p <1,9 × 10 -12 , ils veulent démontrer à quel point leur résultat est significatif et que ce résultat est SUPER informatif. Ce problème est illustré par des questions telles que: pourquoi ne puis-je pas obtenir une valeur de p inférieure à 2,2e-16? , où ils veulent enregistrer une valeur qui indique que, par hasard seul, ce serait BEAUCOUP moins de 1 sur mille milliards. Mais je vois peu de différence dans la démonstration que ce résultat se produirait moins de 1 sur mille milliards contre 1 sur un milliard.
Je peux alors comprendre que p <0,01 montre qu'il y a moins de 1% de chances que cela se produise, tandis que p <0,001 indique qu'un résultat comme celui-ci est encore plus improbable que la valeur p susmentionnée, mais si vos conclusions tirées sont complètement différent? Après tout, ce sont deux valeurs p significatives. La seule façon dont je peux concevoir de vouloir enregistrer la valeur de p exacte est pendant une correction de Bonferroni où le seuil change en raison du nombre de comparaisons effectuées, diminuant ainsi l'erreur de type I. Mais même encore, pourquoi voudriez-vous afficher une valeur de p inférieure de 12 ordres de grandeur à votre seuil?
Et l'application de la correction de Bonferroni en elle-même n'est-elle pas aussi légèrement arbitraire? En ce sens qu'au départ, la correction est considérée comme très conservatrice, et il existe donc d'autres corrections que l'on peut choisir pour accéder au niveau de signification que l'observateur pourrait utiliser pour ses comparaisons multiples. Mais à cause de cela, ce n'est pas le moment où quelque chose devient sensiblement variable en fonction des statistiques que le chercheur veut utiliser. Les statistiques devraient-elles être si ouvertes à l'interprétation?
En conclusion, les statistiques ne devraient-elles pas être moins subjectives (bien que j'imagine que la nécessité qu'elles soient subjectives est la conséquence d'un système multivarié), mais en fin de compte, je veux quelques éclaircissements: quelque chose peut-il être plus significatif qu'autre chose? Et p <0,001 suffira-t-il pour essayer d'enregistrer la valeur de p exacte?
la source
Réponses:
Le taux d'erreur de rejet de type 1 / faux n'est pas complètement arbitraire, mais oui, il est proche. C'est quelque peu préférable à car c'est moins complexe cognitivement (les gens aiment les nombres ronds et les multiples de cinq ). C'est un compromis décent entre le scepticisme et l'aspect pratique, bien que peut-être un peu dépassé - les méthodes modernes et les ressources de recherche peuvent rendre préférables des normes plus élevées (c.-à-d. Des valeurs de inférieures ), si des normes doivent exister ( Johnson, 2013 ) .α = 0,05 α = 0,051 p
OMI, le plus grand problème que le choix du seuil est le choix souvent non examiné d'utiliser un seuil là où il n'est pas nécessaire ou utile. Dans les situations où un choix pratique doit être fait, je peux voir la valeur, mais beaucoup de recherches fondamentales ne nécessitent pas la décision de rejeter ses preuves et d'abandonner la perspective de rejeter la nullité simplement parce que les preuves d'un échantillon donné contre elle ne sont pas suffisantes de presque n'importe quel seuil raisonnable. Pourtant, une grande partie des auteurs de cette recherche se sentent obligés de le faire par convention, et y résistent mal à l'aise, inventant des termes comme signification "marginale" pour attirer l'attention quand ils peuvent la sentir s'échapper parce que leur public ne se soucie souvent pas de s . Si vous regardez autour d'autres questions ici surp ≥ .05 p l'interprétation des valeurs, vous verrez beaucoup de dissensions sur l'interprétation des valeurs de par les décisions binaires / concernant le null.p
fail to
reject
Complètement différent - non. Significativement différent - peut-être. Une raison pour montrer une valeur ridiculement petite est d'impliquer des informations sur la taille de l'effet. Bien sûr, le simple fait de rapporter la taille de l'effet serait beaucoup mieux pour plusieurs raisons techniques, mais les auteurs omettent souvent de considérer cette alternative, et le public peut également la connaître moins, malheureusement. Dans un monde à hypothèse nulle où personne ne sait comment rapporter la taille des effets, on peut avoir le plus souvent raison de deviner qu'un plus petit signifie un effet plus grand. Dans la mesure où ce monde hypothétique nul est plus proche de la réalité que l'inverse, il est peut-être utile de rapporter les exacts pour cette raison. Veuillez comprendre que ce point est le plaidoyer du diable pur ...p p p
Une autre utilisation des exacts que j'ai apprise en engageant un débat très similaire ici est celle des indices des fonctions de vraisemblance. Voir les commentaires et l'article de Michael Lew sur ( Lew, 2013 ) liés dans ma réponse à " Accueillir les vues bien ancrées des valeurs p "p
Je ne pense pas que la correction de Bonferroni soit vraiment le même genre d'arbitraire. Cela corrige le seuil qui, je pense, nous convenons, est au moins presque complètement arbitraire, de sorte qu'il ne perd rien de cet arbitraire fondamental, mais je ne pense pas qu'il ajoute quoi que ce soit d'arbitraire à l'équation. La correction est définie de manière logique et pragmatique, et des variations mineures vers des corrections plus ou moins importantes semblent nécessiter des arguments assez sophistiqués pour les justifier comme plus qu'arbitraires, alors que je pense qu'il serait plus facile de plaider pour un ajustement de sans avoir à surmonter toute logique profondément attrayante mais simple en elle.α
Si quoi que ce soit, je pense que les valeurs de devraient être plus ouvertes à l'interprétation! C'est-à-dire que la nullité est vraiment plus utile que l'alternative devrait dépendre de plus que de la seule preuve contre elle, y compris le coût de l'obtention de plus d'informations et la valeur ajoutée supplémentaire de connaissances plus précises ainsi acquises. C'est essentiellement l'idée sans seuil des pêcheurs qui, AFAIK, est la façon dont tout a commencé. Voir " Concernant les valeurs de p, pourquoi 1% et 5%? Pourquoi pas 6% ou 10%? "p
Sip -les valeurs doivent-elles être signalées? (et pourquoi R met-il un minimum sur 2.22e-16?) "- c'est bien mieux que les réponses à la version de cette question que vous avez liée sur Stack Overflow!
fail to
/reject
crises ne sont pas forcées dès le départ sur l'hypothèse nulle, alors la compréhension plus continue de la signification statistique admet certainement la possibilité d'une signification sans cesse croissante. Dans l'approche dichotomisée de la signification statistique (je pense que cela est parfois appelé le cadre de Neyman-Pearson; cf. Dienes, 2007 ), non, tout résultat significatif est aussi significatif que le suivant - ni plus, ni moins. Cette question peut aider à expliquer ce principe: " Pourquoi les valeurs de p sont-elles uniformément réparties sous l'hypothèse nulle? " Quant au nombre de zéros significatifs et méritant d'être rapportés, je recommande la réponse de Glen_b à cette question: " Comment les minusculesRéférences
- Johnson, VE (2013). Normes révisées pour les preuves statistiques. Actes de l'Académie nationale des sciences, 110 (48), 19313–19317. Extrait de http://www.pnas.org/content/110/48/19313.full.pdf .
- Lew, MJ (2013). To P or not to P: Sur la nature probante des valeurs P et leur place dans l'inférence scientifique. arXiv: 1311.0081 [stat.ME]. Extrait de http://arxiv.org/abs/1311.0081 .
la source
fail to
/reject
décision, je pense qu'il est préférable de rendre le jugement de la preuve de la façon dont une valeur est basée sur beaucoup plus que la probabilité de l'échantillon donné la valeur nulle.Il me semble que, si une valeur est significative, sa valeur exacte est significative.
La valeur p répond à cette question:
Qu'en est-il de cette définition qui rend une valeur exacte vide de sens?
C'est une question différente de celles concernant les valeurs extrêmes de p. Le problème avec les déclarations qui impliquent p avec plusieurs 0 concerne la façon dont nous pouvons estimer p dans les extrêmes. Comme nous ne pouvons pas faire cela très bien, cela n'a aucun sens d'utiliser des estimations aussi précises de p. C'est la même raison pour laquelle nous ne disons pas que p = 0,0319281010012981. Nous ne connaissons pas ces derniers chiffres avec certitude.
Nos conclusions devraient-elles être différentes si p <0,001 plutôt que p <0,05? Ou, pour utiliser des nombres précis, nos conclusions devraient-elles être différentes si p = 0,00023 plutôt que p = 0,035?
Je pense que le problème est de savoir comment nous concluons généralement les choses à propos de p. Nous disons «significatif» ou «non significatif» en fonction d'un certain niveau arbitraire. Si nous utilisons ces niveaux arbitraires, alors, oui, nos conclusions seront différentes. Mais ce n'est pas ainsi que nous devrions penser à ces choses. Nous devrions examiner le poids des preuves et les tests statistiques ne sont qu'une partie de ces preuves. Je vais (encore une fois) brancher les "critères MAGIQUES" de Robert Abelson:
Ampleur - quelle est l'ampleur de l'effet?
Articulation - quelle est sa précision? Y a-t-il beaucoup d'exceptions?
Généralités - à quel groupe s'applique-t-il?
Intérêt - les gens s'en soucieront-ils?
Crédibilité - est-ce logique?
C'est la combinaison de tous ces éléments qui compte. Notez qu'Abelson ne mentionne pas du tout les valeurs de p, bien qu'elles se présentent comme une sorte d'hybride de grandeur et d'articulation.
la source