La valeur exacte d'une «valeur p» est-elle vide de sens?

31

J'ai eu une discussion avec un statisticien en 2009, où il a déclaré que la valeur exacte d'une valeur p n'était pas pertinente: la seule chose importante est de savoir si elle est significative ou non. C'est-à-dire qu'un résultat ne peut pas être plus significatif qu'un autre; vos échantillons, par exemple, proviennent de la même population ou non.

J'ai quelques scrupules à cela, mais je peux peut-être comprendre l'idéologie:

  1. Le seuil de 5% est arbitraire, c'est-à-dire que p = 0,051 n'est pas significatif et que p = 0,049 est, ne devrait pas vraiment changer la conclusion de votre observation ou expérience, malgré un résultat significatif et l'autre non significatif.

    La raison pour laquelle je soulève cette question maintenant est que j'étudie pour une maîtrise en bioinformatique, et après avoir parlé à des gens dans le domaine, il semble y avoir une volonté déterminée d'obtenir une valeur p exacte pour chaque ensemble de statistiques qu'ils font. Par exemple, s'ils «atteignent» une valeur de p <1,9 × 10 -12 , ils veulent démontrer à quel point leur résultat est significatif et que ce résultat est SUPER informatif. Ce problème est illustré par des questions telles que: pourquoi ne puis-je pas obtenir une valeur de p inférieure à 2,2e-16? , où ils veulent enregistrer une valeur qui indique que, par hasard seul, ce serait BEAUCOUP moins de 1 sur mille milliards. Mais je vois peu de différence dans la démonstration que ce résultat se produirait moins de 1 sur mille milliards contre 1 sur un milliard.

  2. Je peux alors comprendre que p <0,01 montre qu'il y a moins de 1% de chances que cela se produise, tandis que p <0,001 indique qu'un résultat comme celui-ci est encore plus improbable que la valeur p susmentionnée, mais si vos conclusions tirées sont complètement différent? Après tout, ce sont deux valeurs p significatives. La seule façon dont je peux concevoir de vouloir enregistrer la valeur de p exacte est pendant une correction de Bonferroni où le seuil change en raison du nombre de comparaisons effectuées, diminuant ainsi l'erreur de type I. Mais même encore, pourquoi voudriez-vous afficher une valeur de p inférieure de 12 ordres de grandeur à votre seuil?

  3. Et l'application de la correction de Bonferroni en elle-même n'est-elle pas aussi légèrement arbitraire? En ce sens qu'au départ, la correction est considérée comme très conservatrice, et il existe donc d'autres corrections que l'on peut choisir pour accéder au niveau de signification que l'observateur pourrait utiliser pour ses comparaisons multiples. Mais à cause de cela, ce n'est pas le moment où quelque chose devient sensiblement variable en fonction des statistiques que le chercheur veut utiliser. Les statistiques devraient-elles être si ouvertes à l'interprétation?

En conclusion, les statistiques ne devraient-elles pas être moins subjectives (bien que j'imagine que la nécessité qu'elles soient subjectives est la conséquence d'un système multivarié), mais en fin de compte, je veux quelques éclaircissements: quelque chose peut-il être plus significatif qu'autre chose? Et p <0,001 suffira-t-il pour essayer d'enregistrer la valeur de p exacte?

Mark Ramotowski
la source
6
C'est assez intéressant: stat.washington.edu/peter/342/nuzzo.pdf
Dan
4
Relativement relâché: Dans ma réponse à la question Quand utiliser le cadre de Fisher et Neyman-Pearson , je soutiens qu'il y a un rôle pour chaque cadre. En maintenant ma position, je dirais que les valeurs p exactes n'auraient pas d'importance dans le cadre NP, mais peuvent le faire dans le cadre Fisherian (dans la mesure où le nombre de chiffres rapporté est réellement fiable).
gung - Réintégrer Monica
Il est étonnant de voir à quel point certains statisticiens veulent conserver le concept d'une valeur de p alors que c'est généralement la bonne réponse à la mauvaise question. Supposons que les valeurs p n'aient été implémentées dans aucun progiciel de statistiques. Je doute que les gens écrivent leur propre code pour l'obtenir.
probabilitéislogic
3
@probabilityislogic - après avoir coupé mes dents statistiques sur les tests de permutation, les valeurs p sont une façon très naturelle de penser dans ce cas, donc je pourrais simplement écrire mon propre code pour les obtenir si elles ne l'étaient pas ... et en fait, sur les très rares occasions où je fais des tests, c'est généralement pour une situation atypique nécessitant une simulation ou une certaine forme de rééchantillonnage, j'ai trouvé que j'avais tendance à le faire. J'aurais plutôt tendance à dire que les tests d'hypothèse répondent généralement à la mauvaise question. Dans les rares occasions où ils le font, je pense qu'ils ont de la valeur (notamment, les autres ne sont pas liés par mon niveau de signification).
Glen_b -Reinstate Monica
@glen_b - mon problème avec les valeurs p est que le ne fournit pas "la réponse" à tout test d'hypothèse, car ils ignorent les alternatives. Si vous êtes limité à un seul nombre, la valeur de la vraisemblance des données est une statistique bien meilleure que la valeur p (ainsi que les mêmes problèmes que p). De cette façon, les gens ne sont pas liés par votre choix de statistiques de test (en plus de ne pas être liés par votre seuil de signification).
probabilitéislogic

Réponses:

24
  1. Le taux d'erreur de rejet de type 1 / faux n'est pas complètement arbitraire, mais oui, il est proche. C'est quelque peu préférable à car c'est moins complexe cognitivement (les gens aiment les nombres ronds et les multiples de cinq ). C'est un compromis décent entre le scepticisme et l'aspect pratique, bien que peut-être un peu dépassé - les méthodes modernes et les ressources de recherche peuvent rendre préférables des normes plus élevées (c.-à-d. Des valeurs de inférieures ), si des normes doivent exister ( Johnson, 2013 ) .α=0,05α=.051p

    OMI, le plus grand problème que le choix du seuil est le choix souvent non examiné d'utiliser un seuil là où il n'est pas nécessaire ou utile. Dans les situations où un choix pratique doit être fait, je peux voir la valeur, mais beaucoup de recherches fondamentales ne nécessitent pas la décision de rejeter ses preuves et d'abandonner la perspective de rejeter la nullité simplement parce que les preuves d'un échantillon donné contre elle ne sont pas suffisantes de presque n'importe quel seuil raisonnable. Pourtant, une grande partie des auteurs de cette recherche se sentent obligés de le faire par convention, et y résistent mal à l'aise, inventant des termes comme signification "marginale" pour attirer l'attention quand ils peuvent la sentir s'échapper parce que leur public ne se soucie souvent pas de s . Si vous regardez autour d'autres questions ici surp0,05pl'interprétation des valeurs, vous verrez beaucoup de dissensions sur l'interprétation des valeurs de par les décisions binaires / concernant le null.pfail toreject

  2. Complètement différent - non. Significativement différent - peut-être. Une raison pour montrer une valeur ridiculement petite est d'impliquer des informations sur la taille de l'effet. Bien sûr, le simple fait de rapporter la taille de l'effet serait beaucoup mieux pour plusieurs raisons techniques, mais les auteurs omettent souvent de considérer cette alternative, et le public peut également la connaître moins, malheureusement. Dans un monde à hypothèse nulle où personne ne sait comment rapporter la taille des effets, on peut avoir le plus souvent raison de deviner qu'un plus petit signifie un effet plus grand. Dans la mesure où ce monde hypothétique nul est plus proche de la réalité que l'inverse, il est peut-être utile de rapporter les exacts pour cette raison. Veuillez comprendre que ce point est le plaidoyer du diable pur ...ppp

    Une autre utilisation des exacts que j'ai apprise en engageant un débat très similaire ici est celle des indices des fonctions de vraisemblance. Voir les commentaires et l'article de Michael Lew sur ( Lew, 2013 ) liés dans ma réponse à " Accueillir les vues bien ancrées des valeurs p "p

  3. Je ne pense pas que la correction de Bonferroni soit vraiment le même genre d'arbitraire. Cela corrige le seuil qui, je pense, nous convenons, est au moins presque complètement arbitraire, de sorte qu'il ne perd rien de cet arbitraire fondamental, mais je ne pense pas qu'il ajoute quoi que ce soit d'arbitraire à l'équation. La correction est définie de manière logique et pragmatique, et des variations mineures vers des corrections plus ou moins importantes semblent nécessiter des arguments assez sophistiqués pour les justifier comme plus qu'arbitraires, alors que je pense qu'il serait plus facile de plaider pour un ajustement de sans avoir à surmonter toute logique profondément attrayante mais simple en elle.α

    Si quoi que ce soit, je pense que les valeurs de devraient être plus ouvertes à l'interprétation! C'est-à-dire que la nullité est vraiment plus utile que l'alternative devrait dépendre de plus que de la seule preuve contre elle, y compris le coût de l'obtention de plus d'informations et la valeur ajoutée supplémentaire de connaissances plus précises ainsi acquises. C'est essentiellement l'idée sans seuil des pêcheurs qui, AFAIK, est la façon dont tout a commencé. Voir " Concernant les valeurs de p, pourquoi 1% et 5%? Pourquoi pas 6% ou 10%? "p

Si fail to/ rejectcrises ne sont pas forcées dès le départ sur l'hypothèse nulle, alors la compréhension plus continue de la signification statistique admet certainement la possibilité d'une signification sans cesse croissante. Dans l'approche dichotomisée de la signification statistique (je pense que cela est parfois appelé le cadre de Neyman-Pearson; cf. Dienes, 2007 ), non, tout résultat significatif est aussi significatif que le suivant - ni plus, ni moins. Cette question peut aider à expliquer ce principe: " Pourquoi les valeurs de p sont-elles uniformément réparties sous l'hypothèse nulle? " Quant au nombre de zéros significatifs et méritant d'être rapportés, je recommande la réponse de Glen_b à cette question: " Comment les minusculesp-les valeurs doivent-elles être signalées? (et pourquoi R met-il un minimum sur 2.22e-16?) "- c'est bien mieux que les réponses à la version de cette question que vous avez liée sur Stack Overflow!

Références
- Johnson, VE (2013). Normes révisées pour les preuves statistiques. Actes de l'Académie nationale des sciences, 110 (48), 19313–19317. Extrait de http://www.pnas.org/content/110/48/19313.full.pdf .
- Lew, MJ (2013). To P or not to P: Sur la nature probante des valeurs P et leur place dans l'inférence scientifique. arXiv: 1311.0081 [stat.ME]. Extrait de http://arxiv.org/abs/1311.0081 .

Nick Stauner
la source
3
+1, beaucoup de bonnes pensées ici. Je chipote cependant, concernant le n ° 1, je dirais que nous devrions souvent avoir des normes plus basses (c'est -à-dire des valeurs de p plus élevées) comme préférables. Il est souvent difficile d'obtenir suffisamment de données pour avoir le pouvoir d'étudier quelque chose. J'ai effectué un certain nombre d'analyses de puissance pour les médecins qui souhaitent étudier une maladie rare. Ils disent: «c'est vraiment sous-étudié, j'ai une idée pour une nouvelle approche, nous pouvons probablement obtenir 50 patients avec cela au cours des deux prochaines années», et je dis «votre puissance sera de 45%», et le projet est abandonné. Les maladies rares continueront à être sous-étudiées si p doit être 0,05 ou moins.
gung - Rétablir Monica
2
@gung: Je suis entièrement d'accord. J'ai cité Johnson (2013) uniquement parce que j'étais au courant de son argument, pas parce que je suis d'accord :) IMO, ayant une norme conventionnelle qui est inflexible et insensible aux préoccupations que vous décrivez (qui fait écho à mon point dans le deuxième paragraphe de mon la réponse à la question 3) est l'un des principaux problèmes, et l'ajuster à la hausse ou à la baisse ne le résoudra pas. Quand il n'y a pas de réel besoin pour un dur et rapide fail to/ rejectdécision, je pense qu'il est préférable de rendre le jugement de la preuve de la façon dont une valeur est basée sur beaucoup plus que la probabilité de l'échantillon donné la valeur nulle.
Nick Stauner
4
Excellente discussion. Un article intéressant d'une certaine pertinence est celui de Gelman et Stern. La différence entre «significatif» et «non significatif» n'est pas elle-même statistiquement significative (publiée plus tard dans American Statistician, 2006), ce qui, je dirais, ne caractérise pas nécessairement la valeur de p dénuée de sens, mais insufflerait une forte prudence en ce qui concerne la mise en avant de la comparaison des valeurs de p (plutôt que des estimations d'effet, par exemple). Gelman a discuté des questions liées à cela fréquemment sur son blog.
Glen_b -Reinstate Monica
2
Pour 2, je pense qu'il convient de souligner que les valeurs de ne doivent PAS être utilisées comme mesures d'association ou d'effet. Une propriété souhaitable d'un test inférentiel est la cohérence, c'est-à-dire que lorsque la taille de l'échantillon va à l'infini, la puissance du test va à 1, ou les valeurs de vont à 0. Les valeurs de ne doivent donc pas être utilisées pour décrire l'effet / l'association. ppp
bdeonovic
2
Il semble que Gelman fournisse également un lien vers le pdf du document publié sur son site.
Glen_b -Reinstate Monica
13

Il me semble que, si une valeur est significative, sa valeur exacte est significative.

La valeur p répond à cette question:

Si, dans la population dont cet échantillon a été tiré au hasard, l'hypothèse nulle était vraie, quelle est la probabilité d'obtenir une statistique de test au moins aussi extrême que celle que nous avons obtenue dans l'échantillon?

Qu'en est-il de cette définition qui rend une valeur exacte vide de sens?

C'est une question différente de celles concernant les valeurs extrêmes de p. Le problème avec les déclarations qui impliquent p avec plusieurs 0 concerne la façon dont nous pouvons estimer p dans les extrêmes. Comme nous ne pouvons pas faire cela très bien, cela n'a aucun sens d'utiliser des estimations aussi précises de p. C'est la même raison pour laquelle nous ne disons pas que p = 0,0319281010012981. Nous ne connaissons pas ces derniers chiffres avec certitude.

Nos conclusions devraient-elles être différentes si p <0,001 plutôt que p <0,05? Ou, pour utiliser des nombres précis, nos conclusions devraient-elles être différentes si p = 0,00023 plutôt que p = 0,035?

Je pense que le problème est de savoir comment nous concluons généralement les choses à propos de p. Nous disons «significatif» ou «non significatif» en fonction d'un certain niveau arbitraire. Si nous utilisons ces niveaux arbitraires, alors, oui, nos conclusions seront différentes. Mais ce n'est pas ainsi que nous devrions penser à ces choses. Nous devrions examiner le poids des preuves et les tests statistiques ne sont qu'une partie de ces preuves. Je vais (encore une fois) brancher les "critères MAGIQUES" de Robert Abelson:

Ampleur - quelle est l'ampleur de l'effet?

Articulation - quelle est sa précision? Y a-t-il beaucoup d'exceptions?

Généralités - à quel groupe s'applique-t-il?

Intérêt - les gens s'en soucieront-ils?

Crédibilité - est-ce logique?

C'est la combinaison de tous ces éléments qui compte. Notez qu'Abelson ne mentionne pas du tout les valeurs de p, bien qu'elles se présentent comme une sorte d'hybride de grandeur et d'articulation.

Peter Flom - Rétablir Monica
la source
5
Nous ne le disons pas souvent, mais techniquement, la valeur de p ne reflète que quelque chose au sujet de la "probabilité d'obtenir une statistique de test au moins aussi extrême que celle que nous avons obtenue dans l'échantillon" si l'hypothèse nulle est vraie, notre estimation d'échantillon de la variance de la population est parfaitement exacte, et nous rencontrons toutes les autres hypothèses de notre test. Jetez quelques intervalles de confiance autour de certaines valeurs p via le bootstrap et je pense que vous verrez que souvent nous ne sommes pas très confiants non plus sur les centièmes.
russellpierce
2
En bref, c'est un contre-fait si compliqué que tenter de quantifier une valeur p est contre-productif alors que nous devrions vraiment (comme vous le laissez entendre) revenir à la MAGIE.
russellpierce
Je dois admettre que je n'avais pas pensé à mettre des intervalles de confiance (ou des intervalles de crédibilité) autour des valeurs de p. Je me demande combien a été fait dans ce domaine?
Peter Flom - Réintègre Monica
2
Je n'ai pas de citation à portée de main, mais je sais qu'il y a du travail dans ce sens - peu importe, c'est une chose académique à faire parce que vous pouvez faire des intervalles de confiance de vos intervalles de confiance de vos intervalles de confiance presque à l'infini (il y a un maximum variance raisonnablement estimée à partir de tout ensemble de données). J'ai eu une conversation assez longue et détaillée dans ce sens avec @Nick Stauner il était une fois. Il peut encore avoir quelques articles qu'il a déterrés au cours de cette conversation pour apporter à la table.
russellpierce
1
Rien sur les intervalles de confiance pour les valeurs de p dont je me souviens, mais j'aurais peut-être survolé ces sections. Je n'étais pas non plus intéressé à faire des intervalles de confiance pour les valeurs de p ;)
Nick Stauner