Pourquoi les résultats de 0,05 <p <0,95 sont-ils appelés faux positifs?

9

Edit: La base de ma question est imparfaite, et je dois passer un peu de temps à déterminer si cela peut même avoir un sens.

Edit 2: Précisant que je reconnais qu'une valeur de p n'est pas une mesure directe de la probabilité d'une hypothèse nulle, mais que je suppose que plus une valeur de p est proche de 1, plus il est probable qu'une hypothèse a été choisie pour des tests expérimentaux dont l'hypothèse nulle correspondante est vraie, tandis que plus une valeur de p est proche de 0, plus il est probable qu'une hypothèse a été choisie pour des tests expérimentaux dont l'hypothèse nulle correspondante est fausse. Je ne peux pas voir comment cela est faux à moins que l'ensemble de toutes les hypothèses (ou toutes les hypothèses choisies pour les expériences) soit en quelque sorte pathologique.

Edit 3: Je pense que je n'utilise toujours pas une terminologie claire pour poser ma question. Au fur et à mesure que les numéros de loterie sont lus et que vous les associez un par un à votre billet, quelque chose change. La probabilité que vous ayez gagné ne change pas, mais la probabilité que vous puissiez éteindre la radio change. Il y a un changement similaire qui se produit lorsque les expériences sont terminées, mais j'ai le sentiment que la terminologie que j'utilise - "les valeurs p changent la probabilité qu'une véritable hypothèse a été choisie" - n'est pas la terminologie correcte.

Edit 4: J'ai reçu deux réponses incroyablement détaillées et informatives qui contiennent une multitude d'informations pour moi de travailler. Je vais les voter tous les deux maintenant, puis je reviendrai en accepter un lorsque j'aurai suffisamment appris des deux réponses pour savoir qu'ils ont répondu ou invalidé ma question. Cette question a ouvert une boîte de vers beaucoup plus grande que celle que je m'attendais à manger.

Dans les articles que j'ai lus, j'ai vu des résultats avec p> 0,05 après validation appelés "faux positifs". Cependant, n'est-il pas plus probable qu'improbable que j'ai choisi une hypothèse à tester avec une fausse hypothèse nulle correspondante lorsque les données expérimentales ont un p <0,50 qui est faible mais> 0,05, et ne sont pas à la fois l'hypothèse nulle et l'hypothèse de recherche statistiquement incertaine / insignifiante (étant donné le seuil de signification statistique conventionnel) n'importe où entre 0,05 <p < 0,95 quel que soit l'inverse de p <0,05, étant donné l'asymétrie soulignée dans le lien @ NickStauner ?

Appelons ce nombre A, et définissons-le comme la valeur de p qui dit la même chose à propos de la probabilité que vous ayez choisi une véritable hypothèse nulle pour votre expérience / analyse qu'une valeur de p de 0,05 dit à propos de la probabilité que vous ' J'ai choisi une véritable hypothèse non nulle pour votre expérience / analyse. 0,05 <p <Il suffit de dire: "La taille de votre échantillon n'était pas assez grande pour répondre à la question, et vous ne pourrez pas juger de l'importance de l'application / du monde réel tant que vous n'aurez pas obtenu un échantillon plus grand et obtenu vos statistiques importance triée "?

En d'autres termes, ne devrait-il pas être correct d'appeler un résultat définitivement faux (plutôt que simplement non pris en charge) si et seulement si p> A?

Cela me semble simple, mais une telle utilisation répandue me dit que je peux me tromper. Suis-je:

a) mal interpréter les mathématiques,
b) se plaindre d'une convention inoffensive sinon exacte,
c) complètement correcte, ou
d) autre?

Je reconnais que cela ressemble à un appel à opinions, mais cela semble être une question avec une réponse mathématiquement précise (une fois qu'un seuil de signification est défini) que moi ou (presque) tout le monde se trompe.

Andrew Klaassen
la source
1
Salut David. Voici l'article qui m'a fait réfléchir: lien
Andrew Klaassen
2
Dans votre première ligne, ne voulez-vous pas plutôt écrire "... les résultats initialement avec mais ensuite avec après validation ..."? Un résultat avec supérieur au seuil sinon est appelé résultat négatif . Même après vos modifications, votre caractérisation de l'interprétation de est incorrecte, donc je voudrais vous suggérer de prendre quelques instants pour revoir certains de nos messages sur l'interprétation des valeurs de p et reconsidérer ce que vous voulez demander. p 0,05 p α pp<0,05p0.05pαp
whuber
1
Vous pouvez supprimer votre question si vous le souhaitez, mais comme vous avez reçu deux votes positifs (oh diable, faisons-en 3), une réponse positive, et que vous êtes sur le point de recevoir une autre réponse de "la vôtre vraiment", je vous demande de le laisser actif et travaillez dessus comme bon vous semble, bien que je vous respecte respectueusement de faire ce que vous voulez. À votre santé!
Nick Stauner
1
Je suis d'accord avec @Nick, Andrew: vous avez ici une question convaincante et provocatrice qui a attiré réflexion et attention, donc nous vous serions très reconnaissants de la garder affichée et, si vous le pouvez, de l'affiner un peu pour vous concentrer sur la question clé concernant l'interprétation des valeurs de p. La nouvelle partie, d'après ce que je peux dire, est la suggestion que le critère de rejet devrait être basé sur une grande valeur p. Concernant votre commentaire: un faux positif se produit lorsque le test est significatif mais on sait que l'hypothèse nulle est vraie.
whuber
1
@whuber: Le contexte le plus convaincant pour moi est de savoir quel résultat suggérerait qu'une expérience de suivi avec un plus grand échantillon est susceptible d'être productive. Étant donné les réponses jusqu'à présent, il semble que je doive me demander si les valeurs de p pourraient même être liées à cette question. Sachant que l'hypothèse nulle est vraie comme mesure d'un faux positif: quand dirait-on qu'une hypothèse nulle est vraie en dehors de la situation p> (1 - α)?
Andrew Klaassen

Réponses:

15

Votre question est basée sur une fausse prémisse:

n'est-il pas plus probable que l'hypothèse nulle de se tromper lorsque p <0,50

Une valeur de p n'est pas une probabilité que l'hypothèse nulle soit vraie. Par exemple, si vous avez pris mille cas où l'hypothèse nulle est vraie, la moitié d'entre eux auront p < .5. Ces moitiés seront toutes nulles.

En effet, l'idée qui p > .95signifie que l'hypothèse nulle est "probablement vraie" est également trompeuse. Si l'hypothèse nulle est vraie, la probabilité p > .95est exactement la même que la probabilité p < .05.

ETA: Votre modification clarifie le problème: vous avez toujours le problème ci-dessus (que vous traitez une valeur de p comme une probabilité postérieure, quand ce n'est pas le cas). Il est important de noter que ce n'est pas une distinction philosophique subtile (comme je pense que vous le laissez entendre dans votre discussion sur les billets de loterie): cela a d'énormes implications pratiques pour toute interprétation des valeurs de p.

Mais il y a une transformation que vous pouvez effectuer sur les valeurs p qui vous amènera à ce que vous recherchez, et cela s'appelle le taux de fausse découverte locale. (Comme décrit dans ce bel article , c'est l'équivalent fréquentiste de la "probabilité d'erreur postérieure", alors pensez-y de cette façon si vous le souhaitez).

Travaillons avec un exemple concret. Supposons que vous effectuez un test t pour déterminer si un échantillon de 10 nombres (à partir d'une distribution normale) a une moyenne de 0 (un test t bilatéral à un échantillon). Voyons d'abord à quoi ressemble la distribution de la valeur p lorsque la moyenne est réellement nulle, avec une courte simulation R:

null.pvals = replicate(10000, t.test(rnorm(10, mean=0, sd=1))$p.value)
hist(null.pvals)

entrez la description de l'image ici

Comme nous pouvons le voir, les valeurs p nulles ont une distribution uniforme (également probable à tous les points entre 0 et 1). C'est une condition nécessaire des valeurs de p: en effet, c'est précisément ce que signifient les valeurs de p! (Étant donné que le zéro est vrai, il y a 5% de chances qu'il soit inférieur à 0,05, 10% de chances qu'il soit inférieur à 0,1 ...)

Considérons maintenant les hypothèses alternatives - les cas où le null est faux. Maintenant, c'est un peu plus compliqué: quand le null est faux, "c'est faux"? La moyenne de l'échantillon n'est pas 0, mais est-elle 0,5? 1? dix? Varie-t-elle au hasard, parfois petite et parfois grande? Par souci de simplicité, disons qu'il est toujours égal à 0,5 (mais rappelez-vous que la complication, ce sera important plus tard):

alt.pvals = replicate(10000, t.test(rnorm(10, mean=.5, sd=1))$p.value)
hist(alt.pvals)

entrez la description de l'image ici

Notez que la distribution n'est plus uniforme: elle est décalée vers 0! Dans votre commentaire, vous mentionnez une "asymétrie" qui donne des informations: c'est cette asymétrie.

Imaginez donc que vous connaissiez ces deux distributions, mais vous travaillez avec une nouvelle expérience, et vous avez également un a priori qu'il y a 50% de chances qu'elle soit nulle et 50% qu'elle soit alternative. Vous obtenez une valeur de p de 0,7. Comment pouvez-vous passer de cela et de la valeur de p à une probabilité?

Ce que vous devez faire, c'est comparer les densités :

lines(density(alt.pvals, bw=.02))
plot(density(null.pvals, bw=.02))

Et regardez votre p-value:

abline(v=.7, col="red", lty=2)

entrez la description de l'image ici

Ce rapport entre la densité nulle et la densité alternative peut être utilisé pour calculer le taux de fausses découvertes locales : plus le zéro est élevé par rapport à l'alternative, plus le FDR local est élevé. C'est la probabilité que l'hypothèse soit nulle (techniquement, elle a une interprétation fréquentiste plus stricte, mais nous resterons simples ici). Si cette valeur est très élevée, alors vous pouvez faire l'interprétation "l'hypothèse nulle est presque certainement vraie". En effet, vous pouvez faire un seuil de .05 et .95 du FDR local: cela aurait les propriétés que vous recherchez. (Et comme le FDR local augmente de façon monotone avec la valeur de p, du moins si vous le faites correctement, cela se traduira par certains seuils A et B où vous pouvez dire "

Maintenant, je vous entends déjà demander "alors pourquoi n'utilisons-nous pas cela au lieu des valeurs p?" Deux raisons:

  1. Vous devez décider d'une probabilité préalable que le test est nul
  2. Vous devez connaître la densité sous l'alternative. Ceci est très difficile à deviner, parce que vous devez déterminer la taille de votre taille d'effet et les écarts peuvent être, et comment ils sont souvent si!

Vous n'avez besoin d'aucun de ces éléments pour un test de valeur p, et un test de valeur p vous permet toujours d'éviter les faux positifs (ce qui est son objectif principal). Maintenant, il est possible d'estimer ces deux valeurs dans plusieurs tests d'hypothèses, lorsque vous avez des milliers de valeurs p (comme un test pour chacun des milliers de gènes: voir ce papier ou ce papier par exemple), mais pas lorsque vous fais un seul test.

Enfin, vous pourriez dire: «Le document n'est-il pas toujours faux de dire qu'une réplication qui conduit à une valeur de p supérieure à 0,05 est nécessairement un faux positif? Eh bien, bien qu'il soit vrai qu'obtenir une valeur de p de 0,04 et une autre valeur de p de 0,06 ne signifie pas vraiment que le résultat d'origine était faux, dans la pratique, c'est une mesure raisonnable à choisir. Mais en tout cas, vous pourriez être heureux de savoir que d'autres en ont des doutes! Le document auquel vous vous référez est quelque peu controversé en statistiques: ce document utilise une méthode différente et arrive à une conclusion très différente sur les valeurs de p de la recherche médicale, puis cette étude a été critiquée par certains Bayésiens de premier plan (et ça tourne en rond) ...). Donc, bien que votre question soit basée sur des présomptions erronées concernant les valeurs de p, je pense qu'elle examine une hypothèse intéressante de la part de l'article que vous citez.

David Robinson
la source
Salut David. Bon point. Je vais travailler sur la reformulation de ma question pour ne pas me tromper et voir si je vois toujours un problème.
Andrew Klaassen
@David_Robinson: Serait-il correct d'utiliser la valeur de p comme taux de fausses alertes dans la règle bayésienne et de pouvoir tirer des conclusions sur la probabilité de la recherche et / ou des hypothèses nulles à partir de cela? Réglez l'avant à 50% et jouez rapidement et librement à partir de là? :-)
Andrew Klaassen
1
Oui, fascinant! Pouvez-vous l'intégrer dans votre réponse? Mais il y a une asymétrie entre la façon dont p se comporte lorsque null est vrai par rapport à quand il est faux qui ~ doit ~ donner quelques informations sur la probabilité que l'hypothèse nulle soit vraie sur la base de la valeur de p extraite des données. Si une vraie hypothèse nulle produit des valeurs de p uniformément distribuées, et une vraie hypothèse non nulle produit des valeurs de p qui sont biaisées vers 0, retirer ap = 0,01 marbre ~ doit ~ suggérer que vous êtes plus susceptible d'avoir choisi le pas -null pot d'expériences, même si la probabilité n'est pas modifiée en faisant l'expérience.
Andrew Klaassen
1
@AndrewKlaassen: Vous pourriez être intéressé par le concept du "taux de fausses découvertes locales". C'est un équivalent fréquentiste de la probabilité postérieure bayésienne que le zéro est vrai. Cela nécessite deux choses: a) une probabilité préalable que le nul soit vrai (parfois appelé pi0), et b) une estimation de la densité pour l'hypothèse alternative. Dans les tests d'hypothèses multiples (si vous aviez des milliers de valeurs de p), il est possible d'estimer les deux en regardant la densité. Si j'ai un peu plus de temps, je peux construire une explication plus approfondie dans ma réponse.
David Robinson
1
@AndrewKlaassen: Voir mon montage, où j'explique le FDR local en détail, pourquoi c'est la façon de calculer votre valeur "A" (bien que vous souhaitiez peut-être changer 0,05 pendant que vous calculez A), et aussi pourquoi il est rarement utilisé . Quoi qu'il en soit, pour clarifier un point qui ne correspond pas vraiment à la réponse: votre exemple avec le billet de loterie comprend mal le point que moi et d'autres avons fait valoir. Nous n'étions pas accrochés à l'idée de "les probabilités changent-elles avec les nouvelles informations" (les bayésiens et les fréquentistes ont leur interprétation de cela): le fait est que vous ne les changiez pas de la bonne façon!
David Robinson
10

p>.05p<.05p>.05(NHST). Les malentendus ne sont pas rares dans la littérature de recherche publiée, car le NHST est notoirement contre-intuitif. C'est l'un des cris de ralliement de l' invasion (que je soutiens, mais ne suit pas ... pour l'instant). J'ai travaillé moi-même avec des impressions erronées comme celles-ci jusqu'à récemment, alors je sympathise de tout cœur.

pp ppp) , entre autres avantages, et en mettant de côté des inconvénients discutables. (Pour être honnête, voir " Quels sont les inconvénients de l'analyse bayésienne? " Vous avez également commenté pour citer des articles qui pourraient offrir de belles réponses: Moyé, 2008; Hurlbert & Lombardi, 2009. )

On peut soutenir que l'hypothèse nulle telle qu'elle est littéralement énoncée a souvent plus de chances qu'être erronée, car les hypothèses nulles sont le plus souvent, littéralement des hypothèses d' effet nul . (Pour des contre-exemples pratiques, voir les réponses à: " Les ensembles de données volumineux sont-ils inappropriés pour le test d'hypothèse? ") Des problèmes philosophiques tels que l'effet papillon menacent la littérale d'une telle hypothèse; par conséquent, le zéro est le plus généralement utile comme base de comparaison pour une hypothèse alternative d'un certain effet non nul. Une telle hypothèse alternative peut rester plus plausible que la valeur nulle après la collecte de données qui auraient été improbables si la valeur nulle était vraie. Par conséquent, les chercheurs déduisent généralement le soutien d'une hypothèse alternative à partir de preuves contre le zéro, mais ce n'est pas ce que les quantifient directement ( Wagenmakers, 2007 ) .

Comme vous le suspectez, est fonction de de l' , ainsi que de la taille et de la cohérence de l'effet. (Voir la réponse de @ gung à la question récente, " Comment un test t peut-il être statistiquement significatif si la différence moyenne est presque 0? ") Les questions que nous avons souvent l'intention de poser à nos données sont: "Quel est l'effet de xsur y? " Pour diverses raisons (y compris, l'OMI, les programmes éducatifs mal conçus et autrement déficients en statistiques, en particulier ceux enseignés par des non-statisticiens), nous nous retrouvons souvent à la place à poser à la place la question vaguement liée, "Quelle est la probabilité d'échantillonnage aléatoire de données telles que les miennes au hasard d'une population dans laquelle xn'affecte pasypp

.05<p<.95- un autre de Goodman (2008) sale douzaine); cela dépend beaucoup plus de la signification des données, dont la signification statistique ne concerne que dans une mesure limitée. Voir ma réponse à ce qui précède .

Ne devrait-il pas être correct d'appeler un résultat définitivement faux (plutôt que simplement non pris en charge) si ... p> 0,95?

Étant donné que les données doivent généralement représenter des observations empiriques factuelles, elles ne doivent pas être fausses; seules les déductions à leur sujet devraient faire face à ce risque, idéalement. (Une erreur de mesure se produit également, bien sûr, mais ce problème dépasse quelque peu la portée de cette réponse, donc en dehors de le mentionner ici, je le laisse de côté sinon.) que l'hypothèse alternative, du moins à moins que l'inférateur ne sache que le zéro est vrai. Ce n'est que dans la circonstance assez difficile à concevoir que le nul est littéralement vrai qu'une inférence en faveur d'une hypothèse alternative serait définitivement fausse ... du moins, pour autant que je puisse l'imaginer pour le moment.

De toute évidence, l'utilisation ou la convention répandue n'est pas la meilleure autorité en matière de validité épistémique ou inférentielle. Même les ressources publiées sont faillibles; voir par exemple Fallacy dans la définition de la valeur de p . Votre référence ( Hurlbert & Lombardi, 2009 ) offre également une exposition intéressante de ce principe (page 322):

StatSoft (2007) se vante sur son site Web que son manuel en ligne «est la seule ressource Internet sur les statistiques recommandée par l'Encyclopedia Brittanica». Il n'a jamais été aussi important de «Distrust Authority», comme le dit l'autocollant pour pare-chocs. [URL comiquement brisée convertie en texte hyperlien.]

ppJ'espère que je peux inciter Michael à sonner ici en le marquant comme je l'ai fait (mais je ne suis pas sûr que les balises utilisateur envoient des notifications lorsqu'elles sont éditées dans - je ne pense pas que les vôtres dans l'OP l'ont fait). Il est peut-être le seul à pouvoir sauver Nuzzo - même la nature elle-même! Aidez-nous Obi-Wan! (Et pardonnez-moi si ma réponse ici démontre que je n'ai toujours pas compris les implications de votre travail, ce que je suis sûr que j'ai en tout cas ...) BTW, Nuzzo propose également une introspection et une réfutation de «Problème 3» de Wagenmaakers: voir la figure «Probable cause» de Nuzzo et les citations à l'appui ( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner et Greenberg, 2007 ) . Ceux-ci pourraient simplement contenir la réponse que vous '

Re: votre question à choix multiples, je sélectionne d. Vous avez peut-être mal interprété certains concepts ici, mais vous n'êtes certainement pas seul dans ce cas, et je vous laisse le jugement, car vous seul savez ce que vous croyez vraiment. Une interprétation erronée implique une certaine certitude, alors que poser une question implique le contraire, et cette impulsion à remettre en question en cas d'incertitude est tout à fait louable et loin d'être omniprésente, malheureusement. Cette question de la nature humaine rend l'inexactitude de nos conventions tristement inoffensive et mérite des plaintes telles que celles mentionnées ici. (Merci en partie à vous!) Cependant, votre proposition n'est pas complètement correcte non plus.

pp, Je suis au mieux une autorité faible et j'accueille favorablement toute correction ou élaboration que d'autres pourraient apporter à ce que j'ai dit ici. Tout ce que je peux dire en conclusion, c'est qu'il y a probablement une réponse mathématiquement correcte, et il se pourrait bien que la plupart des gens se trompent. La bonne réponse ne vient certainement pas facilement, comme le démontrent les références suivantes ...

pp

Références

- Goodman, SN (1992). Un commentaire sur la réplication, les valeurs P et les preuves. Statistics in Medicine, 11 (7), 875–879.
- Goodman, SN (2001). Des valeurs P et Bayes: une proposition modeste. Epidemiology, 12 (3), 295-297. Extrait de http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .
- Goodman, S. (2008). Une sale douzaine: douze idées fausses de valeur P. Séminaires d'hématologie, 45 (3), 135-140. Extrait de http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .
- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M. et Greenberg, DA (2007). Non-réplication des études d'association: «pseudo-échecs» à répliquer? Genetics in Medicine, 9 (6), 325–331. Extrait de http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .
- Hurlbert, SH et Lombardi, CM (2009). Effondrement final du cadre théorique de décision Neyman – Pearson et montée du néofisherien. Annales Zoologici Fennici, 46 (5), 311–349. Extrait de http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .
- Lew, MJ (2013). To P or not to P: Sur la nature probante des valeurs P et leur place dans l'inférence scientifique. arXiv: 1311.0081 [stat.ME]. Récupéré dehttp://arxiv.org/abs/1311.0081 .
- Moyé, LA (2008). Bayésiens dans les essais cliniques: endormi à l'interrupteur. Statistics in Medicine, 27 (4), 469–482.
- Nuzzo, R. (2014, 12 février). Méthode scientifique: erreurs statistiques. Nature News, 506 (7487). Extrait de http://www.nature.com/news/scientific-method-statistical-errors-1.14700 .
- Wagenmakers, EJ (2007). Une solution pratique aux problèmes omniprésents des valeurs de p . Psychonomic Bulletin & Review, 14 (5), 779–804. Extrait de http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .

Nick Stauner
la source
Je travaille toujours sur votre réponse très approfondie (merci pour cela), mais votre mention de "l'invasion bayésienne" m'a fait penser à "Bayesians in Clinical Trials: Asleep at the Switch", réimprimé comme chapitre 12 ici , que je ' m aussi envelopper lentement ma tête.
Andrew Klaassen
"Vous avez atteint une page qui n'est pas disponible pour la visualisation ou avez atteint votre limite de visualisation pour ce livre" ...?
Nick Stauner
1
C'est malheureux. Si vous avez accès au journal, vous pouvez également le trouver ici . Une recherche de la phrase «les bayésiens font maintenant tomber les barrières traditionnelles dans les essais cliniques» pourrait également vous y mener.
Andrew Klaassen
1
L'effondrement final du cadre théorique de décision de Neyman-Pearson et la montée du néofisherien contiennent également une histoire divertissante des valeurs de p et des attaques contre les utilisations de l'analyse bayésienne dans la recherche. Je ne peux pas dire que je le comprends assez bien pour l'évaluer, mais je pense qu'il est bon d'être au moins au courant des correctifs aux enthousiasmes actuels.
Andrew Klaassen
1
@NickStauner Je viens de trouver cette discussion. Il n'est pas nécessaire qu'au moins un compte soit erroné s'il existe un ensemble de comptes en désaccord. Ils peuvent être basés sur différents modèles. [Si vous jouez, vous devriez lire le livre de Bill Thompson, The Nature of Statistical Evidence (2005).] Néanmoins, mon récit est tout à fait vrai ;-) (Bien que ce matin encore rejeté par un journal.) J'ai trouvé le papier Nuzzo être insouciant et potentiellement trompeur.
Michael Lew