Edit: La base de ma question est imparfaite, et je dois passer un peu de temps à déterminer si cela peut même avoir un sens.
Edit 2: Précisant que je reconnais qu'une valeur de p n'est pas une mesure directe de la probabilité d'une hypothèse nulle, mais que je suppose que plus une valeur de p est proche de 1, plus il est probable qu'une hypothèse a été choisie pour des tests expérimentaux dont l'hypothèse nulle correspondante est vraie, tandis que plus une valeur de p est proche de 0, plus il est probable qu'une hypothèse a été choisie pour des tests expérimentaux dont l'hypothèse nulle correspondante est fausse. Je ne peux pas voir comment cela est faux à moins que l'ensemble de toutes les hypothèses (ou toutes les hypothèses choisies pour les expériences) soit en quelque sorte pathologique.
Edit 3: Je pense que je n'utilise toujours pas une terminologie claire pour poser ma question. Au fur et à mesure que les numéros de loterie sont lus et que vous les associez un par un à votre billet, quelque chose change. La probabilité que vous ayez gagné ne change pas, mais la probabilité que vous puissiez éteindre la radio change. Il y a un changement similaire qui se produit lorsque les expériences sont terminées, mais j'ai le sentiment que la terminologie que j'utilise - "les valeurs p changent la probabilité qu'une véritable hypothèse a été choisie" - n'est pas la terminologie correcte.
Edit 4: J'ai reçu deux réponses incroyablement détaillées et informatives qui contiennent une multitude d'informations pour moi de travailler. Je vais les voter tous les deux maintenant, puis je reviendrai en accepter un lorsque j'aurai suffisamment appris des deux réponses pour savoir qu'ils ont répondu ou invalidé ma question. Cette question a ouvert une boîte de vers beaucoup plus grande que celle que je m'attendais à manger.
Dans les articles que j'ai lus, j'ai vu des résultats avec p> 0,05 après validation appelés "faux positifs". Cependant, n'est-il pas plus probable qu'improbable que j'ai choisi une hypothèse à tester avec une fausse hypothèse nulle correspondante lorsque les données expérimentales ont un p <0,50 qui est faible mais> 0,05, et ne sont pas à la fois l'hypothèse nulle et l'hypothèse de recherche statistiquement incertaine / insignifiante (étant donné le seuil de signification statistique conventionnel) n'importe où entre 0,05 <p < 0,95 quel que soit l'inverse de p <0,05, étant donné l'asymétrie soulignée dans le lien @ NickStauner ?
Appelons ce nombre A, et définissons-le comme la valeur de p qui dit la même chose à propos de la probabilité que vous ayez choisi une véritable hypothèse nulle pour votre expérience / analyse qu'une valeur de p de 0,05 dit à propos de la probabilité que vous ' J'ai choisi une véritable hypothèse non nulle pour votre expérience / analyse. 0,05 <p <Il suffit de dire: "La taille de votre échantillon n'était pas assez grande pour répondre à la question, et vous ne pourrez pas juger de l'importance de l'application / du monde réel tant que vous n'aurez pas obtenu un échantillon plus grand et obtenu vos statistiques importance triée "?
En d'autres termes, ne devrait-il pas être correct d'appeler un résultat définitivement faux (plutôt que simplement non pris en charge) si et seulement si p> A?
Cela me semble simple, mais une telle utilisation répandue me dit que je peux me tromper. Suis-je:
a) mal interpréter les mathématiques,
b) se plaindre d'une convention inoffensive sinon exacte,
c) complètement correcte, ou
d) autre?
Je reconnais que cela ressemble à un appel à opinions, mais cela semble être une question avec une réponse mathématiquement précise (une fois qu'un seuil de signification est défini) que moi ou (presque) tout le monde se trompe.
la source
Réponses:
Votre question est basée sur une fausse prémisse:
Une valeur de p n'est pas une probabilité que l'hypothèse nulle soit vraie. Par exemple, si vous avez pris mille cas où l'hypothèse nulle est vraie, la moitié d'entre eux auront
p < .5
. Ces moitiés seront toutes nulles.En effet, l'idée qui
p > .95
signifie que l'hypothèse nulle est "probablement vraie" est également trompeuse. Si l'hypothèse nulle est vraie, la probabilitép > .95
est exactement la même que la probabilitép < .05
.ETA: Votre modification clarifie le problème: vous avez toujours le problème ci-dessus (que vous traitez une valeur de p comme une probabilité postérieure, quand ce n'est pas le cas). Il est important de noter que ce n'est pas une distinction philosophique subtile (comme je pense que vous le laissez entendre dans votre discussion sur les billets de loterie): cela a d'énormes implications pratiques pour toute interprétation des valeurs de p.
Mais il y a une transformation que vous pouvez effectuer sur les valeurs p qui vous amènera à ce que vous recherchez, et cela s'appelle le taux de fausse découverte locale. (Comme décrit dans ce bel article , c'est l'équivalent fréquentiste de la "probabilité d'erreur postérieure", alors pensez-y de cette façon si vous le souhaitez).
Travaillons avec un exemple concret. Supposons que vous effectuez un test t pour déterminer si un échantillon de 10 nombres (à partir d'une distribution normale) a une moyenne de 0 (un test t bilatéral à un échantillon). Voyons d'abord à quoi ressemble la distribution de la valeur p lorsque la moyenne est réellement nulle, avec une courte simulation R:
Comme nous pouvons le voir, les valeurs p nulles ont une distribution uniforme (également probable à tous les points entre 0 et 1). C'est une condition nécessaire des valeurs de p: en effet, c'est précisément ce que signifient les valeurs de p! (Étant donné que le zéro est vrai, il y a 5% de chances qu'il soit inférieur à 0,05, 10% de chances qu'il soit inférieur à 0,1 ...)
Considérons maintenant les hypothèses alternatives - les cas où le null est faux. Maintenant, c'est un peu plus compliqué: quand le null est faux, "c'est faux"? La moyenne de l'échantillon n'est pas 0, mais est-elle 0,5? 1? dix? Varie-t-elle au hasard, parfois petite et parfois grande? Par souci de simplicité, disons qu'il est toujours égal à 0,5 (mais rappelez-vous que la complication, ce sera important plus tard):
Notez que la distribution n'est plus uniforme: elle est décalée vers 0! Dans votre commentaire, vous mentionnez une "asymétrie" qui donne des informations: c'est cette asymétrie.
Imaginez donc que vous connaissiez ces deux distributions, mais vous travaillez avec une nouvelle expérience, et vous avez également un a priori qu'il y a 50% de chances qu'elle soit nulle et 50% qu'elle soit alternative. Vous obtenez une valeur de p de 0,7. Comment pouvez-vous passer de cela et de la valeur de p à une probabilité?
Ce que vous devez faire, c'est comparer les densités :
Et regardez votre p-value:
Ce rapport entre la densité nulle et la densité alternative peut être utilisé pour calculer le taux de fausses découvertes locales : plus le zéro est élevé par rapport à l'alternative, plus le FDR local est élevé. C'est la probabilité que l'hypothèse soit nulle (techniquement, elle a une interprétation fréquentiste plus stricte, mais nous resterons simples ici). Si cette valeur est très élevée, alors vous pouvez faire l'interprétation "l'hypothèse nulle est presque certainement vraie". En effet, vous pouvez faire un seuil de .05 et .95 du FDR local: cela aurait les propriétés que vous recherchez. (Et comme le FDR local augmente de façon monotone avec la valeur de p, du moins si vous le faites correctement, cela se traduira par certains seuils A et B où vous pouvez dire "
Maintenant, je vous entends déjà demander "alors pourquoi n'utilisons-nous pas cela au lieu des valeurs p?" Deux raisons:
Vous n'avez besoin d'aucun de ces éléments pour un test de valeur p, et un test de valeur p vous permet toujours d'éviter les faux positifs (ce qui est son objectif principal). Maintenant, il est possible d'estimer ces deux valeurs dans plusieurs tests d'hypothèses, lorsque vous avez des milliers de valeurs p (comme un test pour chacun des milliers de gènes: voir ce papier ou ce papier par exemple), mais pas lorsque vous fais un seul test.
Enfin, vous pourriez dire: «Le document n'est-il pas toujours faux de dire qu'une réplication qui conduit à une valeur de p supérieure à 0,05 est nécessairement un faux positif? Eh bien, bien qu'il soit vrai qu'obtenir une valeur de p de 0,04 et une autre valeur de p de 0,06 ne signifie pas vraiment que le résultat d'origine était faux, dans la pratique, c'est une mesure raisonnable à choisir. Mais en tout cas, vous pourriez être heureux de savoir que d'autres en ont des doutes! Le document auquel vous vous référez est quelque peu controversé en statistiques: ce document utilise une méthode différente et arrive à une conclusion très différente sur les valeurs de p de la recherche médicale, puis cette étude a été critiquée par certains Bayésiens de premier plan (et ça tourne en rond) ...). Donc, bien que votre question soit basée sur des présomptions erronées concernant les valeurs de p, je pense qu'elle examine une hypothèse intéressante de la part de l'article que vous citez.
la source
On peut soutenir que l'hypothèse nulle telle qu'elle est littéralement énoncée a souvent plus de chances qu'être erronée, car les hypothèses nulles sont le plus souvent, littéralement des hypothèses d' effet nul . (Pour des contre-exemples pratiques, voir les réponses à: " Les ensembles de données volumineux sont-ils inappropriés pour le test d'hypothèse? ") Des problèmes philosophiques tels que l'effet papillon menacent la validité littérale d'une telle hypothèse; par conséquent, le zéro est le plus généralement utile comme base de comparaison pour une hypothèse alternative d'un certain effet non nul. Une telle hypothèse alternative peut rester plus plausible que la valeur nulle après la collecte de données qui auraient été improbables si la valeur nulle était vraie. Par conséquent, les chercheurs déduisent généralement le soutien d'une hypothèse alternative à partir de preuves contre le zéro, mais ce n'est pas ce que les valeurs de p quantifient directement ( Wagenmakers, 2007 ) .
Comme vous le suspectez, la signification statistique est fonction de la taille de l' échantillon , ainsi que de la taille et de la cohérence de l'effet. (Voir la réponse de @ gung à la question récente, " Comment un test t peut-il être statistiquement significatif si la différence moyenne est presque 0? ") Les questions que nous avons souvent l'intention de poser à nos données sont: "Quel est l'effet dep p
x
sury
? " Pour diverses raisons (y compris, l'OMI, les programmes éducatifs mal conçus et autrement déficients en statistiques, en particulier ceux enseignés par des non-statisticiens), nous nous retrouvons souvent à la place à poser à la place la question vaguement liée, "Quelle est la probabilité d'échantillonnage aléatoire de données telles que les miennes au hasard d'une population dans laquellex
n'affecte pasy
Étant donné que les données doivent généralement représenter des observations empiriques factuelles, elles ne doivent pas être fausses; seules les déductions à leur sujet devraient faire face à ce risque, idéalement. (Une erreur de mesure se produit également, bien sûr, mais ce problème dépasse quelque peu la portée de cette réponse, donc en dehors de le mentionner ici, je le laisse de côté sinon.) que l'hypothèse alternative, du moins à moins que l'inférateur ne sache que le zéro est vrai. Ce n'est que dans la circonstance assez difficile à concevoir que le nul est littéralement vrai qu'une inférence en faveur d'une hypothèse alternative serait définitivement fausse ... du moins, pour autant que je puisse l'imaginer pour le moment.
De toute évidence, l'utilisation ou la convention répandue n'est pas la meilleure autorité en matière de validité épistémique ou inférentielle. Même les ressources publiées sont faillibles; voir par exemple Fallacy dans la définition de la valeur de p . Votre référence ( Hurlbert & Lombardi, 2009 ) offre également une exposition intéressante de ce principe (page 322):
Re: votre question à choix multiples, je sélectionne
d
. Vous avez peut-être mal interprété certains concepts ici, mais vous n'êtes certainement pas seul dans ce cas, et je vous laisse le jugement, car vous seul savez ce que vous croyez vraiment. Une interprétation erronée implique une certaine certitude, alors que poser une question implique le contraire, et cette impulsion à remettre en question en cas d'incertitude est tout à fait louable et loin d'être omniprésente, malheureusement. Cette question de la nature humaine rend l'inexactitude de nos conventions tristement inoffensive et mérite des plaintes telles que celles mentionnées ici. (Merci en partie à vous!) Cependant, votre proposition n'est pas complètement correcte non plus.Références
- Goodman, SN (1992). Un commentaire sur la réplication, les valeurs P et les preuves. Statistics in Medicine, 11 (7), 875–879.
- Goodman, SN (2001). Des valeurs P et Bayes: une proposition modeste. Epidemiology, 12 (3), 295-297. Extrait de http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .
- Goodman, S. (2008). Une sale douzaine: douze idées fausses de valeur P. Séminaires d'hématologie, 45 (3), 135-140. Extrait de http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .
- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M. et Greenberg, DA (2007). Non-réplication des études d'association: «pseudo-échecs» à répliquer? Genetics in Medicine, 9 (6), 325–331. Extrait de http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .
- Hurlbert, SH et Lombardi, CM (2009). Effondrement final du cadre théorique de décision Neyman – Pearson et montée du néofisherien. Annales Zoologici Fennici, 46 (5), 311–349. Extrait de http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .
- Lew, MJ (2013). To P or not to P: Sur la nature probante des valeurs P et leur place dans l'inférence scientifique. arXiv: 1311.0081 [stat.ME]. Récupéré dehttp://arxiv.org/abs/1311.0081 .
- Moyé, LA (2008). Bayésiens dans les essais cliniques: endormi à l'interrupteur. Statistics in Medicine, 27 (4), 469–482.
- Nuzzo, R. (2014, 12 février). Méthode scientifique: erreurs statistiques. Nature News, 506 (7487). Extrait de http://www.nature.com/news/scientific-method-statistical-errors-1.14700 .
- Wagenmakers, EJ (2007). Une solution pratique aux problèmes omniprésents des valeurs de p . Psychonomic Bulletin & Review, 14 (5), 779–804. Extrait de http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .
la source