Utiliser la valeur de p pour calculer la probabilité que l'hypothèse soit vraie; que faut-il d'autre?

9

Question:

Un malentendu courant des valeurs de p est qu'elles représentent la probabilité que l'hypothèse nulle soit vraie. Je sais que ce n'est pas correct et je sais que les valeurs de p ne représentent que la probabilité de trouver un échantillon aussi extrême que cela, étant donné que l'hypothèse nulle est vraie. Cependant, intuitivement, on devrait pouvoir tirer le premier de ce dernier. Il doit y avoir une raison pour laquelle personne ne fait cela. Quelles informations manquons-nous qui nous empêchent de dériver la probabilité que l'hypothèse soit vraie à partir de la valeur de p et des données connexes?

Exemple:

Notre hypothèse est "la vitamine D affecte l'humeur" (l'hypothèse nulle étant "sans effet"). Disons que nous effectuons une étude statistique appropriée avec 1000 personnes et trouvons une corrélation entre l'humeur et les niveaux de vitamines. Toutes choses étant égales par ailleurs, une valeur de p de 0,01 indique une probabilité plus élevée d'hypothèse vraie qu'une valeur de p de 0,05. Disons que nous obtenons une valeur de p de 0,05. Pourquoi ne pouvons-nous pas calculer la probabilité réelle que notre hypothèse soit vraie? Quelles informations manquons-nous?

Terminologie alternative pour les statisticiens fréquentistes:

Si vous acceptez la prémisse de ma question, vous pouvez arrêter de lire ici. Ce qui suit est destiné aux personnes qui refusent d'accepter qu'une hypothèse puisse avoir une interprétation de probabilité. Oublions la terminologie un instant. Au lieu...

Disons que vous pariez avec votre ami. Votre ami vous montre mille études statistiques sur des sujets non liés. Pour chaque étude, vous êtes uniquement autorisé à examiner la valeur de p, la taille de l'échantillon et l'écart-type de l'échantillon. Pour chaque étude, votre ami vous propose des cotes pour parier que l'hypothèse présentée dans l'étude est vraie. Vous pouvez choisir de prendre le pari ou de ne pas le prendre. Après avoir fait des paris pour les 1000 études, un oracle monte sur vous et vous dit quelles hypothèses sont correctes. Ces informations vous permettent de régler les paris. Je prétends qu'il existe une stratégie optimale pour ce jeu. Dans ma vision du monde, cela équivaut à connaître les probabilités que l'hypothèse soit vraie, mais si nous ne sommes pas d'accord là-dessus, ça va. Dans ce cas, nous pouvons simplement parler des moyens d'employer des valeurs de p pour maximiser les attentes pour les paris.

hypothesis-testing bayesian p-value frequentist Atte Juvonen
la source

Voir, par exemple: math.tut.fi/~piche/bayes/notes06.pdf

klumbard

13

"Quelles informations manquons-nous" - la probabilité antérieure que H0 soit vraie. C'est juste le théorème de Bayes; pour calculer le postérieur, vous devez avoir un préalable.

amoeba

1

@AdamO Je ne vois pas comment cela découle de la règle de Cromwell, qui concerne le prieur, pas le postérieur. Je pense que vous confondez «vérité» et «certaine connaissance». Si nous étions intéressés par certaines connaissances, nous utiliserions la logique plutôt que le raisonnement probabiliste.

Dikran Marsupial

1

@AdamO je ne suis pas. OP a demandé "Quelles informations manquons-nous qui nous empêchent de dériver la probabilité que l'hypothèse soit vraie à partir de la valeur de p et des données connexes?" Qu'est-ce que la probabilité 1 et savoir quelque chose comme vérité ont à voir avec cela?

amoeba

1

En réponse à votre commentaire précédent @Atte: eh bien, si l'on veut supposer un a priori de 0,5, c'est bien, mais je ne vois pas pourquoi cela devrait toujours être une hypothèse significative. En tout cas, c'est une hypothèse.

amoeba

5

Les autres réponses sont toutes philosophiques, mais je ne vois pas pourquoi elles sont nécessaires ici. Prenons votre exemple:

Notre hypothèse est "la vitamine D affecte l'humeur" (l'hypothèse nulle étant "sans effet"). Disons que nous effectuons une étude statistique appropriée avec 1000 personnes et trouvons une corrélation entre l'humeur et les niveaux de vitamines. Toutes choses étant égales par ailleurs, une valeur de p de 0,01 indique une probabilité plus élevée d'hypothèse vraie qu'une valeur de p de 0,05. Disons que nous obtenons une valeur de p de 0,05. Pourquoi ne pouvons-nous pas calculer la probabilité réelle que notre hypothèse soit vraie? Quelles informations manquons-nous?

Pour , obtenir correspond au coefficient de corrélation de l'échantillon . L'hypothèse nulle est . L'hypothèse alternative est . $n=1000$ $p=0.05$ $\hat \rho=0.062$ $H_0: \rho=0$ $H_1: \rho\ne 0$

La valeur de est et nous pouvons le calculer en fonction de l'échantillonnage distribution de sous le nul; rien d'autre n'est nécessaire.

p -valeur = P (| \hat{ρ} | \geq 0,062 | ρ = 0),

$p\text{-value} = P\big(|\hat\rho|\ge 0.062 \;\big|\; \rho=0\big),$

\hat{ρ}

$\hat\rho$

Vous souhaitez calculer

P (H_{0} | Les données) = P (ρ = 0 | \hat{ρ} = 0,062),

$P(H_0\;|\;\text{data})=P\big(\rho=0\;\big|\; \hat\rho= 0.062\big),$

et pour cela, vous avez besoin de tout le tas d'ingrédients supplémentaires. En effet, en appliquant le théorème de Bayes, nous pouvons le réécrire comme suit:

\frac{P (\hat{ρ} = 0,062 | ρ = 0) \cdot P (ρ = 0)}{P (\hat{ρ} = 0,062 | ρ = 0) \cdot P (ρ = 0) + P (\hat{ρ} = 0,062 | ρ \neq 0) \cdot (1 - P (ρ = 0))} .

$\frac{P\big( \hat\rho= 0.062 \;\big|\;\rho=0\big) \cdot P(\rho=0)}{P\big( \hat\rho= 0.062 \;\big|\;\rho=0\big) \cdot P(\rho=0)+P\big( \hat\rho= 0.062 \;\big|\;\rho\ne0\big) \cdot (1-P(\rho=0))}.$

Donc, pour calculer la probabilité postérieure de la valeur nulle, vous devez avoir deux choses supplémentaires:

Avant que l'hypothèse nulle soit vraie: . $P(\rho=0)$
Hypothèse sur la distribution de si l'hypothèse alternative est vraie. Cela est nécessaire pour calculer le terme . $\rho$ $P\big( \hat\rho= 0.062 \;\big|\;\rho\ne0\big)$

Si vous êtes prêt à supposer que --- même si je ne sais pas personnellement pourquoi cela devrait être une hypothèse significative, --- vous devrez toujours assumer la distribution de sous alternative. Dans ce cas, vous pourrez calculer quelque chose appelé facteur Bayes : $P(\rho=0)=0.5$ $\rho$

B = \frac{P (\hat{ρ} = 0,062 | ρ = 0)}{P (\hat{ρ} = 0,062 | ρ \neq 0)} .

$B=\frac{P\big( \hat\rho= 0.062 \;\big|\;\rho=0\big) }{P\big( \hat\rho= 0.062 \;\big|\;\rho\ne0\big)}.$

Comme vous le voyez, le facteur Bayes ne pas dépendre de la probabilité a priori l'hypothèse nulle, mais elle ne dépend de la probabilité a priori (sous l'autre). $\rho$

[Veuillez noter que l'auteur de la proposition dans le facteur Bayes n'est pas la valeur p, en raison de l'égalité au lieu du signe d'inégalité. Ainsi, lorsque nous calculons le facteur de Bayes ou nous n'utilisons pas du tout la valeur de p elle- même . Mais nous utilisons bien sûr la distribution d'échantillonnage .] $P(H_0)$ $P(\hat\rho\;|\;\rho=0)$

amibe
la source

La question est sur « la probabilité que est vrai « », pensez - vous que les bayésiens calculer cela? Ou ont -ils calculent la« crédibilité « » de être vrai? -À- dire-ils calculer leur degré de croyance que est vrai (compte tenu des données qu'ils observent) ou calculent-ils la probabilité que soit vrai?

H_{0}

$H_0$

H_{0}

$H_0$

H_{0}

$H_0$

H_{0}

$H_0$

2

Je ne comprends pas la distinction que vous faites @fcop. Dans la vision du monde bayésienne, la probabilité est le degré de croyance ( par exemple, voir ici ).

amoeba

Alors pourquoi l'appellent-ils «crédibilité»?

1

Désolé @fcop, je ne veux pas avoir de discussion philosophique ou sémantique ici. L'OP demande ce qui est nécessaire pour calculer et je répondais à cette question spécifique du point de vue mathématique.

P (H_{0})

$P(H_0)$

amoeba

@fcop voir aussi stats.stackexchange.com/questions/173056/…

Tim

7

Quid est veritas?

Je peux accepter la réponse de @ amoeba aussi facilement que l'affiche originale. Je préviens cependant que dans tous mes travaux, je n'ai pas rencontré d'analyse bayésienne qui calcule "la probabilité que l'hypothèse nulle soit vraie". Et une telle conclusion attirerait toute une série d'arguments de la part de ceux qui examinent votre travail! Philosophiquement, il le faitnous ramène à la question: "qu'est-ce que la vérité?" Peut-être que la «vérité» est irréfutable, même pour se prouver. La statistique est un outil scientifique pour quantifier l'incertitude. Je soutiens toujours que, même si les preuves peuvent pointer fortement vers une vérité, il existe toujours un risque de résultat faussement positif, et le bon statisticien devrait signaler ce risque. Même dans les tests théoriques de décision bayésienne, une règle de décision est donnée afin que nous puissions accepter ou rejeter des hypothèses basées sur des facteurs bayésiens qui sont à peu près proportionnels à , mais notre croyance n'est jamais ou même lorsque notre décision est. La théorie de la décision nous donne un moyen «d'aller de l'avant» avec une connaissance partielle et d'accepter ces risques. $Pr(H_0 | X)$ $1$ $0$

Une partie de la justification des tests statistiques d'hypothèse nulle (NHST) et de la valeur est la philosophie de falsification de Karl Popper . En cela: une hypothèse critique est que la «vérité» n'est jamais connue, nous ne pouvons que réduire d'autres hypothèses. Une critique intéressante et valable de la NHST est que vous êtes obligé de faire des suppositions ridicules, comme le fait que le tabagisme ne cause pas le cancer quand vous êtes vraiment intéressé par une étude descriptive (et non inférentielle): et vous décrivez simplement combien de fumeurs de cancer causent . $p$

La critique inverse a été appliquée aux études bayésiennes où vous pouvez appliquer généreusement les prieurs: Dennis Lindley a déclaré: "Avec une probabilité antérieure 0 que la lune soit faite de fromage, les astronautes revenant avec des bras pleins de fromage ne pouvaient toujours pas convaincre."

Les informations manquantes pour déterminer si l'hypothèse nulle est vraie sont, trivialement, la connaissance quant à savoir si l'hypothèse nulle est vraie. Ironiquement, lorsque nous nous concentrons sur les statistiques descriptives, nous pouvons accepter des plages tolérables d'effets possibles et conclure quelque peu fermement qu'une tendance est probablement vraie: mais les tests statistiques ne nous conduisent pas à de telles constatations. Même dans l'inférence bayésienne, aucune donnée ne conduira à un postérieur singulier sans avoir quelques problèmes méthodologiques, donc l'incorporation d'un a priori ne résout pas ce problème.

AdamO
la source

1

"" Avec une probabilité antérieure 0 que la lune est faite de fromage "mais étant donné" cogito ergo sum "(et peut-être même pas cela) est tout ce que nous savons avec certitude, si nous donnons une probabilité préalable de 0 que la lune soit faite de fromage ? 0 et 1 doivent être réservés pour les logiquement impossibles et certains, et eps et 1-eps pour les déclarations sur le monde réel. Le cadre bayésien est très bien, à condition que vos priors représentent fidèlement votre connaissance préalable du problème (mais cela en soi est un problème)

Dikran Marsupial

1

@DikranMarsupial Votre argument contre une telle utilisation de 0/1 est précisément ce que la citation suggère. Il ridiculise la situation pour expliquer la nécessité de ce que Lindley appelle la règle de Cromwell .

nwn

1

@watarok merci pour le lien / clarification, il semble que la mention dans la réponse soit un peu trompeuse car Lindley ne critique pas réellement les études bayésiennes, juste des priors trop confiants.

Dikran Marsupial

@DikranMarsupial Je pense que la question des prieurs trop confiants peut être appliquée à toutes les statistiques bayésiennes. Un a priori non informatif conduit souvent à une inférence et une analyse fréquentistes approximatives de toute façon. La différence réside dans l'interprétation: les résultats bayésiens doivent concorder avec l'idée d'une "vérité" ou d'un "vrai paramètre". C'est très bien tant que nous décrivons soigneusement les hypothèses et comment les taux de puissance et d'erreur sont fixés.

AdamO

@watarok, mon professeur de statistiques bayésiennes écossaises a utilisé cette citation régulièrement, mais n'a jamais décrit sa pertinence. Je suis reconnaissant de le savoir maintenant.

AdamO

6

Il y a deux tentatives pour faire exactement ce que vous avez dit dans l'histoire statistique, le bayésien et le fiduciaire. RA Fisher a fondé deux écoles de pensée statistique, l'école Lik vraisemblable construite autour de la méthode du maximum de vraisemblance et la Fiduciale, qui s'est soldée par un échec mais qui tente de faire exactement ce que vous voulez.

La réponse courte à la raison pour laquelle il a échoué est que ses distributions de probabilités n'ont pas fini par s'intégrer à l'unité. La leçon, à la fin, était que la probabilité préalable est une chose nécessaire pour avoir à créer ce que vous essayez de créer. En effet, vous vous engagez sur le chemin de l'un des plus grands statisticiens de l'histoire et plus d'un petit nombre des autres grands sont morts dans l'espoir d'une solution à ce problème. S'il était trouvé, il placerait les méthodes d'hypothèse nulle au même niveau que les méthodes bayésiennes en termes de types de problèmes qu'elles pourraient résoudre. En effet, cela repousserait les Bayes, sauf s'il existait de véritables informations préalables.

Vous devez également être prudent avec votre déclaration selon laquelle une valeur p indique une probabilité plus élevée pour l'alternative. Cela n'est vrai que dans l'école Fisherian Likelihoodist. Ce n'est pas du tout vrai à l'école Pearson-Neyman Frequentist. Votre pari en bas semble être un pari Pearson-Neyman alors que votre valeur p est incompatible car elle provient de l'école des pêcheurs.

Pour être charitable, je vais supposer, pour votre exemple, qu'il n'y a pas de biais de publication et que seuls des résultats significatifs apparaissent dans les journaux créant un taux élevé de fausses découvertes. Je traite cela comme un échantillon aléatoire de toutes les études réalisées, quels que soient les résultats. Je dirais que vos cotes de paris ne seraient pas cohérentes dans le sens classique de Finetti du mot.

Dans le monde de Finetti, un pari est cohérent si le bookmaker ne peut pas être joué par les joueurs afin qu'ils fassent face à une perte certaine. Dans la construction la plus simple, c'est comme la solution au problème de la découpe du gâteau. Une personne coupe le morceau en deux, mais l'autre choisit le morceau qu'elle veut. Dans cette construction, une personne indiquerait les prix des paris sur chaque hypothèse, mais l'autre choisirait d'acheter ou de vendre le pari. En substance, vous pouvez vendre à découvert le null. Pour être optimal, les chances devraient être strictement équitables. Les valeurs P ne doivent pas conduire à des cotes équitables.

Pour illustrer cela, considérons l'étude de Wetzels, et al sur http://ejwagenmakers.com/2011/WetzelsEtAl2011_855.pdf

La citation est la suivante: Ruud Wetzels, Dora Matzke, Michael D. Lee, Jeffrey N. Rounder, Geoffrey J. Iverson et Eric-Jan Wagenmakers. Preuve statistique en psychologie expérimentale: une comparaison empirique utilisant des tests de 855 t. Perspectives sur la science psychologique. 6 (3) 291-298. 2011

Il s'agit d'une comparaison directe de 855 tests t publiés utilisant des facteurs de Bayes pour contourner le problème de la distribution antérieure. Dans 70% des valeurs de p entre 0,05 et 0,01, les facteurs de Bayes étaient au mieux anecdotiques. Cela est dû à la forme mathématique utilisée par les Frequentists pour résoudre le problème.

Les méthodes d'hypothèse nulle supposent que le modèle est vrai et, par leur construction, utilisent une distribution statistique minimax plutôt qu'une distribution de probabilité. Ces deux facteurs ont un impact sur les différences entre les solutions bayésiennes et non bayésiennes. Considérons une étude où la méthode bayésienne évalue la probabilité postérieure d'une hypothèse à trois pour cent. Imaginez que la valeur p soit inférieure à cinq pour cent. Les deux sont vrais, car trois pour cent est inférieur à cinq pour cent. Néanmoins, la valeur de p n'est pas une probabilité. Il indique uniquement la valeur maximale qui pourrait être la probabilité de voir les données, et non la probabilité réelle qu'une hypothèse soit vraie ou fausse. En effet, dans la construction de la valeur de p, vous ne pouvez pas distinguer les effets dus au hasard avec un vrai nul et un faux nul avec de bonnes données.

Si vous regardez l'étude de Wetzel, vous remarquerez qu'il est très évident que les cotes impliquées par les valeurs de p ne correspondent pas aux cotes impliquées par la mesure bayésienne. Étant donné que la mesure bayésienne est à la fois admissible et cohérente et que la mesure non bayésienne n'est pas cohérente, il n'est pas sûr de supposer que les valeurs de p correspondent aux vrais probabilités. L'hypothèse forcée que le null est valide fournit de bonnes probabilités de couverture, mais cela ne produit pas de bonnes probabilités de jeu.

Pour mieux comprendre pourquoi, considérons le premier axiome de Cox selon lequel la plausibilité d'une hypothèse peut être décrite par un nombre réel. Implicitement, cela signifie que toutes les hypothèses ont un nombre réel lié à leur plausibilité. Dans les méthodes d'hypothèse nulle, seul le nul a un nombre réel lié à sa plausibilité. L'hypothèse alternative n'a pas de mesure et ce n'est certainement pas le complément à la probabilité d'observer les données étant donné que le zéro est vrai. En effet, si le null est vrai, alors le complément est faux par hypothèse sans égard aux données.

Si vous avez construit les probabilités en utilisant des valeurs de p comme base de votre mesure, alors le bayésien utilisant des mesures bayésiennes serait toujours capable d'obtenir un avantage sur vous. Si le bayésien fixait les cotes, alors la théorie de la décision de Pearson et Neyman fournirait un énoncé de pari ou ne parierait pas, mais il ne serait pas en mesure de définir le montant à parier. Les probabilités bayésiennes étant justes, le gain attendu de l'utilisation de la méthode de Pearson et Neyman serait nul.

En effet, l'étude Wetzel est vraiment ce dont vous parlez, mais avec 145 paris de moins. Si vous regardez le tableau trois, vous verrez des études où le Frequentist rejette le nul, mais le Bayésien trouve que la probabilité favorise le nul.

Dave Harris
la source

5

Une analyse fréquentiste ne peut pas vous donner la probabilité qu'une hypothèse particulière soit vraie (ou fausse) parce qu'elle n'a pas de fréquence à long terme (c'est vrai ou ce n'est pas) donc nous ne pouvons pas lui assigner une probabilité (sauf peut-être 0 ou 1 ). Si vous voulez connaître la probabilité qu'une hypothèse particulière soit vraie, nous devons adopter un cadre bayésien (où il est simple, nous devons simplement considérer les probabilités antérieures, etc.).

Les fréquencistes peuvent trouver des stratégies optimales pour agir sur des tests d'hypothèse nulle (cadre de Neyman-Pearson ) mais ils ne peuvent pas traduire cela en une probabilité que l'hypothèse soit vraie, mais uniquement en raison de leur définition d'une probabilité.

Dikran Marsupial
la source

Pourriez-vous être plus précis sur '' ne peut pas traduire cela en une probabilité que l'hypothèse est vraie, mais seulement à cause de leur définition d'une probabilité '' parce que je ne comprends pas pourquoi c'est le cas?

Les fréquencistes définissent les probabilités en termes de fréquences à long terme, et la vérité d'une hypothèse particulière n'a pas de fréquence à long terme (non triviale), de sorte qu'un fréquentiste ne peut pas y attacher de probabilité. en.wikipedia.org/wiki/Frequentist_probability C'est pourquoi nous disons des choses légèrement cryptiques comme "nous sommes en mesure de rejeter l'hypothèse nulle au niveau de signification X" plutôt que "la probabilité que H0 soit faux est p" (qui est le forme de réponse que nous voulons habituellement).

Dikran Marsupial

1

p (H_{0} = t r u e)

$p(H_0=\mathrm{true})$

p (H_{0} = t r u e | D)

$p(H_0=\mathrm{true}|D)$

p (D | H_{0} = t r u e)

$p(D|H_0=\mathrm{true})$

H_{0}

$H_0$

voir ma réponse dans ce fil, également pour @matus.

@DikranMarsupial un Bayésien n'accepterait-il que quelque chose comme "vérité" si la probabilité d'un résultat particulier est 1 et pour toutes les autres possibilités, elle est 0? Pouvez-vous obtenir cela dans une analyse bayésienne? Vous auriez besoin d'une probabilité qui domine l'a priori, mais alors les fréquencistes et les bayésiens devraient concéder: les données nous ont tout dit.

AdamO

1

Après avoir fait des paris pour les 1000 études, un oracle monte sur vous et vous dit quelles hypothèses sont correctes. Ces informations vous permettent de régler les paris. Je prétends qu'il existe une stratégie optimale pour ce jeu.

Le problème dans votre configuration est Oracle. Il ne s'agit généralement pas de régler les paris. Disons, vous pariez que la probabilité qu'il soit vrai que le tabagisme cause le cancer est de 97%. Quand cet Oracle viendra-t-il régler le pari? Jamais. Alors, comment prouveriez-vous que votre stratégie optimale est optimale?

Cependant, si vous supprimez un Oracle et introduisez d'autres agents tels que des concurrents et des clients, il y aurait alors une stratégie optimale. Je crains cependant que cela ne soit pas basé sur des valeurs de p. Elle serait plus similaire à l'approche de Gosset avec les fonctions de perte. Par exemple, vous et vos concurrents dans le secteur agricole pariez sur la véracité des prévisions météorologiques. Celui qui choisit une meilleure stratégie va gagner plus d'argent. Il n'y a pas besoin d'Oracle et les paris sont réglés sur les marchés. Ici, vous ne pouvez pas baser votre stratégie sur des valeurs p, vous devez tenir compte des pertes et des profits en dollars.

Aksakal
la source

Pourquoi ne pouvons-nous pas simplement supposer qu'un Oracle viendra régler les paris immédiatement?

Atte Juvonen

Pourquoi ne pouvons-nous pas supposer qu'une fois que nous estimons que l'échantillon signifie que Oracle vient et nous dit quelle est la population moyenne? C'est la même chose, si vous y réfléchissez. C'est tout simplement irréaliste.

Aksakal

0

$H_0: \mu_L=1.75$ $H_1: \mu_L \ne 1.75$

$H_0$ $P(H_0=TRUE)$

$H_0$

Pour un fil sur les valeurs p, voir Malentendu sur une valeur p?

$H_0$ $H_0$

$H_0:$ $H_1:$

$H_0$ $H_0$

$H_0$ $H_0$ $H_1$

$H_0$ $H_0$ $H_1$ $H_0$

$H_0$ $H_1$

Ils expriment simplement leur croyance en leur «conclusion du test» dérivée des «données disponibles».

la source

Utiliser la valeur de p pour calculer la probabilité que l'hypothèse soit vraie; que faut-il d'autre?

Réponses: