Cumming (2008) affirme que la distribution des valeurs de p obtenues lors de réplications ne dépend que de la valeur de p d'origine. Comment cela peut-il être vrai?

52

Je lisais l'article de 2008 de Geoff Cumming sur Replication and Intervals: les valeurs ne prédisent que très vaguement l'avenir, mais les intervalles de confiance sont bien meilleurs $p$ $p$ [environ 200 citations dans Google Scholar] - et je suis dérouté par l'une de ses revendications centrales. C'est l'un des articles dans lesquels Cumming plaide contre les valeurs et en faveur des intervalles de confiance; Ma question, cependant, ne concerne pas ce débat et ne concerne qu'une affirmation spécifique concernant les valeurs . $p$ $p$

Permettez-moi de citer du résumé:

Cet article montre que, si une première expérience aboutit à un , il y a chance que la unilatérale d'une réplication tombe dans l'intervalle , un probabilité que et probabilité que . Remarquablement, l'intervalle - appelé intervalle - est aussi large que la taille de l'échantillon. $p= .05$ $80\%$ $p$ $(.00008, .44)$ $10\%$ $p < .00008$ $10\%$ $p > .44$ $p$

Cumming revendications que cette « intervalle », et en fait toute la distribution de -values que l' on obtiendrait lors de la réplication de l'expérience initiale (avec la même taille d'échantillon fixe), dépendent uniquement de l'original -valeur et ne dépendent pas de la taille réelle de l'effet, de la puissance, de la taille de l'échantillon ou de quoi que ce soit d'autre: $p$ $p$ $p$ $p_\mathrm{obt}$

[...] la distribution de probabilité de peut être dérivée sans connaître ou supposer une valeur pour (ou puissance). [...] Nous ne supposons aucune connaissance préalable de , et nous utilisons uniquement les informations que [différence observée entre les groupes] donne à propos de comme base du calcul pour un donné de la distribution de et de intervalles. $p$ $\delta$ $\delta$ $M_\mathrm{diff}$ $\delta$ $p_\mathrm{obt}$ $p$ $p$

$\quad\quad\quad$

Cela me laisse perplexe car il me semble que la distribution des valeurs dépend fortement du pouvoir, alors que le ne donne à lui seul aucune information à ce sujet. Il se peut que la taille réelle de l’effet soit et que la distribution soit uniforme; ou peut-être que la taille de l'effet est énorme et que nous devrions alors nous attendre à des valeurs très petites . Bien sûr, on peut commencer par supposer certaines tailles d’effet antérieures et possibles et les intégrer, mais Cumming semble affirmer que ce n’est pas ce qu’il fait. $p$ $p_\mathrm{obt}$ $\delta=0$ $p$

Question: Qu'est-ce qui se passe exactement ici?

Notez que ce sujet est lié à cette question: Quelle fraction d'expériences répétées aura une taille d'effet dans l'intervalle de confiance de 95% de la première expérience? avec une excellente réponse de @whuber. Cumming a rédigé un article sur ce sujet dans les articles suivants: Cumming & Maillardet, 2006, Intervalles de confiance et réplication: quelle sera la prochaine chute? - mais celui-là est clair et sans problème.

Je remarque également que la revendication de Cumming est répétée à plusieurs reprises dans le document de Nature Methods de 2015. La valeur fickle génère des résultats impossibles à reproduire $P$ que certains d'entre vous ont peut-être rencontrés (elle contient déjà environ 100 citations dans Google Scholar):

[...] il y aura une variation substantielle de la valeur des expériences répétées. En réalité, les expériences sont rarement répétées; nous ne savons pas à quel point le prochain pourrait être différent. Mais il est probable que cela pourrait être très différent. Par exemple, quelle que soit la puissance statistique d’une expérience, si une seule réplique renvoie une valeur de , il y a chances qu’une expérience répétée renvoie une valeur comprise entre et (et un changement de [sic] que serait encore plus grand). $P$ $P$ $P$ $0.05$ $80\%$ $P$ $0$ $0.44$ $20\%$ $P$

(Notez, en passant, comment, indépendamment du fait que la déclaration de Cumming soit exacte ou non, le papier de Nature Methods le cite de manière inexacte: selon Cumming, il n’ya que probabilité au-dessus de . Et oui, le papier dit "20% chan g e ". Pfff.) $10\%$ $0.44$

hypothesis-testing p-value power replicability l'amibe dit de réintégrer Monica
la source

8

Une telle revendication ne devrait-elle pas être subordonnée à un état de nature supposé - et cela ne serait-il pas par défaut l'hypothèse nulle? Pour les hypothèses nulles simples et une statistique distribuée en continu , la valeur p a une distribution uniforme. Tout découle de ce fait.

whuber

4

@whuber Eh bien, les distributions illustrées à la figure 5 que je reproduis ici ne sont clairement pas uniformes. Je conviens cependant que toute distribution de ce type, semble-t-il, doit être subordonnée à l'état de nature, mais Cumming semble prétendre le contraire. D'où ma question: que se passe-t-il réellement dans cet article? Est-ce que je comprends mal la demande? Le papier est-il simplement faux? Pouvons-nous comprendre certaines hypothèses cachées? Etc.

amibe dit de réintégrer Monica

Notez pour moi: ce arxiv.org/abs/1609.01664 est apparemment lié, mais un rapide coup d’œil ne résolut pas mon étonnement.

Amibe dit de réintégrer Monica

1

J'aurais aimé ne pas participer aux finales cette semaine ou y passer du temps. Cela n'a pas de sens qu'une valeur-p ultérieure dépende de la puissance, à condition que les deux tailles d'échantillons soient identiques. La valeur p observée ne doit dépendre que de la valeur vraie d'un paramètre et de votre choix de null. L'utilité de l'estimation dépend de la puissance, mais ce n'est pas une question ici.

Dave Harris

3

Je suis bien loin de ma ligue ici ... mais en feuilletant le papier, il me semble que tout est dans le contexte du test d'une différence significative dans les moyennes de deux populations gaussiennes avec la même variance connue et la même taille d'échantillon, avec un zéro égal à 0 . Est-ce correct? (c'est-à-dire où sous la valeur null.) Ou le document a-t-il une portée plus large, comme le question / commentaires semble ici indiquer?

z = \frac{Δ \bar{x}}{σ} \sqrt{\frac{N}{2}} \sim N_{⟨ z ⟩, 1}

$z=\frac{\Delta\bar{x}}{\sigma}\sqrt{\frac{N}{2}}\sim\mathrm{N}_{\langle{z}\rangle,1}$

⟨ z ⟩ = \frac{Δ μ}{σ} \sqrt{\frac{N}{2}} = 0

$\langle{z}\rangle=\frac{\Delta\mu}{\sigma}\sqrt{\frac{N}{2}}=0$

GeoMatt22

21

Résumé: il semble s'agir d'une approche bayésienne supposant un préalable uniforme ( Jeffreys ) pour le paramètre caché ( dans l'annexe B de l'article, ici). $z_\mu$ $\theta$

Je crois qu'il peut exister une approche bayésienne pour obtenir les équations données dans l'annexe B.

Si j'ai bien compris, l'expérience se résume à une statistique . La moyenne de la distribution d'échantillonnage est inconnue, mais elle disparaît sous l'hypothèse nulle, . $z\sim\mathrm{N}_{\theta,1}$ $\theta$ $\theta\mid{}H_0=0$

Appelez la statistique observée expérimentalement . Ensuite, si nous supposons un avant "uniforme" ( impropre ) sur , le postérieur bayésien est . Si nous mettons ensuite à jour la distribution d'échantillonnage d'origine en marginalisant , la postérieure devient . (La variance doublée est due à la convolution des Gaussiens.) $\hat{z}\mid\theta\sim\mathrm{N}_{\theta,1}$ $\theta\sim1$ $\theta\mid\hat{z}\sim\mathrm{N}_{\hat{z},1}$ $\theta\mid\hat{z}$ $z\mid\hat{z}\sim\mathrm{N}_{\hat{z},2}$

Mathématiquement au moins, cela semble fonctionner. Et il explique comment le facteur apparaît "par magie" en allant de l’équation B2 à l’équation B3. $\frac{1}{\sqrt{2}}$

Discussion

Comment ce résultat peut-il être réconcilié avec le cadre de test d'hypothèses nulles standard? Une interprétation possible est la suivante.

Dans le cadre standard, l'hypothèse nulle est en quelque sorte le "défaut" (par exemple, on parle de "rejeter le nul"). Dans le contexte bayésien ci-dessus, il s'agirait d'un précédent non uniforme qui préfère . Si nous prenons ceci comme étant , alors la variance représente notre incertitude antérieure. $\theta=0$ $\theta\sim\mathrm{N}_{0,\lambda^2}$ $\lambda^2$

En analysant ce qui précède, nous trouvons On peut voir que dans la limite nous récupérons l'analyse ci-dessus. Mais dans la limite nos "postérieurs" deviennent nuls, et , on récupère donc le résultat standard, .

θ \sim N_{0, λ^{2}} ⟹ θ ∣ \hat{z} \sim N_{δ^{2} \hat{z}, δ^{2}}, z ∣ \hat{z} \sim N_{δ^{2} \hat{z}, 1 + δ^{2}}, δ^{2} \equiv \frac{1}{1 + λ^{- 2}} \in [0, 1]

$\theta\sim\mathrm{N}_{0,\lambda^2} \implies \theta\mid\hat{z}\sim\mathrm{N}_{\delta^2\hat{z},\delta^2} \,,\, z\mid\hat{z}\sim\mathrm{N}_{\delta^2\hat{z},1+\delta^2} \,,\, \delta^2\equiv\tfrac{1}{1+\lambda^{-2}}\in[0,1]$

λ \to \infty

$\lambda\to\infty$

λ \to 0

$\lambda\to{0}$

θ ∣ \hat{z} \sim N_{0, 0}

$\theta\mid\hat{z}\sim\mathrm{N}_{0,0}$

z ∣ \hat{z} \sim N_{0, 1}

$z\mid\hat{z}\sim\mathrm{N}_{0,1}$

p ∣ \hat{z} \sim U_{0, 1}

${p}\mid{\hat{z}}\sim\mathrm{U}_{0,1}$

(Pour des études répétées, ce qui précède suggère une question intéressante ici concernant les implications pour la mise à jour bayésienne par rapport aux méthodes "traditionnelles" de méta-analyse. Je suis cependant complètement ignorant au sujet de la méta-analyse!)

appendice

Comme demandé dans les commentaires, voici un graphique pour la comparaison. Il s’agit d’une application relativement simple des formules du document. Cependant, je les écrirai pour éviter toute ambiguïté.

Soit la valeur p unilatérale de la statistique et son CDF (postérieur) par . Alors l’équation B3 de l’annexe est équivalente à où est le CDF normal standard. La densité correspondante est alors où est le PDF normal standard et comme dans la formule CDF. Enfin, si nous notons l'observé $p$ $z$ $F[u]\equiv\Pr\big[\,p\leq{u}\mid{\hat{z}}\,\big]$

F [p] = 1 - Φ [\frac{1}{\sqrt{2}} (z [p] - \hat{z})], z [p] = Φ^{- 1} [1 - p]

$F[p]=1-\Phi\left[\tfrac{1}{\sqrt{2}}\left(z[p]-\hat{z}\right)\right] \,,\, z[p]=\Phi^{-1}[1-p]$

Φ []

$\Phi[\,\,]$

f [p] \equiv F^{'} [p] = \frac{ϕ [(z - \hat{z}) / \sqrt{2}]}{\sqrt{2} ϕ [z]}

$f\big[p\big]\equiv{F^\prime}\big[p\big]=\frac{\phi\Big[(z-\hat{z})/\sqrt{2}\,\Big]}{\sqrt{2}\,\phi\big[z\big]}$

ϕ []

$\phi[\,\,]$

z = z [p]

$z=z[p]$

\hat{p}

$\hat{p}$ valeur p bilatérale correspondant à , alors nous avons

\hat{z}

$\hat{z}$

\hat{z} = Φ^{- 1} [1 - \frac{\hat{p}}{2}]

$\hat{z}=\Phi^{-1}\Big[1-\tfrac{\hat{p}}{2}\Big]$

L'utilisation de ces équations donne la figure ci-dessous, qui devrait être comparable à la figure 5 de l'article citée dans la question.

(Ceci a été produit par le code Matlab suivant; exécutez-le ici .)

phat2=[1e-3,1e-2,5e-2,0.2]'; zhat=norminv(1-phat2/2);
np=1e3+1; p1=(1:np)/(np+1); z=norminv(1-p1);
p1pdf=normpdf((z-zhat)/sqrt(2))./(sqrt(2)*normpdf(z));
plot(p1,p1pdf,'LineWidth',1); axis([0,1,0,6]);
xlabel('p'); ylabel('PDF p|p_{obs}');
legend(arrayfun(@(p)sprintf('p_{obs} = %g',p),phat2,'uni',0));

GeoMatt22
la source

1

J'espère qu'en exposant l' hypothèse sous-jacente (par exemple, une priorité uniforme sur un paramètre caché), la discussion peut maintenant se concentrer sur la question scientifique / statistique que je crois était votre cible! (Plutôt que la question mathématique / de probabilité à laquelle j'ai répondu ci-dessus.)

GeoMatt22

J'ai trouvé des discussions anciennes et moins anciennes sur ce sujet: Goodman 1992 , un commentaire sur Goodman par Senn 2002 et une récente publication de Lazzeroni et al 2014 . Le dernier semble peu utile (mais je le mentionne pour être complet) mais les deux premiers, en particulier le commentaire de Senn, semblent très pertinents.

amibe dit de réintégrer Monica

amibe merci d'avoir déterré ces références, elles ont l'air intéressantes! Pour être complet, j'ai ajouté une section "discussion" essayant de connecter le résultat de Cumming au cadre standard.

GeoMatt22

Mise à jour: J'ai lu les documents de Goodman et Senn (voir les liens ci-dessus) et j'ai maintenant posté ma propre réponse pour résumer mon intuition actuelle. (Au fait, j'étais heureux d'accepter votre réponse et de lui attribuer la prime. Merci encore.)

amoeba dit Rétablir Monica

27

Merci pour toutes les discussions intéressantes! En écrivant cet article de 2008, il m'a fallu un certain temps pour me convaincre que la distribution de la réplication p (la valeur p donnée par la réplication exacte d'une étude, c'est-à-dire une étude identique, mais avec un nouvel échantillon) est dépendante. seulement sur p donné par l'étude originale. (Dans le document, je suppose une population normalement distribuée et un échantillonnage aléatoire, et que nos études visent à estimer la moyenne de la population.) Par conséquent, l’ intervalle p (l’intervalle de prédiction de 80% pour la réplication p ) est le même, quel que soit le N , puissance, ou taille de l'effet réel de l'étude originale.

Bien sûr, c'est incroyable au début. Mais notez bien que ma déclaration initiale est basée sur la connaissance de p de l’étude initiale. Pense-y de cette façon. Supposons que vous me disiez que votre étude initiale a trouvé p = 0,05. Vous ne me dites rien d'autre à propos de l'étude. Je sais que l’IC de 95% de la moyenne de votre échantillon s’étend exactement à zéro (en supposant que p a été calculé pour une hypothèse nulle de zéro). La moyenne de votre échantillon correspond donc au MoE (la longueur d’un bras de cet IC à 95%), car c’est cette distance à partir de zéro. La distribution d’échantillonnage des moyennes d’études comme la vôtre présente l’écart type ME / 1,96. C'est l'erreur type.

Considérons la moyenne donnée par une réplication exacte. La distribution de cette moyenne de réplication a un MoE moyen, c'est-à-dire qu'elle est centrée sur la moyenne de votre échantillon d'origine. Considérez la différence entre la moyenne de votre échantillon et une moyenne de réplication. La variance est égale à la somme des variances de la moyenne des études comme celle de votre étude initiale et des réplications. C'est deux fois la variance des études comme celle de votre étude initiale, à savoir 2 x SE ^ 2. Ce qui est 2 x (MoE / 1,96) ^ 2. Donc, le SD de cette différence est SQRT (2) x MoE / 1,96.

Nous connaissons donc la distribution de la moyenne de réplication: sa moyenne est MoE et sa SD est SQRT (2) x MoE / 1,96. Bien sûr, l'échelle horizontale est arbitraire, mais nous n'avons besoin que de connaître cette distribution par rapport à l'EC de votre étude initiale. Au fur et à mesure que les réplications sont effectuées, la plupart des moyennes (environ 83%) se situent dans cet intervalle de confiance initial de 95% et environ 8% se situent en dessous de celle-ci (c'est-à-dire sous zéro si votre moyenne initiale était> 0) et 8% supérieure à celle-ci. CI. Si nous savons où une moyenne de réplication se situe par rapport à votre CI d'origine, nous pouvons calculer sa valeur p . Nous connaissons la distribution de tels moyens de réplication (par rapport à votre CI) afin de pouvoir déterminer la distribution de la réplication pvaleur. La seule hypothèse que nous formulons à propos de la réplication est qu’elle est exacte, c’est-à-dire qu’elle provient de la même population, avec la même ampleur d’effet, que votre étude initiale et que N (et le plan expérimental) était identique à celui de votre étude. .

Tout ce qui précède n’est qu’une reprise de l’argument de l’article, sans images.

Encore officieusement, il peut être utile de penser à ce que p = 0,05 dans l’étude initiale. Cela peut signifier que vous avez une énorme étude avec une taille d'effet minuscule, ou une étude minuscule avec une taille d'effet géante. Quoi qu'il en soit, si vous répétez cette étude (même N , même population), vous obtiendrez sans aucun doute une moyenne d'échantillon quelque peu différente. Il s'avère que, en termes de valeur de p , «quelque peu différent» est identique, que vous ayez eu l'énorme ou la petite étude. Alors, dites-moi seulement votre valeur p et je vous dirai votre intervalle p .

Geoff

Geoff Cumming
la source

8

Merci beaucoup de vous être inscrit sur ce site pour répondre à ma question! J'apprécie beaucoup. Je ne suis toujours pas convaincu mais je prendrai un peu de temps pour réfléchir à votre réponse. Mon sentiment actuel est que vous faites valoir un argument valable, mais je ne suis pas d’accord sur la façon dont vous le formulez. Une objection simple: p = 0,05 est compatible avec H0 comme étant vrai. Si H0 est vrai, p sera dans la plage 0.04-0.05 1% du temps. Si tel est le cas, la distribution des valeurs p de réplication sera uniforme de 0 à 1. Mais vous prédisez une distribution différente pour le p initial = 0,05 dans toutes les circonstances . Comment devrait-on y penser?

amibe dit de réintégrer Monica

7

Une hypothèse implicite dans cet argument semble insoutenable: c'est qu'une "réplication exacte" a une moyenne égale au MoE. Si par "réplication exacte", nous entendons répéter l'expérience avec le même état de nature, la distribution de la statistique de test est inconnue: elle dépend de l'état de la nature. Hormis l’adoption d’un point de vue bayésien - ce qui signifie que vous devez énoncer explicitement votre précédent -, la seule façon de progresser est de calculer les probabilités avant que l’original ou la réplication ait été exécuté, et non en fonction de la réplication.

whuber

2

@ user43849 Avec tout mon respect, je soutiens qu'une telle personne ne comprend pas ce qu'est une p-valeur. Une valeur p ne dit rien ou presque des expériences futures . Il existe un concept fréquentiste d' intervalle de prédiction qui s'applique directement ici: la question de la réplication concerne simplement un intervalle de prédiction pour la valeur p d'une seule expérience future. La réponse est bien ancrée dans la théorie statistique classique, ne nécessite aucun concept novateur et est (définitivement) non bayésienne.

whuber

2

@whuber creuser dans le journal, je crois qu'il peut y avoir une hypothèse bayésienne implicite sous-jacente à l'exercice (voir ma réponse).

GeoMatt22

1

@GeoMatt Oui, cela semble être le seul moyen de justifier les calculs.

whuber

10

Le problème a été clarifié par @ GeoMatt22 et je suis ravi de voir @GeoffCumming venir ici pour participer à la discussion. Je publie cette réponse comme un commentaire supplémentaire.

Il s’avère que cette discussion remonte au moins à Goodman (1992). Un commentaire sur la réplication, les valeurs P et les preuves et une réponse ultérieure, Senn (2002) Letter to the Editor . Je peux fortement recommander la lecture de ces deux brefs articles, en particulier celui de Stephen Senn; Je suis tout à fait d'accord avec Senn.

Si j'avais lu ces journaux avant de poser cette question, je ne l'aurais probablement jamais postée. Goodman (à la différence de Cumming) déclare très clairement qu'il considère un cadre bayésien avec un avant plat. Il ne présente pas les distributions de valeurs comme Cumming et signale plutôt des probabilités d'observer un résultat "significatif" dans une expérience de réplication: $p$ $p<0.05$

Son point principal est que ces probabilités sont étonnamment basses (même pour elles ne sont que ). En particulier, pour il n’est que de . (Cette dernière probabilité sur reste la même pour tout et .) $p=0.001$ $0.78$ $p=0.05$ $0.5$ $1/2$ $\alpha$ $p=\alpha$

Le point de la réponse de Senn est que c'est une observation utile qui, cependant, ne pas porter atteinte -values en aucune façon et ne pas , contrairement à Goodman, dire que -values « surévaluer la preuve contre l'hypothèse nulle ». Il écrit: $p$ $p$

Je considère également que sa démonstration [de Goodman] est utile pour deux raisons. Premièrement, cela sert d'avertissement à quiconque planifie une autre étude similaire à celle qui vient d'être complétée (et qui a un résultat légèrement significatif) que cela pourrait ne pas être comparé dans la deuxième étude. En second lieu , il sert d'avertissement apparente incohérence dans les résultats des études individuelles peut attendre d'être commun et que l' on ne devrait pas entraîner une réaction exagérée à ce phénomène.

Senn nous rappelle que les valeurs unilatérales peuvent être comprises comme des probabilités bayésiennes postérieures de sous le plat antérieur pour (incorrect antérieur sur la ligne réelle) [voir Marsman & Wagenmakers 2016 pour une brève discussion de ce fait et quelques citations] . $p$ $H_0:\mu<0$ $\mu$

Si tel est le cas, après avoir obtenu une valeur particulière dans une expérience, la probabilité que l'expérience suivante produise une valeur inférieure doit être égale à ; sinon, les reproductions futures pourraient en quelque sorte fournir des preuves supplémentaires avant d'être menées. Il est donc tout à fait logique que, pour Goodman ait obtenu une probabilité de . Et en effet, toutes les distributions de réplication calculées par Cumming et @ GeoMatt22 ont des médianes aux . $p$ $p$ $1/2$ $p=0.05$ $0.5$ $p_\mathrm{obs}$

Cependant, nous n’avons pas besoin que cette probabilité de réplication soit supérieure à pour croire que l’efficacité du traitement est probable. Une longue série d'essais, dont % étaient significatifs à %, constituerait une preuve convaincante de l'efficacité du traitement. $0.5$ $50$ $5$

Incidemment, quiconque a examiné les distributions prédictives des valeurs pour, par exemple, un test t de taille et de puissance données ( voir, par exemple, ici ) ne sera pas surpris que le fait d'exiger une médiane à rendra nécessairement cette distribution assez large. , avec une grosse queue allant vers . Dans cette optique, les larges intervalles signalés par Cumming cessent d’être surprenants. $p$ $p=0.05$ $1$

Ce qu'ils plutôt ne suggèrent, est que l' on devrait utiliser de plus grandes tailles d'échantillons en essayant de reproduire une expérience; En fait, il s'agit d'une recommandation standard pour les études de réplication (par exemple, Uri Simonsohn suggère , en règle générale, d'augmenter la taille de l'échantillon de fois). $2.5$

l'amibe dit de réintégrer Monica
la source

5

(+1) Heureusement , Goodman ou Senn ne vous sont pas arrivés avant. :-)

cardinal

6

Merci à tous pour cette discussion intéressante. Plutôt que de faire mes commentaires, point par point, je vais offrir quelques réflexions générales.

Bayes. Je n'ai rien contre les approches bayésiennes. Dès le début, je m'attendais à ce qu'une analyse bayésienne, supposant un préalable plat ou diffus, donnerait des intervalles de prédiction identiques ou très similaires. Il y a un para sur p. 291 dans l'article de 2008 à ce sujet, en partie inspiré par l'un des relecteurs. Je suis donc ravi de voir, ci-dessus, la mise en œuvre de cette approche. C'est bien, mais l'approche est très différente de celle que j'ai adoptée.

En passant, j’ai choisi de travailler sur le plaidoyer pour les intervalles de confiance (nouvelles statistiques: tailles d’effet, IC, méta-analyse) plutôt que sur les approches bayésiennes d’estimation (basées sur des intervalles crédibles) car je ne sais pas comment Les approches bayésiennes aux débutants sont suffisamment efficaces. Je n'ai jamais vu de véritable manuel d'introduction bayésien que je pourrais utiliser pour les débutants ou qui soit susceptible d'être trouvé accessible et convaincant par un grand nombre de chercheurs. Par conséquent, nous devons regarder ailleurs si nous voulons avoir une chance décente d'améliorer la façon dont les chercheurs font l'inférence statistique. Oui, nous devons aller au-delà de pvaleurs, et passer de la prise de décision dichotomique à l’estimation, et les bayésiens peuvent le faire. Mais beaucoup plus de chances de parvenir à un changement concret, à mon humble avis, est une approche conventionnelle d’IC. C'est pourquoi notre manuel d'introduction aux statistiques, récemment publié, adopte la nouvelle approche statistique. Voir www.thenewstatistics.com

Retour aux réflexions. Au cœur de mon analyse se trouve ce que je veux dire par ne connaître que la valeur p de la première étude. Les hypothèses que je fais sont indiquées (population normale, un échantillonnage aléatoire, la population connue SD afin que nous puissions utiliser z plutôt que t calculs que nous effectuons l' inférence sur la moyenne de la population, la réplication exacte). Mais c'est tout ce que je suppose. Ma question est "donné seulement p de l'expérience initiale, jusqu'où pouvons-nous aller?" Ma conclusion est que nous pouvons trouver la distribution de p attendue d'une expérience de réplication. De cette distribution, on peut déduire p intervalles ou toute probabilité d'intérêt, telle que la probabilité que la réplication donne p<0,05, ou toute autre valeur d’intérêt.

Le cœur de l’argument, et peut-être le pas qui mérite le plus de réflexion, est illustré à la figure A2 de l’article. La moitié inférieure est probablement sans problème. Si nous connaissons mu (généralement obtenu en supposant que cette moyenne soit égale à la moyenne de l'étude initiale), les erreurs d'estimation, représentées par les segments de droite, ont une distribution connue (normale, moyenne mu, SD comme expliqué dans la légende).

Puis la grande étape: Considérez la moitié supérieure de la figure 2A. Nous n'avons AUCUNE information sur mu. Aucune information - aucune hypothèse cachée à propos d'un préalable. Cependant, nous pouvons indiquer la distribution de ces segments épais: normale, moyenne nulle, SD = SQRT (2) fois la SD dans la moitié inférieure. Cela nous donne ce dont nous avons besoin pour trouver la distribution de la réplication p .

Les p intervalles qui en résultent sont étonnamment longs - du moins, je suis étonné lorsque je compare avec la façon dont les valeurs p sont utilisées pratiquement universellement par les chercheurs. Les chercheurs sont généralement obsédés par la deuxième ou troisième décimale d’une valeur p , sans savoir que la valeur qu’ils voient aurait très facilement pu être très différente. D'où mes commentaires aux pages 293 et 29 sur le signalement des intervalles p afin de reconnaître le caractère vague de p .

Longtemps, oui, mais cela ne veut pas dire que p de l'expérience initiale ne veut rien dire. Après un p initial très faible , les réplications auront en moyenne des valeurs de p plus petites . Des p et des réplications initiales plus élevés auront tendance à avoir des valeurs de p légèrement plus grandes . Voir le tableau 1 à la p. 292 et comparez, par exemple, les intervalles p dans la colonne de droite pour p = 0,001 et 0,1 initiaux - deux résultats classiquement considérés comme distants l'un de l'autre. Les deux intervalles p sont bien différents, mais ils se chevauchent énormément. La réplication de l’expérience .001 pourrait assez facilement donner pplus grande qu'une réplication de l'expérience .1. Bien que ce ne soit probablement pas le cas.

Dans le cadre de sa thèse de doctorat, Jerry Lai a rapporté ( Lai et al., 2011 ) plusieurs belles études qui ont montré que les chercheurs publiés dans un certain nombre de disciplines avaient des intervalles subjectifs p beaucoup trop courts. En d’autres termes, les chercheurs ont tendance à sous-estimer de façon radicale la différence probable entre la valeur p d’une réplication.

Ma conclusion est que nous ne devrions tout simplement pas utiliser les valeurs p du tout. Reportez et discutez de l'IC à 95%, qui transmet toutes les informations contenues dans les données qui nous renseignent sur la moyenne de population que nous étudions. Compte tenu de l'IC, la valeur p n'ajoute rien, et est susceptible de suggérer, à tort, un certain degré de certitude (Important! Pas significatif! L'effet existe! Ce n'est pas le cas!). Bien sûr, les valeurs de CI et de p sont basées sur la même théorie et nous pouvons passer de l’un à l’autre (le chapitre 6 de notre manuel d’introduction contient de nombreuses informations à ce sujet). Mais le CI donne beaucoup plus d’informations que p . Plus important encore, cela met en évidence l'ampleur de l'incertitude. Étant donné notre tendance humaine à saisir avec certitude, il est essentiel de prendre en compte l'étendue de l'IC.

J'ai également essayé de mettre en évidence la variabilité des valeurs p dans les vidéos «Danse des valeurs p ». Google "danse des valeurs p ". Il y a au moins deux versions.

Que tous vos intervalles de confiance soient courts!

Geoff

Geoff Cumming
la source

3

Merci pour ces commentaires supplémentaires, Geoff. Je suis d'accord avec certains points ici (par exemple sur le "degré de certitude") et en désaccord avec d'autres (par exemple "Compte tenu de l'IC, la valeur p n'ajoute rien") mais je pense qu'une chose en particulier doit être répétée: je ne le fais pas. pense qu'il n'y a aucun moyen de faire votre analyse sans Bayes avant. L'argument présenté sur la figure A2 nécessite un a priori plat en tant qu'hypothèse cachée. On peut assumer d’autres priors et arriver à des résultats très différents; Je ne pense pas qu’un argument purement fréquentiste puisse appuyer vos conclusions. Voir les commentaires de @ whuber ci-dessus.

Amibe dit de réintégrer Monica

@ Geoff Cumming - Vos commentaires sur l'éducation aux statistiques et l'interprétation des résultats sont très appréciés.

rolando2

Cumming (2008) affirme que la distribution des valeurs de p obtenues lors de réplications ne dépend que de la valeur de p d'origine. Comment cela peut-il être vrai?

Réponses: