Quelle fraction des expériences répétées aura une taille d'effet dans l'intervalle de confiance à 95% de la première expérience?

12

Restons sur une situation idéale avec un échantillonnage aléatoire, des populations gaussiennes, des variances égales, pas de piratage P, etc.

Étape 1. Vous exécutez une expérience, par exemple en comparant deux moyennes d'échantillon, et calculez un intervalle de confiance à 95% pour la différence entre les deux moyennes de population.

Étape 2. Vous exécutez de nombreuses autres expériences (des milliers). La différence entre les moyennes variera d'une expérience à l'autre en raison d'un échantillonnage aléatoire.

Question: Quelle fraction de la différence entre les moyennes de la collection d'expériences à l'étape 2 se situera dans l'intervalle de confiance de l'étape 1?

Cela ne peut pas être répondu. Tout dépend de ce qui s'est passé à l'étape 1. Si cette expérience de l'étape 1 était très atypique, la réponse à la question pourrait être très faible.

Imaginez donc que les deux étapes sont répétées plusieurs fois (avec l'étape 2 répétée plusieurs fois). Maintenant, je pense qu'il devrait être possible de prévoir quelle fraction des expériences répétées, en moyenne, a une taille d'effet dans l'intervalle de confiance à 95% de la première expérience.

Il semble que la réponse à ces questions doit être comprise pour évaluer la reproductibilité des études, un domaine très chaud actuellement.

Harvey Motulsky
la source
Pour chaque expérience originale (étape 1) , définissez comme la fraction des résultats ultérieurs (étape 2) qui produisent des résultats dans l'intervalle de confiance du résultat original. Vous souhaitez calculer la distribution empirique de ? x i xixix
Matthew Gunn
Oui, vous comprenez ce que je demande
Harvey Motulsky
@MatthewGunn vous a demandé si vous vouliez la distribution empirique de la "fraction de capture" pour de futures observations. Votre message demandait "... il devrait être possible, je pense, de trouver une attente pour quelle fraction des expériences répétées, en moyenne, ont une taille d'effet dans l'intervalle de confiance de 95% de la première expérience" . Ce n'est pas une distribution mais une valeur attendue (moyenne).
L'analyse de Whuber est excellente, mais si vous avez besoin d'une citation, voici un article qui traite exactement de cette question en détail: Cumming & Maillardet, 2006, Confidence Intervals and Replication: Where Will the Next Mean Fall. . Ils appellent cela le pourcentage de capture d'un intervalle de confiance.
amibe dit Réintégrer Monica

Réponses:

12

Une analyse

Parce qu'il s'agit d'une question conceptuelle, considérons pour simplifier la situation dans laquelle un intervalle de confiance est construit pour une moyenne utilisant un un échantillon aléatoire de taille et un deuxième échantillon aléatoire est prélevé de taille , tous de la même distribution normale . (Si vous le souhaitez, vous pouvez remplacer les s par des valeurs de la distribution de Student de degrés de liberté; l'analyse suivante ne changera pas.)[ ˉ x ( 11αμx(1)nx(2)m(μ,

[x¯(1)+Zα/2s(1)/n,x¯(1)+Z1α/2s(1)/n]
μx(1)nx(2)mZ t n - 1(μ,σ2)Ztn1

La chance que la moyenne du deuxième échantillon se situe dans l'IC déterminé par le premier est

Pr(x¯(1)+Zα/2ns(1)x¯(2)x¯(1)+Z1α/2ns(1))=Pr(Zα/2ns(1)x¯(2)x¯(1)Z1α/2ns(1)).

Étant donné que la première moyenne d'échantillon est indépendante de l'écart type du premier échantillon (cela nécessite une normalité) et que le deuxième échantillon est indépendant du premier, la différence dans l'échantillon signifie est indépendant de . De plus, pour cet intervalle symétrique . Par conséquent, en écrivant pour la variable aléatoire et en mettant les deux inégalités au carré, la probabilité en question est la même ques(1)U= ˉ x (2)- ˉ x (1)s(1)Zα/2=-Z1-α/2Ss(1)x¯(1)s(1)U=x¯(2)x¯(1)s(1)Zα/2=Z1α/2Ss(1)

Pr(U2(Z1α/2n)2S2)=Pr(U2S2(Z1α/2n)2).

Les lois de l'espérance impliquent que a une moyenne de et une variance de0U0

Var(U)=Var(x¯(2)x¯(1))=σ2(1m+1n).

Puisque est une combinaison linéaire de variables normales, il a également une distribution normale. Par conséquent, est fois une variable . Nous savions déjà que est fois une variable . Par conséquent, est fois une variable avec une distribution . La probabilité requise est donnée par la distribution F commeU 2 σ 2 ( 1UU2χ2(1)S2σ2/nχ2(n-1)U2/S21/n+1/mF(1,n-1)σ2(1n+1m)χ2(1)S2σ2/nχ2(n1)U2/S21/n+1/mF(1,n1)

(1)F1,n1(Z1α/221+n/m).

Discussion

Un cas intéressant est celui où le deuxième échantillon a la même taille que le premier, de sorte que et seulement et déterminent la probabilité. Voici les valeurs de représentées par pour .n α ( 1 ) α n = 2 , 5 , 20 , 50n/m=1nα(1)αn=2,5,20,50

Figure

Les graphiques montent à une valeur limite à chaque lorsque augmente. La taille de test traditionnelle est marquée par une ligne grise verticale. Pour des valeurs plus grandes de , la chance limite pour est d'environ .n α = 0,05 n = m α = 0,05 85 %αnα=0.05n=mα=0.0585%

En comprenant cette limite, nous examinerons les détails des petits échantillons et nous comprendrons mieux le nœud du problème. Lorsque grandit, la distribution s'approche d'une distribution . En termes de distribution normale standard , la probabilité se rapproche alorsF χ 2 ( 1 ) Φ ( 1 )n=mFχ2(1)Φ(1)

Φ(Z1α/22)Φ(Zα/22)=12Φ(Zα/22).

Par exemple, avec , et . Par conséquent, la valeur limite atteinte par les courbes à lorsque augmente sera . Vous pouvez voir qu'il a presque été atteint pour (où la chance est de .)α=0.05Zα/2/21.96/1.411.386Φ(1.386)0.083α=0.05n12(0.083)=10.166=0.834n=500.8383

Pour les petits , la relation entre et la probabilité complémentaire - le risque que l'IC ne couvre pas la deuxième moyenne - est presque parfaitement une loi de puissance. αα Une autre façon d'exprimer cela est que la probabilité complémentaire log est presque une fonction linéaire de . La relation limitante est approximativementlogα

log(2Φ(Zα/22))1.79712+0.557203log(20α)+0.00657704(log(20α))2+

En d'autres termes, pour un grand et n'importe où près de la valeur traditionnelle de , sera proche den=mα0.05(1)

10.166(20α)0.557.

(Cela me rappelle beaucoup l'analyse des intervalles de confiance qui se chevauchent que j'ai publiée sur /stats//a/18259/919 . En effet, le pouvoir magique là-bas, , est presque à l'inverse du pouvoir magique ici, . À ce stade, vous devriez être en mesure de réinterpréter cette analyse en termes de reproductibilité des expériences.)1.910.557


Résultats expérimentaux

Ces résultats sont confirmés par une simulation simple. Le Rcode suivant renvoie la fréquence de couverture, la chance calculée avec et un score Z pour évaluer leur différence. Les scores Z sont généralement inférieurs à , indépendamment de (ou même si un IC ou est calculé), indiquant l'exactitude de la formule .2 n , m , μ , σ , α Z t ( 1 )(1)2n,m,μ,σ,αZt(1)

n <- 3      # First sample size
m <- 2      # Second sample size
sigma <- 2 
mu <- -4
alpha <- 0.05
n.sim <- 1e4
#
# Compute the multiplier.
#
Z <- qnorm(alpha/2)
#Z <- qt(alpha/2, df=n-1) # Use this for a Student t C.I. instead.
#
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + Z * s.1 / sqrt(n)
u.1 <- x.1.bar - Z * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(m*n.sim, mu, sigma), nrow=m))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
# Compute the theoretical chance and compare it to the simulated frequency.
#
f <- pf(Z^2 / ((n * (1/n + 1/m))), 1, n-1)
m.covers <- mean(covers)
(c(Simulated=m.covers, Theoretical=f, Z=(m.covers - f)/sd(covers) * sqrt(length(covers))))
whuber
la source
Vous dites que l'utilisation de t au lieu de z ne fera pas beaucoup de différence. Je vous crois, mais je n'ai pas encore vérifié. Avec une petite taille d'échantillon, les deux valeurs critiques peuvent différer beaucoup et la distribution t est la bonne façon de calculer l'IC. Pourquoi préférez-vous utiliser z ??
Harvey Motulsky
C'est purement illustratif et est plus simple. Lorsque vous utilisez il est intéressant de noter que les courbes de la figure commencent haut et descendent jusqu'à leur limite. En particulier, les chances de reproduire un résultat significatif sont alors beaucoup plus élevées pour les petits échantillons que pour les grands! Notez qu'il n'y a rien à vérifier, car vous êtes libre d'interpréter comme un point de pourcentage de la distribution Student appropriée (ou de toute autre distribution que vous voudriez bien nommer). Rien ne change dans l'analyse. Si vous voulez voir les effets particuliers, décommentez la ligne dans le code. t Z αZtZαqt
whuber
1
+1. Il s'agit d'une excellente analyse (et votre réponse a bien trop peu de votes positifs pour ce qu'elle est). Je viens de tomber sur un article qui traite de cette question très en détail et j'ai pensé que vous pourriez être intéressé: Cumming & Maillardet, 2006, Confidence Intervals and Replication: Where Will the Next Mean Fall Fall? . Ils appellent cela le pourcentage de capture d'un intervalle de confiance.
amibe dit Réintégrer Monica
@Amoeba Merci pour la référence. J'apprécie particulièrement une conclusion générale: "La réplication est au cœur de la méthode scientifique, et les chercheurs ne devraient pas la fermer les yeux simplement parce qu'elle fait ressortir l'incertitude inhérente à une seule étude."
whuber
1
Mise à jour: Merci à la discussion en cours dans le fil frère, je crois maintenant que mon raisonnement dans le commentaire ci-dessus n'était pas correct. Les IC à 95% ont 83% de «réplication-capture», mais il s'agit d'un énoncé sur l'échantillonnage répété et ne peut pas être interprété comme donnant une probabilité conditionnée à un intervalle de confiance particulier, du moins pas sans autres hypothèses. (Peut-être que ce commentaire et les commentaires précédents devraient être supprimés afin de ne pas dérouter davantage de lecteurs.)
Amoeba dit Reinstate Monica
4

[Modifié pour corriger le bug signalé par WHuber.]

J'ai modifié le code R de @ Whuber pour utiliser la distribution t et la couverture du tracé en fonction de la taille de l'échantillon. Les résultats sont ci-dessous. À une taille d'échantillon élevée, les résultats correspondent bien sûr à ceux de WHuber.

entrez la description de l'image ici

Et voici le code R adapté, exécuté deux fois avec alpha réglé sur 0,01 ou 0,05.

sigma <- 2 
mu <- -4
alpha <- 0.01
n.sim <- 1e5
#
# Compute the multiplier.

for (n in c(3,5,7,10,15,20,30,50,100,250,500,1000))
{
   T <- qt(alpha/2, df=n-1)     
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + T * s.1 / sqrt(n)
u.1 <- x.1.bar - T * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(n*n.sim, mu, sigma), nrow=n))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
Coverage=mean(covers)

print (Coverage)

}

Et voici le fichier GraphPad Prism qui a fait le graphique.

Harvey Motulsky
la source
Je pense que vos tracés n'utilisent pas la distribution t , à cause d'un bug: vous définissez la valeur de l' Textérieur de la boucle! Si vous souhaitez voir les courbes correctes, tracez-les directement en utilisant le résultat théorique dans ma réponse, comme indiqué à la fin de mon Rcode (plutôt que de vous fier aux résultats simulés):curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")
whuber
1
@whuber. Oui! Bien sûr, vous avez raison. Gênant. Je l'ai corrigé. Comme vous l'avez souligné, la couverture est plus élevée avec de petits échantillons. (J'ai corrigé les simulations et je n'ai pas essayé votre fonction théorique.)
Harvey Motulsky
Je suis heureux que vous l'ayez corrigé, car il est très intéressant de voir à quel point la couverture est élevée pour les petits échantillons. Nous pourrions également inverser votre question et utiliser la formule pour déterminer la valeur de à utiliser si nous voulions nous assurer (avant de faire des expériences), avec une probabilité (disons), que la moyenne de la la deuxième expérience se situerait dans l' intervalle de confiance bilatéral déterminé à partir de la seconde. Le faire, en tant que pratique courante, pourrait être un moyen fascinant de répondre à certaines critiques à l'égard de la NHST. p = 0,95 1 - αZα/2p=0.951α
whuber
@whuber Je pense que la prochaine étape consiste à examiner la répartition de la couverture. Jusqu'à présent, nous avons la couverture moyenne (moyenne de nombreuses premières expériences, avec en moyenne de nombreuses secondes expériences chacune). Mais selon ce qu'est la première expérience, dans certains cas, la couverture moyenne sera médiocre. Il serait intéressant de voir la distribution. J'essaie d'apprendre R assez bien pour le découvrir.
Harvey Motulsky
En ce qui concerne les distributions, voir l'article auquel j'ai lié dans les commentaires ci-dessus.
amibe dit Réintégrer Monica