Restons sur une situation idéale avec un échantillonnage aléatoire, des populations gaussiennes, des variances égales, pas de piratage P, etc.
Étape 1. Vous exécutez une expérience, par exemple en comparant deux moyennes d'échantillon, et calculez un intervalle de confiance à 95% pour la différence entre les deux moyennes de population.
Étape 2. Vous exécutez de nombreuses autres expériences (des milliers). La différence entre les moyennes variera d'une expérience à l'autre en raison d'un échantillonnage aléatoire.
Question: Quelle fraction de la différence entre les moyennes de la collection d'expériences à l'étape 2 se situera dans l'intervalle de confiance de l'étape 1?
Cela ne peut pas être répondu. Tout dépend de ce qui s'est passé à l'étape 1. Si cette expérience de l'étape 1 était très atypique, la réponse à la question pourrait être très faible.
Imaginez donc que les deux étapes sont répétées plusieurs fois (avec l'étape 2 répétée plusieurs fois). Maintenant, je pense qu'il devrait être possible de prévoir quelle fraction des expériences répétées, en moyenne, a une taille d'effet dans l'intervalle de confiance à 95% de la première expérience.
Il semble que la réponse à ces questions doit être comprise pour évaluer la reproductibilité des études, un domaine très chaud actuellement.
la source
Réponses:
Une analyse
Parce qu'il s'agit d'une question conceptuelle, considérons pour simplifier la situation dans laquelle un intervalle de confiance est construit pour une moyenne utilisant un un échantillon aléatoire de taille et un deuxième échantillon aléatoire est prélevé de taille , tous de la même distribution normale . (Si vous le souhaitez, vous pouvez remplacer les s par des valeurs de la distribution de Student de degrés de liberté; l'analyse suivante ne changera pas.)[ ˉ x ( 11−α μx(1)nx(2)m(μ,
La chance que la moyenne du deuxième échantillon se situe dans l'IC déterminé par le premier est
Étant donné que la première moyenne d'échantillon est indépendante de l'écart type du premier échantillon (cela nécessite une normalité) et que le deuxième échantillon est indépendant du premier, la différence dans l'échantillon signifie est indépendant de . De plus, pour cet intervalle symétrique . Par conséquent, en écrivant pour la variable aléatoire et en mettant les deux inégalités au carré, la probabilité en question est la même ques(1)U= ˉ x (2)- ˉ x (1)s(1)Zα/2=-Z1-α/2Ss(1)x¯(1) s(1) U=x¯(2)−x¯(1) s(1) Zα/2=−Z1−α/2 S s(1)
Les lois de l'espérance impliquent que a une moyenne de et une variance de0U 0
Puisque est une combinaison linéaire de variables normales, il a également une distribution normale. Par conséquent, est fois une variable . Nous savions déjà que est fois une variable . Par conséquent, est fois une variable avec une distribution . La probabilité requise est donnée par la distribution F commeU 2 σ 2 ( 1U U2 χ2(1)S2σ2/nχ2(n-1)U2/S21/n+1/mF(1,n-1)σ2(1n+1m) χ2(1) S2 σ2/n χ2(n−1) U2/S2 1/n+1/m F(1,n−1)
Discussion
Un cas intéressant est celui où le deuxième échantillon a la même taille que le premier, de sorte que et seulement et déterminent la probabilité. Voici les valeurs de représentées par pour .n α ( 1 ) α n = 2 , 5 , 20 , 50n/m=1 n α (1) α n=2,5,20,50
Les graphiques montent à une valeur limite à chaque lorsque augmente. La taille de test traditionnelle est marquée par une ligne grise verticale. Pour des valeurs plus grandes de , la chance limite pour est d'environ .n α = 0,05 n = m α = 0,05 85 %α n α=0.05 n=m α=0.05 85%
En comprenant cette limite, nous examinerons les détails des petits échantillons et nous comprendrons mieux le nœud du problème. Lorsque grandit, la distribution s'approche d'une distribution . En termes de distribution normale standard , la probabilité se rapproche alorsF χ 2 ( 1 ) Φ ( 1 )n=m F χ2(1) Φ (1)
Par exemple, avec , et . Par conséquent, la valeur limite atteinte par les courbes à lorsque augmente sera . Vous pouvez voir qu'il a presque été atteint pour (où la chance est de .)α=0.05 Zα/2/2–√≈−1.96/1.41≈−1.386 Φ(−1.386)≈0.083 α=0.05 n 1−2(0.083)=1−0.166=0.834 n=50 0.8383…
Pour les petits , la relation entre et la probabilité complémentaire - le risque que l'IC ne couvre pas la deuxième moyenne - est presque parfaitement une loi de puissance.α α Une autre façon d'exprimer cela est que la probabilité complémentaire log est presque une fonction linéaire de . La relation limitante est approximativementlogα
En d'autres termes, pour un grand et n'importe où près de la valeur traditionnelle de , sera proche den=m α 0.05 (1)
(Cela me rappelle beaucoup l'analyse des intervalles de confiance qui se chevauchent que j'ai publiée sur /stats//a/18259/919 . En effet, le pouvoir magique là-bas, , est presque à l'inverse du pouvoir magique ici, . À ce stade, vous devriez être en mesure de réinterpréter cette analyse en termes de reproductibilité des expériences.)1.91 0.557
Résultats expérimentaux
Ces résultats sont confirmés par une simulation simple. Le(1) 2 n,m,μ,σ,α Z t (1)
R
code suivant renvoie la fréquence de couverture, la chance calculée avec et un score Z pour évaluer leur différence. Les scores Z sont généralement inférieurs à , indépendamment de (ou même si un IC ou est calculé), indiquant l'exactitude de la formule .2 n , m , μ , σ , α Z t ( 1 )la source
qt
[Modifié pour corriger le bug signalé par WHuber.]
J'ai modifié le code R de @ Whuber pour utiliser la distribution t et la couverture du tracé en fonction de la taille de l'échantillon. Les résultats sont ci-dessous. À une taille d'échantillon élevée, les résultats correspondent bien sûr à ceux de WHuber.
Et voici le code R adapté, exécuté deux fois avec alpha réglé sur 0,01 ou 0,05.
Et voici le fichier GraphPad Prism qui a fait le graphique.
la source
T
extérieur de la boucle! Si vous souhaitez voir les courbes correctes, tracez-les directement en utilisant le résultat théorique dans ma réponse, comme indiqué à la fin de monR
code (plutôt que de vous fier aux résultats simulés):curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")