Imaginez que vous répétiez une expérience trois fois. Dans chaque expérience, vous collectez des mesures en triple. Les triplicats ont tendance à être assez proches les uns des autres, par rapport aux différences entre les trois moyens expérimentaux. Le calcul de la moyenne est assez facile. Mais comment calculer un intervalle de confiance pour la moyenne grande?
Exemples de données:
Expérience 1:34, 41, 39
Expérience 2:45, 51, 52
Expérience 3: 29, 31, 35
Supposons que les valeurs répliquées dans une expérience suivent une distribution gaussienne, tout comme les valeurs moyennes de chaque expérience. Le SD de variation dans une expérience est plus petit que le SD parmi les moyens expérimentaux. Supposons également qu'il n'y a pas d'ordre des trois valeurs dans chaque expérience. L'ordre de gauche à droite des trois valeurs de chaque ligne est entièrement arbitraire.
L'approche simple consiste à calculer d'abord la moyenne de chaque expérience: 38,0, 49,3 et 31,7, puis à calculer la moyenne et son intervalle de confiance à 95% de ces trois valeurs. En utilisant cette méthode, la moyenne générale est de 39,7 avec un intervalle de confiance à 95% allant de 17,4 à 61,9.
Le problème avec cette approche est qu'elle ignore totalement la variation entre les triplicats. Je me demande s'il n'y a pas un bon moyen de tenir compte de cette variation.
la source
Réponses:
Il existe un intervalle de confiance naturel exact pour la grand-mère dans le modèle ANOVA unidirectionnel aléatoire équilibré
est vrai. Et votre intuition sur la variation ignorée:
est faux. Je mentionne également l'exactitude d'une telle simplification dans /stats//a/72578/8402
Mise à jour 12/04/2014
Certains détails sont maintenant écrits sur mon blog: Réduire un modèle pour obtenir des intervalles de confiance .
la source
Il s'agit d'une question d'estimation dans un modèle linéaire à effets mixtes. Le problème est que la variance de la moyenne est une somme pondérée de deux composantes de variance qui doivent être estimées séparément (via une ANOVA des données). Les estimations ont différents degrés de liberté. Par conséquent, bien que l'on puisse tenter de construire un intervalle de confiance pour la moyenne en utilisant les formules habituelles à petit échantillon (Student t), il est peu probable qu'il atteigne sa couverture nominale car les écarts par rapport à la moyenne ne suivront pas exactement une distribution de Student t.
Un récent article (2010) d'Eva Jarosova, Estimation with the Linear Mixed Effects Model , traite de cette question. (En 2015, il ne semble plus être disponible sur le Web.) Dans le contexte d'un "petit" ensemble de données (même si, environ trois fois plus grand que celui-ci), elle utilise la simulation pour évaluer deux calculs d'IC approximatifs (le puits - approximation connue de Satterthwaite et "méthode de Kenward-Roger"). Ses conclusions incluent
Bref, une bonne approche semble être
Calculez un IC conventionnel en utilisant les estimations des composantes de la variance et en faisant semblant qu'une distribution t s'applique.
Calculez également au moins un des CI ajustés.
Si les calculs sont «proches», acceptez l'IC conventionnel. Sinon, signalez que les données sont insuffisantes pour produire un IC fiable.
la source
Vous ne pouvez pas avoir un intervalle de confiance qui résout vos deux problèmes. Vous devez en choisir un. Vous pouvez soit en dériver un à partir d'un terme d'erreur quadratique moyenne de la variance intra-expérience qui vous permet de dire quelque chose sur la précision avec laquelle vous pouvez estimer les valeurs dans l'expérience, soit vous pouvez le faire entre et ce sera entre les expériences. Si je viens de faire le premier, j'aurais tendance à vouloir le tracer autour de 0 plutôt que autour de la grande moyenne car il ne vous dit rien sur la valeur moyenne réelle, seulement sur un effet (dans ce cas, 0). Ou vous pouvez simplement tracer les deux et décrire ce qu'ils font.
Vous avez une poignée entre les deux. Pour l'intérieur, c'est comme calculer le terme d'erreur dans une ANOVA pour faire fonctionner un MSE et à partir de là, le SE pour le CI est juste sqrt (MSE / n) (n = 3 dans ce cas).
la source
Je pense que l'IC de la moyenne générale est trop large [17,62], même pour la plage de données d'origine.
Ces expériences sont TRÈS courantes en chimie. Par exemple, dans la certification des matériaux de référence, vous devez ramasser certaines bouteilles d'un lot entier de manière aléatoire, et vous devez effectuer une analyse répliquée sur chaque bouteille. Comment calculez-vous la valeur de référence et son incertitude? Il y a beaucoup de façons de le faire, mais le plus sophistiqué (et correct, je pense) applique la méta-analyse ou ML (Dersimonian-Laird, Vangel-Rukhin, etc.)
Qu'en est-il des estimations de bootstrap?
la source