J'ai besoin d'obtenir une sorte de "moyenne" parmi une liste de variances, mais j'ai du mal à trouver une solution raisonnable. Il y a une discussion intéressante sur les différences entre les trois moyennes pythagoriciennes (arithmétique, géométrique et harmonique) dans ce fil ; cependant, je ne pense toujours pas que l'un d'eux soit un bon candidat. Aucune suggestion?
PS Un certain contexte - Ces variances sont des variances d'échantillon de sujets, chacun ayant suivi le même plan d'expérience avec à peu près la même taille d'échantillon . En d'autres termes, il existe variances d'échantillonnage , , ..., , correspondant à ces sujets. Une méta-analyse a déjà été réalisée au niveau de la population. La raison pour laquelle j'ai besoin d'obtenir une sorte de variance d'échantillon "moyenne" ou "résumée" est que je veux l'utiliser pour calculer un indice tel que ICC après la méta-analyse.
PPS Pour garder la discussion plus concrète, permettez-moi d'expliquer le problème avec l'exemple suivant dans R:
library(metafor)
dat <- get(data(dat.konstantopoulos2011))
dat$district <- as.factor(dat$district)
dat$school <- as.factor(dat$school)
Dans l'ensemble de données, il existe une variance associée au score de performance de chaque école:
str(dat)
Classes ‘escalc’ and 'data.frame': 56 obs. of 6 variables:
$ district: Factor w/ 11 levels "11","12","18",..: 1 1 1 1 2 2 2 2 3 3 ...
$ school : Factor w/ 11 levels "1","2","3","4",..: 1 2 3 4 1 2 3 4 1 2 ...
$ year : int 1976 1976 1976 1976 1989 1989 1989 1989 1994 1994 ...
$ yi : atomic -0.18 -0.22 0.23 -0.3 0.13 -0.26 0.19 0.32 0.45 0.38 ...
$ vi : num 0.118 0.118 0.144 0.144 0.014 0.014 0.015 0.024 0.023 0.043 ...
Supposons que nous effectuions une méta-analyse avec un modèle hiérarchique ou à effets mixtes:
où et sont les effets aléatoires pour la ème école et le ème district, respectivement, et est l'erreur de mesure avec une distribution gaussienne connue . Ce modèle peut être analysé comme ci-dessous:
(fm <- rma.mv(yi, vi, random = list(~1 | district, ~1 | school), data=dat))
rendre les estimations de variance suivantes pour les deux composantes de variance:
Multivariate Meta-Analysis Model (k = 56; method: REML)
Variance Components:
estim sqrt nlvls fixed factor
sigma^2.1 0.0814 0.2853 11 no district
sigma^2.2 0.0010 0.0308 11 no school
Les deux variances du résultat, sigma ^ 2.1 et sigma ^ 2.2, correspondent aux deux variables à effets aléatoires (district et école).
Je voudrais calculer l'ICC pour le district, et c'est pourquoi je voulais obtenir une variance résumée en premier lieu pour ces variances individuelles, , du terme de mesure . La variance totale étant
mon approche originale (et simple) était d'utiliser uniquement la moyenne arithmétique:
mais je ne sais pas si la moyenne arithmétique, , est appropriée dans ce contexte.
Réponses:
En élargissant les commentaires que vous avez obtenus, la réponse à la question dans votre titre est déjà donnée dans Comment «additionner» un écart-type? thread, et se lit comme suit: pour obtenir l'écart type moyen, d'abord prendre la moyenne des variances, puis prendre racine carrée de celui-ci.
À première vue, cette approche est valide, mais elle ignore la nature hiérarchique de vos données. Un exemple similaire est examiné au chapitre 5 de Bayesian Data Analysis par Andrew Gelman et al (voir également ici ), qui montre qu'il est en fait plus sage d'utiliser des modèles hiérarchiques qui reposent sur des estimations groupées. Dans votre cas, vous avez observations, pour sujets dans traitements et je suppose que l'on peut supposer qu'il existe une sorte de similitude entre les résultats obtenus par chaque sujet et entre chaque traitement. Cela suggère déjà un modèle hiérarchique avec des effets croisés de niveau supérieur pour les traitements et les sujets. En utilisant un tel modèle, vous tiendriez compte des deux sources de variation.n×k n k
Notez que les formulations modernes d'ICC le définissent en fait en termes de modèles à effets mixtes du type décrit ci-dessus, donc l'utilisation de ce modèle résout plusieurs problèmes pour vous et c'est souvent l'approche recommandée pour la méta-analyse (mais notez que l' ICC peut être trompeur ).
Concernant votre montage, si votre modèle est
puis , et , donc votre ICC estαi∼N(μα,σ2α) βj∼N(μβ,σ2β) ϵij∼N(0,σ2ϵ)
La moyenne des erreurs n'entre à aucun moment dans l'équation. Ce qui revient à l'équation est la variance de chacun des effets aléatoires et "bruit" global . L'idée est d'estimer la part de variance prise par , c'est-à-dire quelle part de la variance totale cela représente. C'est ainsi que l'ICC a été défini par son créateur Ronald A. Fisher (1966) dans Statistical Methods for Research Workers :α,β ϵ α
Ainsi, le numérateur dans la formule ICC est la variance de l'effet d'intérêt et le dénominateur est la variance totale. Notez que la moyenne des variances n'a rien à voir avec la variance totale (somme des variances), donc à moins que je ne comprenne quelque chose, je ne vois pas pourquoi la moyenne vous intéresse ici.
la source