Variations «moyennes»

10

J'ai besoin d'obtenir une sorte de "moyenne" parmi une liste de variances, mais j'ai du mal à trouver une solution raisonnable. Il y a une discussion intéressante sur les différences entre les trois moyennes pythagoriciennes (arithmétique, géométrique et harmonique) dans ce fil ; cependant, je ne pense toujours pas que l'un d'eux soit un bon candidat. Aucune suggestion?

PS Un certain contexte - Ces variances sont des variances d'échantillon de sujets, chacun ayant suivi le même plan d'expérience avec à peu près la même taille d'échantillon . En d'autres termes, il existe variances d'échantillonnage , , ..., , correspondant à ces sujets. Une méta-analyse a déjà été réalisée au niveau de la population. La raison pour laquelle j'ai besoin d'obtenir une sorte de variance d'échantillon "moyenne" ou "résumée" est que je veux l'utiliser pour calculer un indice tel que ICC après la méta-analyse.nknσ12σ22σn2n

PPS Pour garder la discussion plus concrète, permettez-moi d'expliquer le problème avec l'exemple suivant dans R:

library(metafor)
dat <- get(data(dat.konstantopoulos2011))
dat$district <- as.factor(dat$district)
dat$school <- as.factor(dat$school)

Dans l'ensemble de données, il existe une variance associée au score de performance de chaque école:

str(dat)
Classes ‘escalc’ and 'data.frame':  56 obs. of  6 variables:
 $ district: Factor w/ 11 levels "11","12","18",..: 1 1 1 1 2 2 2 2 3 3 ...
 $ school  : Factor w/ 11 levels "1","2","3","4",..: 1 2 3 4 1 2 3 4 1 2 ...
 $ year    : int  1976 1976 1976 1976 1989 1989 1989 1989 1994 1994 ...
 $ yi      : atomic  -0.18 -0.22 0.23 -0.3 0.13 -0.26 0.19 0.32 0.45 0.38 ...
 $ vi      : num  0.118 0.118 0.144 0.144 0.014 0.014 0.015 0.024 0.023 0.043 ...

Supposons que nous effectuions une méta-analyse avec un modèle hiérarchique ou à effets mixtes:

yij=a+αi+βj+ϵij

où et sont les effets aléatoires pour la ème école et le ème district, respectivement, et est l'erreur de mesure avec une distribution gaussienne connue . Ce modèle peut être analysé comme ci-dessous:αiβjijϵijN(0,vij)

(fm <- rma.mv(yi, vi, random = list(~1 | district, ~1 | school), data=dat)) 

rendre les estimations de variance suivantes pour les deux composantes de variance:

Multivariate Meta-Analysis Model (k = 56; method: REML)
Variance Components: 

            estim    sqrt  nlvls  fixed    factor
sigma^2.1  0.0814  0.2853     11     no  district
sigma^2.2  0.0010  0.0308     11     no    school

Les deux variances du résultat, sigma ^ 2.1 et sigma ^ 2.2, correspondent aux deux variables à effets aléatoires (district et école).

Je voudrais calculer l'ICC pour le district, et c'est pourquoi je voulais obtenir une variance résumée en premier lieu pour ces variances individuelles, , du terme de mesure . La variance totale étantvijϵij

Var(yij)=Var(αi+βj+ϵij)=σ12+σ22+vij

mon approche originale (et simple) était d'utiliser uniquement la moyenne arithmétique:

σ12σ12+σ22+mean(vij)

mais je ne sais pas si la moyenne arithmétique, , est appropriée dans ce contexte.mean(vij)

poteau bleu
la source
4
Le contexte est tout ici. S'agit-il de variances théoriques (moments de distributions) ou de variances d'échantillon? S'il s'agit de variances d'échantillon, quelle est la relation entre les échantillons? Proviennent-ils de la même population? Si oui, disposez-vous de la taille de chaque échantillon? Si les échantillons ne proviennent pas de la même population, comment justifiez-vous la moyenne sur les variances?
Alecos Papadopoulos
2
La modélisation hiérarchique est une réponse très flexible. Ce billet de blog sur les huit écoles est un bon début. andrewgelman.com/2014/01/21/… Gelman et al., Bayesian Data Analysis est un excellent endroit pour obtenir plus d'informations.
Sycorax dit Réintégrer Monica
2
Copie possible de Comment «additionner» un écart-type?
Firebug
1
Est-ce un problème XY? Voulez-vous savoir comment faire la moyenne des variances ... Ou voulez-vous savoir comment calculer un ICC pour une méta-analyse?
Mark White
1
Dans ce cas, cette publication de stats.stackexchange.com/questions/187197/… aide-t-elle?
mdewey

Réponses:

7

En élargissant les commentaires que vous avez obtenus, la réponse à la question dans votre titre est déjà donnée dans Comment «additionner» un écart-type? thread, et se lit comme suit: pour obtenir l'écart type moyen, d'abord prendre la moyenne des variances, puis prendre racine carrée de celui-ci.

À première vue, cette approche est valide, mais elle ignore la nature hiérarchique de vos données. Un exemple similaire est examiné au chapitre 5 de Bayesian Data Analysis par Andrew Gelman et al (voir également ici ), qui montre qu'il est en fait plus sage d'utiliser des modèles hiérarchiques qui reposent sur des estimations groupées. Dans votre cas, vous avez observations, pour sujets dans traitements et je suppose que l'on peut supposer qu'il existe une sorte de similitude entre les résultats obtenus par chaque sujet et entre chaque traitement. Cela suggère déjà un modèle hiérarchique avec des effets croisés de niveau supérieur pour les traitements et les sujets. En utilisant un tel modèle, vous tiendriez compte des deux sources de variation.n×knk

Notez que les formulations modernes d'ICC le définissent en fait en termes de modèles à effets mixtes du type décrit ci-dessus, donc l'utilisation de ce modèle résout plusieurs problèmes pour vous et c'est souvent l'approche recommandée pour la méta-analyse (mais notez que l' ICC peut être trompeur ).


Concernant votre montage, si votre modèle est

yij=a+αi+βj+ϵij

puis , et , donc votre ICC estαiN(μα,σα2)βjN(μβ,σβ2)ϵijN(0,σϵ2)

ICCα=σα2σα2+σβ2+σϵ2

La moyenne des erreurs n'entre à aucun moment dans l'équation. Ce qui revient à l'équation est la variance de chacun des effets aléatoires et "bruit" global . L'idée est d'estimer la part de variance prise par , c'est-à-dire quelle part de la variance totale cela représente. C'est ainsi que l'ICC a été défini par son créateur Ronald A. Fisher (1966) dans Statistical Methods for Research Workers :α,βϵα

(...) la corrélation intraclasse ne sera que la fraction de la variance totale due à cette cause que les observations de la même classe ont en commun.

Ainsi, le numérateur dans la formule ICC est la variance de l'effet d'intérêt et le dénominateur est la variance totale. Notez que la moyenne des variances n'a rien à voir avec la variance totale (somme des variances), donc à moins que je ne comprenne quelque chose, je ne vois pas pourquoi la moyenne vous intéresse ici.

Tim
la source
J'apprécie vraiment la réponse et tous les commentaires ci-dessus! Je viens d'ajouter un autre post-scriptum dans le post d'origine pour clarifier davantage le problème. Je dois admettre que je ne connais pas très bien l'approche bayésienne. Si le problème peut être mieux caractérisé sous le paradigme bayésien, veuillez élaborer un peu plus avec l'exemple de jeu de données que je viens de présenter dans le post-scriptum. Merci!
bluepole
@bluepole Vous n'avez pas besoin d'un modèle bayésien. Le modèle traditionnel à effets mixtes fonctionnerait très bien. Les modèles bayésiens sont généralement plus flexibles pour de tels problèmes.
Tim
Donc, pour l'exemple de jeu de données ajouté dans mon article d'origine, pensez-vous que la moyenne arithmétique est raisonnable dans le contexte?
bluepole
Une chose qui est inexacte dans votre addendum est que suit , pas , où est connu. Donc, je ne vois pas comment votre est estimé. Et ma question initiale demeure. ϵijN(0,σij2)N(0,σϵ2)σij2σϵ2
bluepole
Dans ma description, je n'ai mentionné qu'un seul modèle avec l'hypothèse , où est connu. Pourriez-vous nous en dire un peu plus sur la façon dont est lié à la formule ICC? Merci! ϵijN(0,σij2)σij2iσij2/ijσij2
bluepole