Qu'est-ce que la structure R de la structure G dans un glmm?

16

J'ai utilisé le MCMCglmmpackage récemment. Je suis confus par ce que l'on appelle dans la documentation structure R et structure G. Ceux-ci semblent se rapporter aux effets aléatoires - en particulier en spécifiant les paramètres de la distribution antérieure sur eux, mais la discussion dans la documentation semble supposer que le lecteur sait ce que sont ces termes. Par exemple:

liste facultative des spécifications antérieures ayant 3 éléments possibles: R (structure R) G (structure G) et B (effets fixes) ............ Les a priori pour les structures de variance (R et G ) sont des listes avec les (co) variances (V) et le degré de croyance (nu) attendus pour l'inverse de Wishart

... prise d' ici .

EDIT: Veuillez noter que j'ai réécrit le reste de la question suite aux commentaires de Stéphane.

Quelqu'un peut-il faire la lumière sur ce que sont la structure R et la structure G, dans le contexte d'un modèle de composantes de variance simple où le prédicteur linéaire est avec e 0 i jN ( 0 , σ 2 0 e ) et u 0 jN ( 0 , σ 2 0 u )

β0+e0ij+u0j
e0ijN(0,σ0e2)u0jN(0,σ0u2)

J'ai fait l'exemple suivant avec quelques données fournies avec MCMCglmm

> require(MCMCglmm)
> require(lme4)
> data(PlodiaRB)
> prior1 = list(R = list(V = 1, fix=1), G = list(G1 = list(V = 1, nu = 0.002)))
> m1 <- MCMCglmm(Pupated ~1, random = ~FSfamily, family = "categorical", 
+ data = PlodiaRB, prior = prior1, verbose = FALSE)
> summary(m1)


 G-structure:  ~FSfamily

         post.mean l-95% CI u-95% CI eff.samp
FSfamily    0.8529   0.2951    1.455      160

 R-structure:  ~units

      post.mean l-95% CI u-95% CI eff.samp
units         1        1        1        0

 Location effects: Pupated ~ 1 

            post.mean l-95% CI u-95% CI eff.samp  pMCMC    
(Intercept)   -1.1630  -1.4558  -0.8119    463.1 <0.001 ***
---

> prior2 = list(R = list(V = 1, nu = 0), G = list(G1 = list(V = 1, nu = 0.002)))
> m2 <- MCMCglmm(Pupated ~1, random = ~FSfamily, family = "categorical", 
+ data = PlodiaRB, prior = prior2, verbose = FALSE)
> summary(m2)


 G-structure:  ~FSfamily

         post.mean l-95% CI u-95% CI eff.samp
FSfamily    0.8325   0.3101    1.438    79.25

 R-structure:  ~units

      post.mean l-95% CI u-95% CI eff.samp
units    0.7212  0.04808    2.427    3.125

 Location effects: Pupated ~ 1 

            post.mean l-95% CI u-95% CI eff.samp  pMCMC    
(Intercept)   -1.1042  -1.5191  -0.7078    20.99 <0.001 ***
---

> m2 <- glmer(Pupated ~ 1+ (1|FSfamily), family="binomial",data=PlodiaRB)
> summary(m2)
Generalized linear mixed model fit by the Laplace approximation 
Formula: Pupated ~ 1 + (1 | FSfamily) 
   Data: PlodiaRB 
  AIC  BIC logLik deviance
 1020 1029   -508     1016
Random effects:
 Groups   Name        Variance Std.Dev.
 FSfamily (Intercept) 0.56023  0.74849 
Number of obs: 874, groups: FSfamily, 49

Fixed effects:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -0.9861     0.1344  -7.336  2.2e-13 ***

Donc, sur la base des commentaires de Stéphane, je pense que la structure G est pour . Mais les commentaires disent également que la structure R est pour σ 2 0 e mais cela ne semble pas apparaître dans la sortie.σ0u2σ0e2lme4

Notez que les résultats de lme4/glmer()sont cohérents avec les deux exemples de MCMC MCMCglmm.

La structure R de et pourquoi n'apparaît-elle pas dans la sortie de ?σ0e2lme4/glmer()

Joe King
la source
1
Avec la terminologie SAS (mais c'est peut-être une terminologie plus courante), la matrice G est la matrice de variance des effets aléatoires et la matrice R est la matrice de variance des "termes d'erreurs" (dans votre cas, c'est peut-être le résidu estimé variance ?)σ0e2
Stéphane Laurent
@ StéphaneLaurent merci. Je me suis demandé s'il pouvait être estimé à mais quand j'ai découvert le modèle linéaire généralisé, je me souviens que σ 2 0 e n'est pas estimé - seule la «déviance» est calculée (comme avec ). Peut-être que je manque quelque chose? σ0e2σ0e2lme4
Joe King
1
peut-être que le sens de la variance résiduelle n'est pas clair lorsque la famille de distribution n'est pas la famille gaussienne
Stéphane Laurent
1
@ Stéphane Laurent Oui! Veuillez voir mon commentaire à la réponse de Michael il y a une minute - pour le résultat binaire, il devrait être corrigé (comme dans mes modèles dans mon OP)
Joe King
1
Lorsque vous avez un modèle ME / multiniveau, il existe plusieurs écarts. Imaginons le cas le plus simple: . Il existe une variance dans les intersections b i et dans le terme d'erreur ε i . G est souvent utilisé pour la matrice var-covar des effets aléatoires (dans ce cas un scalaire, σ 2 b ) & R i est pour la matrice var-covar des variances résiduelles ε iYi=β0+β1X+bi+εibiεiGσb2Riεiaprès avoir pris en compte les effets aléatoires fixes et de ce cluster. Il est généralement conçu comme une matrice diagonale de . De plus, les deux distances sont considérées comme normales multivariées w / moyenne = 0. σ2
gung - Réintègre Monica

Réponses:

8

Je préférerais poster mes commentaires ci-dessous en tant que commentaire mais cela ne serait pas suffisant. Ce sont des questions plutôt qu'une réponse (tout comme @gung, je ne me sens pas assez fort sur le sujet).

J'ai l'impression que MCMCglmm n'implémente pas un "vrai" glmm bayésien. Le vrai modèle bayésien est décrit dans la section 2 de cet article . De façon similaire au modèle fréquentiste, on a et il y a un préalable requis sur le paramètre de dispersion ϕ 1 en plus des paramètres fixes β et de la variance "G" de la effet aléatoire u .g(E(yu))=Xβ+Zuϕ1βu

g(E(yu,e))=Xβ+Zu+eϕ1

σe

Veuillez vous excuser pour ces commentaires approximatifs, je viens de jeter un coup d'œil à ce sujet.

Stéphane Laurent
la source
Je vous remercie. Ce sujet est-il censé être difficile, parce que je le trouve assez difficile? Je pense que je suis satisfait de la signification de la structure R et G maintenant. Je suis toujours confus quant au manque deσeavec glmeret je suis très curieux de votre commentaire qui MCMCglmmn'est pas vraiment bayésien. Je ne peux pas honnêtement dire que je comprends tout le document auquel vous avez lié et je me bats également avec des parties de la MCMCglmmvignette, mais simplement du point de vue de mon exemple, je crois que le paramètre de dispersionϕ1doit être constant (car l'exemple est binomial). Qu'est-ce que je rate ?
Joe King
Désolé, mes mots n'étaient pas totalement appropriés. MCMCglmm est vraiment bayésien, mais il n'implémente pas exactement le glmm classique (je pense). De plus, vous devez être conscient qu'il est difficile de définir des a priori donnant une inférence sur les composantes de la variance proche de l'inférence fréquentiste.
Stéphane Laurent
Merci encore. Dans mes études, j'ai constaté que je pouvais utiliser la distribution par défaut de Wishart inverse pour les composantes de la variance en MCMCglmmutilisant une variété de paramètres, et les intervalles crédibles à 95% contiennent toujours la valeur de la variance pour l'estimation des effets aléatoires par glmerdonc j'ai estimé que c'était raisonnable , mais comment dois-je interpréter ce cas, qui peut ne pas être typique, d'où le résultat que les MCMCglmmintervalles ne sont pas très sensibles au choix du prior? Peut-être que je devrais poser une nouvelle question à ce sujet?
Joe King
Vous avez peut-être un gros échantillon? En ce qui concerne votre question initiale, j'ai l'impression que, au moins pour le cas binomial, le modèle glmer est équivalent au modèle MCMCglmm avecσe=0. What happens if you set a prior on σe highly concentrated at 0 ?
Stéphane Laurent
Yes, I have a quite large sample size: 50,000 observations in 225 clusters (my own data, not the example in my question). When I set a prior very concentrated near zero on σe, by setting V=0.01 and nu=100 then I obtain 0.25 (CI: 0.16, 0.29) for σe and 0.53 (0.38, 0.73) for σu. When I set a less informative prior, with V=10 and nu=0.01 then I obtain 0.18 (0.12, 0.23) and 0.49 (0.34, 0.63) respectively. This compares with 0.51 from glmer. I even tried an improper flat prior, which gave 0.10 (0.08, 0.13) and 0.47 (0.25, 0.68).
Joe King
11

I am late to the game, but a few notes. The R structure is the residual structure. In your case, the "structure" only has a single element (but this need not be the case). For Gaussian response variable, the residual variance, σe2 is typically estimated. For binary outcomes, it is held constant. Because of how MCMCglmm is setup, you cannot fix it at zero, but it is relatively standard to fix it at 1 (also true for a probit model). For count data (e.g., with a poisson distribution), you do not fix it and this automatically estimates an overdispersion parameter essentially.

The Gstructure est la structure à effets aléatoires. Encore une fois dans votre cas, juste une interception aléatoire, mais si vous aviez plusieurs effets aléatoires, ils formeraient une matrice de variance-covariance,G.

Une note finale, parce que la variance résiduelle n'est pas fixée à zéro, les estimations ne correspondront pas à celles de glmer. You need to rescale them. Here is a little example (not using random effects, but it generalizes). Note how the R structure variance is fixed at 1.

# example showing how close the match is to ML without separation
m2 <- MCMCglmm(vs ~ mpg, data = mtcars, family = "categorical",
  prior = list(
    B = list(mu = c(0, 0), V = diag(2) * 1e10),
    R = list(V = 1, fix = 1)),
  nitt = 1e6, thin = 500, burnin = 10000)
summary(m2)

Voici la constante de mise à l'échelle pour la famille binomiale:

k <- ((16*sqrt(3))/(15*pi))^2

Maintenant, divisez la solution et obtenez les modes postérieurs

posterior.mode(m2$Sol/(sqrt(1 + k)))

Ce qui devrait être assez proche de ce que nous obtenons glm

summary(glm(vs ~mpg, data = mtcars, family = binomial))
Joshua
la source
would you happen to know how to specify heteroskedasticity on level one in MCMCglmm? Is that the R structure? What is the syntax then?
Maxim.K
@Joshua, pouvez-vous expliquer la "constante de mise à l'échelle pour la famille binomiale"? PS: Pour la graine 123, je reçois (avec la correction) des m2valeurs -8.164et 0.421; et des glmvaleurs -8.833et 0.430.
Qaswed
La constante de mise à l'échelle peut être trouvée dans Diggle et. Al. ( amazon.de/Analysis-Longitudinal-Oxford-Statistical-Science/dp/… ) - selon cran.r-project.org/web/packages/MCMCglmm/vignettes/… eq. 2.14 à la page 47.
Qaswed