Calcul de

13

J'ai lu sur le calcul des valeurs dans des modèles mixtes et après avoir lu la FAQ R-sig, d'autres articles sur ce forum (j'en lierais quelques-uns mais je n'ai pas assez de réputation) et plusieurs autres références je comprends que l'utilisation valeurs de dans le contexte des modèles mixtes sont compliquées.R 2R2R2

Cependant, j'ai récemment rencontré ces deux articles ci-dessous. Bien que ces méthodes semblent prometteuses (pour moi), je ne suis pas un statisticien, et en tant que tel, je me demandais si quelqu'un d'autre aurait une idée des méthodes qu'ils proposent et comment ils se compareraient aux autres méthodes qui ont été proposées.

Nakagawa, Shinichi et Holger Schielzeth. "Une méthode générale et simple pour obtenir R2 à partir de modèles linéaires à effets mixtes généralisés." Méthodes en écologie et évolution 4.2 (2013): 133-142.

Johnson, Paul CD. "Extension du R2GLMM de Nakagawa & Schielzeth à des modèles à pentes aléatoires." Méthodes en écologie et évolution (2014).

La méthode is peut également être implémentée à l'aide de la fonction r.squaredGLMM dans le package MuMIn qui donne la description suivante de la méthode.

Pour les modèles à effets mixtes, peut être classé en deux types. La marge marginale représente la variance expliquée par des facteurs fixes et est définie comme suit: conditionnelle est interprété comme la variance expliquée par des facteurs fixes et aléatoires ( par exemple le modèle entier), et est calculée selon l'équation: où est la variance des composantes à effet fixe, et est la somme de toutes les composantes de la variance (groupe, individu, etc.),R 2R2R2 R2RGLMM(c)2=(σ 2 f +(σ 2 l ))

RGLMM(m)2=σf2σf2+(σl2)+σe2+σd2
R2 σ 2 f(σ 2 l )σ 2 l σ 2 d
RGLMM(c)2=(σf2+(σl2))(σf2+(σl2)+σe2+σd2
σf2(σl2)σl2est la variance due à la dispersion additive et est la variance spécifique à la distribution. σd2

Dans mon analyse je regarde des données longitudinales et je m'intéresse principalement à la variance expliquée par les effets fixes dans le modèle

library(MuMIn) 
library(lme4)

fm1 <- lmer(zglobcog ~ age_c + gender_R2 + ibphdtdep + iyeareducc + apoegeno + age_c*apoegeno + (age_c | pathid), data = dat, REML = FALSE, control = lmerControl(optimizer = "Nelder_Mead"))

# Jarret Byrnes (correlation between the fitted and the observed values)
r2.corr.mer <- function(m) {
   lmfit <-  lm(model.response(model.frame(m)) ~ fitted(m))
   summary(lmfit)$r.squared
}

r2.corr.mer(fm1)
[1] 0.8857005

# Xu 2003
1-var(residuals(fm1))/(var(model.response(model.frame(fm1))))
[1] 0.8783479

# Nakagawa & Schielzeth's (2013)
r.squaredGLMM(fm1)
      R2m       R2c 
0.1778225 0.8099395 
Andrews
la source
J'ai modifié votre message pour utiliser le formatage mathjax. Veuillez vérifier que je n'ai pas accidentellement introduit d'erreurs.
Sycorax dit Reinstate Monica
Votre question manque d'une vraie question pour autant que je la comprenne. Pouvez-vous préciser ce que vous voulez? Une recommandation quoi utiliser?
Henrik
Bonjour @Henrik, j'étais intéressé par une recommandation de ce qu'il fallait utiliser, oui, mais aussi plus largement comment les différentes méthodes se comparent les unes aux autres et quelles sont les différences.
Andrews
Je crois que les équations originales et ci-dessus sont fausses. Ce n'est pas dû aux modifications de @ user777. Les deux termes à droite doivent être au dénominateur. Regardez ça .
Cyrille
Cette erreur est probablement due à l'absence de parenthèses fermantes dans la documentation du package MuMIn .
Cyrille

Réponses:

11

Je réponds en collant la réponse de Douglas Bates dans la liste de diffusion R-Sig-ME, le 17 décembre 2014, sur la question de savoir comment calculer une statistique pour les modèles mixtes linéaires généralisés, que je crois être une lecture obligatoire pour quiconque s'intéresse à une telle chose. Bates est l'auteur original du package pour R et co-auteur de , ainsi que co-auteur d'un livre bien connu sur les modèles mixtes , et CV bénéficiera d'avoir le texte dans une réponse, plutôt qu'un simple lien vers il.R2lme4nlme

Je dois admettre que je suis un peu nerveux quand les gens parlent du "R2 pour les GLMM". R2 pour un modèle linéaire est bien défini et possède de nombreuses propriétés souhaitables. Pour d'autres modèles, on peut définir différentes quantités qui reflètent certaines mais pas toutes ces propriétés. Mais il ne s'agit pas de calculer un R2 dans le sens d'obtenir un nombre ayant toutes les propriétés que fait le R2 pour les modèles linéaires. Il existe généralement plusieurs façons de définir une telle quantité. Surtout pour les GLM et GLMM avant de pouvoir définir la «proportion de la variance de réponse expliquée», vous devez d'abord définir ce que vous entendez par «variance de la réponse».

La confusion sur ce qui constitue R2 ou degrés de liberté de n'importe quelle autre quantité associée aux modèles linéaires appliquée à d'autres modèles vient de la confusion de la formule avec le concept. Bien que les formules soient dérivées de modèles, la dérivation implique souvent des mathématiques assez sophistiquées. Pour éviter une dérivation potentiellement déroutante et simplement "aller droit au but", il est plus facile de présenter les formules. Mais la formule n'est pas le concept. Généraliser une formule n'est pas équivalent à généraliser le concept. Et ces formules ne sont presque jamais utilisées dans la pratique, en particulier pour les modèles linéaires généralisés, l'analyse de la variance et les effets aléatoires. J'ai un "méta-théorème" selon lequel la seule quantité réellement calculée selon les formules données dans les textes introductifs est la moyenne de l'échantillon.

Il peut sembler que je suis un vieil homme grincheux à ce sujet, et peut-être que je le suis, mais le danger est que les gens s'attendent à ce qu'une quantité "de type R2" ait toutes les propriétés d'un R2 pour les modèles linéaires. Ça ne peut pas. Il n'y a aucun moyen de généraliser toutes les propriétés à un modèle beaucoup plus compliqué comme un GLMM.

J'ai déjà fait partie du comité chargé d'examiner une proposition de thèse pour un doctorat. candidature. La proposition était d'examiner, je pense, 9 formules différentes qui pourraient être considérées comme des moyens de calculer un R2 pour un modèle de régression non linéaire afin de décider laquelle était la "meilleure". Bien sûr, cela se ferait par une étude de simulation avec seulement quelques modèles différents et seulement quelques ensembles différents de valeurs de paramètres pour chacun. Ma suggestion qu'il s'agissait d'un exercice totalement dénué de sens n'a pas été accueillie chaleureusement.

Robert Long
la source
10

Après avoir parcouru la littérature, je suis tombé sur l'article suivant qui compare plusieurs méthodes différentes de calcul des valeurs pour les modèles mixtes, où les méthodes (MVP) sont équivalentes à la méthode proposée par Nakagawa et Schielzeth.R 2R2R2

  • Lahuis, D et al (2014) Explained Mesures de variance pour les modèles à plusieurs niveaux. Méthodes de recherche organisationnelle.

entrez la description de l'image ici

Dans l'ensemble, la plupart des mesures (formule, formule, (OLS) et (MVP)) présentaient des niveaux acceptables de biais, de cohérence et d'efficacité dans toutes les conditions et tous les modèles. De plus, la différence des valeurs de biais moyennes pour ces mesures était faible. La formule et la formule étaient les moins biaisées dans les modèles à interception aléatoire et la formule et (MVP) étaient les moins biaisées dans les modèles à pente aléatoire. En termes d'efficacité, la formule et (MVP) avaient les valeurs d'écart type les plus faibles dans le modèle d'interception aléatoire. (MVP) et (OLS) avaient les écarts-types les plus faibles dans le modèle à pente aléatoire. En général, la formule n'était pas un estimateur efficace.R 2 R 2 R 2 R 2 R 2R2R2R2R2R2R2

Andrews
la source