Comment interpréter les «corrélations d'effets fixes» dans ma sortie glmer?

26

J'ai la sortie suivante:

Generalized linear mixed model fit by the Laplace approximation 
Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) 

 AIC   BIC    logLik deviance
 4062  4093  -2022   4044

Random effects:
Groups    Name        Variance Std.Dev.
landscape (Intercept) 0.82453  0.90804 
Number of obs: 239, groups: landscape, 45

Fixed effects:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  2.65120    0.14051  18.868   <2e-16     
sMFS2        0.26922    0.17594   1.530   0.1260    
sAG2         0.09268    0.14529   0.638   0.5235    
sSHDI2       0.28345    0.17177   1.650   0.0989  
sbare        0.41388    0.02976  13.907   <2e-16 
seasonlate  -0.50165    0.02729 -18.384   <2e-16 
cropforage   0.79000    0.06724  11.748   <2e-16 
cropsoy      0.76507    0.04920  15.551   <2e-16 

Correlation of Fixed Effects:
           (Intr) sMFS2  sAG2   sSHDI2 sbare  sesnlt crpfrg
sMFS2      -0.016                                          
sAG2        0.006 -0.342                                   
sSHDI2     -0.025  0.588 -0.169                            
sbare      -0.113 -0.002  0.010  0.004                     
seasonlate -0.034  0.005 -0.004  0.001 -0.283              
cropforage -0.161 -0.005  0.012 -0.004  0.791 -0.231       
cropsoy    -0.175 -0.022  0.013  0.013  0.404 -0.164  0.557

Toutes mes variables continues (désignées par un petit sdevant le nom de la variable) sont normalisées (z-scores). seasonest une variable catégorielle à 2 niveaux (précoce et tardive), et cropest une variable catégorielle à 3 niveaux (maïs, fourrage et soja).

Cette corrélation de la matrice des effets fixes me déroute vraiment, car toutes les corrélations ont le signe opposé qu'elles font quand je regarde les régressions simples de paires de variables. c'est-à-dire que la matrice de corrélation des effets fixes suggère une forte corrélation positive entre cropforageet sbare, alors qu'en fait il existe une très forte corrélation NÉGATIVE entre ces variables - les cultures fourragères avaient tendance à avoir beaucoup moins de terrain nu que les cultures de maïs et de soja. Des paires de variables continues ont le même problème, la corrélation de la matrice des effets fixes dit que tout est à l'opposé de ce qu'il devrait être ... Cela pourrait-il simplement être dû à la complexité du modèle (n'étant pas une simple régression)? Cela pourrait-il être lié au fait que les variables sont normalisées?

Merci.

susie
la source

Réponses:

27

La sortie "corrélation des effets fixes" n'a pas la signification intuitive que la plupart lui attribueraient. Plus précisément, il ne s'agit pas de la corrélation des variables (comme les notes OP). Il s'agit en fait de la corrélation attendue des coefficients de régression. Bien que cela puisse parler de multicollinéarité, ce n'est pas nécessairement le cas. Dans ce cas, cela vous dit que si vous refaisiez l'expérience et qu'il se trouvait que le coefficient de cropforagediminuait, il est probable que ce serait également le cas sbare.

En partie, son livre "Analyse des données linguistiques: une introduction pratique aux statistiques utilisant R" traitant de lme4 Baayen supprime cette partie de la sortie et la déclare utile uniquement dans des cas spéciaux. Voici un message de listserv où Bates lui-même décrit comment interpréter cette partie de la sortie:

Il s'agit d'une corrélation approximative de l'estimateur des effets fixes. (J'inclus le mot "approximatif" parce que je devrais mais dans ce cas l'approximation est très bonne.) Je ne sais pas comment l'expliquer mieux que cela. Supposons que vous ayez pris un échantillon MCMC à partir des paramètres du modèle, alors vous vous attendriez à ce que l'échantillon des paramètres à effets fixes affiche une structure de corrélation comme cette matrice.

russellpierce
la source
3
Je suis désolé, ce sera probablement une question stupide, mais alors pourquoi est-il important de considérer cette corrélation? Je veux dire, dans quelles situations ce résultat devrait-il être pris en compte?
mtao
1
@Teresa Cela dépend de l'usage auquel vous l'utilisez. Si vous vous souciez de l'interprétation, cela vous indique à quel point deux sources d'effets sont confuses. Si vous vous souciez de la prédiction, elle vous indique un peu à quoi pourraient ressembler d'autres modèles de prédiction et vous donne un indice sur la façon dont le modèle pourrait changer si vous supprimiez un prédicteur.
russellpierce
1
Donc, imaginez que j'ai deux variables dans cette sortie avec une corrélation de 0,90, par exemple. En termes d'interprétation, je suppose que je devrais laisser tomber l'un d'eux, car ils sont "confus" et semblent dire la même information. En ce qui concerne la prédiction, si je laisse tomber l'un d'entre eux, les autres modèles ne devraient pas changer autant, car ils sont corrélés, ai-je raison? Ou est-ce que j'interprète mal?
mtao
3
Vous savez, je pense que vous faites écho à ce que j'ai dit correctement; mais, après réflexion, je ne suis pas sûr à 100% d'avoir raison. Vous pouvez être mieux servi en ouvrant une nouvelle question - cela permettra de mieux voir votre question et d'augmenter la probabilité que vous receviez une réponse correcte.
russellpierce
1
@russellpierce, merci pour cette réponse. Une question cependant, j'ai appris que la multicolinéarité se produit lorsque les prédicteurs sont en corrélation les uns avec les autres. Mais dans votre réponse, vous dites que c'est la corrélation des coefficients de régression (pas des prédicteurs) qui peut parler de multicollinéarité. Pourquoi ne pas simplement corréler les prédicteurs eux-mêmes au lieu des coefficients estimés?
locus
0

Si vos corrélations négatives et positives sont les mêmes dans leur valeur et que seul leur signe diffère, vous entrez la variable par erreur. Mais je ne pense pas que ce soit le cas pour vous car vous semblez déjà assez avancé dans les statistiques.

L'incohérence que vous rencontrez peut être et est probablement causée par la multicolinéarité. Cela signifie que certaines variables indépendantes partagent des effets qui se chevauchent ou, en d'autres termes, sont elles-mêmes corrélées . par exemple, la modélisation des variables "taux de croissance" et "taille de la tumeur" peut entraîner une multicolinéarité, car il est possible et probable que les tumeurs plus grandes aient des taux de croissance plus élevés (avant d'être détectés) en soi. Cela peut confondre le modèle. Et si votre modèle a peu de variables indépendantes qui sont corrélées les unes aux autres, l'interprétation des résultats peut parfois devenir assez difficile. Elle conduit parfois à des coefficients totalement étranges, voire à des degrés tels que le signe de certaines corrélations s'inverse.

Vous devez d'abord détecter les sources de multicolinéarité et les traiter, puis relancer votre analyse.

Vic
la source
1
-1; trompeur. OP n'a pas entré ses variables de manière incorrecte et la multicolinéarité n'est peut-être pas un problème. Une corrélation entre les effets fixes bruts pourrait parler de ce point, mais le paradoxe de Simpson peut permettre à cette approche de vous conduire dans la mauvaise direction.
russellpierce
1
Pourquoi "trompeur"? Quelle partie était trompeuse? J'ai parlé très clairement et j'ai évité de tirer des conclusions claires. Ce que j'ai dit est en effet l'un des signes de multicolinéarité et nous dit que nous devons également vérifier les VIF. Mais je ne comprends pas comment vous savez ou êtes sûr que "l'OP n'a pas entré ses variables de manière incorrecte et la multicolinéarité peut ne pas être un problème."?
Vic
1
De plus, vous n'avez même pas lu mon article complètement (et vous l'avez rétrogradé et appelé trompeur). Si vous l'aviez fait, vous aviez vu que j'avais suggéré que le PO vérifie les VIF (en tant qu'indicateurs officiels pour multiC) pour s'assurer si ces corrélations élevées pointent vraiment vers MC ou non? mais de toute façon, je suis ouvert à l'apprentissage tant qu'il est exempt d'arrogance et d'attaques personnelles.
Vic
1
@Vic: Je n'ai pas vu vos commentaires jusqu'à maintenant. Je ne voulais pas que vous considériez ma réponse comme une attaque personnelle. J'étais d'avis que c'était trompeur et j'ai fourni ce que je pense être la bonne réponse ci-dessus. J'ai lu votre message dans son intégralité à l'époque. Je ne sais pas si j'ai creusé dans les commentaires ou non. Je maintiens mon downvote.
russellpierce
1
... mais je permets que je puisse me tromper dans ce jugement. Cependant, il m'a semblé préférable d'expliquer pourquoi j'ai déclassé plutôt que de simplement rétrograder.
russellpierce
0

Il peut être utile de montrer que ces corrélations entre effets fixes sont obtenues en convertissant le "vcov" du modèle en une matrice de corrélation. Si fitc'est votre modèle lme4 équipé, alors

vc <- vcov(fit)

# diagonal matrix of standard deviations associated with vcov
S <- sqrt(diag(diag(vc), nrow(vc), nrow(vc)))

# convert vc to a correlation matrix
solve(S) %*% vc %*% solve(S)

et les corrélations entre les effets fixes sont les entrées hors diagonale.

Ed Merkle
la source