J'ai étudié la modélisation d'effets mixtes à l'aide du package lme4 dans R. J'utilise principalement la lmer
commande, je vais donc poser ma question via du code qui utilise cette syntaxe. Je suppose qu'une question générale facile pourrait être, est-il OK de comparer deux modèles construits en lmer
utilisant des ratios de vraisemblance basés sur des ensembles de données identiques? Je pense que la réponse doit être «non», mais je peux me tromper. J'ai lu des informations contradictoires sur la question de savoir si les effets aléatoires doivent être identiques ou non, et quelle composante des effets aléatoires signifie cela? Je vais donc vous présenter quelques exemples. Je vais les prendre à partir de données de mesures répétées en utilisant des stimuli de mots, peut-être que quelque chose comme Baayen (2008) serait utile pour l'interprétation.
Disons que j'ai un modèle où il y a deux prédicteurs d'effets fixes, nous les appellerons A et B, et quelques effets aléatoires ... des mots et des sujets qui les ont perçus. Je pourrais construire un modèle comme le suivant.
m <- lmer( y ~ A + B + (1|words) + (1|subjects) )
(Notez que j'ai intentionnellement omis data =
et nous supposerons que je veux toujours dire REML = FALSE
par souci de clarté)
Maintenant, parmi les modèles suivants, qui peuvent être comparés avec un rapport de vraisemblance à celui ci-dessus et qui ne le sont pas?
m1 <- lmer( y ~ A + B + (A+B|words) + (1|subjects) )
m2 <- lmer( y ~ A + B + (1|subjects) )
m3 <- lmer( y ~ A + B + (C|words) + (A+B|subjects) )
m4 <- lmer( y ~ A + B + (1|words) )
m5 <- lmer( y ~ A * B + (1|subjects) )
Je reconnais que l'interprétation de certaines de ces différences peut être difficile, voire impossible. Mais laissons cela de côté pendant une seconde. Je veux juste savoir s'il y a quelque chose de fondamental dans les changements ici qui empêche la possibilité de comparer. Je veux également savoir si, si les LR sont OK, et les comparaisons AIC également.
Réponses:
En utilisant le maximum de vraisemblance, n'importe lequel de ces éléments peut être comparé à l'AIC; si les effets fixes sont les mêmes (
m1
àm4
), utiliser REML ou ML est très bien, avec REML généralement préféré, mais s'ils sont différents, seul ML peut être utilisé. Cependant, l'interprétation est généralement difficile lorsque les effets fixes et les effets aléatoires changent, donc dans la pratique, la plupart recommandent de ne changer que l'un ou l'autre à la fois.L'utilisation du test du rapport de vraisemblance est possible mais compliquée car l'approximation chi carré habituelle ne tient pas lors du test si une composante de variance est nulle. Voir la réponse d'Aniko pour plus de détails. (Félicitations à Aniko pour avoir lu la question plus attentivement que moi et lu ma réponse originale suffisamment pour remarquer qu'elle a raté ce point. Merci!)
Pinhiero / Bates est la référence classique; il décrit le
nlme
paquet, mais la théorie est la même. Eh bien, pratiquement la même chose; Doug Bates a changé ses recommandations sur l'inférence depuis la rédaction de ce livre et les nouvelles recommandations sont reflétées dans lelme4
package. Mais c'est plus que ce que je veux aborder ici. Une référence plus lisible est Weiss (2005), Modeling Longitudinal Data.la source
m
m
m4
m
m2
Cependant, comme l'a déclaré @Aaron, de nombreux experts ne recommandent pas de faire un test de rapport de vraisemblance comme celui-ci. Les alternatives potentielles sont les critères d'information (AIC, BIC, etc.) ou l'amorçage du LRT.
[1] Self, SG & Liang, K. Propriétés asymptotiques des estimateurs du maximum de vraisemblance et tests de rapport de vraisemblance dans des conditions non standard J. Amer. Statist. Assoc., 1987, 82, 605-610.
la source