REML vs ML stepAIC

10

Je me sens dépassé après avoir tenté de creuser dans la littérature sur la façon d'exécuter mon analyse de modèle mixte, en suivant l'utilisation d'AIC pour sélectionner le ou les meilleurs modèles. Je ne pense pas que mes données soient si compliquées, mais je recherche la confirmation que ce que j'ai fait est correct, puis je conseille sur la façon de procéder. Je ne sais pas si je dois utiliser lme ou lmer, puis avec l'un ou l'autre, si je dois utiliser REML ou ML.

J'ai une valeur de sélection et je veux savoir quelles covariables influencent le mieux cette valeur et permettent des prédictions. Voici quelques exemples de données composées et mon code pour mon test avec lequel je travaille:

ID=as.character(rep(1:5,3))
season=c("s","w","w","s","s","s","s","w","w","w","s","w","s","w","w")
time=c("n","d","d","n","d","d","n","n","n","n","n","n","d","d","d")
repro=as.character(rep(1:3,5))
risk=runif(15, min=0, max=1.1)
comp1=rnorm(15, mean = 0, sd = 1)
mydata=data.frame(ID, season, time, repro, risk, comp1)
c1.mod1<-lmer(comp1~1+(1|ID),REML=T,data=mydata)
c1.mod2<-lmer(comp1~risk+(1|ID),REML=T,data=mydata)
c1.mod3<-lmer(comp1~season+(1|ID),REML=T,data=mydata)
c1.mod4<-lmer(comp1~repro+(1|ID),REML=T,data=mydata)
c1.mod5<-lmer(comp1~time+(1|ID),REML=T,data=mydata)
c1.mod6<-lmer(comp1~season+repro+time+(1|ID),REML=T,data=mydata)
c1.mod7<-lmer(comp1~risk+season+season*time+(1|ID),REML=T,data=mydata)

J'ai ~ 19 modèles qui explorent ces données avec diverses combinaisons et jusqu'à un terme d'interaction à 2 voies, mais toujours avec ID comme effet aléatoire et comp1 comme variable dépendante.

  • Q1. Lequel utiliser? lme ou lmer? Est-ce que ça importe?

Dans les deux cas, j'ai la possibilité d'utiliser ML ou REML - et j'obtiens des réponses radicalement différentes - en utilisant ML suivi d'AIC, je me retrouve avec 6 modèles tous avec des valeurs AIC similaires et les combinaisons de modèles n'ont tout simplement aucun sens, alors que REML résulte que 2 des modèles les plus probables sont les meilleurs. Cependant, lors de l'exécution de REML, je ne peux plus utiliser anova.

  • Q2. est la principale raison d'utiliser ML sur REML en raison de son utilisation avec ANOVA? Ce n'est pas clair pour moi.

Je ne suis toujours pas en mesure d'exécuter stepAIC ou je ne connais pas d'autre moyen d'affiner ces 19 modèles.

  • Q3. existe-t-il un moyen d'utiliser stepAIC à ce stade?
Kerry
la source
3
Pour le T2, ML est nécessaire car les comparaisons utilisant REML ne sont pas valides lorsque les effets fixes changent. Une possible question connexe utile est ici: stats.stackexchange.com/a/16015/3601
Aaron a quitté Stack Overflow
@Aaron J'avais déjà regardé cette question, mais j'étais toujours confus. Utiliser REML ne "fonctionne" que lorsque l'effet aléatoire change? Évidemment, je ne comprends pas assez bien ML vs REML. Merci cependant, cela aide à répondre à l'une de mes questions!
Kerry
Oui c'est correct. Lors de la comparaison de modèles, REML ne doit être utilisé que si les modèles ont les mêmes effets fixes. Réponse développée ci-dessous.
Aaron a quitté Stack Overflow

Réponses:

16

Q1. Lequel utiliser? lme ou lmer? Est-ce que ça importe? N'importe quel. Ils vous donneront les mêmes ajustements. lmevous donnera des valeurs p, et lmerne le fera pas, mais c'est plus que ce que je veux entrer ici. La référence la plus célèbre est l'un des messages de Doug Bates à la liste de diffusion R-help ici .

(mise en garde: ils utilisent des algorithmes légèrement différents, donc il y a potentiellement des cas difficiles à calculer où l'un ou l'autre pourraient faire mieux, mais ceux-ci sont très rares dans la pratique, et en fait, indiquent très probablement une sorte de mauvaise spécification du modèle. Voir Complètement différent résultats de lmer () et lme () .)

Q2. est la principale raison d'utiliser ML sur REML en raison de son utilisation avec ANOVA? Ce n'est pas clair pour moi. ML est nécessaire car les comparaisons utilisant REML ne sont pas valides lorsque les effets fixes changent. Une éventuelle question connexe utile est ici: https://stats.stackexchange.com/a/16015/3601 . Pour répondre à votre question dans le commentaire ci-dessus, oui, lors de la comparaison de modèles, REML ne doit être utilisé que si les modèles ont les mêmes effets fixes (c'est-à-dire lorsque seuls les effets aléatoires changent). La probabilité REML dépend des effets fixes qui sont dans le modèle et ne sont donc pas comparables si les effets fixes changent. REML est généralement considéré comme donnant de meilleures estimations pour les effets aléatoires, donc le conseil habituel est d'adapter votre meilleur modèle en utilisant REML pour votre inférence finale et votre rapport.

Q3. existe-t-il un moyen d'utiliser stepAIC à ce stade? Pour comparer entre vos 19 modèles qui ont du sens dans votre situation, il suffit de comparer l'AIC pour chacun d'eux. Aucune raison d'utiliser une procédure par étapes. Les procédures par étapes sont généralement considérées comme démodées de nos jours car elles ne garantissent pas que le meilleur modèle soit trouvé, et les ordinateurs permettent de comparer facilement de nombreux modèles.

Aaron a laissé Stack Overflow
la source
1

En creusant davantage, j'ai également trouvé ces ressources qui sauvegardent les liens fournis par Aaron et sont de bonnes lectures pour ceux qui commencent comme moi. Les chapitres liés sur http://lme4.r-forge.r-project.org/ pour des exemples, consultez le lien des diapositives http://lme4.r-forge.r-project.org/slides/ sur la même page de projet . De nombreux cours de courte durée ont même un exemple de code R qui m'a été d'une grande aide.
Aussi cette courte réponse du Dr Bolker http://r.789695.n4.nabble.com/lme-vs-lmer-how-do-they-differ-td2534332.html

Kerry
la source