Pourquoi faut-il utiliser REML (au lieu de ML) pour choisir parmi les modèles var-covar imbriqués?

16

Diverses descriptions sur la sélection des modèles sur les effets aléatoires des modèles mixtes linéaires indiquent l'utilisation de REML. Je connais la différence entre REML et ML à un certain niveau, mais je ne comprends pas pourquoi REML devrait être utilisé parce que ML est biaisé. Par exemple, est-ce mal de conduire un TLR sur un paramètre de variance d'un modèle de distribution normal en utilisant ML (voir le code ci-dessous)? Je ne comprends pas pourquoi il est plus important d'être impartial que d'être ML, dans la sélection des modèles. Je pense que la réponse ultime doit être "parce que la sélection de modèle fonctionne mieux avec REML qu'avec ML" mais j'aimerais en savoir un peu plus. Je n'ai pas lu les dérivations de LRT et AIC (je ne suis pas assez bon pour les comprendre à fond), mais si REML est explicitement utilisé dans les dérivations, sachant simplement que ce sera réellement suffisant (par exemple,

n <- 100
a <- 10
b <- 1
alpha <- 5
beta <- 1
x <- runif(n,0,10)
y <- rnorm(n,a+b*x,alpha+beta*x)

loglik1 <- function(p,x,y){
   a <- p[1]
   b <- p[2]
   alpha <- p[3]
  -sum(dnorm(y,a+b*x,alpha,log=T))
}

loglik2 <- function(p,x,y){
   a <- p[1]
   b <- p[2]
   alpha <- p[3]
   beta <- p[4]
  -sum(dnorm(y,a+b*x,alpha+beta*x,log=T))
}

m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value
m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value
D <- 2*(m1-m2)
1-pchisq(D,df=1) # p-value
ergoter
la source
1
À propos de REML et AIC, vous devriez jeter un œil à cette question .
Elvis

Réponses:

13

Une réponse très courte: le REML est un ML, donc le test basé sur REML est correct de toute façon. L'estimation des paramètres de variance avec REML étant meilleure, il est naturel de l'utiliser.

Pourquoi REML est-il un ML? Considérons par exemple un modèle avec , , et est le vecteur des effets fixes, est le vecteur des effets aléatoires, et . La vraisemblance restreinte peut être obtenue en considérant les contrastes pour «supprimer» les effets fixes. Plus précisément, soit , tel que et (c'est-à-dire les colonnes deX R n × p Z R n × q β R p u N ( 0 , τ I q ) e N ( 0 , σ 2 I n ) n - p C R ( n - p ) × n C X

Y=Xβ+Zu+e
XRn×pZRn×qβRpuN(0,τIq)eN(0,σ2In)npCR(np)×nC C = I n - p C X C Y = C Z u + ϵ ϵ N ( 0 , σ 2 I n - p ) τ , σ 2 C YCX=0CC=InpCsont une base orthonormée de l'espace vectoriel orthognal à l'espace généré par les colonnes de ); alors avec , et la probabilité pour étant donné est la probabilité restreinte.X
CY=CZu+ϵ
ϵN(0,σ2Inp)τ,σ2CY
Elvis
la source
Bonne réponse (+1), ai-je raison de dire que la matrice dépend du modèle pour la moyenne? Vous ne pouvez donc comparer les estimations REML que pour la même matrice ? CCC
Oui, dépend de (je vais éditer la réponse dans une minute pour que ce soit clair), donc vos modèles imbriqués doivent avoir les mêmes variables avec des effets fixes. XCX
Elvis
REML n'est pas un ML! Le ML est défini de façon unique pour un modèle de probabilité donné, mais le REML dépend de la paramétrisation à effets fixes. Voir par exemple ce commentaire de Doug Bates (ainsi que de nombreux commentaires historiques sur les modèles mixtes R-SIG).
Livius
1
@Livius Je pense que ma réponse indique assez clairement comment la probabilité restreinte est construite. Il est probable, il est tout simplement pas la probabilité étant donné l'observé dans le modèle écrit dans la première équation affichée, mais étant donné le vecteur projeté dans le modèle écrit dans la deuxième équation affichée. Le REML est le ML obtenu à partir de cette probabilité. C YYCY
Elvis
2
Je pense que c'est un peu le but des protestations de DBates sur cette question: c'est un modèle différent, et c'est un modèle pour lequel les comparaisons sont difficiles parce que le modèle et le paramétrage sont entrelacés. Vous ne calculez donc pas le ML pour votre modèle d'origine mais le ML pour un modèle différent résultant d'une paramétrisation particulière de votre modèle d'origine. Par conséquent, les modèles REML équipés de structures à effets fixes imbriqués ne sont plus des modèles imbriqués (comme vous le mentionnez ci-dessus). Mais les modèles ajustés ML sont toujours imbriqués, car vous maximisez la probabilité sur le modèle spécifié.
Livius
9

Les tests de rapport de vraisemblance sont des tests d'hypothèses statistiques qui sont basés sur un rapport de deux probabilités. Leurs propriétés sont liées à l'estimation du maximum de vraisemblance (MLE). (voir par exemple Estimation du maximum de vraisemblance (MLE) en termes simples ).

Dans votre cas (voir question), vous voulez `` choisir '' parmi deux modèles var-covar imbriqués, disons que vous voulez choisir entre un modèle où le var-covar est et un modèle où le var-covar est où le second (modèle simple) est un cas particulier du premier (le général). Σ sΣgΣs

Le test est basé sur le rapport de vraisemblance Où et sont les estimateurs du maximum de vraisemblance.Σ s Σ gLR=2(log(Ls(Σ^s))log(Lg(Σ^g))Σ^sΣ^g

La statistique est asymptotiquement (!) . χ 2LR χ2

Les estimateurs du maximum de vraisemblance sont connus pour être cohérents, cependant, dans de nombreux cas, ils sont biaisés. C'est le cas des estimateurs MLE pour la variance, et , on peut montrer qu'ils sont biaisés. En effet, ils sont calculés à l'aide d'une moyenne dérivée des données, de sorte que l'écart autour de cette `` moyenne estimée '' est plus petit que l'écart autour de la vraie moyenne (voir par exemple l' explication intuitive de la division par lors du calcul de l'écart-type ? ) Σ gn-1Σ^sΣ^gn1

La statistique ci-dessus est dans les grands échantillons, ceci est simplement dû au fait que, dans les grands échantillons, et convergent vers leurs vraies valeurs (les MLE sont cohérents ). (Remarque: dans le lien ci-dessus, pour les très grands échantillons, la division par n ou par (n-1) ne fera aucune différence)χ 2 Σ s Σ gLRχ2Σ^sΣ^g

Pour des échantillons plus petits, le MLE estime de et sera biaisée et donc la distribution de s'écarter de , alors que les estimations REML donneront des estimations non biaisées pour et , donc si vous utilisez, pour la sélection du modèle var-covar, le REML estime alors le pour de plus petits échantillons sera mieux approximé par le .Σ^sΣ^gLRχ2ΣsΣgLRχ2

Notez que REML ne doit être utilisé que pour choisir parmi des structures var-covar imbriquées de modèles avec la même moyenne, pour les modèles avec des moyennes différentes, le REML n'est pas approprié, pour les modèles avec des moyens différents, il faut utiliser ML.


la source
L'énoncé "La statistique LR est asymptotiquement (!) Χ2" n'est pas vrai dans ce cas. En effet, si est imbriqué dans , alors est à la frontière de . Dans ce cas, la ne tient pas. Par exemple, voir iciΣsΣgΣsΣgχ2
Cliff AB
@Cliff AB, c'est ce qui est expliqué ci-dessous cette déclaration et c'est la raison pour laquelle vous devez utiliser REML.
-4

J'ai une réponse qui a plus à voir avec le bon sens qu'avec les statistiques. Si vous jetez un œil à PROC MIXED dans SAS, l'estimation peut être effectuée avec six méthodes:

http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_mixed_sect008.htm

mais REML est la valeur par défaut. Pourquoi? Apparemment, l'expérience pratique a montré qu'il avait les meilleures performances (par exemple, le moindre risque de problèmes de convergence). Par conséquent, si votre objectif est réalisable avec REML, il est logique d'utiliser REML par opposition aux cinq autres méthodes.

James
la source
2
Cela doit être lié à la «théorie des grands échantillons» et à la partialité des estimations du MLE, voir ma réponse.
1
"C'est la valeur par défaut dans SAS" n'est pas une réponse acceptable à une question "pourquoi" sur ce site.
Paul
Les valeurs de p pour les modèles mixtes fournis par SAS par défaut ne sont pas disponibles par conception dans la bibliothèque lme4 pour R car elles ne sont pas fiables ( stat.ethz.ch/pipermail/r-help/2006-May/094765.html ). Donc, "SAS par défaut" peut même être faux.
Tim