Diverses descriptions sur la sélection des modèles sur les effets aléatoires des modèles mixtes linéaires indiquent l'utilisation de REML. Je connais la différence entre REML et ML à un certain niveau, mais je ne comprends pas pourquoi REML devrait être utilisé parce que ML est biaisé. Par exemple, est-ce mal de conduire un TLR sur un paramètre de variance d'un modèle de distribution normal en utilisant ML (voir le code ci-dessous)? Je ne comprends pas pourquoi il est plus important d'être impartial que d'être ML, dans la sélection des modèles. Je pense que la réponse ultime doit être "parce que la sélection de modèle fonctionne mieux avec REML qu'avec ML" mais j'aimerais en savoir un peu plus. Je n'ai pas lu les dérivations de LRT et AIC (je ne suis pas assez bon pour les comprendre à fond), mais si REML est explicitement utilisé dans les dérivations, sachant simplement que ce sera réellement suffisant (par exemple,
n <- 100
a <- 10
b <- 1
alpha <- 5
beta <- 1
x <- runif(n,0,10)
y <- rnorm(n,a+b*x,alpha+beta*x)
loglik1 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
-sum(dnorm(y,a+b*x,alpha,log=T))
}
loglik2 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
beta <- p[4]
-sum(dnorm(y,a+b*x,alpha+beta*x,log=T))
}
m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value
m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value
D <- 2*(m1-m2)
1-pchisq(D,df=1) # p-value
Réponses:
Une réponse très courte: le REML est un ML, donc le test basé sur REML est correct de toute façon. L'estimation des paramètres de variance avec REML étant meilleure, il est naturel de l'utiliser.
Pourquoi REML est-il un ML? Considérons par exemple un modèle avec , , et est le vecteur des effets fixes, est le vecteur des effets aléatoires, et . La vraisemblance restreinte peut être obtenue en considérant les contrastes pour «supprimer» les effets fixes. Plus précisément, soit , tel que et (c'est-à-dire les colonnes deX ∈ R n × p Z ∈ R n × q β ∈ R p u ∼ N ( 0 , τ I q ) e ∼ N ( 0 , σ 2 I n ) n - p C ∈ R ( n - p ) × n C X
la source
Les tests de rapport de vraisemblance sont des tests d'hypothèses statistiques qui sont basés sur un rapport de deux probabilités. Leurs propriétés sont liées à l'estimation du maximum de vraisemblance (MLE). (voir par exemple Estimation du maximum de vraisemblance (MLE) en termes simples ).
Dans votre cas (voir question), vous voulez `` choisir '' parmi deux modèles var-covar imbriqués, disons que vous voulez choisir entre un modèle où le var-covar est et un modèle où le var-covar est où le second (modèle simple) est un cas particulier du premier (le général). Σ sΣg Σs
Le test est basé sur le rapport de vraisemblance Où et sont les estimateurs du maximum de vraisemblance.Σ s Σ gLR=−2(log(Ls(Σ^s))−log(Lg(Σ^g)) Σ^s Σ^g
La statistique est asymptotiquement (!) . χ 2LR χ2
Les estimateurs du maximum de vraisemblance sont connus pour être cohérents, cependant, dans de nombreux cas, ils sont biaisés. C'est le cas des estimateurs MLE pour la variance, et , on peut montrer qu'ils sont biaisés. En effet, ils sont calculés à l'aide d'une moyenne dérivée des données, de sorte que l'écart autour de cette `` moyenne estimée '' est plus petit que l'écart autour de la vraie moyenne (voir par exemple l' explication intuitive de la division par lors du calcul de l'écart-type ? ) Σ gn-1Σ^s Σ^g n−1
La statistique ci-dessus est dans les grands échantillons, ceci est simplement dû au fait que, dans les grands échantillons, et convergent vers leurs vraies valeurs (les MLE sont cohérents ). (Remarque: dans le lien ci-dessus, pour les très grands échantillons, la division par n ou par (n-1) ne fera aucune différence)χ 2 Σ s Σ gLR χ2 Σ^s Σ^g
Pour des échantillons plus petits, le MLE estime de et sera biaisée et donc la distribution de s'écarter de , alors que les estimations REML donneront des estimations non biaisées pour et , donc si vous utilisez, pour la sélection du modèle var-covar, le REML estime alors le pour de plus petits échantillons sera mieux approximé par le .Σ^s Σ^g LR χ2 Σs Σg LR χ2
Notez que REML ne doit être utilisé que pour choisir parmi des structures var-covar imbriquées de modèles avec la même moyenne, pour les modèles avec des moyennes différentes, le REML n'est pas approprié, pour les modèles avec des moyens différents, il faut utiliser ML.
la source
J'ai une réponse qui a plus à voir avec le bon sens qu'avec les statistiques. Si vous jetez un œil à PROC MIXED dans SAS, l'estimation peut être effectuée avec six méthodes:
http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_mixed_sect008.htm
mais REML est la valeur par défaut. Pourquoi? Apparemment, l'expérience pratique a montré qu'il avait les meilleures performances (par exemple, le moindre risque de problèmes de convergence). Par conséquent, si votre objectif est réalisable avec REML, il est logique d'utiliser REML par opposition aux cinq autres méthodes.
la source