Comment comparer et / ou valider les modèles à effets mixtes?

22

Comment les modèles d'effets mixtes (linéaires) sont-ils normalement comparés les uns aux autres? Je sais que des tests de rapport de vraisemblance peuvent être utilisés, mais cela ne fonctionne pas si un modèle n'est pas un «sous-ensemble» de l'autre correct?

L'estimation des modèles df est-elle toujours simple? Nombre d'effets fixes + nombre de composantes de variance estimées? Ignorons-nous les estimations des effets aléatoires?

Et la validation? Ma première pensée est la validation croisée, mais les plis aléatoires peuvent ne pas fonctionner compte tenu de la structure des données. Une méthodologie consistant à «laisser un sujet / groupe en dehors» est-elle appropriée? Qu'en est-il de laisser une observation de côté?

Mallows Cp peut être interprété comme une estimation de l'erreur de prédiction des modèles. La sélection du modèle via AIC tente de minimiser l'erreur de prédiction (donc Cp et AIC devraient choisir le même modèle si les erreurs sont gaussiennes je crois). Cela signifie-t-il que l'AIC ou le Cp peuvent être utilisés pour choisir un modèle d'effets mixtes linéaires «optimal» à partir d'une collection de certains modèles non imbriqués en termes d'erreur de prédiction? (à condition qu'ils correspondent aux mêmes données) Le BIC est-il encore plus enclin à choisir le «vrai» modèle parmi les candidats?

J'ai également l'impression que lorsque nous comparons des modèles à effets mixtes via AIC ou BIC, nous ne comptons que les effets fixes comme des «paramètres» dans le calcul, pas les modèles réels df.

Existe-t-il une bonne littérature sur ces sujets? Vaut-il la peine d'étudier la cAIC ou la mAIC? Ont-ils une application spécifique en dehors de l'AIC?

dcl
la source
2
Qu'entendez-vous par application de cAIC ou mAIC "en dehors de AIC"? Le DIC est une mesure largement utilisée de la précision prédictive que vous pourriez étudier, qui tente de pénaliser par le nombre "effectif" de paramètres inclus dans le modèle multiniveau.
invité le
@ invité, je veux dire, ont-ils une utilisation spécifique, par exemple pour des types particuliers de modèles? Je vais vérifier DIC. Merci.
dcl

Réponses:

12

Le principal problème de la sélection des modèles dans les modèles mixtes est de définir véritablement les degrés de liberté (df) d'un modèle. Pour calculer df d'un modèle mixte, il faut définir le nombre de paramètres estimés incluant les effets fixes et aléatoires. Et ce n'est pas simple. Cet article de Jiming Jiang et al. (2008) intitulé "Méthodes de clôture pour la sélection de modèles mixtes" pourrait être appliqué dans de telles situations. Un nouveau travail connexe est celui de Greven, S. & Kneib, T. (2010) intitulé "Sur le comportement des AIC marginaux et conditionnels dans les modèles mixtes linéaires". J'espère que cela pourrait être utile.

hbaghishani
la source
Je vais vérifier ces papiers. À votre santé.
dcl
6

Une façon de comparer les modèles (mixtes ou non) consiste à tracer les résultats. Supposons que vous ayez le modèle A et le modèle B; produire les valeurs ajustées de chacun et les représenter graphiquement les uns par rapport aux autres dans un diagramme de dispersion. Si les valeurs sont très similaires (en utilisant votre jugement pour savoir si elles le sont), choisissez le modèle le plus simple. Une autre idée est de trouver les différences entre les valeurs ajustées et de les représenter graphiquement par rapport aux valeurs indépendantes; vous pouvez également faire un graphique de densité des différences. En général, je suis partisan de ne pas utiliser de tests statistiques pour comparer les modèles (bien que l'AIC et ses variantes aient certainement des vertus) mais plutôt d'utiliser le jugement. Bien sûr, cela a le (dés) avantage de ne pas donner de réponses précises.

Peter Flom - Réintégrer Monica
la source
Ce que vous décrivez, c'est simplement de comparer les modèles lorsque l'objectif principal est leur capacité prédictive. De plus, les résultats graphiques pourraient être très instructifs pour orienter celui qui peut être utile, mais, en général, ce ne sont pas des résultats scientifiques entièrement formels.
hbaghishani
2
Salut @hbaghishani; Je citerai simplement Tukey "Il vaut bien mieux une réponse approximative à la bonne question, qui est souvent vague, qu'une réponse exacte à la mauvaise question, qui peut toujours être précisée." :-). Ce n'est pas complètement à propos ici, mais il est au moins partiellement sur la cible
Peter Flom - Réintégrer Monica
1
Je fais généralement des parcelles comme vous le décrivez lors de la construction de modèles. Mais je cherchais en effet une méthode plus «mathématique». Acclamations
dcl
Si je compare différents modèles en fonction des performances prédictives, je crois comprendre que les valeurs prédites pour les modèles mixtes avec et sans effets aléatoires doivent être identiques (c.-à-d. Que les coefficients de régression seront non biaisés dans les modèles avec et sans effets aléatoires, seules les erreurs standard changent).
RobertF