Cette question / sujet a été soulevé lors d'une discussion avec un collègue et je cherchais des opinions à ce sujet:
Je modélise certaines données en utilisant une régression logistique à effets aléatoires, plus précisément une régression logistique à interception aléatoire. Pour les effets fixes, j'ai 9 variables qui sont intéressantes et qui entrent en ligne de compte. Je voudrais faire une sorte de sélection de modèle pour trouver les variables qui sont significatives et donner le «meilleur» modèle (effets principaux uniquement).
Ma première idée était d'utiliser l'AIC pour comparer différents modèles mais avec 9 variables je n'étais pas trop excitant pour comparer 2 ^ 9 = 512 modèles différents (mot-clé: dragage de données).
J'en ai discuté avec un collègue et il m'a dit qu'il se souvenait d'avoir lu sur l'utilisation de la sélection de modèle pas à pas (ou en avant) avec les GLMM. Mais au lieu d'utiliser une valeur de p (par exemple basée sur un test de rapport de vraisemblance pour les GLMM), on devrait utiliser l'AIC comme critère d'entrée / sortie.
J'ai trouvé cette idée très intéressante, mais je n'ai trouvé aucune référence qui en ait discuté davantage et mon collègue ne se souvenait pas où il l'avait lue. De nombreux livres suggèrent d'utiliser l'AIC pour comparer les modèles, mais je n'ai trouvé aucune discussion sur l'utilisation de cela avec une procédure de sélection de modèle pas à pas ou vers l'avant.
J'ai donc essentiellement deux questions:
Y a-t-il quelque chose de mal à utiliser l'AIC dans une procédure de sélection de modèle pas à pas comme critère d'entrée / sortie? Si oui, quelle serait l'alternative?
Avez-vous des références qui discutent de la procédure ci-dessus (également comme référence pour un rapport final?
Meilleur,
Emilia
Réponses:
La sélection pas à pas est erronée dans les modèles multiniveaux pour les mêmes raisons qu'elle est erronée dans la régression "régulière": les valeurs de p seront trop faibles, les erreurs standard trop petites, les estimations des paramètres biaisées loin de 0, etc. Plus important encore, cela vous nie l'occasion de réfléchir.
9 Les IV ne sont pas si nombreuses. Pourquoi avez-vous choisi ces 9? Vous aviez sûrement une raison.
Une première chose à faire est de regarder beaucoup de parcelles; lesquelles précises dépendent un peu du fait que vos données soient longitudinales (auquel cas les graphiques avec le temps sur l'axe des x sont souvent utiles) ou groupés. Mais regardez sûrement les relations entre les 9 IV et votre DV (les tracés parallèles sont une possibilité simple).
L'idéal serait de construire quelques modèles basés sur le sens substantiel et de les comparer en utilisant AIC, BIC ou une autre mesure. Mais ne soyez pas surpris si aucun modèle particulier ne ressort aussi clairement. Vous ne dites pas dans quel domaine vous travaillez, mais dans de nombreux domaines (la plupart?), La nature est compliquée. Plusieurs modèles peuvent s'adapter à peu près aussi bien et un modèle différent peut mieux s'adapter à un ensemble de données différent (même si les deux sont des échantillons aléatoires de la même population).
Quant aux références - il y a beaucoup de bons livres sur les modèles mixtes non linéaires. Le choix qui vous convient le mieux dépend a) du domaine dans lequel vous vous trouvez b) de la nature des données c) du logiciel que vous utilisez.
Répondre à votre commentaire
Si les 9 variables sont scientifiquement importantes, j'envisagerais au moins de les inclure toutes. Si une variable que tout le monde considère comme importante finit par avoir un petit effet, c'est intéressant.
Tracez certainement toutes vos variables au fil du temps et de différentes manières.
Pour les problèmes généraux concernant les modèles longitudinaux à plusieurs niveaux, j'aime Hedeker et Gibbons ; pour les modèles longitudinaux non linéaires en SAS, j'aime Molenberghs et Verbeke . La documentation SAS elle-même (pour
PROC GLIMMIX
) fournit également des conseils.la source
La sélection du modèle peut être mieux effectuée en utilisant des méthodes de retrait telles que LASSO. Les méthodes pas à pas sont trop libérales. Une justification peut être trouvée dans la page Web de Tibshirani. Si vous utilisez R, il existe un package appelé
glmmLasso
qui permet la sélection du modèle dans les modèles d'effets mixtes linéaires généralisés en utilisant la méthode de rétrécissement LASSO.la source
Une bonne référence pour la sélection de modèles mixtes basée sur AIC dans R (également valable pour les nuls) serait Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,
la source