J'utilise un modèle mixte dans R
( lme4
) pour analyser certaines données de mesures répétées. J'ai une variable de réponse (teneur en fibres des matières fécales) et 3 effets fixes (masse corporelle, etc.). Mon étude ne compte que 6 participants, avec 16 mesures répétées pour chacun (même si deux n'ont que 12 répétitions). Les sujets sont des lézards qui ont reçu différentes combinaisons d'aliments dans différents «traitements».
Ma question est: puis-je utiliser l'ID de sujet comme un effet aléatoire?
Je sais que c'est la ligne de conduite habituelle dans les modèles longitudinaux à effets mixtes, pour tenir compte de la nature échantillonnée au hasard des sujets et du fait que les observations au sein des sujets seront plus étroitement corrélées que celles entre les sujets. Mais, traiter l'ID du sujet comme un effet aléatoire implique d'estimer une moyenne et une variance pour cette variable.
Comme je n'ai que 6 sujets (6 niveaux de ce facteur), est-ce suffisant pour obtenir une caractérisation précise de la moyenne et de la variance?
Le fait d'avoir plusieurs mesures répétées pour chaque sujet aide-t-il à cet égard (je ne vois pas en quoi cela est important)?
Enfin, si je ne peux pas utiliser l'ID de sujet comme effet aléatoire, l'inclure comme effet fixe me permettra-t-il de contrôler le fait que j'ai des mesures répétées?
Edit: Je voudrais juste préciser que lorsque je dis "puis-je" utiliser l'ID du sujet comme un effet aléatoire, je veux dire "est-ce une bonne idée de". Je sais que je peux adapter le modèle avec un facteur avec seulement 2 niveaux, mais ce serait sûrement in défendable? Je demande à quel moment devient-il raisonnable de penser à traiter les sujets comme des effets aléatoires? Il semble que la littérature indique que 5-6 niveaux est une limite inférieure. Il me semble que les estimations de la moyenne et de la variance de l'effet aléatoire ne seraient pas très précises tant qu'il n'y aurait pas plus de 15 facteurs.
la source
Angrist et Pischke "Mostly Harmless Econometrics" a une section intitulée "Moins de 42 grappes", dans laquelle ils disent en plaisantant à moitié,
Par conséquent, suivant le ... dicton selon lequel la réponse à la vie, à l'univers et à tout est 42, nous pensons que la question est: combien de grappes suffisent pour une inférence fiable en utilisant l'ajustement de grappe standard [semblable à l'estimateur de variance dans GEE]?
La façon dont mon professeur d'économétrie répondait à des questions comme la vôtre est la suivante: «L'Amérique est un pays libre, vous pouvez faire ce que vous voulez. Mais si vous voulez que votre article soit publié, vous devez être en mesure de défendre ce que vous avez fait. " En d'autres termes, vous pourrez probablement exécuter le code R ou Stata ou HLM ou Mplus ou SAS PROC GLIMMIX avec 6 sujets (et basculer vers ces packages alternatifs si celui de votre choix ne le fait pas), mais vous aurez probablement moment très difficile pour défendre cette approche et justifier des tests asymptotiques.
Je crois que par défaut, inclure une variable comme une pente aléatoire implique également l'inclure comme un effet fixe, et vous devez sauter à travers beaucoup de cercles de syntaxe si vous voulez seulement avoir cela comme un effet aléatoire avec la moyenne de zéro. C'est un choix judicieux que les développeurs de logiciels ont fait pour vous.
la source
Vous pouvez également utiliser un modèle mixte bayésien - dans ce cas, l'incertitude dans l'estimation des effets aléatoires est entièrement prise en compte dans le calcul des intervalles crédibles de prédiction à 95%. Le nouveau package
brms
et la nouvelle fonction Rbrm
, par exemple, permettent une transition très facile d'unlme4
modèle mixte fréquentiste à un modèle bayésien, car sa syntaxe est presque identique.la source
Je n'utiliserais pas un modèle à effets aléatoires avec seulement 6 niveaux. Les modèles utilisant un effet aléatoire à 6 niveaux peuvent parfois être exécutés à l'aide de nombreux programmes statistiques et donnent parfois des estimations non biaisées, mais:
Ce problème est abordé dans la plupart des manuels standard dans le domaine et vous les avez en quelque sorte abordés dans votre question. Je ne pense pas que je vous donne de nouvelles informations.
la source
lme4
les modèles mixtes et je les exécute souvent sur des tailles d'échantillons similaires à l'OP (je travaille également avec des ensembles de données de biologie).Cela fait longtemps que la question d'origine n'a pas été posée, mais j'ai pensé ajouter quelques points pertinents à la sélection des modèles.
1 - Tant que le modèle est identifié (c'est-à-dire que vous avez des degrés de liberté dans l'espace des paramètres), vous devriez pouvoir ESSAYER pour s'adapter au modèle. Selon la méthode d'optimisation, le modèle peut converger ou non. En tout cas, je n'essaierais pas d'inclure plus de 1 ou 2 effets aléatoires et certainement pas plus d'une interaction croisée. Dans le cas spécifique du problème présenté ici, si nous soupçonnons une interaction entre les caractéristiques spécifiques du lézard (par exemple, l'âge, la taille, etc.) et les caractéristiques du traitement / mesure, la taille du groupe 6 peut ne pas être suffisante pour faire des estimations suffisamment précises.
2 - Comme quelques réponses le mentionnent, la convergence peut être un problème. Cependant, mon expérience est que, alors que les données des sciences sociales ont un énorme problème de convergence en raison de problèmes de mesure, les sciences de la vie et en particulier les mesures répétées biochimiques ont des erreurs standard beaucoup plus petites. Tout dépend du processus de génération des données. Dans les données sociales et économiques, nous devons travailler à différents niveaux d'abstraction. Dans les erreurs de mesure des données biologiques et chimiques et très certainement astronomiques, c'est moins un problème.
la source