Dans un modèle à effets mixtes, la recommandation consiste à utiliser un effet fixe pour estimer un paramètre si tous les niveaux possibles sont inclus (par exemple, hommes et femmes). Il est en outre recommandé d'utiliser un effet aléatoire pour tenir compte d'une variable si les niveaux inclus ne sont qu'un échantillon aléatoire d'une population (patients inscrits de l'univers des patients possibles) et que vous souhaitez estimer la moyenne et la variance de la population au lieu des moyennes des niveaux de facteurs individuels.
Je me demande si vous êtes logiquement obligé de toujours utiliser un effet fixe de cette manière. Envisagez une étude sur la façon dont la taille du pied / de la chaussure change au cours du développement et est liée, par exemple, à la taille, au poids et à l'âge. doit clairement être inclus dans le modèle pour tenir compte du fait que les mesures au fil des ans sont imbriquées dans un pied donné et ne sont pas indépendantes. De plus, droite et gauche sont toutes les possibilités qui peuvent exister. De plus, il peut être très vrai que pour un participant donné, son pied droit est plus grand (ou plus petit) que son gauche. Cependant, bien que la taille des pieds diffère quelque peu entre les pieds pour toutes les personnes, il n'y a aucune raison de croire que les pieds droits seront en moyenne plus grands que les pieds gauches. S'ils sont dans votre échantillon, cela est probablement dû à quelque chose sur la génétique des personnes de votre échantillon, plutôt qu'à quelque chose d'intrinsèque au pied droit. Enfin, semble être un paramètre de nuisance, pas quelque chose qui vous tient vraiment à cœur.
Permettez-moi de noter que j'ai inventé cet exemple. Ce n'est peut-être pas bon; c'est juste pour faire passer l'idée. Pour autant que je sache, avoir un gros pied droit et un petit pied gauche était nécessaire pour survivre au paléolithique.
Dans un cas comme celui-ci, serait-il (plus / moins / tout) logique d'incorporer dans le modèle comme un effet aléatoire? Quels seraient les avantages et les inconvénients de l'utilisation d'un effet fixe ou aléatoire ici?
la source
Réponses:
Le problème général des effets «fixes» et «aléatoires» est qu'ils ne sont pas définis de manière cohérente. Andrew Gelman en cite plusieurs:
et constate qu'ils ne sont pas cohérents. Dans son livre Data Analysis Using Regression and Multilevel / Hierarchical Models, il évite généralement d'utiliser ces termes et dans leur travail, il se concentre sur les interceptions et les pentes fixes ou variables entre les groupes parce que
Cela est particulièrement vrai avec le cadre bayésien - couramment utilisé pour les modèles mixtes - où tous les effets sont aléatoires en soi. Si vous pensez bayésien, vous n'êtes pas vraiment préoccupé par les effets "fixes" et les estimations ponctuelles et vous n'avez aucun problème à traiter tous les effets comme aléatoires.
Plus je lis sur ce sujet, plus je suis convaincu qu'il s'agit plutôt d'une discussion idéologique sur ce que nous pouvons (ou devons) estimer et ce que nous ne pouvons que prédire (ici je pourrais également me référer à votre propre réponse ). Vous utilisez des effets aléatoires si vous avez un échantillon aléatoire de résultats possibles, vous n'êtes donc pas préoccupé par les estimations individuelles et vous vous souciez plutôt des effets sur la population, puis sur les individus. La réponse à votre question dépend donc aussi de ce que vous pensez si vous voulez ou pouvez estimer les effets fixes compte tenu de vos données. Si tous les niveaux possibles sont inclus dans vos données, vous pouvezestimer les effets fixes - aussi, comme dans votre exemple, le nombre de niveaux pourrait être petit et ce ne serait généralement pas bon pour estimer les effets aléatoires et il y a des exigences minimales pour cela .
Argument du meilleur scénario
Supposons que vous ayez des quantités illimitées de données et une puissance de calcul illimitée. Dans ce cas, vous pourriez imaginer estimer chaque effet comme fixe, car les effets fixes vous donnent plus de flexibilité (nous permettent de comparer les effets individuels). Cependant, même dans ce cas, la plupart d'entre nous hésiteraient à utiliser des effets fixes pour tout.
Par exemple, imaginez que vous souhaitez modéliser les résultats des examens des écoles d'une région et que vous disposez de données sur les 100 écoles de la région. Dans ce cas , vous pouvez les écoles de menace Déterminée - puisque vous avez des données sur tous les niveaux - mais dans la pratique , vous auriez probablement plutôt penser à eux comme au hasard. Pourquoi donc?
L'une des raisons est qu'en général, dans ce type de cas, vous n'êtes pas intéressé par les effets de chaque école (et il est difficile de les comparer tous), mais plutôt par une variabilité générale entre les écoles.
Un autre argument ici est la parcimonie du modèle. En général, vous n'êtes pas intéressé par le modèle «toutes les influences possibles», donc dans votre modèle, vous incluez peu d'effets fixes que vous souhaitez tester et contrôler pour les autres sources possibles de variabilité. Cela rend les modèles à effets mixtes adaptés à la façon générale de penser à la modélisation statistique où vous estimez quelque chose et contrôlez pour d'autres choses. Avec des données compliquées (multiniveaux ou hiérarchiques), vous avez de nombreux effets à inclure, vous en menacez donc certains comme «fixes» et d'autres comme «aléatoires» afin de les contrôler.
Dans ce scénario, vous ne penseriez pas non plus aux écoles comme chacune ayant sa propre et unique influence sur les résultats, mais plutôt aux écoles ayant une certaine influence en général. Cet argument serait donc que nous pensons qu'il n'est pas vraiment possible d'estimer les effets uniques de chaque école et nous les menaçons donc comme un échantillon aléatoire des effets possibles des écoles.
Les modèles d'effets mixtes se situent quelque part entre les scénarios «tout fixe» et «tout aléatoire». Les données que nous rencontrons nous font baisser nos attentes à propos de tout estimer comme des effets fixes, nous décidons donc quels effets nous voulons comparer et quels effets nous voulons contrôler, ou avons un sentiment général sur leur influence. Il ne s'agit pas seulement de ce que sont les données, mais aussi de la façon dont nous pensons aux données tout en les modélisant.
la source
Résumé
On dit en effet souvent que si tous les niveaux de facteurs possibles sont inclus dans un modèle mixte, alors ce facteur doit être traité comme un effet fixe. Ce n'est pas nécessairement vrai POUR DEUX RAISONS DISTINCTES:
(1) Si le nombre de niveaux est élevé, il peut être judicieux de traiter le facteur [croisé] comme aléatoire.
Je suis d'accord avec @Tim et @RobertLong ici: si un facteur a un grand nombre de niveaux qui sont tous inclus dans le modèle (comme par exemple tous les pays du monde; ou toutes les écoles d'un pays; ou peut-être la population entière de les sujets sont sondés, etc.), alors il n'y a rien de mal à le traiter comme aléatoire --- cela pourrait être plus parcimonieux, pourrait fournir un certain rétrécissement, etc.
(2) Si le facteur est imbriqué dans un autre effet aléatoire, alors il doit être traité comme aléatoire, indépendamment de son nombre de niveaux.
Il y avait une énorme confusion dans ce fil (voir les commentaires) parce que les autres réponses concernent le cas # 1 ci-dessus, mais l'exemple que vous avez donné est un exemple d'une situation différente , à savoir ce cas # 2. Ici, il n'y a que deux niveaux (c'est-à-dire pas du tout "un grand nombre"!) Et ils épuisent toutes les possibilités, mais ils sont imbriqués dans un autre effet aléatoire , produisant un effet aléatoire imbriqué.
Discussion détaillée de votre exemple
Les côtés et les sujets de votre expérience imaginaire sont liés comme les classes et les écoles dans l'exemple de modèle hiérarchique standard. Peut-être que chaque école (# 1, # 2, # 3, etc.) a une classe A et une classe B, et ces deux classes sont censées être à peu près les mêmes. Vous ne modéliserez pas les classes A et B comme un effet fixe avec deux niveaux; Ce serait une erreur. Mais vous ne modéliserez pas non plus les classes A et B comme un effet aléatoire "séparé" (c'est-à-dire croisé) avec deux niveaux; ce serait aussi une erreur. Au lieu de cela, vous modéliserez les classes comme un effet aléatoire imbriqué à l' intérieur des écoles.
Voir ici: Effets aléatoires croisés vs imbriqués: en quoi diffèrent-ils et comment sont-ils correctement spécifiés dans lme4?
Comme vous l'avez écrit vous-même, "il n'y a aucune raison de croire que le pied droit sera en moyenne plus grand que le pied gauche". Il ne devrait donc pas y avoir d'effet "global" (ni fixe ni croisé au hasard) du pied droit ou gauche du tout; à la place, chaque sujet peut être pensé comme ayant «un» pied et «un autre» pied, et cette variabilité devrait être incluse dans le modèle. Ces pieds "un" et "un autre" sont imbriqués dans les sujets, d'où des effets aléatoires imbriqués.
Plus de détails en réponse aux commentaires. [26 sept.]
Mon modèle ci-dessus inclut Side comme effet aléatoire imbriqué dans Subjects. Voici un modèle alternatif, proposé par @Robert, où Side est un effet fixe:
Ça ne peut pas.
Il en va de même pour le modèle hypothétique de @ gung avec Side comme effet aléatoire croisé:
Il ne tient pas compte non plus des dépendances.
Démonstration via une simulation [2 octobre]
Voici une démonstration directe dans R.
Je génère un ensemble de données de jouets avec cinq sujets mesurés sur les deux pieds pendant cinq années consécutives. L'effet de l'âge est linéaire. Chaque sujet a une interception aléatoire. Et chaque sujet a un des pieds (gauche ou droit) plus grand qu'un autre.
Toutes mes excuses pour mes terribles compétences en R. Voici à quoi ressemblent les données (chaque cinq points consécutifs représente un pied d'une personne mesuré au fil des ans; chaque dix points consécutifs représente deux pieds de la même personne):
Maintenant, nous pouvons adapter un tas de modèles:
Tous les modèles incluent un effet fixe
age
et un effet aléatoire desubject
, mais traitentside
différemment.side
age
side
age
side
age
Cela montre clairement que cela
side
devrait être traité comme un effet aléatoire imbriqué.Enfin, dans les commentaires, @Robert a suggéré d'inclure l'effet global de
side
comme variable de contrôle. Nous pouvons le faire, tout en conservant l'effet aléatoire imbriqué:side
side
la source
side
répond à l'une des définitions / directives habituelles de quand un facteur doit être traité comme aléatoire ou fixe. En particulier, faire des inférences au-delà des niveaux échantillonnés du facteur n'a pas de sens. De plus, avec seulement 2 niveaux du facteur, le traiter comme fixe semble une manière simple et sans ambiguïté d'approcher la modélisation.side
comme un effet fixe signifie supposer que l'un des côtés (par exemple à droite) est toujours plus grand que l'autre (à gauche), d'une certaine quantité. Ce montant est le même pour tous. Ce n'est explicitement pas ce que le PO avait en tête. Il a écrit que chez certaines personnes, la droite pouvait être plus grande et chez d'autres, la gauche. Cependant, nous devons tenir compte de laside
raison des erreurs corrélées. Pourquoi ne pouvons-nous pas alors traiter comme un effet aléatoire imbriqué? C'est exactement comme les cours dans les écoles.Pour ajouter aux autres réponses:
Je ne pense pas que vous soyez logiquement obligé de toujours utiliser un effet fixe de la manière décrite dans le PO. Même lorsque les définitions / lignes directrices habituelles sur le moment de traiter un facteur comme aléatoire ne sont pas respectées, je pourrais être enclin à le modéliser comme aléatoire lorsqu'il existe un grand nombre de niveaux, de sorte que le traitement du facteur comme fixe consomme de nombreux degrés de liberté et aboutir à un modèle encombrant et moins parcimonieux.
la source
side
soit comme fixe, soit comme un effet aléatoire croisé signifie nécessairement supposer que l’un des côtés (par exemple à droite) est toujours plus grand que l’autre (à gauche), pour tous les sujets. Ce n'est explicitement pas ce que Gung a écrit dans son OP, déclarant qu '"il n'y a aucune raison de croire que les pieds droits seront en moyenne plus grands que les pieds gauches". Je considère toujours l'exemple de Gung comme un argument clair pour un effet aléatoire imbriqué, en pleine analogie avec les classes au sein des écoles.Si vous parlez de la situation où vous connaissez tous les niveaux possibles d'un facteur d'intérêt et avez également des données pour estimer les effets, alors vous n'avez certainement pas besoin de représenter des niveaux avec des effets aléatoires.
La raison pour laquelle vous souhaitez définir un effet aléatoire sur un facteur est que vous souhaitez faire une inférence sur les effets de tous les niveaux de ce facteur, qui sont généralement inconnus. Pour faire ce genre d'inférence, vous imposez l'hypothèse que les effets de tous les niveaux forment une distribution normale en général. Mais étant donné votre problème, vous pouvez estimer les effets de tous les niveaux. Ensuite, il n'est certainement pas nécessaire de définir des effets aléatoires et d'imposer des hypothèses supplémentaires.
C'est comme dans la situation où vous pouvez obtenir toutes les valeurs de la population (vous connaissez donc la vraie moyenne), mais vous essayez de prendre un grand échantillon de la population et d'utiliser le théorème de la limite centrale pour approximer la distribution d'échantillonnage, puis faire l'inférence sur la vraie moyenne.
la source