Quand utiliser le modèle à effets mixtes?

11

Les modèles d'effets mixtes linéaires sont des extensions des modèles de régression linéaire pour les données collectées et résumées en groupes. Les principaux avantages sont que les coefficients peuvent varier par rapport à une ou plusieurs variables de groupe.

Cependant, je me bats avec quand utiliser le modèle à effets mixtes? Je développerai mes questions en utilisant un exemple de jouet avec des cas extrêmes.

Supposons que nous voulons modéliser la taille et le poids des animaux et que nous utilisons les espèces comme variable de regroupement.

  • Si différents groupes / espèces sont vraiment différents. Dites un chien et un éléphant. Je pense qu'il est inutile d'utiliser un modèle à effets mixtes, nous devrions construire un modèle pour chaque groupe.

  • Si différents groupes / espèces sont vraiment similaires. Dites une chienne et un mâle. Je pense que nous pouvons vouloir utiliser le genre comme variable catégorielle dans le modèle.

Donc, je suppose que nous devrions utiliser un modèle à effets mixtes dans les cas intermédiaires? Disons que le groupe est un chat, un chien, un lapin, ce sont des animaux de taille similaire mais différents.

Y a-t-il un argument formel pour suggérer quand utiliser le modèle à effets mixtes, c'est-à-dire comment tracer des lignes

  1. Construire des modèles pour chaque groupe
  2. Modèle à effets mixtes
  3. Utiliser le groupe comme variable catégorielle dans la régression

Ma tentative: la méthode 1 est le "modèle le plus complexe" / moins de degré de liberté et la méthode 3 est le "modèle le plus simple" / plus de degré de liberté. Et le modèle à effets mixtes est au milieu. Nous pouvons considérer la quantité de données et la complexité des données dont nous disposons pour sélectionner le bon modèle selon Bais Variance Trade Off.

Haitao Du
la source
5
Ceci est discuté dans beaucoup de discussions sur ce forum. En avez-vous cherché? Notez que votre option avec "variable catégorielle" est ce qu'on appelle un "effet fixe" (de variable de regroupement), alors que ce que vous entendez par "utiliser un modèle mixte" utilise un "effet aléatoire". Donc, ce que vous demandez, c'est quand utiliser fixe et quand utiliser l'effet aléatoire. Il existe différentes opinions sur cette question, et vous pouvez trouver de nombreuses discussions ici sur CV. Je pourrais poster quelques liens plus tard.
amoeba
De plus, la différence entre «construire des modèles séparés» et «utiliser une variable catégorielle» n'est pas claire pour moi. activity ~ condition + species + condition*species- ceci utilise speciescomme variable catégorielle, mais cela équivaut à une régression distincte activity ~ conditionpour chaque espèce séparément.
amoeba
2
Vérifiez ce fil: stats.stackexchange.com/questions/120964/… , il ne répond pas directement à votre question, mais fournit une discussion qui est étroitement liée à votre question.
Tim
3
Eh bien, avez-vous lu stats.stackexchange.com/a/151800/28666 , pour commencer?
amoeba
2
"Si différents groupes / espèces sont vraiment différents. Dites un chien et un éléphant. Je pense qu'il est inutile d'utiliser un modèle à effets mixtes, nous devrions construire un modèle pour chaque groupe." Cela n'est vraiment vrai que si vous vous attendez à ce que les effets de toutes les autres caractéristiques diffèrent selon les espèces. C'est, dans la plupart des situations, une hypothèse trop libérale.
Matthew Drury

Réponses:

8

J'ai peur d'avoir la réponse nuancée et peut-être insatisfaisante qu'il s'agit d'un choix subjectif du chercheur ou de l'analyste de données. Comme mentionné ailleurs dans ce fil, il ne suffit pas de simplement dire que les données ont une "structure imbriquée". Pour être juste, cependant, c'est le nombre de livres qui décrivent quand utiliser des modèles à plusieurs niveaux. Par exemple, je viens de retirer le livre Multilevel Analysis de Joop Hox de ma bibliothèque, ce qui donne cette définition:

Un problème à plusieurs niveaux concerne une population à structure hiérarchique.

Même dans un très bon manuel, la définition initiale semble être circulaire. Je pense que cela est en partie dû à la subjectivité de déterminer quand utiliser quel type de modèle (y compris un modèle à plusieurs niveaux).

Un autre livre, West, Welch, & Galecki's Linear Mixed Models, dit que ces modèles sont pour:

variables de résultat dans lesquelles les résidus sont normalement distribués mais peuvent ne pas être indépendants ou avoir une variance constante. Les plans d'études menant à des ensembles de données qui peuvent être analysés de manière appropriée à l'aide de LMM comprennent (1) des études avec des données en grappes, telles que les élèves en classe, ou des plans expérimentaux avec des blocs aléatoires, tels que des lots de matières premières pour un processus industriel, et (2) études longitudinales ou à mesures répétées, dans lesquelles les sujets sont mesurés de manière répétée dans le temps ou dans différentes conditions.

Finch, Bolin, & Kelley Multilevel Modeling in R parle également de la violation de l'hypothèse iid et des résidus corrélés:

L'hypothèse [dans la régression standard] de termes d'erreur distribués indépendamment pour les observations individuelles dans un échantillon est particulièrement importante dans le contexte de la modélisation à plusieurs niveaux. Cette hypothèse signifie essentiellement qu'il n'y a pas de relations entre les individus de l'échantillon pour la variable dépendante une fois que les variables indépendantes de l'analyse sont prises en compte.

Je pense qu'un modèle à plusieurs niveaux a du sens lorsqu'il y a lieu de croire que les observations ne sont pas nécessairement indépendantes les unes des autres. Quel que soit le «cluster» qui explique cette non-indépendance, on peut le modéliser.

Un exemple évident serait les enfants dans les salles de classe - ils interagissent tous les uns avec les autres, ce qui pourrait conduire à ce que leurs résultats aux tests ne soient pas indépendants. Que se passe-t-il si une classe a quelqu'un qui pose une question qui conduit à ce que le matériel soit couvert dans cette classe qui ne l'est pas dans d'autres classes? Et si l'enseignant est plus éveillé pour certaines classes que pour d'autres? Dans ce cas, il y aurait une certaine non-indépendance des données; en termes multiniveaux, nous pourrions nous attendre à ce qu'une certaine variance de la variable dépendante soit due à la grappe (c.-à-d. la classe).

Votre exemple d'un chien contre un éléphant dépend des variables d'intérêt indépendantes et dépendantes, je pense. Par exemple, disons que nous demandons s'il y a un effet de la caféine sur le niveau d'activité. Les animaux de partout dans le zoo sont assignés au hasard pour obtenir une boisson contenant de la caféine ou une boisson témoin.

Si nous sommes un chercheur qui s'intéresse à la caféine, nous pourrions spécifier un modèle à plusieurs niveaux, car nous nous soucions vraiment de l'effet de la caféine. Ce modèle serait spécifié comme suit:

activity ~ condition + (1+condition|species)

Cela est particulièrement utile s'il existe un grand nombre d'espèces sur lesquelles nous testons cette hypothèse. Cependant, un chercheur pourrait être intéressé par les effets spécifiques à l'espèce de la caféine. Dans ce cas, ils pourraient spécifier les espèces comme un effet fixe:

activity ~ condition + species + condition*species

C'est évidemment un problème s'il y a, disons, 30 espèces, créant une conception 2 x 30 peu maniable. Cependant, vous pouvez devenir assez créatif avec la façon dont on modélise ces relations.

Par exemple, certains chercheurs plaident pour une utilisation encore plus large de la modélisation à plusieurs niveaux. Gelman, Hill et Yajima (2012) soutiennent que la modélisation à plusieurs niveaux pourrait être utilisée comme correction pour des comparaisons multiples, même dans la recherche expérimentale où la structure des données n'est pas de nature évidemment hiérarchique:

Des problèmes plus difficiles se posent lors de la modélisation de comparaisons multiples qui ont plus de structure. Par exemple, supposons que nous ayons cinq mesures de résultats, trois variétés de traitements et des sous-groupes classés par deux sexes et quatre groupes raciaux. Nous ne voudrions pas modéliser cette structure 2 × 3 × 4 × 5 en 120 groupes échangeables. Même dans ces situations plus complexes, nous pensons que la modélisation à plusieurs niveaux devrait et finira par remplacer les procédures classiques de comparaisons multiples.

Les problèmes peuvent être modélisés de diverses manières et, dans des cas ambigus, plusieurs approches peuvent sembler attrayantes. Je pense que notre travail consiste à choisir une approche raisonnable et informée et à le faire de manière transparente.

Mark White
la source
5

Vous pouvez bien sûr construire un modèle pour chaque groupe différent, il n'y a rien de mal à cela. Cependant, vous auriez besoin d'une plus grande taille d'échantillon et devez gérer plusieurs modèles.

En utilisant un modèle mixte, vous regroupez (et partagez) les données ensemble et nécessitez donc une taille d'échantillon plus petite.

Ce faisant, nous partageons la force statistique. L'idée ici est que quelque chose que nous pouvons bien inférer dans un groupe de données peut nous aider avec quelque chose que nous ne pouvons pas bien inférer dans un autre.

Les modèles mixtes empêchent également les groupes suréchantillonnés de dominer injustement l'inférence.

Mon point est que si vous voulez modéliser la structure hiérarchique latente sous-jacente, vous devez ajouter des effets aléatoires à votre modèle. Sinon, si vous ne vous souciez pas de votre interprétation de modèle, vous ne l'utilisez pas.

https://www.dropbox.com/s/rzi2rsou6h817zz/Datascience%20Presentation.pdf?dl=0

donne une discussion pertinente. L'auteur a expliqué pourquoi il ne voulait pas exécuter des modèles de régression distincts.

entrez la description de l'image ici

Bonjour le monde
la source
4

Dans les modèles à effets mixtes, vous ajoutez des termes aléatoires (erreur) à votre modèle afin de "mélanger" les effets fixes et aléatoires. Ainsi, une autre approche pour considérer quand utiliser des modèles à effets mixtes pourrait être de regarder ce qu'est un "effet aléatoire". Ainsi, en plus des réponses données précédemment, je trouve également la distinction entre les termes effets "fixes" et "aléatoires" de Bates (2010) instructif, section 1.1 (en particulier page 2).

Les paramètres associés aux niveaux particuliers d'une covariable sont parfois appelés les «effets» des niveaux. Si l'ensemble des niveaux possibles de la covariable est fixe et reproductible, nous modélisons la covariable à l'aide de paramètres à effets fixes. Si les niveaux que nous avons observés représentent un échantillon aléatoire de l'ensemble de tous les niveaux possibles, nous incorporons des effets aléatoires dans le modèle. Il y a deux choses à noter sur cette distinction entre les paramètres à effets fixes et les effets aléatoires. Premièrement, les noms sont trompeurs car la distinction entre fixe et aléatoire est davantage une propriété des niveaux de la covariable catégorielle qu'une propriété des effets qui leur sont associés.

Cette définition s'applique souvent à une structure hiérarchique comme les pays ou les salles de classe, car vous avez toujours un échantillon "aléatoire" de pays ou de salles de classe - les données n'ont pas été collectées dans tous les pays ou classes possibles.

Le sexe, cependant, est fixe (ou du moins traité comme étant fixe). Si vous avez des hommes ou des femmes, il n'y a plus d'autres niveaux de sexe (il peut y avoir des exceptions de genre, mais cela est généralement ignoré).

Ou dites niveau d'éducation: si vous demandez si les gens sont de niveau inférieur, moyen ou supérieur, il n'y a plus de niveau, donc vous n'avez pas prélevé un échantillon "aléatoire" de tous les niveaux d'éducation possibles (par conséquent, c'est un effet fixe).

Daniel
la source
2
+1 Pourquoi le vote négatif? Il s'agit d'une citation d'un statisticien réputé sur la modélisation à effets aléatoires; le commentaire suivant est assez simple et bien défini ...
usεr11852
3

Vous utilisez des modèles mixtes lorsque certaines hypothèses raisonnables peuvent être faites, sur la base du plan d'étude, sur la nature de la corrélation entre les observations et l' inférence est souhaitée au niveau individuel ou les effets conditionnels . Les modèles mixtes permettent de spécifier des effets aléatoires, qui sont une représentation pratique des structures de corrélation qui surviennent naturellement dans la collecte de données.

Le type de modèle mixte le plus courant est un modèle à interceptions aléatoires qui estime une distribution latente de constantes communes ayant une distribution normale de variance finie moyenne à 0 au sein de grappes d'individus identifiés dans l'ensemble de données. Cette approche représente potentiellement des centaines de facteurs de confusion communs aux groupes d'observations, ou grappes, mais variant entre les grappes.

Un deuxième type commun de modèle mixte est un modèle à pentes aléatoires qui, semblable au modèle à interceptions aléatoires, estime une distribution latente des interactions prédicteurs temporels qui provient à nouveau d'une distribution normale à variance finie moyenne à 0 dans une étude de panel ou des grappes. d'observations mesurées de façon prospective ou longitudinale.

cor(Y1,Y2)=ρY1,Y2cor(Yt,Ys)=ρ|ts|Yt,Yst,set 0 sinon. Les résultats ne sont pas identiques, car l'interception aléatoire force les observations au sein des grappes à être associées positivement, ce qui est presque toujours une hypothèse raisonnable.

Le niveau individuel ou les effets conditionnels peuvent être mis en contraste avec le niveau de la population ou les effets marginaux. Les effets marginaux représentent l'effet dans une population d'une intervention ou d'un dépistage. À titre d'exemple, une intervention visant à accroître l'observance de la réadaptation en matière de toxicomanie peut porter sur la fréquentation pendant 3 mois d'un panel de patients admis pour diverses affections. La durée d'utilisation peut varier d'un patient à l'autre et prédire fortement l'observance de l'atelier, les participants utilisant plus longtemps ayant de plus grandes tendances à la dépendance et à l'évitement. Une analyse au niveau individuel peut révéler que l'étude est efficace malgré le fait que les participants ayant une dépendance plus longue ne se sont pas présentés avant de recevoir l'intervention et ont continué de ne pas y assister après avoir reçu l'intervention.

Les effets marginaux ont une inférence moins précise en raison de l'ignorance de l'homogénéité entre les grappes dans le temps ou l'espace. Ils peuvent être estimés avec des équations d'estimation généralisées ou en marginalisant les modèles mixtes.

AdamO
la source
2
+1, je souhaite pouvoir accepter 2 réponses !. mon commentaire sur la réponse de @ Mark s'applique également à votre réponse. que vous m'avez aidé à comprendre comment nous définissons "l'observation en grappes"
Haitao Du
2
@ hxd1011 Il provient strictement d'un énoncé de conception de l'étude. Tout plan comportant des échantillons stratifiés ou des mesures répétées comportera des données non indépendantes. Ce n'est pas le cas pour les tests statistiques. La déclaration ou au moins l'inspection des effets aléatoires peut aider à comprendre l'étendue de la corrélation, un ICC est un exemple d'une telle mesure.
AdamO
0

Les effets mixtes doivent être utilisés lorsque les données ont une structure imbriquée ou hiérarchique. Cela viole en fait l'hypothèse d'indépendance des mesures, car toutes les mesures au sein du même groupe / niveau sont corrélées. En cas de

"Si différents groupes / espèces sont vraiment similaires. Disons une chienne et un mâle. Je pense que nous pouvons vouloir utiliser le sexe comme variable catégorielle dans le modèle."

le sexe serait un facteur variable et à effet fixe, tandis que la variabilité de la taille des chiens selon le sexe est un effet aléatoire. Mon modèle serait

response ~ sex + (1|size), data=data

Intuitivement, les lapins, les chiens et les cates doivent être modélisés séparément car les tailles de chien et de chat ne sont pas corrélées, cependant la taille de deux chiens est une sorte de variabilité "intra-espèce".

marianess
la source
Personnellement, je pense que le terme «structure imbriquée ou hiérarchique» est trop général et qu'il est difficile de définir des limites.
Haitao Du
Peut-être que tu as raison. Je suppose que LMM est utilisé lorsque l'hypothèse d'IID est violée en raison d'une sorte de regroupement présent dans les données.
marianess