Quand ne dois-je * pas * permettre à un effet fixe de varier selon les niveaux d'un effet aléatoire dans un modèle à effets mixtes?

16

Étant donné une variable prédite (P), un effet aléatoire (R) et un effet fixe (F), on pourrait adapter deux * modèles à effets mixtes ( syntaxe lme4 ):

m1 = lmer( P ~ (1|R) + F )
m2 = lmer( P ~ (1+F|R) + F)

Si je comprends bien, le deuxième modèle est celui qui permet à l'effet fixe de varier selon les niveaux de l'effet aléatoire.

Dans mes recherches, j'utilise généralement des modèles à effets mixtes pour analyser les données d'expériences menées auprès de plusieurs participants humains. Je modélise le participant comme un effet aléatoire et les manipulations expérimentales comme des effets fixes. Je pense qu'il est logique a priori de laisser le degré auquel les effets fixes affectent les performances de l'expérience varier d'un participant à l'autre. Cependant, j'ai du mal à imaginer des circonstances dans lesquelles je ne devrais pas autoriser les effets fixes à varier selon les niveaux d'un effet aléatoire, alors ma question est:

Quand ne doit-on pas permettre à un effet fixe de varier selon les niveaux d'un effet aléatoire?

Mike Lawrence
la source
Je ne comprends toujours pas complètement la syntaxe lme4, donc je suis curieux de voir la réponse. Mais j'ai l'intuition que c'est lié à la différence suivante: P est le temps qu'un élève passe à faire ses devoirs, R est un traitement au niveau de la classe et F est l'élève. (Nous devrions également avoir un effet aléatoire pour la classe elle-même.) Si tous les élèves sont soumis à tous les traitements R à des moments différents, les niveaux de F sont comparables d'une classe à l'autre. Si nous mesurons une école entière à la fois, nous avons différents élèves dans chaque classe, donc les niveaux de F dans différentes classes n'ont rien à voir les uns avec les autres.
Thomas Levine

Réponses:

11

Je ne suis pas un expert en modélisation à effets mixtes, mais la question est beaucoup plus facile à répondre si elle est reformulée dans un contexte de modélisation de régression hiérarchique. Nos observations ont donc deux indices Pij et Fij avec un indice i représentant la classe et j membres de la classe. Les modèles hiérarchiques nous permettent d'ajuster la régression linéaire, où les coefficients varient selon les classes:

Yij=β0i+β1iFij

Il s'agit de notre régression de premier niveau. La régression de second niveau se fait sur les premiers coefficients de régression:

β0je=γ00+u0jeβ1je=γ01+u1je

lorsque nous substituons cela dans la régression de premier niveau, nous obtenons

Yij=(γ0+u0i)+(γ01+u1i)Fij=γ0+u0i+u1iFij+γ01Fij

Ici sont des effets fixes et u sont des effets aléatoires. Le modèle mixte estime γ et les variances de u .γuγu

Le modèle que j'ai écrit correspond à la lmersyntaxe

P ~ (1+F|R) + F

Maintenant, si nous mettons sans le terme aléatoire, nous obtenonsβ1i=γ01

Yij=γ0+u0i+γ01Fij

ce qui correspond à la lmersyntaxe

P ~ (1|R) + F

Donc, la question devient maintenant quand pouvons-nous exclure le terme d'erreur de la régression de second niveau? La réponse canonique est que lorsque nous sommes sûrs que les régresseurs (ici nous n'en avons pas, mais nous pouvons les inclure, ils sont naturellement constants au sein des classes) dans la régression de deuxième niveau expliquent pleinement la variance des coefficients entre les classes.

Donc, dans ce cas particulier, si le coefficient de ne varie pas, ou bien la variance de u 1 i est très petite, nous devrions avoir l'idée que nous sommes probablement meilleurs avec le premier modèle.Fiju1i

Remarque . Je n'ai donné que des explications algébriques, mais je pense qu'en ayant cela à l'esprit, il est beaucoup plus facile de penser à un exemple d'application particulier.

mpiktas
la source
Si la première équation contient également un terme d'erreur: Yij=β0i+β1iFij+eij
Nikita Samoylov
oui, mais je l'ai omis pour plus de clarté, je pense.
mpiktas
10

Vous pouvez considérer un "effet fixe" comme un "effet aléatoire" avec une composante de variance de zéro.

Ainsi, une réponse simple à la raison pour laquelle vous ne laisseriez pas l'effet fixe varier, est une preuve insuffisante pour une composante de variance "assez grande". Les preuves doivent provenir à la fois des informations antérieures et des données. Ceci est conforme au principe de base du «rasoir d'occam»: ne rendez pas votre modèle plus complexe qu'il ne devrait l'être.

J'ai tendance à penser aux modèles mixtes linéaires de la manière suivante, écrivez une régression multiple comme suit:

Y=Xβ+Zu+e

XβZueuN(0,D(θ))θeN(0,σ2I)(Zu+e)N(0,ZD(θ)ZT+σ2I), which means we have:

YN(Xβ,ZD(θ)ZT+σ2I)

Compare this to the OLS regression (which has Z=0) and we get:

YN(Xβ,σ2I)

So the "random" part of the model can be seen as a way of specifying prior information about the correlation structure of the noise or error component in the model. OLS basically assumes that any one error from the fixed part of the model in one case is useless for predicting any other error, even if we knew the fixed part of the model with certainty. Adding a random effect is basically saying that you think some errors are likely to be useful in predicting other errors.

probabilityislogic
la source
5

This is quite an old question with some very good answers, however I think it can benefit from a new answer to address a more pragmatic perspective.

When should one not permit a fixed effect to vary across levels of a random effect ?

I won't address the issues already described in the other answers, instead I will refer to the now-famous, though I would rather say "infamous" paper by Barr et al (2013) often just referred to as "Keep it maximal"

Barr, D.J., Levy, R., Scheepers, C. and Tily, H.J., 2013. Random effects structure for confirmatory hypothesis testing: Keep it maximal. Journal of memory and language, 68(3), pp.255-278.

In this paper the authors argue that all fixed effects should be allowed to vary across levels of the grouping factors (random intercepts). Their argument is quite compelling - basically that by not allowing them to vary, it is imposing constraints on the model. This is well-described in the other answers. However, there are potentially serious problems with this approach, which are described by Bates el al (2015):

Bates, D., Kliegl, R., Vasishth, S. and Baayen, H., 2015. Parsimonious mixed models. arXiv preprint arXiv:1506.04967

It is worth noting here that Bates is the primary author of the lme4 package for fitting mixed models in R, which is probably the most widely used package for such models. Bates et al note that in many real-world applications, the data simply won't support a maximal random effects structure, often because there are insufficient numbers of observations in each cluster for the relevant variables. This can manifest itself in models that fail to converge, or are singular in the random effects. The large number of questions on this site about such models attests to that. They also note that Barr et al used a relatively simple simulation, with "well-behaved" random effects as the basis for their paper. Instead Bates et al suggest the following approach:

We proposed (1) to use PCA to determine the dimensionality of the variance-covariance matrix of the random-effect structure, (2) to initially constrain correlation parameters to zero, especially when an initial attempt to fit a maximal model does not converge, and (3) to drop non-significant variance components and their associated correlation parameters from the model

In the same paper, they also note:

Importantly, failure to converge is not due to defects of the estimation algorithm, but is a straightforward consequence of attempting to fit a model that is too complex to be properly supported by the data.

And:

maximal models are not necessary to protect against anti-conservative conclusions. This protection is fully provided by comprehensive models that are guided by realistic expectations about the complexity that the data can support. In statistics, as elsewhere in science, parsimony is a virtue, not a vice.

Bates et al (2015)

From a more applied perspective, a further consideration that should be made is whether or not, the data generation process, the biological/physical/chemical theory that underlies the data, should guide the analyst towards specifying the random effects structure.

Robert Long
la source
"often because there are insufficient numbers of observations in each cluster" can you elaborate on this? I thought, the minimum required number per cluster is 1? This is even your accepted answer here: stats.stackexchange.com/questions/388937/…
LuckyPal
@LuckyPal the question you linked to is about random intercepts, this one is about random slopes. How would you estimate a slope for a sample size of 1 ?
Robert Long
Point pris. Merci! +1 Mais nous pouvons estimer une pente fixe avec une seule observation par cluster s'il y a suffisamment de clusters, non? Cela semble un peu bizarre. Peut-être, lorsqu'il y a des problèmes de convergence avec une pente aléatoire en raison de la taille de l'échantillon, l'estimation de la pente - qu'elle soit aléatoire ou non - pourrait être contestable en général?
LuckyPal
@LuckyPal oui, l'estimation d'une pente fixe se fait sur tous les clusters, donc ce n'est généralement pas un problème. Je suis d'accord que l'estimation d'une pente aléatoire avec de petits groupes pourrait entraîner des problèmes de convergence, mais cela ne devrait pas affecter l'estimation d'une pente fixe.
Robert Long