Ordre variable et variabilité prise en compte dans la modélisation linéaire à effets mixtes

9

Supposons que, dans une étude de 15 sujets, la variable de réponse (res) est modélisée avec deux variables explicatives, une (niveau) est catégorique avec 5 niveaux et l'autre (temps de réponse: RT) est continue. Avec lmer dans le package lme4 de R, j'ai:

fm1 <- lmer(res ~ level * RT + (level-1 | subject), data=mydata)
anova(fm1)

             Df  Sum Sq Mean Sq  F value
level        4  3974.9   993.7   9.2181
RT           1  1953.5  1953.5  18.1209
level:RT     4  5191.4  1297.9  12.0393

Si je change l'ordre des deux variables, j'obtiens des résultats légèrement différents pour les effets principaux:

fm2 <- lmer(res ~ RT * level + (level-1 | subject), data=mydata)
anova(fm2)

             Df  Sum Sq Mean Sq  F value
RT           1  1671.8  1671.8  15.5077
level        4  4256.7  1064.2   9.8715
RT:level     4  5191.4  1297.9  12.0393

Une telle différence provient-elle de l'approche séquentielle (au lieu de marginale) de lme4 pour tenir compte de la variabilité des données? Dans ce cas, le changement d'ordre variable ne conduit pas à une grande différence, mais auparavant, j'ai vu des différences dramatiques. Que signifie une si grande différence? Cela signifie-t-il que le modèle a besoin de plus de réglages jusqu'à ce que la grande différence disparaisse?

Ma deuxième question est que, si je veux savoir quelle variable parmi les deux (RT et niveau) explique la plus grande variabilité des données, quelle serait une approche raisonnable? Sur la base de la magnitude relative de Sum Sq (ou Mean Sq) des deux variables? Une méthode de test statistique pour comparer la variabilité entre les variables explicatives?

poteau bleu
la source
Si vous ne pouvez pas publier de données, pouvez-vous au moins afficher la sortie du modèle plutôt que simplement l'ANOVA?
John

Réponses:

5

Je vais essayer de répondre à vos questions une par une:

Une telle différence vient-elle de l'approche séquentielle (au lieu de marginale) de lme4 pour tenir compte de la variabilité des données?

Correct. Comme vous pouvez le voir, ce n'est que pour l'interaction que les résultats sont les mêmes. L'interaction est entrée en dernier dans le modèle dans les deux cas, donc les résultats pour ce terme sont les mêmes. Cependant, si vous entrez d'abord "niveau" puis "RT", les résultats pour "RT" vous indiquent si "RT" est significatif après que "niveau" est déjà dans le modèle (et vice-versa). Ces résultats dépendent de l'ordre.

Que signifie une si grande différence?

Supposons que les deux variables en elles-mêmes soient fortement liées à la variable de réponse, mais elles sont également fortement corrélées. Dans ce cas, il se peut qu'il n'y ait pas beaucoup de variabilité dans la variable de réponse à prendre en compte par la variable qui est entrée en deuxième position dans le modèle. Par conséquent, vous aurez tendance à voir des différences plus dramatiques lorsque les variables explicatives sont corrélées.

Cela signifie-t-il que le modèle a besoin de plus de réglages jusqu'à ce que la grande différence disparaisse?

Je ne sais pas trop ce que vous entendez par "réglage". Le phénomène que vous observez n'est pas un problème en soi, bien qu'il complique l'interprétation des résultats (voir ci-dessous).

Peut-être qu'une façon de "régler" est la suivante. Si les variables explicatives sont fortement corrélées, alors elles peuvent essentiellement mesurer la même chose. Dans ce cas, on peut "régler" le modèle en supprimant l'une des variables ou en les combinant en une seule variable.

Ma deuxième question est que, si je veux savoir quelle variable parmi les deux (RT et niveau) explique la plus grande variabilité des données, quelle serait une approche raisonnable? Sur la base de la magnitude relative de Sum Sq (ou Mean Sq) des deux variables? Une méthode de test statistique pour comparer la variabilité entre les variables explicatives?

Lorsque les variables explicatives sont corrélées, il est alors assez difficile de déterminer leur importance relative. Ce problème revient assez fréquemment dans le contexte de régression multiple et des dizaines d'articles ont été écrits sur ce sujet et de nombreuses méthodes pour atteindre cet objectif ont été suggérées. Il n'y a certainement pas de consensus sur la manière la plus appropriée et certaines personnes peuvent même suggérer qu'il n'y a pas de manière adéquate de le faire.

Les sommes des carrés ne vont pas vous aider, car elles ne sont pas basées sur le même nombre de degrés de liberté. Les carrés moyens sont essentiellement corrects pour cela, mais si vous utilisez les carrés moyens, ce n'est rien d'autre que d'utiliser les valeurs F (ou valeurs p) correspondantes pour déterminer l'importance relative. Je pense que la plupart des gens ne considéreraient pas cela comme un moyen approprié de déterminer l'importance relative.

Malheureusement, je n'ai pas de solution facile. Au lieu de cela, je peux vous proposer un site Web, de l'auteur du relaimpopackage. Je ne pense pas que le package vous aidera lors de l'ajustement de modèles à effets mixtes, mais il y a beaucoup de références à des articles sur le problème que vous traitez.

http://prof.beuth-hochschule.de/groemping/relaimpo/

Vous pouvez également consulter le AICcmodavgpackage:

http://cran.r-project.org/web/packages/AICcmodavg/index.html

Wolfgang
la source
J'apprécie vraiment les clarifications et l'aide! En ce qui concerne l'importance relative de chaque variable dans un modèle à effets mixtes, est-il raisonnable de considérer la différence AIC / BIC fournie par lme ()? Par exemple, avec mes données, définissez trois modèles: res ~ RT, res ~ level, res ~ RT * level. Utilisez ensuite anova () pour évaluer l'importance relative en fonction de leur AIC / BIC?
bluepole
Les valeurs AIC / BIC sont souvent utilisées pour la sélection du modèle. Si tel est votre objectif, alors oui, c'est une approche. Si votre objectif est de déterminer l'importance relative des variables, vous pouvez utiliser des poids Akaike. Une présentation très agréable et claire sur cette idée peut être trouvée ici: bit.ly/pDQ7eq
Wolfgang
Merci beaucoup pour toute l'aide. J'apprécie vraiment ...
bluepole