Supposons que, dans une étude de 15 sujets, la variable de réponse (res) est modélisée avec deux variables explicatives, une (niveau) est catégorique avec 5 niveaux et l'autre (temps de réponse: RT) est continue. Avec lmer dans le package lme4 de R, j'ai:
fm1 <- lmer(res ~ level * RT + (level-1 | subject), data=mydata)
anova(fm1)
Df Sum Sq Mean Sq F value
level 4 3974.9 993.7 9.2181
RT 1 1953.5 1953.5 18.1209
level:RT 4 5191.4 1297.9 12.0393
Si je change l'ordre des deux variables, j'obtiens des résultats légèrement différents pour les effets principaux:
fm2 <- lmer(res ~ RT * level + (level-1 | subject), data=mydata)
anova(fm2)
Df Sum Sq Mean Sq F value
RT 1 1671.8 1671.8 15.5077
level 4 4256.7 1064.2 9.8715
RT:level 4 5191.4 1297.9 12.0393
Une telle différence provient-elle de l'approche séquentielle (au lieu de marginale) de lme4 pour tenir compte de la variabilité des données? Dans ce cas, le changement d'ordre variable ne conduit pas à une grande différence, mais auparavant, j'ai vu des différences dramatiques. Que signifie une si grande différence? Cela signifie-t-il que le modèle a besoin de plus de réglages jusqu'à ce que la grande différence disparaisse?
Ma deuxième question est que, si je veux savoir quelle variable parmi les deux (RT et niveau) explique la plus grande variabilité des données, quelle serait une approche raisonnable? Sur la base de la magnitude relative de Sum Sq (ou Mean Sq) des deux variables? Une méthode de test statistique pour comparer la variabilité entre les variables explicatives?
la source
Réponses:
Je vais essayer de répondre à vos questions une par une:
Correct. Comme vous pouvez le voir, ce n'est que pour l'interaction que les résultats sont les mêmes. L'interaction est entrée en dernier dans le modèle dans les deux cas, donc les résultats pour ce terme sont les mêmes. Cependant, si vous entrez d'abord "niveau" puis "RT", les résultats pour "RT" vous indiquent si "RT" est significatif après que "niveau" est déjà dans le modèle (et vice-versa). Ces résultats dépendent de l'ordre.
Supposons que les deux variables en elles-mêmes soient fortement liées à la variable de réponse, mais elles sont également fortement corrélées. Dans ce cas, il se peut qu'il n'y ait pas beaucoup de variabilité dans la variable de réponse à prendre en compte par la variable qui est entrée en deuxième position dans le modèle. Par conséquent, vous aurez tendance à voir des différences plus dramatiques lorsque les variables explicatives sont corrélées.
Je ne sais pas trop ce que vous entendez par "réglage". Le phénomène que vous observez n'est pas un problème en soi, bien qu'il complique l'interprétation des résultats (voir ci-dessous).
Peut-être qu'une façon de "régler" est la suivante. Si les variables explicatives sont fortement corrélées, alors elles peuvent essentiellement mesurer la même chose. Dans ce cas, on peut "régler" le modèle en supprimant l'une des variables ou en les combinant en une seule variable.
Lorsque les variables explicatives sont corrélées, il est alors assez difficile de déterminer leur importance relative. Ce problème revient assez fréquemment dans le contexte de régression multiple et des dizaines d'articles ont été écrits sur ce sujet et de nombreuses méthodes pour atteindre cet objectif ont été suggérées. Il n'y a certainement pas de consensus sur la manière la plus appropriée et certaines personnes peuvent même suggérer qu'il n'y a pas de manière adéquate de le faire.
Les sommes des carrés ne vont pas vous aider, car elles ne sont pas basées sur le même nombre de degrés de liberté. Les carrés moyens sont essentiellement corrects pour cela, mais si vous utilisez les carrés moyens, ce n'est rien d'autre que d'utiliser les valeurs F (ou valeurs p) correspondantes pour déterminer l'importance relative. Je pense que la plupart des gens ne considéreraient pas cela comme un moyen approprié de déterminer l'importance relative.
Malheureusement, je n'ai pas de solution facile. Au lieu de cela, je peux vous proposer un site Web, de l'auteur du
relaimpo
package. Je ne pense pas que le package vous aidera lors de l'ajustement de modèles à effets mixtes, mais il y a beaucoup de références à des articles sur le problème que vous traitez.http://prof.beuth-hochschule.de/groemping/relaimpo/
Vous pouvez également consulter le
AICcmodavg
package:http://cran.r-project.org/web/packages/AICcmodavg/index.html
la source