J'ai un ensemble de données composé d'une série de décomptes mensuels de «bâtons cassés» provenant d'une poignée de sites. J'essaie d'obtenir une seule estimation récapitulative à partir de deux techniques différentes:
Technique 1: Ajustez un «bâton cassé» avec un GLM de Poisson avec une variable indicatrice 0/1, et utilisez une variable de temps et de temps ^ 2 pour contrôler les tendances dans le temps. L'estimation de cette variable indicatrice 0/1 et SE sont regroupées en utilisant une technique de méthode des moments assez directe et descendante, ou en utilisant le package tlnise dans R pour obtenir une estimation "bayésienne". C'est similaire à ce que Peng et Dominici font avec les données sur la pollution atmosphérique, mais avec moins de sites (~ une douzaine).
Technique 2: abandonner une partie du contrôle spécifique au site pour les tendances dans le temps et utiliser un modèle mixte linéaire. Particulièrement:
lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)
Ma question porte sur les erreurs types qui ressortent de ces estimations. L'erreur standard de la technique 1, qui utilise en fait un ensemble d'heures hebdomadaire plutôt que mensuel et devrait donc avoir plus de précision, a une erreur standard sur l'estimation de ~ 0,206 pour l'approche de la méthode des moments et de ~ 0,306 pour l'informatique.
La méthode lmer donne une erreur standard de ~ 0,09. Les estimations des effets sont raisonnablement proches, il ne semble donc pas qu'elles se concentrent uniquement sur différentes estimations sommaires, car le modèle mixte est beaucoup plus efficace.
Est-ce quelque chose que l'on peut raisonnablement attendre? Si oui, pourquoi les modèles mixtes sont-ils tellement plus efficaces? S'agit-il d'un phénomène général ou d'un résultat spécifique de ce modèle?
la source
Réponses:
Je sais que c'est une vieille question, mais elle est relativement populaire et a une réponse simple, alors j'espère qu'elle sera utile à d'autres à l'avenir. Pour une analyse plus approfondie, jetez un œil au cours de Christoph Lippert sur les modèles mixtes linéaires qui les examine dans le contexte des études d'association à l'échelle du génome ici . Voir en particulier la leçon 5 .
La raison pour laquelle le modèle mixte fonctionne tellement mieux est qu'il est conçu pour prendre en compte exactement ce que vous essayez de contrôler: la structure de la population. Les «populations» de votre étude sont les différents sites utilisant, par exemple, des implémentations légèrement différentes mais cohérentes du même protocole. De plus, si les sujets de votre étude sont des personnes, les personnes regroupées de différents sites sont moins susceptibles d'être liées que les personnes du même site, de sorte que la parenté avec le sang peut également jouer un rôle.
Parce que vous essayez de contrôler explicitement la structure de la population, il n'est donc pas surprenant que le modèle mixte linéaire ait surpassé les autres techniques de régression.
la source