Est-il permis d'inclure le temps comme prédicteur dans les modèles mixtes?

10

J'ai toujours cru que le temps ne devait pas être utilisé comme prédicteur dans les régressions (y compris les gams) car, alors, on «décrirait» simplement la tendance elle-même. Si le but d’une étude est de trouver des paramètres environnementaux comme la température, etc. qui expliquent la variance, disons, de l’activité d’un animal, alors je me demande comment le temps peut-il être utile? comme proxy pour les paramètres non mesurés?

Quelques tendances dans le temps sur les données d'activité des marsouins communs peuvent être vues ici: -> Comment gérer les lacunes dans une série chronologique lors de la réalisation de GAMM?

mon problème est: quand j'inclus le temps dans mon modèle (mesuré en jours juliens), alors 90% de tous les autres paramètres deviennent insignifiants (ts-rétrécissement plus lisse de mgcv les expulse). Si je laisse du temps libre, certains d'entre eux sont importants ...

La question est: le temps est-il prévu comme prédicteur (peut-être même nécessaire?) Ou gâche-t-il mon analyse?

Merci d'avance

Jens
la source

Réponses:

12

Le temps est accordé; si cela est nécessaire dépendra de ce que vous essayez de modéliser? Le problème que vous avez est que vous avez des covariables qui, ensemble, semblent correspondre à la tendance dans les données, ce que Time peut faire aussi bien mais en utilisant moins de degrés de liberté - elles sont donc abandonnées au lieu de Time.

Si l'intérêt est de modéliser le système, la relation entre la réponse et les covariables dans le temps, plutôt que de modéliser la façon dont la réponse varie dans le temps, alors n'incluez pas le temps comme covariable. Si le but est de modéliser le changement du niveau moyen de la réponse, inclure le temps mais pas la covariable. D'après ce que vous dites, il semblerait que vous souhaitiez le premier, pas le second, et ne devez pas inclure le temps dans votre modèle. (Mais tenez compte des informations supplémentaires ci-dessous.)

Il y a cependant quelques mises en garde. Pour que la théorie se vérifie, les résidus devraient être iid (ou id si vous relâchez l'hypothèse d'indépendance en utilisant une structure de corrélation). Si vous modélisez la réponse en fonction de covariables et qu'elles ne modélisent pas correctement une tendance dans les données, les résidus auront une tendance, ce qui viole les hypothèses de la théorie, à moins que la structure de corrélation ajustée ne puisse faire face à cette tendance.

Inversement, si vous modélisez la tendance dans la seule réponse (en incluant uniquement le temps), il peut y avoir une variation systématique des résidus (autour de la tendance ajustée) qui n'est pas expliquée par la tendance (temps), ce qui peut également violer les hypothèses pour les résidus. Dans de tels cas, vous devrez peut-être inclure d'autres covariables pour rendre les résidus iid

Pourquoi est-ce un problème? Eh bien, lorsque vous testez si la composante de tendance, par exemple, est significative, ou si les effets des covariables sont significatifs, la théorie utilisée supposera que les résidus sont iid. S'ils ne le sont pas, les hypothèses ne seront pas remplies et les Les valeurs de p seront biaisées.

L'intérêt de tout cela est que vous devez modéliser toutes les différentes composantes des données de sorte que les résidus soient iid pour la théorie que vous utilisez, pour tester si les composants ajustés sont significatifs, pour être valides.

À titre d'exemple, considérons les données saisonnières et nous voulons adapter un modèle qui décrit la variation à long terme des données, la tendance. Si nous modélisons uniquement la tendance et non la variation cyclique saisonnière, nous ne pouvons pas tester si la tendance ajustée est significative car les résidus ne seront pas iid. Pour de telles données, nous aurions besoin d'ajuster un modèle avec à la fois une composante saisonnière et une tendance. composant, et un modèle nul qui ne contenait que la composante saisonnière. Nous comparerions ensuite les deux modèles à l'aide d'un test de rapport de vraisemblance généralisé pour évaluer l'importance de la tendance ajustée. Cela se fait en utilisant anova()sur les $lmecomposants des deux modèles équipés en utilisant gamm().

Gavin Simpson
la source
Cher Gavin, merci beaucoup pour vos commentaires très utiles. J'espère que je pourrai aussi vous aider bientôt;) lorsque j'essaie le GLRT avec anova, il me dit "objet 'fixe" introuvable' :(
Jens
1
@Jens, l'appel devrait être anova(mod1$lme, mod2$lme). Si vous ajustez un modèle non gaussien, cela pourrait ne pas fonctionner car il n'y a pas de véritable log-vraisemblance dans les méthodes PQL, augmentez la quasi-vraisemblance dans le nom PQL. C'est une raison d'utiliser gamm4 , mais vous devez alors faire quelque chose au sujet de la structure de corrélation car lme4 ne le permet pas.
Gavin Simpson