Contexte :
Imaginez que vous ayez une étude longitudinale qui a mesuré une variable dépendante (DV) une fois par semaine pendant 20 semaines sur 200 participants. Bien que je sois intéressé en général, les DV typiques auxquels je pense incluent le rendement au travail après l’embauche ou diverses mesures de bien-être à la suite d’une intervention de psychologie clinique.
Je sais que la modélisation à plusieurs niveaux peut être utilisée pour modéliser la relation entre le temps et le DV. Vous pouvez également permettre aux coefficients (interceptes, pentes, etc.) de varier d'un individu à l'autre et d'estimer les valeurs particulières des participants. Mais qu'en est-il si, lors de l'inspection visuelle des données, vous constatez que la relation entre l'heure et le DV est l'une des suivantes:
- de forme fonctionnelle différente (certaines sont peut-être linéaires et d'autres sont exponentielles ou certaines ont une discontinuité)
- variance d'erreur différente (certaines personnes sont plus volatiles d'un point à un autre)
Questions :
- Quelle serait une bonne façon d’aborder des données de modélisation de ce type?
- En particulier, quelles sont les approches les plus efficaces pour identifier différents types de relations et classer les individus en fonction de leur type?
- Quelles implémentations existent dans R pour de telles analyses?
- Y a-t-il des références sur la façon de procéder: manuel ou application réelle?
la source
Je recommanderais de regarder quelques articles de Heping Zhang en utilisant des splines adaptatives pour la modélisation de données longitudinales:
De plus, voir la page MASAL pour les logiciels comprenant un package R.
la source
Il me semble que les modèles de mélange de croissance pourraient vous permettre d’examiner votre variance d’erreur. ( PDF ici). (Je ne suis pas sûr de ce que sont les modèles hétéroscédastiques multiplicatifs, mais je devrai absolument les vérifier).
Les modèles de trajectoires basés sur des groupes latents sont devenus très populaires ces derniers temps en criminologie. Mais beaucoup de gens prennent simplement pour acquis que des groupes existent réellement, et certaines recherches astucieuses ont montré que vous trouverez des groupes même dans des données aléatoires. Il convient également de noter que l'approche de modélisation basée sur le groupe de Nagin ne vous permet pas d'évaluer votre erreur (et honnêtement, je n'ai jamais vu de modèle qui ressemblerait à une discontinuité).
Bien que cela soit difficile avec 20 points dans le temps, il pourrait être utile de créer des heuristiques simples pour identifier des modèles à des fins exploratoires (par exemple, toujours faible ou toujours élevé, coefficient de variation). J'envisage des graphiques sparkline dans un tableur ou des tracés de coordonnées parallèles, mais je doute qu'ils soient utiles (honnêtement, je n'ai jamais vu de tracé de coordonnées parallèles très instructif).
Bonne chance
la source
Quatre ans après avoir posé cette question, j'ai appris quelques choses, alors je devrais peut-être ajouter quelques idées.
Je pense que la modélisation hiérarchique bayésienne fournit une approche flexible à ce problème.
Logiciels : des outils tels que jags, stan, WinBugs, etc. potentiellement combinés à leurs packages d'interface R respectifs (par exemple, rjags, rstan) facilitent la spécification de tels modèles.
Variation d'erreur dans la personne: les modèles bayésiens permettent de spécifier facilement la variance d'erreur dans la personne en tant que facteur aléatoire variant d'une personne à l'autre.
Ainsi, l'écart type de chaque personne pourrait être modélisé comme une distribution gamma. J’ai trouvé que c’était un paramètre important dans de nombreux domaines psychologiques, où les gens varient dans leur ampleur dans le temps.
Classes de courbes latentes: je n'ai pas encore exploré cette idée, mais il est relativement simple de spécifier au moins deux fonctions de génération de données possibles pour chaque individu, puis de laisser le modèle bayésien choisir le modèle le plus probable pour un individu donné. Ainsi, vous obtiendrez généralement des probabilités postérieures pour chaque individu en ce qui concerne la forme fonctionnelle qui décrit les données de l’individu.
En guise d’esquisse d’une idée de modèle, vous pouvez obtenir les éléments suivants:
OùXje j est le temps et λ( 1 )je j représente les valeurs attendues pour un modèle exponentiel à trois paramètres et λ( 2 )je j représente les valeurs attendues pour un modèle quadratique. πje représente la probabilité que le modèle choisisse λ( 1 )je j .
la source
John Fox a une excellente annexe disponible en ligne qui utilise nlme pour examiner les données longitudinales. Cela peut vous être utile:
http://cran.r-project.org/doc/contrib/Fox-Companion/appendix-mixed-models.pdf
Il y a beaucoup de bonnes choses là-bas (et les livres de Fox sont généralement assez bons!).
la source