Modélisation des données longitudinales lorsque l'effet du temps varie sous forme fonctionnelle entre individus

32

Contexte :

Imaginez que vous ayez une étude longitudinale qui a mesuré une variable dépendante (DV) une fois par semaine pendant 20 semaines sur 200 participants. Bien que je sois intéressé en général, les DV typiques auxquels je pense incluent le rendement au travail après l’embauche ou diverses mesures de bien-être à la suite d’une intervention de psychologie clinique.

Je sais que la modélisation à plusieurs niveaux peut être utilisée pour modéliser la relation entre le temps et le DV. Vous pouvez également permettre aux coefficients (interceptes, pentes, etc.) de varier d'un individu à l'autre et d'estimer les valeurs particulières des participants. Mais qu'en est-il si, lors de l'inspection visuelle des données, vous constatez que la relation entre l'heure et le DV est l'une des suivantes:

  • de forme fonctionnelle différente (certaines sont peut-être linéaires et d'autres sont exponentielles ou certaines ont une discontinuité)
  • variance d'erreur différente (certaines personnes sont plus volatiles d'un point à un autre)

Questions :

  • Quelle serait une bonne façon d’aborder des données de modélisation de ce type?
  • En particulier, quelles sont les approches les plus efficaces pour identifier différents types de relations et classer les individus en fonction de leur type?
  • Quelles implémentations existent dans R pour de telles analyses?
  • Y a-t-il des références sur la façon de procéder: manuel ou application réelle?
Jeromy Anglim
la source

Réponses:

20

Je suggérerais de regarder les trois directions suivantes:

  • clustering longitudinal : ceci est non supervisé, mais vous utilisez l'approche k-means en vous basant sur le critère de Calinsky pour évaluer la qualité de la partition (package kml et références incluses dans l'aide en ligne); donc, en gros, cela n'aidera pas à identifier une forme spécifique pour un parcours temporel individuel, mais simplement à séparer un profil d'évolution homogène
  • une sorte de courbe de croissance latente tenant compte de l'hétéroscédasticité: mon meilleur choix serait de regarder les références étendues autour du logiciel MPlus , en particulier la FAQ et le mailing. J'ai également entendu parler du modèle hétéroscédastique multiplicatif à effet aléatoire (essayez de rechercher Google autour de ces mots-clés). Je trouve ces articles ( 1 , 2 ) intéressants, mais je ne les ai pas examinés en détail. Je ferai le point avec des références sur l'évaluation neuropsychologique une fois de retour à mon bureau.
  • PCA fonctionnelle ( paquetage fpca ), mais il peut être intéressant de se pencher sur l'analyse de données fonctionnelles

Autres références (juste parcouru à la volée):

chl
la source
1
Merci. L'idée d'utiliser une procédure de regroupement m'était venue à l'esprit. J'imagine que le défi serait de bien capturer et pondérer les caractéristiques de courbe possibles au niveau individuel d'une manière théoriquement significative. Je vais voir comment ça marche en kml.
Jeromy Anglim
1
Eh bien, cela fonctionne plutôt bien, bien que l'interface soit affreuse (et je connais le gars qui l'a construite :) - je l'utilisais il y a deux mois pour séparer des groupes cliniques sur la base de profils individuels sur des mesures de développement (Brunet-Lézine).
chl
1
Voici une autre référence principale pour la FDA: psych.mcgill.ca/misc/fda
Mike Lawrence du
1
J'ai trouvé cette introduction à la FDA link par Ramsay (2008), particulièrement accessible. Gbi.agrsci.dk/~shd/public/FDA2008/FDA_Sage.pdf
Jeromy Anglim
8

Je recommanderais de regarder quelques articles de Heping Zhang en utilisant des splines adaptatives pour la modélisation de données longitudinales:

De plus, voir la page MASAL pour les logiciels comprenant un package R.

ars
la source
6

Il me semble que les modèles de mélange de croissance pourraient vous permettre d’examiner votre variance d’erreur. ( PDF ici). (Je ne suis pas sûr de ce que sont les modèles hétéroscédastiques multiplicatifs, mais je devrai absolument les vérifier).

Les modèles de trajectoires basés sur des groupes latents sont devenus très populaires ces derniers temps en criminologie. Mais beaucoup de gens prennent simplement pour acquis que des groupes existent réellement, et certaines recherches astucieuses ont montré que vous trouverez des groupes même dans des données aléatoires. Il convient également de noter que l'approche de modélisation basée sur le groupe de Nagin ne vous permet pas d'évaluer votre erreur (et honnêtement, je n'ai jamais vu de modèle qui ressemblerait à une discontinuité).

Bien que cela soit difficile avec 20 points dans le temps, il pourrait être utile de créer des heuristiques simples pour identifier des modèles à des fins exploratoires (par exemple, toujours faible ou toujours élevé, coefficient de variation). J'envisage des graphiques sparkline dans un tableur ou des tracés de coordonnées parallèles, mais je doute qu'ils soient utiles (honnêtement, je n'ai jamais vu de tracé de coordonnées parallèles très instructif).

Bonne chance

Andy W
la source
@chl, pas de problème, merci pour toutes les ressources que vous avez énumérées ici.
Andy W
Bon point sur les groupes latents. J'ai vu plusieurs applications d'analyse de classe latente et d'analyse de groupe où il semble ne constituer qu'une division continue de catégories int telles que low & high ( jeromyanglim.blogspot.com/2009/09/… ). Cependant, j'ai des données longitudinales au niveau individuel qui semblent avoir l'air de provenir de processus générateurs de données catégoriquement distincts (par exemple, toujours élevé, toujours faible, en augmentation progressive, en augmentation puis abrupte, etc.) et au sein de catégories il y a plus de variation continue des paramètres.
Jeromy Anglim
@ Jeromy, je ne pense pas que les travaux que j'ai cités décourageraient les gens d'utiliser de telles méthodes pour identifier les groupes latents. Je dirais que le but du travail est que vous ne pouvez pas utiliser de telles méthodes uniquement pour déduire l'existence de groupes, car vous trouverez toujours des groupes, même dans des données aléatoires. Une interprétation plus subjective dépend de la nature réelle des groupes ou des artefacts de la méthode. Vous pouvez identifier certaines théories logiques qui génèrent de tels processus, puis voir si les groupes identifiés s’inscrivent dans ces théories.
Andy W
5

Quatre ans après avoir posé cette question, j'ai appris quelques choses, alors je devrais peut-être ajouter quelques idées.

Je pense que la modélisation hiérarchique bayésienne fournit une approche flexible à ce problème.

Logiciels : des outils tels que jags, stan, WinBugs, etc. potentiellement combinés à leurs packages d'interface R respectifs (par exemple, rjags, rstan) facilitent la spécification de tels modèles.

Variation d'erreur dans la personne: les modèles bayésiens permettent de spécifier facilement la variance d'erreur dans la personne en tant que facteur aléatoire variant d'une personne à l'autre.

yje=1,...,nj=1,...J

yjej~N(μje,σje2)
μje=γ
γ~N(μγ,σγ2)
σje~gunemmune(α,β)

Ainsi, l'écart type de chaque personne pourrait être modélisé comme une distribution gamma. J’ai trouvé que c’était un paramètre important dans de nombreux domaines psychologiques, où les gens varient dans leur ampleur dans le temps.

Classes de courbes latentes: je n'ai pas encore exploré cette idée, mais il est relativement simple de spécifier au moins deux fonctions de génération de données possibles pour chaque individu, puis de laisser le modèle bayésien choisir le modèle le plus probable pour un individu donné. Ainsi, vous obtiendrez généralement des probabilités postérieures pour chaque individu en ce qui concerne la forme fonctionnelle qui décrit les données de l’individu.

En guise d’esquisse d’une idée de modèle, vous pouvez obtenir les éléments suivants:

yjej~N(μjej,σ2)
μjej=γjeλjej(1)+(1-γje)λjej(2)
λjej(1)=θ1je(1)+θ2je(1)exp(-θ3je(1))
λjej(2)=θ1je(2)+θ2je(2)Xjej+θ3je(2)Xjej2
γje=Bernovousllje(πje)

Xjej est le temps et λjej(1) représente les valeurs attendues pour un modèle exponentiel à trois paramètres et λjej(2) représente les valeurs attendues pour un modèle quadratique. πje représente la probabilité que le modèle choisisse λjej(1).

Jeromy Anglim
la source
Je me suis également orienté vers le cadre bayésien et lisais l'utilisation de processus gaussiens pour l'analyse de séries chronologiques de formes de fonctions incertaines. On ne sait toujours pas comment cela peut être appliqué au cas de données hiérarchiques (voir ma requête sans réponse ici: groups.google.com/d/msg/stan-users/yjDWtMhxQQE/2TiYevy0ZwUJ )
Mike Lawrence