Questions sur la spécification de modèles mixtes linéaires dans R pour les données de mesures répétées avec une structure d'imbrication supplémentaire

10

Structure de données

> str(data)
 'data.frame':   6138 obs. of  10 variables:
 $ RT     : int  484 391 422 516 563 531 406 500 516 578 ...
 $ ASCORE : num  5.1 4 3.8 2.6 2.7 6.5 4.9 2.9 2.6 7.2 ...
 $ HSCORE : num  6 2.1 7.9 1 6.9 8.9 8.2 3.6 1.7 8.6 ...
 $ MVMNT  : Factor w/ 2 levels "_Withd","Appr": 2 2 1 1 2 1 2 1 1 2 ...
 $ STIM   : Factor w/ 123 levels " arti"," cele",..: 16 23 82 42 105 4 93 9 34 25 ...
 $ DRUG   : Factor w/ 2 levels "Inactive","Pharm": 1 1 1 1 1 1 1 1 1 1 ...
 $ FULLNSS: Factor w/ 2 levels "Fasted","Fed": 2 2 2 2 2 2 2 2 2 2 ...
 $ PATIENT: Factor w/ 25 levels "Subj01","Subj02",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ SESSION: Factor w/ 4 levels "Sess1","Sess2",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ TRIAL  : Factor w/ 6138 levels "T0001","T0002",..: 1 2 3 4 5 6 7 8 9 10 ...

Candidat modèle complet

model.loaded.fit <- lmer(RT ~ ASCORE*HSCORE*MVMNT*DRUG*FULLNSS
                              + (1|PATIENT) + (1|SESSION), data, REML = TRUE)
  • Les temps de réaction des essais sont regroupés au sein des sessions, qui à leur tour sont regroupées au sein des patients
  • Chaque essai peut être caractérisé par deux covariables continues de ASCORE et HSCORE (allant de 1 à 9) et par une réponse de mouvement (retrait ou approche)
  • Les séances sont caractérisées par la prise de médicament (placebo ou pharmacon actif) et par la satiété (à jeun ou pré-nourri)

Modélisation et syntaxe R?

J'essaie de spécifier un modèle complet approprié avec une structure moyenne chargée qui peut être utilisée comme point de départ dans une stratégie de sélection de modèle descendante.

Questions spécifiques:

  • La syntaxe spécifie-t-elle correctement le clustering et les effets aléatoires?
  • Au-delà de la syntaxe, ce modèle est-il approprié pour la conception intra-sujet ci-dessus?
  • Le modèle complet doit-il spécifier toutes les interactions d'effets fixes, ou seulement celles qui m'intéressent vraiment?
  • Je n'ai pas inclus le facteur STIM dans le modèle, qui caractérise le type de stimulus spécifique utilisé dans un essai, mais que je ne suis pas intéressé à estimer de quelque manière que ce soit - devrais-je préciser que comme facteur aléatoire étant donné qu'il a 123 niveaux et très peu points de données par type de stimulus?
Cel
la source
si je ne trouve pas de conseils ici, je ne sais vraiment pas à qui demander? Peut-être connaissez-vous des forums dédiés aux modèles mixtes ou même un expert prêt à consulter pour un peu d'argent?
Cel
3
Bonjour @Cel, il semble que vous ayez TOUTES les interactions dans le modèle, y compris les interactions à 5, 4 et 3 voies. Je ne suis pas sûr de ce cas, mais cela surpassera généralement énormément les données, ce qui rendra vos résultats moins généralisables. La sélection vers l'arrière (si vous devez l'utiliser) n'a pas besoin de commencer avec un modèle complètement saturé - elle doit commencer avec le plus grand modèle que vous trouvez plausible. Pouvez-vous réduire cela du tout?
Macro
@Macro super à savoir, je n'inclurai alors que les interactions qui semblent plausibles. avez-vous des suggestions concernant les autres problèmes? si vous le faites, mettez-le peut-être comme réponse pour que je puisse l'accepter.
Cel

Réponses:

16

Je répondrai tour à tour à chacune de vos questions.

La syntaxe spécifie-t-elle correctement le clustering et les effets aléatoires?

Le modèle que vous avez adapté ici est, en termes mathématiques, le modèle

Yijk=Xijkβ+ηi+θij+εijk

  • Yijkkji

  • Xijkkji

  • ηiiθijijεijk

  • β

Comme indiqué à la page 14-15 ici, ce modèle est correct pour spécifier que les sessions sont imbriquées au sein des individus, ce qui est le cas d'après votre description.

Au-delà de la syntaxe, ce modèle est-il approprié pour la conception intra-sujet ci-dessus?

Xijkβ

Le modèle complet doit-il spécifier toutes les interactions d'effets fixes, ou seulement celles qui m'intéressent vraiment?

Je pense que commencer avec un modèle aussi fortement saturé peut ne pas être une bonne idée, à moins que cela ait un sens sur le fond. Comme je l'ai dit dans un commentaire, cela aura tendance à surcharger votre ensemble de données particulier et peut rendre vos résultats moins généralisables. En ce qui concerne la sélection du modèle, si vous commencez avec le modèle complètement saturé et effectuez une sélection en arrière (à laquelle certaines personnes sur ce site, pour une bonne raison, s'opposent ), vous devez vous assurer de respecter la hiérarchie dans le modèle. Autrement dit, si vous supprimez une interaction de niveau inférieur du modèle, vous devez également supprimer toutes les interactions de niveau supérieur impliquant cette variable. Pour plus de discussion à ce sujet, voir le fil lié.

Je n'ai pas inclus le facteur STIM dans le modèle, qui caractérise le type de stimulus spécifique utilisé dans un essai, mais que je ne suis pas intéressé à estimer de quelque manière que ce soit - devrais-je préciser que comme facteur aléatoire étant donné qu'il a 123 niveaux et très peu points de données par type de stimulus?

Certes, ne sachant rien de l'application (prenez donc cela avec un grain de sel), cela ressemble à un effet fixe, pas un effet aléatoire. Autrement dit, le type de traitement ressemble à une variable qui correspondrait à un changement fixe de la réponse moyenne, et non à quelque chose qui induirait une corrélation entre les sujets qui avaient le même type de stimulus. Mais, le fait qu'il s'agisse d'un facteur de niveau 123 complique l'entrée dans le modèle. Je suppose que je voudrais savoir l'ampleur de l'effet que vous attendez de cela. Quelle que soit la taille de l'effet, cela n'induira pas de biais dans vos estimations de pente, car il s'agit d'un modèle linéaire, mais le laisser de côté peut rendre vos erreurs standard plus grandes qu'elles ne le seraient autrement.

Macro
la source
2
sensationnel. merci Macro, j'aimerais pouvoir donner plus de points.
Cel
ηiθjθj