Modélisation linéaire à effets mixtes avec des données d'étude jumelles

14

Supposons que j'ai une variable de réponse yij qui a été mesurée à partir du j e frère de la i e famille. De plus, certaines données comportementales xij ont été collectées en même temps auprès de chaque sujet. J'essaie d'analyser la situation avec le modèle linéaire à effets mixtes suivant:

yij=α0+α1xij+δ1ixij+εij

α0 et α1 sont respectivement l'ordonnée à l'origine et la pente fixes, δ1i est la pente aléatoire et εij est le résiduel.

Les hypothèses pour les effets aléatoires δ1i et résiduels εij sont (en supposant qu'il n'y a que deux frères et sœurs dans chaque famille)

δ1idN(0,τ2)(εi1,εi2)TdN((0,0)T,R)

est un paramètre de variance inconnu et la structure de variance-covariance R est une matrice de forme symétrique 2 x 2τ2R

(r12r122r122r22)

qui modélise la corrélation entre les deux frères et sœurs.

  1. Est-ce un modèle approprié pour une telle étude sur les frères et sœurs?

  2. Les données sont un peu compliquées. Parmi les 50 familles, près de 90% d'entre elles sont des jumeaux dizygotes (DZ). Pour les autres familles,

    1. deux n'ont qu'un frère ou une sœur;
    2. deux ont une paire DZ plus un frère; et
    3. deux ont une paire DZ plus deux frères et sœurs supplémentaires.


    Je crois que lmele package R nlmepeut facilement gérer (1) avec une situation manquante ou déséquilibrée. Mon problème est de savoir comment gérer (2) et (3)? Une possibilité à laquelle je peux penser est de diviser chacune de ces quatre familles en (2) et (3) en deux afin que chaque sous-famille ait un ou deux frères et sœurs afin que le modèle ci-dessus puisse être appliqué. Est-ce bien? Une autre option serait de simplement jeter les données d'un ou deux frères et sœurs supplémentaires dans (2) et (3), ce qui semble être un gaspillage. De meilleures approches?

  3. Il semble que cela lmepermette de fixer les valeurs dans la matrice de variance-covariance résiduelle R , par exemple r 2rR = 0,5. Est-il judicieux d'imposer la structure de corrélation, ou devrais-je simplement l'estimer sur la base des données?r122

poteau bleu
la source
1
Que signifie ? xj
Macro
@Macro: Merci d'avoir repéré cela. Nous venons de modifier l'OP pour indiquer que est une variable explicative, une mesure comportementale de chaque frère. xij
bluepole
1
Question et application très intéressantes. Je pourrais manquer quelque chose mais il me semble que ce modèle est sur-paramétré. Les erreurs corrélées peuvent effectivement être factorisées en un composant "non partagé" et un composant "partagé", ce dernier ayant la même fonction que δ 0 i . Vous devrez soit supprimer δ 0 i , faire les erreurs iid du ϵ , soit imposer des contraintes comme r 2 12 = .5 pour l'identifiabilité - faites-vous cela exprès pour découpler les composants environnementaux / génétiques à la corrélation fraternelle?ϵi1,ϵi2δ0iδ0iϵr122=.5
Macro
@Macro: Vous avez raison: n'est pas nécessaire dans le modèle. Merci de l'avoir signalé! Étrangement ne se plaint pas d'une telle redondance. δ0ilme
bluepole
Travaillez-vous toujours avec ce modèle sur-paramétré (cette partie de votre question n'a pas été modifiée)?
Macro

Réponses:

10

Vous pouvez inclure des jumeaux et des non-jumeaux dans un modèle unifié en utilisant une variable fictive et en incluant des pentes aléatoires dans cette variable fictive. Étant donné que toutes les familles ont au plus un ensemble de jumeaux, cela sera relativement simple:

Soit si le frère j de la famille i est un jumeau, et 0 sinon. Je suppose que vous souhaitez également que la pente aléatoire diffère pour les jumeaux par rapport aux frères et sœurs réguliers - sinon, n'incluez pas le terme η i 3 dans le modèle ci-dessous.Aij=1jiηi3

Ajustez ensuite le modèle:

yij=α0+α1xij+ηi0+ηi1Aij+ηi2xij+ηi3xijAij+εij
  • sont à effet fixe, comme dans votre spécificationα0,α1

  • est l'effet aléatoire de frère «de base» et η i 1 est l'effet aléatoire supplémentaire qui permet aux jumeaux d'être plus similaires que les frères et sœurs ordinaires. La taille des variances à effet aléatoire correspondantes quantifie la ressemblance des frères et sœurs et le nombre de jumeaux similaires à ceux des frères et sœurs ordinaires. Notez que les corrélations jumelles et non jumelles sont caractérisées par ce modèle - les corrélations jumelles sont calculées en additionnant les effets aléatoires de manière appropriée (branchez A i j = 1 ).ηi0ηi1Aij=1

  • et η i 3 ont des rôles analogues, seulement ils agissent comme les pentes aléatoires de x i jηi2ηi3xij

  • sont des termes d'erreur iid - notez que j'ai écrit votre modèle légèrement différemment en termes d'interceptions aléatoires plutôt que d'erreurs résiduelles corrélées.εij

Vous pouvez adapter le modèle à l'aide de l' Remballage lme4. Dans le code ci-dessous, la variable dépendante est y, la variable fictive est A, le prédicteur est x, le produit de la variable fictive et le prédicteur est Axet famIDest le numéro d'identification de la famille. Vos données sont supposées être stockées dans un bloc de données D, avec ces variables sous forme de colonnes.

library(lme4) 
g <- lmer(y ~ x + (1+A+x+Ax|famID), data=D) 

Les variables d'effet aléatoire et les estimations d'effets fixes peuvent être visualisées en tapant summary(g). Notez que ce modèle permet aux effets aléatoires d'être librement corrélés entre eux.

Dans de nombreux cas, il peut être plus logique (ou plus facilement interprétable) de supposer l'indépendance entre les effets aléatoires (par exemple, cette hypothèse est souvent faite pour décomposer la corrélation familiale génétique vs environnementale), auquel cas vous devriez plutôt taper

g <- lmer(y ~ x + (1|famID) + (A-1|famID) + (x-1|famID) +(Ax-1|famID), data=D) 
Macro
la source
C'est vraiment une bonne solution, et j'aime ça! Je vais l'essayer bientôt, et le voir disparaître ... Merci beaucoup!
bluepole
Je vous en prie. Si vous avez trouvé cette solution utile, pensez à accepter la réponse :)
Macro
Deux problèmes: 1) Comme la plupart des sujets sont des jumeaux dizygotes, votre approche ne semble pas modéliser la corrélation entre une paire de jumeaux DZ. 2) Seulement 4 familles ont des frères et sœurs supplémentaires. Je crains qu'il soit difficile d'estimer les effets aléatoires pour les frères et sœurs sur la base de ces 4 familles uniquement. Parce que la différence entre une paire de jumeaux DZ et un autre frère est relativement petite (principalement environnementale, pas génétique), je peux peut-être simplement ignorer la différence subtile entre le jumeau et le frère et traiter ces quelques frères et sœurs comme des jumeaux avec des effets aléatoires comme dans votre modèle ou avec des résidus corrélés comme dans mon OP.
bluepole
σ02+σ12σ02+σ12+σε2
where σ02,σ12 are the variances of ηi0,ηi1, respectively and σε2 is the variance of the error term. When the predictor values are not 0, this expression will also involve the variances of the other two random effects.
Macro
You're right that, since there are few non-twins, the variances of ηi0 and ηi2 are going to be difficult to estimate. You can leave them out, but you don't lose anything by using the model I've suggested but possibly computational brevity. If you do, you're effectively assuming that non-twin siblings are independent. But you can still be using those observations to estimate the mean parameters (i.e. don't leave them out of the model fitting). Or, as you said, you can just act as though regular siblings are the same as twins, and you wouldn't need to dummy coding at all.
Macro