Supposons que j'ai une variable de réponse qui a été mesurée à partir du e frère de la e famille. De plus, certaines données comportementales ont été collectées en même temps auprès de chaque sujet. J'essaie d'analyser la situation avec le modèle linéaire à effets mixtes suivant:
où et sont respectivement l'ordonnée à l'origine et la pente fixes, est la pente aléatoire et est le résiduel.
Les hypothèses pour les effets aléatoires et résiduels sont (en supposant qu'il n'y a que deux frères et sœurs dans chaque famille)
où est un paramètre de variance inconnu et la structure de variance-covariance R est une matrice de forme symétrique 2 x 2
qui modélise la corrélation entre les deux frères et sœurs.
Est-ce un modèle approprié pour une telle étude sur les frères et sœurs?
Les données sont un peu compliquées. Parmi les 50 familles, près de 90% d'entre elles sont des jumeaux dizygotes (DZ). Pour les autres familles,
- deux n'ont qu'un frère ou une sœur;
- deux ont une paire DZ plus un frère; et
- deux ont une paire DZ plus deux frères et sœurs supplémentaires.
Je crois que
lme
le package Rnlme
peut facilement gérer (1) avec une situation manquante ou déséquilibrée. Mon problème est de savoir comment gérer (2) et (3)? Une possibilité à laquelle je peux penser est de diviser chacune de ces quatre familles en (2) et (3) en deux afin que chaque sous-famille ait un ou deux frères et sœurs afin que le modèle ci-dessus puisse être appliqué. Est-ce bien? Une autre option serait de simplement jeter les données d'un ou deux frères et sœurs supplémentaires dans (2) et (3), ce qui semble être un gaspillage. De meilleures approches?Il semble que cela
lme
permette de fixer les valeurs dans la matrice de variance-covariance résiduelle R , par exemple r 2 = 0,5. Est-il judicieux d'imposer la structure de corrélation, ou devrais-je simplement l'estimer sur la base des données?
la source
lme
Réponses:
Vous pouvez inclure des jumeaux et des non-jumeaux dans un modèle unifié en utilisant une variable fictive et en incluant des pentes aléatoires dans cette variable fictive. Étant donné que toutes les familles ont au plus un ensemble de jumeaux, cela sera relativement simple:
Soit si le frère j de la famille i est un jumeau, et 0 sinon. Je suppose que vous souhaitez également que la pente aléatoire diffère pour les jumeaux par rapport aux frères et sœurs réguliers - sinon, n'incluez pas le terme η i 3 dans le modèle ci-dessous.Aij=1 j i ηi3
Ajustez ensuite le modèle:
sont à effet fixe, comme dans votre spécificationα0,α1
est l'effet aléatoire de frère «de base» et η i 1 est l'effet aléatoire supplémentaire qui permet aux jumeaux d'être plus similaires que les frères et sœurs ordinaires. La taille des variances à effet aléatoire correspondantes quantifie la ressemblance des frères et sœurs et le nombre de jumeaux similaires à ceux des frères et sœurs ordinaires. Notez que les corrélations jumelles et non jumelles sont caractérisées par ce modèle - les corrélations jumelles sont calculées en additionnant les effets aléatoires de manière appropriée (branchez A i j = 1 ).ηi0 ηi1 Aij=1
et η i 3 ont des rôles analogues, seulement ils agissent comme les pentes aléatoires de x i jηi2 ηi3 xij
sont des termes d'erreur iid - notez que j'ai écrit votre modèle légèrement différemment en termes d'interceptions aléatoires plutôt que d'erreurs résiduelles corrélées.εij
Vous pouvez adapter le modèle à l'aide de l'
R
emballagelme4
. Dans le code ci-dessous, la variable dépendante esty
, la variable fictive estA
, le prédicteur estx
, le produit de la variable fictive et le prédicteur estAx
etfamID
est le numéro d'identification de la famille. Vos données sont supposées être stockées dans un bloc de donnéesD
, avec ces variables sous forme de colonnes.Les variables d'effet aléatoire et les estimations d'effets fixes peuvent être visualisées en tapant
summary(g)
. Notez que ce modèle permet aux effets aléatoires d'être librement corrélés entre eux.Dans de nombreux cas, il peut être plus logique (ou plus facilement interprétable) de supposer l'indépendance entre les effets aléatoires (par exemple, cette hypothèse est souvent faite pour décomposer la corrélation familiale génétique vs environnementale), auquel cas vous devriez plutôt taper
la source