Choix des poids de chemin dans les modèles conceptuels SEM pour des jumeaux identiques et fraternels utilisant openMx

10

J'examine le package R OpenMx pour une analyse d'épidémiologie génétique afin d'apprendre à spécifier et à adapter les modèles SEM. Je suis nouveau dans ce domaine alors soyez indulgent avec moi. Je suis l'exemple de la page 59 du Guide de l'utilisateur d'OpenMx . Ici, ils dessinent le modèle conceptuel suivant:

Modèles SEM pour des jumeaux identiques et fraternels

Et en spécifiant les chemins, ils fixent le poids du nœud "un" latent aux nœuds bmi manifestés "T1" et "T2" à 0,6 car:

Les principaux chemins d'intérêt sont ceux de chacune des variables latentes à la variable observée respective. Ceux-ci sont également estimés (donc tous sont libérés), obtiennent une valeur de départ de 0,6 et des étiquettes appropriées.

# path coefficients for twin 1
mxPath(
  from=c("A1","C1","E1"),
  to="bmi1",
  arrows=1,
  free=TRUE,
  values=0.6,
  label=c("a","c","e")
),

# path coefficients for twin 2
mxPath(
  from=c("A2","C2","E2"),
  to="bmi2",
  arrows=1,
  free=TRUE,
  values=0.6,
  label=c("a","c","e")
),

La valeur de 0,6 provient de la covariance estimée de bmi1et bmi2(de paires de jumeaux strictement mono zygotiques). J'ai deux questions:

  1. Quand ils disent que le chemin reçoit une valeur "de départ" de 0,6, est-ce comme établir une routine d'intégration numérique avec des valeurs initiales, comme dans l'estimation des GLM?

  2. Pourquoi cette valeur est-elle estimée strictement à partir des jumeaux monozygotes?

AdamO
la source

Réponses:

4

Pour répondre à vos 2 points:

1) Oui, exactement - la valeur de départ indique simplement où l'algorithme commencera le processus d'optimisation. La plupart des progiciels déterminent en fait leur propre valeur de départ par défaut, et l'utilisateur doit essayer de saisir différentes valeurs uniquement lorsque des problèmes surviennent pendant l'estimation. D'après mon expérience, les valeurs de départ les plus plausibles feront l'affaire et ne changeront pas le modèle final sur lequel l'algorithme converge.

2) La valeur 0,6 est la valeur de départ non pas pour l'ordonnée à l'origine de T1 et T2 (chemin entre "un" et T1 & T2), mais c'est plutôt la valeur de départ pour les chargements factoriels reliant chaque variable latente (A, C, E ) à leur indicateur T1 ou T2. Ceci est indiqué par le fait que le chemin va from=c("A1","C1","E1"), to="bmi1"dans le premier cas, et from=c("A2","C2","E2"), to="bmi2"dans le second cas.

Quant à la valeur spécifique "0.6": je n'ai pas pu trouver dans la documentation où ils mentionnent la prise de cette valeur basée sur le sous-groupe des jumeaux monozygotes; et en fait, ces estimations de paramètres (charges factorielles pour les 3 variables latentes) ne peuvent pas être calculées directement à partir de l'échantillon, car par définition, ces variables latentes ne sont pas observées (elles sont latentes). Comme je le mentionne au point # 1, le choix entre deux valeurs plausibles affectera rarement les estimations des paramètres du modèle convergé, donc je suppose qu'ils ont simplement choisi l'une des nombreuses valeurs plausibles pour ces chargements de facteur comme valeurs de départ. Que cette valeur provienne de la covariance estimée entre bmi1 et bmi2 dans le sous-groupe des jumeaux monozygotes uniquement ne devrait pas être pertinent, car toute valeur de départ plausible devrait conduire l'algorithme à converger vers les mêmes valeurs finales, peut-être avec quelques différences de temps de calcul. (Et mon conseil pour vous convaincre est: essayez-le! Essayez plusieurs valeurs de départ et comparez les estimations des paramètres des modèles convergents.)

De manière générale, je soulignerai que le choix des valeurs de départ pour toute estimation de paramètre devient TRÈS important si l'argument freeest défini sur FALSE, car la valeur de départ deviendra effectivement la valeur de l'estimation de paramètre dans le modèle final (elle ne être estimée; elle est fixée avant l’estimation).

Patrick Coulombe
la source