GEE: choisir la bonne structure de corrélation de travail

19

Je suis un épidémiologiste qui essaie de comprendre les GEE afin d'analyser correctement une étude de cohorte (en utilisant la régression de Poisson avec un lien log, pour estimer le risque relatif). J'ai quelques questions sur la "corrélation de travail" que j'aimerais que quelqu'un de mieux informé clarifie:

(1) Si j'ai répété des mesures chez le même individu, est-il généralement plus raisonnable de supposer une structure échangeable? (Ou un autorégressif si les mesures montrent une tendance)? Qu'en est-il de l'indépendance - y a-t-il des cas où l'on pourrait supposer l'indépendance pour des mesures chez le même individu?

(2) Existe-t-il un moyen (raisonnablement simple) d'évaluer la structure appropriée en examinant les données?

(3) J'ai remarqué que, lors du choix d'une structure d'indépendance, j'obtiens les mêmes estimations ponctuelles (mais des erreurs standard inférieures) que lors de l'exécution d'une régression de Poisson simple (en utilisant R, la fonction glm()et à geeglm()partir du package geepack). Pourquoi cela arrive-t-il? Je comprends qu'avec les GEE, vous estimez un modèle à moyenne de population (contrairement à un sujet spécifique), vous ne devriez donc obtenir les mêmes estimations ponctuelles que dans le cas de la régression linéaire.

(4) Si ma cohorte se trouve sur plusieurs sites (mais une mesure par individu), dois-je choisir une indépendance ou une corrélation de travail échangeable, et pourquoi? Je veux dire, les individus de chaque site sont toujours indépendants les uns des autres, non ?? Ainsi, pour un modèle spécifique à un sujet, par exemple, je spécifierais le site comme un effet aléatoire. Avec GEE cependant, l'indépendance et l'échange donnent des estimations différentes et je ne sais pas laquelle est la meilleure en termes d'hypothèses sous-jacentes.

(5) GEE peut-il gérer un regroupement hiérarchique à 2 niveaux, c'est-à-dire une cohorte multi-sites avec des mesures répétées par individu? Si oui, que dois-je spécifier comme variable de clustering geeglm()et quelle devrait être la corrélation de travail si l'on suppose par exemple "indépendance" pour le premier niveau (site) et "échangeable" ou "autorégressif" pour le deuxième niveau (individuel)?

Je comprends que ce sont quelques questions, et certaines d'entre elles peuvent être assez basiques, mais toujours très difficiles à comprendre pour moi (et peut-être d'autres novices?). Donc, toute aide est grandement et sincèrement appréciée, et pour montrer cela, j'ai commencé une prime.

Theodore Lytras
la source

Réponses:

12
  1. Pas nécessairement. Avec de petits grappes, une conception déséquilibrée et un ajustement de confusion intra-grappes incomplet, la corrélation échangeable peut être plus inefficace et biaisée que le GEE indépendant. Ces hypothèses peuvent également être assez solides. Cependant, lorsque ces hypothèses sont remplies, vous obtenez une inférence plus efficace avec l'échange. Je n'ai jamais trouvé d'exemple où les structures de corrélation AR-1 ont du sens, car il est rare d'avoir des mesures équilibrées dans le temps (je travaille avec des données de sujets humains).

  2. Eh bien, l'exploration de la corrélation est bonne et devrait se faire dans l'analyse des données. Cependant, cela ne devrait vraiment pas guider la prise de décision. Vous pouvez utiliser des variogrammes et des lorellogrammes pour visualiser la corrélation dans les études longitudinales et de panel. La corrélation intracluster est une bonne mesure de l'étendue de la corrélation au sein des clusters.

  3. Contrairement aux modèles mixtes, la structure de corrélation dans GEE n'affecte pas les estimations des paramètres marginaux (que vous estimez avec GEE). Cependant, cela affecte les estimations d'erreur standard. Ceci est indépendant de toute fonction de liaison. La fonction de liaison dans le GEE est pour le modèle marginal.

  4. Les sites peuvent être des sources de variations non mesurées, comme des dents dans la bouche ou des élèves dans un district scolaire. Il existe un potentiel de confusion au niveau du cluster dans ces données, telles que la propension génétique à la carie dentaire ou le financement de l'éducation communautaire, donc pour cette raison, vous obtiendrez de meilleures estimations d'erreur standard en utilisant une structure de corrélation échangeable.

  5. Le calcul des effets marginaux dans un GEE est compliqué lorsqu'ils ne sont pas imbriqués mais cela peut être fait . L'imbrication est facile et vous faites exactement ce que vous avez dit.

AdamO
la source
(Concernant # 5) Donc, dans le cas d'un cluster imbriqué, il suffit de sélectionner la variable de cluster de niveau supérieur et c'est tout?
Theodore Lytras du
Non, vous pouvez créer une structure de corrélation échangeable hiérarchique à deux niveaux et estimer de manière cohérente les deux paramètres de corrélation distincts pour la corrélation à l'aide d'un algorithme EM à 3 étapes. De cette façon, vous sauriez que les enfants au sein des communautés sont corrélés, mais pas aussi corrélés que les enfants d'un ménage.
AdamO
Désolé, je ne comprends pas cela. Pourriez-vous m'indiquer un code, de préférence en R ou Stata? Je suppose que cela devrait aider.
Theodore Lytras
1
@TheodoreLytras désolé, je me suis trompé. Votre affirmation précédente est correcte. D'après l'article que j'ai lié, "De plus, si plusieurs grappes sont parfaitement imbriquées, le regroupement GEE au niveau supérieur représente la structure de corrélation à plusieurs niveaux via l'estimateur de variance sandwich".
AdamO
1
Peut-être que vous voulez dire autre chose, mais lorsque vous dites "La structure de corrélation dans GEE, contrairement aux modèles mixtes, n'affecte pas les estimations des paramètres marginaux", je pense que ce n'est pas vrai. Au moins, si vous voulez dire que les coefficients sont inchangés en choisissant une matrice de corrélation de travail différente, ce n'est pas ce qui se produit: la matrice de corrélation fonctionne dans la matrice de pondération et affecte la matrice de covariance ainsi que les coefficients.
Nick
6

(1) Vous aurez probablement besoin d'une sorte de structure autorégressive, simplement parce que nous nous attendons à ce que les mesures prises plus éloignées soient moins corrélées que celles prises plus près les unes des autres. Échangeables supposerait qu'ils sont tous également corrélés. Mais comme pour tout le reste, cela dépend.

(2) Je pense que ce type de décision revient à réfléchir à la façon dont les données ont été générées, plutôt qu'à voir à quoi elles ressemblent.

(4) cela dépend. Par exemple, les enfants nichés dans des écoles ne devraient pas, dans la plupart des cas, être traités comme indépendants. En raison de la structure sociale, etc., si je sais quelque chose sur un enfant dans une école donnée, je connais probablement au moins un peu d'autres enfants dans les écoles. J'ai utilisé GEE pour étudier les relations entre différents indicateurs sociaux et économiques et la prévalence de l'obésité dans une cohorte de naissance où les participants étaient nichés dans des quartiers. J'ai utilisé une structure échangeable. Vous pouvez trouver l' article ici et vérifier certaines des références, dont 2 tirées de revues epi.

(5) Apparemment (par exemple, voir cet exemple ), mais je ne peux pas m'empêcher de faire les spécificités R de faire cela.

Zeger SL, Liang KY, Albert PS. Modèles de données longitudinales: une approche d'équation d'estimation généralisée. Biométrie. 1988; 44: 1049–60.

Hubbard AE, Ahern J, Fleischer N, van der Laan M, Lippman S, Bruckner T, Satariano W. À GEE ou non à GEE: comparaison de la fonction d'estimation et des méthodes fondées sur la vraisemblance pour estimer les associations entre les quartiers et la santé. Épidémiologie. 2009

Le juge Hanley, Negassa A, Edwardes MDB, Forrester JE. Analyse statistique des données corrélées à l'aide d'équations d'estimation généralisées: une orientation. Suis J Epidemiol. 2003; 157: 364.

DL Dahly
la source
Cela est certes utile, mais je me demande pourquoi quelqu'un utiliserait-il alors une structure d'indépendance, car le regroupement en soi implique une certaine similitude entre les observations. Cependant, j'ai l'impression que dans le cas des écoles, la similitude est en relation avec les autres écoles , et au sein de chaque école, les élèves seraient indépendants. Je ne suis donc toujours pas très clair à ce sujet.
Theodore Lytras
Oui, si vous avez limité votre modélisation d'échantillons et de sous-séquences à une seule école, pas de soucis. Dans ce cas, il serait plus justifié de supposer que les erreurs sont iid. Mais une fois que vous commencez à combiner des enfants de différentes écoles dans le même échantillon / modèle, cette hypothèse devient tenace, à moins que vous ne teniez compte de l'école dans le modèle, c'est-à-dire que les erreurs conditionnelles à l'école soient supposées iid.
DL Dahly
Il convient également de noter que les gens pourraient vous être plus utiles si vous pouviez fournir des détails sur la taille de l'échantillon, le nombre et le calendrier des mesures répétées, le nombre de grappes, etc.
DL Dahly
2
@DLDahly votre point en (1) n'est pas quelque chose que je trouve souvent dans les analyses de panel biostatistiques. L'une des hypothèses sous-jacentes aux structures de corrélation AR-N est que, si l'on dispose de suffisamment de temps entre elles, deux mesures sur le même individu seront aussi non corrélées que deux mesures entre des individus différents. Cependant, les principaux facteurs de confusion inter-grappes sous-jacents ne sont souvent pas des covariables variant dans le temps (comme les marqueurs génétiques), et supposer le contraire est très difficile (sinon impossible) à évaluer. Un lorrélogramme est cependant un très bon point de départ.
AdamO
1

(0) Remarques générales: la plupart des modèles que je vois sur la validation croisée sont beaucoup trop compliqués. Simplifiez si possible. Il vaut souvent la peine de modéliser avec GEE et un modèle mixte pour comparer les résultats.
(1) Oui. Choisissez échangeable. Ma réponse sans ambiguïté est basée sur l'avantage le plus largement vanté de GEE: la résilience des estimations aux hypothèses formulées.
Si vous regardez des études dans votre domaine, vous devriez voir que exch est l'option par défaut. Cela ne signifie pas que c'est le meilleur, mais devrait être le premier à considérer. Conseiller exch sera le meilleur conseil sans avoir une connaissance détaillée de vos données.
(2) Oui, il existe des approches basées sur les données telles que «QIC». Il s'agit d'un exemple Stata, mais largement accepté comme une option raisonnable, bien que très rarement utilisé dans la pratique:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) Les estimations ponctuelles ne sont jamais exactement les mêmes (sauf si vous utilisez une structure de corrélation indépendante), mais sont généralement assez proches. Vous pouvez trouver de nombreux articles comparant des estimations de modèles d'effets simples / mixtes / mixtes pour en avoir une idée ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ) La plupart des manuels scolaires ont également un tableau ou deux pour cela. Pour une structure de corrélation indépendante, vous exécutez essentiellement le modèle de poisson avec des SE robustes. Les estimations seront donc exactement les mêmes. Les SE sont généralement plus grands. Mais parfois, les SE robustes sont plus petits (c'est la vie: Google fournit une explication sans douleur si cela vous intéresse)
(4) Voir (1) et (2) ci-dessus.
(5) Non. Ou mieux, vous pouvez tout faire si vous y mettez suffisamment d'efforts, mais cela en vaut très rarement la peine.

Charles
la source
0

Vous utilisez la mauvaise approche avec un gee pour faire ce que vous faites parce que vous ne connaissez pas la structure et vos résultats seront probablement confondus. Référez-vous à Jamie Robinson. Vous devez utiliser longtemps. TMLE (mark van der laan) ou peut-être un gee avec des poids iptw. Ne pas tenir compte de la corrélation sous-estime la variance. Imaginez que si toutes les mesures répétées étaient corrélées à 100%, vous auriez effectivement beaucoup moins d'observations (essentiellement n seulement pour vos n sujets) et n plus petit signifie une variance plus élevée.

Jonathan Levy
la source
Si vous avez un type de résultat non-survie, vous pouvez utiliser l'approche gee avec une structure corr indépendante et des poids iptw comme suggéré pour des estimations non biaisées, en supposant que vous obtenez le bon score de propension. TMLE est le mieux dans tous les cas, survie ou non, car vous pouvez utiliser l'apprentissage d'ensemble pour prédire les scores de propension et les régressions séquentielles tout en obtenant une inférence efficace. Votre approche sera sûrement biaisée et donnera une inférence incorrecte et plus votre taille d'échantillon sera grande, s'il n'y a pas d'effet, vous identifierez probablement un mauvais effet significatif !!
Jonathan Levy
Cela pourrait utiliser plus de détails. Qu'est-ce que Janie Robinson? Quel article de van der Laan?
mdewey
@mdewey désolé, faute de frappe, voulait dire Jamie Robins. Essayez Robins, hernan, Babette 2000 modèles structurels marginaux et inférence causale - excellente méthode pour les résultats de non-survie, y compris la façon de faire du msm avec des modificateurs d'effet. Pour laan, référencez le livre, apprentissage ciblé. Comme je l'ai dit, laan est probablement le meilleur mais prend plus de temps à comprendre. Le package R Ltmle utilise cette méthodologie mais prend un certain temps à apprendre.
Jonathan Levy