Je suis un épidémiologiste qui essaie de comprendre les GEE afin d'analyser correctement une étude de cohorte (en utilisant la régression de Poisson avec un lien log, pour estimer le risque relatif). J'ai quelques questions sur la "corrélation de travail" que j'aimerais que quelqu'un de mieux informé clarifie:
(1) Si j'ai répété des mesures chez le même individu, est-il généralement plus raisonnable de supposer une structure échangeable? (Ou un autorégressif si les mesures montrent une tendance)? Qu'en est-il de l'indépendance - y a-t-il des cas où l'on pourrait supposer l'indépendance pour des mesures chez le même individu?
(2) Existe-t-il un moyen (raisonnablement simple) d'évaluer la structure appropriée en examinant les données?
(3) J'ai remarqué que, lors du choix d'une structure d'indépendance, j'obtiens les mêmes estimations ponctuelles (mais des erreurs standard inférieures) que lors de l'exécution d'une régression de Poisson simple (en utilisant R, la fonction glm()
et à geeglm()
partir du package geepack
). Pourquoi cela arrive-t-il? Je comprends qu'avec les GEE, vous estimez un modèle à moyenne de population (contrairement à un sujet spécifique), vous ne devriez donc obtenir les mêmes estimations ponctuelles que dans le cas de la régression linéaire.
(4) Si ma cohorte se trouve sur plusieurs sites (mais une mesure par individu), dois-je choisir une indépendance ou une corrélation de travail échangeable, et pourquoi? Je veux dire, les individus de chaque site sont toujours indépendants les uns des autres, non ?? Ainsi, pour un modèle spécifique à un sujet, par exemple, je spécifierais le site comme un effet aléatoire. Avec GEE cependant, l'indépendance et l'échange donnent des estimations différentes et je ne sais pas laquelle est la meilleure en termes d'hypothèses sous-jacentes.
(5) GEE peut-il gérer un regroupement hiérarchique à 2 niveaux, c'est-à-dire une cohorte multi-sites avec des mesures répétées par individu? Si oui, que dois-je spécifier comme variable de clustering geeglm()
et quelle devrait être la corrélation de travail si l'on suppose par exemple "indépendance" pour le premier niveau (site) et "échangeable" ou "autorégressif" pour le deuxième niveau (individuel)?
Je comprends que ce sont quelques questions, et certaines d'entre elles peuvent être assez basiques, mais toujours très difficiles à comprendre pour moi (et peut-être d'autres novices?). Donc, toute aide est grandement et sincèrement appréciée, et pour montrer cela, j'ai commencé une prime.
(1) Vous aurez probablement besoin d'une sorte de structure autorégressive, simplement parce que nous nous attendons à ce que les mesures prises plus éloignées soient moins corrélées que celles prises plus près les unes des autres. Échangeables supposerait qu'ils sont tous également corrélés. Mais comme pour tout le reste, cela dépend.
(2) Je pense que ce type de décision revient à réfléchir à la façon dont les données ont été générées, plutôt qu'à voir à quoi elles ressemblent.
(4) cela dépend. Par exemple, les enfants nichés dans des écoles ne devraient pas, dans la plupart des cas, être traités comme indépendants. En raison de la structure sociale, etc., si je sais quelque chose sur un enfant dans une école donnée, je connais probablement au moins un peu d'autres enfants dans les écoles. J'ai utilisé GEE pour étudier les relations entre différents indicateurs sociaux et économiques et la prévalence de l'obésité dans une cohorte de naissance où les participants étaient nichés dans des quartiers. J'ai utilisé une structure échangeable. Vous pouvez trouver l' article ici et vérifier certaines des références, dont 2 tirées de revues epi.
(5) Apparemment (par exemple, voir cet exemple ), mais je ne peux pas m'empêcher de faire les spécificités R de faire cela.
Zeger SL, Liang KY, Albert PS. Modèles de données longitudinales: une approche d'équation d'estimation généralisée. Biométrie. 1988; 44: 1049–60.
Hubbard AE, Ahern J, Fleischer N, van der Laan M, Lippman S, Bruckner T, Satariano W. À GEE ou non à GEE: comparaison de la fonction d'estimation et des méthodes fondées sur la vraisemblance pour estimer les associations entre les quartiers et la santé. Épidémiologie. 2009
Le juge Hanley, Negassa A, Edwardes MDB, Forrester JE. Analyse statistique des données corrélées à l'aide d'équations d'estimation généralisées: une orientation. Suis J Epidemiol. 2003; 157: 364.
la source
(0) Remarques générales: la plupart des modèles que je vois sur la validation croisée sont beaucoup trop compliqués. Simplifiez si possible. Il vaut souvent la peine de modéliser avec GEE et un modèle mixte pour comparer les résultats.
(1) Oui. Choisissez échangeable. Ma réponse sans ambiguïté est basée sur l'avantage le plus largement vanté de GEE: la résilience des estimations aux hypothèses formulées.
Si vous regardez des études dans votre domaine, vous devriez voir que exch est l'option par défaut. Cela ne signifie pas que c'est le meilleur, mais devrait être le premier à considérer. Conseiller exch sera le meilleur conseil sans avoir une connaissance détaillée de vos données.
(2) Oui, il existe des approches basées sur les données telles que «QIC». Il s'agit d'un exemple Stata, mais largement accepté comme une option raisonnable, bien que très rarement utilisé dans la pratique:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) Les estimations ponctuelles ne sont jamais exactement les mêmes (sauf si vous utilisez une structure de corrélation indépendante), mais sont généralement assez proches. Vous pouvez trouver de nombreux articles comparant des estimations de modèles d'effets simples / mixtes / mixtes pour en avoir une idée ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ) La plupart des manuels scolaires ont également un tableau ou deux pour cela. Pour une structure de corrélation indépendante, vous exécutez essentiellement le modèle de poisson avec des SE robustes. Les estimations seront donc exactement les mêmes. Les SE sont généralement plus grands. Mais parfois, les SE robustes sont plus petits (c'est la vie: Google fournit une explication sans douleur si cela vous intéresse)
(4) Voir (1) et (2) ci-dessus.
(5) Non. Ou mieux, vous pouvez tout faire si vous y mettez suffisamment d'efforts, mais cela en vaut très rarement la peine.
la source
Vous utilisez la mauvaise approche avec un gee pour faire ce que vous faites parce que vous ne connaissez pas la structure et vos résultats seront probablement confondus. Référez-vous à Jamie Robinson. Vous devez utiliser longtemps. TMLE (mark van der laan) ou peut-être un gee avec des poids iptw. Ne pas tenir compte de la corrélation sous-estime la variance. Imaginez que si toutes les mesures répétées étaient corrélées à 100%, vous auriez effectivement beaucoup moins d'observations (essentiellement n seulement pour vos n sujets) et n plus petit signifie une variance plus élevée.
la source