Quelle est la différence entre un modèle GLM (régression logistique) avec une variable de réponse binaire qui inclut le sujet et le temps comme covariables et le modèle GEE analogue qui prend en compte la corrélation entre les mesures à plusieurs moments?
Mon GLM ressemble à:
Y(binary) ~ A + B1X1(subject id) + B2X2(time)
+ B3X3(interesting continuous covariate)
avec fonction logit link.
Je suis à la recherche d'une explication simple (destinée aux spécialistes des sciences sociales) de la manière et de la raison pour lesquelles le temps est traité différemment dans les deux modèles et des implications pour l'interprétation.
Réponses:
Il peut y avoir une réponse meilleure et plus détaillée, mais je peux vous donner quelques réflexions simples et rapides. Il semble que vous parlez d'utiliser un modèle linéaire généralisé (par exemple, une régression logistique typique) pour ajuster les données recueillies auprès de certains sujets à plusieurs moments. À première vue, je vois deux problèmes flagrants avec cette approche.
Premièrement, ce modèle suppose que vos données sont indépendantes compte tenu des covariables (c'est-à-dire après avoir pris en compte un code fictif pour chaque sujet, semblable à un terme d'interception individuel et une tendance temporelle linéaire qui est égale pour tout le monde). Il est peu probable que cela soit vrai. Au lieu de cela, il y aura presque certainement des autocorrélations, par exemple, deux observations du même individu plus proches dans le temps seront plus similaires que deux observations plus éloignées dans le temps, même après avoir pris en compte le temps . (Bien qu'ils puissent être indépendants si vous incluez également une
subject ID x time
interaction - c'est-à-dire une tendance temporelle unique pour tout le monde - mais cela aggraverait le problème suivant.)Deuxièmement, vous allez brûler un nombre énorme de degrés de liberté en estimant un paramètre pour chaque participant. Il vous restera probablement relativement peu de degrés de liberté pour essayer d'estimer avec précision vos paramètres d'intérêt (bien sûr, cela dépend du nombre de mesures que vous avez par personne).
Ironiquement, le premier problème signifie que vos intervalles de confiance sont trop étroits, tandis que le second signifie que vos CI seront beaucoup plus larges qu'ils ne l'auraient été si vous n'aviez pas gaspillé la plupart de vos degrés de liberté. Cependant, je ne compterais pas sur ces deux équilibres. Pour ce que ça vaut, je crois que vos estimations de paramètres seraient non biaisées (bien que je puisse me tromper ici).
L'utilisation des équations d'estimation généralisées est appropriée dans ce cas. Lorsque vous ajustez un modèle à l'aide de GEE, vous spécifiez une structure corrélationnelle (telle que AR (1)), et il peut être tout à fait raisonnable que vos données soient indépendantes conditionnelles à la fois à vos covariables et à la matrice de corrélation que vous avez spécifiée. De plus, le GEE estime l'association moyenne de la population, vous n'avez donc pas besoin de brûler un degré de liberté pour chaque participant - en fait, vous faites une moyenne sur eux.
Quant à l'interprétation, à ma connaissance, elle serait la même dans les deux cas: étant donné que les autres facteurs restent constants, un changement d'une unité de X3 est associé à un changement de B3 dans les cotes logarithmiques de `` réussite '' .
la source