Pondération du score de propension dans l'analyse Cox PH et la sélection des covariables

11

Concernant la pondération du score de propension (IPTW) lors de la modélisation du risque proportionnel de Cox des données de survie dans le temps:

J'ai des données de registre prospectives où nous souhaitons étudier l'effet du traitement d'un médicament que, dans la plupart des cas, les patients prenaient déjà au départ. Je ne sais donc pas comment analyser au mieux les données. Potentiellement, certaines des variables de référence sont dans une large mesure influencées par le traitement et non l'inverse (par exemple, certains biomarqueurs). Je suis un peu perdu quant aux covariables que je devrais inclure dans le modèle de score de propension pour estimer les poids et quelles covariables je devrais inclure comme covariables dans le coxphmodèle (le cas échéant). Tout indice dans la bonne direction serait utile! Je n'ai pas encore trouvé de documentation à ce sujet dans la modélisation CoxPh.

Je pense que les covariables qui représentent des traitements institués au départ qui (pourraient) influencer le résultat devraient être incluses en tant que covariables de Cox PH, mais je n'en suis pas sûr.

Comment puis-je déterminer quelles variables doivent être incluses comme covariables dans le modèle de Cox au lieu d'être utilisées dans le calcul des pondérations des scores de propension?


Question complémentaire:

Je comprends le problème héréditaire de l'évaluation d'un effet thérapeutique d'une certaine intervention qui a déjà commencé - c'est-à-dire qui est répandue chez les patients, avant le début de l'observation. Tant en ce qui concerne l'introduction de biais liés à la variation dans le temps du risque (par exemple, les effets secondaires indésirables plus fréquents la première année de traitement) que les covariables affectées par le traitement. Si je ne me trompe pas - cela a été proposé comme une cause de divergence entre l'observation et la randomisation en ce qui concerne les paramètres cardiovasculaires et l'hormonothérapie substitutive. Dans mon ensemble de données, en revanche, nous souhaitons étudier un éventuel effet indésirable du traitement.

Si j'utilise l'ajustement du score de propension pour étudier l'effet du traitement chez les utilisateurs répandus, c'est-à-dire déjà en utilisant le médicament avant le début de l'observation, dans les données de cohorte et nous observons un effet indésirable d'une thérapie pharmacologique (et c'est ce que nous recherchions). Puis-je exclure la possibilité de surestimer le risque associé au traitement? C'est-à-dire que tant que le risque est significativement élevé, il n'est "certainement" pas protecteur?

Je ne peux pas vraiment imaginer un exemple où ce type de biais peut introduire une surestimation du risque d'association de risque de falsification dans ce contexte.

Kjetil Loland
la source

Réponses:

9

En théorie, chaque variable que vous sélectionnez dans le cadre du poids du score de propension n'a pas besoin d'être incluse comme covariables dans le modèle, car la pondération a déjà contrôlé leur confusion potentielle. Avec un modèle de pondération approprié, vous pouvez littéralement modéliser l'effet de l'exposition.

Cela étant dit, vous souhaiterez peut-être inclure des termes dans le modèle:

  • Estimations "doublement robustes". Il n'y a aucune raison, sauf pour une perte de précision, que vous ne pouvez pas utiliser des variables à la fois dans le modèle de pondération et comme covariables. En théorie, vous vous protégez contre la confusion de deux façons (d'où cette technique appelée «doublement robuste»). Gardez à l'esprit que cela vous protège uniquement contre le modèle PS ou le modèle covariable mal spécifié en vous donnant une "deuxième chance" pour spécifier le modèle correct, ce n'est pas un correctif magique.
  • Estimations d'intérêt multiples. La pondération fait disparaître les estimations de l'effet des covariables - si vous voulez un coefficient de régression pour la variable, vous allez vouloir l'inclure comme covariable dans l'étape CoxPH et non dans le modèle PS.

Essayez de rechercher «Doublement robuste» et des termes similaires dans des revues comme Epidemiology ou The American Journal of Epidemiology ainsi que dans la littérature biostatistique et vous devriez découvrir quelques sources utiles.

Fomite
la source
Merci pour une réponse (rapide) et claire! J'ai vu une mention doublement robuste, mais j'ai beaucoup cherché. Je le ferai définitivement maintenant. Diriez-vous que l'utilisation d'estimations doublement robustes est justifiée lorsque les covariables ne sont pas adéquatement ajustées après pondération (par exemple) des différences significatives entre les groupes de traitement?
Kjetil Loland
1
@KjetilLoland Cela peut être une raison d'utiliser une estimation doublement robuste - en général, c'est quelque chose à examiner chaque fois que vous craignez qu'une méthode de contrôle des variables souffre d'une erreur de spécification. Je vérifierais également que votre modèle PS n'agit pas et vous donne de bons scores de propension qui se chevauchent entre les deux groupes.
Fomite
1
En raison de la non-pliabilité du rapport de risque, il n'est pas suffisant d'inclure uniquement les variables dans le PS. Il est courant de laisser le PS inclure "l'évier de la cuisine" et les prédicteurs les plus importants connus doivent à nouveau être inclus en tant que covariables. Cela évitera la sous-estimation du rapport de risques de l'exposition.
Frank Harrell
Encore merci à @EpiGrad et Frank pour vos réponses. Je ne peux pas dire exactement que les groupes de traitement ont de bons scores de propension qui se chevauchent. Je finirais donc probablement par utiliser un ajustement covariable étendu. En passant, j'ai remarqué que j'ai écrit IPTW, alors qu'en fait j'utilise le paquet twang - qui utilise une régression boostée généralisée pour estimer les poids (si j'ai raison) - mais je suppose que cela ne change pas l'approche générale beaucoup.
Kjetil Loland
@KjetilLoland Vous pouvez au moins vérifier visuellement si vos scores PS se chevauchent ou non en examinant les graphiques qui se chevauchent de leur distribution par groupe de traitement.
Fomite
3

Il est important de distinguer «affecté par le traitement» et «lié au traitement». Ces derniers peuvent inclure des facteurs de sélection de traitement tels que ceux pour lesquels nous essayons d'ajuster avec propension et / ou ajustement covariable. «Affecté par le traitement» implique que les covariables sont mesurées après le temps zéro (par exemple, après la randomisation ou après le début du traitement), ce qui signifie qu'elles doivent rarement être utilisées.

Frank Harrell
la source
Merci encore, Dr. Harrell. Certaines de nos variables sont définitivement "affectées par le traitement". Le traitement que nous essayons d'enquêter a été initié avant la ligne de base, ce qui bien sûr n'est pas idéal. La question de savoir si l'ajustement du score de propension convient ou non à ce type d'analyse est peut-être une meilleure question. Je ne suis cependant au courant d'aucune autre façon d'enquêter.
Kjetil Loland
La conception de l'étude peut ne pas convenir à ce que vous voulez faire. L'étude sera très difficile à interpréter. Vous pouvez demander à des experts en la matière d'essayer de trouver un sous-ensemble de variables qui sont très susceptibles de ne pas changer avec le traitement, mais l'ajustement pour la confusion par implication peut être incomplet.
Frank Harrell
Je vois. Je suppose que cela commence à ressembler un peu aux anciennes études observationnelles vs randomisées HRT sur les maladies cardiovasculaires. Corrigez-moi si je me trompe, mais je ne "risque" pas de sous-estimer le risque d'un éventuel effet indésirable du traitement (ce que nous recherchons) - c'est-à-dire tant que nous montrons que le traitement est défavorable, ce genre de facteurs de confusion ne pouvait qu'affaiblir la conclusion? J'ai mis à jour la question en conséquence.
Kjetil Loland
2
C'est plus qu'un problème d'observation vs randomisé, mais il y a une relation avec les études de THS. Vous avez peut-être raison de penser qu'un raisonnement minutieux pourrait justifier de traiter les résultats comme fournissant une limite inférieure.
Frank Harrell