Je me réfère à cet article: Hayes JR, Groner JI. "Utiliser plusieurs scores d'imputation et de propension pour tester l'effet de l'utilisation des sièges de voiture et de la ceinture de sécurité sur la gravité des blessures à partir des données du registre des traumatismes." J Pediatr Surg. 2008 mai; 43 (5): 924-7.
Dans cette étude, une imputation multiple a été réalisée pour obtenir 15 jeux de données complets. Les scores de propension ont ensuite été calculés pour chaque jeu de données. Ensuite, pour chaque unité d’observation, un enregistrement a été choisi de manière aléatoire dans l’un des 15 jeux de données complets (y compris le score de propension associé), créant ainsi un jeu de données final unique pour lequel a ensuite été analysé par appariement du score de propension.
Mes questions sont les suivantes: s’agit-il d’un moyen valable d’apparier le score de propension après une imputation multiple? Existe-t-il d'autres moyens de le faire?
Pour le contexte: Dans mon nouveau projet, mon objectif est de comparer les effets de 2 méthodes de traitement en utilisant la correspondance de score de propension. Il manque des données et j’ai l’intention d’utiliser le MICE
package de R pour imputer les valeurs manquantes, puis twang
pour faire le rapprochement du score de propension, puis lme4
pour analyser les données appariées.
Update1:
J'ai trouvé cet article qui adopte une approche différente: Mitra, Robin et Reiter, Jerome P. (2011) Concordance du score de propension avec les covariables manquantes via l'imputation multiple séquentielle itérée [document de travail].
Dans cet article, les auteurs calculent les scores de propension de tous les jeux de données imputés, puis les regroupent en effectuant une moyenne, ce qui est dans l’esprit de l’imputation multiple en utilisant la règle de Rubin pour une estimation ponctuelle - mais est-ce vraiment applicable pour un score de propension?
Ce serait vraiment bien si quelqu'un sur CV pouvait fournir une réponse avec des commentaires sur ces 2 approches différentes, et / ou toutes les autres ....
la source
cobalt
package intitulé "Utilisation de cobalt avec données compliquées". Vous pouvez y accéder ici: CRAN.R-project.org/package=cobaltIl pourrait y avoir un choc de deux paradigmes. L'imputation multiple est une solution bayésienne fortement basée sur un modèle: le concept d'imputation correcte indique essentiellement que vous devez échantillonner à partir de la distribution postérieure bien définie des données, sinon vous êtes foutus. La correspondance du score de propension, en revanche, est une procédure semi-paramétrique: une fois que vous avez calculé votre score de propension (peu importe comment, vous auriez pu utiliser une estimation de la densité du noyau, pas nécessairement un modèle logit), vous pouvez faire le reste. en prenant simplement les différences entre les observations traitées et non traitées avec le même score de propension, ce qui est un peu non paramétrique à présent, car il ne reste plus de modèle contrôlant les autres covariables. Je ne 'Abadie et Imbens (2008) ont expliqué qu'il était impossible de corriger correctement les erreurs types dans certaines situations d'appariement). Je donnerais plus de confiance aux approches plus douces comme la pondération par la propension inverse. Ma référence préférée à ce sujet est "Une économie plutôt inoffensive" , sous-titrée "Un compagnon empiriste", et destinée aux économistes, mais je pense que ce livre devrait être une lecture indispensable pour les autres spécialistes des sciences sociales, la plupart des biostatisticiens et des statisticiens non bio. qu'ils savent comment les autres disciplines abordent l'analyse des données.
Quoi qu'il en soit, l'utilisation d'une seule des 15 lignes de données complètes simulées par observation équivaut à une seule imputation. Par conséquent, vous perdez en efficacité par rapport aux 15 jeux de données complets et vous ne pouvez pas estimer correctement les erreurs standard. Cela me semble être une procédure déficiente, sous tous les angles.
Bien entendu, nous dissimulons volontiers sous le tapis l’hypothèse voulant que le modèle à imputation multiple et le modèle de propension soient corrects en ce sens qu’ils ont toutes les bonnes variables dans toutes les formes fonctionnelles appropriées. Il y a peu de moyens de vérifier cela (bien que je serais heureux d'entendre autrement les mesures de diagnostic pour ces deux méthodes).
la source
Je ne peux pas vraiment parler des aspects théoriques de la question, mais je vais donner mon expérience en utilisant des modèles PS / IPTW et l'imputation multiple.
la source