J'admets que je suis relativement nouveau dans les scores de propension et l'analyse causale.
Une chose qui ne me semble pas évident en tant que nouveau venu est de savoir en quoi l’équilibrage à l’aide des scores de propension est mathématiquement différent de ce qui se produit lorsque nous ajoutons des covariables dans une régression. En quoi l'opération est-elle différente et pourquoi est-elle (ou est-elle) meilleure que l'ajout de covariables de sous-population dans une régression?
Certaines études comparent empiriquement les méthodes, mais je n'ai pas vu de bonne discussion relier les propriétés mathématiques des deux méthodes et expliquer pourquoi PSM se prête à des interprétations causales alors que l'inclusion de covariables de régression ne le fait pas. Il semble également y avoir beaucoup de confusion et de controverse dans ce domaine, ce qui rend les choses encore plus difficiles à comprendre.
Avez-vous des idées à ce sujet ou des indicateurs de bonnes ressources / documents pour mieux comprendre la distinction? (Je fais lentement mon chemin à travers le livre de causalité de Judea Pearl, donc pas besoin de m'indiquer ça)
Réponses:
Une grande différence est que la régression "contrôle" ces caractéristiques de manière linéaire. L'appariement par les scores de propension élimine l'hypothèse de linéarité, mais comme certaines observations peuvent ne pas correspondre, il se peut que vous ne puissiez rien dire à propos de certains groupes.
Par exemple, si vous étudiez un programme de formation des travailleurs, vous pouvez avoir tous les hommes inscrits, mais la population de contrôle non-participants doit être composée d'hommes et de femmes. En utilisant la régression, vous pouvez régresser, par exemple sur le revenu, sur une variable d'indicateur de participation et sur un indicateur masculin. Vous utiliseriez toutes vos données et pourriez estimer le revenu d'une femme si elle avait participé au programme.
Si vous faisiez correspondre, vous ne pouvez associer les hommes aux hommes. En conséquence, vous n'utiliseriez aucune femme dans votre analyse et vos résultats ne les concerneraient pas.
La régression peut extrapoler en utilisant l'hypothèse de linéarité, mais la correspondance ne peut pas. Toutes les autres hypothèses sont essentiellement les mêmes entre régression et correspondance. L'avantage de l'appariement par rapport à la régression est qu'elle est non paramétrique (sauf que vous devez supposer que vous avez le bon score de propension, si c'est ainsi que vous effectuez l'appariement).
Pour plus de discussion, voir ma page ici pour un cours qui était fortement axé sur les méthodes d'appariement. Voir en particulier Hypothèses de la stratégie d'estimation des effets causaux .
Assurez-vous également de lire l'article de Rosenbaum et Rubin (1983) qui décrit l'appariement du score de propension.
Enfin, la correspondance a parcouru un long chemin depuis 1983. Consultez la page Web de Jas Sekhon pour en savoir plus sur son algorithme de correspondance génétique.
la source
La réponse courte est que les scores de propension ne sont pas meilleurs que le modèle équivalent ANCOVA, en particulier en ce qui concerne l'interprétation causale.
Les scores de propension sont mieux compris comme une méthode de réduction des données. Ils constituent un moyen efficace de réduire de nombreuses covariables en un seul score qui peut être utilisé pour ajuster un effet d'intérêt pour un ensemble de variables. Ce faisant, vous économisez des degrés de liberté en vous ajustant pour un score de propension unique plutôt que pour plusieurs covariables. Cela présente un avantage statistique, certes, mais rien de plus.
De:
MÉTHODES DE SCORE DE PROPENSITÉ POUR LA RÉDUCTION DU BIAIS DANS LA COMPARAISON D'UN TRAITEMENT À UN GROUPE DE CONTRÔLE NON ALÉATOIRE
D'Agostino (citant Rosenbaum et Rubin)
D'agostino, RB 1998. Appariement du score de propension à la réduction du biais dans la comparaison d'un traitement à un groupe témoin non randomisé. Statistical Medicine 17: 2265–2281.
la source
Une référence probablement obtuse, mais si par hasard vous y avez accès, je vous recommanderais de lire ce chapitre du livre ( Apel et Sweeten, 2010 ). Il s’adresse aux spécialistes des sciences sociales et n’est donc peut-être pas aussi rigoureux sur le plan mathématique que vous semblez vouloir, mais il devrait aller suffisamment en profondeur pour constituer une réponse plus que satisfaisante à votre question.
Il existe différentes manières pour les personnes de traiter les scores de propension qui peuvent aboutir à des conclusions différentes de la simple inclusion de covariables dans un modèle de régression. Lorsque l'on correspond à des scores, on ne dispose pas nécessairement d'un soutien commun pour toutes les observations (c'est-à-dire que certaines observations semblent ne jamais avoir la chance de faire partie du groupe de traitement et d'autres le sont toujours). On peut aussi pondérer les observations de différentes manières, ce qui peut conduire à des conclusions différentes.
En plus des réponses ici, je vous suggère également de consulter les réponses à la question citée. Les scores de propension ont plus de substance que la simple astuce statistique pour atteindre l’équilibre covariable. Si vous lisez et comprenez les articles très cités de Rosenbaum et Rubin, vous comprendrez mieux pourquoi l'approche est différente de la simple addition de covariables dans un modèle de régression. Je pense qu'une réponse plus satisfaisante à votre question ne se trouve pas nécessairement dans les mathématiques derrière les scores de propension, mais dans leur logique.
la source
J'aime penser à PS comme une partie de l'étude qui est complètement séparée de l'analyse. En d’autres termes, vous pouvez penser en termes de conception (PS) et d’analyse (régression, etc.). De plus, le PS offre un moyen de supporter l’échange pour le traitement binaire; d’autres peuvent peut-être indiquer si l’inclusion des covariables dans le modèle de résultats peut effectivement favoriser l’échange, ou si l’on suppose l’échangeabilité avant d’inclure les covariables dans le modèle de résultats.
la source
Méthodes statistiques Med Res. 19 avril 2016.
Une évaluation du biais dans les modèles de régression non linéaire ajustés par le score de propension.
Les méthodes de score de propension sont couramment utilisées pour ajuster les facteurs de confusion observés lors de l'estimation de l'effet du traitement conditionnel dans les études d'observation. Une méthode populaire, l'ajustement covariable du score de propension dans un modèle de régression, s'est avérée empiriquement biaisée dans les modèles non linéaires. Cependant, aucune raison théorique sous-jacente convaincante n'a été présentée. Nous proposons un nouveau cadre pour étudier le biais et la cohérence des effets de traitement ajustés par le score de propension dans les modèles non linéaires, qui utilise une approche géométrique simple pour établir un lien entre la cohérence de l'estimateur du score de propension et la collapsibilité des modèles non linéaires. Dans ce cadre, nous démontrons que l'ajustement du score de propension dans un modèle de résultat entraîne la décomposition des covariables observées en score de propension et en terme restant. L'omission de ce terme restant dans un modèle de régression non compressible conduit à des estimations biaisées du rapport de cotes conditionnel et du ratio de risque conditionnel, mais pas du rapport de taux conditionnel. Nous montrons en outre, via des études de simulation, que le biais de ces estimateurs ajustés par le score de propension augmente avec une taille d'effet de traitement plus grande, des effets de covariable plus grands et une dissimilarité croissante entre les coefficients des covariables dans le modèle de traitement par rapport au modèle de résultats.
la source