Pourquoi l'appariement des scores de propension fonctionne-t-il pour l'inférence causale?

13

L'appariement par score de propension est utilisé pour faire des inférences causales dans les études observationnelles (voir l'article de Rosenbaum / Rubin ). Quelle est l'intuition simple derrière pourquoi cela fonctionne?

En d'autres termes, pourquoi si nous nous assurons que la probabilité de participer au traitement est égale pour les deux groupes, les effets de confusion disparaissent et nous pouvons utiliser le résultat pour tirer des conclusions causales sur le traitement?

max
la source
8
La mienne est probablement une opinion impopulaire, mais je pense que dire que la PSM vous permet de faire des inférences causales, c'est l'étirer un peu. Oui, c'est une méthode d'appariement plus fine que l'appariement "brut" sur une poignée de variables, mais au bout du compte, vous ne faites toujours l'appariement que sur les variables qui vous sont observables. Vous pouvez toujours avoir un traitement endogène, mais vous supposez qu'après l'appariement, le traitement est exogène. Mais là encore, je ne suis personne comparé à Rubin :)
Marquis de Carabas
5
Il y a ceux qui ne sont pas d'accord avec Rosenbaum et Rubin. Gary King a soutenu assez efficacement que les résultats de l'appariement à l'aide de PSM sont inférieurs aux résultats obtenus de l'appariement basé sur la distance de Mahalanobis. Voir son article ici ... gking.harvard.edu/files/gking/files/psnot.pdf?m=1456683191 En outre, ce webinaire fournit des preuves encore plus convaincantes ... methods-colloquium.com/…
Mike Hunter
4
En théorie, vous POUVEZ faire une inférence causale en appliquant le modèle causal de Rubin si toutes les hypothèses sont remplies. Mais bien sûr, le diable est toujours dans les détails de l'hypothèse, et pour moi, l'hypothèse de facteurs de confusion non observés est souvent difficile. En fait, c'est impossible à prouver. Mais vous pouvez au moins effectuer des analyses de sensibilité pour déterminer ce qu'il faudrait pour que vos conclusions changent si vous aviez des facteurs de confusion non observés.
StatsStudent
5
Bon point @DJohnson. Il y a aussi des gens comme Judea Pearl, Ian Shrier et Arvid Sjolander qui critiquent le cadre de résultats potentiels de Rubin pour l'inférence causale en raison de la possibilité d'introduire un «biais M» par ce qu'ils appellent un «collisionneur». Ce sont des lectures intéressantes et devraient compléter toutes les lectures de Rubin.
StatsStudent

Réponses:

12

Je vais essayer de vous donner une compréhension intuitive avec un minimum d'accent sur les mathématiques.

Le principal problème des données d'observation et des analyses qui en découlent est déroutant. La confusion survient lorsqu'une variable affecte non seulement le traitement attribué mais aussi les résultats. Lorsqu'une expérience randomisée est réalisée, les sujets sont randomisés pour des traitements afin qu'en moyenne, les sujets assignés à chaque traitement soient similaires par rapport aux covariables (âge, race, sexe, etc.). En raison de cette randomisation, il est peu probable (en particulier dans les grands échantillons) que les différences de résultats soient dues à des covariables, mais en raison du traitement appliqué, car, en moyenne, les covariables dans les groupes de traitement sont similaires.

En revanche, avec les données d'observation, il n'y a pas de mécanisme aléatoire qui attribue les sujets aux traitements. Prenons par exemple une étude pour examiner les taux de survie des patients après une nouvelle chirurgie cardiaque par rapport à une intervention chirurgicale standard. En règle générale, on ne peut pas randomiser les patients à chaque procédure pour des raisons éthiques. En conséquence, les patients et les médecins choisissent eux-mêmes l'un des traitements, souvent pour un certain nombre de raisons liées à leurs covariables. Par exemple, la nouvelle procédure peut être quelque peu plus risquée si vous êtes plus âgé et, par conséquent, les médecins peuvent recommander le nouveau traitement plus souvent aux patients plus jeunes. Si cela se produit et que vous regardez les taux de survie, le nouveau traitement pourrait sembler plus efficace, mais cela serait trompeur car les patients plus jeunes ont été affectés à ce traitement et les patients plus jeunes ont tendance à vivre plus longtemps, toutes choses étant égales par ailleurs. C'est là que les scores de propension sont utiles.

Les scores de propension aident à résoudre le problème fondamental de l'inférence causale - que vous pouvez avoir confondu en raison de la non-randomisation des sujets aux traitements et cela peut être la cause des «effets» que vous voyez plutôt que l'intervention ou le traitement seul. Si vous étiez en mesure de modifier votre analyse d'une manière ou d'une autre afin que les covariables (par exemple, l'âge, le sexe, le sexe, l'état de santé) soient «équilibrées» entre les groupes de traitement, vous auriez des preuves solides que la différence de résultats est due à l'intervention / au traitement plutôt que ces covariables. Les scores de propension déterminent la probabilité de chaque sujet d'être affecté au traitement qu'il a reçu compte tenu de l'ensemble des covarites observées. Si vous correspondez ensuite à ces probabilités (scores de propension),

Vous pouvez vous demander pourquoi ne pas faire correspondre exactement les covariables (par exemple, assurez-vous de faire correspondre les hommes de 40 ans en bonne santé dans le traitement 1 avec les hommes de 40 ans en bonne santé dans le traitement 2)? Cela fonctionne bien pour les grands échantillons et quelques covariables, mais cela devient presque impossible à faire lorsque la taille de l'échantillon est petite et que le nombre de covariables est même de taille modérée (voir la malédiction de la dimensionnalité sur la validation croisée pour savoir pourquoi c'est le cas) .

Maintenant, tout cela étant dit, le talon d'Achille du score de propension est l'hypothèse d'aucun facteur de confusion non observé. Cette hypothèse indique que vous n'avez pas omis d'inclure dans votre ajustement des covariables qui sont des facteurs de confusion potentiels. Intuitivement, la raison derrière cela est que si vous n'avez pas inclus de confondant lors de la création de votre score de propension, comment pouvez-vous vous y adapter? Il existe également des hypothèses supplémentaires telles que l'hypothèse de la valeur unitaire de traitement stable, qui stipule que le traitement attribué à un sujet n'affecte pas le résultat potentiel des autres sujets.

StatsStudent
la source
7

Au sens strict, l'ajustement du score de propension n'a pas plus à voir avec l'inférence causale que ne le fait la modélisation de régression. La seule vraie différence avec les scores de propension est qu'ils facilitent l'ajustement pour des facteurs de confusion potentiels plus observés que la taille de l'échantillon peut permettre d'incorporer des modèles de régression. L'ajustement du score de propension (mieux fait par ajustement covariable dans la majorité des cas, en utilisant une spline dans le PS logit) peut être considéré comme une technique de réduction des données où la réduction est le long d'un axe important - confondant. Cependant, il ne gère pas l'hétérogénéité des résultats (biais de susceptibilité), vous devez donc également ajuster les covariables importantes même lorsque vous utilisez les propensions (voir également les problèmes liés à la non-effondrement des cotes et des ratios de risque).

L'appariement des scores de propension peut exclure de nombreuses observations et donc être terriblement inefficace. Je considère toute méthode qui exclut les observations pertinentes comme problématique. Le vrai problème avec l'appariement est qu'il exclut les observations facilement appariées en raison du besoin perçu d'avoir un appariement 1: 1, et la plupart des algorithmes d'appariement dépendent de l'ordre d'observation.

Notez qu'il est très facile lors de l'ajustement de régression standard pour la confusion de vérifier et d'exclure les régions sans chevauchement. Les utilisateurs de score de propension apprennent à le faire et la seule raison pour laquelle les modélisateurs de régression ne le font pas est qu'ils ne sont pas informés.

L'analyse du score de propension masque toutes les interactions avec l'exposition, et l'appariement du score de propension masque en plus une relation possible entre la PS et l'effet du traitement.

L'analyse de sensibilité (aux facteurs de confusion non mesurés) a été élaborée pour PS mais est encore plus facile à faire avec la modélisation de régression standard.

Si vous utilisez des méthodes de régression flexibles pour estimer le PS (par exemple, ne supposez pas que des variables continues agissent de façon linéaire), vous n'avez même pas besoin de vérifier l'équilibre - il doit y avoir un équilibre ou le modèle de régression PS n'a pas été correctement spécifié au début . Il vous suffit de vérifier l'absence de chevauchement. Cela suppose qu'aucune interaction importante n'a été omise du modèle de propension. L'appariement fait la même hypothèse.

Frank Harrell
la source
3

Je recommande de vérifier la plupart des économétries inoffensives - ils ont une bonne explication de cela à un niveau intuitif.

Le problème que vous essayez de résoudre est le biais de sélection. Si une variable est corrélée avec les résultats potentiels et avec la probabilité de recevoir un traitement, alors si vous trouvez que le résultat attendu du traité est meilleur que le résultat attendu du non traité, cela peut être une découverte fallacieuse puisque les traités ont tendance à avoir un plus élevé et donc un plus élevé . Le problème se pose parce que rend corrélé avec le traitement.xiy0i,y1ixy0i,y1ixy0i,y1i

Ce problème peut être résolu en contrôlant . Si nous pensons que la relation entre les résultats potentiels et les variables est linéaire, nous le faisons simplement en incluant dans une régression avec une variable fictive pour le traitement, et la variable fictive interagit avec . Bien sûr, la régression linéaire est flexible car nous pouvons également inclure des fonctions de . Mais que se passe-t-il si nous ne voulons pas imposer une forme fonctionnelle? Ensuite, nous devons utiliser une approche non paramétrique: l'appariement.xxxxx

Avec l'appariement, nous comparons les observations traitées et non traitées avec des similaires . Nous en ressortons avec une estimation de l'effet du traitement pour toutes les valeurs (ou petites plages de valeurs ou «seaux») pour lesquelles nous avons à la fois des observations traitées et non traitées. Si nous n'avons pas beaucoup de telles valeurs ou de tels compartiments, en particulier si est un vecteur de grande dimension, il est donc difficile de trouver des observations proches les unes des autres, alors il est utile de projeter cet espace sur une dimension.xxxx

C'est ce que fait l'appariement des scores de propension. Si sont pas corrélés avec un traitement donné , alors il s'avère qu'ils sont également non corrélés avec un traitement donné où est la probabilité de traitement donnée , c'est-à-dire le score de propension de .y0i,y1ixip(xi)p(x)xx

Voici votre intuition: si nous trouvons un sous-échantillon d'observations avec un score de propension très similaire , alors pour ce sous-échantillon, les groupes traités et non traités ne sont pas corrélés avec . Chaque observation est également susceptible d'être traitée ou non; cela implique que toute observation traitée est également susceptible de provenir de l'une des valeurs du sous-échantillon. Puisque est ce qui détermine les résultats potentiels dans notre modèle, cela implique que, pour ce sous-échantillon, les résultats potentielsp(x)xxxy0i,y1ine sont pas corrélés au traitement. Cette condition garantit que la différence moyenne de résultat du sous-échantillon entre traité et non traité est une estimation cohérente de l'effet moyen du traitement sur ce sous-échantillon, c'est-à-dire

E[yi|Treated,p(x)]E[yi|Untreated,p(x)]

est une estimation cohérente de l'effet moyen du traitement local.

Lectures complémentaires:

Faut-il vraiment utiliser l'appariement des scores de propension dans la pratique?

Question connexe comparant l'appariement et la régression

nfernand
la source
1

Cela "fonctionne" pour la même raison que la régression "fonctionne" - vous contrôlez tous les facteurs de confusion.

Vous pouvez effectuer un tel contrôle analytique par un modèle de régression entièrement spécifié avec peut-être de nombreuses variables de confusion, ou un modèle de régression avec une seule variable - le score de propension (qui peut ou non être un modèle tout aussi compliqué composé de ces mêmes facteurs de confusion). Vous pouvez vous en tenir à cette régression par rapport au score de propension, ou vous pouvez comparer la réponse au sein de groupes similaires, où la similitude est définie par le score de propension. En esprit, vous faites la même chose, mais certaines personnes pensent que cette dernière méthode met mieux en évidence la tâche causale à accomplir.

Mettre à jour les commentaires suivants

Ma pensée pour expliquer l'intuition derrière pourquoi fonctionne l'appariement des scores de propension était d'expliquer le théorème du score de propension , c'est-à-dire quelque chose que je pensais pouvoir faire en utilisant la régression. Mais comme le fait valoir @StatsStudent, la régression permet d'extrapoler facilement des comparaisons entre traitement et contrôle qui ne se produisent jamais dans les données. Si cela fait partie des raisons pour lesquelles le score de propension correspondant «fonctionne», ma réponse était incomplète. J'ai consulté les contrefactuels et l'inférence causale

Y(0),Y(1)T|XY(0),Y(1)T|p(X),
et découvrez une version de l'appariement du plus proche voisin, appelée «appariement de l'étrier» (p. 108), où les scores de propension du traitement et le cas de contrôle le plus proche doivent être à une certaine distance maximale, ce qui entraîne certains cas de traitement sans appariement. Dans ce cas, la méthode fonctionnerait toujours en ajustant le score de propension à l'aide d'un analogue non paramétrique à la régression, mais elle précise également ce qui ne peut pas être connu à partir des seules données (sans modèle d'extrapolation) et en permettant une redéfinition de la quantité causale compte tenu des données disponibles.
Ben Ogorek
la source
1
Cette réponse est destinée à être détestée parce qu'elle réduit les méthodes de score de propension en les comparant à la régression, un mot sale dans les cercles de causalité. Mais la réponse principale admet que «le talon d'Achille du score de propension est l'hypothèse d'aucun facteur de confusion non observé». C'est un gros talon d'Achille. Disons que l'hypothèse est remplie et j'ai un ensemble de données avec tous les facteurs de confusion dans l'univers. Aidez-moi à comprendre pourquoi la régression ne fonctionnera pas pour découvrir la vérité causale, mais l'appariement du score de propension le fera.
Ben Ogorek
1
La raison pour laquelle la régression est souvent problématique est que les résultats de la régression sont extrapolés. Avec les scores de propension, on s'assure, lors des vérifications d'équilibre covariable, qu'il y a suffisamment de chevauchement confondant entre les groupes de traitement. Ce n'est pas nécessairement le cas en régression et peut conduire à des estimations inexactes car il n'y a pas de vérification diagnostique standard qui vous dira que votre modèle de régression extrapole. C'est pourquoi j'exécute généralement des vérifications d'équilibrage des scores de propension même si je ne fais qu'exécuter un modèle de régression et que je ne prévois pas d'utiliser les scores de propension eux-mêmes.
StatsStudent