Dans l'analyse du score de propension, quelles sont les options pour gérer les propensions très petites ou grandes?

8

Je m'intéresse aux données d'observation dans lesquelles l'assignation de traitement peut être extrêmement bien expliquée. Par exemple, une régression logistique de

P(A=1|X)=(1+exp((Xβ)))1

wehre A affectation de traitement et des covariables X correspondent très bien à un ASC très élevé > 0,80AUC>.80 ou même >.90 . C'est une bonne nouvelle pour la précision du modèle de propension, mais cela conduit à des estimations de score de propension

π^=(1+exp((Xβ^)))1
close à 0 ou 1 . Ceux-ci conduisent à leur tour à de grandes pondérations de probabilité inverse π^1 et (1π^)1 utilisées dans des estimateurs tels que l'estimateur pondéré par probabilité inverse de l'espérance de résultat. Y1 (observation sous traitement):

n1iπi^1AiY1i.

Je soupçonne que cela rend les écarts des estimations très importants.

Il semble qu'un cercle vicieux que les modèles de score de propension très discriminants conduisent à des poids extrêmes.

Ma question : quelles sont les options disponibles pour rendre cette analyse plus robuste? Existe-t-il des alternatives pour adapter le modèle de score de propension ou comment gérer les poids importants une fois le modèle ajusté?

tomka
la source
3
Vous voudrez peut-être examiner attentivement les covariables. Vous devez inclure toutes les variables qui affectent à la fois (non plus, mais les deux) la participation et les résultats. Y compris ceux affectés par le traitement, ex post ou ex ante en prévision du traitement, est mauvais. En particulier, l'inclusion d'instruments - des variables qui affectent la participation et non les résultats - est également une idée particulièrement mauvaise. Ils n'aideront pas à biais de sélection et peuvent aggraver considérablement le problème de soutien. Par exemple, si certaines personnes sont encouragées à suivre un traitement, vous ne voulez pas vous y conditionner.
Dimitriy V. Masterov
@ DimitriyV.Masterov Merci; vos derniers points semblent intéressants / pertinents à ma situation. Dites-vous donc qu'il vaut mieux ne pas trouver le meilleur modèle d'assignation de traitement (mais plutôt celui qui inclut les prédicteurs des résultats et de l'affectation)? Je pensais que plus nous pouvons prédire l'affectation avec précision, mieux c'est.
tomka
2
Je pense que c'est une idée fausse commune. Par exemple, voir l'article de Battacharya et Vogt (2012) dans International Journal of Statistics and Economics on the instruments point.
Dimitriy V. Masterov
@ DimitriyV.Masterov alors que votre réponse peut résoudre le problème des petites inclinations dans certaines situations, il peut encore être le cas que l'ensemble des portant à la fois et est très discriminante sur . Je suis toujours intéressé par les options pour résoudre ce problème. XYAA
tomka

Réponses:

5

C'est une bonne détection. Vous faites référence à l'hypothèse de positivité. Il faut qu'il y ait à la fois des participants exposés et non exposés à chaque combinaison des valeurs des facteurs de confusion observés dans la population étudiée. Des violations de positivité se produisent lorsque certains sous-groupes d'un échantillon reçoivent rarement ou jamais certains traitements d'intérêt. Il existe de nombreux articles sur ce sujet, tels que Austin et Stuart (2015) et Peterson et al. (2012) . Vous pouvez rechercher plus en ligne.

user36400
la source
2
Merci, mais tu es sûr? Je veux parler de très petits ou gros poids. Ce que vous décrivez ressemble plus à un chevauchement entre les distributions de propension des unités traitées par rapport aux unités non traitées (ce qui est apparemment appelé positivité, je ne le savais pas). Cependant, il semble qu'il puisse y avoir chevauchement (positivité) tout en ayant des poids extrêmes, non?
tomka
De plus, il ne peut y avoir de chevauchement (positivité) sans avoir de poids extrêmes, je crois.
tomka
Ce document d'Austin & Stuart traite de l'utilisation de poids stabilisés, ce qui peut être utile pour votre situation.
Noah
@Noah a vu ça. C'est un bon point de départ. Malheureusement, ils ne documentent pas très bien cette affirmation et l'effet qu'elle a sur les estimations lorsque les propensions sont extrêmes n'est pas connu.
tomka