Différents résultats après l'appariement du score de propension dans R

8

J'ai effectué l'appariement du score de prospérité (dans R en utilisant le package R "Matchit"). J'ai utilisé la méthode d'appariement "le plus proche voisin". Après l'appariement, j'ai comparé le traitement et le groupe témoin en fonction de leur variable de résultat. Pour cette comparaison, j'ai utilisé le test t. J'ai découvert qu'après chaque procédure d'appariement, les résultats du test t changeaient. Pour tester mon hypothèse selon laquelle ce changement de résultats était dû à la sélection aléatoire des scores de propension (qui sont utilisés pour l'appariement du plus proche voisin), j'ai défini le générateur de nombres aléatoires sur une graine spécifique et j'ai effectué la procédure d'appariement plusieurs fois. En réglant le RNG, les résultats ne diffèrent plus.

  1. Confronté à des résultats différents après chaque procédure d'appariement: comment puis-je décider quelle solution d'appariement j'utiliser pour une analyse plus approfondie? Est-ce une méthode valable pour effectuer plusieurs fois la prodecure d'appariement (disons 10'000) et rapporter la médiane des valeurs p et t des résultats que j'obtiens des différents tests t?
Brise
la source
2
Je ne sais pas pourquoi cela est voté comme hors sujet car il semble y avoir ici une question statistique qui est complètement indépendante du logiciel utilisé.
mdewey
1
Il semble que cette question soit un doublon de stats.stackexchange.com/questions/118636/…
Viktor

Réponses:

1

Cela se produit lorsque vous avez (au moins) deux personnes qui ont le même score de propension. MatchIt en sélectionne au hasard un à inclure dans l'ensemble correspondant. Ma recommandation serait de sélectionner un ensemble correspondant et d'effectuer votre analyse avec. Je suis d'accord que d'essayer d'autres méthodes de conditionnement telles que la correspondance complète et IPW serait une bonne idée. Vous pouvez rapporter les résultats de diverses analyses dans une section d'analyse de sensibilité.

Edit : C'est probablement la mauvaise réponse. Voir la réponse de Viktor pour ce qui est probablement la cause réelle.

Noé
la source
Merci Noah pour ta réponse. Votre explication est très utile. J'ai décidé de faire un caliper du voisin le plus proche (ordre aléatoire) comme suggéré par Austin (2014). Comme vous l'avez recommandé, j'ai sélectionné un ensemble correspondant et j'ai effectué mon analyse avec.
Breeze
Je pense que c'est une mauvaise explication. Les observations avec des scores de propension coïncidents sont très-très en arrière. Le fait est que MatchIt sélectionne au hasard l'ordre des observations traitées pour la correspondance. Vous pouvez corriger la correspondance en appelant set.seed()avant la correspondance.
Viktor
Je suis d'accord avec vous @Viktor. Je vais modifier ma réponse.
Noah
1

Il s'agit d'un comportement standard du package MatchIt. Il mélange les observations avant l'appariement, c'est-à-dire qu'il sélectionne au hasard l'ordre d'appariement pour les observations traitées. Vous pouvez utiliser la set.seed()fonction pour corriger les résultats. Par exemple, appelez set.seed(100)avant d'appeler matchit(). Différents arguments de set.seed()correspondront à différentes correspondances.

Viktor
la source
0

C'est une question très intéressante. La première explication que je peux suggérer est que votre étude est assez petite et donc que peu de différences correspondantes ont un impact. Plus généralement, l'appariement du plus proche voisin n'est pas très précis. Le mathing de l'étrier est plus fiable, et les différences que vous signalez diminueraient ou disparaîtraient peut-être (comme avec l'utilisation de la pondération de traitement à probabilité inverse). Enfin, je ne sais pas si vous avez utilisé le test t pour comparer les différences de base (ce qui est inapproprié, car cela devrait être fait en calculant les différences normalisées), ou pour des tests d'hypothèse (auquel cas un test apparié devrait être utilisé). Dans tous les cas, l'approche de rapport typique consiste simplement à rapporter les résultats d'une seule procédure d'appariement, à condition qu'elle soit correctement effectuée (par exemple avec l'appariement à l'étrier).

Joe_74
la source
1
Je vous remercie! Les tailles d'échantillon de base étaient de 1096 (contrôle) et 328 (groupe de traitement). Après l'appariement, les deux tailles de groupe ont été réduites à 324. J'ai effectivement effectué l'appariement du plus proche voisin en utilisant un pied à coulisse de 0,25 std du score de propension. J'ai également comparé le voisin le plus proche correspondant avec et sans l'étrier, ce qui a conduit à l'élimination de 4 unités supplémentaires dans chaque groupe. J'ai calculé les différences standardisées des moyennes des covariables avant vs après appariement. Ces valeurs n'ont pas changé après chaque correspondance, mais les valeurs de la variable de résultat ont changé.
Breeze
@Breeze je vois. Avez-vous essayé la correspondance 1: 2 ou IPTW?
Joe_74
1
Salut Joe_74, merci pour ta réponse. J'ai essayé la correspondance exacte dans la correspondance du voisin le plus proche. Malheureusement, ma taille d'échantillon a été réduite à 294 unités dans les deux groupes. Si possible, je voudrais conserver des tailles d'échantillon supérieures à 300. Mais je n'ai pas rencontré la pondération du traitement de probabilité inverse. Le recommanderiez-vous?
Breeze
@Breeze Certainement. IPTW est la clé pour ajuster les différences résiduelles de PS. Son utilisation signifie également que vous pouvez conserver tous vos cas, pas seulement ceux qui correspondent.
Joe_74
1
cela semble intéressant, merci. Je pourrais l'essayer après. Si je fais mon appariement comme je l'ai décrit ci-dessus (voisin le plus proche avec étrier), me conseilleriez-vous de rapporter les résultats d'une seule procédure d'appariement aléatoire? Étant donné que j'obtiens des résultats différents à chaque fois, choisir uniquement les résultats d'une procédure me semble trop aléatoire ... quelle est votre opinion à ce sujet?
Breeze