Question: Du point de vue du statisticien (ou d'un praticien), peut-on déduire la causalité en utilisant les scores de propension avec une étude observationnelle ( pas une expérience )?
Je vous en prie, ne voulez pas déclencher une guerre des flammes ou un débat fanatique.
Contexte: Dans notre programme de doctorat en statistique, nous n'avons abordé l'inférence causale que par le biais de groupes de travail et de quelques séances thématiques. Cependant, il y a des chercheurs très éminents dans d'autres départements (par exemple HDFS, Sociologie) qui les utilisent activement.
J'ai déjà assisté à un débat assez animé sur cette question. Je n'ai pas l'intention d'en commencer un ici. Cela dit, quelles références avez-vous rencontrées? Quels points de vue avez-vous? Par exemple, un argument que j'ai entendu contre les scores de propension en tant que technique d'inférence causale est que l'on ne peut jamais inférer la causalité en raison d'un biais variable omis - si vous omettez quelque chose d'important, vous brisez la chaîne causale. Est-ce un problème insoluble?
Avertissement: Cette question peut ne pas avoir une réponse correcte - complètement cool en cliquant sur cw, mais je suis personnellement très intéressé par les réponses et serais heureux de quelques bonnes références qui incluent des exemples du monde réel.
la source
La question semble impliquer deux choses qui devraient vraiment être considérées séparément. La première est de savoir si l'on peut inférer la causalité à partir d'une étude observationnelle, et là-dessus, vous pouvez opposer les vues de, disons, Pearl (2009), qui soutient oui tant que vous pouvez modéliser le processus correctement, par rapport à la vue @propofol, qui trouver de nombreux alliés dans les disciplines expérimentales et qui peuvent partager certaines des pensées exprimées dans un essai (plutôt obscur mais néanmoins bon) de Gerber et al (2004). Deuxièmement, en supposant que vous pensez que la causalité peut être déduite des données d'observation, vous pourriez vous demander si les méthodes de score de propension sont utiles à cette fin. Les méthodes de score de propension comprennent diverses stratégies de conditionnement ainsi que la pondération de propension inverse. Lunceford et Davidian (2004) présentent une belle revue.
Une petite ride cependant: l'appariement et la pondération des scores de propension sont également utilisés dans l'analyse des expériences randomisées lorsque, par exemple, il y a un intérêt à calculer les "effets indirects" et également lorsqu'il y a des problèmes d'attrition ou d'abandon potentiellement non aléatoires ( auquel cas ce que vous avez ressemble à une étude observationnelle).
Les références
Gerber A et al. 2004. «L'illusion d'apprendre de la recherche observationnelle». Dans Shapiro I, et al, Problems and Methods in the Study of Politics , Cambridge University Press.
Lunceford JK, Davidian M. 2004. "Stratification et pondération via le score de propension dans l'estimation des effets de traitement causal: une étude comparative." Statistiques en médecine 23 (19): 2937–2960.
Pearl J. 2009. Causality (2e éd.) , Cambridge University Press.
la source
La sagesse conventionnelle stipule que seuls les essais contrôlés randomisés (expériences "réelles") peuvent identifier la causalité.
Cependant, ce n'est pas aussi simple que cela.
Une raison pour laquelle la randomisation peut ne pas être suffisante est que, dans les "petits" échantillons, la loi du grand nombre n'est pas "assez forte" pour garantir que toutes les différences sont équilibrées. La question est: qu'est-ce qui est «trop petit» et quand commence «assez grand»? Saint-Mont (2015) soutient ici que «assez grand» pourrait bien commencer par milliers (n> 1000)!
Après tout, il s'agit d'équilibrer les différences entre les groupes, de contrôler les différences. Ainsi, même dans les expériences, un grand soin doit être pris pour équilibrer les différences entre les groupes. Selon les calculs de Saint-Mont (2015), il se pourrait bien que dans des échantillons plus petits, on puisse considérablement être mieux avec des échantillons appariés (équilibrés manuellement).
Quant à la probabilité. Bien sûr, la probabilité n'est jamais en mesure de donner une réponse concluante - sauf si la probabilité est extrême (zéro ou un). Cependant, en science, nous nous sommes retrouvés fréquemment confrontés à des situations où nous ne sommes pas en mesure de fournir une réponse concluante car les choses sont difficiles. D'où le besoin de probabilité. La probabilité n'est rien d'autre qu'un moyen d'exprimer notre incertitude dans une déclaration. En tant que tel, il est similaire à la logique; voir Briggs (2016) ici .
Ainsi, la probabilité nous aidera mais ne donnera pas de réponses concluantes, aucune certitude. Mais c'est d'une grande utilité - pour exprimer l'incertitude.
Notez également que la causalité n'est pas principalement une question statistique. Supposons que deux moyennes diffèrent "de manière significative". Cela ne signifie-t-il pas que la variable de regroupement est la cause de la différence dans la variable mesurée? Non pas forcément). Quelle que soit la statistique particulière utilisée - score de propension, valeurs de p, facteurs de Bayes, etc. - de telles méthodes ne sont (pratiquement) jamais suffisantes pour étayer les allégations causales.
la source