Comment résoudre le paradoxe de Simpson?

35

Le paradoxe de Simpson est un casse-tête classique abordé dans les cours d'introduction aux statistiques dans le monde entier. Cependant, mon cours se contentait de noter simplement qu’un problème existait et n’apportait pas de solution. Je voudrais savoir comment résoudre le paradoxe. C’est-à-dire que, face au paradoxe de Simpson, où deux choix différents semblent entrer en concurrence pour être le meilleur choix en fonction de la manière dont les données sont partitionnées, quel choix faut-il choisir?

Pour concrétiser le problème, considérons le premier exemple donné dans l’article de Wikipédia . Il est basé sur une vraie étude sur le traitement des calculs rénaux.

entrez la description de l'image ici

Supposons que je sois un médecin et qu'un test révèle qu'un patient a des calculs rénaux. En utilisant uniquement les informations fournies dans le tableau, je voudrais déterminer si je devrais adopter le traitement A ou le traitement B. Il semble que si je connais la taille de la pierre, nous devrions alors préférer le traitement A. Mais si nous ne le faisons pas, alors nous devrions préférer le traitement B.

Mais considérons un autre moyen plausible pour arriver à une réponse. Si la pierre est grande, nous devrions choisir A, et si elle est petite, nous devrions à nouveau choisir A. Donc, même si nous ne connaissons pas la taille de la pierre, par la méthode des cas, nous voyons que nous devrions préférer A. Cela contredit notre raisonnement précédent.

Donc: un patient entre dans mon bureau. Un test révèle qu'ils ont des calculs rénaux mais ne me donne aucune information sur leur taille. Quel traitement est-ce que je recommande? Existe-t-il une solution acceptée à ce problème?

Wikipedia fait allusion à une résolution utilisant des "réseaux bayésiens causaux" et un test de "porte dérobée", mais je n'ai aucune idée de ce que c'est.

simpsons-paradox Patate
la source

2

Le lien Paradox de base de Simpson mentionné ci-dessus est un exemple de données d'observation. Nous ne pouvons pas décider sans ambiguïté entre les hôpitaux, car les patients n’ont probablement pas été affectés aléatoirement aux hôpitaux et la question posée ne nous permet pas de savoir si, par exemple, un hôpital a tendance à avoir des patients à risque plus élevé. Décomposer les résultats en opérations AE ne résout pas ce problème.

Emil Friedman

@EmilFriedman Je conviens qu'il est vrai que nous pouvons décider sans ambiguïté entre les hôpitaux. Mais certainement les données supportent l’un sur l’autre. (Il est faux que les données ne nous apprennent rien sur la qualité des hôpitaux.)

Potato

14

Dans votre question, vous indiquez que vous ne savez pas ce que sont les "réseaux bayésiens causaux" et les "tests de passage".

Supposons que vous ayez un réseau causal bayésien. C'est-à-dire un graphe acyclique dirigé dont les nœuds représentent des propositions et dont les arcs dirigés représentent des relations causales potentielles. Vous pouvez avoir de nombreux réseaux de ce type pour chacune de vos hypothèses. Il y a trois façons de faire un argument convaincant quant à la force ou de l' existence d'un bord . $A \stackrel?\rightarrow B$

Le moyen le plus simple est une intervention. C’est ce que les autres réponses suggèrent quand ils disent que la "randomisation appropriée" résoudra le problème. Vous forcer au hasard à avoir des valeurs différentes et vous mesurer . Si vous pouvez le faire, vous avez terminé, mais vous ne pouvez pas toujours le faire. Dans votre exemple, il peut être contraire à l'éthique de donner aux gens des traitements inefficaces contre des maladies mortelles, ou encore d'avoir leur mot à dire dans leur traitement, par exemple, ils peuvent choisir le traitement le moins sévère (traitement B) lorsque leurs calculs rénaux sont petits et moins douloureux. $A$ $B$

La deuxième façon est la méthode de la porte d'entrée. Vous voulez montrer que agit sur par , par exemple, . Si l' on suppose que est potentiellement causé par , mais n'a pas d' autres causes, et vous pouvez mesurer que est en corrélation avec et est en corrélation avec , alors vous pouvez conclure des preuves doit circuler via . L'exemple original: est fumeur, est un cancer, $A$ $B$ $C$ $A\rightarrow C \rightarrow B$ $C$ $A$ $C$ $A$ $B$ $C$ $C$ $A$ $B$ $C$ est l'accumulation de goudron. Le goudron ne peut provenir que du tabagisme, et il existe une corrélation entre le tabagisme et le cancer. Par conséquent, le tabagisme provoque le cancer via le goudron (bien qu'il puisse exister d'autres voies causales permettant d'atténuer cet effet).

La troisième voie est la méthode de la porte arrière. Vous voulez montrer que et ne sont pas corrélées à cause d'une « porte arrière », par exemple cause commune, à savoir, . Puisque vous avez pris un modèle de cause à effet, vous devez simplement bloquer l'ensemble des chemins (en observant les variables et le conditionnement sur eux) que la preuve peut circuler à partir et jusqu'à . Il est un peu délicat de bloquer ces chemins, mais Pearl propose un algorithme clair qui vous permet de savoir quelles variables vous devez observer pour bloquer ces chemins. $A$ $B$ $A \leftarrow D \rightarrow B$ $A$ $B$

gung a raison de dire qu'avec une bonne randomisation, les facteurs de confusion n'auront aucune importance. Puisque nous supposons qu’intervenir à la cause hypothétique (traitement) n’est pas autorisé, toute cause commune entre la cause hypothétique (traitement) et l’effet (survie), telle que l’âge ou la taille des calculs rénaux constituera un facteur de confusion. La solution consiste à prendre les bonnes mesures pour bloquer toutes les portes arrière. Pour en savoir plus, voir:

Pearl, Judée. "Diagrammes de causalité pour la recherche empirique." Biometrika 82,4 (1995): 669-688.

Pour appliquer cela à votre problème, commençons par dessiner le graphe de causalité. La taille de la pierre rénale (Traitement-dessus) et le type de traitement sont tous deux des causes de succès . peut être une cause de si d'autres médecins attribuent un traitement en fonction de la taille des calculs rénaux. De toute évidence , il n'y a aucune autre relation de cause à effet entre , et . vient après , il ne peut donc en être la cause. De même vient après et . $X$ $Y$ $Z$ $X$ $Y$ $X$ $Y$ $Z$ $Y$ $X$ $Z$ $X$ $Y$

Puisque est une cause commune, il convient de le mesurer. Il appartient à l'expérimentateur de déterminer l'univers des variables et des relations causales potentielles . Pour chaque expérience, l'expérimentateur mesure les "variables de porte arrière" nécessaires, puis calcule la distribution de probabilité marginale du succès du traitement pour chaque configuration de variables. Pour un nouveau patient, vous mesurez les variables et suivez le traitement indiqué par la distribution marginale. Si vous ne pouvez pas tout mesurer ou si vous ne disposez pas de beaucoup de données mais que vous connaissez quelque chose sur l'architecture des relations, vous pouvez effectuer une "propagation de croyance" (inférence bayésienne) sur le réseau. $X$

Neil G
la source

2

Très belle réponse. Pourriez-vous expliquer brièvement comment appliquer ce cadre à l'exemple que je donne dans la question? Donne-t-il la réponse attendue (A)?

Pomme de terre

Merci! Connaissez-vous une bonne et courte introduction à la "propagation de croyance"? Je suis intéressé à apprendre plus.

Pomme de terre

@ Potato: Je l'ai appris de son livre "Raisonnement probabiliste dans les systèmes intelligents". Il existe de nombreux tutoriels en ligne, mais il est difficile d’en trouver un qui construise l’intuition au lieu de simplement présenter l’algorithme.

Neil G

22

J'ai une réponse préalable qui traite ici du paradoxe de Simpson: le paradoxe fondamental de Simpson . Cela peut vous aider à lire cela pour mieux comprendre le phénomène.

En bref, le paradoxe de Simpson se produit en raison de la confusion. Dans votre exemple, le traitement est confondu* avec le type de calculs rénaux que chaque patient avait. Le tableau complet des résultats présentés montre que le traitement A est toujours meilleur. Ainsi, le médecin devrait choisir le traitement A. La seule raison pour laquelle le traitement B semble globalement meilleur est qu’il a été administré plus souvent aux patients présentant l’état moins grave, alors que le traitement A a été administré aux patients présentant l’état le plus sévère. Néanmoins, le traitement A s'est mieux comporté dans les deux cas. En tant que médecin, vous ne vous souciez pas du fait que dans le passé, le traitement le plus défavorable était administré à des patients atteints de la maladie moins grave, vous ne vous souciez que du patient avant vous et si vous voulez que ce patient s'améliore, vous fournirez avec le meilleur traitement disponible.

* _{Notez que le but des expériences et de la randomisation des traitements est de créer une situation dans laquelle les traitements ne sont pas confondus. Si l’étude en question était une expérience, je dirais que le processus de randomisation n’a pas permis de créer des groupes équitables, même s’il s’agissait peut-être d’une étude observationnelle - je ne sais pas.}

gung - Rétablir Monica
la source

Vous optez pour la méthode de normalisation également suggérée par l’autre réponse. Je trouve cette problématique. Il est possible d’exposer deux partitions du même ensemble de données qui donnent des conclusions différentes lorsqu’elles sont normalisées. Voir mon lien et cite en réponse à l'autre réponse.

Pomme de terre

2

Je n'ai pas lu l'article de Stanford. Cependant, je ne trouve pas le raisonnement dans la citation convaincant. Il se peut bien que dans certaines populations, le traitement B soit meilleur que le traitement A. Cela n’a pas d’importance. Si cela est vrai d'une population, c'est uniquement parce que ses caractéristiques sont confondues. Vous êtes confronté à un patient (et non à une population), et ce patient a plus de chances de s’améliorer pendant le traitement. Peu importe que le patient présente des calculs rénaux gros ou petits. Vous devriez choisir le traitement A.

gung - Réintégrer Monica

2

La partition jeune / ancienne est-elle confondue? Sinon, ce ne sera pas un problème. Dans ce cas, nous utiliserions toutes les informations pour prendre la meilleure décision. D'après ce que nous savons à l'heure actuelle, le «traitement B est le meilleur dans l'ensemble» est un hareng rouge. Cela ne semble être le cas qu'en raison de la confusion, mais c'est une illusion (statistique).

gung - Rétablir Monica

2

Vous auriez une table plus compliquée qui tiendrait compte de la taille et de l’âge des calculs rénaux. Vous pouvez consulter l' exemple de l' affaire de discrimination fondée sur le sexe dans Berkeley sur la page Wikipedia.

gung - Rétablir Monica

1

La haine a prolongé les commentaires aussi longtemps mais ... Je ne dirais pas que le paradoxe est toujours dû à la confusion. Cela est dû à une relation entre les variables qu'une variable de confusion aura, mais je n'appellerais pas toutes les variables menant à un paradoxe de Simpson (par exemple, poids de 30 ans et de 90 ans x quantité de croustilles consommées par an - Parce que 90 ans sont beaucoup plus légers au début, l'effet principal des puces peut être négatif sans interaction incluse. Je ne dirais pas que l'âge est un confondu. (voir la première illustration sur la page Wikipedia).

John

7

Ce bel article de Judea Pearl paru en 2013 traite précisément du problème de l'option à choisir face au paradoxe de Simpson:

Comprendre le paradoxe de Simpson (PDF)

ddiez
la source

4

Voulez-vous la solution à l'exemple par exemple ou au paradoxe en général? Il n'y en a pas pour ces derniers car le paradoxe peut survenir pour plus d'une raison et doit être évalué au cas par cas.

Le paradoxe est principalement problématique lors de la déclaration de données récapitulatives et est essentiel pour former les individus à l'analyse et à la déclaration de données. Nous ne voulons pas que les chercheurs publient des statistiques récapitulatives masquant ou masquant les modèles de données, ni que les analystes de données ne reconnaissent pas le modèle réel des données. Aucune solution n'a été donnée car il n'y a pas une solution unique.

Dans ce cas particulier, le médecin avec la table choisirait clairement toujours A et ignorerait la ligne de résumé. Peu importe qu'ils connaissent ou non la taille de la pierre. Si quelqu'un qui analysait les données n'avait signalé que les lignes de résumé présentées pour A et B, il y aurait un problème, car les données reçues par le médecin ne refléteraient pas la réalité. Dans ce cas, ils auraient probablement aussi dû laisser la dernière ligne du tableau car ce n'est correct que sous une interprétation de ce que devrait être la statistique récapitulative (il y a deux possibilités). Laisser le lecteur interpréter les cellules individuelles aurait généralement donné le bon résultat.

(Vos commentaires abondants semblent suggérer que vous êtes plus préoccupé par les problèmes d'inégalité de N et que Simpson est plus large que cela. Je suis donc réticent à m'attarder davantage sur le problème de l'inégalité de N. Peut-être poser une question plus ciblée. Je préconise une conclusion de normalisation, ce n’est pas le cas. Je soutiens que vous devez considérer que la statistique récapitulative est choisie de manière relativement arbitraire et que la sélection de certains analystes a suscité le paradoxe. avoir.)

John
la source

Vous prétendez que nous devrions ignorer la ligne de résumé. Pourquoi est-ce "clair"?

Pomme de terre

C'est clair parce que le traitement A est meilleur avec les petites ou grandes pierres et que B ne sort que parce que les N sont inégaux. De plus, la dernière ligne est une interprétation et non un évangile. Il y a au moins deux façons de calculer cette ligne. Vous ne le calculeriez de cette manière que si vous vouliez dire quelque chose sur l'échantillon en question.

John

Je suis désolé, je ne comprends pas pourquoi la ligne de résumé est un rapport incorrect. Je pense que je manque votre point central. Pourriez-vous s'il vous plaît expliquer?

Pomme de terre

1

Vous pouvez normaliser et ensuite faire la moyenne, ce qui donne le résultat "correct" (A). Mais c'est illicite. La citation suivante est tirée de l'article pertinent de l'encyclopédie philosophique Stanford, disponible ici: plato.stanford.edu/entries/paradox-simpson

Potato,

2

"Les inversions de Simpson montrent qu'il existe de nombreuses façons de partitionner une population qui correspondent à des associations dans la population totale. Une partition par sexe pourrait indiquer que les hommes et les femmes ont eu plus de mal à bénéficier d'un nouveau traitement, tandis qu'une partition de la même population par âge, les patients âgés de moins de 50 ans et les patients âgés de 50 ans et plus s'en tiraient mieux avec le nouveau traitement. La normalisation des données provenant de différentes manières de partitionner la même population donnera des conclusions incompatibles sur les associations existant dans la population totale ".

Pomme de terre

4

Un important "à retenir" est que si les assignations de traitement sont disproportionnées entre les sous-groupes, il faut tenir compte des sous-groupes lors de l'analyse des données.

Un deuxième élément important à retenir est que les études observationnelles sont particulièrement susceptibles de donner de mauvaises réponses en raison de la présence inconnue du paradoxe de Simpson. C'est parce que nous ne pouvons pas corriger le fait que le traitement A avait tendance à être accordé aux cas les plus difficiles si nous ne le savions pas.

Dans une étude correctement randomisée, nous pouvons soit (1) attribuer le traitement de manière aléatoire, de sorte qu'il est très improbable de donner un "avantage injuste" à un traitement et que celui-ci soit automatiquement pris en compte dans l'analyse des données, ou (2) s'il existe une raison importante. pour ce faire, attribuez les traitements de manière aléatoire mais disproportionnée en fonction d'un problème connu, puis prenez-le en compte lors de l'analyse.

Emil Friedman
la source

+1, cependant "se prendre automatiquement en charge" n'est pas tout à fait vrai (du moins dans la situation immédiate, qui vous tient à cœur). C'est vrai à long terme, mais vous pouvez toujours avoir des erreurs de type I et de type II dues à une erreur d'échantillonnage (c'est-à-dire que les patients dans un état de traitement avaient tendance à avoir des maladies plus graves par hasard uniquement).

gung - Rétablir Monica

Mais l'effet de l'erreur d'échantillonnage sera pris en compte lorsque nous analysons le tableau de contingence et que nous calculons et interprétons correctement la valeur p.

Emil Friedman

Comment résoudre le paradoxe de Simpson?

Réponses: