Je n'ai probablement pas une compréhension claire du paradoxe de Simpson . Informellement, je sais que la moyenne de la réponse Y1, regroupée sur tous les niveaux possibles du facteur A, peut être supérieure à la moyenne de la réponse Y2 sur tous les niveaux de A, même si la moyenne de Y1 pour chaque niveau de A (chaque groupe) est toujours inférieur à la moyenne correspondante de Y2. J'ai lu des exemples, mais je suis toujours surpris chaque fois que je le vois, peut-être parce que je n'apprends pas bien par des exemples spécifiques: j'ai du mal à les généraliser. J'apprends mieux, et préfère voir une explication dans les formules. Pouvez-vous expliquer le paradoxe qui repose sur des équations plutôt que sur des tables de comptage?
De plus, je pense que la raison de ma surprise est que je pourrais inconsciemment faire des hypothèses sur les moyennes impliquées dans le paradoxe, ce qui n'est peut-être pas vrai en général. Peut-être que j'oublie de pondérer par le nombre d'échantillons dans chaque groupe? Mais alors, je voudrais voir une équation qui me montre que l'estimation de la moyenne totale est plus précise si je pondère chaque moyenne de groupe par le nombre d'échantillons dans chaque groupe, car (si c'est vrai) ce n'est pas évident pour moi en général. Naïvement, je penserais que l'estimation de a une erreur standard plus faible lorsque j'ai plus d'échantillons, indépendamment de la pondération.
Réponses:
Voici une approche générale pour comprendre le paradoxe de Simpson algébriquement pour les données de comptage.
Supposons que nous ayons des données de survie pour une exposition et que nous créons un tableau de contingence 2x2. Pour garder les choses simples, nous aurons les mêmes comptes dans chaque cellule. Nous pourrions détendre cela, mais cela rendrait l'algèbre assez désordonnée.
Dans ce cas, le taux de mortalité est le même dans les groupes exposés et non exposés.
Maintenant, si nous divisons les données, disons en un groupe pour les femmes et un autre groupe pour les hommes, nous obtenons 2 tableaux, avec les nombres suivants:
Hommes:ExposedUnexposedDiedXaXcSurvivedXbXdDeath Rateaa+bcc+d
et pour les femmes:ExposedUnexposedDiedX(a−1)X(c−1)SurvivedX(b−1)X(d−1)Death Ratea−1a+b−2c−1c+d−2
où sont les proportions de chaque cellule du tableau de données agrégées qui sont des hommes.a,b,c,d∈[0,1]
Le paradoxe de Simpson se produit lorsque le taux de mortalité des hommes exposés est supérieur à celui des hommes non exposés ET que le taux de mortalité des femmes exposées est supérieur au taux de mortalité des femmes non exposées. Alternativement, cela se produira également lorsque le taux de mortalité des hommes exposés est inférieur au taux de mortalité des hommes non exposés ET que le taux de mortalité des femmes exposées est inférieur au taux de mortalité des femmes non exposées. C'est quand
Comme exemple concret, soit , et . Ensuite, nous aurons le paradoxe de Simpson lorsque:X=100 a=0.5,b=0.8,c=0.9
D'où nous concluons que d doit se trouver dans(0.96,1]
Le 2ème ensemble d'inégalités donne:
qui n'a pas de solution pourd∈[0,1]
Donc, pour les trois valeurs que nous avons choisies pour et , pour invoquer le paradoxe de Simpson, doit être supérieur à 0,96. Dans le cas où la valeur était de nous obtiendrions un taux de mortalité pour les hommes dea,b, c d 0.99
et pour les femmes:
Ainsi, les hommes ont un taux de mortalité plus élevé dans le groupe non exposé que dans le groupe exposé, et les femmes ont également un taux de mortalité plus élevé dans le groupe non exposé que dans le groupe exposé, mais les taux de mortalité dans les données agrégées sont les mêmes pour les groupes exposés et non exposés. .
la source
Supposons que nous ayons des données sur 2 variables, et , pour 2 groupes, A et B.x y
Les données du groupe A sont telles que la droite de régression ajustée est
avec des valeurs moyennes de et pour et respectivement.2 9 x y
Les données du groupe B sont telles que la droite de régression ajustée est
avec des valeurs moyennes de et pour et respectivement.11 14 x y
Ainsi, le coefficient de régression pour est dans les deux groupes.x −1
De plus, qu'il y ait un nombre égal d'observations dans chaque groupe, les deux et y étant distribués symétriquement. Nous souhaitons maintenant calculer la droite de régression globale. Pour simplifier les choses, nous supposerons que la droite de régression globale passe par les moyennes de chaque groupe, c'est-à-dire pour le groupe A et pour le groupe B. Ensuite, il est facile de voir que la régression globale la pente de la ligne doit être qui est le coefficient de régression global pour . Ainsi, nous voyons le paradoxe de Simpson en action - nous avons une association négative de avec(2,9) (11,14) (14−9)/(11−2)=0.55 x x y dans chaque groupe individuellement, mais une association positive globale lorsque les données sont agrégées. Nous pouvons facilement le démontrer dans R comme suit:
Les points rouges et la ligne de régression sont du groupe A, les points bleus et la ligne de régression sont du groupe B et la ligne noire est la ligne de régression globale.
la source