Non-transitivité de la corrélation: corrélations entre le sexe et la taille du cerveau et entre la taille du cerveau et le QI, mais pas de corrélation entre le sexe et le QI

18

J'ai trouvé l'explication suivante sur un blog et j'aimerais obtenir plus d'informations sur la non-transitivité de la corrélation:

Nous avons les faits incontestables suivants:

  • En moyenne, il existe une différence de volume cérébral entre les hommes et les femmes
  • Il existe une corrélation entre le QI et la taille du cerveau; la corrélation est de 0,33 et correspond donc à 10% de la variabilité du QI

De ces prémisses 1 et 2, il semble en découler logiquement: les femmes ont en moyenne un QI inférieur à celui des hommes. Mais c'est une erreur! En statistiques, les corrélations ne sont pas transitives. La preuve est qu'il suffit de regarder les résultats des tests de QI, et ils montrent que le QI des hommes et des femmes ne diffère pas en moyenne.

Je voudrais comprendre cette non-transitivité de la corrélation un peu plus profondément.

Si la corrélation entre le QI et la taille du cerveau était de 0,9 (ce que je sais que ce n'est pas (1)), en déduire que les femmes ont en moyenne un QI inférieur à celui des hommes serait toujours une erreur?

S'il vous plaît, je ne suis pas ici pour parler du QI (et des limites du test), du sexisme, des stéréotypes féminins, de l'arrogance, etc. (2). Je veux juste comprendre le raisonnement logique derrière l'erreur.


(1) ce que je sais que ce n'est pas le cas: les Néandertaliens avaient un cerveau plus gros que l'homo sapiens, mais n'étaient pas plus intelligents;

(2) Je suis une femme et dans l'ensemble, je ne me considère pas, ou les autres femmes moins intelligentes que les hommes, je ne me soucie pas du test de QI, car ce qui compte est la valeur des personnes, et ce n'est pas basé sur le capacités intellectuelles.


La source originale en français:

Sur les faits indiscutables suivants:

  • il y a une différence de volume cérébral en moyenne entre hommes et femmes
  • il y a une corrélation entre QI et volume cérébral; la corrélation est 0,33 et correspond donc à 10% de la variabilité

De ces prémisses 1 et 2, il semble résulté logiquement que: les femmes ont en moyenne un QI inférieur aux hommes.

Mais c'est une erreur de raisonnement! En statistique, les corrélations ne sont pas transitives. La preuve, c'est que pour avoir le cœur net, il suffit de regarder les résultats des tests de QI, et ceux-ci montrent que les QI des hommes et des femmes ne diffèrent pas en moyenne.

entrez la description de l'image ici

MagTun
la source
5
Je ne comprends pas du tout comment ces déclarations ont quelque chose à voir avec la corrélation (et faire référence à la "transitivité" semble tout à fait inapproprié dans ce contexte). La conclusion, après tout, a à voir avec une différence moyenne. Cette statistique (qui est un premier moment) est totalement indépendante de la corrélation (qui est dérivée des seconds moments). Même lorsque la corrélation est parfaite on ne peut tirer aucune conclusion sur la différence de moyenne de la deuxième variable basée sur la différence de moyenne de la première variable. ±1
whuber
5
On peut montrer (Langford, Schwertman et Owens (2001)) que la corrélation positive est transitive si la somme des corrélations au carré est supérieure à 1:ρXY2+ρYX2>1ρXZ>0
CloseToC
2
@whuber: Oui, mais ce n'est pas une question sur la relation entre les moyennes de X et Y (taille du cerveau et QI), c'est la question sur la relation entre les moyennes de Y dans deux clusters différents ... Je pense que c'est évident que si la corrélation entre la taille du cerveau et le QI est parfaite (c'est-à-dire que le QI est une fonction linéaire de la taille du cerveau) et si la taille moyenne du cerveau diffère entre les hommes et les femmes, alors le QI moyen diffère entre les hommes et les femmes.
amibe dit Réintégrer Monica le
2
@Amoeba Merci pour cette interprétation. La citation commence à avoir un sens (enfin!). Mais le qualifier de "transitivité de corrélation" est si obscur qu'il est franchement trompeur. (La phrase est là dans le français original, donc nous ne pouvons même pas blâmer la traduction.)
whuber
3
@amoeba C'est plausible. Mais je pense que vous devez étirer un peu les choses pour y arriver! La citation ne caractérise pas la relation entre le sexe et la taille du cerveau comme une "corrélation" - seulement comme une différence de moyenne entre les deux groupes (ce qui n'est d'ailleurs pas une mesure standard de corrélation). Mais je suppose que nous sommes censés comprendre la «corrélation» au sens large comme le «manque de dépendance» ou quelque chose comme ça.
whuber

Réponses:

16

Oui, ce serait toujours une erreur.

Voici une figure très simple montrant quatre situations différentes. Dans chaque cas, les points rouges représentent les femmes, les points bleus représentent les hommes, l'axe horizontal représente la taille du cerveau et l'axe vertical représente le QI. J'ai généré les quatre ensembles de données tels que:

  • il y a toujours la même différence de taille moyenne du cerveau entre les hommes ( ) et les femmes ( 28 - les unités sont arbitraires). Ce sont des moyennes de population, mais cette différence est suffisamment grande pour être statistiquement significative avec toute taille d'échantillon raisonnable;2228

  • il y a toujours une différence nulle dans le QI moyen entre les hommes et les femmes (tous deux ), et aussi une corrélation nulle entre le sexe et le QI;100

  • la force de corrélation entre la taille du cerveau et le QI varie comme indiqué sur la figure.

corrélations

Dans la sous-intrigue en haut à gauche, la corrélation intra-sexe (calculée séparément pour les hommes et séparément pour les femmes, puis en moyenne) est de , comme dans votre citation. Dans la sous-placette supérieure droite, la corrélation globale (sur les hommes et les femmes ensemble) est de 0,3 . Notez que votre devis ne précise pas à quoi se réfère le nombre de 0,33 . Dans la sous-intrigue en bas à gauche, la corrélation intra-sexe est de 0,9 , comme dans votre exemple hypothétique; dans la sous-placette inférieure droite, la corrélation globale est de 0,9 .0,30,30,330,90,9

Vous pouvez donc avoir n'importe quelle valeur de corrélation, et peu importe qu'elle soit calculée globalement ou au sein d'un groupe. Quel que soit le coefficient de corrélation, il est fort possible qu'il n'y ait aucune corrélation entre le sexe et le QI et aucune différence entre les sexes dans le QI moyen.


Explorer la non-transitivité

Explorons tout l'espace des possibilités, en suivant l'approche suggérée par @kjetil. Supposons que vous ayez trois variables et (sans perte de généralité) supposons que la corrélation entre x 1 et x 2 est a > 0 et la corrélation entre x 2 et x 3 est b > 0 . La question est: quelle est la valeur positive minimale possible de la corrélation λ entre x 1 et x 3X1,X2,X3X1X2une>0X2X3b>0λX1X3? Est - il parfois avoir à être positif, ou peut - il être toujours égale à zéro?

La matrice de corrélation est et elle doit avoir un déterminant non négatif, c'est-à-dire d e t R = - λ 2 + 2 a b λ - ( a 2 + b 2 - 1 ) 0 , ce qui signifie que λ doit se situer entre a b ±

R=(1uneλune1bλb1)
etR=-λ2+2unebλ-(une2+b2-1)0,
λSi les deux racines sont positives, la valeur minimale possible deλest égale à la plus petite racine (etλdoit être positif!). Si zéro est entre ces deux racines, alorsλpeut être nul.
uneb±(1-une2)(1-b2).
λλλ

Nous pouvons résoudre ce problème numériquement et tracer la valeur positive minimale possible de pour différents a et b :λuneb

Explorer la non-transitivité

De manière informelle, nous pourrions dire que les corrélations seraient transitives si étant donné que et b > 0 , on pourrait conclure que λ > 0 . Nous voyons que pour la plupart des valeurs a et b , λ peut être nul, ce qui signifie que les corrélations sont non transitives. Cependant, pour certaines valeurs suffisamment élevées de a et b , la corrélation λ doit être positive , ce qui signifie qu'il existe "un certain degré de transitivité" après tout, mais limité à des corrélations très élevées uniquement. Notez que les deux corrélations a et bune>0b>0λ>0unebλunebλ uneb doivent être élevés.

On peut trouver une condition précise pour cette "transitivité": comme mentionné ci-dessus, la plus petite racine doit être positive, c'est -à- dire , ce qui équivaut àa2+b2>1. Ceci est une équation d'un cercle! Et en effet, si vous regardez la figure ci-dessus, vous remarquerez que la région bleue forme un quart de cercle.uneb-(1-une2)(1-b2)>0une2+b2>1

Dans votre exemple spécifique, la corrélation entre le sexe et la taille du cerveau est assez modérée (peut être a = 0,5 ) et la corrélation entre la taille du cerveau et le QI est b = 0,33 , ce qui est fermement dans la région bleue ( a 2 + b 2 < 1 ), ce qui signifie que λ peut être positif, négatif ou nul.une=0,5b=0,33une2+b2<1λ


Chiffre pertinent de l'étude originale

Vous vouliez éviter de discuter de genre et de cervelle, mais je ne peux m'empêcher de souligner qu'en regardant la figure complète de l'article original ( Gur et al. 1999 ), on peut voir que s'il n'y a pas de différence de genre dans le score de QI verbal, il y a une différence évidente et significative dans le score de QI spatial! Comparer les sous-parcelles D et F.

Gur et al.

amibe dit réintégrer Monica
la source
2
J'adore ces intrigues que vous avez générées. Ceux du papier, pas tellement ...
shadowtalker
1
@AleksandrBlekh: Pour dire la vérité, je ne suis pas sûr. "Carte de chaleur"? "Tracé de contour" mais coloré et sans contours?
amibe dit Réintégrer Monica le
2
|λ|λ
1
Xyyzxzab0λ0
1
Merci amibe pour cette réponse longue et détaillée (et même ajoutée en plus, très bien accueillie d'ailleurs)! Cela rend les choses très claires! Le concept est si difficile à saisir pour mon cerveau statistiquement inexpérimenté et vous avez mis la lumière sur le problème! Merci beaucoup pour le temps que vous avez pris pour poster votre réponse!
MagTun
8

X1=QI,X2=le sexeX3

cor(X1,X2)=λ,cor(X1,X3)=cor(X2,X3)=ρ=0,9
λ
R=(1λρλ1ρρρ1)
ρ
detR=1(1-ρ2)-λ(λ-ρ2)+ρ(λρ-ρ)=1-λ2-2ρ2+2λρ20,
ρ2λ+12ρ=0,9λ0,62

Mise à jour:

p=0,5μ1=E(X1|X2=1)μ0=E(X1|X2=0)μ=E(X1)μ=0=μ1+μ0μ0=-μ1X1N(μ=0,σ2)X2p=1/2

corr(X1,X2)=E(X1-μ)E(X2-p)σ12=Δ2σ
Δ=μ1-μ0=2μ1σ=dixΔ/20les informations sur le QI signifient que la différence est fausse! Ce serait vrai si le sexe était une variable continue, ce qui n'est évidemment pas le cas. Notons que ce fait est lié au fait que pour la distribution binomiale, la variance est fonction de la moyenne (comme il doit l'être, car il n'y a qu'un seul paramètre libre à varier). Ce que nous avons fait ci-dessus, c'est vraiment étendre cela à la covariance / corrélation.

ρ=0,33λ-0,7822λ=0

kjetil b halvorsen
la source
1
cor(X1,X2)0,62E(X1)E(X2)
5
+1 - Mais je trouve que le concept de corrélation entre le QI masculin et féminin est quelque peu déroutant, car vous ne pourriez jamais calculer une telle valeur.
Andy W
1
Quelle est la corrélation entre le QI masculin et féminin censé signifier?!
Amoeba dit Reinstate Monica
oui, c'est vrai @amoeba! Je n'ai peut-être pas utilisé les bons mots pour exprimer ma confusion (c'est difficile car je n'ai pas l'habitude des statistiques) mais les variables sont en effet le sexe, le QI et la taille du cerveau.
MagTun
7

C'est une situation dans laquelle j'aime utiliser des diagrammes de chemin pour illustrer les effets directs et les effets indirects , et comment ces deux effets sur les corrélations globales.

Selon la description originale, nous avons une matrice de corrélation ci-dessous. La taille du cerveau a une corrélation d'environ 0,3 avec le QI, les femmes et le QI ont une corrélation de 0 entre eux. Je remplis la corrélation négative entre la taille des femmes et celle du cerveau à -0,3 (si je devais deviner que c'est beaucoup plus petit que cela, mais cela servira à des fins d'illustration).

       Brain  Female  IQ
 Brain   1
Female  -0.3    1
    IQ   0.3    0      1

Si nous ajustons un modèle de régression où le QI est fonction de la taille du cerveau et étant une femme, nous pouvons l'illustrer en termes de diagramme de chemin. J'ai rempli les coefficients de régression partielle sur les flèches, et le nœud B représente la taille du cerveau et le nœud F signifie la femelle.

entrez la description de l'image ici

Maintenant, c'est fou - quand on contrôle la taille du cerveau, étant donné ces corrélations, les femmes ont une relation positive avec le QI. Pourquoi cela, alors que la corrélation marginale est nulle? Selon les règles avec les diagrammes de chemin linéaire ( Wright, 1934 ), nous pouvons décomposer la corrélation marginale en fonction de l'effet direct lors du contrôle de la taille du cerveau et de l'effet indirect:

TotalF,IQ=DirectF,IQ+IndirectF,B,IQ

TotalF,IQ=Cor(F,IQ)

IndirectF,B,QI=Cor(F,B)Cor(B,QI|F)-0,099=-0,30,33

Parce que l'effet total est nul, nous savons que l'effet direct doit simplement être exactement le signe opposé et la taille de l'effet indirect , d'où l'effet direct est égal à 0,099 dans cet exemple. Maintenant, ici, nous avons une situation lors de l'évaluation du QI attendu des femmes, nous obtenons deux réponses différentes, bien que probablement pas ce à quoi vous vous attendiez initialement lors de la spécification de la question. Lorsque vous évaluez simplement le QI marginal attendu des femmes par rapport aux hommes, la différence est nulle telle que vous l'avez définie (en ayant une corrélation nulle). Lors de l'évaluation de la différence attendue en fonction de la taille du cerveau, les femmes ont un QI plus élevé que les hommes.

Vous pouvez insérer dans cet exemple des corrélations plus grandes entre la taille du cerveau et le QI (ou des corrélations plus petites entre la taille des femmes et du cerveau), étant donné les limites que Kjetil montre dans sa réponse. L'augmentation de la première rend l'écart entre le QI conditionnel des femmes et des hommes encore plus favorable aux femmes, la diminution de la seconde réduit les différences.

Andy W
la source
Si vous regardez l'image fournie, elle montre une corrélation positive (et plus forte que celle des hommes) du volume cérébral des femmes avec le QI.
Alecos Papadopoulos
1
@Andy W J'ai honte de poser cette question stupide, mais quel logiciel avez-vous utilisé pour dessiner le graphe des nœuds?
mugen
1
Ce fut un travail rapide dans inkscape @mugen. Prenant plus de temps, je pense que ceux que je fais en utilisant Latex et Tikz sont plus agréables.
Andy W
+1 Pourriez-vous m'indiquer la théorie derrière votre deuxième formule?
Aleksandr Blekh
2
@AleksandrBlekh - l'article de Wright que je cite est la source fondamentale. Judea Pearl va dans des commentaires plus approfondis dans son livre sur la causalité , bien qu'il existe des traitements plus simples. (Pour les modèles linéaires, les décompositions sont souvent traitées de façon superficielle dans les livres de modélisation d'équations structurelles.)
Andy W
3

vq12

(1)E(v1)>E(v2)=βE(v1),0<β<1,ρ(v1,q1)>0,ρ(v2,q2)>0

Notez que tandis que le texte cité parle de "corrélation entre le volume du cerveau et le QI" en général, l'image fournie fait une distinction avec les deux lignes de tendance (c'est-à-dire qu'elle montre séparément la corrélation pour les deux sous-groupes). Nous les considérons donc séparément (ce qui est la bonne façon de procéder).

alors

ρ(v1,q1)>0Cov(v1,q1)>0E(v1q1)>E(v1)E(q1)

(2)E(v1q1)E(q1)>E(v1)

et

ρ(v2,q2)>0Cov(v2,q2)>0E(v2q2)>E(v2)E(q2)

(3)E(v2q2)βE(q2)>E(v1)

E(q1)>E(q2)

(4)E(q1)=E(q2)=q¯

Il faut alors que

(5)(2),(4)E(v1q1)q¯>E(v1)

et cela

(6)(3),(4)E(v2q2)βq¯>E(v1)

(5)(6)
(1)

(1)E(q1)E(q2)(1)

Alecos Papadopoulos
la source
2
Malgré tous les calculs présentés ici, je ne vois toujours pas comment la corrélation révèle quoi que ce soit (ou n'impose aucune contrainte) concernant les relations entre les valeurs moyennes .
whuber
@whuber La réponse consiste à montrer que ce n'est pas le cas. Les dernières phrases disent exactement cela. Ajoutons-en un de plus à cet effet.
Alecos Papadopoulos
Mais c'est absolument basique: on n'a pas besoin d'une page entière d'équations pour le montrer! Il suffit d'observer que les coefficients de corrélation sont invariants de localisation, QED . Suis-je mal interprété la question?
whuber
1
@whuber Avec tout le respect que je vous dois et aucune infraction pour qui que ce soit, mais je crains que vous n'interprétiez mal le niveau de connaissances du PO. Sinon, la question n'aurait pas été publiée.
Alecos Papadopoulos
4
Je vous encourage donc à réfléchir à la question de savoir si et comment une réponse qui s'appuie fortement sur des équations mathématiques est appropriée pour adresser des affiches qui semblent demander des expositions élémentaires de concepts de base. C'est un problème subtil car parfois c'est exactement la bonne approche. De plus, la mesure dans laquelle on utilise les mathématiques - et la façon dont on expose les idées mathématiques - peut être une question de goût. Mais à mon humble avis, ce type de réponse n'est efficace que lorsque les mathématiques sont claires et constamment axées sur une idée essentielle.
whuber