Signification du coefficient de corrélation moyen

11

Avertissement: si vous trouvez que cette question est trop similaire à une autre, je suis heureux qu'elle soit fusionnée. Cependant, je n'ai pas trouvé de réponse satisfaisante ailleurs (et je n'ai pas encore la "réputation" de commenter ou de voter), donc j'ai pensé qu'il serait préférable de poser moi-même une nouvelle question.

Ma question est la suivante. Pour chacun des 12 sujets humains, j'ai calculé un coefficient de corrélation (rho de Spearman) entre 6 niveaux d'une variable indépendante X, et les observations correspondantes d'une variable dépendante Y. (Remarque: les niveaux de X ne sont pas égaux entre les sujets.) Mon l'hypothèse nulle est que dans la population générale, cette corrélation est égale à zéro. J'ai testé cette hypothèse de deux manières:

  1. Utilisation d'un test t à un échantillon sur les coefficients de corrélation obtenus à partir de mes 12 sujets.

  2. En centrant mes niveaux de X et mes observations de Y de telle sorte que pour chaque participant, moyenne (X) = 0 et moyenne (Y) = 0, puis calcul d'une corrélation sur les données agrégées (72 niveaux de X et 72 observations de Y) .

Maintenant, en lisant sur le travail avec les coefficients de corrélation (ici et ailleurs), j'ai commencé à douter de la validité de la première approche. En particulier, j'ai vu l'équation suivante apparaître à plusieurs endroits, présentée (apparemment) comme un test t pour les coefficients de corrélation moyens:

t=rSEr=n21r2

où serait le coefficient de corrélation moyen (et supposons que nous l'avons obtenu en utilisant d'abord la transformation de Fisher sur les coefficients par sujet) et le nombre d'observations. Intuitivement, cela me semble faux car il ne comprend aucune mesure de la variabilité entre les sujets. En d'autres termes, si j'avais 3 coefficients de corrélation, j'obtiendrais la même statistique t, qu'ils soient [0,1, 0,5, 0,9] ou [0,45 0,5 0,55] ou n'importe quelle plage de valeurs avec la même moyenne (et )n n = 3rnn=3

Je soupçonne donc que l'équation ci-dessus ne s'applique pas en fait lors du test de la signification d'une moyenne de coefficients de corrélation, mais lors du test de la signification d'un seul coefficient de corrélation basé sur observations de 2 variables.n

Quelqu'un ici pourrait-il confirmer cette intuition ou expliquer pourquoi elle est fausse? De plus, si cette formule ne s'applique pas à mon cas, quelqu'un connaît-il / la bonne approche? Ou peut-être que mon propre numéro de test 2 est déjà valide? Toute aide est grandement appréciée (y compris les pointeurs vers des réponses précédentes que j'ai peut-être manquées ou mal interprétées).

Ruben van Bergen
la source
2
Le de Pearson est insensible aux transformations de centrage et de mise à l'échelle, donc je pense que le centrage n'est pas pertinent pour votre question. Par exemple, cor ( ) = cor ( ) = cor ( ) = cor ( ). X , Y X , Y - ˉ Y X , Y + 1000 X , Y × 1000rX,YX,YY¯X,Y+1000X,Y×1000
Alexis
Je suis d'accord avec toi. C'est pourquoi j'ai interprété le centrage comme "centrant chaque variable séparément avant de les assembler".
Federico Tedeschi du
1
@FedericoTedeschi N'est-ce pas "centrer chaque variable séparément avant de les assembler" que signifie ? YY¯
Alexis
@Alexis Je vous ai répondu au bas de ma réponse (cela aurait été trop long de l'écrire dans un commentaire, et j'aurais aussi dû le corriger plusieurs fois à cause du problème WYSINWYG).
Federico Tedeschi,

Réponses:

2

Une meilleure approche pour analyser ces données consiste à utiliser un (aka modèle à effets mixtes, modèle hiérarchique) avec subjectcomme effet aléatoire (interception aléatoire ou interception aléatoire + pente). Pour résumer une réponse différente de la mienne:

Il s'agit essentiellement d'une régression qui modélise une seule relation globale tout en permettant à cette relation de différer entre les groupes (les sujets humains). Cette approche bénéficie d'un regroupement partiel et utilise vos données plus efficacement.

mkt - Réintégrer Monica
la source
-1

Je suppose que les variables ( et ) sont les mêmes pour tous les individus (en fait, je ne suis pas sûr de comprendre ce que vous voulez dire en disant que les niveaux ne sont pas égaux entre les sujets: j'espère que vous êtes se référant à l'indépendance entre les plages des variables, et non à quelles variables sont mesurées pour chaque individu). Oui, la formule que vous avez montrée s'applique au coefficient de corrélation entre deux variables.6 X 6 Y126 X6 Y

Dans votre point 2, vous parlez de normalisation: je pense que cela aurait du sens si vous le faisiez pour chacune des variables séparément. Cependant, même ainsi, le problème avec cette approche est qu'elle ne contrôle pas la dépendance intra-individuelle.62

Je crois que votre approche 1 n'est pas non plus valable, car ce serait un test parmi variables avec une distribution avec seulement degrés de liberté, donc je ne pense pas que vous puissiez appliquer le théorème de limite centrale dans ce cas.t 106t10

Peut-être, avec des nombres plus importants, vous pourriez utiliser une approche à effet aléatoire, permettant une pente aléatoire et testant simultanément à la fois un coefficient moyen nul (de sur ) et la non-existence d'un coefficient aléatoire. Je pense cependant que 6 variables et 12 observations ne suffisent pas.Y iXiYi

Je vous suggère de le voir comme un test sur 6 valeurs (devenant 12 si vous considérez également les valeurs inférieures à la diagonale) de la matrice de corrélation parmi les variables (à la fois le et le ), c'est-à-dire celles sur la diagonale de la 2e (et de façon équivalente au 3e) quadrant. Ainsi, je ferais un test de rapport de vraisemblance entre le modèle restreint et le modèle non restreint.X Y12XY

@Alexis Je crois comprendre que centrer , , en les remplaçant par aurait du sens (je pense qu'il serait également logique de les diviser par leur ). De cette façon, les variables et (créées en considérant les comme si elles étaient des occurrences d'une variable unique, et les mêmes pour ) auraient toutes une moyenne de . Au contraire, si nous construisons d'abord deux variables (créées en considérantX1,,X6Y1,,Y6X1=X1X1¯,,X6=X6X6¯,Y1=Y1Y1¯,,Y6=Y6Y6¯SEXYXi,1i6Yi0X,YXi,1i6comme s'il s'agissait d'occurrences d'une variable unique, et la même chose pour ), alors bien sûr, soustraire la moyenne (et aussi la diviser par le SE de et ) ne changerait rien.YiXY

EDIT 01/01/18

Soit la variable et ( ) l'individu. Supposons alors que nous ayons:ij1j12

X1j=Y1j=10,j ;

X2j=Y2j=8,j ;

X3j=Y3j=6,j ;

X4j=Y4j=4,j ;

X5j=Y5j=2,j ;

X6j=Y6j=j,j .

La corrélation dans ce cas devrait être de .0.5428

Si nous centrons chaque variable, étant donné que, pour , et n'ont aucune variation, nous avons: . Quant à , nous obtenons les valeurs (c'est dire pour les : et exactement le contraire pour les ). Puisque et , on obtient: , impliquant une corrélation de .1i5XiYiXij=Yij=0i=6X6j=j6.5,Yj6=(13j)6.5=6.5jX5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.5Y0=0j6.5=(6.5j)Xij=Yiji,jX=Y1

Federico Tedeschi
la source
Je suis d'accord avec vous si nous suivons la deuxième procédure. C'est pourquoi je crois que Ruben van Bergen voulait dire ce que j'ai décrit dans la 1ère procédure. Dans ce cas, nous avons que: , mais n'est pas Généralement vrai. J'édite mon article pour montrer un contre-exemple. cor(Xi,Yi)=cor(Xi,Yi),icor(X,Y)=cor(X,Y)
Federico Tedeschi
Les valeurs donnant une corrélation de sont: ; . Peu importe que la corrélation soit réellement de , car elle est clairement différente de . 0.5428X=10,10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,1,2,3,4,5,6,7,8,9,10,11,12Y=10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,12,11,10,9,8,7,6,5,4,3,2,10.54281
Federico Tedeschi
La corrélation entre et est . Le fait que vous disiez que et conduit à est vrai, mais cela seulement signifie que , c'est quelque chose que j'ai déjà écrit. X=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.5X=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.51X=1,,12Y=12,,1cor(X,Y)=cor(X,Y)=1cor(Xi,Yi)=cor(Xi,Yi)
Federico Tedeschi
Bien sûr : c'est une conséquence de l'invariance de corrélation aux transformations linéaires. C'est une chose sur laquelle je me suis déjà mis d'accord dans mon premier commentaire, "Je suis d'accord avec vous. C'est pourquoi j'ai interprété le centrage comme" centrant chaque variable séparément avant de les assembler "." - Federico Tedeschi 27 décembre 17 à 10:27cor(X;Y)=cor(XX¯;YY¯)
Federico Tedeschi
Peut-être, je ne comprends pas ce que signifie "centrer chaque variable séparément avant de les assembler". Pour moi, signifie est "centré chacun avant de les assembler ". Pouvez-vous m'aider à comprendre notre compréhension différente apparente? X 1 - ˉ X , X 2 - ˉ X , , X n - ˉ XXX¯X1X¯,X2X¯,,XnX¯
Alexis