Valeurs moyennes de corrélation

20

Disons que je teste la façon dont une variable Ydépend d'une variable Xdans différentes conditions expérimentales et j'obtiens le graphique suivant:

entrez la description de l'image ici

Les lignes en pointillés dans le graphique ci-dessus représentent une régression linéaire pour chaque série de données (configuration expérimentale) et les nombres dans la légende indiquent la corrélation de Pearson de chaque série de données.

Je voudrais calculer la "corrélation moyenne" (ou "corrélation moyenne") entre Xet Y. Puis-je simplement faire la moyenne des rvaleurs? Qu'en est-il du "critère de détermination moyen", ? Dois-je calculer la moyenne et ensuite prendre le carré de cette valeur ou dois-je calculer la moyenne des individuels ?R2rR2

Boris Gorelik
la source

Réponses:

15

La manière la plus simple est d'ajouter une variable catégorielle pour identifier les différentes conditions expérimentales et de l'inclure dans votre modèle avec une "interaction" avec ; c'est-à-dire, . Cela conduit les cinq régressions à la fois. Son est ce que vous voulez.zXyz+X#zR2

Pour voir pourquoi la moyenne des valeurs individuelles peut être erronée, supposons que la direction de la pente soit inversée dans certaines conditions expérimentales. Vous feriez en moyenne un tas de 1 et -1 à environ 0, ce qui ne refléterait la qualité d'aucun ajustement. Pour voir pourquoi la moyenne de (ou toute transformation fixe de celui-ci) n'est pas correcte, supposons que dans la plupart des conditions expérimentales, vous n'aviez que deux observations, de sorte que leur égal à , mais dans une expérience, vous aviez cent observations avec . Le de presque 1 ne refléterait pas correctement la situation.RR2R21R2=0R2

whuber
la source
1
pardonnez mon ignorance, mais que signifie le signe # dans votre réponse?
Boris Gorelik
1
Je pense que votre réponse est très bonne pour la définition implicite de corrélation utilisée. Et s'ils le signifiaient comme une pente standardisée moyenne (peut-être impliquée par la figure)? Dans ce cas, vous souhaitez que les négatifs et les positifs soient annulés. Vous êtes mort sur le problème de la taille de l'échantillon. Pensez également à déplacer votre commentaire dans votre réponse.
John
Voulez-vous le ou le ajusté ? R 2R2R2
russellpierce
@whuber dans votre commentaire initial, votre moyenne que la corrélation pourrait être ; le dans chaque cas est . (Je me rends compte que ce n'est qu'un problème de frappe ou d'édition; cela ne change pas votre point de vue, mais il peut induire en erreur.)R 2 1±1R21
Glen_b -Reinstate Monica
@rpierce Dans le deuxième paragraphe, cela ne fait aucune différence pour les idées si vous utilisez ajusté - imaginez simplement des ensembles de trois , plutôt que deux points, qui sont presque colinéaires. Leur ajusté peut être arbitrairement proche de . R 2 1R2R21
whuber
24

Pour les coefficients de corrélation de Pearson, il est généralement approprié de transformer les valeurs r à l' aide d'une transformation de Fisher z . Ensuite, faites la moyenne des valeurs z et reconvertissez la moyenne en une valeur r .

J'imagine que ce serait bien pour un coefficient de Spearman également.

Voici un article et l' entrée wikipedia .

Amyunimus
la source
1
+1; Cette réponse semble plus appropriée et générale que la réponse acceptée, mais dans le cas d'utilisation particulier, ne s'effondrerait-elle pas pour les valeurs r de 1? Est-ce que quelque chose comme un logit emperique est raisonnable ici où l'on «ajouterait» simplement un point de données qui n'a pas la corrélation? Si oui, où l'ajouterait-on? Aurait-on à effectuer une simulation de monte-carlo en saisissant deux variables aléatoires à partir des distributions sources? Sinon, ajusterait-on simplement r à une valeur légèrement inférieure à 1? Jusqu'où doit-on s'ajuster?
russellpierce
3

La corrélation moyenne peut être significative. Tenez également compte de la distribution des corrélations (par exemple, tracez un histogramme).

n

m

Karl
la source
1

Qu'en est-il de l'utilisation de l'eror prévu moyen au carré (MSPE) pour les performances de l'algorithme? Il s'agit d'une approche standard de ce que vous essayez de faire, si vous essayez de comparer les performances prédictives d'un ensemble d'algorithmes.

StatsStudent
la source
Je ne sais pas pourquoi cet article stats.stackexchange.com/questions/17129/… a été fusionné avec celui-ci. Ils posent en fait deux questions différentes dans mon opinion - il y a deux objectifs différents.
StatsStudent
1
Vous avez raison: ce sont des questions différentes. J'ai voté pour rouvrir l'autre poste (bien que l'effet que cela puisse avoir n'est pas clair). Je m'excuse de ne pas avoir vu votre commentaire: si vous aviez plutôt signalé ce message, il aurait été porté à notre attention plusieurs années plus tôt!
whuber