Distribution de la corrélation d'échantillon

Supposons que j'ai une grande population de points de données et que la corrélation de Pearson soit $(x,y)$

corr (X, Y) = ρ

$\textrm{corr}(X,Y) = \rho$

Que puis-je raisonnablement dire sur la corrélation que je m'attends à observer dans un échantillon de taille ? Si la corrélation d'échantillon est , quelle est approximativement la répartition est ? Est biaisés? $n$ $\rho_s$ $\rho_s$ $\rho_s$

Si nous faisons certaines hypothèses comme la normalité, pouvons-nous calculer la fonction de vraisemblance exacte de en fonction de ? $\rho_s$ $\rho$

(En fin de compte, je me demande si une corrélation élevée observée est un coup de chance ou non, et tout ce que j'ai, c'est la taille de l'échantillon et la corrélation.)

correlation Mark Eichenlaub
la source

onestop a fourni une réponse qui, espérons-le, vous en donnera assez pour continuer. Si vous voulez vraiment connaître la distribution du coefficient de corrélation de l'échantillon lui-même, alors la référence définitive est: Hotelling, H. (1953). Nouvelle lumière sur le coefficient de corrélation et ses transformations. Journal de la Royal Statistical Society, série B, 15, 193-232. Notez que ce n'est pas une lecture légère.

Wolfgang

Je ne pense pas que vos graphiques soient corrects. Je viens de dessiner quelques graphiques de la distribution dérivée de la formule de Fisher qui montrent qu'elle est correctement centrée. En fait, il est assez évident d'après la formule qu'elle doit être non biaisée de manière asympotique pour . Pourriez-vous publier le noyau mathématique de votre code?

N \to \infty

$N \rightarrow \infty$

2011 à

@onestop Sure. Ajout du code Mathematica.

Mark Eichenlaub

Ce n'est pas ainsi que les fichiers PDF se transforment - c'est un peu plus compliqué. Voir en.wikipedia.org/wiki/…

onestop

@onestop Bien sûr. Je vous remercie. J'ai réalisé qu'il y avait un problème après avoir posté le code, mais il m'aurait fallu un certain temps pour comprendre comment le corriger.

Mark Eichenlaub

Pour citer l'article Wikipedia sur la transformation de Fisher :

Si a une distribution normale bivariée, et si les paires utilisées pour former le coefficient de corrélation d'échantillon sont indépendantes pour alors est distribué normalement normalement avec la moyenne et l'erreur standard où est la taille de l'échantillon. $(X, Y)$ $(X_i, Y_i)$ $r$ $i = 1, \ldots, n,$

z = \frac{1}{2} \ln \frac{1 + r}{1 - r} = arctanh (r)

$z = {1 \over 2}\ln{1+r \over 1-r} = \operatorname{arctanh}(r)$

\frac{1}{2} \ln \frac{1 + ρ}{1 - ρ},

${1 \over 2}\ln{{1+\rho} \over {1-\rho}},$

\frac{1}{\sqrt{N - 3}},

${1 \over \sqrt{N-3}},$

N

$N$

un arrêt
la source

désolé de ne pas accepter. Lorsque j'ai essayé d'utiliser cette réponse, j'ai trouvé que cela ne fonctionnait pas pour la situation qui m'intéresse (coefficients de corrélation élevés).

Mark Eichenlaub

@Mark, j'ai fait quelques simulations avec R, tout est assez bon pour la corrélation 0.75

mpiktas

@mpiktas Oui, vous avez raison, merci. J'ai fait une erreur dans mon cahier.

Mark Eichenlaub

La distribution exacte est connue: elle est donnée par une fonction hypergéométrique .

whuber

Distribution de la corrélation d'échantillon

Réponses: