Distribution de la corrélation d'échantillon

8

Supposons que j'ai une grande population de points de données et que la corrélation de Pearson soit(x,y)

corr(X,Y)=ρ

Que puis-je raisonnablement dire sur la corrélation que je m'attends à observer dans un échantillon de taille ? Si la corrélation d'échantillon est , quelle est approximativement la répartition est ? Est biaisés?nρsρsρs

Si nous faisons certaines hypothèses comme la normalité, pouvons-nous calculer la fonction de vraisemblance exacte de en fonction de ?ρsρ

(En fin de compte, je me demande si une corrélation élevée observée est un coup de chance ou non, et tout ce que j'ai, c'est la taille de l'échantillon et la corrélation.)

Mark Eichenlaub
la source
2
onestop a fourni une réponse qui, espérons-le, vous en donnera assez pour continuer. Si vous voulez vraiment connaître la distribution du coefficient de corrélation de l'échantillon lui-même, alors la référence définitive est: Hotelling, H. (1953). Nouvelle lumière sur le coefficient de corrélation et ses transformations. Journal de la Royal Statistical Society, série B, 15, 193-232. Notez que ce n'est pas une lecture légère.
Wolfgang
Je ne pense pas que vos graphiques soient corrects. Je viens de dessiner quelques graphiques de la distribution dérivée de la formule de Fisher qui montrent qu'elle est correctement centrée. En fait, il est assez évident d'après la formule qu'elle doit être non biaisée de manière asympotique pour . Pourriez-vous publier le noyau mathématique de votre code? N
2011 à
@onestop Sure. Ajout du code Mathematica.
Mark Eichenlaub
Ce n'est pas ainsi que les fichiers PDF se transforment - c'est un peu plus compliqué. Voir en.wikipedia.org/wiki/…
onestop
@onestop Bien sûr. Je vous remercie. J'ai réalisé qu'il y avait un problème après avoir posté le code, mais il m'aurait fallu un certain temps pour comprendre comment le corriger.
Mark Eichenlaub

Réponses:

7

Pour citer l'article Wikipedia sur la transformation de Fisher :

Si a une distribution normale bivariée, et si les paires utilisées pour former le coefficient de corrélation d'échantillon sont indépendantes pour alors est distribué normalement normalement avec la moyenne et l'erreur standard où est la taille de l'échantillon.(X,Y)(Xi,Yi)ri=1,,n,

z=12ln1+r1r=arctanh(r)
12ln1+ρ1ρ,1N3,N
un arrêt
la source
désolé de ne pas accepter. Lorsque j'ai essayé d'utiliser cette réponse, j'ai trouvé que cela ne fonctionnait pas pour la situation qui m'intéresse (coefficients de corrélation élevés).
Mark Eichenlaub
@Mark, j'ai fait quelques simulations avec R, tout est assez bon pour la corrélation 0.75
mpiktas
@mpiktas Oui, vous avez raison, merci. J'ai fait une erreur dans mon cahier.
Mark Eichenlaub
1
La distribution exacte est connue: elle est donnée par une fonction hypergéométrique .
whuber