Nous tirons échantillons, chacun de taille , indépendamment d'une distribution normale .n ( μ , σ 2 )
À partir des échantillons, nous choisissons ensuite les 2 échantillons qui ont la corrélation de Pearson la plus élevée (absolue).
Quelle est la valeur attendue de cette corrélation?
Merci [PS Ce n'est pas des devoirs]
Réponses:
J'ai trouvé l'article suivant, qui traite de ce problème: Jiang, Tiefeng (2004). Les distributions asymptotiques des plus grandes entrées d'échantillons de matrices de corrélation. Les annales de la probabilité appliquée, 14 (2), 865-880
Jiang montre la distribution asymptotique de la statistique, où est la corrélation entre les ème et ème vecteurs aléatoires de longueur (avec ), estLn=max1≤i<j≤N|ρij| ρij i j n i≠j
Apparemment, ce résultat est valable pour
toutes les distributions dedistribution avec un nombre suffisant de moments finis ( Edit: Voir le commentaire de @ cardinal ci-dessous). Jiang souligne qu'il s'agit d'une distribution de valeurs extrêmes de type I. L'emplacement et l'échelle sontLa valeur attendue de la distribution EV de type I est , où désigne la constante d'Euler. Cependant, comme indiqué dans les commentaires, la convergence dans la distribution ne garantit pas, en soi, la convergence des moyens vers celle de la distribution limite.μ+σγ γ
Si nous pouvions montrer un tel résultat dans ce cas, alors la valeur asymptotique attendue deseraitnL2n−4logn+log(log(n))
Notez que cela donnerait la valeur attendue asymptotique de la plus grande corrélation au carré, alors que la question demandait la valeur attendue de la plus grande corrélation absolue. Donc pas à 100%, mais à proximité.
J'ai fait quelques brèves simulations qui m'ont amené à penser que 1) il y a un problème avec ma simulation (probablement), 2) il y a un problème avec ma transcription / algèbre (également probable), ou 3) l'approximation n'est pas valide pour le valeurs de et j'ai utilisées. Peut-être que l'OP peut peser avec certains résultats de simulation en utilisant cette approximation?n N
la source
Suite à la réponse fournie par @jmtroos, voici les détails de ma simulation et une comparaison avec la dérivation de @ jmtroos de l'attente de Jiang (2004) , à savoir:
Les valeurs de cette attente semblent être supérieures aux valeurs simulées pour le petit et inférieures pour le grand et elles semblent légèrement diverger lorsque le augmente. Cependant, les différences diminuent pour l'augmentation de , comme on peut s'y attendre car le papier prétend que la distribution est asymptotique. J'ai essayé divers . La simulation ci-dessous utilise . Je suis assez nouveau sur R, donc tout conseil ou suggestion pour améliorer mon code serait le bienvenu.N N N n n∈[100,500] n=200
la source