Valeur attendue de la corrélation parasite

12

Nous tirons échantillons, chacun de taille , indépendamment d'une distribution normale .n ( μ , σ 2 )Nn(μ,σ2)

À partir des échantillons, nous choisissons ensuite les 2 échantillons qui ont la corrélation de Pearson la plus élevée (absolue).N

Quelle est la valeur attendue de cette corrélation?

Merci [PS Ce n'est pas des devoirs]

P Sellaz
la source
2
(+1) Cela ferait une question de devoirs assez difficile :-). Avez-vous besoin d'une réponse générale ou pourriez-vous (peut-être) concentrer votre attention sur des valeurs spécifiques de ou ? Par exemple, il peut être possible de développer de bonnes approximations lorsque est beaucoup plus grand que ; des approximations différentes seraient nécessaires dans d'autres cas. n n NNnnN
whuber
1
J'espérais une réponse générale, mais une où l'hypothèse serait OK! Pour des valeurs spécifiques de et , ce ne serait pas si intéressant, car je peux regarder de tels cas spécifiques par simulation (c'est ce que je fais en ce moment), mais cela pourrait toujours être intéressant. N nn>>NNn
P Sellaz
1
Je pense qu'une solution générale de toute utilité réelle est probablement peu probable, bien que je puisse me tromper. Il est assez étroitement lié à certains problèmes ouverts à l'interface de la géométrie et de l'algèbre linéaire. Dans les applications, le besoin d'informations sur de telles quantités se pose, par exemple, dans la détection compressée.
cardinal du
1
FWIW, c'est le résultat d'une simulation que je viens de lancer: en utilisant Normal (0,1), j'ai trouvé que la corrélation moyenne, (plus de 1000 simulations), et le nombre d'échantillons sont approximativement liés par pour et utilisant un modèle de régression linéaire. L'ajustement du modèle et les diagnostics habituels étaient assez bons. J'ai également constaté que la corrélation moyenne était approximativement normalement distribuée (bien qu'elle soit légèrement asymétrique à droite). N ρ = 0,025 + 0,113 ln ( N ) - 0,008 ln ( N ) 2 n = 100 4 N nρN
ρ=0.025+0.113ln(N)0.008ln(N)2
n=1004Nn
P Sellaz

Réponses:

9

J'ai trouvé l'article suivant, qui traite de ce problème: Jiang, Tiefeng (2004). Les distributions asymptotiques des plus grandes entrées d'échantillons de matrices de corrélation. Les annales de la probabilité appliquée, 14 (2), 865-880

Jiang montre la distribution asymptotique de la statistique, où est la corrélation entre les ème et ème vecteurs aléatoires de longueur (avec ), estLn=max1i<jN|ρij|ρijijnij

limnPr[nLn24logn+log(log(n))y]=exp(1a28πexp(y/2)),
où est supposé exister dans le papier et est une fonction de .a=limnn/NNn

Apparemment, ce résultat est valable pour toutes les distributions de distribution avec un nombre suffisant de moments finis ( Edit: Voir le commentaire de @ cardinal ci-dessous). Jiang souligne qu'il s'agit d'une distribution de valeurs extrêmes de type I. L'emplacement et l'échelle sont

σ=2,μ=2log(1a28π).

La valeur attendue de la distribution EV de type I est , où désigne la constante d'Euler. Cependant, comme indiqué dans les commentaires, la convergence dans la distribution ne garantit pas, en soi, la convergence des moyens vers celle de la distribution limite.μ+σγγ

Si nous pouvions montrer un tel résultat dans ce cas, alors la valeur asymptotique attendue deseraitnLn24logn+log(log(n))

limnE[nLn24logn+log(log(n))]=2log(a28π)+2γ.

Notez que cela donnerait la valeur attendue asymptotique de la plus grande corrélation au carré, alors que la question demandait la valeur attendue de la plus grande corrélation absolue. Donc pas à 100%, mais à proximité.

J'ai fait quelques brèves simulations qui m'ont amené à penser que 1) il y a un problème avec ma simulation (probablement), 2) il y a un problème avec ma transcription / algèbre (également probable), ou 3) l'approximation n'est pas valide pour le valeurs de et j'ai utilisées. Peut-être que l'OP peut peser avec certains résultats de simulation en utilisant cette approximation?nN

jmtroos
la source
2
Et un côté: j'ai vraiment aimé cette question - je me suis déjà posé des questions sur cette question. J'ai été surpris par la connexion à la distribution de type I - j'ai trouvé que c'était plutôt cool. Je souhaite juste avoir compris les mathématiques qui y ont conduit ...
jmtroos
1
(+1) Belle trouvaille !! Je pense que nous pouvons supposer que la racine carrée positive de ce est équivalente à la valeur attendue de la plus grande corrélation absolue? Dans votre expression pour l'attente, ne pouvons-nous pas simplement retirer toutes les parties impliquant pour donner: ? Quoi qu'il en soit, j'ai comparé cela à mes simulations et cela semble assez proche! Mon code R est vraiment bâclé, donc j'essaierai de le ranger plus tard aujourd'hui ou demain et de le poster ...Lnn
E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}
P Sellaz
BTW, l'article est disponible directement à partir d'ici projecteuclid.org/DPubS/Repository/1.0/…
P Sellaz
3
(+1) Ceci est un très beau papier, et je ne l'ai que survolé, mais nous devons être un peu prudents ici. Quelques remarques: ( 1 ) Les résultats sont pour le régime , donc la dimension des vecteurs doit croître à peu près proportionnellement au nombre de vecteurs considérés pour ces résultats tenir. ( 2 ) Même dans ce cas, les résultats ne valent pour "aucune" distribution; en effet, les conditions de l'article exigent que les variables aléatoires soient «bornées presque exponentiellement» dans le sens où nous exigeons essentiellement que le 30ème moment soit fini! (suite)n/pγ(0,)
cardinal
3
(suite) ( 3 ) La convergence dans la distribution ne garantit pas la convergence des moyens avec celle de la distribution limite. Pour cela, nous utilisons normalement quelque chose qui s'apparente à l'intégrabilité uniforme de l'ensemble . Cela n'a pas été montré dans l'article et, puisqu'il s'agit de distributions de valeurs extrêmes, il se peut fort bien que ce ne soit pas vrai. Un de mes exemples préférés de ce phénomène est une séquence de variables aléatoires qui converge en distribution vers un , mais les moyens peuvent être faits pour converger vers n'importe quelle constante positive que l'on choisit. {Ln}χ12
Cardinal
2

Suite à la réponse fournie par @jmtroos, voici les détails de ma simulation et une comparaison avec la dérivation de @ jmtroos de l'attente de Jiang (2004) , à savoir:

E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}

Les valeurs de cette attente semblent être supérieures aux valeurs simulées pour le petit et inférieures pour le grand et elles semblent légèrement diverger lorsque le augmente. Cependant, les différences diminuent pour l'augmentation de , comme on peut s'y attendre car le papier prétend que la distribution est asymptotique. J'ai essayé divers . La simulation ci-dessous utilise . Je suis assez nouveau sur R, donc tout conseil ou suggestion pour améliorer mon code serait le bienvenu.NNNnn[100,500]n=200

set.seed(1)

ns <- 500
# number of simulations for each N

n <- 200
# length of each vector

mu <- 0
sigma <- 1
# parameters for the distribution we simulate from

par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns

y<-vector(mode = "numeric")
#vector to store the mean correlations

k<- 1
#index for y

for (N in x) {
# loop over a range of N

    dt <- matrix(nrow=n,ncol=N)

    J <- vector(mode = "numeric")
    # vector to store the simulated largest absolute 
    # correlations for each N

    for (j in 1:ns) {
    # for each N, simulated ns times    

      for (i in 1:N) {
        dt[,i] <- rnorm(n,mu,sigma)
      }
      # perform the simulation

      M<-matrix(cor(dt),nrow=N,ncol=N)
      m <- M
      diag(m) <- NA
      J[j] <- max(abs(m), na.rm=TRUE)   
      # obtain the largest absolute correlation
      # these 3 lines came from stackoverflow
  }

    hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4))) 
    y[k]<-mean(J)
    k=k+1
}

lm1 <- lm(y~log(x))
summary(lm1)

logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations

# Jiang 2004 paper, computation:

gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)


plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation
P Sellaz
la source
Voir mes commentaires sur l'autre réponse, qui peuvent (ou non) aider à expliquer certaines des divergences que vous notez.
Cardinal