Hyper-volume du contour d'un gaussien multivarié

8

Je cherche la valeur asymptotique ( ) de (le log du déterminant de) la covariance du % d'observations avec la plus petite distance euclédienne à l'origine dans un échantillon de taille tiré de, disons , un gaussien standard bivarié.nαn

- L'hyper-volume d'une ellipse est proportionnel au déterminant de sa matrice de covariance, d'où le titre .--

--Par Gaussien bivarié standard, je veux dire où est un vecteur de 0 de longueur 2 et est la matrice d'identité de rang 2 .---N2(02,II2)02II2

Il est facile de voir par des simulations que lorsque le nombre est d'environ :α=52/701.28

library(MASS)
n<-10000
p<-2
x<-mvrnorm(n,rep(0,p),diag(2))
h<-ceiling(0.714286*n)
p<-ncol(x)
w<-mahalanobis(x,rep(0,p),diag(p),inverted=TRUE) #These are eucledian distances, because the covariance used is the identity matrix
s<-(1:n)[order(w)][1:h]
log(det(cov(x[s,])))

mais je ne me souviens pas comment obtenir une expression exacte (ou à défaut, une meilleure approximation) pour cela.

user603
la source
1
Dans votre texte, vous ne dites rien des paramètres de la distribution bivariée. En outre, il semble que votre code concerne Mahalanobis d, pas Euclidean d.
ttnphns
1
Par gaussien standard, je veux dire celui centré à l'origine et avec la covariance d'identité (je vais l'éditer dans). Distance de Mahalanobis par rapport à la matrice de covariance d'identité == distances euclédiennes.
user603
1
Si vous utilisez du code ou cherchez de l'aide avec le code, veuillez indiquer la langue ou le programme que vous utilisez.
wolfies

Réponses:

7

Ok, cette question semble se poser de temps en temps, donc je pense que je vais donner une réponse générale.

Dans [1], les auteurs montrent que si with symmetric positive definite, andxxiNp(μμ,ΣΣ),i=1,,nΣSα

(0)Sα={i:(xxiμμ)Σ1(xxiμμ)qα}

pour etqα=χp2(α),0<α1

(1)Cα=coviSαxxi

Ensuite, asymptotiquement, converge vers oùCαlαΣ

(2)lα=Fχp+22(qα)α

Cette approximation est vraiment bonne (ici pour alpha = 60/70):

library(MASS)
alpha<-60/70
p<-2
n<-1000000

radius<-sqrt(qchisq(alpha,df=p))
x0<-mvrnorm(n,rep(0,p),diag(p),empirical=TRUE)
Id<-which(rowSums(x0*x0)<=radius**2)
cov(x0[Id,])

qalpa<-qchisq(alpha,p)
diag(1/(alpha/(pchisq(qalpa,p+2))),p)

Donc, enfin, pour répondre à la question, le déterminant de la matrice de covariance des observations avec la plus petite norme euclédienne à l'origine (c'est le cas particulier où et ) est donné par:log[αn]Σ=IIpμμ=00p

(3)plogFχp+22(qα)plogα
  1. Croux C., Haesbroeck G. (1999). Influence la fonction et l'efficacité de l'estimateur à matrice de diffusion du déterminant de covariance minimale. Journal of Multivariate Analysis. 71. 161--190.
user603
la source