Distribution d'une distance de Mahalanobis au niveau de l'observation

23

Si j'ai un échantillon iid normal multivarié , et définissez (qui est une sorte de distance de Mahalanobis [au carré] d'un point d'échantillon au vecteur utilisant la matrice pour la pondération), quelle est la distribution de d_i ^ 2 (\ bar X, S) (distance de Mahalanobis au moyenne de l'échantillon \ bar X en utilisant la matrice de covariance de l'échantillon S )?X1,,XnNp(μ,Σ)

di2(b,A)=(Xib)A1(Xib)
aA di2(X¯,S)X¯S

Je regarde un article qui prétend que c'est χp2 , mais c'est évidemment faux: la χp2 aurait été obtenue pour di2(μ,Σ) utilisant le vecteur moyen de population (inconnu) et matrice de covariance. Lorsque les exemples d'échantillons sont branchés, il faut obtenir une distribution Hotelling T 2 , ou une distribution F() échelle, ou quelque chose comme ça, mais pas le χp2 . Je n'ai pu trouver le résultat exact ni dans Muirhead (2005) , ni dans Anderson (2003) , ni dans Mardia, Kent et Bibby (1979, 2003). Apparemment, ces gars-là ne se sont pas souciés des diagnostics aberrants, car la distribution normale multivariée est parfaite et est facilement obtenue à chaque fois que l'on recueille des données multivariées: - /.

Les choses peuvent être plus compliquées que cela. Le résultat de la distribution de Hotelling T 2 est basé sur l'hypothèse d'une indépendance entre la partie vectorielle et la partie matricielle; cette indépendance est valable pour X¯ et S , mais il ne détient plus pour Xi et S .

StasK
la source
Dans la définition de di2 , considérez-vous toujours Xi comme une variable aléatoire ou la traitez -vous maintenant comme un vecteur fixe? L'inclusion de l'indice suggère ce dernier, mais cela semble un peu étrange.
whuber
1
Juste une petite note latérale, mais notez que XiX¯ est accessoire par rapport à μ et idi2(X¯,S) est égal à une constante fixe ( devrait être np , ou similaire, je pense) presque sûrement.
cardinal du
1
@whuber - peut-être pour souligner qu'il est calculé en utilisant une observation de l'échantillon, pas une nouvelle observation?
jbowman
1
@whuber, à peu près dans le sens de ce que jbowman a dit - pour indiquer qu'il s'agit d'une statistique au niveau de l'observation (par opposition à une statistique au niveau de l'échantillon, comme la moyenne de l'échantillon).
StasK
1
La distribution de est une bêta, , mais je cherche toujours la distribution de . Les distributions des ne sont pas indépendantes. di2(X¯,S)n/(n1)2di2(X¯,S)B(p/2,(np1)/2)di2(μ,S)di2

Réponses:

18

Découvrez la modélisation des mélanges gaussiens en exploitant la distance de Mahalanobis ( lien alternatif ). Voir page n ° 13, deuxième colonne. Les auteurs ont également donné des preuves pour dériver la distribution. La distribution est mise à l'échelle bêta. Veuillez me faire savoir si cela ne fonctionne pas pour vous. Sinon, je pourrais vérifier tout indice dans le livre SS Wilks demain.

vinux
la source
4
La réponse donnée dans le document est: . Merci! n(n1)2di2(X¯,S)B(p2,np12)
StasK
9

Il existe 3 distributions pertinentes. Comme indiqué, si les vrais paramètres de population sont utilisés, alors la distribution est khi carré avec . Il s'agit également de la distribution asymptotique avec des paramètres estimés et une grande taille d'échantillon.df=p

Une autre réponse donne la distribution correcte pour la situation la plus courante, avec des paramètres estimés lorsque l'observation elle-même fait partie de l'ensemble d'estimation: Cependant, si l'observationxiest indépendante des estimations des paramètres, alors la distribution est proportionnelle à la distribution d'un rapport F de Fisher: (nd2(n-p)

n(d2)(n1)2Beta(p2,(np1)2).
xi
(nd2(np)(p(n1)(n+1))F(p,np)
Joe Sullivan
la source
Bienvenue sur le site, @JoeSullivan. J'ai pris la liberté d'utiliser pour faciliter la lecture de vos équations. Veuillez vous assurer qu'ils disent toujours ce que vous voulez. LATEX
gung - Rétablir Monica
pouvez-vous donner une référence pour la formule F?
eyaler
1
une référence connexe, la section 3 dans Hardin, Johanna et David M. Rocke. 2005. «La distribution des distances robustes». Journal of Computational and Graphical Statistics 14 (4): 928–46. doi: 10.1198 / 106186005X77685.
Josef