Si j'ai un échantillon iid normal multivarié , et définissez (qui est une sorte de distance de Mahalanobis [au carré] d'un point d'échantillon au vecteur utilisant la matrice pour la pondération), quelle est la distribution de d_i ^ 2 (\ bar X, S) (distance de Mahalanobis au moyenne de l'échantillon \ bar X en utilisant la matrice de covariance de l'échantillon S )?
Je regarde un article qui prétend que c'est , mais c'est évidemment faux: la aurait été obtenue pour utilisant le vecteur moyen de population (inconnu) et matrice de covariance. Lorsque les exemples d'échantillons sont branchés, il faut obtenir une distribution Hotelling , ou une distribution échelle, ou quelque chose comme ça, mais pas le . Je n'ai pu trouver le résultat exact ni dans Muirhead (2005) , ni dans Anderson (2003) , ni dans Mardia, Kent et Bibby (1979, 2003). Apparemment, ces gars-là ne se sont pas souciés des diagnostics aberrants, car la distribution normale multivariée est parfaite et est facilement obtenue à chaque fois que l'on recueille des données multivariées: - /.
Les choses peuvent être plus compliquées que cela. Le résultat de la distribution de Hotelling est basé sur l'hypothèse d'une indépendance entre la partie vectorielle et la partie matricielle; cette indépendance est valable pour et , mais il ne détient plus pour et .
Réponses:
Découvrez la modélisation des mélanges gaussiens en exploitant la distance de Mahalanobis ( lien alternatif ). Voir page n ° 13, deuxième colonne. Les auteurs ont également donné des preuves pour dériver la distribution. La distribution est mise à l'échelle bêta. Veuillez me faire savoir si cela ne fonctionne pas pour vous. Sinon, je pourrais vérifier tout indice dans le livre SS Wilks demain.
la source
Il existe 3 distributions pertinentes. Comme indiqué, si les vrais paramètres de population sont utilisés, alors la distribution est khi carré avec . Il s'agit également de la distribution asymptotique avec des paramètres estimés et une grande taille d'échantillon.df=p
Une autre réponse donne la distribution correcte pour la situation la plus courante, avec des paramètres estimés lorsque l'observation elle-même fait partie de l'ensemble d'estimation: Cependant, si l'observationxiest indépendante des estimations des paramètres, alors la distribution est proportionnelle à la distribution d'un rapport F de Fisher: (nd2(n-p)
la source