Distance de Mahalanobis sur des données non normales

La distance de Mahalanobis, lorsqu'elle est utilisée à des fins de classification, suppose généralement une distribution normale multivariée, et les distances par rapport au centroïde doivent ensuite suivre une (avec degrés de liberté égaux au nombre de dimensions / caractéristiques). Nous pouvons calculer la probabilité qu'un nouveau point de données appartient à l'ensemble en utilisant sa distance de Mahalanobis. $\chi^2$ $d$

J'ai des ensembles de données qui ne suivent pas une distribution normale multivariée ( ). En théorie, chaque entité devrait suivre une distribution de Poisson, et empiriquement cela semble être le cas pour de nombreuses entités ( ), et celles qui ne sont pas dans le bruit et peuvent être supprimées de l'analyse. Comment classer de nouveaux points sur ces données? $d \approx 1000$ $\approx 200$

Je suppose qu'il y a deux composantes:

Quelle est la formule «distance de Mahalanobis» appropriée sur ces données (c.-à-d. Distribution de Poisson multivariée)? Y a-t-il une généralisation de la distance aux autres distributions?
Que j'utilise la distance normale de Mahalanobis ou une autre formulation, quelle devrait être la distribution de ces distances? Existe-t-il une manière différente de faire le test d'hypothèse?

Alternativement ...

Le nombre de points de données connus dans chaque classe varie considérablement, de (trop peu; je vais déterminer un minimum empiriquement) à environ . La distance de Mahalanobis s'échelonne avec , donc les distances d'un modèle / classe au suivant ne peuvent pas être directement comparées. Lorsque les données sont distribuées normalement, le test du chi carré fournit un moyen de comparer les distances de différents modèles (en plus de fournir des valeurs critiques ou des probabilités). S'il existe une autre façon de comparer directement les distances "de type Mahalanobis", même si elle ne fournit pas de probabilités, je pourrais travailler avec cela. $n$ $n=1$ $n=6000$ $n$

hypothesis-testing classification multivariate-analysis poisson-distribution joint-distribution jmilloy
la source

Vous voudrez peut-être consulter Karlis et Meligkotsidou, "Régression multivariée de poisson avec structure de covariance". 2005. Cet article traite des tentatives des auteurs de modéliser des variables de Poisson multivariées, qu'ils reconnaissent comme une tâche difficile.

L'utilisation de la distance de Mahalanobis implique que l'inférence peut être faite à travers la matrice de moyenne et de covariance - et c'est une propriété de la distribution normale seule. Si vous utilisez le MD sur vos données, vous prétendez qu'elles sont normales.

Placidia
la source

Je pensais que je mentionnerais également Tiku, et al, "Mahalanobis distance under non-normality", 2010 (que j'attends) et Ekstrom, "Mahalanobis Distance Beyond Normal Distributions", 2011 (qui ne m'a pas aidé mais pourrait aider quelqu'un d'autre m'aide).

jmilloy

Distance de Mahalanobis sur des données non normales

Réponses: