Distance de Mahalanobis sur des données non normales

8

La distance de Mahalanobis, lorsqu'elle est utilisée à des fins de classification, suppose généralement une distribution normale multivariée, et les distances par rapport au centroïde doivent ensuite suivre une (avec degrés de liberté égaux au nombre de dimensions / caractéristiques). Nous pouvons calculer la probabilité qu'un nouveau point de données appartient à l'ensemble en utilisant sa distance de Mahalanobis.χ2d

J'ai des ensembles de données qui ne suivent pas une distribution normale multivariée ( ). En théorie, chaque entité devrait suivre une distribution de Poisson, et empiriquement cela semble être le cas pour de nombreuses entités ( ), et celles qui ne sont pas dans le bruit et peuvent être supprimées de l'analyse. Comment classer de nouveaux points sur ces données?d1000200

Je suppose qu'il y a deux composantes:

  1. Quelle est la formule «distance de Mahalanobis» appropriée sur ces données (c.-à-d. Distribution de Poisson multivariée)? Y a-t-il une généralisation de la distance aux autres distributions?
  2. Que j'utilise la distance normale de Mahalanobis ou une autre formulation, quelle devrait être la distribution de ces distances? Existe-t-il une manière différente de faire le test d'hypothèse?

Alternativement ...

Le nombre de points de données connus dans chaque classe varie considérablement, de (trop peu; je vais déterminer un minimum empiriquement) à environ . La distance de Mahalanobis s'échelonne avec , donc les distances d'un modèle / classe au suivant ne peuvent pas être directement comparées. Lorsque les données sont distribuées normalement, le test du chi carré fournit un moyen de comparer les distances de différents modèles (en plus de fournir des valeurs critiques ou des probabilités). S'il existe une autre façon de comparer directement les distances "de type Mahalanobis", même si elle ne fournit pas de probabilités, je pourrais travailler avec cela.nn=1n=6000n

jmilloy
la source

Réponses:

6

Vous voudrez peut-être consulter Karlis et Meligkotsidou, "Régression multivariée de poisson avec structure de covariance". 2005. Cet article traite des tentatives des auteurs de modéliser des variables de Poisson multivariées, qu'ils reconnaissent comme une tâche difficile.

L'utilisation de la distance de Mahalanobis implique que l'inférence peut être faite à travers la matrice de moyenne et de covariance - et c'est une propriété de la distribution normale seule. Si vous utilisez le MD sur vos données, vous prétendez qu'elles sont normales.

Placidia
la source
Je pensais que je mentionnerais également Tiku, et al, "Mahalanobis distance under non-normality", 2010 (que j'attends) et Ekstrom, "Mahalanobis Distance Beyond Normal Distributions", 2011 (qui ne m'a pas aidé mais pourrait aider quelqu'un d'autre m'aide).
jmilloy