Quelle est la distance de Mahalanobis et comment est-elle utilisée dans la reconnaissance des formes?

11

Quelqu'un peut-il m'expliquer le concept de distance de Mahalanobis? Par exemple, quelle est la distance de Mahalanobis entre deux points x et y, et surtout, comment est-elle interprétée pour la reconnaissance des formes?

ayariga
la source
3
Qu'en comprenez-vous maintenant, quoi que ce soit? Avez-vous essayé Wikipedia?
gung - Rétablir Monica
2
Très étroitement liés: stats.stackexchange.com/questions/62092/… .
whuber
Vous pouvez utiliser ce lien. il décrit
Zohreh

Réponses:

13

La distance de Mahalanobis permet de mesurer la similitude d'un ensemble de conditions avec un ensemble connu de conditions. Il rend compte de la covariance entre les variables.

2=(X-m)TC-1(X-m)
2=Distance de MahalanobisX=Vecteur de donnéesm=Vecteur de valeurs moyennes de variables indépendantesC-1=Matrice de covariance inverse de variables indépendantesT=Indique que le vecteur doit être transposé

Cette page fournit une explication détaillée (avec des exemples de l'analyse du paysage).

Nadya
la source
1
merci, la source m'a donné une bonne explication pour commencer
ayariga
5

La distance de Mahalanobis est utilisée pour trouver des valeurs aberrantes dans un ensemble de données. Je ne sais pas dans quel domaine vous vous trouvez, mais en psychologie, il est utilisé pour identifier les cas qui ne correspondent pas à ce qui est attendu compte tenu des normes de l'ensemble de données. Par exemple, si votre échantillon est composé d'individus présentant de faibles niveaux de dépression et que vous avez un ou deux individus présentant des niveaux de dépression très élevés, alors ils auraient des distances de Mahalanobis supérieures à la valeur critique attendue. Vous voudrez probablement supprimer ces cas s'ils sont très extrêmes ET si vous pensez qu'ils ne correspondent pas à votre ensemble de données. (En utilisant l'exemple fourni, votre échantillon est composé d'individus présentant de faibles niveaux de dépression, par conséquent, ces une ou deux personnes présentant des niveaux élevés de dépression ne correspondent pas au reste). L'identification des valeurs aberrantes est très importante car de nombreuses analyses statistiques ont une «hypothèse de normalité», c'est-à-dire une attente que vos données soient normalement distribuées. Les valeurs aberrantes peuvent également contribuer à des données asymétriques, et pour cette raison, elles devraient également être supprimées. (Sauf si vous transformez la variable entière et cela corrige l'inclinaison). De nombreux programmes de statistiques tels que SPSS vous permettent de calculer les distances M et la probabilité associée à chaque score pour identifier les valeurs aberrantes. Je peux vous fournir des instructions SPSS, mais je ne sais pas si vous utilisez SPSS. (Sauf si vous transformez la variable entière et cela corrige l'inclinaison). De nombreux programmes de statistiques tels que SPSS vous permettent de calculer les distances M et la probabilité associée à chaque score pour identifier les valeurs aberrantes. Je peux vous fournir des instructions SPSS, mais je ne sais pas si vous utilisez SPSS. (Sauf si vous transformez la variable entière et cela corrige l'inclinaison). De nombreux programmes de statistiques tels que SPSS vous permettent de calculer les distances M et la probabilité associée à chaque score pour identifier les valeurs aberrantes. Je peux vous fournir des instructions SPSS, mais je ne sais pas si vous utilisez SPSS.

Madeline
la source