Quelle distance utiliser? par exemple, manhattan, euclidienne, Bray-Curtis, etc.

11

Je ne suis pas un écologiste communautaire, mais ces jours-ci, je travaille sur des données écologiques communautaires.

Ce que je ne pouvais pas comprendre, à part les mathématiques de ces distances, ce sont les critères pour chaque distance à utiliser et dans quelles situations elle peut être appliquée. Par exemple, quoi utiliser avec les données de comptage? Comment convertir un angle de pente entre deux emplacements en distance? Ou la température ou les précipitations à deux endroits? Quelles sont les hypothèses pour chaque distance et quand cela a-t-il un sens?

user36491
la source
La manière fiable de comprendre les métriques de distance, leurs hypothèses, leur signification et leur applicabilité est de méditer sur leurs formules. Vous savez, l'anatomie comparative a permis de prédire comment différents animaux vivent et se comportent. Lisez également des livres / articles sur les mesures de distance.
ttnphns
2
Note pédante: Bray – Curtis n'est pas une distance mais une dissemblance.
Franck Dernoncourt

Réponses:

13

Malheureusement, dans la plupart des situations, il n'y a pas de réponse claire à votre question. Autrement dit, pour une application donnée, il existe certainement de nombreuses mesures de distance qui donneront des réponses similaires et précises. Étant donné qu'il existe des dizaines, et probablement des centaines, de métriques de distance valides activement utilisées, la notion selon laquelle vous pouvez trouver la «bonne» distance n'est pas une manière productive de réfléchir au problème de la sélection d'une métrique de distance appropriée.

Je préfère plutôt ne pas choisir la mauvaise métrique de distance. Voulez-vous que votre distance reflète "l'amplitude absolue" (par exemple, vous êtes intéressé à utiliser la distance pour identifier les actions qui ont des valeurs moyennes similaires), ou pour refléter la forme globale de la réponse (par exemple, les cours des actions qui fluctuent de manière similaire au fil du temps, mais peut avoir des valeurs brutes entièrement différentes)? Le premier scénario indiquerait des distances telles que Manhattan et Euclidienne, tandis que le second indiquerait la distance de corrélation, par exemple.

Si vous connaissez la structure de covariance de vos données, la distance de Mahalanobis est probablement plus appropriée. Pour les données purement catégorielles, il existe de nombreuses distances proposées, par exemple une distance d'appariement. Pour les distances mixtes catégoriques et continues, Gower est populaire (bien que quelque peu théoriquement insatisfaisant à mon avis).

Enfin, à mon avis, votre analyse sera renforcée si vous démontrez que vos résultats et conclusions sont robustes au choix de la métrique de distance (dans le sous-ensemble des distances appropriées, bien sûr). Si votre analyse change radicalement avec des changements subtils dans la métrique de distance utilisée, une étude plus approfondie doit être entreprise pour identifier la raison de l'incohérence.

ahfoss
la source
1
Qu'entendez-vous par correlation distance? 1- r ?
ttnphns
1
@ttnphns yep, est le plus courant. Il convient de noter que pour une métrique de similitude donnée il existe au moins trois formules de conversion en dissimilarité: (1) Méthode de Bhattacharyya , (2) La méthode de Kolmogorov , et (3) la méthode de Matusita . C'est un autre domaine où, dans la je ne pense pas que le choix compte généralement beaucoup, et si c'était le cas, je serais préoccupé par la robustesse de mes résultats. 1-rρ[-1,1]cos-1(ρ)1-ρ2-2ρprunectjece
ahfoss
Citation pour mon dernier commentaire: Krzanowski (1983). Biometrika, 70 (1), 235-243. Voir page 236.
ahfoss
1
OK merci. Vérifiez également cette réponse s'il vous plaît. Cela signifie que r est exactement lié à la distance euclidienne obtenue sur les données standardisées (profils comparés), ce qui, reflect overall shape of the responseselon vos mots.
ttnphns
1
Bon post. Les deux métriques sont en effet liées, comme vous le faites remarquer. Pour contextualiser vos points à la discussion actuelle, la principale différence est que dans la distance euclidienne, les variables ne sont pas (généralement) centrées, mais la formule de corrélation centre les variables et les échelles par leur écart-type. Ainsi, la corrélation est invariante aux transformations linéaires, tandis que la distance euclidienne ne l'est pas nécessairement.
ahfoss
6

Choisir la bonne distance n'est pas une tâche élémentaire. Lorsque nous voulons effectuer une analyse de cluster sur un ensemble de données, différents résultats peuvent apparaître en utilisant différentes distances, il est donc très important de faire attention à la distance à choisir car nous pouvons créer un faux bon artefact qui capture bien la variabilité, mais en fait sans sens dans notre problème.

La distance euclidienne est appropriée lorsque j'ai des variables numériques continues et que je veux refléter des distances absolues. Cette distance prend en compte chaque variable et ne supprime pas les redondances, donc si j'avais trois variables qui expliquent la même chose (sont corrélées), je pondérerais cet effet par trois. De plus, cette distance n'est pas invariante à l'échelle, donc en général je dois l'échelle au préalable pour utiliser la distance.
Exemple d'écologie: Nous avons des observations différentes de nombreuses localités, dont les experts ont prélevé des échantillons de certains facteurs microbiologiques, physiques et chimiques. Nous voulons trouver des modèles dans les écosystèmes. Ces facteurs ont une forte corrélation, mais nous savons que tout le monde est pertinent, nous ne voulons donc pas supprimer ces redondances. Nous utilisons la distance euclidienne avec des données mises à l'échelle pour éviter l'effet des unités.

La distance de Mahalanobis est appropriée lorsque j'ai des variables numériques continues et que je veux refléter des distances absolues, mais nous voulons supprimer les redondances. Si nous avons des variables répétées, leur effet répétitif disparaîtra.

La famille Hellinger , Species Profile et Chord distance sont appropriées lorsque nous voulons mettre l'accent sur les différences entre les variables, lorsque nous voulons différencier les profils. Ces distances sont pondérées par les quantités totales de chaque observation, de telle sorte que les distances sont petites lorsque variables par variables les individus sont plus similaires, bien qu'en magnitudes absolues, ils soient très différents. Fais attention! Ces distances reflètent très bien la différence entre les profils, mais ont perdu l'effet d'amplitude. Ils pourraient être très utiles lorsque nous avons des tailles d'échantillon différentes.
Exemple d'écologie: Nous voulons étudier la faune de nombreuses terres et nous avons une matrice de données d'un inventaire du gastéropode (lieux d'échantillonnage en rangées et noms des espèces en colonnes). La matrice est caractérisée par de nombreux zéros et des amplitudes différentes parce que certaines localités ont certaines espèces et d'autres ont d'autres espèces. Nous pourrions utiliser la distance Hellinger.

Bray-Curtis est assez similaire, mais il est plus approprié lorsque nous voulons différencier les profils et également prendre en compte les grandeurs relatives.

Gonzalo Espinosa Duelo
la source
Merci d'avoir différencié les cas d'utilisation et les exemples. J'ai trouvé cela très utile dans l'application à un modèle de classification aéro.
S3DEV