Je ne suis pas un écologiste communautaire, mais ces jours-ci, je travaille sur des données écologiques communautaires.
Ce que je ne pouvais pas comprendre, à part les mathématiques de ces distances, ce sont les critères pour chaque distance à utiliser et dans quelles situations elle peut être appliquée. Par exemple, quoi utiliser avec les données de comptage? Comment convertir un angle de pente entre deux emplacements en distance? Ou la température ou les précipitations à deux endroits? Quelles sont les hypothèses pour chaque distance et quand cela a-t-il un sens?
Réponses:
Malheureusement, dans la plupart des situations, il n'y a pas de réponse claire à votre question. Autrement dit, pour une application donnée, il existe certainement de nombreuses mesures de distance qui donneront des réponses similaires et précises. Étant donné qu'il existe des dizaines, et probablement des centaines, de métriques de distance valides activement utilisées, la notion selon laquelle vous pouvez trouver la «bonne» distance n'est pas une manière productive de réfléchir au problème de la sélection d'une métrique de distance appropriée.
Je préfère plutôt ne pas choisir la mauvaise métrique de distance. Voulez-vous que votre distance reflète "l'amplitude absolue" (par exemple, vous êtes intéressé à utiliser la distance pour identifier les actions qui ont des valeurs moyennes similaires), ou pour refléter la forme globale de la réponse (par exemple, les cours des actions qui fluctuent de manière similaire au fil du temps, mais peut avoir des valeurs brutes entièrement différentes)? Le premier scénario indiquerait des distances telles que Manhattan et Euclidienne, tandis que le second indiquerait la distance de corrélation, par exemple.
Si vous connaissez la structure de covariance de vos données, la distance de Mahalanobis est probablement plus appropriée. Pour les données purement catégorielles, il existe de nombreuses distances proposées, par exemple une distance d'appariement. Pour les distances mixtes catégoriques et continues, Gower est populaire (bien que quelque peu théoriquement insatisfaisant à mon avis).
Enfin, à mon avis, votre analyse sera renforcée si vous démontrez que vos résultats et conclusions sont robustes au choix de la métrique de distance (dans le sous-ensemble des distances appropriées, bien sûr). Si votre analyse change radicalement avec des changements subtils dans la métrique de distance utilisée, une étude plus approfondie doit être entreprise pour identifier la raison de l'incohérence.
la source
correlation distance
? 1- r ?reflect overall shape of the response
selon vos mots.Choisir la bonne distance n'est pas une tâche élémentaire. Lorsque nous voulons effectuer une analyse de cluster sur un ensemble de données, différents résultats peuvent apparaître en utilisant différentes distances, il est donc très important de faire attention à la distance à choisir car nous pouvons créer un faux bon artefact qui capture bien la variabilité, mais en fait sans sens dans notre problème.
La distance euclidienne est appropriée lorsque j'ai des variables numériques continues et que je veux refléter des distances absolues. Cette distance prend en compte chaque variable et ne supprime pas les redondances, donc si j'avais trois variables qui expliquent la même chose (sont corrélées), je pondérerais cet effet par trois. De plus, cette distance n'est pas invariante à l'échelle, donc en général je dois l'échelle au préalable pour utiliser la distance.
Exemple d'écologie: Nous avons des observations différentes de nombreuses localités, dont les experts ont prélevé des échantillons de certains facteurs microbiologiques, physiques et chimiques. Nous voulons trouver des modèles dans les écosystèmes. Ces facteurs ont une forte corrélation, mais nous savons que tout le monde est pertinent, nous ne voulons donc pas supprimer ces redondances. Nous utilisons la distance euclidienne avec des données mises à l'échelle pour éviter l'effet des unités.
La distance de Mahalanobis est appropriée lorsque j'ai des variables numériques continues et que je veux refléter des distances absolues, mais nous voulons supprimer les redondances. Si nous avons des variables répétées, leur effet répétitif disparaîtra.
La famille Hellinger , Species Profile et Chord distance sont appropriées lorsque nous voulons mettre l'accent sur les différences entre les variables, lorsque nous voulons différencier les profils. Ces distances sont pondérées par les quantités totales de chaque observation, de telle sorte que les distances sont petites lorsque variables par variables les individus sont plus similaires, bien qu'en magnitudes absolues, ils soient très différents. Fais attention! Ces distances reflètent très bien la différence entre les profils, mais ont perdu l'effet d'amplitude. Ils pourraient être très utiles lorsque nous avons des tailles d'échantillon différentes.
Exemple d'écologie: Nous voulons étudier la faune de nombreuses terres et nous avons une matrice de données d'un inventaire du gastéropode (lieux d'échantillonnage en rangées et noms des espèces en colonnes). La matrice est caractérisée par de nombreux zéros et des amplitudes différentes parce que certaines localités ont certaines espèces et d'autres ont d'autres espèces. Nous pourrions utiliser la distance Hellinger.
Bray-Curtis est assez similaire, mais il est plus approprié lorsque nous voulons différencier les profils et également prendre en compte les grandeurs relatives.
la source
Concernant la distance de Manhattan: Kaufman, Leonard et Peter J. Rousseeuw. "Trouver des groupes dans les données: une introduction à l'analyse de cluster." (2005).
la source