J'essaie de chercher un bon argument sur la raison pour laquelle on utiliserait la distance de Manhattan sur la distance euclidienne dans le Machine Learning.
La chose la plus proche que j'ai trouvée pour un bon argument jusqu'à présent est sur cette conférence du MIT .
À 36h15, vous pouvez voir sur les diapositives la déclaration suivante:
"Utilisez généralement la métrique euclidienne; Manhattan peut être approprié si différentes dimensions ne sont pas comparables. "
Peu de temps après, le professeur dit que, parce que le nombre de pattes d'un reptile varie de 0 à 4 (alors que les autres caractéristiques sont binaires, ne varient que de 0 à 1), la fonction "nombre de pattes" finira par avoir un poids si la distance euclidienne est utilisée. Effectivement, c'est vrai. Mais on aurait aussi ce problème si on utilisait la distance de Manhattan (seulement que le problème serait légèrement atténué parce que nous n'équilibrons pas la différence comme nous le faisons sur la distance euclidienne).
Une meilleure façon de résoudre le problème ci-dessus serait de normaliser la fonction "nombre de segments" afin que sa valeur soit toujours comprise entre 0 et 1.
Par conséquent, comme il existe une meilleure façon de résoudre le problème, il semblait que l'argument de l'utilisation de la distance de Manhattan dans ce cas manquait d'un point plus fort, du moins à mon avis.
Est-ce que quelqu'un sait vraiment pourquoi et quand quelqu'un utiliserait la distance de Manhattan sur Euclidienne? Quelqu'un peut-il me donner un exemple dans lequel l'utilisation de la distance de Manhattan donnerait de meilleurs résultats?
Je peux suggérer quelques idées, à partir de wikipedia .
la source
J'ai trouvé quelque chose qui pourrait être une intuition à propos de ce problème dans l' apprentissage automatique avec Scikit-Learn et TensorFlow
la source
L'utilisation de la distance de Manhattan dépend beaucoup du type de système de coordonnées utilisé par votre ensemble de données. Alors que la distance euclidienne donne la distance la plus courte ou minimale entre deux points, Manhattan a des implémentations spécifiques.
Par exemple, si nous devions utiliser un jeu de données d'échecs, l'utilisation de la distance de Manhattan est plus appropriée que la distance euclidienne. Une autre utilisation serait lorsque vous souhaitez connaître la distance entre les maisons qui sont à quelques pâtés de maisons.
De plus, vous voudrez peut-être tenir compte de la distance de Manhattan si les variables d'entrée ne sont pas de type similaire (comme l'âge, le sexe, la taille, etc.). En raison de la malédiction de la dimensionnalité, nous savons que la distance euclidienne devient un mauvais choix à mesure que le nombre de dimensions augmente.
Donc, en résumé: la distance de Manhattan ne fonctionne généralement que si les points sont disposés sous forme de grille et le problème sur lequel nous travaillons donne plus de priorité à la distance entre les points uniquement avec les grilles, mais pas la distance géométrique.
la source