Je travaille juste avec le livre Collective Intelligence (de Toby Segaran) et suis tombé sur le score de distance euclidienne. Dans le livre, l'auteur montre comment calculer la similitude entre deux tableaux de recommandations (c'est-à-dire .
Il calcule la distance euclidienne pour deux personnes et par p 2 d ( p 1 , p 2 ) = √
Cela me paraît tout à fait logique. Ce que je ne comprends pas vraiment, c'est pourquoi il calcule à la fin ce qui suit pour obtenir une "similitude basée sur la distance":
Donc, je comprends en quelque sorte que ce doit être la conversion d'une distance à une similitude (non?). Mais pourquoi le formulaire ressemble-t-il à cela? Quelqu'un peut-il expliquer cela?
Réponses:
L'inverse est de passer de la distance à la similitude.
Le 1 au dénominateur est de faire en sorte que la valeur maximale soit 1 (si la distance est 0).
La racine carrée - je ne suis pas sûr. Si la distance est généralement supérieure à 1, la racine rendra les grandes distances moins importantes; si la distance est inférieure à 1, cela rendra les grandes distances plus importantes.
la source
Pour mesurer la distance et la similitude (au sens sémantique), la première chose à vérifier est de savoir si vous vous déplacez dans un espace euclidien ou non. Une façon empirique de vérifier cela consiste à estimer la distance d'une paire de valeurs dont vous connaissez la signification.
la source
Comme vous l'avez mentionné, vous connaissez le calcul de la distance d'Euclidence, donc j'explique la deuxième formule.
La formule euclidienne calcule la distance, qui sera plus petite pour les personnes ou les objets plus similaires. Comme s'ils étaient identiques, la distance est 0 et totalement différente, puis supérieure à 0.
Cependant, nous avons besoin d'une fonction qui donne une valeur plus élevée si elles sont similaires. Cela peut être fait en ajoutant 1 à la fonction (pour ne pas obtenir d'erreur de division par zéro) et en l'inversant. Comme si la distance 0 et le score de similitude 1/1 = 1
la source