Identiques sens, qu'il produira des résultats identiques pour une similitude entre le classement d' un vecteur u et un ensemble de vecteurs V .
J'ai un modèle d'espace vectoriel qui a comme paramètres la mesure de distance (distance euclidienne, similitude cosinus) et la technique de normalisation (aucun, l1, l2). D'après ma compréhension, les résultats des paramètres [cosinus, aucun] devraient être identiques ou au moins vraiment vraiment similaires à [euclidienne, l2], mais ils ne le sont pas.
Il y a en fait de bonnes chances que le système soit toujours bogué - ou ai-je un problème critique à propos des vecteurs?
edit: j'ai oublié de mentionner que les vecteurs sont basés sur le nombre de mots des documents dans un corpus. Étant donné un document de requête (que je transforme également en vecteur de comptage de mots), je veux trouver le document de mon corpus qui lui ressemble le plus.
Le simple calcul de leur distance euclidienne est une mesure simple, mais dans le type de tâche dans laquelle je travaille, la similitude en cosinus est souvent préférée comme indicateur de similitude, car les vecteurs qui ne diffèrent que par la longueur sont toujours considérés comme égaux. Le document présentant la plus petite similitude distance / cosinus est considéré comme le plus similaire.
Réponses:
Pour les vecteurs normalisés x , y , | | x | | 2 = | | y | | 2 = 1 , nous avons que la distance euclidienne au carré est proportionnelle à la distance cosinus , | | x - y | | 2 2ℓ2 x,y
la source
la source