Je lisais:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
Mais je n'arrive pas à comprendre exactement pourquoi la formule a été construite telle qu'elle est.
Ce que je comprends:
iDF devrait à un certain niveau mesurer la fréquence à laquelle un terme S apparaît dans chacun des documents, sa valeur diminuant à mesure que le terme apparaît plus fréquemment.
De ce point de vue
De plus, la fréquence des termes peut être décrite à juste titre comme
Alors la mesure
est en quelque sorte proportionnelle à la fréquence à laquelle un terme apparaît dans un document donné et à son caractère unique sur l'ensemble des documents.
Ce que je ne comprends pas
Mais la formule donnée le décrit comme
Je souhaite comprendre la nécessité des logarithmes décrits dans la définition. Genre, pourquoi sont-ils là? Sur quel aspect mettent-ils l'accent?
la source
\log
, je les oublie constamment); +1 aux deux. J'ai vu le document Robertson et j'ai envisagé de l'ajouter; c'est une très bonne lecture, je vais l'ajouter dans le corps principal.number of occurrences for all strings in document D
. Pourquoi voulons-nous le nombre de mots les plus courants au lieu du nombre de tous les mots?