Pourquoi en ajouter un en fréquence de document inverse?

9

Mon manuel répertorie l'idf comme log(1+Nnt)

  • : nombre de documentsN
  • : nombre de documents contenant le terme tntt

Wikipedia répertorie cette formule comme une version lissée du l o g réel ( N. Celui que je comprends: il varie delog(Nlog(Nnt)àce qui semble intuitif. Maislog(1+Nlog(NN)=0
va delog(1+1)àce qui semble si étrange ... Je connais un peu le lissage de la modélisation du langage mais là vous ajouteriez quelque chose au numérateur ainsi qu'au dénominateur car vous êtes inquiet sur la masse de probabilité. Mais juste ajouter1n'a pas de sens pour moi. Qu'essayons-nous d'accomplir ici?log(1+Nnt)log(1+1)
1

user2740
la source
liés, mais pas en double: stats.stackexchange.com/questions/152182/…
Sycorax dit Réintégrer Monica
Le lissage correct sera
log(N(1+nt))

Réponses:

7

+1

log(1+Nnt)log(2)log(Nnt)log(Nnt)

k+log(N/s)k,s0,1s1+nt=1N

Ken Benoit
la source