Pourquoi en ajouter un en fréquence de document inverse?

Mon manuel répertorie l'idf comme où $log(1+\frac{N}{n_t})$

: nombre de documents $N$
: nombre de documents contenant le terme $n_t$ $t$

Wikipedia répertorie cette formule comme une version lissée du réel . Celui que je comprends: il varie de $log(\frac{N}{n_t})$ àce qui semble intuitif. Mais $log(\frac{N}{N})=0$ $\infty$
va deàce qui semble si étrange ... Je connais un peu le lissage de la modélisation du langage mais là vous ajouteriez quelque chose au numérateur ainsi qu'au dénominateur car vous êtes inquiet sur la masse de probabilité. Mais juste ajoutern'a pas de sens pour moi. Qu'essayons-nous d'accomplir ici? $log(1+\frac{N}{n_t})$ $log(1+1)$ $\infty$
$1$

text-mining natural-language smoothing user2740
la source

liés, mais pas en double: stats.stackexchange.com/questions/152182/…

Sycorax dit Réintégrer Monica

Le lissage correct sera

\log (\frac{N}{(1 + n_{t})})

$\log(\frac N {(1+n_{t})})$

Réponses:

$+ 1$

$log(1+\frac{N}{n_t})$ $log(2)$ $log(\frac{N}{n_t})$ $log(\frac{N}{n_t})$

$\infty$ $k + log(N/s)$ $k, s \in {0, 1}$ $s$ $\rightarrow \infty$ $1 + n_t=1$ $N \rightarrow \infty$

Ken Benoit
la source