Perplexité et entropie croisée pour les modèles n-gram

10

Essayer de comprendre la relation entre l'entropie croisée et la perplexité. En général pour un modèle M , Perplexité (M) = 2 ^ entropie (M) . Cette relation est-elle valable pour tous les n-grammes différents, c'est-à-dire unigramme, bigramme, etc.?

natural-language entropy perplexity Margalit
la source

C'est en fait la définition de la perplexité; la dérive;)

\sqrt[N]{Π_{i = 1}^{N} \frac{1}{P (w_{i} | w_{1}, . . . w_{i - 1})}}

$\sqrt[N]{\Pi^N_{i=1} \frac{1}{P(w_i|w_1, ... w_{i-1})}}$

WavesWashSands

9

Oui, la perplexité est toujours égale à deux à la puissance de l'entropie. Peu importe le type de modèle que vous possédez, n-gramme, unigramme ou réseau de neurones.

Il y a quelques raisons pour lesquelles le langage modélise les gens comme la perplexité au lieu d'utiliser simplement l'entropie. La première est que, en raison de l'exposant, les améliorations de la perplexité "semblent" être plus importantes que l'amélioration équivalente de l'entropie. Un autre est qu'avant de commencer à utiliser la perplexité, la complexité d'un modèle de langage a été signalée à l'aide d'une mesure de facteur de ramification simpliste qui est plus similaire à la perplexité qu'à l'entropie.

Aaron
la source

1

D'accord avec la réponse @Aaron avec une légère modification:

Ce n'est pas toujours égal à deux à la puissance de l'entropie. En fait, ce sera (base pour log) au pouvoir de l'entropie. Si vous avez utilisé e comme base, ce serait e ^ entropie.

Prashant Gupta
la source

Perplexité et entropie croisée pour les modèles n-gram

Réponses: