Je suis tombé sur un terme de perplexité qui fait référence à la probabilité inverse logarithmique sur des données invisibles. Un article de Wikipedia sur la perplexité ne donne pas un sens intuitif pour la même chose.
Cette mesure de perplexité a été utilisée dans le papier pLSA .
Quelqu'un peut-il expliquer la nécessité et le sens intuitif de la mesure de perplexité ?
measurement
perplexity
Apprenant
la source
la source
Réponses:
Vous avez consulté l'article de Wikipedia sur la perplexité . Cela donne la perplexité d’une distribution discrète
qui pourrait également être écrit comme
c'est-à-dire en tant que moyenne géométrique pondérée des inverses des probabilités. Pour une distribution continue, la somme deviendrait une intégrale.
L'article donne également un moyen d'estimer la perplexité d'un modèle à l'aide de données de testN
qui pourrait aussi être écrit
ou de diverses autres manières, ce qui devrait rendre plus claire encore la notion de "probabilité inverse logarithmique".
la source
J'ai trouvé cela plutôt intuitif:
http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/
la source
Je me suis demandé cela aussi. La première explication n’est pas mauvaise, mais voici mes deux mots clés.
Tout d'abord, la perplexité n'a rien à voir avec la caractérisation de la fréquence à laquelle vous devinez quelque chose de bien. Il s'agit davantage de caractériser la complexité d'une séquence stochastique.
Nous examinons une quantité,2−∑xp(x)log2p(x)
Annulons d'abord le journal et l'exponentiation.
Je pense que cela vaut la peine de souligner que la perplexité est invariante avec la base que vous utilisez pour définir l'entropie. En ce sens, la perplexité est infiniment plus unique / moins arbitraire que l’entropie en tant que mesure.
Relation avec les dés
Now what happens when we look at anN sided dice? Perplexity is 1(1N1N)N=N
So perplexity represents the number of sides of a fair die that when rolled, produces a sequence with the same entropy as your given probability distribution.
Number of States
OK, so now that we have an intuitive definition of perplexity, let's take a quick look at how it is affected by the number of states in a model. Let's start with a probability distribution overN states, and create a new probability distribution over N+1 states such that the likelihood ratio of the original N states remain the same and the new state has probability ϵ . In the case of starting with a fair N sided die, we might imagine creating a new N+1 sided die such that the new side gets rolled with probability ϵ and the original N sides are rolled with equal likelihood. So in the case of an arbitrary original probability distribution, if the probability of each state x is given by px , the new distribution of the original N states given the new state will be p′x=px(1−ϵ) , and the new perplexity will be given by:
In the limit asϵ→0 , this quantity approaches 1∏Nxpxpx
So as you make make rolling one side of the die increasingly unlikely, the perplexity ends up looking as though the side doesn't exist.
la source
There is actually a clear connection between perplexity and the odds of correctly guessing a value from a distribution, given by Cover's Elements of Information Theory 2ed (2.146): IfX and X′ are iid variables, then
To explain, perplexity of a uniform distribution X is just |X|, the number of elements. If we try to guess the values that iid samples from a uniform distribution X will take by simply making iid guesses from X, we will be correct 1/|X|=1/perplexity of the time. Since the uniform distribution is the hardest to guess values from, we can use 1/perplexity as a lower bound / heuristic approximation for how often our guesses will be right.
la source