Consigner les probabilités en référence au classificateur softmax

9

Dans ce https://cs231n.github.io/neural-networks-case-study/ pourquoi mentionne-t-il "le classificateur Softmax interprète chaque élément de ff comme détenant les probabilités de log (non normalisées) des trois classes."

Je comprends pourquoi il n'est pas normalisé mais pas pourquoi il s'agit d'un journal? Que signifie une probabilité logarithmique?

Pourquoi ne pas simplement dire des probabilités non normalisées?

Abhishek Bhatia
la source

Réponses:

9

Il existe une différence entre les probabilités et les probabilités logarithmiques. Si la probabilité d'un événement est de 0,366787944117, ce qui se trouve être1/e, alors la probabilité logarithmique est -1.

Par conséquent, si vous disposez d'un tas de probabilités de journal non normalisées et que vous souhaitez récupérer les probabilités d'origine, vous devez d'abord prendre l'exposant de tous vos nombres, ce qui vous donne des probabilités non normalisées. Ensuite, vous les normalisez comme d'habitude. Mathématiquement, c'est

pj=ezjiezi

pj est la probabilité de je classe et zi correspond aux entrées du classificateur softmax.

La question évidente est de savoir pourquoi s'embêter à faire des exposants. Pourquoi ne pas utiliser

pj=zjizi

au lieu?

Une des raisons en est que le softmax joue bien avec la perte d'entropie croisée, qui est Eq[logp], où qest la vraie distribution (les étiquettes). Intuitivement, le journal s'annule avec l'exposant, ce qui est très utile pour nous.

Il s'avère que si vous prenez le gradient de la perte d'entropie croisée par rapport aux entrées du classificateur z, vous obtenez

p1j

quand l'étiquette de vérité au sol est en classe j et 1jest le vecteur one-hot correspondant. C'est une expression très agréable et conduit à une interprétation et une optimisation faciles.

D'un autre côté, si vous essayez d'utiliser des probabilités non normalisées au lieu de probabilités logarithmiques non normalisées, vous vous retrouvez avec le gradient étant

1izi1jT1z

Cette expression est beaucoup moins agréable en termes d'interprétabilité et vous pouvez également voir des problèmes numériques potentiels lorsque z est proche de 0.

Une autre raison d'utiliser les probabilités logarithmiques peut être vue à partir de la régression logistique, qui est simplement un cas spécial de classification softmax. La forme de la fonction sigmoïde fonctionne bien car, intuitivement, lorsque vous vous déplacez dans l'espace des fonctionnalités, la probabilité des classes ne varie pas linéairement avec les entrées. Le virage serré de la fonction sigmoïde, qui souligne la frontière nette entre deux classes, est vraiment le résultat du terme exponentiel que nous appliquons aux entrées de softmax.

shimao
la source
Où est le journal dans l'expression des probabilités de journal non normalisées?
Abhishek Bhatia
1
Le journal vient du fait que logpjzj. Le log des probabilités est la probabilité log. Depuis dans mon post, j'allais dans la direction opposée - log probabilités à probabilités, j'ai utilisé exp au lieu de log.
shimao