Dans le classificateur softmax, pourquoi utiliser la fonction exp pour effectuer la normalisation?

Pourquoi utiliser softmax par opposition à la normalisation standard? Dans la zone de commentaire de la première réponse à cette question, @Kilian Batzner a soulevé 2 questions qui me déroutent également beaucoup. Il semble que personne ne donne d'explication à l'exception des avantages numériques.

J'ai les raisons d'utiliser la perte d'entropie croisée, mais comment cela se rapporte-t-il au softmax? Vous avez dit que "la fonction softmax peut être considérée comme essayant de minimiser l'entropie croisée entre les prédictions et la vérité". Supposons que j'utilise la normalisation standard / linéaire, mais que j'utilise toujours la perte d'entropie croisée. Ensuite, j'essaierais également de minimiser l'entropie croisée. Alors, comment le softmax est-il lié à l'entropie croisée, à l'exception des avantages numériques?

Quant à la vue probabiliste: quelle est la motivation pour regarder les probabilités logarithmiques? Le raisonnement semble être un peu comme "Nous utilisons e ^ x dans le softmax, parce que nous interprétons x comme log-probabilties". Avec le même raisonnement que nous pourrions dire, nous utilisons e ^ e ^ e ^ x dans le softmax, parce que nous interprétons x comme log-log-log-probabilités (exagérer ici, bien sûr). J'obtiens les avantages numériques de softmax, mais quelle est la motivation théorique pour l'utiliser?

machine-learning deep-learning Hans
la source

Elle est différenciable, conduit à des résultats non négatifs (comme cela serait nécessaire pour une probabilité afin que l'entropie croisée puisse être calculée), et se comporte comme la fonction max, qui est appropriée dans un cadre de classification. Bienvenue sur le site!

Emre

@Emre Merci! Mais que signifie "se comporte comme la fonction max"? De plus, si j'ai une autre fonction qui est également différenciable, qui augmente monotone et conduit à des résultats non négatifs, puis-je l'utiliser pour remplacer la fonction exp dans la formule?

Hans

max

$\max$

Réponses:

C'est plus que numérique. Un rappel rapide du softmax:

P (y = j | x) = \frac{e^{x_{j}}}{\sum_{k = 1}^{K} e^{x_{k}}}

$P(y=j | x) = \frac{e^{x_j}}{\sum_{k=1}^K e^{x_k}}$

Où est un vecteur d'entrée avec une longueur égale au nombre de classes . La fonction softmax a 3 propriétés très intéressantes: 1. elle normalise vos données (génère une distribution de probabilité appropriée), 2. est différentiable, et 3. elle utilise l'exp que vous avez mentionnée. Quelques points importants: $x$ $K$

La fonction de perte n'est pas directement liée au softmax. Vous pouvez utiliser la normalisation standard et toujours utiliser l'entropie croisée.
Une fonction "hardmax" (ie argmax) n'est pas différenciable. Le softmax donne au moins une quantité minimale de probabilité à tous les éléments dans le vecteur de sortie, et est donc bien différenciable, d'où le terme "soft" dans softmax.
J'arrive maintenant à votre question. Le dans softmax est la fonction exponentielle naturelle. Avant de normaliser, nous transformons comme dans le graphe de : $e$ $x$ $e^x$

Si est 0 alors , si est 1, alors , et si est 2, maintenant ! Un pas énorme! C'est ce qu'on appelle une transformation non linéaire de nos scores de log non normalisés. La propriété intéressante de la fonction exponentielle combinée à la normalisation dans le softmax est que les scores élevés en deviennent beaucoup plus probables que les scores faibles. $x$ $y=1$ $x$ $y=2.7$ $x$ $y=7$ $x$

Un exemple . Dites $K=4$ et votre score de log est vecteur . La fonction simple argmax génère: $x$ $[2, 4, 2, 1]$

[0, 1, 0, 0]

$[0, 1, 0, 0]$

L'argmax est l'objectif, mais il n'est pas différenciable et nous ne pouvons pas entraîner notre modèle avec lui :( Une simple normalisation, qui est différenciable, génère les probabilités suivantes:

[0.2222, 0.4444, 0.2222, 0.1111]

$[0.2222, 0.4444, 0.2222, 0.1111]$

C'est vraiment loin de l'argmax! :( Alors que les sorties softmax:

[0.1025, 0.7573, 0.1025, 0.0377]

$[0.1025, 0.7573, 0.1025, 0.0377]$

C'est beaucoup plus proche de l'argmax! Parce que nous utilisons l'exponentielle naturelle, nous augmentons énormément la probabilité du score le plus élevé et diminuons la probabilité des scores les plus bas par rapport à la normalisation standard. D'où le "max" en softmax.

vega
la source

Grande info. Cependant, au lieu d'utiliser e, qu'en est-il de l'utilisation d'une constante disons 3 ou 4? Le résultat sera-t-il le même?

Cheok Yan Cheng

@CheokYanCheng, oui. Mais ea un dérivé plus agréable;)

vega

J'ai vu que le résultat de softmax est généralement utilisé comme probabilités d'appartenance à chaque classe. Si le choix de «e» au lieu d'une autre constante est arbitraire, cela n'a pas de sens de le voir en termes de probabilité, non?

javierdvalle

@vega Désolé, mais je ne vois toujours pas comment cela répond à la question: pourquoi ne pas utiliser e ^ e ^ e ^ e ^ e ^ x pour les mêmes raisons? Veuillez expliquer

Gulzar

@jvalle ce n'est pas ecela qui le rend interprétable comme une probabilité, c'est le fait que chaque élément de la sortie softmax est borné en [0,1] et les sommes entières à 1.

vega

En plus de l'explication de Vega,

P (y = j | x) = \frac{ψ^{x_{j}}}{\sum_{k = 1}^{K} ψ^{x_{k}}}

$P(y=j | x) = \frac{\psi^{x_j}}{\sum_{k=1}^K \psi^{x_k}}$

ψ

$\psi$

$\psi=1$

$\psi=100$ $10^{308}$ $\psi=e$ $100$ $C$

Donc, vous voulez choisir une constante suffisamment grande pour bien approcher argmax, et aussi assez petite pour exprimer ces grands et petits nombres dans les calculs.

$e$

komunistbakkal
la source

Cette question est très intéressante. Je ne connais pas la raison exacte, mais je pense que la raison suivante pourrait être utilisée pour expliquer l'utilisation de la fonction exponentielle. Ce billet s'inspire de la mécanique statistique et du principe d'entropie maximale.

$N$ $n_1$ $\mathcal{C}_1$ $n_2$ $\mathcal{C}_2$ $n_K$ $\mathcal{C}_K$ $E_k$

$\bar{E}$ $E_k$

N \bar{E} = \sum_{k = 1}^{K} n_{k} E_{k} . (*)

$\begin{equation} N\bar{E} = \sum_{k=1}^{K} n_k E_k.\qquad (*) \label{eq:mean_energy} \end{equation}$

Dans le même temps, nous voyons que la quantité totale d'images peut être calculée comme la somme suivante

N = \sum_{k = 1}^{K} n_{k} . (* *)

$\begin{equation} N = \sum_{k=1}^{K}n_k.\qquad (**) \label{eq:conservation_of_particles} \end{equation}$

$n_1$

$N$ $n_1$ $n_2$ $n_K$

(\begin{matrix} N! \\ n_{1}!, n_{2}!, \dots, n_{K}! \end{matrix}) = \frac{N!}{\prod_{k = 1}^{K} n_{k}!} .

$\begin{equation} \begin{pmatrix} N!\\ n_1!,n_2!,\ldots,n_K!\\ \end{pmatrix}=\dfrac{N!}{\prod_{k=1}^K n_k!}. \end{equation}$

$N\to \infty$ $(*)$ $(**)$ $\beta$ $\alpha$ $\mathcal{L}\left(n_1,n_2,\ldots,n_k;\alpha, \beta \right)$

L (n_{1}, n_{2}, \dots, n_{k}; α, β) = \frac{N!}{\prod_{k = 1}^{K} n_{k}!} + β [\sum_{k = 1}^{K} n_{k} E_{k} - N \bar{E}] + α [N - \sum_{k = 1}^{K} n_{k}]

$\begin{equation} \mathcal{L}\left(n_1,n_2,\ldots,n_k;\alpha, \beta \right) = \dfrac{N!}{\prod_{k=1}^{K}n_k!}+\beta\left[\sum_{k=1}^Kn_k E_k - N\bar{E}\right]+\alpha\left[N-\sum_{k=1}^{K} n_k\right] \end{equation}$

$N\to \infty$ $n_k \to \infty$

\ln n! = n \ln n - n + O (\ln n) .

$\begin{equation} \ln n! = n\ln n - n + \mathcal{O}(\ln n). \end{equation}$

$\ln n!$ $n\to \infty$

$n_\tilde{k}$

\frac{\partial L}{\partial n_{\tilde{k}}} = - \ln n_{\tilde{k}} - 1 - α + β E_{\tilde{k}} .

$\dfrac{\partial \mathcal{L}}{\partial n_\tilde{k}}=-\ln n_\tilde{k}-1-\alpha+\beta E_\tilde{k}.$

Si nous mettons cette dérivée partielle à zéro, nous pouvons trouver

n_{\tilde{k}} = \frac{\exp (β E_{\tilde{k}})}{\exp (1 + α)} . (* * *)

$n_\tilde{k}=\dfrac{\exp(\beta E_\tilde{k})}{\exp(1+\alpha)}. \qquad (***)$

$(**)$

\exp (1 + α) = \frac{1}{N} \sum_{k = 1}^{K} \exp (β E_{k}) .

$\exp(1+\alpha)=\dfrac{1}{N}\sum_{k=1}^K\exp(\beta E_k).$

$(***)$

n_{\tilde{k}} = \frac{\exp (β E_{\tilde{k}})}{\frac{1}{N} \sum_{k = 1}^{K} \exp (β E_{k})} .

$n_\tilde{k}=\dfrac{\exp(\beta E_\tilde{k})}{\dfrac{1}{N}\sum_{k=1}^K\exp(\beta E_k)}.$

$n_\tilde{k}/N$ $\mathcal{C}_\tilde{k}$ $p_\tilde{k}$

p_{\tilde{k}} = \frac{\exp (β E_{\tilde{k}})}{\sum_{k = 1}^{K} \exp (β E_{k})} .

$p_\tilde{k}=\dfrac{\exp(\beta E_\tilde{k})}{\sum_{k=1}^K\exp(\beta E_k)}.$

$\beta E_\tilde{k}=\boldsymbol{w}^T_k\boldsymbol{x}$ $k^{\text{th}}$

MachineLearner
la source