La fonction softmax, couramment utilisée dans les réseaux de neurones pour convertir des nombres réels en probabilités, est la même fonction que la distribution de Boltzmann, la distribution de probabilité sur les énergies pour un ensemble de particules en équilibre thermique à une température donnée T en thermodynamique.
Je peux voir quelques raisons heuristiques claires pour lesquelles cela est pratique:
- Peu importe si les valeurs d'entrée sont négatives, softmax génère des valeurs positives totalisant un.
- Il est toujours différentiable, ce qui est pratique pour la rétropropagation.
- Il a un paramètre `` température '' contrôlant la clémence du réseau envers les petites valeurs (lorsque T est très grand, tous les résultats sont également probables, lorsqu'ils sont très petits, seule la valeur avec la plus grande entrée est sélectionnée).
La fonction Boltzmann est-elle uniquement utilisée comme softmax pour des raisons pratiques, ou existe-t-il un lien plus profond avec la thermodynamique / physique statistique?
Réponses:
À ma connaissance, il n'y a pas de raison plus profonde, à part le fait que beaucoup de personnes qui ont pris des RNA au-delà du stade Perceptron étaient des physiciens.
Outre les avantages mentionnés, ce choix particulier présente plus d'avantages. Comme mentionné, il a un seul paramètre qui détermine le comportement de sortie. Qui à son tour peut être optimisé ou réglé en lui-même.
En bref, c'est une fonction très pratique et bien connue qui réalise une sorte de «régularisation», en ce sens que même les plus grandes valeurs d'entrée sont restreintes.
Bien sûr, il existe de nombreuses autres fonctions possibles qui répondent aux mêmes exigences, mais elles sont moins bien connues dans le monde de la physique. Et la plupart du temps, ils sont plus difficiles à utiliser.
la source
la fonction softmax est également utilisée dans la modélisation à choix discret, elle est la même que le modèle logit, si vous supposez qu'il existe une fonction d'utilité associée à chaque classe, et la fonction d'utilité est égale à la sortie du réseau neuronal + un terme d'erreur suivant le Gumbel distribution, la probabilité d'appartenir à une classe est égale à la fonction softmax avec un réseau de neurones en entrée. Voir: https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf
il existe des alternatives au modèle logit, comme le modèle probit, où le terme d'erreur est supposé suivre la distribution normale standard, ce qui est une meilleure hypothèse. cependant, la probabilité serait intraitable et son calcul est coûteux à résoudre, donc peu utilisé dans les réseaux de neurones
la source