Quelle est la profondeur du lien entre la fonction softmax en ML et la distribution de Boltzmann en thermodynamique?

12

La fonction softmax, couramment utilisée dans les réseaux de neurones pour convertir des nombres réels en probabilités, est la même fonction que la distribution de Boltzmann, la distribution de probabilité sur les énergies pour un ensemble de particules en équilibre thermique à une température donnée T en thermodynamique.

Je peux voir quelques raisons heuristiques claires pour lesquelles cela est pratique:

  • Peu importe si les valeurs d'entrée sont négatives, softmax génère des valeurs positives totalisant un.
  • Il est toujours différentiable, ce qui est pratique pour la rétropropagation.
  • Il a un paramètre `` température '' contrôlant la clémence du réseau envers les petites valeurs (lorsque T est très grand, tous les résultats sont également probables, lorsqu'ils sont très petits, seule la valeur avec la plus grande entrée est sélectionnée).

La fonction Boltzmann est-elle uniquement utilisée comme softmax pour des raisons pratiques, ou existe-t-il un lien plus profond avec la thermodynamique / physique statistique?

ahura
la source
1
Je ne vois pas pourquoi cela attire des votes serrés - c'est une question parfaitement raisonnable.
Matt Krause
2
+1 à @ MattKrause - Les NN sont certainement sur le sujet, tout comme - je pense - la physique statistique.
Sean Easter
Je peux voir comment la question est plus «ouverte» que la plupart des questions SO, dans le sens où je ne cherche pas une solution à un problème, mais des connaissances plus générales. Cependant, je ne pouvais pas penser à un meilleur endroit pour le demander ou à une façon plus spécifique de le demander.
ahura

Réponses:

3

À ma connaissance, il n'y a pas de raison plus profonde, à part le fait que beaucoup de personnes qui ont pris des RNA au-delà du stade Perceptron étaient des physiciens.

Outre les avantages mentionnés, ce choix particulier présente plus d'avantages. Comme mentionné, il a un seul paramètre qui détermine le comportement de sortie. Qui à son tour peut être optimisé ou réglé en lui-même.

En bref, c'est une fonction très pratique et bien connue qui réalise une sorte de «régularisation», en ce sens que même les plus grandes valeurs d'entrée sont restreintes.

Bien sûr, il existe de nombreuses autres fonctions possibles qui répondent aux mêmes exigences, mais elles sont moins bien connues dans le monde de la physique. Et la plupart du temps, ils sont plus difficiles à utiliser.

chérubin
la source
2

la fonction softmax est également utilisée dans la modélisation à choix discret, elle est la même que le modèle logit, si vous supposez qu'il existe une fonction d'utilité associée à chaque classe, et la fonction d'utilité est égale à la sortie du réseau neuronal + un terme d'erreur suivant le Gumbel distribution, la probabilité d'appartenir à une classe est égale à la fonction softmax avec un réseau de neurones en entrée. Voir: https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf

il existe des alternatives au modèle logit, comme le modèle probit, où le terme d'erreur est supposé suivre la distribution normale standard, ce qui est une meilleure hypothèse. cependant, la probabilité serait intraitable et son calcul est coûteux à résoudre, donc peu utilisé dans les réseaux de neurones

John
la source