Pourquoi le softmax est-il utilisé pour représenter une distribution de probabilité?

10

Dans la littérature sur l'apprentissage automatique, pour représenter une distribution de probabilité, la fonction softmax est souvent utilisée. Y a-t-il une raison à cela? Pourquoi aucune autre fonction n'est-elle utilisée?

SHASHANK GUPTA
la source

Réponses:

7

Du point de vue de l'optimisation, il possède de belles propriétés en termes de différentiabilité. Pour de nombreux problèmes d'apprentissage automatique, il convient parfaitement à la classification 1 sur N.

Du point de vue de l'apprentissage en profondeur: on pourrait également affirmer qu'en théorie, l'utilisation d'un réseau profond avec un classificateur softmax sur le dessus peut représenter n'importe quelle fonction de probabilité de classe N sur l'espace des fonctionnalités, car les MLP ont la propriété Approximation universelle .

Indie AI
la source
1
Donc, la principale raison de la popularité de Softmax est ses belles propriétés de différenciation qui sont utiles dans le cadre de l'apprentissage basé sur un gradient. C'est ça, non?
SHASHANK GUPTA
Oui, à mon avis en tout cas. Softmax est un simple avec de jolis dérivés et est attrayant pour l'apprentissage basé sur le gradient. D'accord avec tout ce que tu as dit.
Indie AI
Vous pouvez penser softmax comme une fonction de masse / densité de probabilité de la fonction que vous allez optimiser. À mon avis, softmax n'est qu'un moyen pratique de modéliser une fonction de probabilité masse / densité.
Charles Chow
3

Softmax est également une généralisation de la fonction sigmoïde logistique et, par conséquent, il porte les propriétés du sigmoïde telles que la facilité de différenciation et le fait d'être dans la plage 0-1. La sortie d'une fonction sigmoïde logistique est également comprise entre 0 et 1 et donc naturellement un choix approprié pour représenter la probabilité. Son dérivé est également apprécié en termes de sa propre production. Cependant, si votre fonction a une sortie vectorielle, vous devez utiliser la fonction Softmax pour obtenir la distribution de probabilité sur le vecteur de sortie. Il y a d'autres avantages à utiliser Softmax mentionnés par Indie AI, bien que cela n'ait pas nécessairement à voir avec la théorie de l'approximation universelle, car Softmax n'est pas une fonction uniquement utilisée pour les réseaux neuronaux.

Références

Amir
la source