Dans la littérature sur l'apprentissage automatique, pour représenter une distribution de probabilité, la fonction softmax est souvent utilisée. Y a-t-il une raison à cela? Pourquoi aucune autre fonction n'est-elle utilisée?
la source
Dans la littérature sur l'apprentissage automatique, pour représenter une distribution de probabilité, la fonction softmax est souvent utilisée. Y a-t-il une raison à cela? Pourquoi aucune autre fonction n'est-elle utilisée?
Du point de vue de l'optimisation, il possède de belles propriétés en termes de différentiabilité. Pour de nombreux problèmes d'apprentissage automatique, il convient parfaitement à la classification 1 sur N.
Du point de vue de l'apprentissage en profondeur: on pourrait également affirmer qu'en théorie, l'utilisation d'un réseau profond avec un classificateur softmax sur le dessus peut représenter n'importe quelle fonction de probabilité de classe N sur l'espace des fonctionnalités, car les MLP ont la propriété Approximation universelle .
Softmax est également une généralisation de la fonction sigmoïde logistique et, par conséquent, il porte les propriétés du sigmoïde telles que la facilité de différenciation et le fait d'être dans la plage 0-1. La sortie d'une fonction sigmoïde logistique est également comprise entre 0 et 1 et donc naturellement un choix approprié pour représenter la probabilité. Son dérivé est également apprécié en termes de sa propre production. Cependant, si votre fonction a une sortie vectorielle, vous devez utiliser la fonction Softmax pour obtenir la distribution de probabilité sur le vecteur de sortie. Il y a d'autres avantages à utiliser Softmax mentionnés par Indie AI, bien que cela n'ait pas nécessairement à voir avec la théorie de l'approximation universelle, car Softmax n'est pas une fonction uniquement utilisée pour les réseaux neuronaux.
Références
la source