J'ai observé que Caffe (un cadre d'apprentissage en profondeur) a utilisé la couche de perte Softmax SoftmaxWithLoss
comme couche de sortie pour la plupart des échantillons de modèle .
Pour autant que je sache, la couche de perte Softmax est la combinaison de la couche de perte logistique multinomiale et de la couche Softmax .
De Caffe, ils ont dit que
Le calcul du gradient de la couche de perte Softmax est plus stable numériquement
Cependant, cette explication n'est pas la réponse que je veux, l'explication consiste simplement à comparer la combinaison de la couche de perte logistique multinomiale et de la couche de perte Softmax au lieu de couche par couche. Mais pas comparer avec un autre type de fonction de perte.
Cependant, j'aimerais en savoir plus sur les différences / avantages / inconvénients de ces 3 fonctions d'erreur qui sont la perte logistique multinomiale , l' entropie croisée (CE) et l' erreur carrée (SE) dans une perspective d'apprentissage supervisé. Des articles de soutien?
y-t
. willamette.edu/~gorr/classes/cs449/classify.htmlRéponses:
Par conséquent, il est généralement utilisé pour minimiser l'utilisation de certaines erreurs de construction.
EDIT: @MartinThoma La formule ci-dessus de perte logistique multinomiale est juste pour le cas binaire, pour le cas général, elle devrait être , où K est le nombre de catégories.J(θ)=−[∑mi=1∑Kk=11{y(i)=k}logP(y(i)=k|x(i);θ)]
la source
La perte logistique multinomiale est en fait la même que l'entropie croisée. Regardez cette fonction (la fonction de coût dans softmax ): où m est le numéro d'échantillon, K est le numéro de classe.
La fonction d'indicateur ( ) détermine si le ci-dessous est 0 ou 1 dans la définition d'entropie croisée , qui est étiquetée comme un chaud dans les données d'apprentissage, et est la probabilité conditionnelle du softmax (q (x) comme indiqué ci-dessous).1{y(i)=k} p(x) p(y(i)=k∣x(i);θ)
Et MSE est principalement pour la situation où la fonction de lien est la fonction d'unité (la distribution de réponse suit une distribution normale), la régression linéaire standard, tandis que l'entropie croisée est normalement pour où la fonction de lien est la fonction logit. Voici une comparaison impressionnante à laquelle vous pouvez vous référer.
À l'exception de ceux des liens, recommandez-vous celui-ci illustrant celui-ci: https://github.com/rasbt/python-machine-learning-book/blob/master/faq/softmax_regression.md
la source