Entropie croisée ou log vraisemblance dans la couche de sortie

31

J'ai lu cette page: http://neuralnetworksanddeeplearning.com/chap3.html

et il a dit que la couche de sortie sigmoïde avec entropie croisée est assez similaire à la couche de sortie softmax avec log-vraisemblance.

que se passe-t-il si j'utilise sigmoïde avec log-vraisemblance ou softmax avec entropie croisée dans la couche de sortie? ça va? parce que je vois qu'il n'y a que peu de différence dans l'équation entre l'entropie croisée (eq.57):

C=-1nX(ylnune+(1-y)ln(1-une))

et log vraisemblance (eq.80):

C=-1nX(lnuneyL)
Malioboro
la source

Réponses:

51

La vraisemblance logarithmique négative (eq.80) est également connue sous le nom d'entropie croisée multiclasse (réf: Reconnaissance de formes et apprentissage automatique, section 4.3.4), car il s'agit en fait de deux interprétations différentes de la même formule.

l'éq.57 est la probabilité logarithmique négative de la distribution de Bernoulli, tandis que l'éq.80 est la probabilité logarithmique négative de la distribution multinomiale avec une observation (une version multiclasse de Bernoulli).

Pour les problèmes de classification binaire, la fonction softmax génère deux valeurs (entre 0 et 1 et somme à 1) pour donner la prédiction de chaque classe. Alors que la fonction sigmoïde génère une valeur (entre 0 et 1) pour donner la prédiction d'une classe (donc l'autre classe est 1-p).

Ainsi, l'éq.80 ne peut pas être directement appliqué à la sortie sigmoïde, bien qu'il s'agisse essentiellement de la même perte que l'eq.57.

Voir également cette réponse .


Voici une illustration simple de la connexion entre (sigmoïde + entropie croisée binaire) et (softmax + entropie croisée multiclasse) pour les problèmes de classification binaire.

0,5

σ(wX+b)=0,5
wX+b=0

ew1X+b1ew1X+b1+ew2X+b2=0,5
ew1X+b1=ew2X+b2
w1X+b1=w2X+b2
(w1-w2)X+(b1-b2)=0

Les éléments suivants montrent les limites de décision obtenues à l'aide de ces deux méthodes, qui sont presque identiques.

dontloo
la source
De quelles équations parlez-vous? Dans le livre, les équations sont numérotées différemment. C'est peut-être une édition spécifique du livre? Pouvez-vous clarifier cela? Je regarde le livre sur users.isr.ist.utl.pt/~wurmd/Livros/school/… , page 209 (section 4.3.4).
nbro
@nbro ah désolé pour la confusion, je voulais dire les équations dans la page liée donnée dans la question.
dontloo