Fonction de coût d'entropie croisée dans un réseau de neurones

10

Je regarde la fonction de coût d'entropie croisée trouvée dans ce tutoriel :

C=1nx[ylna+(1y)ln(1a)]

Que résumons-nous exactement? C'est, bien sûr, sur x , mais y et a ne changent pas avec x . Tous les x sont des entrées dans celui a . a est même défini dans le paragraphe ci-dessus l'équation en fonction de la somme de tous les w et . x

De plus, est défini comme le nombre d'entrées dans ce neurone particulier, n'est-ce pas? Il est libellé comme "le nombre total d'éléments de données de formation" .n


Éditer:

Ai-je raison de penser que

C=1nx[ylna+(1y)ln(1a)]

serait la fonction de coût pour l'ensemble du réseau, alors que

C=[ylna+(1y)ln(1a)]

serait le coût pour le neurone individuel? La somme ne devrait-elle pas être supérieure à chaque neurone de sortie?

Adam12344
la source

Réponses:

14

L(X,Y)=1ni=1ny(i)lna(x(i))+(1y(i))ln(1a(x(i)))

X={x(1),,x(n)}Y={y(1),,y(n)}a(x)x

y(i)a(x)

a(x)=11+eWxb
Wb
a(x)=11+eWz(x)bz(x)=11+eVxc
c z ( x )Vcz(x)

J'ai utilisé le (i) exposant pour désigner des exemples parce que je l'ai trouvé assez efficace dans le cours d'apprentissage automatique d'Andrew Ng; parfois, les gens expriment des exemples sous forme de colonnes ou de lignes dans une matrice, mais l'idée reste la même.

lmjohns3
la source
Merci! Cela nous donnerait donc un numéro unique pour notre erreur pour l'ensemble du réseau, sur tous nos échantillons. Pour la propagation arrière, je dois trouver la dérivée partielle de cette fonction par rapport à la matrice de poids dans la couche finale. Comment ferais-je ça?
Adam12344
Faire backprop est une boîte de vers séparée! La page à laquelle vous avez lié a une description des dérivés informatiques, etc. et il y a beaucoup de questions sur backprop sur stackoverflow et ce site. Essayez de regarder un peu puis de poster une question distincte spécifiquement sur backprop.
lmjohns3
Cela pourrait être utile pour comprendre le backprop, il passe par le back prop avec un réseau neuronal à quatre couches avec une perte d'entropie croisée dans les détails sanglants :) cookedsashimi.wordpress.com/2017/05/06/…
YellowPillow
5

Que résumons-nous exactement?

Le tutoriel est en fait assez explicite:

n

xΣa

a=jwjxj.

Plus loin dans le même didacticiel, Nielsen donne une expression pour la fonction de coût pour un réseau multicouche et multi-neurone (Eqn. 63):

C=1nxj[yjlnajL+(1yj)ln(1ajL)].

xj

ali_m
la source
Merci pour la perspicacité, une question: celle-ci que vous avez définie n'est pas l'entropie croisée catégorique, non?
Tommaso Guerrini
Il a également dit dans son tutoriel que "y peut parfois prendre des valeurs intermédiaires entre 0 et 1" mais la fonction qu'il a donnée est tout sur y et il n'y a pas eu d'entrée d'activation. Comment pourrions-nous implémenter des valeurs intermédiaires dans la fonction st?
Feras
Dans le tutoriel de Nielsen, qui montre un perceptron monocouche, a = \ sigma (\ sum_ {j} w_j x_j) parce que vous avez une fonction d'activation sigmoïde pour votre couche de sortie, pas un = \ sum_ {j} w_j x_j
ARAT