Mon professeur a prouvé que la dérivée seconde de l'entropie croisée est toujours positive, de sorte que la fonction de coût des réseaux de neurones utilisant l'entropie croisée est convexe. Est-ce vrai? Je suis assez confus à ce sujet car j'ai toujours appris que la fonction de coût de ANN n'est pas convexe. Quelqu'un peut-il confirmer cela? Merci beaucoup! http://z0rch.com/2014/06/05/cross-entropy-cost-function
neural-networks
convex
xuancanh
la source
la source
Réponses:
L'entropie croisée d'une famille exponentielle est toujours convexe. Donc, pour un réseau neuronal multicouche ayant des entréesX , poids w et sortie y et fonction de perte L
est convexe. cependant,
ne va pas être convexe pour les paramètres de la couche intermédiaire pour les raisons décrites par iamonaboat.
la source
Ce que @ngiann a dit, et de manière informelle, si vous permutez les neurones dans la couche cachée et faites la même permutation sur les poids des couches adjacentes, alors la perte ne change pas.
Par conséquent, s'il existe un minimum global non nul en fonction des poids, il ne peut pas être unique car la permutation des poids donne un autre minimum global. La fonction n'est donc pas convexe.
La matrice de toutes les secondes dérivées partielles (la Hesse) n'est ni semi-définie positive, ni semi-définie négative. Puisque la dérivée seconde est une matrice, il est possible qu'elle ne soit ni l'une ni l'autre.
la source
Vous avez raison de penser que le problème d'optimisation ANN du problème d'entropie croisée sera non convexe. Remarque: nous parlons d'un réseau neuronal avec une fonction d'activation non linéaire au niveau de la couche cachée. Si vous n'utilisez pas de fonction d'activation non linéaire, votre ANN implémente une fonction linéaire et le problème devient convexe.
Ainsi, la raison pour laquelle l'optimisation de l'entropie croisée d'un ANN est non convexe est due à la paramétrisation sous-jacente de l'ANN. Si vous utilisez un réseau neuronal linéaire, vous pouvez le rendre convexe (il ressemblera essentiellement à une régression logistique qui est un problème convexe).
la source