Questions marquées «gradient-descent»

La descente en gradient est un algorithme d'optimisation itérative de premier ordre. Pour trouver un minimum local d'une fonction par descente de gradient, on fait des pas proportionnels au négatif du gradient (ou du gradient approximatif) de la fonction au point courant. Pour la descente de gradient stochastique, il existe également la balise [sgd].

40
Comment la fonction d'activation rectiligne résout-elle le problème du gradient en voie de disparition dans les réseaux de neurones?

J'ai trouvé des unités linéaires rectifiées (ReLU) louées à plusieurs endroits comme solution au problème du gradient de fuite pour les réseaux de neurones. En d’autres termes, on utilise max (0, x) comme fonction d’activation. Lorsque l'activation est positive, il est évident qu'elle est meilleure...

25
Pour les problèmes convexes, le gradient en descente de gradient stochastique (SGD) pointe-t-il toujours vers la valeur extrême globale?

Étant donné une fonction de coût convexe, en utilisant SGD pour l'optimisation, nous aurons un gradient (vecteur) à un certain point au cours du processus d'optimisation. Ma question est, étant donné le point sur le convexe, le gradient ne pointe-t-il que vers la direction dans laquelle la fonction...