Questions marquées «gradient-descent»

23
Descente de coordonnées vs descente de gradient

Je me demandais quels sont les différents cas d'utilisation pour les deux algorithmes, Descente de coordonnées et Descente de gradient . Je sais que la descente de coordonnées a des problèmes avec les fonctions non lisses mais elle est utilisée dans des algorithmes populaires comme SVM et LASSO. La...

21
De la règle du Perceptron à la descente en gradient: en quoi les Perceptrons avec une fonction d'activation sigmoïde sont-ils différents de la régression logistique?

Essentiellement, ma question est que dans les Perceptrons multicouches, les perceptrons sont utilisés avec une fonction d'activation sigmoïde. Alors que dans la règle de mise à jour y est calculée comme suity^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} =

15
Comment la descente de gradient stochastique pourrait-elle gagner du temps par rapport à la descente de gradient standard?

La descente de gradient standard calculerait le gradient pour l'ensemble des données d'apprentissage. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Pour un nombre prédéfini d'époques, nous calculons d'abord le...

14
Pourquoi n'utilisons-nous pas des taux d'apprentissage non constants pour un gradient décent pour d'autres choses que les réseaux de neurones?

La littérature sur l'apprentissage en profondeur regorge de trucs astucieux avec l'utilisation de taux d'apprentissage non constants dans la descente de gradient. Des choses comme la décroissance exponentielle, RMSprop, Adagrad, etc. sont faciles à mettre en œuvre et sont disponibles dans tous les...

14
Comment peut-il être piégé dans une pointe de selle?

Je suis actuellement un peu perplexe sur la façon dont la descente en gradient en mini-lot peut être piégée dans un point de selle. La solution est peut-être trop insignifiante pour ne pas l’obtenir. Vous obtenez un nouvel échantillon à chaque époque, et il calcule une nouvelle erreur en fonction...