Questions marquées «sgd»

25
Pour les problèmes convexes, le gradient en descente de gradient stochastique (SGD) pointe-t-il toujours vers la valeur extrême globale?

Étant donné une fonction de coût convexe, en utilisant SGD pour l'optimisation, nous aurons un gradient (vecteur) à un certain point au cours du processus d'optimisation. Ma question est, étant donné le point sur le convexe, le gradient ne pointe-t-il que vers la direction dans laquelle la fonction...

15
Comment la descente de gradient stochastique pourrait-elle gagner du temps par rapport à la descente de gradient standard?

La descente de gradient standard calculerait le gradient pour l'ensemble des données d'apprentissage. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Pour un nombre prédéfini d'époques, nous calculons d'abord le...

14
Comment peut-il être piégé dans une pointe de selle?

Je suis actuellement un peu perplexe sur la façon dont la descente en gradient en mini-lot peut être piégée dans un point de selle. La solution est peut-être trop insignifiante pour ne pas l’obtenir. Vous obtenez un nouvel échantillon à chaque époque, et il calcule une nouvelle erreur en fonction...

12
RMSProp et Adam vs SGD

J'exécute des expériences sur l'ensemble de validation EMNIST en utilisant des réseaux avec RMSProp, Adam et SGD. J'atteins une précision de 87% avec SGD (taux d'apprentissage de 0,1) et décrochage (0,1 décrochage prob) ainsi que la régularisation L2 (pénalité 1e-05). En testant la même...