Si vous regardez la documentation http://keras.io/optimizers/ il y a un paramètre dans le SGD pour la désintégration. Je sais que cela réduit le taux d'apprentissage au fil du temps. Cependant, je ne peux pas comprendre comment cela fonctionne exactement. Est-ce une valeur multipliée par le taux d'apprentissage telle qu'elle lr = lr * (1 - decay)
est exponentielle? Comment puis-je voir quel taux d'apprentissage mon modèle utilise? Lorsque j'imprime model.optimizer.lr.get_value()
après avoir exécuté un ajustement sur quelques époques, cela donne le taux d'apprentissage d'origine même si j'ai défini la décroissance.
Dois-je également définir nesterov = True pour utiliser l'élan ou y a-t-il seulement deux types différents d'élan que je peux utiliser. Par exemple, est-il utile de le fairesgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)
la source
self.iterations
réfère au nombre d'étapes SGD individuelles, pas au nombre d'époques, rigt?