J'exécute des expériences sur l'ensemble de validation EMNIST en utilisant des réseaux avec RMSProp, Adam et SGD. J'atteins une précision de 87% avec SGD (taux d'apprentissage de 0,1) et décrochage (0,1 décrochage prob) ainsi que la régularisation L2 (pénalité 1e-05). En testant la même configuration exacte avec RMSProp et Adam ainsi que le taux d'apprentissage initial de 0,001, j'atteins une précision de 85% et une courbe d'entraînement nettement moins fluide. Je ne sais pas comment expliquer ce comportement. Quelle peut être la raison du manque de fluidité de la courbe d'entraînement et de la précision inférieure et des taux d'erreur plus élevés atteints?
12
Réponses:
Après avoir recherché quelques articles en ligne et la documentation Keras, il est suggéré que l'optimiseur RMSProp soit recommandé pour les réseaux de neurones récurrents. https://github.com/keras-team/keras/blob/master/keras/optimizers.py#L209
La descente de gradient stochastique semble tirer parti de son taux d'apprentissage et de son élan entre chaque lot pour optimiser les poids du modèle en fonction des informations de la fonction de perte dans mon cas, c'est «catégorical_crossentropy».
Je suggère http://ruder.io/optimizing-gradient-descent/index.html pour plus d'informations sur les algorithmes d'optimisation.
la source