J'entraîne un réseau de neurones en utilisant i) SGD et ii) Adam Optimizer. Lorsque j'utilise un SGD normal, j'obtiens une courbe de perte d'entraînement en fonction de l'itération comme indiqué ci-dessous (la rouge). Cependant, lorsque j'ai utilisé Adam Optimizer, la courbe de perte d'entraînement...