Comportement étrange avec Adam optimizer lors d'un entraînement trop long

J'essaie de former un seul perceptron (1000 unités d'entrée, 1 sortie, pas de couches cachées) sur 64 points de données générés de manière aléatoire. J'utilise Pytorch en utilisant l'optimiseur Adam: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64,...