Je connais bien les algorithmes de base de descente de gradient pour la formation de réseaux de neurones. J'ai lu le document proposant Adam: ADAM: UNE MÉTHODE D'OPTIMISATION STOCHASTIQUE . Bien que j'ai certainement quelques idées (du moins), le papier semble être trop élevé pour moi en général....