J'essaie de comprendre l'histoire de la descente de gradient et de la descente de gradient stochastique . La descente de gradient a été inventée à Cauchy en 1847. Méthode générale de résolution des systèmes d'équations simultanées . pp. 536–538 Pour plus d'informations à ce sujet, voir ici .
Depuis lors, les méthodes de descente sur gradient ont continué à se développer et je ne connais pas encore leur histoire. Je m'intéresse en particulier à l'invention de la descente à gradient stochastique.
Une référence qui peut être utilisée dans un article académique est plus que bien accueillie.
Réponses:
La descente de gradient stochastique est précédée de l’approximation stochastique telle que décrite pour la première fois par Robbins et Monro dans leur article, A Méthode d’approximation stochastique . Kiefer et Wolfowitz ont ensuite publié leur article, Estimation stochastique de la fonction de régression maximalece qui est plus reconnaissable par les personnes familiarisées avec la variante ML de l'approximation stochastique (c'est-à-dire la descente de gradient stochastique), comme l'a souligné Mark Stone dans les commentaires. Les années 60 ont été le théâtre de nombreuses recherches dans ce sens - Dvoretzky, Powell, Blum ont publié tous les résultats que nous prenons pour acquis aujourd'hui. Passer de la méthode de Robbins et Monro à la méthode de Kiefer Wolfowitz est un progrès relativement mineur, il ne s'agit que d'un recadrage du problème pour ensuite accéder à la descente de gradient stochastique (pour les problèmes de régression). Les documents ci-dessus sont largement cités comme étant les antécédents de la descente de gradient stochastique, comme mentionné dans ce document de synthèse de Nocedal, Bottou et Curtis , qui fournit une brève perspective historique du point de vue de l'apprentissage automatique.
Je crois que Kushner et Yin, dans leur livre Approximation stochastique et algorithmes et applications récursives, suggèrent que la notion avait été utilisée dans la théorie du contrôle dès les années 40, mais je ne me souviens pas s’ils en avaient cité une citation ou s’il en avait été question. anecdotique, je n'ai pas accès à leur livre pour le confirmer.
la source
Voir
Je ne suis pas sûr que SGD ait été inventé avant cela dans la littérature sur l'optimisation - c'était probablement le cas - mais je crois qu'il décrit ici une application de SGD pour former un perceptron.
Il appelle ces "deux types de renforcement".
Il fait également référence à un livre avec plus sur ces "systèmes bivalents".
la source