Dans la formation de réseaux de neurones profonds et peu profonds, pourquoi les méthodes de gradient (par exemple descente de gradient, Nesterov, Newton-Raphson) sont-elles couramment utilisées, par opposition à d'autres métaheuristiques?
Par métaheuristique, j'entends des méthodes telles que le recuit simulé, l'optimisation des colonies de fourmis, etc., qui ont été développées pour éviter de rester coincé dans un minimum local.
Réponses:
Prolonger la réponse de @Dikran Marsupial ....
Anna Choromanska et ses collègues du groupe de Yan LeCunn à NYU, abordent cette question dans leur article AISTATS 2014 "La surface de perte des filets multicouches" . En utilisant la théorie de la matrice aléatoire, ainsi que certaines expériences, ils soutiennent que:
De ce point de vue, il n'y a pas de bonne raison de déployer des approches lourdes pour trouver le minimum mondial. Ce temps serait mieux utilisé pour essayer de nouvelles topologies de réseau, fonctionnalités, ensembles de données, etc.
Cela dit, beaucoup de gens ont pensé à augmenter ou à remplacer SGD. Pour des réseaux assez petits (selon les normes contemporaines), ces métahuristiques améliorées semblent faire quelque chose Mavrovouniotis et Yang (2016) montrent que l'optimisation des colonies de fourmis + backprop bat backprop non modifié sur plusieurs ensembles de données de référence (bien que pas beaucoup). Rere el al. (2015) utilisent le recuit simulé pour former un CNN et constatent qu'il fonctionne initialement mieux sur l'ensemble de validation. Après 10 époques, cependant, il ne reste qu'une très petite différence (et non testée pour la signification) dans les performances. L'avantage de convergence par époque plus rapide est également compensé par un temps de calcul considérablement plus long par époque, ce n'est donc pas une victoire évidente pour le recuit simulé.
Il est possible que ces heuristiques fassent un meilleur travail d'initialisation du réseau et une fois qu'il a été dirigé vers le bon chemin, n'importe quel optimiseur fera l'affaire. Sutskever et al. (2013) du groupe de Geoff Hinton soutiennent quelque chose comme ça dans leur article ICML 2013 .
la source
Les minima locaux ne sont pas vraiment un problème aussi important avec les réseaux neuronaux que cela est souvent suggéré. Certains minima locaux sont dus à la symétrie du réseau (c'est-à-dire que vous pouvez permuter les neurones cachés et quitter la fonctiondu réseau inchangé. Il suffit de trouver de bons minima locaux plutôt que des minima globaux. Comme il arrive que l'optimisation agressive d'un modèle très flexible, tel qu'un réseau de neurones, soit susceptible de constituer une recette pour sur-ajuster les données, l'utilisation par exemple d'un recuit simulé pour trouver les minima globaux du critère de formation est susceptible de donner un réseau de neurones avec pire performance de généralisation que celle entraînée par la descente de gradient qui aboutit à un minimum local. Si ces méthodes d'optimisation heuristique sont utilisées, je conseillerais d'inclure un terme de régularisation pour limiter la complexité du modèle.
... ou alternativement utiliser par exemple une méthode du noyau ou un modèle de fonction de base radiale, ce qui est susceptible d'être moins problématique.
la source