Dans un récent post de blog de Rong Ge, il était dit que:
On pense que pour de nombreux problèmes, dont l’apprentissage de réseaux profonds, presque tous les minimums locaux ont une valeur fonctionnelle très proche de l’optimum global, et qu’il est donc suffisant de trouver un minimum local.
D'où vient cette croyance?
Réponses:
Un article récent, intitulé Les surfaces de perte des réseaux multicouches, offre quelques explications possibles. De leur résumé (gras est le mien):
Un grand nombre de personnes influentes dans l'apprentissage en profondeur (Yann LeCunn et Yoshua Bengio, pour n'en nommer que quelques-unes) et certains chercheurs relevant davantage de l'angle mathématique (Rong Ge et d'autres collaborateurs de Sanjeev Arora) ont discuté et ont exploré ces idées.
Dans l'article référencé ci-dessus, voir la figure 3, qui illustre un phénomène de bande / concentration des valeurs de minimum locales, car les réseaux comportent davantage d'unités cachées. Le regroupement / concentration représente une preuve empirique que, pour les modèles plus profonds ou plus grands, un minimum local est "assez bon", car leurs valeurs de perte sont à peu près similaires. Et surtout, leur perte est plus proche du minimum global à mesure que le modèle se complexifie (dans ce cas, plus large, mais plus profond dans la pratique).
En outre, ils utilisent un modèle en verre de spin, dont ils affirment même qu’ils ne sont qu’un modèle et ne sont pas nécessairement représentatifs de la réalité, pour montrer qu’atteindre le minimiseur global à partir d’un minimum local peut prendre une longueur exponentielle:
La recherche sur Rong Ge est centrée sur le franchissement de points de selle. Yoshua Bengio et ses collaborateurs ont posé une hypothèse assez audacieuse de Saddle Point:
source here: Identifier et s'attaquer au problème du point d'équilibre dans l'optimisation non convexe de grande dimension.
Dans une certaine mesure, les deux approches ci-dessus ne sont pas exactement les mêmes (l'hypothèse de Saddle Point pourrait interroger ce qui est réellement un minimum local et un point de selle mal conditionné avec une très longue région de plateau?). L’hypothèse de Saddle Point est qu’il est possible de concevoir des méthodes d’optimisation permettant de casser les points de selle, par exemple Saddle-Free Newton de l’article Bengio, afin d’accélérer potentiellement la convergence et même d’atteindre l’optimum global. Le premier article Multilayer Loss Surface n’a pas vraiment pour objectif d’atteindre l’optimum global, mais pense en réalité qu’il présente des propriétés de surapprentissage médiocres. Curieusement, les deux articles utilisent des idées issues de la physique statistique et des modèles de verre de spin.
Mais ils sont en quelque sorte liés dans le sens où les deux articles pensent que pour atteindre le minimiseur global, il faut surmonter le défi d'optimisation des points de selle. Le premier article pense simplement que les minima locaux suffisent.
Il est juste de se demander si les méthodes Momentum et d’autres nouveaux algorithmes d’optimisation permettant d’estimer certaines propriétés de courbure du deuxième ordre peuvent échapper aux points de selle. Une animation célèbre d'Alec Radford ici .
Pour répondre à votre question: "d'où vient cette croyance", je pense personnellement que cela vient du fait qu'il est possible d'utiliser différentes graines aléatoires pour apprendre différents poids, mais les réseaux correspondants ont des performances quantitatives similaires. Par exemple, si vous définissez deux semences aléatoires différentes pour l'initialisation du poids de Glorot, vous apprendrez probablement des poids différents, mais si vous vous entraînez à l'aide de méthodes d'optimisation similaires, les performances des moustiquaires seront similaires. Une croyance populaire répandue dans le folklore est que le paysage de l'optimisation est similaire à celui d'une boîte à œufs, un autre bon billet de blog à ce sujet: Plus de minima locaux? avec l'analogie de la boîte à œufs.
Edit: Je voulais juste préciser que l'analogie de la boîte à œufs n'est pas vraie, sinon il n'y aurait pas besoin de technique d'élan ou d'autres techniques d'optimisation plus avancées. Mais on sait que SGD ne fonctionne pas aussi bien que SGD + Momentum ou des algorithmes d'optimisation plus modernes, peut-être en raison de l'existence de points de selle.
la source