J'ai entendu Andrew Ng (dans une vidéo que je ne trouve malheureusement plus) parler de la façon dont la compréhension des minima locaux dans les problèmes d'apprentissage profond a changé en ce sens qu'ils sont maintenant considérés comme moins problématiques car dans les espaces de grande dimension (rencontrés dans apprentissage en profondeur) les points critiques sont plus susceptibles d'être des points de selle ou des plateaux que des minima locaux.
J'ai vu des papiers (par exemple celui-ci ) qui discutent des hypothèses selon lesquelles "chaque minimum local est un minimum global". Ces hypothèses sont toutes assez techniques, mais d'après ce que je comprends, elles ont tendance à imposer au réseau neuronal une structure qui le rend quelque peu linéaire.
Est-ce une affirmation valable que, dans l'apprentissage profond (y compris les architectures non linéaires), les plateaux sont plus susceptibles que les minima locaux? Et si oui, y a-t-il une intuition (éventuellement mathématique) derrière cela?
Y a-t-il quelque chose de particulier à propos de l'apprentissage en profondeur et des points de selle?
Réponses:
C'est simplement essayer de transmettre mon intuition, c'est-à-dire sans rigueur. Le truc avec les points de selle, c'est qu'ils sont un type d'optimum qui combine une combinaison de minima et de maxima. Étant donné que le nombre de dimensions est si important avec l'apprentissage en profondeur, la probabilité qu'un optimum se compose uniquement d'une combinaison de minima est très faible. Cela signifie que «rester coincé» dans un minimum local est rare. Au risque de simplifier à l'excès, il est plus difficile de «rester coincé» dans un point de selle car vous pouvez «glisser vers le bas l'une des dimensions». Je pense que la vidéo d'Andrew Ng à laquelle vous faites référence provient du cours Coursera sur le Deep Learning par lui.
la source
Permettez-moi de donner une explication basée sur le calcul multivarié. Si vous avez suivi un cours multivarié, vous aurez entendu que, étant donné un point critique (point où le gradient est nul), la condition pour que ce point critique soit minimum est que la matrice de Hesse soit définie positive. La toile de jute étant une matrice symétrique, nous pouvons la diagonaliser. Si nous écrivons la matrice diagonale correspondant à la Hesse comme: la Hesse étant définie positive est équivalente àd1>0,…,dn>0.
Mais qu'en est-il des maxima?
la source