J'ai vu des tracés d'erreur de test / formation chuter soudainement à certaines époques pendant la formation du réseau neuronal, et je me demande ce qui cause ces sauts de performances:
Cette image est tirée de Kaiming He Github, mais des intrigues similaires apparaissent dans de nombreux journaux.
conv-neural-network
libphy
la source
la source
Réponses:
Ils ont changé le rythme d'apprentissage. Notez que la baisse est à exactement 30 et 60 époques, évidemment réglée manuellement par quelqu'un.
la source
Pensez au «paysage d'optimisation». Par exemple, si vous aviez un réseau avec seulement deux poids, vous pouvez tracer toutes les combinaisons de ces deux poids sur une surface, où la hauteur à chaque point représente la quantité d'erreur renvoyée par votre fonction de coût si vous l'utilisez (x, y ) coordonner comme vos deux poids. Vous essayez de vous déplacer vers le point le plus bas de cette surface pour obtenir le niveau d'erreur le plus bas.
Le problème est parfois que la surface peut devenir assez folle, en particulier dans les réseaux avec des millions de paramètres au lieu de deux. Vous pouvez vous retrouver coincé dans des points de selle où les progrès sont ralentis, puis soudainement tiré en arrière dans une colline descendante.
Voici une animation pour vous aider à visualiser cela. Comme vous pouvez le voir, les algorithmes de descente de gradient les plus basiques se coincent dans ces positions beaucoup plus facilement.
Il peut également y avoir d'autres causes à cela, mais c'est celle dont vous entendez le plus souvent parler. Il est possible qu'un réseau puisse avoir un tas d'unités recevant des activations saturées (ou dans le cas de relu, une unité qui n'est activée que par un très petit nombre d'entrées de formation), et lorsqu'une unité sort de la saturation, elle déclenche une réaction en chaîne qui déplace le reste de la saturation et les poids reçoivent soudainement une augmentation du flux de gradient? Je n'ai rien examiné de tel, mais je serais intéressé si quelqu'un avait d'autres raisons à ajouter.
la source