Récemment, nous avons vu l'émergence du réseau neuronal résiduel, dans lequel, chaque couche se compose d'un module de calcul et d'une connexion de raccourci qui préserve l'entrée de la couche telle que la sortie de la ième couche présente: Le réseau permet d'extraire les caractéristiques résiduelles et permet une profondeur plus profonde tout en étant plus robuste au problème du gradient de fuite, atteignant des performances de pointe.
Après avoir plongé dans le boosting de gradient , une technique d'assemblage très puissante dans le monde de l'apprentissage automatique, qui semble également effectuer une forme d'optimisation de gradient sur le résidu de la perte, il est difficile de ne pas voir une certaine forme de similitude.
Je sais qu'ils sont similaires mais pas les mêmes - une différence majeure que j'ai remarquée est que le boost de gradient effectue une optimisation sur le terme additif tandis que le filet résiduel, optimise l'ensemble du réseau.
Je n'ai pas vu He et al noter cela comme faisant partie de leur motivation dans leur article original . Je me demandais donc quels étaient vos points de vue sur ce sujet et je vous demandais de partager les ressources intéressantes dont vous disposez.
Je vous remercie.