Les réseaux résiduels sont-ils liés à l'augmentation du gradient?

11

Récemment, nous avons vu l'émergence du réseau neuronal résiduel, dans lequel, chaque couche se compose d'un module de calcul et d'une connexion de raccourci qui préserve l'entrée de la couche telle que la sortie de la ième couche présente: Le réseau permet d'extraire les caractéristiques résiduelles et permet une profondeur plus profonde tout en étant plus robuste au problème du gradient de fuite, atteignant des performances de pointe. $c_i$

y_{i + 1} = c_{i} + y_{i}

$y_{i+1} = c_i + y_i$

Après avoir plongé dans le boosting de gradient , une technique d'assemblage très puissante dans le monde de l'apprentissage automatique, qui semble également effectuer une forme d'optimisation de gradient sur le résidu de la perte, il est difficile de ne pas voir une certaine forme de similitude.

Je sais qu'ils sont similaires mais pas les mêmes - une différence majeure que j'ai remarquée est que le boost de gradient effectue une optimisation sur le terme additif tandis que le filet résiduel, optimise l'ensemble du réseau.

Je n'ai pas vu He et al noter cela comme faisant partie de leur motivation dans leur article original . Je me demandais donc quels étaient vos points de vue sur ce sujet et je vous demandais de partager les ressources intéressantes dont vous disposez.

Je vous remercie.

machine-learning neural-networks deep-learning gradient-descent residual-networks rhadar
la source

7

Potentiellement un article plus récent qui tente de répondre à une plus grande partie de celui-ci de l'équipe de Langford et Shapire: Apprendre les blocs Deep ResNet séquentiellement en utilisant la théorie de la stimulation

Les parties d'intérêt sont (voir section 3):

La principale différence est que l'amplification est un ensemble d'hypothèses estimées alors que ResNet est un ensemble de représentations d' estimées . Pour résoudre ce problème, nous introduisons un classificateur linéaire auxiliaire au-dessus de chaque bloc résiduel pour construire un module d'hypothèse . Formellement, un module d'hypothèse est défini comme $\sum_{t=0}^T f_t(g_t(x))$ $\mathbf{w}_t$
$o_{t} (x) := w_{t}^{T} g_{t} (x) \in R$ $o_t(x) := \mathbf{w}_t^T g_t(x) \in \mathbb{R}$

...

(où) $o_t(x) = \sum_{{t'} = 0}^{t-1} \mathbf{w}_t^T f_{t'}(g_{t'}(x))$

Le papier va beaucoup plus en détail autour de la construction du classificateur de module faible et comment cela s'intègre avec leur algorithme BoostResNet . $h_t(x)$

En ajoutant un peu plus de détails à cette réponse, tous les algorithmes de boosting peuvent être écrits sous une forme de [1] (p 5, 180, 185 ...):

F_{T} (x) := \sum_{t = 0}^{T} α_{t} h_{t} (x)

$F_T(x) := \sum_{t=0}^T \alpha_t h_t(x)$

Où est l' hypothèse faible , pour un certain choix de . Notez que différents algorithmes de boosting produiront et de différentes manières. $h_t$ $t^{th}$ $\alpha_t$ $\alpha_t$ $h_t$

Par exemple, AdaBoost [1] (p 5.) utilise pour minimiser l'erreur pondérée avec $h_t$ $\epsilon_t$ $\alpha_t = \frac{1}{2} \log \frac{1- \epsilon_t}{\epsilon_t}$

D'un autre côté, dans le réglage d'accentuation du gradient [1] (p 190.), est sélectionné pour maximiser et est choisi (comme taux d'apprentissage, etc.) $h_t$ $\nabla\mathcal{L}(F_{t-1}(x)) \cdot h_t$ $\alpha_t > 0$

Où, comme dans [2] sous le lemme 3.2, il est montré que la sortie de depth- ResNet est qui est équivalente à $T$ $F(x)$

F (x) \propto \sum_{t = 0}^{T} h_{t} (x)

$F(x) \propto \sum_{t=0}^T h_t(x)$

cela complète la relation entre le renforcement et la réinitialisation. L'article [2] propose d'ajouter une couche linéaire auxiliaire pour la mettre sous la forme , ce qui conduit à leur algorithme BoostResNet et à une discussion à ce sujet. $F_T(x) := \sum_{t=0}^T \alpha_t h_t(x)$

[1] Robert E. Schapire et Yoav Freund. 2012. Boosting: Foundations and Algorithms. La presse du MIT. p 5, 180, 189
[2] Furong Huang, Jordan Ash, John Langford, Robert Schapire: Apprendre les blocs Deep ResNet en utilisant séquentiellement la théorie du boosting, ICML 2018

chappers
la source

4

Répondre à ma propre question: j'ai trouvé un article remarquable qui enquête et prouve que les réseaux résiduels profonds sont en effet un ensemble de réseaux peu profonds.

UNE AUTRE MODIFICATION, après avoir mieux compris ce problème: je considère les resnets comme un moyen d'apprendre le `` renforcement des fonctionnalités ''. La connexion résiduelle effectue un boost mais pas sur l'objectif mais en fait sur les caractéristiques de sortie de la couche suivante. Donc, ils sont en fait connectés, mais ce n'est pas un renforcement de dégradé classique, mais en fait, un `` renforcement des fonctionnalités de dégradé ''.

rhadar
la source

Les réseaux résiduels sont-ils liés à l'augmentation du gradient?

Réponses: