Qu'est-ce qu'un bloc d'apprentissage résiduel dans le contexte des réseaux résiduels profonds dans l'apprentissage profond?

12

Je lisais le document Deep Residual Learning for Image Recognition et j'avais du mal à comprendre avec 100% de certitude ce qu'implique un bloc résiduel sur le plan informatique. En lisant leur article, ils ont la figure 2:

entrez la description de l'image ici

qui illustre ce qu'est un bloc résiduel. Le calcul d'un bloc résiduel est-il simplement le même que:

y=σ(W2σ(W1x+b1)+b2+x)

Ou s'agit-il d'autre chose?

En d'autres termes, peut-être pour essayer de faire correspondre la notation du papier, c'est:

F(x)+x=[W2σ(W1x+b1)+b2]+x

Est-ce vrai?

y

σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x)

σ

Charlie Parker
la source
is x is positive relu (x) = x
Ray Tayek

Réponses:

5

Oui c'est vrai, vous pouvez jeter un oeil à leur modèle caffe pour voir comment il est mis en œuvre.

dontloo
la source