Nous définissons une architecture de goulot d'étranglement comme le type trouvé dans le document ResNet où [deux couches conv 3x3] sont remplacées par [une conv 1x1, une conv 3x3 et une autre couche conv 1x1].
Je comprends que les couches conv 1x1 sont utilisées comme une forme de réduction de dimension (et de restauration), ce qui est expliqué dans un autre article . Cependant, je ne sais pas pourquoi cette structure est aussi efficace que la disposition d'origine.
Voici quelques bonnes explications: quelle longueur de foulée est utilisée et à quelles couches? Quels sont les exemples de dimensions d'entrée et de sortie de chaque module? Comment les cartes d'entités 56x56 sont-elles représentées dans le diagramme ci-dessus? Le 64-d fait-il référence au nombre de filtres, pourquoi est-ce différent des filtres 256-d? Combien de poids ou de FLOP sont utilisés à chaque couche?
Toute discussion est grandement appréciée!
la source
Réponses:
L'architecture de goulot d'étranglement est utilisée dans les réseaux très profonds en raison de considérations de calcul.
Pour répondre à vos questions:
Les cartes d'entités 56x56 ne sont pas représentées dans l'image ci-dessus. Ce bloc provient d'un ResNet avec une taille d'entrée 224x224. 56x56 est la version sous-échantillonnée de l'entrée sur une couche intermédiaire.
64-d fait référence au nombre de cartes d'entités (filtres). L'architecture de goulot d'étranglement a 256-d, tout simplement parce qu'elle est destinée à un réseau beaucoup plus profond, qui peut éventuellement prendre une image de résolution plus élevée en entrée et donc nécessiter plus de cartes de fonctionnalités.
Reportez - vous à cette figure pour les paramètres de chaque couche de goulot d'étranglement dans ResNet 50.
la source
Je pense vraiment que le deuxième point de la réponse de Newstein est trompeur.
Le
64-d
ou256-d
doit faire référence au nombre de canaux de la carte d'entités en entrée - et non au nombre de cartes d'entités en entrée.Considérez le bloc "goulot d'étranglement" (à droite de la figure) dans la question du PO à titre d'exemple:
256-d
signifie que nous avons une seule carte d'entités en entrée avec dimensionn x n x 256
. Le1x1, 64
dans la figure signifie des64
filtres , chacun est1x1
et a des256
canaux (1x1x256
).1x1x256
) avec une carte de caractéristiques d'entrée (n x n x 256
) nous donne unen x n
sortie.64
filtres, donc, en empilant les sorties, la dimension de la carte d'entités en sortie estn x n x 64
.Édité:
la source