Comment déterminer le nombre d'opérateurs convolutifs dans CNN?

Dans les tâches de vision par ordinateur, telles que la classification d'objets, avec les réseaux de neurones convolutionnels (CNN), le réseau offre une performance attrayante. Mais je ne sais pas comment configurer les paramètres dans les couches convolutives. Par exemple, une image en niveaux de gris ( 480x480), la première couche convolutionnelle peut utiliser un opérateur convolutionnel comme 11x11x10, où le nombre 10 signifie le nombre d'opérateurs convolutionnels.

La question est de savoir comment déterminer le nombre d'opérateurs convolutifs dans CNN?

neural-networks deep-learning conv-neural-network computer-vision Zhi Lu
la source

Réponses:

Je suppose que lorsque vous dites 11x11x10que vous voulez dire que vous avez un calque avec des filtres 10, 11x11. Ainsi, le nombre de convolutions que vous effectuerez est simplement de 10, convolution discrète 2D par filtre dans votre banque de filtres. Alors disons que vous avez un réseau:

480x480x1    # your input image of 1 channel
11x11x10     # your first filter bank of 10, 11x11 filters
5x5x20       # your second filter bank of 20, 5x5 filters
4x4x100      # your final filter bank of 100, 4x4 filters

Vous allez faire: convolutions 2D multicanaux chacune avec une profondeur de 1, 10 et 20 respectivement. Comme vous pouvez le voir, la profondeur de chaque convolution va changer en fonction de la profondeur du volume d'entrée de la couche précédente. $10 + 20 + 100 = 130$

Mais je suppose que vous essayez de comprendre comment comparer cela à une convolution 2D à un seul canal. Eh bien, vous pouvez simplement multiplier la profondeur de chaque volume d'entrée par le nombre de filtres dans chaque couche et les ajouter ensemble. Dans votre cas: . $10 + 200 + 2000 = 2,210$

Maintenant , ce calcul l'intensité de chaque convolution vous indique que le nombre seul canal 2D convolutions que vous faites, comment chaque convolution intensive est informatiquement, dépendra de divers paramètres , y compris image_size, image_depth, filter_size, votre stride(jusqu'où vous pas entre chaque individu calcul du filtre), le nombre de couches de regroupement dont vous disposez, etc.

sabalaba
la source