Comment les noyaux sont-ils appliqués aux cartes de caractéristiques pour produire d'autres cartes de caractéristiques?

44

J'essaie de comprendre la partie convolution des réseaux de neurones convolutionnels. En regardant la figure suivante:

entrez la description de l'image ici

Je n'ai aucun problème à comprendre la première couche de convolution où nous avons 4 noyaux différents (de taille ), que nous convolrons avec l'image d'entrée pour obtenir 4 cartes de caractéristiques.k×k

Ce que je ne comprends pas, c’est la couche de convolution suivante, où nous passons de 4 cartes de caractéristiques à 6 cartes de caractéristiques. Je suppose que nous avons 6 noyaux dans cette couche (donnant par conséquent 6 cartes de caractéristiques en sortie), mais comment ces noyaux fonctionnent-ils sur les 4 cartes de caractéristiques présentées en C1? Les noyaux sont-ils en 3 dimensions ou en 2 dimensions et sont-ils répliqués sur les 4 cartes de caractéristiques en entrée?

utdiscant
la source
1
Je suis coincé au même endroit. Malheureusement, le document de Yann Lecun n’explique pas cela aussi. J'ai visionné plusieurs fichiers PDF et vidéos de ces derniers jours et tout le monde semble passer à côté de cette partie. L'article de Yann Lecun parle en réalité de 6 à 16 cartes de caractéristiques avec un tableau de mappage dans la couche 2. La carte de caractéristiques en sortie est saisie à partir de 0,1,2 cartes de caractéristiques en entrée. Mais la carte de caractéristiques de sortie est de 10 sur 10, les 3 cartes de caractéristiques de 14 à 14. Alors, comment cela a-t-il fonctionné? Avez-vous compris ce qui se passe? Est-ce un noyau 3D? ou fait-il la moyenne des sorties de l'emplacement * kernel (convolution)?
Run2

Réponses:

18

Les noyaux sont tridimensionnels, la largeur et la hauteur pouvant être choisies, tandis que la profondeur est égale au nombre de cartes de la couche d'entrée - en général.

Elles ne sont certainement pas bidimensionnelles et ne sont pas répliquées sur les cartes d'entités en entrée au même endroit en 2D! Cela signifierait qu'un noyau ne serait pas capable de faire la distinction entre ses entités en entrée à un emplacement donné, car il utiliserait le même poids sur les cartes d'entités en entrée!

Angelorf
la source
5

Il n'y a pas nécessairement de correspondance individuelle entre les couches et les noyaux. Cela dépend de l'architecture particulière. Le chiffre que vous avez posté suggère que dans les couches S2, vous avez 6 cartes de caractéristiques, chacune combinant toutes les cartes de caractéristiques des couches précédentes, c.-à-d. Différentes combinaisons possibles des caractéristiques.

Sans plus de références, je ne peux pas en dire plus. Voir par exemple ce papier

jpmuc
la source
Je regarde en particulier LeNet-5, et je me base sur ce deeplearning.net/tutorial/lenet.html . Il semble à partir de cette page, que les noyaux sont en 3 dimensions, mais ce n'est pas clair à 100% pour moi.
Utdiscant
2
Vous devez alors lire cet article ( yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf ). À la page 8, il est décrit comment les différentes couches sont connectées. Comme je l'ai dit, chaque couche à la couche combine plusieurs caractéristiques de la couche précédente au même endroit.
Jpmuc
2
Le lien est mort.
juil
2

Le tableau 1 et la section 2a de "L'apprentissage par gradients appliqué à la reconnaissance de documents" de Yann LeCun expliquent bien cette situation: http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf Toutes les régions de la convolution 5x5 ne sont pas utilisé pour générer la 2ème couche convolutionnelle.

Travis Desell
la source
0

Cet article peut être utile: Comprendre la convolution dans l'apprentissage en profondeur par Tim Dettmers du 26 mars

Il ne répond pas vraiment à la question car il explique uniquement la première couche de convolution, mais contient une bonne explication de l'intuition de base sur la convolution dans les CNN. Il décrit également une définition mathématique plus profonde de la convolution. Je pense que c'est lié au sujet de la question.

Anatoly Vasilyev
la source
1
Bienvenue sur le site. Nous essayons de créer un référentiel permanent d'informations statistiques de haute qualité sous forme de questions et réponses. Ainsi, nous nous méfions des réponses de lien seulement, en raison de linkrot. Pouvez-vous poster une citation complète et un résumé des informations sur le lien, au cas où il disparaîtrait?
gung - Réintégrer Monica
@gung, merci pour la notification, désolé de mal comprendre les concepts. La situation est la suivante: cet article ne répond pas vraiment à la question, mais lorsque je cherchais une intuition de base sur CNN, j’ai trouvé cette question et j’espérais aider avec cet article à quelqu'un qui cherche aussi une intuition de base et a obtenu cette question. Ok, mieux vaut le supprimer, oui? Merci.
Anatoly Vasilyev
Je pense qu'il serait bon de dire: "Cet article peut servir de matière à réflexion, mais ne répond pas complètement à la question", ou quelque chose du genre. Il pourrait bien y avoir de la valeur ici. Il suffit de donner une citation complète et un résumé des informations contenues, au cas où le lien disparaîtrait.
Gay - Rétablir Monica
Merci pour l'information supplémentaire. Pouvez-vous fournir une citation complète de l'article (auteur, année, titre, revue, etc.) et un résumé de son contenu?
gung - Rétablir Monica
@gung oui, bien sûr. Mais il semble que cet article ne figure que dans ce blog, je ne pouvais donc trouver aucune autre information utile à ce sujet. Merci d'avoir clarifié mon point de vue
Anatoly Vasilyev Le