Quelle est la différence entre un champ réceptif et une carte d'entités?

9

Dans un CNN, le champ récepteur est la partie de l'image utilisée pour calculer la sortie du filtre. Mais la sortie d'un filtre (qui est également appelée "carte d'entités") est l'entrée du filtre suivant.

Quelle est la différence entre un champ réceptif et une carte d'entités?

Monica Heddneck
la source

Réponses:

4

Champ receptif

Le champ réceptif , dans le contexte de la mécanique CNN, est la plage discrète d'entrée sélectionnée comme entrée pour le noyau de convolution d'une couche spécifique. La portée d'un champ récepteur est fonction à la fois de la position et de la taille. La plage s'applique à une ou plusieurs dimensions. 1

  • Horizontal
  • Verticale
  • Index de trame
  • Incrément de temps
  • Indice de couche de pixels
  • Autres dimensions

La position du champ récepteur varie systématiquement pour sélectionner un sous-ensemble de la gamme d'indices dans chaque dimension pour couvrir la gamme complète. 2 La taille est adaptée à l'entrée du noyau opérant sur lui et donc normalement constante. 3

Ce sont les trois caractéristiques qui définissent les champs récepteurs dans les CNN.

  • Spécifie la plage d'indices sélectionnés pour l'entrée dans le noyau de convolution en termes de position et de taille d'index
  • La taille de la plage d'index dans chaque dimension (généralement impaire et inférieure à 20) correspond aux caractéristiques de taille d'entrée du noyau
  • La position de la plage d'index dans chaque dimension, systématiquement modifiée pour couvrir toute la gamme d'informations dans toutes les dimensions, généralement modifiée par incréments fixes

Notez que le terme champ réceptif provient des limites de la représentation du signal du champ visuel capturé dans les systèmes biologiques. Dans ce contexte, le terme champ réceptif fait référence à la plage géométrique acquise par le biais de dispositifs d'imagerie ou d'organes. Tout comme un œil peut balayer un paysage, la sélection d'une position dans le champ total d'informations se produit dans la conception CNN.

Le point commun entre le biologique et l'artificiel est l'utilisation de la variation du centre d'attention sur l'espace sensoriel total.

Carte des entités en tant que représentation des entités extraites

Le terme Feature Map dans ce contexte est une carte représentant les caractéristiques extraites par une ou plusieurs couches de convolution. Le terme peut être utilisé de manière inexacte pour la sortie intermédiaire des noyaux, mais notez que la sortie des couches intermédiaires avant les couches qui sont regroupées ne représente pas encore directement des caractéristiques. À ces étapes, l'extraction est incomplète, il n'y a donc pas de relation directe entre les valeurs et les caractéristiques.

Le terme mappage d'entités est le plus utilisé pour décrire la sortie de la dernière couche de regroupement dans une section de couches CNN. Cette section peut se trouver dans une séquence de sections CNN ou peut autrement être des composants dans une architecture système plus large.

Voici des exemples de mappages de fonctionnalités.

  • Bords
  • Apparition ou disparition (domaine temporel)
  • Éléments d'objet
  • Trajectoire de mouvement
  • Zoom
  • Objets
  • Actions

Dans cette utilisation du terme, la cartographie des entités est relative aux dimensions de l'information, l'espace de position sur lequel le noyau a été appliqué.

Carte d'entités en tant que représentation d'une transformation dans l'espace Hilbert discret

Lorsque le terme entité de carte est appliquée à la cartographie réalisée par une ou un ensemble de couches CNN, les caractéristiques à la sortie sont mises en correspondance à l'entrée, sans positions. Dans ce contexte, la cartographie est la transformation du tenseur dans l'espace Hilbert. Notez que la carte n'est pas une représentation du signal mais la représentation de la transformation, du noyau et de ses paramètres appris dans leur état actuel.

Pour lever l'ambiguïté de ce contexte par rapport au précédent, il peut être utile d'utiliser le terme mappage d' entités pour indiquer une transformation tensorielle plutôt que la sortie d'une telle transformation.

Chevauchement des conditions

Lorsque la sortie d'une section de convolution contient une carte d'entités et est introduite dans une autre couche ou section de convolution, la carte d'entités d'une section devient l'espace complet sur lequel le champ récepteur sélectionne le sous-ensemble d'informations à alimenter dans le noyau suivant comme contribution.

Notez qu'une carte d'entités est un signal complet représentant toutes les données dans sa section du réseau, où en tant que champ récepteur est le plus souvent un sous-ensemble du signal complet appliqué plusieurs fois pour couvrir toute la largeur du signal dans plusieurs dimensions.

Les deux termes ne sont synonymes dans aucun contexte mais simplement liés par la théorie et la pratique.

Notes de bas de page

[1] La position et la taille sont spécifiées dans chacune des dimensions dans , où .nInn1

[2] La sélection des plages dans chaque dimension peut être effectuée via des algorithmes de bouclage ou via des solutions matérielles qui effectuent des opérations de fenêtrage avec des circuits DSP ou GPU, éventuellement via des opérations RISC parallèles contrôlées par matériel ou micrologiciel.

[3] Les indices d'exemple et d'époque peuvent être délimités de manière similaire dans certains modèles CNN, mais ces indices ne sont pas, au sens habituel du terme, considérés comme faisant partie des champs récepteurs. Seules les dimensions de chaque exemple le sont. En outre, les indices de flux d'entrée, tels que l'identifiant de la caméra, ne sont généralement pas inclus en tant que dimension dans un champ récepteur.

Douglas Daseeco
la source
3

J'espère que cette illustration vous aidera:

Champ (s) récepteur (s) : il s'agit d'une petite partie de l'entrée destinée à produire un seul nœud dans une carte d'entités .

Carte (s) d'entités : est une sortie de processus convolutionnelle, une carte d'entités peut être dite comme une représentation d'entités de l'entrée du filtre. Une carte des fonctionnalités se compose de plusieurs sorties de filtre (provenant de différents champs récepteurs) d'un même noyau. Le nombre de cartes de fonctionnalités dépend du numéro du noyau.

Ainsi, même les cartes d'entités sont l'entrée du filtre suivant, mais les prochains champs récepteurs ne sont pas une carte d'entités. Le champ récepteur suivant se compose d'un petit noeud de portion de différentes cartes d'entités (pas seulement une carte d'entités).

Et aussi, nous pouvons voir sur l'illustration ci-dessus, une carte d'entités a une taille bidimensionnelle , puis une taille de champ récepteur sera toujours tridimensionnelle .(46×46)(5×5×Number Of Feature Maps)

Malioboro
la source