Dans le document Faster RCNN, lorsque l'on parle d'ancrage, que signifient-ils en utilisant des «pyramides de boîtes de référence» et comment cela se fait-il? Cela signifie-t-il simplement qu'à chacun des points d'ancrage W * H * k, une boîte englobante est générée?
Où W = largeur, H = hauteur et k = nombre de proportions * échelles numériques
lien vers le papier: https://arxiv.org/abs/1506.01497
deep-learning
computer-vision
BadProgrammer
la source
la source
Réponses:
Les ancres expliquées
Ancres
Les ancres apparaissent réellement dans la fonction de perte
Lors de la formation du RPN, une étiquette de classe binaire est d'abord attribuée à chaque ancre. Les ancres avec intersection sur union ( IoU ) se chevauchent avec une boîte de vérité au sol, supérieure à un certain seuil, se voient attribuer une étiquette positive (de même les ancres avec des IoU inférieures à un seuil donné seront étiquetées négatives). Ces étiquettes sont en outre utilisées pour calculer la fonction de perte:
Notez également que les ancres sans étiquette ne sont ni classées ni remodelées et le RPM les jette simplement hors des calculs. Une fois le travail du RPN terminé et les propositions générées, le reste est très similaire aux Fast R-CNN.
la source
J'ai lu cet article hier et, à première vue, cela me déroutait aussi. Après avoir relu, je suis arrivé à cette conclusion:
7x7x512 (HxWxD)
.3x3
couche conv. La taille de sortie est7x7x512
(si un remplissage est utilisé).7x7x(2k+4k)
(par exemple7x7x54
) avec une1x1
couche conv pour chacune desk
boîtes d'ancrage.Maintenant, selon la figure 1 du document, vous pouvez avoir une pyramide d'images d'entrée (les mêmes images avec une échelle différente), une pyramide de filtres (filtres d'une échelle différente, dans la même couche) ou une pyramide de boîtes de référence. Ce dernier fait référence aux
k
boîtes d'ancrage de la dernière couche du réseau de propositions de région. Au lieu de filtres de tailles différentes qui sont empilés les uns sur les autres (le boîtier central), les filtres de taille et de rapport d'aspect différents sont empilés les uns sur les autres.En bref, pour chaque point d'ancrage (
HxW
par exemple7x7
), une pyramide de boîtes de référence (k
par exemple9
) est utilisée.la source
3x3
traduit une couche conv7x7
? Dans le prototxt, il est indiqué que le remplissage est de 1 sur la dernière couche VGG16.