Ceci est en référence à l'article Localisation efficace des objets utilisant des réseaux convolutionnels , et d'après ce que je comprends, le décrochage est implémenté en 2D.
Après avoir lu le code de Keras sur la façon dont le décrochage 2D spatial est implémenté, un masque binaire aléatoire de forme [batch_size, 1, 1, num_channels] est implémenté. Cependant, que fait exactement ce décrochage 2D spatial au bloc de convolution d'entrée de forme [batch_size, height, width, num_channels]?
Ma supposition actuelle est que pour chaque pixel, si l'un des calques / canaux du pixel a une valeur négative, les canaux entiers de ce pixel seront par défaut à zéro. Est-ce correct?
Cependant, si ma supposition est correcte, comment l'utilisation d'un masque binaire de forme [batch_size, height, width, num_channels] qui sont exactement dans la dimension du bloc d'entrée d'origine donne-t-elle la suppression habituelle par élément (c'est selon le l'implémentation de décrochage d'origine de tensorflow qui définit la forme du masque binaire comme la forme de l'entrée)? Parce que cela signifierait alors si un pixel du bloc conv est négatif, alors le bloc conv entier sera réglé par défaut sur 0. C'est la partie déroutante que je ne comprends pas très bien.
la source