En lisant les articles de segmentation sémantique ainsi que leurs implémentations correspondantes, j'ai constaté que certaines approches utilisent softmax tandis que d'autres utilisent sigmoid pour l'étiquetage au niveau des pixels.
Par exemple, en ce qui concerne le papier u-net , la sortie est une carte d'entités à deux canaux.
J'ai vu quelques implémentations utilisant softmax sur ces deux sorties de canal. Je ne sais pas si ma compréhension suivante est correcte ou non?
À des fins d'illustration, la partie masquée appartient à la classe 1 et l'autre partie appartient à la classe 2. Je suppose que deux classes: masquée ou non masquée.
J'utilise xy
pour représenter la carte de sortie avec une forme (1, image_row, image_col, 2). Ensuite, xy[1,0,0,0]
représentera la probabilité de pixel à (0,0) appartenant à la classe 1 tandis que xy[1,0,0,1]
représentera la probabilité de pixel (0,0) appartenant à la classe 2. En d'autres termes,xy[1,row,col,0]+xy[1,row,col,1]=1
Ma compréhension est-elle correcte?