Supposons que vous ayez une couche d'entrée avec n neurones et que la première couche cachée ait neurones, avec typiquement . Ensuite, vous calculez l'activation du ème neurone dans la couche cachée par
, où est une fonction d'activation comme ou .
Pour entraîner le réseau, vous calculez la reconstruction de l'entrée, notée , et minimisez l'erreur entre et . Maintenant, le ème élément de est généralement calculé comme suit:
Je me demande pourquoi les reconstruits sont généralement calculés avec la même fonction d'activation au lieu d'utiliser la fonction inverse, et pourquoi les et séparés sont utiles au lieu d'utiliser des poids et des biais liés? Il me semble beaucoup plus intuitif de calculer le reconstruit avec la fonction d'activation inverse , par exemple, , comme suit:
Notez que les poids liés ici sont utilisés, c'est-à-dire , et les biais de la couche cachée sont utilisés, au lieu d'introduire un ensemble supplémentaire de biais pour la couche d'entrée.
Et une question très connexe: pour visualiser les caractéristiques, au lieu de calculer la reconstruction, on créerait généralement une matrice d'identité avec la dimension de la couche cachée. Ensuite, on utiliserait chaque colonne de la matrice comme entrée d'une fonction de réactivation, qui induit une sortie dans les neurones d'entrée. Pour la fonction de réactivation, serait-il préférable d'utiliser la même fonction d'activation (resp. Le ) ou la fonction inverse (resp. Le )?
la source