Dans le cas des filtres CNN sont appliqués à de petits correctifs d'une image à chaque emplacement possible (ce qui les rend également invariants par rapport à la traduction).
Les calques masqués de l'autoencodeur obtiennent l' image entière (sortie du calque précédent) comme entrée, ce qui ne semble pas être une bonne idée pour les images: généralement, seules les caractéristiques spatiales locales sont corrélées, tandis que les plus éloignées sont moins corrélées. De plus, ces neurones cachés ne sont pas invariants par rapport à la traduction.
Ainsi, les CNN sont comme des RNA habituels avec un type particulier de régularisation, qui met à zéro la plupart des pondérations pour utiliser la localité.