Les auto-encodeurs empilés et les réseaux de neurones multicouches sont différents. En pratique, vous aurez les deux réseaux partager des poids et éventuellement partager des tampons de mémoire. Ainsi, dans votre mise en œuvre, les deux réseaux se confondent.
En règle générale, les encodeurs automatiques sont formés de manière non supervisée, gourmande et par couche. (Pas d'étiquettes, commencez la formation avec seulement la première couche du réseau, puis ajoutez de nouvelles couches au fur et à mesure.) Les poids peuvent être appris en utilisant une variété de techniques allant de la descente de gradient "par lots" (veuillez ne pas le faire), à la descente de gradient stochastique en mini-lots (SGD), à des méthodes quasi-Newton comme L-BFGS.
L'idée est que les pondérations apprises de manière non supervisée pour minimiser les erreurs de reconstruction pour la tâche d'apprentissage de la représentation offrent un bon point de départ pour initialiser un réseau pour une tâche discriminante supervisée telle que la classification ou la similitude. C'est-à-dire que le réseau apprend quelque chose sur la distribution sous-jacente en examinant les données non étiquetées, lui permettant de faire la distinction entre les données étiquetées. Cependant, les poids doivent encore être «affinés» pour cette nouvelle tâche. Ajoutez donc une couche de régression logistique au sommet du réseau, puis effectuez un apprentissage supervisé avec un ensemble de données étiqueté. L'étape de réglage fin effectuera une descente de gradient et ajustera les poids pour toutes les couches du réseau simultanément.
Les avantages de cette façon de former les réseaux neuronaux sont:
- La formation non supervisée vous permet d'afficher plus de données sur le réseau, car il est beaucoup plus facile d'obtenir de grands ensembles de données non supervisés que d'en obtenir des étiquetés.
- Vous pouvez utiliser le réseau pré-formé comme «point de départ» pour former de nouveaux classificateurs afin de ne pas avoir à recommencer à zéro à chaque fois.
Pour l'article, voir Autoencoders de débruitage empilé: apprentissage de représentations utiles dans un réseau profond avec un critère de débruitage local .