Qu'est-ce que la pré-formation et comment pré-former un réseau neuronal?

10

Je comprends que la formation préalable est utilisée pour éviter certains des problèmes liés à la formation conventionnelle. Si j'utilise la rétropropagation avec, par exemple un encodeur automatique, je sais que je vais rencontrer des problèmes de temps car la rétropropagation est lente, et aussi que je peux rester coincé dans les optima locaux et ne pas apprendre certaines fonctionnalités.

Ce que je ne comprends pas, c'est comment pré-former un réseau et ce que nous faisons spécifiquement pour pré-former. Par exemple, si on nous donne une pile de machines Boltzmann restreintes, comment pourrions-nous pré-former ce réseau?

Michael Yousef
la source
2
À moins que vous ne soyez dans un environnement avec seulement quelques échantillons étiquetés et de nombreux échantillons non étiquetés, la pré-formation est considérée comme obsolète. Si ce n'est pas le cas, l'utilisation d'une fonction de transfert de redresseur et d'optimiseurs avancés (rmsprop, adadelta, adam) fonctionne aussi bien pour les réseaux de neurones profonds. f(x)=max(x,0)
bayerj
Oui, je travaille en supposant qu'il y a une grande quantité d'échantillons non étiquetés et peu ou pas d'échantillons étiquetés.
Michael Yousef

Réponses:

2

Vous commencez par entraîner chaque RBM dans la pile séparément, puis vous combinez en un nouveau modèle qui peut être affiné davantage.

Supposons que vous ayez 3 RBM, vous entraînez RBM1 avec vos données (par exemple un tas d'images). RBM2 est formé avec la sortie de RBM1. RBM3 est formé avec la sortie de RBM2. L'idée est que chaque modèle RBM présente des caractéristiques représentatives des images et les poids qu'ils apprennent en le faisant sont utiles dans d'autres tâches discriminantes comme la classification.

mnagaraj
la source
0

La pré-formation d'un RBM empilé consiste à minimiser goulûment par couche l'énergie définie, c'est-à-dire à maximiser la probabilité. G. Hinton a proposé l'algorithme CD-k, qui peut être considéré comme une seule itération de l'échantillonnage de Gibbs.

Mou
la source
Ainsi, la pré-formation de la RBM empilée nous permet de minimiser l'énergie définie et d'obtenir de meilleurs résultats. Et puis l'algorithme de divergence contrastée de Hinton est la façon dont nous pré-formerions réellement. Comment la pré-formation prend-elle en compte l'apprentissage de fonctionnalités supplémentaires? Je suppose que pour le problème de vitesse, l'algorithme CD est beaucoup plus rapide que la rétropropagation.
Michael Yousef