J'étudie la machine Boltzmann restreinte (RBM) et j'ai des problèmes pour comprendre les calculs de vraisemblance des journaux par rapport aux paramètres de la RBM. Même si de nombreux articles de recherche sur la GAR ont été publiés, il n'y a pas d'étapes détaillées des dérivés. Après une recherche en ligne, j'ai pu les trouver dans ce document:
- Fischer, A. et Igel, C. (2012). Une introduction aux machines Boltzmann restreintes. Dans L. Alvarez et al. (Eds.): CIARP, LNCS 7441, pp. 14–36, Springer-Verlag: Berlin-Heidelberg. ( pdf )
Cependant, les détails de ce document sont trop avancés pour moi. Quelqu'un peut-il m'orienter vers un bon tutoriel / ensemble de notes de cours sur la GAR?
Edit: @David, la section déroutante est montrée ci-dessous (équation 29 à la page 26):
references
rbm
Upul
la source
la source
Réponses:
Je sais que c'est un peu tard, mais peut-être que ça aide. Pour obtenir le premier terme de votre équation, il faut comme suit: Nous avons supposé que l'indépendance conditionnelle entre les les unités cachées, étant donné les unités visibles, existent. Ainsi, nous pouvons factoriser la distribution de probabilité conjointe conditionnelle pour les états cachés.
la source
Il y a un tutoriel décent des RBM sur le site de deplearning .
Ce billet de blog ( Introduction aux machines Boltzmann restreintes ) est écrit dans un langage plus simple et explique très bien les bases de RBMS:
De plus, la meilleure référence est peut-être le cours Neural Networks de Geoff Hinton sur Coursea:
Je ne sais pas si vous pouvez accéder au cours et aux vidéos après la fin du cours.
la source
La case orange de gauche vous donne la valeur attendue du gradient d'énergie sur toutes les configurations cachées étant donné qu'un vecteur visible est fixé sur les unités visibles (l'attente sur les données car il utilise un échantillon de votre ensemble d'entraînement). Le terme lui-même est le produit de (1) la probabilité de voir une unité cachée particulière i sur étant donné qu'un vecteur v est fixé sur les unités visibles et (2) l'état d'une unité visible particulière j.
La boîte orange droite est la même chose que la gauche, sauf que vous faites ce qui est dans la boîte orange gauche pour chaque configuration visible possible au lieu de celle qui est fixée sur les unités visibles (l'attente par rapport au modèle puisque rien n'est serré sur les unités visibles).
la source
Le chapitre 5 du cours d'Hugo Larochelle sur l'apprentissage automatique ( vidéo ) est la meilleure introduction que j'ai trouvée jusqu'à présent.
Le dérivé de la fonction de perte n'est pas dérivé dans ces conférences, mais ce n'est pas difficile à faire (je peux publier une analyse de mes calculs si nécessaire, mais ce n'est vraiment pas si difficile). Je suis toujours à la recherche d'un bon manuel couvrant ce sujet mais principalement il n'y a que des articles. Il y a un bon aperçu des articles du chapitre 20 du Deep Learning Book de Bengio .
la source