Cas d'utilisation modernes de machines Boltzmann restreintes (RBM)?

16

Contexte: Une grande partie de la recherche moderne au cours des 4 dernières années (post alexnet ) semble s'être éloignée de l'utilisation de la formation préalable générative pour les réseaux de neurones afin d'obtenir des résultats de classification de pointe.

Par exemple, les meilleurs résultats pour mnist ici incluent seulement 2 articles sur les 50 premiers qui semblent utiliser des modèles génératifs, les deux étant des RBM. Les 48 autres articles gagnants portent sur différentes architectures discriminantes à action directe avec beaucoup d'efforts pour trouver de meilleures initialisations de poids et de nouvelles fonctions d'activation différentes du sigmoïde utilisé dans la RBM et dans de nombreux réseaux de neurones plus anciens.

Question: Existe - t-il une raison moderne d'utiliser des machines Boltzmann restreintes?

Sinon, existe-t-il une modification de facto que l'on peut appliquer à ces architectures de transmission pour rendre l'une de leurs couches générative?

Motivation: je demande parce que certains des modèles que je vois disponibles, généralement des variantes de la RBM, n'ont pas nécessairement d'homologues discriminants analogues évidents à ces couches / modèles génératifs, et vice versa. Par exemple:

  • mcRBM

  • ssRBM

  • CRBM (bien que l'on puisse affirmer que les architectures à action directe CNN utilisées sont l'architecture analogue discriminante)

En outre, il s'agissait clairement de pré alexnet également, de 2010, 2011 et 2009 respectueusement.

user27886
la source
3
Pour le plaisir, j'ai construit un NN feed-back génératif par régression automatique. power2predict.edublogs.org/2016/06/26/…
Chris

Réponses:

6

C'est une sorte de vieille question, mais comme elle demande essentiellement des «meilleures pratiques», plutôt que ce qui est réellement techniquement possible (c'est-à-dire, n'a pas besoin de trop de recherches), les meilleures pratiques actuelles sont quelque chose comme:

  • Les RBM ne sont pas normalement utilisés actuellement
  • des modèles linéaires (régression linéaire, régression logistique) sont utilisés dans la mesure du possible
  • sinon, des réseaux à action directe profonde avec des couches telles que des couches entièrement connectées, des couches convolutives et intégrant une sorte de couches de régularisation, telles que le décrochage et la normalisation récente des lots
  • bien sûr, avec des couches d'activation entre les deux, généralement ReLU, mais tanh et sigmoid sont également utilisés
  • et probablement quelques max-poolings (pas toujours: des pools moyens et d'autres sont également utilisés)

Pour les usages génératifs, les techniques courantes incluent:

Hugh Perkins
la source
1

J'ai récemment trouvé cet article sur "Boltzmann Encoded Adversarial Machines" qui intègre les RBM aux CNN comme modèle génératif.

Les auteurs montrent qu'il est mathématiquement «meilleur» à certains égards, et montrent quelques exemples de jouets où BEAM semble beaucoup plus capable d'apprendre avec précision la distribution des données par rapport à d'autres modèles GAN.

La référence "réelle" des visages de CelebA était beaucoup moins impressionnante - il n'est pas clair que BEAM fasse mieux ou même aussi bien que d'autres GAN populaires. Cependant, l'utilisation de RBM dans ce cadre est certainement intéressante.

shimao
la source
pensez-vous que cet échec est attribué à l'espace de recherche de BEAM permettant un plus grand ensemble de degrés de liberté intrinsèque à la définition du modèle?
Vass