Les modèles graphiques et les machines Boltzmann sont-ils liés mathématiquement?

10

Bien que j'aie fait de la programmation avec des machines Boltzmann dans un cours de physique, je ne connais pas leur caractérisation théorique. En revanche, j'en connais un peu sur la théorie des modèles graphiques (sur les premiers chapitres du livre de Lauritzen Graphical Models ).

Question: Existe - t-il une relation significative entre les modèles graphiques et la machine Boltzmann? La machine Boltzmann est-elle un type de modèle graphique?

De toute évidence, la machine Boltzmann est un type de réseau neuronal. J'ai entendu dire que certains réseaux de neurones sont mathématiquement liés aux modèles graphiques et que certains ne le sont pas.

Questions connexes sur CrossValidated qui ne répondent pas à ma question:
Ceci est similaire à une question précédente qui a été posée auparavant: Quelle est la relation entre les modèles hiérarchiques, les réseaux de neurones, les modèles graphiques, les réseaux bayésiens? mais est plus spécifique.

De plus, la réponse acceptée à cette question ne clarifie pas ma confusion - même si les nœuds dans la représentation graphique standard d'un réseau de neurones ne représentent pas des variables aléatoires, cela ne signifie pas nécessairement qu'aucune telle représentation n'existe. Plus précisément, je pense à la façon dont les nœuds dans la représentation graphique typique des chaînes de Markov représentent l'ensemble des états possibles plutôt que les variables aléatoires , mais on pourrait également créer un graphique montrant les relations de dépendance conditionnelle entre les X iXiXi, ce qui montre que chaque chaîne de Markov est en fait un champ aléatoire de Markov. La réponse dit également que les réseaux de neurones (incluant vraisemblablement les machines Boltzmann) sont "discriminatoires", mais n'entre pas dans les détails pour expliquer ce que signifie cette affirmation, et la question de suivi évidente "les modèles graphiques ne sont-ils pas discriminatoires?" adressé. De même, la réponse acceptée renvoie au site Web de Kevin Murphy (j'ai en fait lu une partie de sa thèse de doctorat en découvrant les réseaux bayésiens), mais ce site Web ne traite que des réseaux bayésiens et ne mentionne pas du tout les réseaux de neurones - il ne parvient donc pas à expliquer comment ils sont différents.

Cette autre question est probablement plus similaire à la mienne: Modéliser mathématiquement les réseaux de neurones comme des modèles graphiques Cependant, aucune des réponses n'a été acceptée, et de même ne donne que des références mais n'explique pas les références (par exemple cette réponse ). Si un jour, j'espère être en mesure de comprendre les références, je suis actuellement à un niveau de connaissance de base et j'apprécierais le plus une réponse aussi simplifiée que possible. De plus, le cours de Toronto lié à dans la réponse du haut ( http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml ) répond à cela, mais pas très en détail. De plus, les notes de la conférence qui pourraient répondre à ma question ne sont pas accessibles au public.

25 mars Conférence 13b: Belief Nets 7:43. Pour cette diapositive, gardez à l'esprit les machines Boltzmann. Là aussi, nous avons des unités cachées et des unités visibles, et tout est probabiliste. Les BM et les SBN ont plus en commun qu'ils n'ont de différences. 9:16. De nos jours, les «modèles graphiques» sont parfois considérés comme une catégorie spéciale de réseaux de neurones, mais dans l'histoire qui est décrite ici, ils étaient considérés comme des types de systèmes très différents.

Chill2Macht
la source

Réponses:

7

Machines Boltzmann vs machines Boltzmann restreintes

AFAIK les machines Boltzmann est un type de modèle graphique, et le modèle qui est lié aux réseaux de neurones est les machines Boltzmann restreintes (RBM).

La différence entre les machines Boltzmann et les machines Boltzmann restreintes, du livre Machine Learning A Probabilistic Perspective entrez la description de l'image ici

RBM vs réseaux de neurones

p(v,h)=1Zexp(aivi+bjhj+vihjwij)
p(hj=1|v)=σ(bj+viwij)
p(vi=1|h)=σ(ai+hjwij)
vhσ()

Les probabilités conditionnelles sont calculées sous la même forme de couches de réseau, de sorte que les poids formés des RBM peuvent être utilisés directement comme poids des réseaux de neurones ou comme point de départ de la formation.

Je pense que le RBM lui-même est plus un modèle graphique qu'un type de réseau de neurones, car il n'est pas dirigé, il a des indépendances conditionnelles bien définies et il utilise ses propres algorithmes d'apprentissage (par exemple la divergence contrastive).

dontloo
la source
2
Bien, c'est une très bonne réponse avec une grande référence. Cela me donne aussi envie de lire plus tôt le livre du professeur Murphy. J'apprécie le temps que vous avez pris pour faire cette réponse complète.
Chill2Macht
2
@William heureux de vous être utile :)
dontloo
2
v=h=σ()=
2
@ GeoMatt22 merci, j'ai mis à jour la réponse.
dontloo
3

Cela ne fait que confirmer / vérifier la réponse acceptée, que les machines Boltzmann sont en effet un cas particulier de modèle graphique. Plus précisément, cette question est abordée aux pages 127 à 127 de Koller, Friedman, Probabilistic Graphical Models: Principles and Techniques , dans l' encadré 4.C.

L'un des premiers types de modèles de réseau de Markov est le modèle Ising qui est apparu pour la première fois en physique statistique en tant que modèle pour l'énergie d'un système physique impliquant un système d'atomes en interaction ... Liée au modèle Ising est la distribution de la machine Boltzmann. • l'énergie résultante peut être reformulée en termes d'un modèle d'Ising (exercice 4.12).

La façon dont le modèle d'Ising, à l'origine un concept de la littérature de la mécanique statistique, peut être formulé comme un modèle graphique est donnée en détail dans l'exemple 3.1., Section 3.3., Aux pages 41-43 de Wainwright, Jordan, Graphical Models, Exponential Familles et inférence variationnelle .

Apparemment, le modèle Ising a joué un rôle déterminant dans la fondation du domaine des modèles graphiques à la fin des années 1970 et au début des années 1980, du moins sur la base de ce que Steffen Lauritzen dit dans la préface et l'introduction de son livre, Graphical Models . Cette interprétation semble également étayée par la section 4.8 du livre précité de Koller et Friedman.

Le développement de machines Boltzmann à partir du modèle Ising peut avoir été un événement indépendant, basé également sur la même section de Koller et Friedman, qui prétend que "les machines Boltzmann ont été proposées pour la première fois par Hinton et Sejnowski (1983)", ce qui semble avoir s'est produit après le travail initial de développement de champs aléatoires de Markov en tant que généralisations du modèle d'Ising, bien que le travail derrière cet article aurait pu commencer beaucoup plus tôt qu'en 1983.


Ma confusion concernant cette relation, lorsque j'ai écrit cette question il y a plus d'un an, provenait du fait que j'ai rencontré pour la première fois le modèle Ising et le modèle de machine Boltzmann pour les neurones, dans la littérature de physique. Comme le mentionnent Koller et Friedman, la littérature au sein de la communauté de la physique statistique sur le modèle d'Ising et les notions connexes est vraiment vaste.

D'après mon expérience, il est également assez insulaire, dans le sens où bien que les statisticiens et les informaticiens étudiant les modèles graphiques mentionneront comment le domaine est lié à la mécanique statistique, aucune référence que j'ai jamais trouvée dans la littérature de physique statistique ne mentionne les liens avec d'autres domaines ou essaie de l'exploiter. (Par conséquent, cela me fait douter et être dérouté par l'idée qu'il pourrait y avoir de telles connexions avec d'autres domaines.)

Pour un exemple de la perspective du physicien à la fois sur le modèle d'Ising et sur la machine Boltzmann, voir le manuel du cours où je l'ai appris pour la première fois. Il mentionne également les méthodes de terrain moyennes, si je me souviens bien, quelque chose également discuté dans l'article de Jordan et Wainwright cité ci-dessus.

Chill2Macht
la source
2
la connexion peut être très mince, et basée principalement sur l'utilisation de la fonction de partition qui est à la base de la mécanique statistique et que l'exponentielle de la somme des produits internes est prise. La fonction softmax utilise également cette forme afin que la nomenaclature conserve l'héritage des termes et de nombreux physiciens travaillent (ed) en ML (par exemple, Christopher Bishop).
Vass