J'ai du mal à faire le lien mathématique entre un réseau de neurones et un modèle graphique.
Dans les modèles graphiques, l'idée est simple: la distribution de probabilité factorise en fonction des cliques du graphique, les potentiels étant généralement de la famille exponentielle.
Existe-t-il un raisonnement équivalent pour un réseau de neurones? Peut-on exprimer la distribution de probabilité sur les unités (variables) dans une machine Boltzmann restreinte ou un CNN en fonction de leur énergie, ou le produit des énergies entre unités?
De plus, la distribution de probabilité est-elle modélisée par un RBM ou un réseau de croyances profondes (par exemple avec des CNN) de la famille exponentielle?
J'espère trouver un texte qui formalise la connexion entre ces types modernes de réseaux de neurones et les statistiques de la même manière que Jordan et Wainwright l'ont fait pour les modèles graphiques avec leurs modèles graphiques, leurs familles exponentielles et leur inférence variationnelle . Tout pointeur serait génial.
la source
"using deep nets as factors in an MRF"
), mais plus sur la façon de regarder un filet profond comme un graphique de facteurs probabilistes. Quand Yann LeCun dit"of course deep Boltzmann Machines are a form of probabilistic factor graph themselves"
, je suis intéressé à voir cette connexion mathématiquement.https://distill.pub/2017/feature-visualization/
( Comment les réseaux de neurones construisent leur compréhension des images ), en ce qu'une image complexe a des objets composants représentés par des nœuds de couche cachés. Les poids peuvent «altérer» la «topologie» de manière non discrète. Bien que je ne l'ai pas vu, certaines méthodes pourraient inclure des facteurs de retrait pour supprimer les bords et donc changer la topologie d'origineRéponses:
Une autre bonne introduction sur le sujet est le cours CSC321 à l'Université de Toronto et le cours neuralnets-2012-001 sur Coursera, tous deux dispensés par Geoffrey Hinton.
De la vidéo sur Belief Nets:
Modèles graphiques
Les premiers modèles graphiques utilisaient des experts pour définir la structure du graphique et les probabilités conditionnelles. Les graphiques étaient peu connectés, et l'accent était mis sur la réalisation d'une inférence correcte, et non sur l'apprentissage (les connaissances venaient des experts).
Les réseaux de neurones
Pour les réseaux neuronaux, l'apprentissage était central. Câbler les connaissances n'était pas cool (OK, peut-être un peu). L'apprentissage est venu de l'apprentissage des données de formation, pas d'experts. Les réseaux de neurones ne visaient pas l'interprétabilité de la connectivité clairsemée pour faciliter l'inférence. Néanmoins, il existe des versions de réseaux de neurones des réseaux de croyances.
Ma compréhension est que les filets de croyance sont généralement trop densément connectés et que leurs cliques sont trop grandes pour être interprétables. Les réseaux de croyances utilisent la fonction sigmoïde pour intégrer les entrées, tandis que les modèles graphiques continus utilisent généralement la fonction gaussienne. Le sigmoïde facilite la formation du réseau, mais il est plus difficile à interpréter en termes de probabilité. Je crois que les deux font partie de la famille exponentielle.
Je suis loin d'être un expert en la matière, mais les notes de cours et les vidéos sont une excellente ressource.
la source
Radford Neal a fait un bon travail dans ce domaine qui pourrait vous intéresser, y compris des travaux directs pour assimiler les modèles graphiques bayésiens aux réseaux de neurones. (Sa thèse portait apparemment sur ce sujet spécifique.)
Je ne suis pas assez familier avec ce travail pour fournir un résumé intelligent, mais je voulais vous donner le pointeur au cas où vous le trouveriez utile.
la source
Cela peut être un vieux fil, mais toujours une question pertinente.
L'exemple le plus frappant des connexions entre les réseaux neuronaux (NN) et les modèles graphiques probabilistes (PGM) est celui entre les machines Boltzmann (et ses variations comme BM restreint, BM profond, etc.) et les PGM non dirigés du champ aléatoire de Markov.
De même, les réseaux de croyance (et ses variantes comme Deep BN, etc.) sont un type de PGM dirigés de graphiques bayésiens
Pour en savoir plus, voir:
la source