Les méthodes d'inférence MaxEnt et bayésienne correspondent à différentes façons d'incorporer des informations dans votre procédure de modélisation. Les deux peuvent être placés sur un terrain axiomatique ( "Axioms of Maximum Entropy" de John Skilling et "Algebra of Probable Inference" de Cox ).
L'approche bayésienne est simple à appliquer si vos connaissances antérieures se présentent sous la forme d'une fonction mesurable à valeur réelle sur votre espace d'hypothèses, dite "antérieure". MaxEnt est simple lorsque les informations proviennent d'un ensemble de contraintes strictes sur votre espace d'hypothèses. Dans la vie réelle, les connaissances ne se présentent ni sous une forme "antérieure" ni sous une forme "contrainte", donc le succès de votre méthode dépend de votre capacité à représenter vos connaissances sous la forme correspondante.
Sur un problème de jouet, la moyenne du modèle bayésien vous donnera la perte de log moyenne la plus faible (moyenne sur de nombreux tirages de modèle) lorsque le précédent correspond à la vraie distribution des hypothèses. L'approche MaxEnt vous offrira la perte de journal la plus faible dans le pire des cas lorsque ses contraintes seront satisfaites (la pire prise sur tous les priors possibles)
ETJaynes, considéré comme un père des méthodes "MaxEnt" s'appuyait également sur les méthodes bayésiennes. À la page 1412 de son livre , il donne un exemple où l'approche bayésienne a abouti à une bonne solution, suivi d'un exemple où l'approche MaxEnt est plus naturelle.
Le maximum de vraisemblance fait essentiellement que le modèle se trouve dans un espace modèle prédéterminé et essaie de l'adapter "aussi dur que possible" dans le sens où il aura la sensibilité la plus élevée aux données de toutes les méthodes de sélection de modèle limitées à ce modèle espace. Alors que MaxEnt et Bayesian sont des cadres, ML est une méthode d'ajustement de modèle concret, et pour certains choix de conception particuliers, ML peut finir par la méthode issue de l'approche bayésienne ou MaxEnt. Par exemple, MaxEnt avec des contraintes d'égalité équivaut à l'ajustement de maximum de vraisemblance d'une certaine famille exponentielle. De même, une approximation de l'inférence bayésienne peut conduire à une solution de maximum de vraisemblance régularisée. Si vous choisissez votre avant de rendre vos conclusions sensibles au maximum aux données, le résultat de l'inférence bayésienne correspondra à l'ajustement du maximum de vraisemblance. Par exemple,p sur les essais de Bernoulli, un tel a priori serait la distribution limite Beta (0,0)
Les succès du Machine Learning dans la vie réelle sont souvent un mélange de diverses philosophies. Par exemple, les "champs aléatoires" sont dérivés des principes MaxEnt. La mise en œuvre la plus populaire de l'idée, le CRF régularisé, consiste à ajouter un "prior" sur les paramètres. En conséquence, la méthode n'est pas vraiment MaxEnt ni Bayésienne, mais influencée par les deux écoles de pensée.
J'ai rassemblé quelques liens sur les fondements philosophiques des approches bayésiennes et MaxEnt ici et ici .
Remarque sur la terminologie: parfois, les gens appellent leur méthode bayésienne simplement si elle utilise la règle de Bayes à un moment donné. De même, "MaxEnt" est parfois utilisé pour une méthode qui favorise les solutions à entropie élevée. Ce n'est pas la même chose que "l'inférence MaxEnt" ou "l'inférence bayésienne" comme décrit ci-dessus
Pour une critique divertissante des méthodes d'entropie maximale, je vous recommande de lire certains anciens messages de newsgroup sur sci.stat.math et sci.stat.consult, en particulier ceux de Radford Neal:
Je ne suis au courant d'aucune comparaison entre maxent et d'autres méthodes: une partie du problème semble être que maxent n'est pas vraiment un cadre, mais une directive ambiguë ("face à une inconnue, maximisez simplement l'entropie"), qui est interprété de différentes manières par différentes personnes.
la source
Il est vrai que dans le passé, MaxEnt et Bayes ont traité différents types ou formes d'informations. Je dirais que Bayes utilise également des contraintes "dures", la probabilité.
Dans tous les cas, ce n'est plus un problème car la règle de Bayes (pas la règle de produit) peut être obtenue à partir de l'entropie relative maximale (MrE), et pas de manière ambiguë:
C'est un nouveau monde ...
la source