Je suis plutôt évangélique quant à l'utilisation des ratios de vraisemblance pour représenter l'évidence objective de / contre un phénomène donné. Cependant, j’ai récemment appris que le facteur Bayes remplissait une fonction similaire dans le contexte des méthodes bayésiennes (c’est-à-dire que le préalable subjectif est combiné au facteur objectif de Bayes pour produire un état de conviction subjectif mis à jour de manière objective). J'essaie maintenant de comprendre les différences de calcul et de philosophie entre un rapport de vraisemblance et un facteur de Bayes.
Au niveau des calculs, je comprends que, si le rapport de vraisemblance est généralement calculé à l'aide des vraisemblances représentant le maximum de vraisemblance pour la paramétrisation respective de chaque modèle (estimée par validation croisée ou pénalisée en fonction de la complexité du modèle à l'aide de l'AIC), le facteur de Bayes utilise apparemment les probabilités qui représentent la vraisemblance de chaque modèle intégré sur tout son espace de paramètres (c'est-à-dire pas seulement au niveau de la MLE). Comment cette intégration est-elle réellement réalisée généralement? Essaye-t-on vraiment de calculer la probabilité d'échantillons aléatoires sur des milliers (millions?) De l'espace des paramètres ou existe-t-il des méthodes analytiques permettant d'intégrer la vraisemblance dans l'espace des paramètres? De plus, lors du calcul du facteur Bayes,
Aussi, quelles sont les différences philosophiques entre le rapport de vraisemblance et le facteur Bayes (nb, je ne pose pas de question sur les différences philosophiques entre le rapport de vraisemblance et les méthodes bayésiennes en général, mais le facteur Bayes en tant que représentation des preuves objectives en particulier). Comment pourrait-on caractériser la signification du facteur de Bayes par rapport au rapport de vraisemblance?
la source
Réponses:
Premièrement, toute situation dans laquelle vous considérez un terme tel que pour les données D et le modèle M est considérée comme un modèle de vraisemblance . C’est souvent le fil conducteur de toute analyse statistique, qu’il soit fréquentiste ou bayésien, et c’est la partie que votre analyse est censée suggérer, c’est un bon ou un mauvais ajustement. Les facteurs de Bayes ne font donc rien de fondamentalement différent des ratios de vraisemblance.P( D | M) ré M
Il est important de placer les facteurs Bayes dans le bon contexte. Par exemple, lorsque vous avez deux modèles et que vous convertissez des probabilités en probabilités, les facteurs Bayes agissent alors comme un opérateur basé sur des convictions antérieures:
P ( M 1 | D )
La vraie différence réside dans le fait que les ratios de probabilité sont moins coûteux à calculer et généralement plus faciles à spécifier d'un point de vue conceptuel. La probabilité à la MLE n'est qu'une estimation ponctuelle du numérateur et du dénominateur du facteur de Bayes, respectivement. Comme la plupart des constructions fréquentistes, il peut être considéré comme un cas particulier d'analyse bayésienne avec un préalable artificiel difficile à obtenir. Mais surtout, cela est dû au fait qu’il est analytique et facile à calculer (à l’époque avant l’apparition approximative des approches informatiques bayésiennes).
Au point de calcul, oui: vous évaluerez les différentes intégrales de vraisemblance dans le cadre bayésien avec une procédure de Monte Carlo à grande échelle dans presque tous les cas d’intérêt pratique. Certains simulateurs spécialisés, tels que GHK, fonctionnent si vous supposez certaines distributions et si vous faites ces hypothèses, vous pouvez parfois trouver des problèmes analytiquement traitables pour lesquels des facteurs de Bayes entièrement analytiques existent.
Mais personne ne les utilise. il n'y a aucune raison de Avec les échantillonneurs Metropolis / Gibbs optimisés et d’autres méthodes MCMC, il est tout à fait envisageable d’aborder ces problèmes de manière entièrement informatisée et de calculer numériquement vos intégrales. En fait, on va souvent le faire de manière hiérarchique et intégrer davantage les résultats sur des méta-a priori qui se rapportent aux mécanismes de collecte de données, aux conceptions expérimentales non ignorable, etc.
Je recommande le livre Bayesian Data Analysis pour plus d'informations à ce sujet. Bien que l'auteur, Andrew Gelman, ne semble pas trop se préoccuper des facteurs de Bayes . En passant, je suis d'accord avec Gelman. Si vous allez passer au Bayésien, alors exploitez le postérieur complet. Faire une sélection de modèle avec des méthodes bayésiennes revient à les handicaper, car la sélection de modèle est une forme d'inférence faible et généralement inutile. Si je le pouvais, je préférerais connaître les distributions par rapport aux choix de modèle ... qui se soucie de la quantifier en disant que "le modèle A est meilleur que le modèle B", le cas échéant?
Je connais bien cette dérivation et la discussion du livre Finite Mixture and Markov Switching Models de Sylvia Frühwirth-Schnatter, mais il existe probablement plus directement des comptes statistiques qui plongent davantage dans l'épistémologie sous-jacente.
Je ne connais pas suffisamment les détails pour les donner ici, mais je pense qu’il existe des liens théoriques assez profonds entre cela et la dérivation de l’AIC. Le livre sur la théorie de l'information de Cover et Thomas y fait au moins allusion.
La section "Interprétation" de l'article de Wikipedia fait un bon travail en ce sens (en particulier le graphique montrant l'échelle de force de la preuve de Jeffreys).
Comme d'habitude, il n'y a pas beaucoup de choses philosophiques au-delà des différences fondamentales entre les méthodes bayésiennes et les méthodes fréquentistes (que vous semblez déjà familières).
L'essentiel est que le rapport de probabilité ne soit pas cohérent au sens de livre néerlandais. Vous pouvez concocter des scénarios où l'inférence de sélection de modèle à partir des ratios de vraisemblance amènera à accepter de perdre des paris. La méthode bayésienne est cohérente, mais fonctionne sur un préalable qui pourrait être extrêmement pauvre et doit être choisi subjectivement. Les compromis .. les compromis ...
FWIW, je pense que ce type de sélection de modèle fortement paramétré n'est pas une très bonne inférence. Je préfère les méthodes bayésiennes et je préfère les organiser de manière plus hiérarchique, et je veux que l'inférence se concentre sur la distribution postérieure complète s'il est techniquement possible de le faire. Je pense que les facteurs bayésiens ont des propriétés mathématiques intéressantes, mais en tant que bayésien, je ne suis pas impressionné par eux. Ils cachent la partie vraiment utile de l'analyse bayésienne, à savoir qu'elle vous oblige à traiter avec vos priors à l'air libre au lieu de les balayer sous le tapis, et vous permet de faire des déductions sur les postérieurs complets.
la source
Pour comprendre la différence entre les ratios de vraisemblance et les facteurs de Bayes, il est utile d'examiner plus en détail une caractéristique clé des facteurs de Bayes:
Comment les facteurs Bayes parviennent-ils à rendre compte automatiquement de la complexité des modèles sous-jacents?
L'un des points de vue sur cette question consiste à envisager des méthodes d'inférence déterministe approximative. Variational Bayes est une de ces méthodes. Cela peut non seulement réduire considérablement la complexité de calcul des approximations stochastiques (par exemple, l'échantillonnage MCMC). Variation Bayes fournit également une compréhension intuitive de ce qui constitue un facteur Bayes.
Rappelons tout d’abord qu’un facteur de Bayes est basé sur les preuves de modèle de deux modèles concurrents,
où les preuves du modèle individuel devraient être calculées par une intégrale compliquée:
Nous pouvons maintenant revenir à la question initiale de savoir comment un facteur de Bayes équilibre automatiquement la qualité de l'ajustement et la complexité des modèles impliqués. Il s’avère que l’énergie libre négative peut être réécrite comme suit:
Le premier terme est la log-vraisemblance des données attendues approximativement à posteriori; il représente la qualité de l'ajustement (ou de la précision ) du modèle. Le second terme est la divergence KL entre l'approximatif postérieur et l'antérieur; il représente la complexité du modèle, étant donné qu'un modèle plus simple correspond à nos croyances antérieures, ou qu'un modèle plus simple n'a pas besoin d'être autant étiré pour prendre en charge les données.
L’approximation en énergie libre des preuves du modèle de log montre que les preuves du modèle intègrent un compromis entre la modélisation des données (c’est-à-dire la qualité de l’ajustement) et le maintien de la cohérence avec nos données antérieures (simplicité ou complexité négative).
Un facteur de Bayes (par opposition à un rapport de vraisemblance) indique donc lequel des deux modèles concurrents est le mieux à même de fournir une explication simple mais précise des données.
la source