Ma compréhension est que lorsque vous utilisez une approche bayésienne pour estimer les valeurs des paramètres:
- La distribution postérieure est la combinaison de la distribution antérieure et de la distribution de vraisemblance.
- Nous simulons cela en générant un échantillon à partir de la distribution postérieure (par exemple, en utilisant un algorithme Metropolis-Hasting pour générer des valeurs, et les accepter si elles sont au-dessus d'un certain seuil de probabilité d'appartenir à la distribution postérieure).
- Une fois que nous avons généré cet échantillon, nous l'utilisons pour approximer la distribution postérieure, et des choses comme sa moyenne.
Mais, je sens que je dois mal comprendre quelque chose. Il semble que nous ayons une distribution postérieure et que nous en échantillonnions, puis que nous utilisions cet échantillon comme approximation de la distribution postérieure. Mais si nous avons la distribution postérieure pour commencer, pourquoi devons-nous en échantillonner pour l'approcher?
Oui, vous pourriez avoir une distribution analytique postérieure. Mais le cœur de l'analyse bayésienne est de marginaliser la distribution postérieure des paramètres afin d'obtenir un meilleur résultat de prédiction à la fois en termes de précision et de capacité de généralisation. Fondamentalement, vous souhaitez obtenir une distribution prédictive qui a la forme suivante.
où est la distribution postérieure pour laquelle vous pourriez avoir une forme analytique. Mais dans de nombreux cas, p ( w | D )p ( w | D ) p ( w | D ) p ( x | w )
la source