Lors de l'inférence bayésienne, nous opérons en maximisant notre fonction de vraisemblance en combinaison avec les a priori que nous avons sur les paramètres. Parce que la log-vraisemblance est plus pratique, nous maximisons efficacement utilisant un MCMC ou autrement ce qui génère les distributions postérieures (en utilisant un pdf pour probabilité de chaque paramètre et probabilité de chaque point de données).
Si nous avons beaucoup de données, la probabilité de cela va submerger toute information fournie par le prieur, par de simples mathématiques. En fin de compte, c'est bon et par conception; nous savons que le postérieur convergera vers la vraisemblance avec plus de données car il est censé le faire.
Pour les problèmes définis par des antérieurs conjugués, cela est même prouvable exactement.
Existe-t-il un moyen de décider quand les a priori n'ont pas d'importance pour une fonction de probabilité donnée et une certaine taille d'échantillon?
Réponses:
Ce n'est pas si simple. Les informations contenues dans vos données dépassent les informations antérieures non seulement la taille de votre échantillon est grande, mais aussi lorsque vos données fournissent suffisamment d' informations pour submerger les informations antérieures. Les données antérieures non informatives sont facilement convaincues par les données, tandis que celles qui sont fortement informatives peuvent être plus résistantes. Dans les cas extrêmes, avec des priorités mal définies, vos données peuvent ne pas du tout être en mesure de les surmonter (par exemple, densité nulle sur une région).
Rappelons que selon le théorème de Bayes, nous utilisons deux sources d'information dans notre modèle statistique, les données hors données, les informations antérieures et les informations véhiculées par les données en fonction de vraisemblance :
Lorsque nous utilisons des informations antérieures non informatives (ou des probabilités maximales), nous essayons d'introduire un minimum d'informations préalables possibles dans notre modèle. Avec des priorités informatives, nous apportons une quantité substantielle d'informations dans le modèle. Ainsi, les données et les données antérieures nous informent quelles valeurs des paramètres estimés sont les plus plausibles ou crédibles. Ils peuvent apporter des informations différentes et chacun d'eux peut l'emporter sur l'autre dans certains cas.
Permettez-moi d'illustrer cela avec un modèle bêta-binomial très basique (voir ici pour un exemple détaillé ). Avec un précédent "non informatif" , un échantillon assez petit peut suffire à le maîtriser. Sur les graphiques ci-dessous, vous pouvez voir les priors (courbe rouge), la vraisemblance (courbe bleue) et les postérieurs (courbe violette) du même modèle avec différentes tailles d'échantillon.
D'un autre côté, vous pouvez avoir des informations préalables proches de la valeur réelle, qui seraient également faciles, mais pas aussi facilement qu'avec une information hebdomadaire, convaincues par les données.
Le cas est très différent avec le préalable informatif, quand il est loin de ce que disent les données (en utilisant les mêmes données que dans le premier exemple). Dans ce cas, vous avez besoin d'un plus grand échantillon pour surmonter le précédent.
Il ne s'agit donc pas seulement de la taille de l'échantillon, mais aussi de vos données et de vos antécédents. Notez que c'est un comportement souhaité , car lorsque vous utilisez des informations antérieures, nous souhaitons potentiellement inclure des informations hors données dans notre modèle et cela serait impossible si de grands échantillons rejetaient toujours les informations antérieures.
En raison de relations compliquées a posteriori-vraisemblance-a priori, il est toujours bon de regarder la distribution postérieure et de faire quelques vérifications prédictives postérieures (Gelman, Meng et Stern, 1996; Gelman et Hill, 2006; Gelman et al, 2004). De plus, comme décrit par Spiegelhalter (2004), vous pouvez utiliser différents priors, par exemple «pessimistes» qui expriment des doutes sur les effets importants, ou «enthousiastes» qui sont optimistes quant aux effets estimés. La comparaison du comportement des différents prieurs avec vos données peut aider à évaluer de manière informelle dans quelle mesure le postérieur a été influencé par le précédent.
Spiegelhalter, DJ (2004). Intégrer les idées bayésiennes dans l'évaluation des soins de santé. Science statistique, 156-174.
Gelman, A., Carlin, JB, Stern, HS et Rubin, DB (2004). Analyse des données bayésiennes. Chapman & Hall / CRC.
Gelman, A. et Hill, J. (2006). Analyse des données à l'aide de modèles de régression et multiniveaux / hiérarchiques. La presse de l'Universite de Cambridge.
Gelman, A., Meng, XL et Stern, H. (1996). Évaluation prédictive postérieure de l'aptitude du modèle via les écarts réalisés. Statistica sinica, 733-760.
la source
Ce n'est en fait pas ce que la plupart des praticiens considèrent comme une inférence bayésienne. Il est possible d'estimer les paramètres de cette façon, mais je n'appellerais pas cela une inférence bayésienne.
L' inférence bayésienne utilise des distributions postérieures pour calculer les probabilités postérieures (ou ratios de probabilités) pour des hypothèses concurrentes.
Les distributions postérieures peuvent être estimées empiriquement par des techniques de Monte Carlo ou Monte Carlo à Chaîne de Markov (MCMC).
Mis à part ces distinctions, la question
dépend toujours du contexte du problème et de ce qui vous intéresse.
Si ce qui vous importe, c'est la prédiction donnée à un échantillon déjà très important, alors la réponse est généralement oui, les priors sont asymptotiquement non pertinents *. Cependant, si vous vous souciez de la sélection des modèles et des tests d'hypothèse bayésienne, alors la réponse est non, les priors importent beaucoup et leur effet ne se détériorera pas avec la taille de l'échantillon.
* Ici, je suppose que les priors ne sont pas tronqués / censurés au-delà de l'espace des paramètres impliqué par la vraisemblance, et qu'ils ne sont pas mal spécifiés au point de provoquer des problèmes de convergence avec une densité proche de zéro dans les régions importantes. Mon argument est également asymptotique, qui vient avec toutes les mises en garde régulières.
Densités prédictives
Sélection du modèle et test d'hypothèse
Si l'on s'intéresse à la sélection des modèles bayésiens et aux tests d'hypothèses, il faut savoir que l'effet de l'a priori ne disparaît pas asymptotiquement.
la source
Another issue to keep in mind is you can have a lot of data, but still have very little information about certain parameters in your model. In such cases, even a mildly informative prior can be extremely helpful when performing inference.
As a silly example, suppose you were comparing means of two groups and you had 1,000,000 samples of group 1 and 10 samples of group 2. Then clearly having an informative prior about group 2 can improve inference, even though you've collected over a million samples.
And while that example may be trivial, it starts to lead some very important implications. If we want to understand some complex phenomena, the smart thing to do is collect a lot of information regarding the parts we don't understand and less information about the parts we do understand. If we collect a lot of data in such a manner, throwing out the prior because we have a lot of data is a really bad choice; we've just set back our analysis because we didn't waste time collecting data on things we already know!
la source