Histoire de la théorie antérieure non informative

24

J'écris un court essai théorique pour un cours de statistique bayésienne (dans une maîtrise en économie) sur les priors non informatifs et j'essaie de comprendre quelles sont les étapes du développement de cette théorie.

À ce jour, ma chronologie se fait en trois étapes principales: le principe d'indifférence de Laplace (1812), les a priori non invariants (Jeffreys (1946)), Bernardo reference prior (1979).

De ma revue de la littérature, j'ai compris que le principe d'indifférence (Laplace) était le premier outil utilisé pour représenter le manque d'informations préalables mais l'exigence manquante d'invariance a conduit à son abandon jusqu'aux années 40, lorsque Jeffreys a introduit sa méthode, qui a le propriété d'invariance souhaitée. L'apparition de paradoxes de la marginalisation due à l'utilisation imprudente d'un prieur impropre dans les années 70 a poussé Bernardo à élaborer sa théorie a priori de référence pour traiter ce problème.

En lisant la littérature, chaque auteur cite des contributions différentes: l'entropie maximale de Jaynes, la probabilité de traduction des données de Box et Tiao, Zellner, ...

À votre avis, quelles sont les étapes cruciales qui me manquent?

EDIT : J'ajoute mes références (principales), si quelqu'un a besoin:

1) La sélection des priorités par des règles formelles, Kass, Wasserman

2) Un catalogue de prieurs non informatifs, Yang, Berger

3) Interprétation des Prieurs Bayésiens non informatifs et problèmes de construction et d'applications

PhDing
la source
10
une fois que vous aurez terminé cet essai théorique, seriez-vous en mesure de le lier ici?
Nikolas Rieble
2
Ce serait formidable si vous pouviez répondre à votre propre question résumant votre thèse.
Tim
3
J'ai déjà lié cet article, mais l'histoire épique du maximum de vraisemblance couvre le «fossé» historique entre Laplace et Jeffrey: où les travaux de Gauss, Hotelling, Fisher, Bernoulli et d'autres ont indiqué une estimation du maximum de vraisemblance pendant cette période.
AdamO
2
@alessandro décrit comment l'approche laplacienne a été maintenue pendant un siècle essentiellement après que Gauss a développé et utilisé des impressions uniformes (les considérant comme non informatives). Pearson et Kristine Smith ont désavoué ML parce que l'inférence qui en résultait ne traitait pas des probabilités comme le souhaiterait un Bayésien.
AdamO
7
Minute (pédant, si vous voulez) mais point peut-être utile: Jeffreys = (Professeur Sir) Harold Jeffreys, mathématicien britannique appliqué, géophysicien et bien d'autres; il m'a expliqué dans une lettre il y a 40 ans qu'il préférait le Jeffreys possessif parce que celui-ci était susceptible de se muter en Jeffrey tout à fait incorrect. Ci-dessus, nous avons un exemple! (Cela n'aide pas que Richard C. Jeffrey, philosophe américain, une personne entièrement différente, ait également écrit sur la probabilité.)
Nick Cox

Réponses:

13

Ce qui vous semble manquer, c'est le début de l'histoire. Vous pouvez consulter l'article de Fienberg (2006) Quand l'inférence bayésienne est-elle devenue "bayésienne"? . Tout d'abord, il remarque que Thomas Bayes a été le premier à suggérer d'utiliser un uniforme avant:

Dans le langage statistique actuel, l'article de Bayes introduit une distribution a priori uniforme sur le paramètre binomial, , raisonnant par analogie avec une "table de billard" et s'appuyant sur la forme de la distribution marginale de la variable aléatoire binomiale, et non sur le principe de "raison insuffisante", comme l'ont prétendu de nombreux autres.θ

Pierre Simon Laplace a été la prochaine personne à en discuter:

Laplace a également articulé, plus clairement que Bayes, son argument pour le choix d'une distribution a priori uniforme, arguant que la distribution postérieure du paramètre devrait être proportionnelle à ce que nous appelons maintenant la vraisemblance des données, c'est-à-dire,θ

F(θX1,X2,,Xn)F(X1,X2,,Xnθ)

Nous comprenons maintenant que cela implique que la distribution a priori de est uniforme, bien qu'en général, bien sûr, l'a priori puisse ne pas exister.θ

De plus, Carl Friedrich Gauss a également mentionné l'utilisation d'un prieur non informatif, comme l'ont noté David et Edwards (2001) dans leur livre Annotated Readings in the History of Statistics :

Gauss utilise un argument ad hoc de type bayésien pour montrer que la densité postérieure de est proportionnelle à la vraisemblance (dans la terminologie moderne):h

F(h|X)F(X|h)

où il a supposé que était uniformément distribué sur [ 0 , ) . Gauss ne mentionne ni Bayes ni Laplace, bien que ce dernier ait popularisé cette approche depuis Laplace (1774).h[0,)

et comme le note Fienberg (2006), la "probabilité inverse" (et ce qui suit, en utilisant des a priori uniformes) était populaire au tournant du 19e siècle

tμμh=σ-1

L'histoire des débuts de l'approche bayésienne est également passée en revue par Stigler (1986) dans son livre The history of statistics: The mesure of incertitude before 1900 .

Dans votre courte revue, vous ne semblez pas non plus mentionner Ronald Aylmer Fisher (à nouveau cité après Fienberg, 2006):

Fisher s'est éloigné des méthodes inverses et vers sa propre approche de l'inférence, il a appelé la «vraisemblance», un concept qui, selon lui, était distinct de la probabilité. Mais la progression de Fisher à cet égard a été lente. Stigler (164) a souligné que, dans un manuscrit non publié datant de 1916, Fisher n'a pas fait de distinction entre la probabilité et la probabilité inverse avec un a priori plat, même si, plus tard, lorsqu'il a fait la distinction, il a prétendu l'avoir compris à cette époque.

Jaynes (1986) a fourni son propre article de synthèse intitulé Bayesian Methods: General Background. Un didacticiel d'introduction que vous pouvez vérifier, mais il ne se concentre pas sur les priors non informatifs. De plus, comme l'a noté AdamO , vous devriez certainement lire L'histoire épique du maximum de vraisemblance de Stigler (2007).

Il convient également de mentionner qu’il n’existe pas de «prieur non informatif» , de sorte que de nombreux auteurs préfèrent parler de «prieurs vagues» ou de «prieurs informatifs hebdomadaires» .

Une revue théorique est fournie par Kass et Wasserman (1996) dans The selection of prior distributions by formal rules , qui abordent plus en détail le choix des prieurs, avec une discussion approfondie sur l'utilisation des prieurs non informatifs.

Tim
la source
C'était le genre de réponse que je cherchais. Merci!
PhDing du
Je pense que Fienberg a étendu trop loin la fierté des Bayésiens. Personnellement, je n'aime pas du tout utiliser la "probabilité inverse" pour définir quoi que ce soit, car elle ne semble pas cohérente avec l'image géométrique intégrale proposée par Adler et Taylor. Toute bonne procédure statistique doit avoir sa correspondance mathématique, la probabilité inverse est si tordue que vous pouvez à peine l'analyser lorsque le problème est légèrement plus sensible d'après mon expérience.
Henry.L
@ Henry.L ... néanmoins, cela fait partie de l'histoire de la pensée statistique :) Notez également que ce n'est pas seulement Fienberg qui fournit de tels exemples. Tout le rebelle anti-probabilité inverse et anti-bayésien a commencé parce qu'il est devenu très populaire.
Tim
@Tim Oui, je suppose que c'est ce que Thomas Kuhn a appelé "changement de schéma" et également connu sous le nom de "... les adversaires finissent par mourir, et une nouvelle génération grandit" :)).
Henry.L
5

Quelques commentaires sur les failles des prieurs non informatifs (prieurs non informatifs) sont probablement une bonne idée car l'étude de ces failles a aidé au développement du concept de non informatif antérieur dans l'histoire.

Vous voudrez peut-être ajouter quelques commentaires sur les inconvénients / défauts de l'adoption de priors non informatifs. Parmi de nombreuses critiques, j'en signale deux.

(1) Généralement, l'adoption de priors non informatifs a des problèmes de cohérence, en particulier lorsque la distribution du modèle a un comportement multimodal.

Ce problème n'est pas propre aux prieurs non informatifs, mais il est partagé par de nombreuses autres procédures bayésiennes comme indiqué dans l'article suivant avec ses discussions.

Diaconis, Persi et David Freedman. "Sur la cohérence des estimations de Bayes." The Annals of Statistics (1986): 1-26.

De nos jours, le prieur non informatif n'est plus un axe de recherche. Il semble qu'il y ait plus d'intérêt à des choix plus flexibles de priorité dans les paramètres non paramétriques. Des exemples sont le processus gaussien antérieur dans la procédure de Bayes non paramétrique ou un modèle flexible comme un mélange de prieurs de Dirichlet, comme dans

Antoniak, Charles E. "Mélanges de processus de Dirichlet avec des applications aux problèmes non paramétriques bayésiens." Les annales des statistiques (1974): 1152-1174.

Mais là encore, un tel a priori a ses propres problèmes de cohérence.

(2) La plupart des soi-disant «prieurs non informatifs» ne sont pas bien définis.

C'est probablement le problème le plus évident associé aux prieurs non informatifs au cours de leur développement.

Un exemple est que la définition de la limite du prieur non informatif comme limite d'une séquence de prieurs appropriés conduira à un paradoxe de marginalisation. Comme vous l'avez mentionné, la référence de Bernardo a également le problème que Berger n'a jamais prouvé que sa définition formelle est indépendante de sa construction / partition. Voir la discussion dans

Berger, James O., José M. Bernardo et Dongchu Sun. "La définition formelle des prieurs de référence." The Annals of Statistics (2009): 905-938.

Une meilleure définition de l'a priori de Jeffreys qui est bien définie est qu'il est choisi pour être un a priori tel qu'il est invariant sous une certaine traduction parallèle sur la variété riemannienne équipée de la métrique d'information Fisher, mais même cela ne résout pas le premier problème.

Vous pouvez également lire mon explication sur le paradoxe de la marginalisation .

Henry.L
la source
C'est un excellent article et aucun d'entre nous n'y a pensé. Bon travail.
Dave Harris
J'ai apporté plusieurs petites modifications à l'expression sans essayer de changer le sens ou l'implication. Veuillez vérifier que votre signification est invariante lors de l'édition.
Nick Cox
4

J'aurais posté dans les commentaires, mais je suppose que je n'ai pas encore la réputation. La seule chose qui manque, pas dans les commentaires déjà marqués, est un cas particulier de prieurs non informatifs dont je n'ai pas retrouvé les origines que j'ai essayé de traquer. Il peut précéder le papier Jeffreys.

Pour la distribution normale, j'ai vu la distribution de Cauchy utilisée comme a priori non informatif pour les données avec une probabilité normale. La raison en est que la précision de la distribution de Cauchy est nulle, où la précision est une divisée par la variance. Cela crée un ensemble assez particulier de concepts contradictoires.

1πΓΓ2+(X-μ)2.

Selon la façon dont vous définissez l'intégrale, il n'y a pas de variance définie ou elle va à l'infini autour de la médiane, ce qui implique que la précision va à zéro. Dans la mise à jour conjuguée, qui ne s'appliquerait pas ici, vous ajoutez les précisions pondérées. Je pense que c'est pourquoi cette idée d'un a priori propre avec une densité parfaitement imprécise s'est formée. Il est également équivalent au t de Student avec un degré de liberté, qui pourrait également être la source.

2Γ

Les deux premières références à la distribution de Cauchy sont des fonctions de vraisemblance. Le premier d'une lettre de Poisson à Laplace en tant qu'exception au théorème de la limite centrale. Le second était en 1851, des articles de journaux dans une bataille entre Bienayme 'et Cauchy sur la validité des moindres carrés ordinaires.

J'ai trouvé des références à son utilisation en tant que non informatif dans les années 80, mais je ne trouve pas de premier article ou livre. Je n'ai pas non plus trouvé de preuve qu'il ne soit pas informatif. J'ai trouvé une citation au livre de Jeffreys de 1961 sur la théorie des probabilités, mais je n'ai jamais demandé le livre via un prêt entre bibliothèques.

Il peut être simplement faiblement informatif. La région à plus haute densité de 99,99% est large de 1272 plages semi-interquartiles.

J'espère que ça aide. C'est un cas spécial étrange, mais vous le voyez apparaître dans un certain nombre de documents de régression. Il satisfait aux exigences d'une action Bayes en étant un bon préalable, tout en influençant le moins possible l'emplacement et l'échelle.

Dave Harris
la source