Inspiré par un commentaire de cette question :
Que considérons-nous comme "non informatif" dans un précédent - et quelles informations sont encore contenues dans un précédent prétendument non informatif?
Je vois généralement le prieur dans une analyse où il s’agit d’une analyse de type fréquentiste qui tente d’emprunter de belles parties de l’analyse bayésienne distribution uniforme à travers les limites de la mesure de l'effet, centrée sur 0. Mais même si cela revendique une forme antérieure, elle se trouve simplement plate.
Y a-t-il un meilleur informatif avant l'utilisation?
Réponses:
[Attention: en tant que membre titulaire de la section Objective Bayes de l'ISBA , mes opinions ne sont pas représentatives de tous les statisticiens bayésiens !, bien au contraire ...]
En résumé, il n’existe pas de prieur avec "vraiment aucune information".
En effet, le prieur "non informatif" est malheureusement un abus de langage. Toute distribution antérieure contient une spécification qui s'apparente à une certaine quantité d'informations. Même (ou surtout) l'uniforme antérieur. En effet, le prieur uniforme n’est plat que pour un paramétrage donné du problème. Si on passe à un autre paramétrage (même un borné), le changement de variable jacobien entre en image et en densité et le précédent n'est plus plat.
Comme le souligne Elvis, l’entropie maximale est l’une des méthodes préconisées pour sélectionner des a priori "non informatifs". Cependant, il faut (a) suffisamment d’ informations sur certains moments de la distribution antérieure pour spécifier les contraintes menant au maxEnt précédent et (b) le choix préliminaire d'une mesure de référence [en continu], un choix qui ramène le débat à son stade initial! (En outre, le paramétrage des contraintes (ie le choix deh(θ) π(⋅)
José Bernardo a élaboré une théorie originale des priors de référence dans laquelle il choisit le prieur afin de maximiser les informations apportées par les données en maximisant la distance de Kullback entre le préexistant et le postérieur. Dans les cas les plus simples sans paramètres gênants, la solution est celle de Jeffreys. Dans les problèmes plus complexes, (a) un choix des paramètres d’intérêt (ou même un classement de leur ordre d’intérêt) doit être effectué; (b) le calcul du prior est assez compliqué et nécessite une séquence d'ensembles compacts incorporés pour éviter les problèmes d'impropriété. (Voir par exemple The Bayesian Choice pour plus de détails.)
Fait intéressant, certains chercheurs extérieurs à la perspective bayésienne ont mis au point des procédures appelées distributions de confiance qui sont des distributions de probabilité sur l’espace des paramètres, construites par inversion à partir de procédures basées sur la fréquence sans structure préalable explicite ni même une mesure dominante sur cet espace de paramètres. Ils avancent que cette absence de priorité bien définie est un avantage, bien que le résultat dépende définitivement du choix de la procédure d'initialisation basée sur la fréquence
En bref, il n’existe pas de "meilleur" choix (ou même de "meilleur") pour "le" précédent "non informatif". Et j'estime que cela devrait être ainsi, car la nature même de l'analyse bayésienne implique que le choix de la distribution antérieure importe. Et qu'il n'y a pas de comparaison de prieur: on ne peut pas être "meilleur" qu'un autre. (Au moins avant d'observer les données: une fois que cela est observé, la comparaison des a priori devient un choix de modèle.) La conclusion de José Bernardo, de Jim Berger, de Dongchu Sun et de nombreux autres bayésiens "objectifs" est qu'il existe des a priori de référence à peu près équivalents. utiliser en cas de doute sur ses informations antérieures ou pour rechercher une inférence bayésienne de référence, certains de ces précédents étant en partie pris en charge par des arguments de la théorie de l'information,
la source
Une propriété attrayante des priors non informels formels est la "propriété d'appariement fréquentiste": elle signifie qu'un intervalle de crédibilité postérieur de 95% est également (au moins approximativement) un intervalle de confiance au sens fréquentiste. Cette propriété est valable pour la référence antérieure de Bernardo bien que les fondations de ces prieurs non informatifs ne soient pas orientées vers la réalisation d’une bonne propriété d’appariement fréquentiste. la distribution avec une énorme variance alors il n'y a aucune garantie que la propriété d'appariement fréquentiste est valide. Peut-être que le précédent de référence de Bernardo ne pouvait pas être considéré comme le "meilleur" choix d'un précédent non informatif, mais pourrait être considéré comme le plus réussi.
la source
Les distributions de Jeffreys souffrent aussi d’incohérences: les a priori de Jeffreys pour une variable plus ou plus sont incorrects, ce qui n’est pas le cas pour l’antérieur de Jeffreys d’un paramètre de probabilité : la mesure a une masse de sur .(−∞,∞) (0,∞) p dp/p(1−p)−−−−−−−√ π (0,1)
Renyi a montré qu'une distribution non informative doit être associée à une intégrale inappropriée. Voir à la place les distributions de Lhoste qui évitent cette difficulté et sont invariantes aux changements de variables (par exemple, pour , la mesure est ).p dp/p(1−p)
Tout d'abord, la traduction est bonne!
Pour E. LHOSTE: "Le calcul des probabilités appliquées à l'artillerie", Revue d'artillerie, tome 91, mai à août 1923
Pour A. RENYI: "Sur une nouvelle théorie axiomatique de la probabilité" Acta Mathematica, Académie des Sciences hongroises, tome VI, fasc.3-4, 1955
Je peux ajouter: M. DUMAS: "Lois de probabilité a priori de Lhoste", Sciences et techniques de l'armement, 56, 4ème fascicule, 1982, pp 687-715.
la source
Je souscris à l'excellente réponse de Xi'an , soulignant qu'il n'y a pas de simple précédent qui soit "non informatif" au sens où il ne porte aucune information. Pour approfondir ce sujet, je voulais souligner que l’une des solutions possibles est d’entreprendre une analyse bayésienne dans le cadre improbable des probabilités (voir notamment Walley 1991 , Walley 2000 ). Dans ce cadre, la croyance antérieure est représentée par un ensemble de distributions de probabilitéet ceci conduit à un ensemble correspondant de distributions postérieures. Cela pourrait sembler ne pas être très utile, mais c'est en fait assez étonnant. Même avec un ensemble très large de distributions antérieures (où certains moments peuvent aller sur toutes les valeurs possibles), vous obtenez toujours une convergence postérieure vers un seul postérieur, tel que .n→∞
Ce cadre analytique a été axiomatisé par Walley comme sa propre forme spéciale d’analyse probabiliste, mais est essentiellement équivalent à une analyse bayésienne robuste utilisant un ensemble de priors, produisant un ensemble correspondant de postérieurs. Dans de nombreux modèles, il est possible de définir un ensemble de "a priori" "non informatif" qui permet à certains moments (par exemple, la moyenne antérieure) de varier sur toute la plage de valeurs possible, tout en produisant de précieux résultats postérieurs, où les moments postérieurs sont liés. plus étroitement. On peut soutenir que cette forme d’analyse peut être qualifiée de "non informative", du moins en ce qui concerne les moments susceptibles de varier sur toute la plage autorisée.
Un exemple simple - modèle de Bernoulli: supposons que nous observions les données où est le paramètre inconnu inconnu. Habituellement, nous utilisions une densité bêta en tant qu'antérieur (à la fois les antécédents de Jeffrey et de référence sont de cette forme). Nous pouvons spécifier cette forme de densité antérieure en fonction de la moyenne antérieure et d'un autre paramètre comme :X1,...,Xn|θ∼IID Bern(θ) θ μ κ>1
(Ce formulaire donne les moments précédents et .) Maintenant, dans un modèle imprécis, nous pourrions définissez la valeur before pour qu'elle comprenne l' ensemble de toutes ces distributions antérieures sur toutes les valeurs attendues possibles , mais avec l'autre paramètre fixé pour contrôler la précision sur la plage des valeurs moyennes. Par exemple, nous pourrions utiliser le jeu de priors:E(θ)=μ V(θ)=μ(1−μ)/κ
Supposons que nous observions indicateurs positifs dans les données. Ensuite, en utilisant la règle de mise à jour pour le modèle Bernoulli-beta, l'ensemble postérieur correspondant est:s=∑ni=1xi
La plage de valeurs possibles pour l'attente postérieure est la suivante:
Ce qui est important ici, c’est que, même si nous avons commencé avec un modèle qui était «non informatif» par rapport à la valeur attendue du paramètre (l’attente antérieure allait de toutes les valeurs possibles), nous aboutissons néanmoins à des inférences postérieures informatives en ce qui concerne à l’attente postérieure du paramètre (elles s’étendent maintenant sur un ensemble de valeurs plus étroit). Comme cette plage de valeurs est réduite à un seul point, qui est la valeur vraie de .n→∞ θ
la source