Nous avons N échantillons, , d'une distribution uniforme où est inconnue. Estimer partir des données.
Donc, la règle de Bayes ...
et la probabilité est:
(edit: quand pour tout , et 0 sinon - merci whuber)
mais sans aucune autre information sur , il semble que l'a priori devrait être proportionnel à (ie uniforme) ou à (Jeffreys avant?) sur mais alors mes intégrales ne ne converge pas, et je ne sais pas comment procéder. Des idées?
Réponses:
Cela a généré un débat intéressant, mais notez que cela ne fait vraiment pas beaucoup de différence sur la question d'intérêt. Personnellement, je pense que parce que est un paramètre d'échelle, l'argument du groupe de transformation est approprié, conduisant à un prior deθ
Cette distribution a la même forme lors de la mise à l'échelle du problème (la probabilité reste également "invariante" lors de la mise à l'échelle). Le noyau de cet a priori, peut être dérivé en résolvant l'équation fonctionnelle . Les valeurs dépendent du problème et ne comptent vraiment que si la taille de l'échantillon est très petite (comme 1 ou 2). Le postérieur est une pareto tronquée, donnée par:f(y)=y−1 af(ay)=f(y) L,U
Mais supposons maintenant que nous utilisons un a priori plus général, donné par (notez que nous gardons les limites pour nous assurer que tout est correct - pas de calcul singulier alors ). Le postérieur est alors le même que ci-dessus, mais avec remplacé par - à condition que . En répétant les calculs ci-dessus, nous la moyenne postérieure simplifiée dep(θ|cI)∝θ−c−1 L,U N c+N c+N≥0
Donc, l'a priori uniforme ( ) donnera une estimation de condition que (la moyenne est infinie pour ). Cela montre que le débat ici est un peu comme s'il faut utiliser ou comme diviseur dans l'estimation de la variance.c=−1 N−1N−2X(N) N≥2 N=2 N N−1
Un argument contre l'utilisation de l'uniforme impropre antérieur dans ce cas est que le postérieur est incorrect lorsque , car il est proportionnel à . Mais cela n'a d'importance que si ou est très petit.N=1 θ−1 N=1
la source
Étant donné que le but ici est vraisemblablement d'obtenir une estimation valide et utile de , la distribution antérieure doit être cohérente avec la spécification de la distribution de la population dont provient l'échantillon. Cela ne signifie en aucune façon que nous «calculons» l'a priori en utilisant l'échantillon lui-même - cela annulerait la validité de la procédure entière. Nous savons que la population dont provient l'échantillon est une population de iid variables aléatoires uniformes, chacune comprise dans . Il s'agit d'une hypothèse maintenue et fait partie des informations antérieures que nous possédons (et cela n'a rien à voir avec l' échantillon , c'est-à-dire avec une réalisation spécifique d'un sous-ensemble de ces variables aléatoires).[ 0 , θ ]θ [0,θ]
Supposons maintenant que cette population se compose de variables aléatoires (alors que notre échantillon se compose de réalisations de variables aléatoires). L'hypothèse maintenue nous dit que n < m n max i = 1 , . . . , N { X i } ≤ max j = 1 , . . . , m { X j } ≤ θm n<m n
compacité . Ensuite, nous avons qui peut également s'écrire θ ≥ X ∗ θ = c X ∗maxi=1,...,n{Xi}≡X∗ θ≥X∗
La fonction de densité du des iid rv uniformes compris dans est N [ 0 , θ ] f X ∗ ( x ∗ ) = N ( x ∗ ) N - 1max N [0,θ]
pour le support , et zéro ailleurs. Ensuite, en utilisant et en appliquant la formule de changement de variable, nous obtenons une distribution préalable pour qui est cohérente avec l'hypothèse maintenue: θ = c X ∗ θ f p ( θ ) = N ( θ[0,θ] θ=cX∗ θ
ce qui peut être incorrect si nous ne spécifions pas la constante convenablement. Mais notre intérêt réside dans le fait d'avoir un postérieur approprié pour , et aussi, nous ne voulons pas restreindre les valeurs possibles de (au-delà de la restriction impliquée par l'hypothèse maintenue). On laisse donc indéterminé. Puis en écrivant le postérieur estc θ θ c
X={x1,..,xn}
pour une constante de normalisation A. Nous voulons
Insérer dans le postérieur
Notez que la constante indéterminée de la distribution précédente s'est commodément annulée.c
Le postérieur résume toutes les informations que l'échantillon spécifique peut nous donner concernant la valeur de . Si nous voulons obtenir une valeur spécifique pour nous pouvons facilement calculer la valeur attendue de la partie postérieure,θ θ
Y a-t-il une intuition dans ce résultat? Eh bien, à mesure que le nombre de augmente, le plus probable est que la réalisation maximale parmi eux sera de plus en plus proche de leur limite supérieure, - ce qui est exactement ce que reflète la valeur moyenne postérieure de : si, disons , , mais si . Cela montre que notre tactique concernant la sélection du prieur était raisonnable et cohérente avec le problème en question, mais pas nécessairement "optimale" dans un certain sens.θ θ N = 2 ⇒ E ( θ ∣ X ) = 2 x ∗ N = 10 ⇒ E ( θ ∣ X ) = 10X θ θ N=2⇒E(θ∣X)=2x∗ N=10⇒E(θ∣X)=109x∗
la source
Théorème de distribution a priori uniforme (cas d'intervalle):
"Si la totalité de Vos informations sur externes aux données est capturée par la proposition unique alors Votre seule spécification antérieure logique cohérente en interne estθ D
Ainsi, votre spécification antérieure doit correspondre à celle de Jeffrey si vous croyez vraiment au théorème ci-dessus. "
Ne fait pas partie du théorème de distribution préalable uniforme:
Alternativement, vous pouvez spécifier votre distribution précédente comme une distribution de Pareto, qui est la distribution conjuguée de l'uniforme, sachant que votre distribution postérieure devra être une autre distribution uniforme par conjugaison. Cependant, si vous utilisez la distribution Pareto, vous devrez alors spécifier les paramètres de la distribution Pareto d'une manière ou d'une autre.f(θ)
la source