J'ai une variable aléatoire qui prend des valeurs dans les entiers non négatifs , appelle les probabilités pour chaque résultat . Je peux échantillonner de la distribution de indépendamment et à moindre coût; J'ai actuellement un échantillon de . Il semble que , avec une décroissance à peu près exponentielle.
J'ai une séquence de formes quadratiques avec des coefficients positifs:
- ...
- ...
Ce que j'aimerais avoir, c'est un intervalle de confiance pour les inférieur à large, mais je prendrai tout ce que je pourrai obtenir.
J'ai des limites rigoureuses sur le , et étant donné que les coefficients des « s sont tous positifs, il est facile de les transformer en limites rigoureuses pour les » s. Mais je ne sais pas comment le faire correctement avec des intervalles de confiance.
C'est à propos de quoi? J'ai trouvé un phénomène bizarre dans la théorie des nombres, et je sais comment prouver que cela se produit vraiment, mais en fait, cela nécessitera un certain effort de programmation de ma part et beaucoup de temps sur notre cluster local. Avant d'investir ce temps et de boucher notre machine, j'aimerais être plus certain que moi que le phénomène est réel.
Je veux quantifier le caractère raisonnable de ma prétention que et . Mes estimations indiquent que est d'environ , c'est pourquoi je voulais des CI à cette résolution.
Fixez un grand entier , et que soit un sous-ensemble uniformément choisi de (c'est-à-dire que chaque sous-ensemble particulier a une probabilité de d'être choisi). Soit la probabilité qu'exactement des nombres de ne puissent pas être écrits comme une somme de deux éléments de ; soit . C'est un peu difficile à prouver, mais ces limites existent et . Il n'est pas surprenant que soit petit et que augmenteaugmente, a un pic puis décroît de façon exponentielle. La partie bizarre est qu'il y a un biais contre 7. Autrement dit, expérimentalement et . C'est-à-dire que ce qui n'était pas une surprise n'est pas vrai: la distribution est bimodale.
Je peux exprimer les (en utilisant une théorie) comme ci-dessus sans limite en termes de cette autre distribution, définie par les . C'est pratique parce que j'ai un moyen de lier rigoureusement les utilisant, comme je l'ai mentionné ci-dessus, de gros calculs. De plus, j'ai un très grand ensemble de données pour la variable
la source
Réponses:
Dans ma réponse, je fournis de nombreux liens vers des documents de référence pour économiser de l'espace ici. Je vais écrire ma réponse en prenant les informations dans les liens comme indiqué.
Je pense qu'une approche bayésienne est un ajustement naturel à ce problème, d'autant plus que vous ne cherchez qu'à vous convaincre. C'est un peu compliqué d'utiliser des intervalles de confiance pour répondre à la question qui vous tient vraiment à cœur, à savoir à quel point est-il plausible que et étant donné l'échantillon de la distribution? L'approche bayésienne vous permet d'aborder cette question directement.Q7<Q6 Q7<Q8 zje
Fonction de vraisemblance
Soit la fréquence observée du résultat entier dans votre échantillon et Soit la taille de l'échantillon. La fonction de vraisemblance est proportionnelle à la distribution multinomiale . Il a la formeFk k N
Distribution préalable
La distribution de Dirichlet est le choix naturel pour la distribution a priori, car c'est l'a priori conjugué pour la vraisemblance multinomiale. Il a la forme
Cet a priori a neuf hyperparamètres (les valeurs ), et ils sont un peu pénibles à gérer. Dans ce contexte de «grand échantillon», tout choix raisonnable de valeurs hyperparamétriques aura une influence négligeable sur le résultat, mais je pense que cela vaut la peine de consacrer un peu d'effort à sélectionner des valeurs sensibles.αje
Voici comment je recommande de régler les hyperparamètres. Tout d'abord, notez que sous cette distribution . Ensuite, notez que la distribution d'entropie maximale la plus simple sur les naturels est la distribution géométrique . Alors misE (zje) =αje∑8i = 0αje
Alors , donc la distribution de est centrée sur une distribution géométrique (tronquée). De plus, , donc la valeur de contrôle la dispersion autour de cette attente mais n'a aucun effet sur l'attente lui-même.E (zje) =rje(1 - r1 -r9) zje V a r (zje) ∝1( A + 1 ) UNE
Cette spécification réduit le nombre de hyperparam'etres des neuf valeurs à tout et . Je vais différer la discussion des valeurs spécifiques de et pour l'instant.αje r UNE r UNE
Probabilité postérieure de la proposition d'intérêt
La distribution postérieure des est la distribution de Dirichlet suivante:zje
Soit . La probabilité postérieure qui vous intéresse estY = {z0, . . .z8|Q7<Q6 et Q7<Q8}
Cette intégrale est intraitable, mais vous pouvez calculer la probabilité d'intérêt numériquement en utilisant l'algorithme de Monte Carlo suivant.
Pour de à ,j 1 J
Échantillonnez un ensemble de valeurs partir de leur distribution postérieure.zje
Utilisez les valeurs échantillonnées pour calculer où est la fonction d'indicateur.yj= Je(Q7<Q6) Je(Q7<Q8) je( ⋅ )
Alors .Pr (Q7<Q6 et Q7<Q8|F0, . . . ,F8) ≈∑Jj = 0yjJ
La précision de l'approximation de Monte Carlo va comme : vous donnera au moins deux décimales de précision 19 fois sur 20, vous obtiendra au moins trois décimales de précision 19 fois sur 20, etc.J--√ J=dix4 J=dix6
Et si votre probabilité d'intérêt postérieure n'est pas proche de 0 ou 1, il suffit d'échantillonner plus de données, de rincer et de répéter.
Hyperparamètres antérieurs, deuxième partie
L'exposant de dans l'expression de la densité postérieure estzje
On peut voir que l'hyperparamètre joue le même rôle dans la distribution a priori que joue dans la vraisemblance - c'est une sorte de "taille d'échantillon antérieure". Pour garantir que le prieur a une influence négligeable sur la conclusion, il suffit de choisir une valeur de telle que ; par exemple, .UNE N UNE UNE ≪ N UNE = 1
Pour définir , notez que vous pouvez calculer la probabilité antérieure de la proposition utilisant le même algorithme de Monte Carlo décrit ci-dessus mais avec la distribution antérieure à la place de la distribution postérieure à l'étape 1 de la boucle. Essayez de trouver une valeur de qui donne une probabilité antérieure de 0,5 (ou moins, si vous pensez que c'est plus raisonnable).r Q7<Q6 et Q7<Q8 r
la source
Je suppose que les z_k ne sont pas des probabilités mais des fréquences d'échantillonnage. En effet, sinon, Q_i (z_0, ..., z_i) n'est pas une variable aléatoire. Dans ce cas, le calcul de la variance des Q_i est une algèbre simple. Définissons d'abord les indicateurs d'événement Z_i qui est 1 si Z == i, 0 sinon. C'est une variable aléatoire de Bernoulli avec une probabilité p_i. Vous pouvez calculer les premier et deuxième moments de n'importe laquelle de ces variables et elles devraient vous donner tous les termes nécessaires pour calculer la variance des Q_i.
la source
Kevin, soyez prudent, car je vais devoir changer un peu votre notation: vos ne sont pas mes .zje zje
Je pense que la solution bayésienne suivante vaut la peine d'être essayée. Faites cuire un paramètre aléatoire et laissez être conditionnellement iid, étant donné , avec . Utilisez la notation . Vous disposez déjà d' un échantillon du d », avec . Définissez les variables aléatoires Pour (si cela n'est pas clair, jetez un oeil ). Maintenant, dans cette formulation, vos formes quadratiquesΛ>0 Z1,…,Zn Λ=λ Zi∣Λ=λ∼Poisson(λ) Z=(Z1,…,Zn) z=(z1,…,zn) Zi n=228
la source