Intervalles de confiance pour un polynôme

8

J'ai une variable aléatoire qui prend des valeurs dans les entiers non négatifs , appelle les probabilités pour chaque résultat . Je peux échantillonner de la distribution de indépendamment et à moindre coût; J'ai actuellement un échantillon de . Il semble que , avec une décroissance à peu près exponentielle. $Z$ $\{ 0,1,2,\dots \}$ $z_k:=P[Z=k]$ $Z$ $2^{28}$ $z_0\approx 0.24, z_1\approx 0.18,\dots$

J'ai une séquence de formes quadratiques avec des coefficients positifs:

$Q_0(z_0) = \frac14 z_0^2$
$Q_1(z_0,z_1) = \frac 12 {z_0 z_1}$
...
$Q_7(z_0,z_1,\dots,z_7) = \frac{1}{8} \left(2 z_0 z_1+3 z_2 z_1+4 z_4 z_1+4 z_6 z_1+3 z_0 z_3 + \right.$ $\qquad\qquad\qquad\qquad\qquad\qquad \left. +4 z_2 z_3+4 z_3 z_4+4 z_0 z_5+4 z_2 z_5+4 z_0 z_7\right)$
...

Ce que j'aimerais avoir, c'est un intervalle de confiance pour les inférieur à large, mais je prendrai tout ce que je pourrai obtenir. $Q_i$ $10^{-4}$

J'ai des limites rigoureuses sur le , et étant donné que les coefficients des « s sont tous positifs, il est facile de les transformer en limites rigoureuses pour les » s. Mais je ne sais pas comment le faire correctement avec des intervalles de confiance. $z_i$ $Q$ $Q$

C'est à propos de quoi? J'ai trouvé un phénomène bizarre dans la théorie des nombres, et je sais comment prouver que cela se produit vraiment, mais en fait, cela nécessitera un certain effort de programmation de ma part et beaucoup de temps sur notre cluster local. Avant d'investir ce temps et de boucher notre machine, j'aimerais être plus certain que moi que le phénomène est réel.

Je veux quantifier le caractère raisonnable de ma prétention que et . Mes estimations indiquent que est d'environ , c'est pourquoi je voulais des CI à cette résolution. $Q_7<Q_6$ $Q_7<Q_8$ $Q_6-Q_7$ $5\cdot 10^{-4}$

Fixez un grand entier , et que soit un sous-ensemble uniformément choisi de (c'est-à-dire que chaque sous-ensemble particulier a une probabilité de d'être choisi). Soit la probabilité qu'exactement des nombres de ne puissent pas être écrits comme une somme de deux éléments de ; soit . C'est un peu difficile à prouver, mais ces limites existent et . Il n'est pas surprenant que soit petit et que augmente $n$ $A$ $\{1,2,\dots,n\}$ $2^{-n}$ $Q_k(n)$ $k$ $\{2,3,\dots,2n\}$ $A$ $Q_k = \lim_n Q_k(n)$ $\sum_{k} Q_k =1$ $Q_0$ $k$ $Q_k$ augmente, a un pic puis décroît de façon exponentielle. La partie bizarre est qu'il y a un biais contre 7. Autrement dit, expérimentalement et . C'est-à-dire que ce qui n'était pas une surprise n'est pas vrai: la distribution est bimodale. $Q_7< Q_6$ $Q_7<Q_8$

Je peux exprimer les (en utilisant une théorie) comme ci-dessus sans limite en termes de cette autre distribution, définie par les . C'est pratique parce que j'ai un moyen de lier rigoureusement les utilisant, comme je l'ai mentionné ci-dessus, de gros calculs. De plus, j'ai un très grand ensemble de données pour la variable $Q_i$ $z_i$ $z_i$ $Z$

confidence-interval Kevin O'Bryant
la source

Votre malaise avec le langage des intervalles de confiance, mais sinon une présentation rigoureuse, suggère que vous pourriez être en bonne position pour nous donner un peu plus d'informations pour vous aider. Normalement, vous pouvez spécifier l'une des deux propriétés d'un CI: sa couverture ou sa longueur. L'autre sera déterminé par les données. Il est cependant inhabituel de stipuler la longueur: êtes-vous sûr que c'est ce que vous voulez? En outre, il n'est pas clair si vous avez besoin d'IC pour les Q séparément ou simultanément. Peut-être pourriez-vous indiquer à quoi vous avez l'intention d'utiliser ces CI?

whuber

3

Dans ma réponse, je fournis de nombreux liens vers des documents de référence pour économiser de l'espace ici. Je vais écrire ma réponse en prenant les informations dans les liens comme indiqué.

Je pense qu'une approche bayésienne est un ajustement naturel à ce problème, d'autant plus que vous ne cherchez qu'à vous convaincre. C'est un peu compliqué d'utiliser des intervalles de confiance pour répondre à la question qui vous tient vraiment à cœur, à savoir à quel point est-il plausible que et étant donné l'échantillon de la distribution? L'approche bayésienne vous permet d'aborder cette question directement. $Q_{7}<Q_{6}$ $Q_{7}<Q_{8}$ $z_{i}$

Fonction de vraisemblance

Soit la fréquence observée du résultat entier dans votre échantillon et Soit la taille de l'échantillon. La fonction de vraisemblance est proportionnelle à la distribution multinomiale . Il a la forme $f_k$ $k$ $N$

$L(z_{0},...z_{8};f_{0},...f_{8})=\prod_{i=0}^{8}{z_{i}}^{Nf_{i}}$ .

Distribution préalable

La distribution de Dirichlet est le choix naturel pour la distribution a priori, car c'est l'a priori conjugué pour la vraisemblance multinomiale. Il a la forme

$p(z_{0},...z_{8};\alpha_{0},...,\alpha_{8})\propto\prod_{i=0}^{8}{z_{i}}^{\alpha_{i}-1}$

Cet a priori a neuf hyperparamètres (les valeurs ), et ils sont un peu pénibles à gérer. Dans ce contexte de «grand échantillon», tout choix raisonnable de valeurs hyperparamétriques aura une influence négligeable sur le résultat, mais je pense que cela vaut la peine de consacrer un peu d'effort à sélectionner des valeurs sensibles. $\alpha_i$

Voici comment je recommande de régler les hyperparamètres. Tout d'abord, notez que sous cette distribution . Ensuite, notez que la distribution d'entropie maximale la plus simple sur les naturels est la distribution géométrique . Alors mis $\mathrm{E}(z_{i})=\frac{\alpha_{i}}{\sum_{i=0}^{8}\alpha_{i}}$

$\alpha_{i+1}=r\alpha_{i}=r^{i}\alpha_{0},\,0<r<1,$

$\alpha_{0}=A\left(\frac{1-r}{1-r^{9}}\right).$

Alors , donc la distribution de est centrée sur une distribution géométrique (tronquée). De plus, , donc la valeur de contrôle la dispersion autour de cette attente mais n'a aucun effet sur l'attente lui-même. $\mathrm{E}(z_{i})=r^{i}\left(\frac{1-r}{1-r^{9}}\right)$ $z_{i}$ $\mathrm{Var}\left(z_{i}\right)\propto\frac{1}{(A+1)}$ $A$

Cette spécification réduit le nombre de hyperparam'etres des neuf valeurs à tout et . Je vais différer la discussion des valeurs spécifiques de et pour l'instant. $\alpha_{i}$ $r$ $A$ $r$ $A$

Probabilité postérieure de la proposition d'intérêt

La distribution postérieure des est la distribution de Dirichlet suivante: $z_{i}$

$p(z_{0},...z_{8}|f_{0},...,f_{8})\propto\prod_{i=0}^{8}{z_{i}}^{\alpha_{i}+Nf_{i}-1}.$

Soit . La probabilité postérieure qui vous intéresse est $\mathbb{Y}=\left\{ z_{0},...z_{8}|Q_7<Q_6 \text{ and } Q_7<Q_8\right\}$

$\Pr(Q_7<Q_6 \text{ and } Q_7<Q_8|f_0,...,f_8) \propto \int_{\mathbb{Y}}\prod_{i=0}^{8}{z_{i}}^{\alpha_{i}+Nf_i-1}dz_{i}.$

Cette intégrale est intraitable, mais vous pouvez calculer la probabilité d'intérêt numériquement en utilisant l'algorithme de Monte Carlo suivant.

Pour de à , $j$ $1$ $J$

Échantillonnez un ensemble de valeurs partir de leur distribution postérieure. $z_i$
Utilisez les valeurs échantillonnées pour calculer où est la fonction d'indicateur. $y_j=I(Q_{7}<Q_{6})I(Q_{7}<Q_{8})$ $I(\cdot)$

Alors . $\Pr(Q_7<Q_6 \text{ and }Q_7<Q_8|f_{0},...,f_{8})\approx \frac{\sum_{j=0}^Jy_j}{J}$

La précision de l'approximation de Monte Carlo va comme : vous donnera au moins deux décimales de précision 19 fois sur 20, vous obtiendra au moins trois décimales de précision 19 fois sur 20, etc. $\sqrt{J}$ $J=10^4$ $J=10^6$

Et si votre probabilité d'intérêt postérieure n'est pas proche de 0 ou 1, il suffit d'échantillonner plus de données, de rincer et de répéter.

Hyperparamètres antérieurs, deuxième partie

L'exposant de dans l'expression de la densité postérieure est $z_i$

$\alpha_i + Nf_i - 1 = Ar^{i}\left(\frac{1-r}{1-r^{9}}\right) +Nf_i - 1 = A\mathrm{E}(z_i) +Nf_i - 1$

On peut voir que l'hyperparamètre joue le même rôle dans la distribution a priori que joue dans la vraisemblance - c'est une sorte de "taille d'échantillon antérieure". Pour garantir que le prieur a une influence négligeable sur la conclusion, il suffit de choisir une valeur de telle que ; par exemple, . $A$ $N$ $A$ $A\ll N$ $A = 1$

Pour définir , notez que vous pouvez calculer la probabilité antérieure de la proposition utilisant le même algorithme de Monte Carlo décrit ci-dessus mais avec la distribution antérieure à la place de la distribution postérieure à l'étape 1 de la boucle. Essayez de trouver une valeur de qui donne une probabilité antérieure de 0,5 (ou moins, si vous pensez que c'est plus raisonnable). $r$ $Q_7<Q_6 \text{ and } Q_7<Q_8$ $r$

Cyan
la source

Naw, je saute juste quelques détails techniques. Une analyse plus complète sur le plan technique commencerait par un processus de Dirichlet et montrerait ensuite que le résultat de la marginalisation de l'ensemble infiniment dénombrable de paramètres non pertinents est la distribution de Dirichlet que je donne ci-dessus.

z_{i}

$z_i$

Cyan

1

Je suppose que les z_k ne sont pas des probabilités mais des fréquences d'échantillonnage. En effet, sinon, Q_i (z_0, ..., z_i) n'est pas une variable aléatoire. Dans ce cas, le calcul de la variance des Q_i est une algèbre simple. Définissons d'abord les indicateurs d'événement Z_i qui est 1 si Z == i, 0 sinon. C'est une variable aléatoire de Bernoulli avec une probabilité p_i. Vous pouvez calculer les premier et deuxième moments de n'importe laquelle de ces variables et elles devraient vous donner tous les termes nécessaires pour calculer la variance des Q_i.

AdamO
la source

Non, les sont des constantes de la nature, et par conséquent est aussi. C'est un vrai nombre, mais la question est de savoir quel nombre réel. Mon échantillonnage me permet d'estimer le , et si je branche ceux-ci dans la formule liant au , j'obtiens une estimation pour (environ ). Mais je ne comprends pas à quel point cette estimation est bonne. Si je prends 99% d'IC pour chaque et que je les branche, j'obtiens un intervalle, mais quel est le niveau de confiance? Je ne pense pas non plus que les CI pour le soient indépendants.

z_{i}

$z_i$

Q_{7}

$Q_7$

{\hat{z}}_{i}

$\hat{z}_i$

Q_{7}

$Q_7$

z_{i}

$z_i$

Q_{7}

$Q_7$

0.07

$0.07$

z_{i}

$z_i$

z_{i}

$z_i$

Kevin O'Bryant

Le manque d'indépendance n'est pas un problème ici, Kevin (vous pouvez le justifier en analysant la vraie distribution - multinomiale - de la si vous le souhaitez).

{\hat{z}}_{i}

$\hat{z}_i$

whuber

Puisque vous pouvez déjà calculer une estimation pour partir de vos données, que diriez-vous d'utiliser une technique de rééchantillonnage comme le bootstrap pour trouver un CI pour ? en.wikipedia.org/wiki/Bootstrapping_(statistics)

Q_{7}

$Q_7$

Q_{7}

$Q_7$

Zen

@Zen: J'avais entendu parler de bootstrap, mais je n'ai jamais pensé que ce serait quelque chose qui m'arriverait. Sérieusement, j'essaie de le faire fonctionner, mais il faut beaucoup de temps pour rééchantillonner 1000 fois (chaque rééchantillonnage ayant points). Même 1000 rééchantillons de taille me prennent 2 heures.

2^{28}

$2^{28}$

2^{16}

$2^{16}$

Kevin O'Bryant

1

Kevin, soyez prudent, car je vais devoir changer un peu votre notation: vos ne sont pas mes . $z_i$ $z_i$

Je pense que la solution bayésienne suivante vaut la peine d'être essayée. Faites cuire un paramètre aléatoire et laissez être conditionnellement iid, étant donné , avec . Utilisez la notation . Vous disposez déjà d' un échantillon du d », avec . Définissez les variables aléatoires Pour (si cela n'est pas clair, jetez un oeil ). Maintenant, dans cette formulation, vos formes quadratiques $\Lambda>0$ $Z_1,\dots,Z_n$ $\Lambda=\lambda$ $Z_i\mid\Lambda = \lambda \sim \textrm{Poisson}(\lambda)$ $Z=(Z_1,\dots,Z_n)$ $z=(z_1,\dots,z_n)$ $Z_i$ $n=2^{28}$

Θ_{i} = P {Z_{i} = k ∣ Λ} = \frac{e^{- Λ} Λ^{k}}{k!},

$\Theta_i = P\{Z_i=k\mid \Lambda\} = \frac{e^{-\Lambda}\Lambda^k }{k!} \, ,$

i \geq 0

$i\geq 0$

Q_{i} = Q_{i} (Θ_{0}, \dots, Θ_{i}) = Q_{i} (Λ)

$Q_i=Q_i(\Theta_0,\dots,\Theta_i) = Q_i(\Lambda)$ sont des fonctions de . Ainsi, les sont aléatoires et vous voulez déterminer la probabilité postérieure Avec un antérieur , en utilisant le théorème de Bayes nous avons Vous calculez générant des iid partir de l'ancienne distribution (utilisez R !) Et en calculant

Λ

$\Lambda$

Q_{i}

$Q_i$

P {Q_{7} < Q_{6} and Q_{7} < Q_{8} ∣ Z = z} . (*)

$P\{Q_7<Q_6 \,\,\,\textrm{and}\,\,\, Q_7<Q_8\mid Z=z\} \, . \qquad (*)$

Λ \sim Gamma (a, b)

$\Lambda\sim\textrm{Gamma}(a,b)$

Λ ∣ Z = z \sim Gamma (a + \sum_{i = 1}^{n} z_{i}, b + n) .

$\Lambda\mid Z=z \sim \, \textrm{Gamma}\left( a + \sum_{i=1}^n z_i, b + n\right) \, .$

(*)

$(*)$

λ_{i}

$\lambda_i$

\frac{1}{N} \sum_{i = 1}^{N} I_{(- \infty, Q_{6} (λ_{i})) \cap (Q_{8} (λ_{i}), \infty)} (Q_{7} (λ_{i})),

$\frac{1}{N} \sum_{i=1}^N I_{(-\infty,Q_6(\lambda_i))\cap(Q_8(\lambda_i),\infty)}(Q_7(\lambda_i)) \, ,$ qui converge, par la loi forte des grands nombres, vers presque sûrement. Pour obtenir un «oui» à votre question initiale, cette probabilité postérieure doit être «suffisamment grande». Avec un échantillon aussi énorme ( ), je pense qu'il est possible de jouer avec les valeurs de et pour rendre votre choix préalable peu "informatif".

(*)

$(*)$

n = 2^{28}

$n=2^{28}$

a

$a$

b

$b$

Zen
la source

Cette distribution de Poisson semble être une hypothèse plutôt restrictive, non?

Cyan

Nous avons besoin d'une distribution, dont le support est , qui rend les calculs possibles. Voyons ce que Kevin peut trouver avec ce modèle.

Z_{+}

$\mathbb{Z}_+$

Zen

Intervalles de confiance pour un polynôme

Réponses:

Fonction de vraisemblance

Distribution préalable

Probabilité postérieure de la proposition d'intérêt

Hyperparamètres antérieurs, deuxième partie