Intervalles de confiance pour un polynôme

8

J'ai une variable aléatoire qui prend des valeurs dans les entiers non négatifs , appelle les probabilités pour chaque résultat . Je peux échantillonner de la distribution de indépendamment et à moindre coût; J'ai actuellement un échantillon de . Il semble que , avec une décroissance à peu près exponentielle.Z{0,1,2,}zk:=P[Z=k]Z228z00.24,z10.18,

J'ai une séquence de formes quadratiques avec des coefficients positifs:

  • Q0(z0)=14z02
  • Q1(z0,z1)=12z0z1
  • ...
  • Q7(z0,z1,,z7)=18(2z0z1+3z2z1+4z4z1+4z6z1+3z0z3+ +4z2z3+4z3z4+4z0z5+4z2z5+4z0z7)
  • ...

Ce que j'aimerais avoir, c'est un intervalle de confiance pour les inférieur à large, mais je prendrai tout ce que je pourrai obtenir.Qi104

J'ai des limites rigoureuses sur le , et étant donné que les coefficients des « s sont tous positifs, il est facile de les transformer en limites rigoureuses pour les » s. Mais je ne sais pas comment le faire correctement avec des intervalles de confiance.ziQQ


C'est à propos de quoi? J'ai trouvé un phénomène bizarre dans la théorie des nombres, et je sais comment prouver que cela se produit vraiment, mais en fait, cela nécessitera un certain effort de programmation de ma part et beaucoup de temps sur notre cluster local. Avant d'investir ce temps et de boucher notre machine, j'aimerais être plus certain que moi que le phénomène est réel.

Je veux quantifier le caractère raisonnable de ma prétention que et . Mes estimations indiquent que est d'environ , c'est pourquoi je voulais des CI à cette résolution.Q7<Q6Q7<Q8Q6Q75104

Fixez un grand entier , et que soit un sous-ensemble uniformément choisi de (c'est-à-dire que chaque sous-ensemble particulier a une probabilité de d'être choisi). Soit la probabilité qu'exactement des nombres de ne puissent pas être écrits comme une somme de deux éléments de ; soit . C'est un peu difficile à prouver, mais ces limites existent et . Il n'est pas surprenant que soit petit et que augmentenA{1,2,,n}2nQk(n)k{2,3,,2n}AQk=limnQk(n)kQk=1Q0kQkaugmente, a un pic puis décroît de façon exponentielle. La partie bizarre est qu'il y a un biais contre 7. Autrement dit, expérimentalement et . C'est-à-dire que ce qui n'était pas une surprise n'est pas vrai: la distribution est bimodale.Q7<Q6Q7<Q8

Je peux exprimer les (en utilisant une théorie) comme ci-dessus sans limite en termes de cette autre distribution, définie par les . C'est pratique parce que j'ai un moyen de lier rigoureusement les utilisant, comme je l'ai mentionné ci-dessus, de gros calculs. De plus, j'ai un très grand ensemble de données pour la variableQiziziZ

Kevin O'Bryant
la source
Votre malaise avec le langage des intervalles de confiance, mais sinon une présentation rigoureuse, suggère que vous pourriez être en bonne position pour nous donner un peu plus d'informations pour vous aider. Normalement, vous pouvez spécifier l'une des deux propriétés d'un CI: sa couverture ou sa longueur. L'autre sera déterminé par les données. Il est cependant inhabituel de stipuler la longueur: êtes-vous sûr que c'est ce que vous voulez? En outre, il n'est pas clair si vous avez besoin d'IC ​​pour les Q séparément ou simultanément. Peut-être pourriez-vous indiquer à quoi vous avez l'intention d'utiliser ces CI?
whuber

Réponses:

3

Dans ma réponse, je fournis de nombreux liens vers des documents de référence pour économiser de l'espace ici. Je vais écrire ma réponse en prenant les informations dans les liens comme indiqué.

Je pense qu'une approche bayésienne est un ajustement naturel à ce problème, d'autant plus que vous ne cherchez qu'à vous convaincre. C'est un peu compliqué d'utiliser des intervalles de confiance pour répondre à la question qui vous tient vraiment à cœur, à savoir à quel point est-il plausible que et étant donné l'échantillon de la distribution? L'approche bayésienne vous permet d'aborder cette question directement.Q7<Q6Q7<Q8zi

Fonction de vraisemblance

Soit la fréquence observée du résultat entier dans votre échantillon et Soit la taille de l'échantillon. La fonction de vraisemblance est proportionnelle à la distribution multinomiale . Il a la formefkkN

L(z0,...z8;f0,...f8)=i=08ziNfi .

Distribution préalable

La distribution de Dirichlet est le choix naturel pour la distribution a priori, car c'est l'a priori conjugué pour la vraisemblance multinomiale. Il a la forme

p(z0,...z8;α0,...,α8)i=08ziαi1

Cet a priori a neuf hyperparamètres (les valeurs ), et ils sont un peu pénibles à gérer. Dans ce contexte de «grand échantillon», tout choix raisonnable de valeurs hyperparamétriques aura une influence négligeable sur le résultat, mais je pense que cela vaut la peine de consacrer un peu d'effort à sélectionner des valeurs sensibles.αi

Voici comment je recommande de régler les hyperparamètres. Tout d'abord, notez que sous cette distribution . Ensuite, notez que la distribution d'entropie maximale la plus simple sur les naturels est la distribution géométrique . Alors misE(zi)=αii=08αi

αi+1=rαi=riα0,0<r<1,

α0=A(1r1r9).

Alors , donc la distribution de est centrée sur une distribution géométrique (tronquée). De plus, , donc la valeur de contrôle la dispersion autour de cette attente mais n'a aucun effet sur l'attente lui-même.E(zi)=ri(1r1r9)ziVar(zi)1(A+1)A

Cette spécification réduit le nombre de hyperparam'etres des neuf valeurs à tout et . Je vais différer la discussion des valeurs spécifiques de et pour l'instant.αirArA

Probabilité postérieure de la proposition d'intérêt

La distribution postérieure des est la distribution de Dirichlet suivante:zi

p(z0,...z8|f0,...,f8)i=08ziαi+Nfi1.

Soit . La probabilité postérieure qui vous intéresse estY={z0,...z8|Q7<Q6 and Q7<Q8}

Pr(Q7<Q6 and Q7<Q8|f0,...,f8)Yi=08ziαi+Nfi1dzi.

Cette intégrale est intraitable, mais vous pouvez calculer la probabilité d'intérêt numériquement en utilisant l'algorithme de Monte Carlo suivant.

Pour de à ,j1J

  1. Échantillonnez un ensemble de valeurs partir de leur distribution postérieure.zi

  2. Utilisez les valeurs échantillonnées pour calculer où est la fonction d'indicateur.yj=I(Q7<Q6)I(Q7<Q8)I()

Alors .Pr(Q7<Q6 and Q7<Q8|f0,...,f8)j=0JyjJ

La précision de l'approximation de Monte Carlo va comme : vous donnera au moins deux décimales de précision 19 fois sur 20, vous obtiendra au moins trois décimales de précision 19 fois sur 20, etc.JJ=104J=106

Et si votre probabilité d'intérêt postérieure n'est pas proche de 0 ou 1, il suffit d'échantillonner plus de données, de rincer et de répéter.

Hyperparamètres antérieurs, deuxième partie

L'exposant de dans l'expression de la densité postérieure estzi

αi+Nfi1=Ari(1r1r9)+Nfi1=AE(zi)+Nfi1

On peut voir que l'hyperparamètre joue le même rôle dans la distribution a priori que joue dans la vraisemblance - c'est une sorte de "taille d'échantillon antérieure". Pour garantir que le prieur a une influence négligeable sur la conclusion, il suffit de choisir une valeur de telle que ; par exemple, .ANAANA=1

Pour définir , notez que vous pouvez calculer la probabilité antérieure de la proposition utilisant le même algorithme de Monte Carlo décrit ci-dessus mais avec la distribution antérieure à la place de la distribution postérieure à l'étape 1 de la boucle. Essayez de trouver une valeur de qui donne une probabilité antérieure de 0,5 (ou moins, si vous pensez que c'est plus raisonnable).rQ7<Q6 and Q7<Q8r

Cyan
la source
Naw, je saute juste quelques détails techniques. Une analyse plus complète sur le plan technique commencerait par un processus de Dirichlet et montrerait ensuite que le résultat de la marginalisation de l'ensemble infiniment dénombrable de paramètres non pertinents est la distribution de Dirichlet que je donne ci-dessus. zi
Cyan
1

Je suppose que les z_k ne sont pas des probabilités mais des fréquences d'échantillonnage. En effet, sinon, Q_i (z_0, ..., z_i) n'est pas une variable aléatoire. Dans ce cas, le calcul de la variance des Q_i est une algèbre simple. Définissons d'abord les indicateurs d'événement Z_i qui est 1 si Z == i, 0 sinon. C'est une variable aléatoire de Bernoulli avec une probabilité p_i. Vous pouvez calculer les premier et deuxième moments de n'importe laquelle de ces variables et elles devraient vous donner tous les termes nécessaires pour calculer la variance des Q_i.

AdamO
la source
Non, les sont des constantes de la nature, et par conséquent est aussi. C'est un vrai nombre, mais la question est de savoir quel nombre réel. Mon échantillonnage me permet d'estimer le , et si je branche ceux-ci dans la formule liant au , j'obtiens une estimation pour (environ ). Mais je ne comprends pas à quel point cette estimation est bonne. Si je prends 99% d'IC ​​pour chaque et que je les branche, j'obtiens un intervalle, mais quel est le niveau de confiance? Je ne pense pas non plus que les CI pour le soient indépendants. ziQ7z^iQ7ziQ70.07zizi
Kevin O'Bryant
Le manque d'indépendance n'est pas un problème ici, Kevin (vous pouvez le justifier en analysant la vraie distribution - multinomiale - de la si vous le souhaitez). z^i
whuber
Puisque vous pouvez déjà calculer une estimation pour partir de vos données, que diriez-vous d'utiliser une technique de rééchantillonnage comme le bootstrap pour trouver un CI pour ? en.wikipedia.org/wiki/Bootstrapping_(statistics)Q7Q7
Zen
@Zen: J'avais entendu parler de bootstrap, mais je n'ai jamais pensé que ce serait quelque chose qui m'arriverait. Sérieusement, j'essaie de le faire fonctionner, mais il faut beaucoup de temps pour rééchantillonner 1000 fois (chaque rééchantillonnage ayant points). Même 1000 rééchantillons de taille me prennent 2 heures. 228216
Kevin O'Bryant
1

Kevin, soyez prudent, car je vais devoir changer un peu votre notation: vos ne sont pas mes .zizi

Je pense que la solution bayésienne suivante vaut la peine d'être essayée. Faites cuire un paramètre aléatoire et laissez être conditionnellement iid, étant donné , avec . Utilisez la notation . Vous disposez déjà d' un échantillon du d », avec . Définissez les variables aléatoires Pour (si cela n'est pas clair, jetez un oeil ). Maintenant, dans cette formulation, vos formes quadratiquesΛ>0Z1,,ZnΛ=λZiΛ=λPoisson(λ)Z=(Z1,,Zn)z=(z1,,zn)Zin=228

Θi=P{Zi=kΛ}=eΛΛkk!,
i0Qi=Qi(Θ0,,Θi)=Qi(Λ) sont des fonctions de . Ainsi, les sont aléatoires et vous voulez déterminer la probabilité postérieure Avec un antérieur , en utilisant le théorème de Bayes nous avons Vous calculez générant des iid partir de l'ancienne distribution (utilisez R !) Et en calculant ΛQi
P{Q7<Q6andQ7<Q8Z=z}.()
ΛGamma(a,b)
ΛZ=zGamma(a+i=1nzi,b+n).
()λi
1Ni=1NI(,Q6(λi))(Q8(λi),)(Q7(λi)),
qui converge, par la loi forte des grands nombres, vers presque sûrement. Pour obtenir un «oui» à votre question initiale, cette probabilité postérieure doit être «suffisamment grande». Avec un échantillon aussi énorme ( ), je pense qu'il est possible de jouer avec les valeurs de et pour rendre votre choix préalable peu "informatif".()n=228ab
Zen
la source
Cette distribution de Poisson semble être une hypothèse plutôt restrictive, non?
Cyan
Nous avons besoin d'une distribution, dont le support est , qui rend les calculs possibles. Voyons ce que Kevin peut trouver avec ce modèle. Z+
Zen