Intervalle de confiance pour la variance compte tenu d'une observation

25

C'est un problème de la "7e Olympiade des étudiants de Kolmogorov en théorie des probabilités":

Étant donné une observation d'une distribution avec les deux paramètres inconnus, donner un intervalle de confiance pour avec un niveau de confiance d'au moins 99%.Normal ( μ , σ 2 ) σ 2XOrdinaire(μ,σ2)σ2

Il me semble que cela devrait être impossible. J'ai la solution, mais je ne l'ai pas encore lue. Des pensées?

Je posterai la solution dans quelques jours.

[Modification de suivi: solution officielle publiée ci-dessous. La solution de Cardinal est plus longue, mais donne un meilleur intervalle de confiance. Merci également à Max et Glen_b pour leur contribution.]

Jonathan Christensen
la source
1
Cela me semble impossible aussi; J'attends la réponse
Peter Flom - Réintègre Monica
1
Consultez ce site .
supposé normal
3
Voici un papier avec un meilleur formatage: papier .
supposé normal
Il h. Je me souviens avoir lu un article sur ce sujet (un intervalle d'observation) il y a plusieurs années. Ça aurait pu être celui- là.
Glen_b -Reinstate Monica
1
@Max, merci pour le lien! Je n'ai pas encore eu le temps de l'examiner de près, mais je le ferai. J'ai posté la réponse "officielle" ci-dessous.
Jonathan Christensen

Réponses:

17

Vu sous l'angle des inégalités de probabilité et des liens avec le cas d'observation multiple, ce résultat pourrait ne pas sembler si impossible, ou, du moins, il pourrait sembler plus plausible.

Soit avec et inconnu. On peut écrire pour .μ σ 2 X = σ Z + μ Z N ( 0 , 1 )XN(μ,σ2)μσ2X=σZ+μZN(0,1)

Allégation principale : est un intervalle de confiance pour où est le quantile de niveau d'une distribution chi carré avec un degré de liberté. En outre, étant donné que cet intervalle a exactement couverture lorsque , il est le plus étroit intervalle possible de la forme pour un certain .( 1 - α ) σ 2 q α α ( 1 - α )[0,X2/qα)(1α)σ2qαα (1-α)[ 0 , b X 2 ) b Rμ=0[0,bX2)bR

Une raison d'optimisme

Rappelons que dans le cas , avec , l' intervalle de confiance typique pour est où est quantile -level d'un chi-carré avec degrés de liberté. Ceci, bien sûr, est valable pour tout . Bien que ce soit l' intervalle le plus populaire (appelé intervalle de queue égale pour des raisons évidentes), ce n'est ni le seul ni même celui de la plus petite largeur! Comme il doit être évident, une autre sélection valable est T = n i = 1 ( X i - ˉ Xn2 ( 1 - α ) σ 2 ( TT=je=1n(Xje-X¯)2 (1-α)σ2q k , a

(Tqn1,(1α)/2,Tqn-1,α/2),
qk,unek μ ( 0 , Tunekμ
(0,Tqn-1,α).

Depuis, , puis également une couverture d'au moins . ( 0 , n i = 1 X 2 iTje=1nXje2( 1 - α )

(0,je=1nXje2qn-1,α),
(1-α)

Vu sous cet angle, nous pourrions alors être optimistes que l'intervalle dans la revendication principale est vrai pour . La principale différence est qu'il n'y a pas de distribution de chi carré à zéro degré de liberté dans le cas d'une observation unique, nous devons donc espérer que l'utilisation d'un quantile à un degré de liberté fonctionnera.n=1

Un demi-pas vers notre destination ( Exploiter la queue droite )

Avant de plonger dans une preuve de la revendication principale, examinons d'abord une revendication préliminaire qui n'est pas aussi solide ou satisfaisante statistiquement, mais donne peut-être un aperçu supplémentaire de ce qui se passe. Vous pouvez passer à la preuve de la réclamation principale ci-dessous, sans perte (le cas échéant) importante. Dans cette section et dans la suivante, les preuves, bien que légèrement subtiles, ne reposent que sur des faits élémentaires: la monotonie des probabilités et la symétrie et l'unimodalité de la distribution normale.

Réclamation auxiliaire : est un intervalle de confiance pour tant que . Ici est le quantile de niveau d'une normale standard.( 1 - α ) σ 2[0,X2/zα2)(1-α)σ2z α αα>1/2zαα

Preuve . etpar symétrie, donc dans ce qui suit on peut prendre sans perte de généralité. Maintenant, pour et , et donc avec , nous voyons que Cela ne fonctionne que pour , car c'est ce qui est nécessaire pour .| σ Z + μ | d = | - σ Z + μ | μ 0 θ 0 μ 0 P ( | X | > θ ) |X|=|-X||σZ+μ|=|-σZ+μ|μ0θ0μ0θ = z α σ P ( 0 σ

P(|X|>θ)P(X>θ)=P(σZ+μ>θ)P(Z>θ/σ),
θ=zασα > une / deux z α > 0
P(0σ2<X2/zα2)1α.
α>1/2zα>0

Cela prouve la revendication subsidiaire. Bien qu'illustratif, il n'est pas satisfaisant d'un point de vue statistique car il nécessite un absurdement grand pour fonctionner.α

Prouver la demande principale

Un raffinement de l'argument ci-dessus conduit à un résultat qui fonctionnera pour un niveau de confiance arbitraire. Tout d'abord, notez que Définissez et . Alors, Si nous pouvons montrer que le côté droit augmente en pour chaque fixe , alors nous pouvons utiliser un argument similaire à celui de l'argument précédent. Ceci est au moins plausible, car nous aimerions croire que si la moyenne augmente, il devient plus probable que nous voyons une valeur avec un module qui dépassea = μ / σ 0 b

P(|X|>θ)=P(|Z+μ/σ|>θ/σ).
une=μ/σ0b=θ/σ0
P(|Z+a|>b)=Φ(ab)+Φ(ab).
abb. (Cependant, nous devons faire attention à la vitesse à laquelle la masse diminue dans la queue gauche!)

Définissez . Alors Notez que et pour positif , diminue en . Maintenant, pour , il est facile de voir que . Ces faits pris ensemble impliquent facilement que pour tout et tout fixe .fb(a)=Φ(ab)+Φ(une-b)

fb(a)=φ(ab)φ(ab)=φ(ab)φ(a+b).
fb(0)=0uφ(u)ua(0,2b)φ(ab)φ(b)=φ(b)
fb(a)0
a0b0

Par conséquent, nous avons montré que pour et , a0b0

P(|Z+a|>b)P(|Z|>b)=2Φ(b).

En décomposant tout cela, si nous prenons , nous obtenons ce qui établit la revendication principale.θ=qασ

P(X2>qασ2)P(Z2>qα)=1α,

Remarque finale : Une lecture attentive de l'argument ci-dessus montre qu'il utilise uniquement les propriétés symétriques et unimodales de la distribution normale. Par conséquent, l'approche fonctionne de façon analogue pour obtenir des intervalles de confiance à partir d'une seule observation à partir de n'importe quelle famille d'échelle de localisation unimodale symétrique, par exemple, les distributions de Cauchy ou de Laplace.

cardinal
la source
Hou la la! et les étudiants devraient proposer ce type d'argument dans le court laps de temps d'un examen de l'Olympiade?
Dilip Sarwate
1
@Dilip: Je n'en ai aucune idée! Je ne connais pas le format de cette Olympiade ni ce qui est attendu en termes de solution. D'après une lecture littérale, je pense que la réponse de Scortchi serait acceptable. J'étais plus intéressé à essayer de comprendre jusqu'où on pourrait aller avec une solution "non triviale". Ma propre exploration (assez minime) a suivi le même train de pensée décrit dans la réponse (avec un détour). Il est fort probable qu'il existe une meilleure solution. :-)
Cardinal
C'est beaucoup plus long que la solution "officielle", mais cela donne une meilleure limite à la variance, donc je la marque comme la réponse "correcte". J'ai posté la réponse "officielle" ci-dessous, ainsi que quelques résultats de simulation et discussion. Merci, @cardinal!
Jonathan Christensen
2
@Jonathan: Merci. Oui, j'aurais pu rendre la preuve un peu plus laconique. En raison du large éventail de milieux des participants ici, j'ai souvent tendance à me livrer à des détails supplémentaires (ou peut-être excessifs). :-)
Cardinal
12

Il est temps de faire un suivi! Voici la solution qui m'a été donnée:

Nous allons construire un intervalle de confiance de la forme , où est une statistique. Par définition, ce sera un intervalle de confiance avec un niveau de confiance d'au moins 99% si On note que la densité de la distribution ne dépasse pas . Par conséquent, pour chaque . Il s'ensuit que Brancher[0,T(X))T()

(μR)(σ>0)Pμ,σ2(σ2>T(X))<0,01.
N(μ,σ2)1/σ2πP(|X|une)une/σune0
tP(|X|/σt)=P(X2t2σ2)=P(σ2X2/t2).
t=0,01on obtient que la statistique appropriée estT(X)=10000X2.

L'intervalle de confiance (qui est très large) est légèrement conservateur en simulation, sans couverture empirique (dans 100 000 simulations) inférieure à 99,15% car j'ai fait varier le CV sur plusieurs ordres de grandeur.

À titre de comparaison, j'ai également simulé l'intervalle de confiance du cardinal. Je dois noter que l'intervalle du cardinal est un peu plus étroit - dans le cas de 99%, il finit par atteindre environ , contrairement au dans la solution fournie. La couverture empirique est juste au niveau nominal, là encore sur plusieurs ordres de grandeur pour le CV. Donc, son intervalle gagne définitivement.6300X210000X2

Je n'ai pas eu le temps de regarder attentivement le document publié par Max, mais je prévois de le regarder et je pourrais ajouter quelques commentaires à ce sujet plus tard (c'est-à-dire au plus tôt une semaine). Cet article revendique un intervalle de confiance à 99% de , qui a une couverture empirique légèrement inférieure (environ 98,85%) à la couverture nominale des grands CV dans mes brèves simulations.(0,4900X2)

Jonathan Christensen
la source
1
(+1) C'est une bonne solution. Devriez-vous avoir au lieu de dans l'équation d'affichage? tt
Cardinal
2
Quelques points supplémentaires: Votre solution peut être faite pour être très proche de la mienne sans aucun changement d'argument. Notez que vous pouvez prétendre que . L'intervalle devient alors pour tout . L'utilisation de donne contre dans ma réponse. Plus le niveau de confiance est élevé (c'est-à-dire plus le petit ), plus votre méthode se rapproche du mien (bien que votre intervalle soit toujours plus large). P(|X|une)2une/σ2π(0,2X2/πα2)αα=0,01T(X)6366.198X21/q0,016365.864α
Cardinal
1
(0,4900X2)(0,bX2)bμ=0X2/σ2bb=1/qα
1
pchisq(1/4900,1,lower.tail=F)R0.9886(0,4900X2)
1
Merci pour tous les commentaires, @cardinal. Je pense que votre changement est correct, même si je l'ai tapé tel qu'il était dans les solutions d'origine - typo là, je suppose.
Jonathan Christensen
5

(0,)

Scortchi - Réintégrer Monica
la source
1
Je pense qu'il serait utile pour vous de dire pourquoi vous ne pouvez pas obtenir un intervalle de confiance de longueur finie.
supposé normal
1
@Max Je ne suis pas assez intelligent - mais la question n'en a pas demandé.
Scortchi - Réintégrer Monica
4
+1 pour cela. La question n'a pas dit un IC avec une couverture minimale, et implique en fait que cela pourrait être acceptable grâce à sa formulation curieuse, "un intervalle de confiance avec un niveau de confiance d' au moins 99%."
Ari B. Friedman du