La matrice d'information observée est un estimateur cohérent de la matrice d'information attendue?

16

J'essaie de prouver que la matrice d'information observée évaluée à l'estimateur du maximum de vraisemblance faiblement cohérent (MLE) est un estimateur faiblement cohérent de la matrice d'information attendue. C'est un résultat largement cité mais personne ne donne de référence ou de preuve (j'ai épuisé je pense les 20 premières pages de résultats google et mes manuels de statistiques)!

En utilisant une séquence faiblement cohérente de MLE, je peux utiliser la loi faible des grands nombres (WLLN) et le théorème de cartographie continue pour obtenir le résultat que je veux. Cependant, je crois que le théorème de la cartographie continue ne peut pas être utilisé. Au lieu de cela, je pense que la loi uniforme des grands nombres (ULLN) doit être utilisée. Quelqu'un connaît-il une référence qui en a la preuve? J'ai une tentative à l'ULLN mais omettez-le pour l'instant par souci de concision.

Je m'excuse pour la longueur de cette question mais la notation doit être introduite. La notation est comme suit (ma preuve est à la fin).

Supposons que nous ayons un échantillon iid de variables aléatoires {Y1,,YN} avec des densités f(Y~|θ) , où θΘRk (ici Y~ est juste une variable aléatoire générale avec la même densité comme l'un des membres de l'échantillon). Le vecteur Y=(Y1,,YN)T est le vecteur de tous les vecteurs échantillons où YiRn pour touti=1,,N . La vraie valeur du paramètre de la densité est θ0 et θ N ( Y ) est l'estimateur de la vraisemblance maximale faiblement cohérent (MLE) de θ 0 . Sous réserve des conditions de régularité, la matrice d'informations de Fisher peut être rédigéeθ^N(Y)θ0

I(θ)=Eθ[Hθ(logf(Y~|θ)]

Hθ est la matrice de Hesse. L'équivalent de l'échantillon est

IN(θ)=i=1NIyi(θ),

Iyi=Eθ[Hθ(logf(Yi|θ)] . La matrice d'information observée est;

J(θ)=Hθ(logf(y|θ) ,

(certaines personnes demandent la matrice est évaluée à θ mais certains ne le font pas). L'échantillon de matrice d'informations observées est;θ^

JN(θ)=i=1NJyi(θ)

.Jyi(θ)=Hθ(logf(yi|θ)

Je peux prouver la convergence de la probabilité de l'estimateur à I ( θ ) , mais pas de N - 1 J N ( θ N ( Y ) ) à I ( θ 0 ) . Voici ma preuve jusqu'à présent;N1JN(θ)I(θ)N1JN(θ^N(Y))I(θ0)

Maintenant est l'élément ( r , s ) de J N ( θ ) , pour tout r , s = 1 , , k(JN(θ))rs=i=1N(Hθ(logf(Yi|θ))rs(r,s)JN(θ)r,s=1,,k . Si l'échantillon est iid, puis par la loi faible des grands nombres (WLLN), la moyenne de ces sommets converge en probabilité vers . Ainsi N - 1 ( J N (θ)Eθ[(Hθ(logf(Y1|θ))rs]=(IY1(θ))rs=(I(θ))rs pour tout r , s = 1 , , k , et ainsi N - 1 J N ( θ ) P I ( θ ) . Malheureusementnous ne pouvons pas conclure simplement N - 1 J N ( θ N ( Y ) ) P I ( θN1(JN(θ))rsP(I(θ))rsr,s=1,,kN1JN(θ)PI(θ) en utilisant le théorème de la cartographie continue puisque N - 1 J N ( ) n'est pas la même fonction que I ( ) .N1JN(θ^N(Y))PI(θ0)N1JN()I()

Toute aide à ce sujet serait grandement appréciée.

dandar
la source
does my answer below address answer your question?
Dapz
1
@Dapz Please accept my sincerest apologies for not replying to you until now - I made the mistake of assuming nobody would answer. Thank-you for your answer below - I have upvoted it since I can see it is most useful, however I need to spend a little time considering it. Thank-you for your time, and I will reply to your post below soon.
dandar

Réponses:

7

I guess directly establishing some sort of uniform law of large numbers is one possible approach.

Here is another.

We want to show that JN(θMLE)NPI(θ).

(As you said, we have by the WLLN that JN(θ)NPI(θ). But this doesn't directly help us.)

One possible strategy is to show that

|I(θ)JN(θ)N|P0.

and

|JN(θMLE)NJN(θ)N|P0

If both of the results are true, then we can combine them to get

|I(θ)JN(θMLE)N|P0,

which is exactly what we want to show.

The first equation follows from the weak law of large numbers.

The second almost follows from the continuous mapping theorem, but unfortunately our function g() that we want to apply the CMT to changes with N: our g is really gN(θ):=JN(θ)N. So we cannot use the CMT.

(Comment: If you examine the proof of the CMT on Wikipedia, notice that the set Bδ they define in their proof for us now also depends on n. We essentially need some sort of equicontinuity at θ over our functions gN(θ).)

Fortunately, if you assume that the family G={gN|N=1,2,} is stochastically equicontinuous at θ, then it immediately follows that for θMLEPθ,

|gn(θMLE)gn(θ)|P0.

(See here: http://www.cs.berkeley.edu/~jordan/courses/210B-spring07/lectures/stat210b_lecture_12.pdf for a definition of stochastic equicontinuity at θ, and a proof of the above fact.)

Therefore, assuming that G is SE at θ, your desired result holds true and the empirical Fisher information converges to the population Fisher information.

Now, the key question of course is, what sort of conditions do you need to impose on G to get SE? It looks like one way to do this is to establish a Lipshitz condition on the entire class of functions G (see here: http://econ.duke.edu/uploads/media_items/uniform-convergence-and-stochastic-equicontinuity.original.pdf ).

Dapz
la source
1

The answer above using stochastic equicontinuity works very well, but here I am answering my own question by using a uniform law of large numbers to show that the observed information matrix is a strongly consistent estimator of the information matrix , i.e. N1JN(θ^N(Y))a.s.I(θ0) if we plug-in a strongly consistent sequence of estimators. I hope it is correct in all details.

We will use IN={1,2,...,N} to be an index set, and let us temporarily adopt the notation J(Y~,θ):=J(θ) in order to be explicit about the dependence of J(θ) on the random vector Y~. We shall also work elementwise with (J(Y~,θ))rs and (JN(θ))rs=i=1N(J(Yi,θ))rs, r,s=1,...,k, for this discussion. The function (J(,θ))rs is real-valued on the set Rn×Θ, and we will suppose that it is Lebesgue measurable for every θΘ. A uniform (strong) law of large numbers defines a set of conditions under which

supθΘ|N1(JN(θ))rsEθ[(J(Y1,θ))rs]|=supθΘ|N1i=1N(J(Yi,θ))rs(I(θ))rs|a.s0(1)

The conditions that must be satisfied in order that (1) holds are (a) Θ is a compact set; (b) (J(Y~,θ))rs is a continuous function on Θ with probability 1; (c) for each θΘ (J(Y~,θ))rs is dominated by a function h(Y~), i.e. |(J(Y~,θ))rs|<h(Y~); and (d) for each θΘ Eθ[h(Y~)]<;. These conditions come from Jennrich (1969, Theorem 2).

Now for any yiRn, iIN and θSΘ, the following inequality obviously holds

|N1i=1N(J(yi,θ))rs(I(θ))rs|supθS|N1i=1N(J(yi,θ))rs(I(θ))rs|.(2)

Suppose that {θ^N(Y)} is a strongly consistent sequence of estimators for θ0, and let ΘN1=BδN1(θ0)KΘ be an open ball in Rk with radius δN10 as N1, and suppose K is compact. Then since θ^N(Y)ΘN1 for N sufficiently large enough we have P[limN{θ^N(Y)ΘN1}]=1 for sufficiently large N. Together with (2) this implies

P[limN{|N1i=1N(J(Yi,θ^N(Y)))rs(I(θ^N(Y)))rs|supθΘN1|N1i=1N(J(Yi,θ))rs(I(θ))rs|}]=1.(3)

Now ΘN1Θ implies conditions (a)-(d) of Jennrich (1969, Theorem 2) apply to ΘN1. Thus (1) and (3) imply

P[limN{|N1i=1N(J(Yi,θ^N(Y)))rs(I(θ^N(Y)))rs|=0}]=1.(4)

Since (I(θ^N(Y)))rsa.s.I(θ0) then (4) implies that N1(JN(θ^N(Y)))rsa.s.(I(θ0))rs. Note that (3) holds however small ΘN1 is, and so the result in (4) is independent of the choice of N1 other than N1 must be chosen such that ΘN1Θ. This result holds for all r,s=1,...,k, and so in terms of matrices we have N1JN(θ^N(Y))a.s.I(θ0).

dandar
la source