Vous avez quatre ici: le quantités initiales vrai paramètre , une estimation cohérente θ , les informations attendues I ( θ ) à θ et l'information observée J ( θ ) à θ . Ces quantités ne sont équivalentes qu'asymptotiquement, mais c'est généralement ainsi qu'elles sont utilisées.θ0θ^I(θ)θJ(θ)θ
Les informations observées
converge en probabilité vers l'information attendue
I(θ0)=Eθ0[ ∂ 2
J(θ0)=1N∑i=1N∂2∂θ20lnf(yi|θ0)
lorsqueYest un échantillon iid de f(θ0). IciEθ0(x)indique l'espérance w / r / t de la distribution indexée parθ0:∫xf(x|θ0)dx. Cette convergence tient en raison de la loi des grands nombres, donc l'hypothèse queY∼f(I(θ0)=Eθ0[∂2∂θ20lnf(y|θ0)]
Yf(θ0)Eθ0(x)θ0∫xf(x|θ0)dx est crucial ici.Y∼f(θ0)
Lorsque vous avez une estimation θ qui converge en probabilité vers le vrai paramètre θ 0 (c. -à- est cohérente), vous pouvez le remplacer pour ne importe où vous voyez un θ 0 ci - dessus, essentiellement en raison du théorème de cartographie continue * , et tout des convergences se maintiennent.θ^θ0θ0∗
En fait, cela semble êtreun peu subtil.∗
Remarque
Comme vous l'avez supposé, les informations observées sont généralement plus faciles à utiliser car la différenciation est plus facile que l'intégration, et vous l'avez peut-être déjà évaluée au cours d'une optimisation numérique. Dans certaines circonstances (la distribution normale), ils seront les mêmes.
L'article «Evaluer l'exactitude de l'estimateur du maximum de vraisemblance: informations observées versus informations sur les pêcheurs» par Efron et Hinkley (1978) plaide en faveur des informations observées pour les échantillons finis.