Pourquoi utilise-t-on exactement les informations de Fisher observées?

17

Dans le cadre du maximum de vraisemblance standard (iid échantillon d'une certaine distribution de densité f y ( y | θ 0 )) et dans le cas d'un modèle correctement spécifié, les informations de Fisher sont données parY1,,Ynfy(y|θ0

I(θ)=Eθ0[2θ2lnfy(θ)]

où l'attente est prise par rapport à la densité réelle qui a généré les données. J'ai lu que les informations Fisher observées

J^(θ)=2θ2lnfy(θ)

est utilisé principalement parce que l'intégrale impliquée dans le calcul des informations Fisher (attendues) peut ne pas être réalisable dans certains cas. Ce qui m'embrouille, c'est que même si l'intégrale est faisable, il faut prendre des attentes par rapport au vrai modèle, c'est-à-dire impliquant la valeur de paramètre inconnue . Si tel est le cas , il semble que sans savoir θ 0 il est impossible de calculer I . Est-ce vrai?θ0θ0je

user2249626
la source

Réponses:

13

Vous avez quatre ici: le quantités initiales vrai paramètre , une estimation cohérente θ , les informations attendues I ( θ ) à θ et l'information observée J ( θ ) à θ . Ces quantités ne sont équivalentes qu'asymptotiquement, mais c'est généralement ainsi qu'elles sont utilisées.θ0θ^I(θ)θJ(θ)θ

  1. Les informations observées converge en probabilité vers l'information attendue I(θ0)=Eθ0[2

    J(θ0)=1Ni=1N2θ02lnf(yi|θ0)
    lorsqueYest un échantillon iid de f(θ0). IciEθ0(x)indique l'espérance w / r / t de la distribution indexée parθ0:xf(x|θ0)dx. Cette convergence tient en raison de la loi des grands nombres, donc l'hypothèse queYf(
    I(θ0)=Eθ0[2θ02lnf(y|θ0)]
    Yf(θ0)Eθ0(x)θ0xf(x|θ0)dx est crucial ici.Yf(θ0)
  2. Lorsque vous avez une estimation θ qui converge en probabilité vers le vrai paramètre θ 0 (c. -à- est cohérente), vous pouvez le remplacer pour ne importe où vous voyez un θ 0 ci - dessus, essentiellement en raison du théorème de cartographie continue * , et tout des convergences se maintiennent.θ^θ0θ0

En fait, cela semble êtreun peu subtil.

Remarque

Comme vous l'avez supposé, les informations observées sont généralement plus faciles à utiliser car la différenciation est plus facile que l'intégration, et vous l'avez peut-être déjà évaluée au cours d'une optimisation numérique. Dans certaines circonstances (la distribution normale), ils seront les mêmes.

L'article «Evaluer l'exactitude de l'estimateur du maximum de vraisemblance: informations observées versus informations sur les pêcheurs» par Efron et Hinkley (1978) plaide en faveur des informations observées pour les échantillons finis.

Andrew M
la source
4

Il y a eu quelques études de simulation qui semblent soutenir les observations théoriques d'Efron et Hinkley (qui sont mentionnées dans la réponse d'Andrew), en voici une que je connais d'emblée: Maldonado, G. et Greenland, S. (1994). Une comparaison des performances des intervalles de confiance basés sur un modèle lorsque la forme correcte du modèle est inconnue. Epidemiology, 5, 171-182. Je n'ai vu aucune étude contradictoire. Il est intéressant de noter que les packages GLM standard que je connais utilisent les informations attendues pour calculer les intervalles de Wald. Bien sûr, ce n'est pas un problème lorsque (comme dans les GLM linéaires dans le paramètre naturel) les matrices d'informations observées et attendues sont égales.

Sander Groenland
la source