Question de base sur la matrice d'information de Fisher et sa relation avec les erreurs standard et de hesse

54

Ok, c'est une question assez fondamentale, mais je suis un peu confus. Dans ma thèse j'écris:

Les erreurs types peuvent être trouvées en calculant l'inverse de la racine carrée des éléments diagonaux de la matrice (observée) de Fisher Information:

-logLI(μ,σ2)=H-1

sμ^,σ^2=1I(μ^,σ^2)
Etant donné que la commande d'optimisation dans R minimise la matrice d'informations de Fisher (observée) peut être trouvée en calculant l'inverse du hessien: logL
I(μ^,σ^2)=H1

Ma question principale: Est-ce correct ce que je dis ?

Je suis un peu confus, car dans cette source à la page 7, il est écrit:

la matrice d'information est le négatif de la valeur attendue de la matrice de Hesse

(Donc, pas d'inverse de la Hesse.)

Considérant que dans cette source à la page 7 (note de bas de page 5), il est écrit:

Les informations de Fisher observées sont égales à .(H)1

(Donc, voici l'inverse.)

Je suis conscient du signe moins, du moment de l’utiliser ou non, mais pourquoi y a-t-il une différence entre prendre l’inverse ou non?

Jen Bohold
la source
@COOLSerdash Merci pour vos corrections et +1, mais cette source: unc.edu/~monogan/computing/r/MLE_in_R.pdf page 7 indique clairement que les informations de Fisher observées sont égales à celles de l'INVERSE de Hessian?
Jen Bohold
@COOLSerdash Ok, vous pouvez poster ceci comme réponse.
Jen Bohold

Réponses:

75

Yudi Pawitan écrit dans son livre " Dans toutes les probabilités" que la dérivée seconde du log-vraisemblance évalué aux estimations du maximum de vraisemblance (MLE) est l' information observée de Fisher (voir également ce document , page 2). C’est exactement ce que la plupart des algorithmes d’optimisation aiment optimen Rretour: le Hessian évalué au MLE. Quand le négatiflog-vraisemblance est minimisée, la hessienne négative est renvoyée. Comme vous le signalez à juste titre, les erreurs-types estimées de la MLE sont les racines carrées des éléments diagonaux de l'inverse de la matrice d'information de Fisher observée. En d’autres termes: Les erreurs-types estimées sont les racines carrées des éléments diagonaux de l’inverse du hessien (ou du hessien négatif).

Sommaire

  • Le hessien négatif évalué à la MLE est le même que la matrice d'information de Fisher observée à la MLE.
  • En ce qui concerne votre question principale: Non, il n’est pas exact de dire que les informations de Fisher observées peuvent être trouvées en inversant le hessien (négatif).
  • Concernant votre deuxième question: l’inverse du hessien (négatif) est un estimateur de la matrice de covariance asymptotique. Par conséquent, les racines carrées des éléments diagonaux de la matrice de covariance sont des estimateurs des erreurs standard.
  • Je pense que le deuxième document auquel vous vous connectez s'est trompé.

Officiellement

Soit une fonction de log-vraisemblance. La matrice d'information de Fisher est une matrice symétrique contenant les entrées suivantes: La matrice d'information de Fisher observée est simplement , la matrice d'informations évaluée aux estimations de vraisemblance maximale (MLE). Le Hessian est défini comme suit: l(θ) I(θ)(p×p)

I(θ)=2θiθjl(θ),    1i,jp
I(θ^ML)
H(θ)=2θiθjl(θ),    1i,jp
Ce n'est rien d'autre que la matrice des dérivées secondes de la fonction de vraisemblance par rapport aux paramètres. Il s'ensuit que si vous minimisez la log-vraisemblance négative , la Hessienne renvoyée équivaut à la matrice d'informations de Fisher observée, tandis que dans le cas où vous maximisez la log-vraisemblance, la Hessienne négative correspond à la matrice d'informations observées.

De plus, l’inverse de la matrice d’information de Fisher est un estimateur de la matrice de covariance asymptotique: Les erreurs-types sont alors les racines carrées des éléments diagonaux de la matrice de covariance. Pour la distribution asymptotique d’une estimation du maximum de vraisemblance, on peut écrire où désigne la valeur du paramètre true. Par conséquent, l’erreur type estimée des estimations du maximum de vraisemblance est donnée par:

Var(θ^ML)=[I(θ^ML)]1
θ^MLaN(θ0,[I(θ^ML)]1)
θ0
SE(θ^ML)=1I(θ^ML)
COOLSerdash
la source
1
devrait indiquer "lorsque la log-vraisemblance négative est minimisée " (ou optimisée ).
cmo
8
Les informations de Fisher (attendues) sont ; les informations observées (Fisher) ne sont que , ainsi appelées non pas parce qu’elles sont évaluées à l’estimation maximale de la valeur de , mais parce qu’elles sont fonction des données observées plutôt que d’une moyenne des observations possibles. Ceci est peut-être masqué par des exemples familiers, qui considèrent l'inférence du paramètre canonique dans une famille exponentielle complète, lorsque . I ( θ ) θ I ( θ ) = I ( θ )I(θ)=EI(θ)I(θ)θI(θ)=I(θ)
Scortchi - Réintégrer Monica
6

L’estimation des fonctions de vraisemblance implique un processus en deux étapes.

Tout d'abord, on déclare la fonction log-vraisemblance. alors on optimise les fonctions log-vraisemblance. C'est très bien.

En écrivant les fonctions log-vraisemblance dans R, nous demandons (où représente la fonction log-vraisemblance) car la commande optim dans R minimise une fonction par défaut. la minimisation de -l est identique à la maximisation de l, ce que nous voulons.l1ll

Maintenant, la matrice d'information de Fisher observée est égale à . La raison pour laquelle nous n’avons pas à multiplier le hassian par -1 est que toute l’évaluation a été effectuée en termes de -1 fois le log-vraisemblance. Cela signifie que le hessian produit par optim est déjà multiplié par -1(H)1

Adelino Martins
la source