Ok, c'est une question assez fondamentale, mais je suis un peu confus. Dans ma thèse j'écris:
Les erreurs types peuvent être trouvées en calculant l'inverse de la racine carrée des éléments diagonaux de la matrice (observée) de Fisher Information:
-logLI(μ,σ2)=H-1
Ma question principale: Est-ce correct ce que je dis ?
Je suis un peu confus, car dans cette source à la page 7, il est écrit:
la matrice d'information est le négatif de la valeur attendue de la matrice de Hesse
(Donc, pas d'inverse de la Hesse.)
Considérant que dans cette source à la page 7 (note de bas de page 5), il est écrit:
Les informations de Fisher observées sont égales à .
(Donc, voici l'inverse.)
Je suis conscient du signe moins, du moment de l’utiliser ou non, mais pourquoi y a-t-il une différence entre prendre l’inverse ou non?
la source
Réponses:
Yudi Pawitan écrit dans son livre " Dans toutes les probabilités" que la dérivée seconde du log-vraisemblance évalué aux estimations du maximum de vraisemblance (MLE) est l' information observée de Fisher (voir également ce document , page 2). C’est exactement ce que la plupart des algorithmes d’optimisation aiment
optim
enR
retour: le Hessian évalué au MLE. Quand le négatiflog-vraisemblance est minimisée, la hessienne négative est renvoyée. Comme vous le signalez à juste titre, les erreurs-types estimées de la MLE sont les racines carrées des éléments diagonaux de l'inverse de la matrice d'information de Fisher observée. En d’autres termes: Les erreurs-types estimées sont les racines carrées des éléments diagonaux de l’inverse du hessien (ou du hessien négatif).Sommaire
Officiellement
Soit une fonction de log-vraisemblance. La matrice d'information de Fisher est une matrice symétrique contenant les entrées suivantes: La matrice d'information de Fisher observée est simplement , la matrice d'informations évaluée aux estimations de vraisemblance maximale (MLE). Le Hessian est défini comme suit:l(θ) I(θ) (p×p)
De plus, l’inverse de la matrice d’information de Fisher est un estimateur de la matrice de covariance asymptotique: Les erreurs-types sont alors les racines carrées des éléments diagonaux de la matrice de covariance. Pour la distribution asymptotique d’une estimation du maximum de vraisemblance, on peut écrire où désigne la valeur du paramètre true. Par conséquent, l’erreur type estimée des estimations du maximum de vraisemblance est donnée par:
la source
L’estimation des fonctions de vraisemblance implique un processus en deux étapes.
Tout d'abord, on déclare la fonction log-vraisemblance. alors on optimise les fonctions log-vraisemblance. C'est très bien.
En écrivant les fonctions log-vraisemblance dans R, nous demandons (où représente la fonction log-vraisemblance) car la commande optim dans R minimise une fonction par défaut. la minimisation de -l est identique à la maximisation de l, ce que nous voulons.l−1∗l l
Maintenant, la matrice d'information de Fisher observée est égale à . La raison pour laquelle nous n’avons pas à multiplier le hassian par -1 est que toute l’évaluation a été effectuée en termes de -1 fois le log-vraisemblance. Cela signifie que le hessian produit par optim est déjà multiplié par -1(−H)−1
la source