Supposons que nous ayons une variable aléatoire . Si était le vrai paramètre, la fonction de vraisemblance devrait être maximisée et la dérivée égale à zéro. C'est le principe de base de l'estimateur du maximum de vraisemblance.
Si je comprends bien, les informations Fisher sont définies comme
Ainsi, si est le vrai paramètre, . Mais si ce n'est pas le vrai paramètre, alors nous aurons une plus grande quantité d'informations Fisher.
mes questions
- Les informations de Fisher mesurent-elles l '"erreur" d'un MLE donné? En d'autres termes, l'existence d'informations positives de Fisher n'implique-t-elle pas que mon MLE ne peut pas être idéal?
- En quoi cette définition de «l'information» diffère-t-elle de celle utilisée par Shannon? Pourquoi appelons-nous cela des informations?
bayesian
maximum-likelihood
likelihood
intuition
fisher-information
Stan Shunpike
la source
la source
Réponses:
Essayer de compléter les autres réponses ... Quel type d'information est l'information Fisher? Commencez avec la fonction loglikelihood en fonction de pour , l'espace des paramètres. En supposant que certaines conditions de régularité ne sont pas ici, nous avons (nous écrirons les dérivées par rapport au paramètre sous forme de points comme ici). La variance est l'information de Fisher θ θ ∈ Θ E ∂
Comment pouvons-nous interpréter cela? est l'information de vraisemblance sur le paramètre de l'échantillon. Cela ne peut vraiment être interprété que dans un sens relatif, comme lorsque nous l'utilisons pour comparer les plausibilités de deux valeurs de paramètres possibles distinctes via le test du rapport de vraisemblance . Le taux de variation de la loglik vraisemblance est la fonction de score nous indique à quelle vitesse la vraisemblance change, et sa variance combien cela varie d'un échantillon à l'autre, à un paramètre donné valeur, par exemple . L'équation (ce qui est vraiment surprenant!) θ ℓ ( θ 0 ) - ℓ ( θ 1 ) ˙ ℓ ( θ ) I ( θ ) θ 0 I ( θ ) = - E θ ¨ ℓ ( θ ) θ 0 ˙ ℓ ( θ ) ∣ θ = θ 0 θ θ 0ℓ(θ) θ ℓ(θ0)−ℓ(θ1) ℓ˙(θ) I(θ) θ0
Quelle est donc la fonction de vraisemblance? Nous considérons généralement le modèle statistique comme une famille de distributions de probabilité pour les données , indexées par le paramètre un élément de l'espace des paramètres . Nous pensons que ce modèle est vrai s'il existe une valeur telle que les données ont en fait la distribution de probabilité . Nous obtenons donc un modèle statistique en imbriquant la vraie distribution de probabilité de génération de données{f(x;θ),θ∈Θ} x θ Θ θ0∈Θ x f(x;θ0) f(x;θ0) dans une famille de distributions de probabilité. Mais, il est clair qu'une telle imbriquage peut se faire de nombreuses manières différentes, et chacune de ces imbriquations sera un "vrai" modèle, et elles donneront différentes fonctions de vraisemblance. Et, sans un tel encastrement, il n'y a pas de fonction de vraisemblance. Il semble que nous ayons vraiment besoin d'aide, de principes sur la façon de choisir judicieusement un enrobage!
Qu'est-ce que cela signifie? Cela signifie que le choix de la fonction de vraisemblance nous dit comment nous nous attendrions à ce que les données changent, si la vérité changeait un peu. Mais cela ne peut pas vraiment être vérifié par les données, car les données ne donnent que des informations sur la véritable fonction du modèle qui a réellement généré les données, et pas rien sur tous les autres éléments du modèle choisi. De cette façon, nous voyons que le choix de la fonction de vraisemblance est similaire au choix d'un a priori dans l'analyse bayésienne, il injecte des informations non-données dans l'analyse. Examinons cela dans un exemple simple (quelque peu artificiel) et examinons l'effet de l'imbrication de dans un modèle de différentes manières.f(x;θ0) f(x;θ0)
Supposons que sont iid comme . Donc, c'est la vraie distribution génératrice de données. Maintenant, intégrons ceci dans un modèle de deux manières différentes, modèle A et modèle B. vous pouvez vérifier que cela coïncide pour .X1,…,Xn N(μ=10,σ2=1)
Les fonctions de loglikelihood deviennent
Les fonctions de score: (dérivées loglikelihood): et les courbures donc, les informations Fisher dépendent vraiment de l'imbedding. Maintenant, nous calculons les informations de Fisher à la vraie valeur , donc les informations de Fisher sur le paramètre sont un peu plus grandes dans le modèle B.
Cela illustre que, dans un certain sens, les informations de Fisher nous indiquent à quelle vitesse les informations des données sur le paramètre auraient changé si le paramètre directeur avait changé de la manière postulée par l'imbedding dans une famille de modèles . L'explication d'informations plus élevées dans le modèle B est que notre famille de modèles B postule que si l'espérance aurait augmenté, la variance aurait également augmenté . De sorte que, sous le modèle B, la variance de l'échantillon contiendra également des informations sur , ce qu'elle ne fera pas sous le modèle A.μ
De plus, cet exemple montre que nous avons vraiment besoin d'une théorie pour nous aider à construire des familles de modèles.
la source
Pensons à la fonction de log-vraisemblance négative . Le score négatif est son gradient par rapport à la valeur du paramètre. Au vrai paramètre, le score est nul. Sinon, il donne la direction vers le minimum (ou dans le cas d'un non convexe , un point de selle ou un minimum ou maximum local).ℓ ℓ ℓ
Les informations de Fisher mesurent la courbure de autour de si les données suivent . En d'autres termes, il vous indique dans quelle mesure le fait de modifier le paramètre affecterait votre probabilité de journalisation.ℓ θ θ
Considérez que vous aviez un gros modèle avec des millions de paramètres. Et vous aviez une petite clé USB sur laquelle stocker votre modèle. Comment devez-vous hiérarchiser le nombre de bits de chaque paramètre à stocker? La bonne réponse est d'allouer des bits en fonction des informations de Fisher (Rissanen a écrit à ce sujet). Si les informations Fisher d'un paramètre sont nulles, ce paramètre n'a pas d'importance.
Nous l'appelons «informations» car les informations de Fisher mesurent ce que ce paramètre nous apprend sur les données.
Une manière familière d'y penser est la suivante: supposons que les paramètres conduisent une voiture et que les données soient sur le siège arrière corrigeant le conducteur. L'ennui des données est l'information de Fisher. Si les données permettent au conducteur de conduire, les informations Fisher sont nulles; si les données font constamment des corrections, c'est gros. En ce sens, les informations de Fisher sont la quantité d'informations allant des données aux paramètres.
Considérez ce qui se passe si vous rendez le volant plus sensible. Cela équivaut à une reparamétrisation. Dans ce cas, les données ne veulent pas être si bruyantes de peur du survirage de la voiture. Ce type de reparamétrisation diminue les informations de Fisher.
la source
En complément de la belle réponse de @ NeilG (+1) et pour répondre à vos questions spécifiques:
N'oubliez pas que la Hesse de la log-vraisemblance évaluée aux estimations ML est l'information Fisher observée. Les erreurs types estimées sont les racines carrées des éléments diagonaux de l'inverse de la matrice d'information de Fisher observée. Dérivé de cela, l'information Fisher est la trace de la matrice d'information Fisher. Étant donné que la matrice d'information de Fisher est une matrice matricielle semi-définie hermitienne, ses entrées diagonales sont réelles et non négatives; en conséquence directe, la trace doit être positive. Cela signifie que vous ne pouvez avoir que des estimateurs «non idéaux» selon votre affirmation. Donc non, une information Fisher positive n'est pas liée à l'idéal de votre MLE.I Ij,j tr(I)
L'inverse de l'information de Fisher est la variance minimale d'un estimateur non biaisé ( lié à Cramér – Rao ). En ce sens, la matrice d'informations indique la quantité d'informations sur les coefficients estimés contenues dans les données. Au contraire, l'entropie de Shannon a été empruntée à la thermodynamique. Il relie le contenu informationnel d'une valeur particulière d'une variable comme où est la probabilité que la variable prenne la valeur. Les deux sont des mesures de la valeur «informative» d'une variable. Dans le premier cas, vous jugez ces informations en termes de précision tandis que dans le second cas en termes de désordre; différents côtés, même pièce! :RÉp–p⋅log2(p) p
Pour récapituler: L'inverse de la matrice d'information de Fisher évaluée aux valeurs de l'estimateur ML est la matrice de covariance asymptotique ou approximative. Comme ces valeurs d'estimateur ML se trouvent graphiquement dans un minimum local, les informations de Fisher montrent la profondeur de ce minimum et la marge de manœuvre que vous avez autour de lui. J'ai trouvé cet article de Lutwak et al. sur les extensions des informations de Fisher et l'inégalité de Stam une lecture informative à ce sujet. Les articles de Wikipédia sur la métrique d'information de Fisher et sur la divergence Jensen – Shannon sont également utiles pour vous aider à démarrer.I
la source