Quel type d'information est l'information Fisher?

29

Supposons que nous ayons une variable aléatoire . Si était le vrai paramètre, la fonction de vraisemblance devrait être maximisée et la dérivée égale à zéro. C'est le principe de base de l'estimateur du maximum de vraisemblance.Xf(x|θ)θ0

Si je comprends bien, les informations Fisher sont définies comme

I(θ)=E[(θf(X|θ))2]

Ainsi, si est le vrai paramètre, . Mais si ce n'est pas le vrai paramètre, alors nous aurons une plus grande quantité d'informations Fisher.θ0I(θ)=0θ0

mes questions

  1. Les informations de Fisher mesurent-elles l '"erreur" d'un MLE donné? En d'autres termes, l'existence d'informations positives de Fisher n'implique-t-elle pas que mon MLE ne peut pas être idéal?
  2. En quoi cette définition de «l'information» diffère-t-elle de celle utilisée par Shannon? Pourquoi appelons-nous cela des informations?
Stan Shunpike
la source
Pourquoi l'écris-tu ? L'attente est supérieure aux valeurs de distribuées comme si elles provenaient de votre distribution avec le paramètre . EθXθ
Neil G
3
De plus, n'est pas nul au vrai paramètre. I(θ)
Neil G
L'E (S) est nul (c'est-à-dire: l'attente de la fonction de score), mais comme l'écrit Neil G - les informations sur le pêcheur (V (S)) ne sont pas (généralement) nulles.
Tal Galili

Réponses:

15

Essayer de compléter les autres réponses ... Quel type d'information est l'information Fisher? Commencez avec la fonction loglikelihood en fonction de pour , l'espace des paramètres. En supposant que certaines conditions de régularité ne sont pas ici, nous avons (nous écrirons les dérivées par rapport au paramètre sous forme de points comme ici). La variance est l'information de Fisher θ θ Θ E

(θ)=logf(x;θ)
θθΘI(θ)=Eθ( ˙ (θ))2=-Eθ ¨ (θ)θ ˙ (θ)=0 ˙ (θ)Eθ(θ)=Eθ˙(θ)=0
I(θ)=Eθ(˙(θ))2=Eθ¨(θ)
la dernière formule montrant qu'il s'agit de la courbure (négative) de la fonction loglik vraisemblance. On trouve souvent l'estimateur du maximum de vraisemblance (mle) de en résolvant l'équation de vraisemblance lorsque l'information de Fisher est la variance du score est grand, alors la solution de cette équation sera très sensible aux données, donnant un espoir de haute précision du mle. Cela est confirmé au moins asymptotiquement, la variance asymptotique du mle étant l'inverse des informations de Fisher.θ˙(θ)=0˙(θ)

Comment pouvons-nous interpréter cela? est l'information de vraisemblance sur le paramètre de l'échantillon. Cela ne peut vraiment être interprété que dans un sens relatif, comme lorsque nous l'utilisons pour comparer les plausibilités de deux valeurs de paramètres possibles distinctes via le test du rapport de vraisemblance . Le taux de variation de la loglik vraisemblance est la fonction de score nous indique à quelle vitesse la vraisemblance change, et sa variance combien cela varie d'un échantillon à l'autre, à un paramètre donné valeur, par exemple . L'équation (ce qui est vraiment surprenant!) θ ( θ 0 ) - ( θ 1 ) ˙ ( θ ) I ( θ ) θ 0 I ( θ ) = - E θ ¨ ( θ ) θ 0 ˙ ( θ ) θ = θ 0 θ θ 0(θ)θ(θ0)(θ1)˙(θ)I(θ)θ0

I(θ)=Eθ¨(θ)
nous indique qu'il existe une relation (égalité) entre la variabilité des informations (vraisemblance) pour une valeur de paramètre donnée, , et la courbure de la fonction de vraisemblance pour cette valeur de paramètre. Il s'agit d'une relation surprenante entre la variabilité (variance) de cette statistique et le changement attendu de similitude lorsque nous modifions le paramètre dans un intervalle autour de (pour les mêmes données). C'est vraiment à la fois étrange, surprenant et puissant!θ0˙(θ)θ=θ0θθ0

Quelle est donc la fonction de vraisemblance? Nous considérons généralement le modèle statistique comme une famille de distributions de probabilité pour les données , indexées par le paramètre un élément de l'espace des paramètres . Nous pensons que ce modèle est vrai s'il existe une valeur telle que les données ont en fait la distribution de probabilité . Nous obtenons donc un modèle statistique en imbriquant la vraie distribution de probabilité de génération de données{f(x;θ),θΘ}xθΘθ0Θxf(x;θ0)f(x;θ0)dans une famille de distributions de probabilité. Mais, il est clair qu'une telle imbriquage peut se faire de nombreuses manières différentes, et chacune de ces imbriquations sera un "vrai" modèle, et elles donneront différentes fonctions de vraisemblance. Et, sans un tel encastrement, il n'y a pas de fonction de vraisemblance. Il semble que nous ayons vraiment besoin d'aide, de principes sur la façon de choisir judicieusement un enrobage!

Qu'est-ce que cela signifie? Cela signifie que le choix de la fonction de vraisemblance nous dit comment nous nous attendrions à ce que les données changent, si la vérité changeait un peu. Mais cela ne peut pas vraiment être vérifié par les données, car les données ne donnent que des informations sur la véritable fonction du modèle qui a réellement généré les données, et pas rien sur tous les autres éléments du modèle choisi. De cette façon, nous voyons que le choix de la fonction de vraisemblance est similaire au choix d'un a priori dans l'analyse bayésienne, il injecte des informations non-données dans l'analyse. Examinons cela dans un exemple simple (quelque peu artificiel) et examinons l'effet de l'imbrication de dans un modèle de différentes manières.f(x;θ0)f(x;θ0)

Supposons que sont iid comme . Donc, c'est la vraie distribution génératrice de données. Maintenant, intégrons ceci dans un modèle de deux manières différentes, modèle A et modèle B. vous pouvez vérifier que cela coïncide pour .X1,,XnN(μ=10,σ2=1)

A:X1,,Xn iid N(μ,σ2=1),μRB:X1,,Xn iid N(μ,μ/10),μ>0
μ=10

Les fonctions de loglikelihood deviennent

A(μ)=n2log(2π)12i(xiμ)2B(μ)=n2log(2π)n2log(μ/10)102i(xiμ)2μ

Les fonctions de score: (dérivées loglikelihood): et les courbures donc, les informations Fisher dépendent vraiment de l'imbedding. Maintenant, nous calculons les informations de Fisher à la vraie valeur , donc les informations de Fisher sur le paramètre sont un peu plus grandes dans le modèle B.

˙A(μ)=n(x¯μ)˙B(μ)=n2μ102i(xiμ)215n
¨A(μ)=n¨B(μ)=n2μ2+102i2xi2μ3
μ=10
IA(μ=10)=n,IB(μ=10)=n(1200+20202000)>n

Cela illustre que, dans un certain sens, les informations de Fisher nous indiquent à quelle vitesse les informations des données sur le paramètre auraient changé si le paramètre directeur avait changé de la manière postulée par l'imbedding dans une famille de modèles . L'explication d'informations plus élevées dans le modèle B est que notre famille de modèles B postule que si l'espérance aurait augmenté, la variance aurait également augmenté . De sorte que, sous le modèle B, la variance de l'échantillon contiendra également des informations sur , ce qu'elle ne fera pas sous le modèle A.μ

De plus, cet exemple montre que nous avons vraiment besoin d'une théorie pour nous aider à construire des familles de modèles.

kjetil b halvorsen
la source
1
grande explication. Pourquoi dites-vous ? c'est une fonction de - n'est-ce pas 0 seulement lorsqu'il est évalué au vrai paramètre ? \Eθ˙(θ)=0θθ0
ihadanny
1
Oui, ce que vous dites est vrai, @idadanny Il est nul lorsqu'il est évalué à la valeur réelle du paramètre.
kjetil b halvorsen
Merci encore @kjetil - donc juste une autre question: la relation surprenante entre la variance du score et la courbure de la probabilité est-elle vraie pour chaque ? ou seulement au voisinage du vrai paramètre ? θθ0
ihadanny
Encore une fois, cette relation est vraie pour la vraie valeur du paramètre. Mais pour que cela soit d'une grande aide, il doit y avoir une continuité, de sorte qu'elle soit approximativement vraie dans certains quartiers, car nous l'utilisons à la valeur estimée , pas seulement à la vraie valeur (inconnue). θ^
kjetil b halvorsen
donc, la relation est vraie pour le vrai paramètre , elle vaut presque pour puisque nous supposons que c'est dans le voisinage de , mais pour un général cela ne tient pas, non? θ0θmleθ0θ1
ihadanny
31

Pensons à la fonction de log-vraisemblance négative . Le score négatif est son gradient par rapport à la valeur du paramètre. Au vrai paramètre, le score est nul. Sinon, il donne la direction vers le minimum (ou dans le cas d'un non convexe , un point de selle ou un minimum ou maximum local).

Les informations de Fisher mesurent la courbure de autour de si les données suivent . En d'autres termes, il vous indique dans quelle mesure le fait de modifier le paramètre affecterait votre probabilité de journalisation.θθ

Considérez que vous aviez un gros modèle avec des millions de paramètres. Et vous aviez une petite clé USB sur laquelle stocker votre modèle. Comment devez-vous hiérarchiser le nombre de bits de chaque paramètre à stocker? La bonne réponse est d'allouer des bits en fonction des informations de Fisher (Rissanen a écrit à ce sujet). Si les informations Fisher d'un paramètre sont nulles, ce paramètre n'a pas d'importance.

Nous l'appelons «informations» car les informations de Fisher mesurent ce que ce paramètre nous apprend sur les données.


Une manière familière d'y penser est la suivante: supposons que les paramètres conduisent une voiture et que les données soient sur le siège arrière corrigeant le conducteur. L'ennui des données est l'information de Fisher. Si les données permettent au conducteur de conduire, les informations Fisher sont nulles; si les données font constamment des corrections, c'est gros. En ce sens, les informations de Fisher sont la quantité d'informations allant des données aux paramètres.

Considérez ce qui se passe si vous rendez le volant plus sensible. Cela équivaut à une reparamétrisation. Dans ce cas, les données ne veulent pas être si bruyantes de peur du survirage de la voiture. Ce type de reparamétrisation diminue les informations de Fisher.

Neil G
la source
20

En complément de la belle réponse de @ NeilG (+1) et pour répondre à vos questions spécifiques:

  1. Je dirais qu'il compte la "précision" plutôt que "l'erreur" elle-même.

N'oubliez pas que la Hesse de la log-vraisemblance évaluée aux estimations ML est l'information Fisher observée. Les erreurs types estimées sont les racines carrées des éléments diagonaux de l'inverse de la matrice d'information de Fisher observée. Dérivé de cela, l'information Fisher est la trace de la matrice d'information Fisher. Étant donné que la matrice d'information de Fisher est une matrice matricielle semi-définie hermitienne, ses entrées diagonales sont réelles et non négatives; en conséquence directe, la trace doit être positive. Cela signifie que vous ne pouvez avoir que des estimateurs «non idéaux» selon votre affirmation. Donc non, une information Fisher positive n'est pas liée à l'idéal de votre MLE.IIj,jtr(I)

  1. La définition diffère dans la façon dont nous interprétons la notion d'information dans les deux cas. Cela dit, les deux mesures sont étroitement liées.

L'inverse de l'information de Fisher est la variance minimale d'un estimateur non biaisé ( lié à Cramér – Rao ). En ce sens, la matrice d'informations indique la quantité d'informations sur les coefficients estimés contenues dans les données. Au contraire, l'entropie de Shannon a été empruntée à la thermodynamique. Il relie le contenu informationnel d'une valeur particulière d'une variable comme où est la probabilité que la variable prenne la valeur. Les deux sont des mesures de la valeur «informative» d'une variable. Dans le premier cas, vous jugez ces informations en termes de précision tandis que dans le second cas en termes de désordre; différents côtés, même pièce! :RÉpp·log2(p)p

Pour récapituler: L'inverse de la matrice d'information de Fisher évaluée aux valeurs de l'estimateur ML est la matrice de covariance asymptotique ou approximative. Comme ces valeurs d'estimateur ML se trouvent graphiquement dans un minimum local, les informations de Fisher montrent la profondeur de ce minimum et la marge de manœuvre que vous avez autour de lui. J'ai trouvé cet article de Lutwak et al. sur les extensions des informations de Fisher et l'inégalité de Stam une lecture informative à ce sujet. Les articles de Wikipédia sur la métrique d'information de Fisher et sur la divergence Jensen – Shannon sont également utiles pour vous aider à démarrer.I

usεr11852 dit Reinstate Monic
la source