Je ne suis pas à l'aise avec les informations de Fisher, ce qu'elles mesurent et en quoi elles sont utiles. De plus, sa relation avec la borne Cramer-Rao ne m'est pas apparente.
Quelqu'un peut-il s'il vous plaît donner une explication intuitive de ces concepts?
Réponses:
J'explique ici pourquoi la variance asymptotique de l' estimateur du maximum de vraisemblance est la limite inférieure de Cramer-Rao. Espérons que cela donnera un aperçu de la pertinence des informations de Fisher.
L'inférence statistique se poursuit avec l'utilisation d'une fonction de vraisemblance que vous construisez à partir des données. L'estimation du point est la valeur qui maximise . L'estimateur est une variable aléatoire, mais il est utile de comprendre que la fonction de vraisemblance est une "courbe aléatoire".θ L ( θ ) θ L ( θ )L(θ) θ^ L(θ) θ^ L(θ)
Nous supposons ici que les données iid proviennent d’une distribution et définissons la vraisemblance L ( θ ) = 1f(x|θ)
Le paramètre a la propriété de maximiser la valeur de la "vraie" vraisemblance, . Cependant, la fonction de vraisemblance "observée" qui est construite à partir des données est légèrement "décalée" par rapport à la vraisemblance. Pourtant, comme vous pouvez l'imaginer, à mesure que la taille de l'échantillon augmente, la probabilité "observée" converge vers la forme de la courbe de vraisemblance. Il en va de même pour la dérivée de la vraisemblance par rapport au paramètre, la fonction de score . (En résumé, les informations de Fisher déterminent la rapidité avec laquelle la fonction de score observée converge vers la forme de la vraie fonction de score.E L ( θ ) L ( θ ) ∂ L / ∂ θθ EL(θ) L(θ) ∂L/∂θ
Pour un échantillon de grande taille, nous supposons que notre estimation de vraisemblance maximale est très proche de . Nous zoomons sur un petit voisinage autour de et sorte que la fonction de vraisemblance soit "localement quadratique". & thetav& thetav & thetavθ^ θ θ θ^
Là, est le point où la fonction de partition intersecte l'origine. Dans cette petite région, nous traitons la fonction score comme une ligne , avec pente et une interception aléatoire à . Nous savons de l'équation pour une ligne que les touches ∂L/touches ∂θabθθ^ ∂L/∂θ a b θ
ou
De la cohérence de l'estimateur MLE, nous savons que
dans la limite.
Par conséquent, asymptotiquement
Il s'avère que la pente varie beaucoup moins que l'interception, et asymptotiquement, nous pouvons considérer que la fonction score a une pente constante dans un petit voisinage autour de . Ainsi on peut écrireθ
Alors, quelles sont les valeurs de et ? Il s’avère qu’en raison d’une merveilleuse coïncidence mathématique, il s’agit de la même quantité (modulo un signe moins), l’information de Fisher.a nVar(b)
Ainsi,
la source
Je comprends les informations du pêcheur comme suit:
Les informations de Fisher peuvent être écrites de cette manière chaque fois que la densité est deux fois différentiable. Si l'espace échantillon ne dépend pas du paramètre , nous pouvons utiliser la formule intégrale de Leibniz pour montrer que le premier terme est zéro (différencier les deux côtés de deux fois et vous obtenez zéro), et le deuxième terme est la définition "standard". Je vais prendre le cas lorsque le premier terme est égal à zéro. Les cas où ce n'est pas zéro ne sont pas très utiles pour comprendre les informations de Fisher.f(x|θ) X θ ∫Xf(x|θ)dx=1
Maintenant, lorsque vous effectuez une estimation du maximum de vraisemblance (insérez "conditions de régularité" ici), vous définissez
Et résoudre pour . Ainsi, la seconde dérivée indique la rapidité avec laquelle le gradient change et, dans un sens, "jusqu'à quel point" peut s'écarter de la MLE sans effectuer de changement appréciable dans la partie droite de l'équation ci-dessus. Une autre façon de penser est d’imaginer une "montagne" dessinée sur le papier - c’est la fonction log-vraisemblance. La résolution de l’équation MLE ci-dessus vous indique où se situe le sommet de cette montagne en fonction de la variable aléatoire . La deuxième dérivée vous indique l’altitude de la montagne - ce qui vous dit, en un sens, qu’il est facile de trouver le sommet de la montagne. Les informations de Fisher proviennent de la prise en compte de la pente attendue du pic, ce qui donne une interprétation "pré-donnée".θ θ x
Une chose que je trouve toujours curieuse est que sa log-vraisemblance est raide, et non pas comment une autre fonction monotone de la vraisemblance est (peut-être liée aux fonctions de notation "appropriées" dans la théorie de la décision? Ou peut-être aux axiomes de cohérence de l'entropie ?)
Les informations de Fisher "apparaissent également" dans de nombreuses analyses asymptotiques en raison de ce que l’on appelle l’approximation de Laplace. Ceci est essentiellement dû au fait que toute fonction avec une augmentation unique "bien arrondie" à une puissance de plus en plus élevée passe dans une fonction gaussienne (similaire au théorème de la limite centrale, mais légèrement plus général). Ainsi, lorsque vous avez un grand échantillon, vous vous trouvez effectivement dans cette position et vous pouvez écrire:exp(−ax2)
Et quand vous pouvez développer le log-vraisemblance sur le MLE:
Ce qui revient à l'approximation généralement bonne de remplacer une somme par une intégrale, mais cela nécessite que les données soient indépendantes. Ainsi, pour les grands échantillons indépendants (donnés ), vous pouvez voir que les informations de Fisher déterminent la variable de la MLE, pour diverses valeurs de la MLE.θ
la source
C'est l'article le plus intuitif que j'ai vu jusqu'à présent:
La limite inférieure de Cramér-Rao sur la variance: le «principe d'incertitude» d'Adam et Eve par Michael R. Powers, Journal of Risk Finance, vol. 7, n ° 3, 2006
La liaison est expliquée par une analogie d'Adam et Eve dans le jardin d'Éden, jetant une pièce pour savoir qui doit manger le fruit, puis ils se demandent à quel point un échantillon est nécessaire pour atteindre un certain niveau de précision dans leur estimation. et ils découvrent alors cette limite ...
Belle histoire avec un message profond sur la réalité.
la source
Bien que les explications fournies ci-dessus soient très intéressantes et que j'aime bien les parcourir, j'estime que la nature de la limite inférieure de Cramer-Rao m'a été mieux expliquée d'un point de vue géométrique. Cette intuition est un résumé du concept des ellipses de concentration du chapitre 6 du livre de Scharf sur le traitement du signal statistique .
Considérons tout estimateur non biaisé de . De plus, supposons que l'estimateur ait une distribution gaussienne avec une covariance . Dans ces conditions, la distribution de est proportionnelle à:θ θ^ Σ θ^
Imaginons maintenant les courbes de niveau de cette distribution pour . Toute contrainte supérieure de la probabilité de (ie, ) donnera un ellipsoïde centré sur à rayon fixe . Il est facile de montrer qu’il existe une relation un-à-un entre le rayon de l’ellipsoïde et la probabilité souhaitée . En d'autres termes, est proche de au sein d'un ellipsoïde déterminé par le rayon avec une probabilitéθ ∫ f ( θ ) d θ ≤ P r θ r r P r θ θ r P rθ∈R2 θ^ ∫f(θ^)dθ≤Pr θ r r Pr θ^ θ r Pr . Cet ellipsoïde est appelé ellipsoïde de concentration.
Considérant la description ci-dessus, nous pouvons dire ce qui suit à propos du CRLB. Parmi tous les estimateurs sans biais, le CRLB représente un estimateur covariance qui, pour la probabilité fixe de "proximité" (tel que défini ci - dessus), a le plus petit ellipsoïde de concentration. La figure ci-dessous fournit une illustration 2D (inspirée de l'illustration du livre de Scharf ).ΣcrlbPrθ^crlb Σcrlb Pr
la source