Relation entre la matrice de Hesse et la matrice de covariance

Vous devez d'abord consulter cette question de base sur la matrice d'informations de Fisher et sa relation avec la Hesse et les erreurs standard

Supposons que nous ayons un modèle statistique (famille de distributions) . Dans le cas le plus général, nous avons , donc cette famille est paramétrée par $\{f_{\theta}: \theta \in \Theta\}$ $dim(\Theta) = d$ $\theta = (\theta_1, \dots, \theta_d)^T$ . Sous certaines conditions de régularité, nous avons

{je}_{je, j} (θ) = - E_{θ} [\frac{\partial^{2} l (X; θ)}{\partial θ_{je} \partial θ_{j}}] = - E_{θ} [H_{je, j} (l (X; θ))]

$I_{i,j}(\theta) = -E_{\theta}\Big[\frac{\partial^2 l(X; \theta)}{\partial\theta_i\partial\theta_j}\Big] = -E_\theta\Big[H_{i,j}(l(X;\theta))\Big]$

où est une matrice d'informations de Fisher (en fonction de ) et est la valeur observée (échantillon) $I_{i,j}$ $\theta$ $X$

l (X; θ) = l n (F_{θ} (X)), pour certains θ \in Θ

$l(X; \theta) = ln(f_{\theta}(X)),\text{ for some } \theta \in \Theta$

Ainsi, la matrice d'informations de Fisher est une valeur attendue négative de Hesian de la probabilité logarithmique sous un certain $\theta$

Supposons maintenant que nous voulons estimer une fonction vectorielle du paramètre inconnu . On souhaite généralement que l'estimateur soit sans biais, c'est-à-dire $\psi(\theta)$ $T(X) = (T_1(X), \dots, T_d(X))$

\forall_{θ \in Θ} E_{θ} [T (X)] = ψ (θ)

$\forall_{\theta \in \Theta}\ E_{\theta}[T(X)] = \psi(\theta)$

Cramer Rao Lower Bound déclare que pour tout non biaisé, le $T(X)$ $cov_{\theta}(T(X))$ satisfait

c o v_{θ} (T (X)) \geq \frac{\partial ψ (θ)}{\partial θ} {je}^{- 1} (θ) (\frac{\partial ψ (θ)}{\partial θ})^{T} = B (θ)

$cov_{\theta}(T(X)) \ge \frac{\partial\psi(\theta)}{\partial\theta}I^{-1}(\theta)\Big(\frac{\partial\psi(\theta)}{\partial\theta}\Big)^T = B(\theta)$

$A \ge B$ $A - B$ $\frac{\partial\psi(\theta)}{\partial\theta}$ $J_{i,j}(\psi)$ $\theta$ $\psi(\theta) = \theta$

c o v_{θ} (T (X)) \geq {je}^{- 1} (θ)

$cov_{\theta}(T(X)) \ge I^{-1}(\theta)$

Mais qu'est-ce que cela nous dit vraiment? Par exemple, rappelez-vous que

v une r_{θ} (T_{je} (X)) = [c o v_{θ} (T (X))]_{je, je}

$var_{\theta}(T_i(X)) = [cov_{\theta}(T(X))]_{i,i}$

$A$ diagonale les éléments diagonaux sont non négatifs

\forall_{je} {UNE}_{je, je} \geq 0

$\forall_i\ A_{i,i} \ge 0$

$B(\theta)$

\forall_{je} v une r_{θ} (T_{je} (X)) \geq [B (θ)]_{je, je}

$\forall_i\ var_{\theta}(T_i(X)) \ge [B(\theta)]_{i,i}$

Le CRLB ne nous dit donc pas la variance de notre estimateur, mais plus ou moins notre estimateur est optimal , c'est-à-dire s'il a la covariance la plus faible parmi tous les estimateurs sans biais.

Łukasz Grad
la source

J'apprécie votre explication ici. Je ne suis pas vraiment une mathématique mais je suis en train d'apprendre les maths sérieusement. Cependant, cela me semble encore trop abstrait. J'espère qu'il y a un exemple doux avec des chiffres simples, qui le comprendra certainement.

user122358

Relation entre la matrice de Hesse et la matrice de covariance

Réponses: