Pourquoi l'estimateur de James-Stein est-il appelé un estimateur de «rétrécissement»?

J'ai lu sur l'estimateur de James-Stein. Il est défini, dans ces notes , comme

\hat{θ} = (1 - \frac{p - 2}{‖ X ‖^{2}}) X

$\hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X$

J'ai lu la preuve mais je ne comprends pas l'énoncé suivant:

Géométriquement, l'estimateur de James – Stein rétrécit chaque composante de $X$ vers l'origine ...

Que signifie exactement "rétrécit chaque composant de $X$ vers l'origine"? Je pensais à quelque chose comme

‖ \hat{θ} - 0 ‖^{2} < ‖ X - 0 ‖^{2},

$\|\hat{\theta} - 0\|^2 < \|X - 0\|^2,$ ce qui est vrai dans ce cas aussi longtemps que

(p + 2) < ‖ X ‖^{2}

$(p+2) < \|X\|^2$ , puisque

‖ \hat{θ} ‖ = \frac{‖ X ‖^{2} - (p + 2)}{‖ X ‖^{2}} ‖ X ‖ .

$\|\hat{\theta}\| = \frac{\|X\|^2 - (p+2)}{\|X\|^2} \|X\|.$

Est-ce ce que les gens veulent dire quand ils disent "rétrécir vers zéro" parce qu'au sens de la norme $L^2$ , l'estimateur JS est plus proche de zéro que $X$ ?

Mise à jour du 22/09/2017 : Aujourd'hui, j'ai réalisé que je compliquais peut-être trop les choses. Il semble que les gens veulent vraiment dire qu'une fois que vous multipliez $X$ par quelque chose de plus petit que $1$ , à savoir le terme $\frac{\|X\|^2 - (p + 2)}{\|X\|^2}$ , chaque composante de $X$ sera plus petite qu'auparavant.

estimation terminology shrinkage steins-phenomenon 3x89g2
la source

Une image vaut parfois mille mots, alors laissez-moi en partager une avec vous. Ci-dessous, vous pouvez voir une illustration qui vient du document de Bradley Efron (1977), le paradoxe de Stein dans les statistiques . Comme vous pouvez le voir, ce que fait l'estimateur de Stein est de rapprocher chacune des valeurs de la grande moyenne. Il réduit les valeurs supérieures à la moyenne générale et les valeurs inférieures à la moyenne générale. Par rétrécissement, nous entendons déplacer les valeurs vers la moyenne , ou vers zéro dans certains cas - comme la régression régularisée - qui rétrécit les paramètres vers zéro.

Bien sûr, il ne s'agit pas seulement de se rétrécir, mais ce que Stein (1956) et James et Stein (1961) ont prouvé, c'est que l'estimateur de Stein domine l'estimateur du maximum de vraisemblance en termes d'erreur quadratique totale,

E_{μ} (‖ {\hat{μ}}^{J S} - μ ‖^{2}) < E_{μ} (‖ {\hat{μ}}^{M L E} - μ ‖^{2})

$E_\mu(\| \boldsymbol{\hat\mu}^{JS} - \boldsymbol{\mu} \|^2) < E_\mu(\| \boldsymbol{\hat\mu}^{MLE} - \boldsymbol{\mu} \|^2)$

$\boldsymbol{\mu} = (\mu_1,\mu_2,\dots,\mu_p)'$ $\hat\mu^{JS}_i$ $\hat\mu^{MLE}_i = x_i$ $x_1,x_2,\dots,x_p$ $p > 2$

Enfin, l'estimateur de Stein n'est certainement pas le seul estimateur qui donne l'effet de rétrécissement. Pour d'autres exemples, vous pouvez consulter cette entrée de blog , ou le livre d' analyse de données bayésien référé par Gelman et al. Vous pouvez également vérifier les discussions sur la régression régularisée, par exemple. Quel problème les méthodes de retrait résolvent-elles? , ou quand utiliser des méthodes de régularisation pour la régression? , pour d'autres applications pratiques de cet effet.

Tim
la source

L'article semble utile et je vais le lire. J'ai mis à jour ma question pour expliquer davantage mes pensées. Pourriez-vous jeter un oeil? Merci!

3x89g2

@Tim Je pense que l'argument de Misakov est légitime en ce que l'estimateur de James-Stein rapproche l'estimateur de

de zéro que le MLE. Le zéro joue un rôle central et central dans cet estimateur et des estimateurs de James-Stein peuvent être construits qui rétrécissent vers d'autres centres ou même des sous-espaces (comme dans George, 1986). Par exemple, Efron et Morris (1973) se rétrécissent vers la moyenne commune, qui équivaut au sous-espace diagonal.

θ

$\theta$

Xi'an

Pourquoi l'estimateur de James-Stein est-il appelé un estimateur de «rétrécissement»?

Réponses: