L'exemple de Stein montre que l'estimation du maximum de vraisemblance de variables normalement distribuées avec les moyennes et les variances est inadmissible (sous une fonction de perte au carré) si et si . Pour une preuve plus nette, voir le premier chapitre de Inférence à grande échelle: méthodes empiriques bayésiennes d’estimation, de test et de prévision par Bradley Effron.μ 1 , … , μ n 1 n ≥ 3
C’était très surprenant pour moi au début, mais il ya une certaine intuition derrière pourquoi on peut s’attendre à ce que l’estimation standard soit inadmissible (notamment si , alors , comme indiqué dans l'article original de Stein, lié à ci-dessous).
Ma question est plutôt la suivante: quelle propriété de l'espace dimensionnel (pour ) manque- t-elle de ce qui facilite l'exemple de Stein? Les réponses possibles pourraient concerner la courbure de la sphère ou quelque chose de complètement différent.
En d'autres termes, pourquoi le MLE est-il admissible dans ?
Edit 1: En réponse à @mpiktas, vous vous inquiétez de 1.31 à partir de 1.30:
Edit 2 : Dans cet article , Stein prouve que le MLE est admissible pour .
Réponses:
La dichotomie entre les cas et pour l'admissibilité de la MLE de la moyenne d'une variable aléatoire normale multivariée à dimensions est certainement choquante.d<3 d≥3 d
Il existe un autre exemple très célèbre de probabilités et de statistiques dans lequel il existe une dichotomie entre les cas et . C’est la récurrence d’une simple marche aléatoire sur le réseau . C'est-à-dire que la marche aléatoire simple de dimension est récurrente dans 1 ou 2 dimensions, mais est transitoire dans dimensions. L'analogue en temps continu (sous la forme d'un mouvement brownien) est également valable.d<3 d≥3 Zd d d≥3
Il s'avère que les deux sont étroitement liés.
Larry Brown a prouvé que les deux questions sont essentiellement équivalentes. C'est-à-dire que le meilleur estimateur invariant d'un vecteur moyen normal multidimensionnel à dimensions est admissible si et seulement si le mouvement brownien à dimensions est récurrent.μ^≡μ^(X)=X d d
En fait, ses résultats vont beaucoup plus loin. Pour tout sensible (c. -à- Bayes généralisée) estimateur avec bornée (généralisée) risque, il est explicite (!) Correspondant la diffusion de dimension telle que la estimateur est admissible si et seulement si sa diffusion correspondante est récurrente.μ~≡μ~(X) L2 d μ~
La moyenne locale de cette diffusion est essentiellement la différence entre les deux estimateurs, à savoir, et la covariance de la diffusion est . De ce fait , il est facile de voir que , pour le cas du MLE , nous récupérons (rééchelonné) mouvement brownien.μ~−μ^ 2I μ~=μ^=X
Ainsi, dans un certain sens, nous pouvons examiner la question de la recevabilité à travers l’optique des processus stochastiques et utiliser des propriétés de diffusion bien étudiées pour parvenir aux conclusions souhaitées.
Références
la source
@ cardinal a donné une excellente réponse (+1), mais le problème reste mystérieux à moins de connaître les preuves (et je ne le suis pas). Je pense donc que la question reste de savoir quelle est la raison intuitive pour laquelle le paradoxe de Stein n'apparaît pas dans et .R R2
Je trouve très utile une perspective de régression proposée dans Stephen Stigler, 1990, Perspective Galtonienne des estimateurs de retrait . Considérons des mesures indépendantes , chacune mesurant des sous-jacentes (non observées) et échantillonnées à partir de . Si nous connaissions en quelque sorte le , nous pourrions faire un diagramme de dispersion de paires :Xi θi N(θi,1) θi (Xi,θi)
La diagonale correspond à zéro bruit et à une estimation parfaite; en réalité, le bruit est non nul et les points sont donc déplacés de la diagonale dans le sens horizontal . De manière correspondante, peut être vu comme une droite de régression de sur . Cependant, nous connaissons et voulons estimer , nous devrions plutôt considérer une droite de régression de sur - qui aura une pente différente, biaisée horizontalement , comme indiqué sur la figure (ligne pointillée).θ=X θ=X X θ X θ θ X
Citant l'extrait de Stigler:
Et voici le moment crucial (soulignement ajouté):
Je pense que cela rend très clair ce qui est spécial à propos de et .k=1 k=2
la source