Les estimateurs incohérents sont-ils toujours préférables?

22

La cohérence est évidemment un estimateur de propriété naturel et important, mais y a-t-il des situations où il peut être préférable d'utiliser un estimateur incohérent plutôt que cohérent?

Plus précisément, existe-t-il des exemples d'estimateur incohérent qui surpasse un estimateur cohérent raisonnable pour tout fini (par rapport à une fonction de perte appropriée)?n

MånsT
la source
1
Il existe un compromis intéressant dans les performances entre la cohérence de la sélection du modèle et la cohérence des paramètres dans les problèmes d'estimation utilisant le lasso et ses (nombreuses!) Variantes. Ceci est détaillé, par exemple, dans le texte récent de Bühlmann et van der Geer.
Cardinal
L'argument de ma réponse, maintenant supprimé, ne serait-il pas encore valable? À savoir: dans de petits échantillons, il est préférable d'avoir un estimateur sans biais avec une faible variance. Ou peut-on montrer qu'un estimateur cohérent a toujours une variance plus faible que tout autre estimateur sans biais?
Bob Jansen
Peut-être, @Bootvis! Avez-vous un exemple d'estimateur incohérent avec un MSE faible?
MånsT
3
@Bootvis: Si vous regardez les nombreux commentaires sur une réponse à une question récente concernant la cohérence par rapport à la non-impartialité, vous verrez qu'un estimateur cohérent peut avoir un comportement arbitrairement sauvage de la variance et du biais (même, simultanément!) . Cela devrait lever tout doute concernant votre commentaire.
Cardinal
Je pensais l'avoir tiré de l'un des deux livres, mais apparemment je me trompais aussi! L'exemple est introuvable. @cardinal: Cela semble intéressant, allez le vérifier
Bob Jansen

Réponses:

25

Cette réponse décrit un problème réaliste où un estimateur cohérent naturel est dominé (surperformé pour toutes les valeurs de paramètres possibles pour toutes les tailles d'échantillon) par un estimateur incohérent. Elle est motivée par l'idée que la cohérence est la mieux adaptée aux pertes quadratiques, donc l'utilisation d'une perte s'écartant fortement de celle-ci (comme une perte asymétrique) devrait rendre la cohérence presque inutile dans l'évaluation des performances des estimateurs.


Supposons que votre client souhaite estimer la moyenne d'une variable (supposée avoir une distribution symétrique) à partir d'un échantillon iid , mais ils sont opposés à (a) la sous-estimer ou (b) à surestimer fortement il.(x1,,xn)

Pour voir comment cela pourrait fonctionner, adoptons une fonction de perte simple, sachant qu'en pratique la perte peut différer de celle-ci quantitativement (mais pas qualitativement). Choisissez des unités de mesure de sorte que soit la plus grande surestimation tolérable et définissez la perte d'une estimation t lorsque la moyenne vraie est μ égale à 0 chaque fois que μ t μ + 1 et égale à 1 sinon.1tμ0μtμ+11

Les calculs sont particulièrement simples pour une famille de distributions normales avec moyenne et variance σ 2 > 0 , pour alors la moyenne de l'échantillon ˉ x = 1μσ2>0a unedistributionNormale(μ,σ2/n). La moyenne de l'échantillon est un estimateur cohérent deμ, comme cela est bien connu (et évident). L' écritureΦpour la CDF normale standard, la perte attendue de la moyenne deéchantillon est égal1/2+Φ(-x¯=1nixi(μ,σ2/n)μΦ:une/deuxprovient de la probabilité50% que la moyenne échantillon sousestimer la moyenne vraie etΦ(-1/2+Φ(-n/σ)1/2provient de la possibilité de surestimer la vraie moyenne de plus de1.Φ(-n/σ)1

Pertes

La perte attendue de est égale à la zone bleue sous ce PDF normal standard. La zone rouge indique la perte attendue de l'estimateur alternatif ci-dessous. Ils diffèrent en remplaçant la zone bleue continue entre - X¯et0par la plus petite zone rouge solide entre-n/(2σ)0etn/(2σ). Cette différence augmente à mesure quenaugmente.n/σn

Un autre estimateur donné par a une perte prévue de 2 Φ ( - X¯+1/2. La symétrie et l'unimodalité des distributions normales impliquent que sa perte attendue est toujours meilleure que celle de la moyenne de l'échantillon. (Cela rend l'échantillon moyenirrecevablepour cette perte.)effet, la perte attendue de la moyenne deéchantillon a une limite inférieure de1/2alors que des alternatives à converge0commencroît. Cependant, l'alternative est manifestement incompatible: quencroît, il converge en probabilitéμ+1/2μ.2Φ(-n/(2σ))1/20nnμ+1/2μ

Fonctions de perte

X¯X¯+1/2n

whuber
la source
2
L2L2
5
@Macro La pensée est quelque peu indirecte et n'a pas vocation à être rigoureuse mais je pense qu'elle est naturelle: la perte quadratique implique de minimiser la variance qui (via Chebyshev) conduit à la convergence des probabilités. D'où, une heuristique pour trouver un contre-exemple devrait se concentrer sur les pertes qui sont si loin d'être quadratiques que de telles manipulations sont infructueuses.
whuber
1
1/20n
3
@Michael OK, merci de m'expliquer cela. Dans ce contexte, avec une perte non quadratique, un «avantage» n'est pas exprimé en termes de biais. On pourrait critiquer cette fonction de perte, mais je ne veux pas la rejeter catégoriquement: elle modélise des situations où, par exemple, les données sont des mesures d'un article fabriqué selon certaines tolérances et ce serait désastreux (comme dans la défaillance du joint torique de la navette ou faillite commerciale désastreuse) pour que le véritable moyen de sortir de ces tolérances.
whuber
1
(+1) Excellente réponse, @whuber! J'aime particulièrement que cela ne semble pas trop pathologique - je peux penser à de nombreuses situations où ce type de perte serait applicable.
MånsT