Si le retrait est appliqué de manière intelligente, cela fonctionne-t-il toujours mieux pour des estimateurs plus efficaces?

11

Supposons que j'ai deux estimateurs et qui sont des estimateurs cohérents du même paramètre et tels que avec V_1 \ leq V_2 au sens psd. Ainsi, asymptotiquement \ widehat {\ beta} _1 est plus efficace que \ widehat {\ beta} _2 . Ces deux estimateurs sont basés sur différentes fonctions de perte. β 2β0β^1β^2β0V1V2 β 1 β 2

n(β^1β0)dN(0,V1),n(β^2β0)dN(0,V2)
V1V2β^1β^2

Maintenant, je veux chercher des techniques de retrait pour améliorer les propriétés des échantillons finis de mes estimateurs.

Supposons que j'ai trouvé une technique de rétrécissement qui améliore l'estimateur β^2 dans un échantillon fini et me donne la valeur de MSE égale à γ^2 . Cela signifie-t-il que je peux trouver une technique de retrait appropriée à appliquer à β^1 qui ne me donnera pas le MSE supérieur à γ^2 ?

En d'autres termes, si le retrait est appliqué intelligemment, cela fonctionne-t-il toujours mieux pour des estimateurs plus efficaces?

Alik
la source

Réponses:

4

Permettez-moi de suggérer un contre-exemple certes légèrement ennuyeux. Supposons que est non seulement plus efficace asymptotiquement que , mais atteint également la limite inférieure de Cramer Rao. Une technique de rétrécissement intelligente pour serait: avec . La variance asymptotique de est où la dernière égalité utilise le lemme dans l'article de Hausman . On a β 2 β 2 β * 2 =w β 2+(1-w) β 1w(0,1) β Avar(w( β 2 - β 1)+ β 1)=V1+wβ^1β^2β^2

β^2=wβ^2+(1w)β^1
w(0,1) V*=Avar(w β 2+(1-w) β 1)=β^2
V=Avar(wβ^2+(1w)β^1)=Avar(w(β^2β^1)+β^1)=V1+w2(V2V1)
β 2
V2V=V2(1w2)V1(1w2)0
donc il y a une amélioration du risque asymptotique (il n'y a pas de termes de biais). Nous avons donc trouvé une technique de rétrécissement qui donne des améliorations asymptotiques (et donc, espérons-le, fini) sur . Pourtant, il n'y a pas d'estimateur de rétrécissement similaire qui découle de cette procédure.β^2β^1

Le point ici est bien sûr que le retrait se fait vers l'estimateur efficace et n'est donc pas applicable à l'estimateur efficace lui-même. Cela semble assez évident à un niveau élevé, mais je suppose que dans un exemple spécifique, ce n'est pas si évident ( MLE et l'estimateur de la méthode des moments pour la distribution uniforme peuvent être un exemple?).

Matthias Schmidtblaicher
la source
1
Merci pour l'exemple intéressant! (+1) Cependant, il n'est pas clair pour moi que cela devrait être considéré comme un contre-exemple: c'est à la fois asymptotique et ne montre pas que ne peut pas être amélioré pour avoir le même risque ou moins. (En fait, votre a, au mieux, automatiquement le même risque que .) Pour fournir un contre-exemple, le risque d'un estimateur modifié devra être moins que le risque de , et il n'est pas clair que cela soit possible avec ce schéma. β * 2 β 1β^1β^2β^1β 1β^2β^1
user795305
Merci et point (s) pris. Permettez-moi cependant de souligner que nulle part dans la question, il n'a été spécifié que le MSE du modifié devrait être inférieur à celui du . Ainsi, est une technique de retrait valide dans ce contexte. Mais je suis d'accord que ce n'est qu'une réponse partielle et j'ai hâte de voir ce que les autres auront à dire sur cette question. ββ^2β2β^1β^2
Matthias Schmidtblaicher
1
Dans le paragraphe qui commence "Supposons que j'ai trouvé ...", le PO semble le préciser. Suis-je incompréhensible? Dans ce qui suit, les étoiles désignent les estimateurs modifiés de sorte que pour certaines fonctions (peut-être de rétrécissement) . Supposons que nous trouvons afin que le . Dans le paragraphe référencé, OP demande si nous pouvons trouver des afin que le . fj β * 2 risk( β 2)risk( ββ^j=fj(β^j)fjβ^2f1risk( βrjesk(β^2)rjesk(β^2)F1rjesk(β^1)rjesk(β^2)
user795305
Je vois. Si telle est la question, est simplement l'identité et la réponse est affirmative dans l'exemple. J'ai lu la question comme "Si nous pouvons trouver une fonction pour que le , existe-t-il existe-t-il un pour que le ? " f ( β , x ) r i s k ( f ( β 2 , x ) ) < r i s k ( β 2 ) g ( β , x ) r i s k ( g ( β 1 , x ) ) < r i s k ( β 1F1f(β,x)risk(f(β^2,x))<risk(β^2)g(β,x)risk(g(β^1,x))<risk(β^1)
Matthias Schmidtblaicher
1
merci d'avoir partagé ces crédits, même si je n'ai pas vraiment répondu à votre question ...
Matthias Schmidtblaicher
-2

C'est une question intéressante où je veux d'abord souligner quelques points saillants.

  • Deux estimateurs sont cohérents
  • β^1 est plus efficace que car il produit moins de variationβ^2
  • Les fonctions de perte ne sont pas les mêmes
  • une méthode de rétrécissement est appliquée à une autre afin de réduire la variation qui, en soi, finit par être un meilleur estimateur
  • Question : En d'autres termes, si le retrait est appliqué intelligemment, cela fonctionne- t-il toujours mieux pour des estimateurs plus efficaces?

Fondamentalement, il est possible d'améliorer un estimateur dans un certain cadre, comme une classe d'estimateurs sans biais. Cependant, comme vous l'avez souligné, différentes fonctions de perte rendent la situation difficile car une fonction de perte peut minimiser la perte quadratique et l'autre minimise l'entropie. De plus, l'utilisation du mot «toujours» est très délicate car si un estimateur est le meilleur de la classe, vous ne pouvez pas prétendre à un meilleur estimateur, logiquement parlant.

Pour un exemple simple (dans le même cadre), supposons deux estimateurs, à savoir un Bridge (régression pénalisée avec norme ) et Lasso (première norme pénalité vraisemblable) et un ensemble clairsemé de paramètres à savoir , un modèle linéaire , normalité du terme d'erreur, , connu , fonction de perte quadratique (erreurs des moindres carrés) et indépendance des covariables en . Soit pour pour le premier estimateur et pour les seconds estimateurs. Ensuite, vous pouvez améliorer les estimateurs en choisissantlpβy=Xβ+eeN(0,σ2<)σXlpp=3p=2p1qui finit par un meilleur estimateur avec une variance plus faible. Dans cet exemple, il y a une chance d'améliorer l'estimateur.

Donc, ma réponse à votre question est oui, étant donné que vous supposez la même famille d'estimateurs et la même fonction de perte ainsi que des hypothèses.

TPArrow
la source
p1p=3p=2p
lpl1
β^1β^2pα^jp=argminααβ^j22+λαpj{1,2}p=2,3
merci @Ben, je pense que nous n'avons pas de consensus sur la définition du retrait. Vous le prenez comme un post-processus mais moi comme un traitement en ligne. Je pense que nous avons tous les deux raison, car la question ne tient pas compte du type de retrait. PS: Je suppose que ce que vous entendez par rétrécissement est comme un seuil strict.
TPArrow
β^1β^2 β^1β^2