Pour quels modèles le biais du MLE chute-t-il plus vite que la variance?

14

θ^θnθ^θO(1/n)Eθ^θEθ^θ^O(1/n)

Je m'intéresse aux modèles qui ont un biais qui rétrécit plus rapidement que O(1/n) , mais où l'erreur ne diminue pas à ce rythme plus rapide car l'écart se rétrécit toujours comme O(1/n) . En particulier, je voudrais connaître des conditions suffisantes pour que le biais d'un modèle se rétrécisse au taux O(1/n) .

Mike Izbicki
la source
Est-ce que θ^θ=(θ^θ)2 ? Ou?
Alecos Papadopoulos
Je posais une question spécifique sur la norme L2, oui. Mais je serais également intéressé par d'autres normes si cela rend la question plus facile à répondre.
Mike Izbicki
(θ^θ)2 est Op(1/n) .
Alecos Papadopoulos
Désolé, j'ai mal lu votre commentaire. Pour la norme L2 en dimensions , , et donc la convergence se fait au taux de . Je suis d'accord que si nous le mesurons au carré, il convergera en . a - b = d O(1/ab=i=1d(aibi)2O(1/n)O(1/n)O(1/n)
Mike Izbicki
Avez-vous vu l'article sur la régression des crêtes (Hoerl et Kennard 1970)? Je crois que cela donne des conditions sur la matrice de conception + pénalité où cela devrait être vrai.
dcl

Réponses:

5

En général, vous avez besoin de modèles où le MLE n'est pas asymptotiquement normal mais converge vers une autre distribution (et il le fait à un rythme plus rapide). Cela se produit généralement lorsque le paramètre sous-estimé se trouve à la limite de l'espace des paramètres. Intuitivement, cela signifie que le MLE approchera le paramètre "uniquement d'un côté", de sorte qu'il "améliore la vitesse de convergence" car il n'est pas "distrait" en allant "d'avant en arrière" autour du paramètre.

Un exemple standard est le MLE pour θ dans un échantillon iid de RV uniformes Le MLE ici est la statistique d'ordre maximum,U(0,θ)

θ^n=u(n)

Sa distribution d'échantillons finis est

Fθ^n=(θ^n)nθn,fθ^=n(θ^n)n1θn

E(θ^n)=nn+1θB(θ^)=1n+1θ

Donc . Mais le même taux accru s'appliquera également à la variance.B(θ^n)=O(1/n)

On peut aussi vérifier que pour obtenir une distribution limite, il faut regarder la variable , (c'est-à-dire que nous devons de ) puisquenn(θθ^n)n

P[n(θθ^n)z]=1P[θ^nθ(z/n)]

=11θn(θ+zn)n=1θnθn(1+z/θn)n

1ez/θ

qui est le CDF de la distribution exponentielle.

J'espère que cela donne une certaine direction.

Alecos Papadopoulos
la source
Cela se rapproche, mais je m'intéresse particulièrement aux situations où le biais diminue plus vite que la variance.
Mike Izbicki
2
@MikeIzbicki Hmm ... la convergence du biais dépend du premier moment de la distribution, et la variance (racine carrée de) est également une amplitude de "premier ordre". Je ne suis pas sûr alors que cela soit possible, car il semblerait que cela impliquerait que les moments de la distribution limite "surviennent" à des taux de convergence qui ne sont pas compatibles entre eux ... J'y penserai cependant.
Alecos Papadopoulos
2

Après les commentaires de mon autre réponse (et en revoyant le titre de la question du PO!), Voici une exploration théorique peu rigoureuse de la question.

Nous voulons déterminer si le biais peut avoir un taux de convergence différent de la racine carrée de la variance,B(θ^n)=E(θ^n)θ

B(θ^n)=O(1/nδ),Var(θ^n)=O(1/nγ),γδ???

Nous avons

B(θ^n)=O(1/nδ)limnδE(θ^n)<Klimn2δ[E(θ^n)]2<K

(1)[E(θ^n)]2=O(1/n2δ)

tandis que

Var(θ^n)=O(1/nγ)limnγE(θ^n2)[E(θ^n)]2<M

limn2γE(θ^n2)n2γ[E(θ^n)]2<M

(2)limn2γE(θ^n2)limn2γ[E(θ^n)]2<M

Nous voyons que peut se produire si (2)

A) les deux composantes sont , auquel cas nous ne pouvons avoir que . O(1/n2γ)γ=δ

B) Mais cela peut aussi être vrai si

(3)limn2γ[E(θ^n)]20[E(θ^n)]2=o(1/n2γ)

Pour que soit compatible avec , nous devons avoir(3)(1)

(4)n2γ<n2δδ>γ

Il apparaît donc qu'en principe, il est possible de faire converger le biais plus rapidement que la racine carrée de la variance. Mais nous ne pouvons pas faire converger la racine carrée de la variance à un rythme plus rapide que le biais.

Alecos Papadopoulos
la source
Comment conciliez-vous cela avec l'existence d'estimateurs sans biais comme les moindres carrés ordinaires? Dans ce cas, , mais . B(θ^)=0Var(θ^)=O(1/n)
Mike Izbicki
@MikeIzbicki Le concept de convergence / big-O est-il applicable dans ce cas? Parce qu'ici n'est pas " -anything" pour commencer. B(θ^)O()
Alecos Papadopoulos
Dans ce cas, , donc . Eθ^=θB(θ^)=Eθ^θ=0=O(1)=O(1/n0)
Mike Izbicki
@MikeIzbicki Mais aussi ou ou tout autre que vous souhaitez noter. Alors, quel est le taux de convergence ici? B ( θ ) = O ( 1 / B(θ^)=O(n)B(θ^)=O(1/n)
Alecos Papadopoulos
@MikeIzbicki J'ai corrigé ma réponse pour montrer qu'il est possible en principe de faire converger le biais plus rapidement, même si je pense toujours que l'exemple du "zéro-biais" est problématique.
Alecos Papadopoulos