Décomposition MSE en variance et biais au carré

23

En montrant que MSE peut être décomposé en variance plus le carré de Bias, la preuve dans Wikipedia a une étape, mise en évidence dans l'image. Comment cela marche-t-il? Comment l'attente est-elle insérée dans le produit de la 3e étape à la 4e étape? Si les deux termes sont indépendants, l'attente ne devrait-elle pas s'appliquer aux deux termes? et s'ils ne le sont pas, cette étape est-elle valable?entrez la description de l'image ici

statBeginner
la source

Réponses:

22

L'astuce est que E(θ^)θ est une constante.

AdamO
la source
1
Oh je vois. La seule inconnue ici est l'estimateur. Droite?
statBeginner
2
Oui. Prendre des attentes signifie que l'estimateur va à tout ce qu'il estime, c'est ce qui fait que passe à 0.E(θ^E(θ^))
AdamO
5
Désolé, cette phrase n'a pas beaucoup de sens pour moi. Si un estimateur se tournait vers ce qu'il estimait, cela ne le rendrait-il pas non biaisé? Peut-on l'expliquer en disant = = = 0? E ( θ ) - E ( E ( θ ) ) E ( θ ) - E (E(θ^E(θ^))E(θ^)E(E(θ^))E(θ^)E(θ^)
user1158559
@ user1158559 le terme du produit au milieu est un temps constant quelque chose avec la valeur attendue 0. Même si le chapeau thêta est biaisé, c'est toujours un temps constant 0.
AdamO
3
E ( c ) c E ( ( E ( θ ) - θ ) 2 ) 0 x ( x p ( x ) ) 1 = ( xE(θ^)θ est une variable et non une constante. De plus, l'astuce est moins triviale et avec une constante ne devient pas 0 par défaut (par exemple ). Le vrai truc réside dans le fait que est la constante (et peut être retirée d'une intégrale) doncE(c)cE((E(θ^)θ)2)0( x p ( x ) ) p ( x ) = ( x p ( x ) ) p ( x ) =xp(x)(xp(x))p(x)=(xp(x))p(x)=(xp(x))1=(xp(x))
Sextus Empiricus
4

La réponse d'Adam est correcte à propos de l'astuce selon laquelle est une constante. Cependant, cela aide à trouver le résultat final et n'explique pas clairement la question de l'étape spécifique dans l'article de wikipedia (édition: ce que je vois maintenant était ambigu étant le point culminant et l'étape de la ligne trois à la ligne quatre).E(θ^)θ

(notez que la question concerne la variable , qui diffère de la constante dans la réponse d'Adam. J'ai mal écrit dans mon commentaire. Développer les termes pour plus de clarté: la variable est l'estimation , les constantes sont l'attente de cette estimation et la vraie valeur ) E [ θ ] -E[θ^]θ^ θ E [ θ ] θE[θ^]θθ^E[θ^]θ

Astuce 1: Considérez

la variablex=θ^

la constantea=E[θ^]

et la constanteb=θ

Ensuite, la relation peut être écrite facilement en utilisant les règles de transformation exprimant les moments de la variable sur en termes des moments de la variable sur .b x axbxa

E[(xb)n]=i=0n(ni)E[(xa)i](ab)ni

Astuce 2: Pour le deuxième instant, la formule ci-dessus a trois termes dans la somme. Nous pouvons éliminer l'un d'eux (le cas ) parce queE [ ( θ - E [ θ ] ) ] = E [i=1E[(θ^E[θ^])]=E[θ^]E[E[θ^]]=0

Ici, on peut également faire l'argument avec quelque chose étant une constante. À savoir si est une constante et en utilisant , qui est une constante, vous obtenez .aE(a)=aaE ( E ( θ ) ) = E ( θ )a=E(θ)E(E(θ))=E(θ)

Plus intuitivement: nous avons fait le moment de sur , égal à un moment central (et les moments centraux impairs sont nuls). Nous obtenons un peu de tautologie. En soustrayant la moyenne de la variable, , nous générons une variable avec une moyenne nulle. Et, la moyenne de «une variable avec zéro moyen» est zéro.axaθ^E[θ^]


L'article de Wikipédia utilise ces deux astuces respectivement dans la troisième et la quatrième ligne.

  • L'attente imbriquée dans la troisième ligne

    E[(θ^E(θ^))(E(θ^)θ)]

    est simplifié en prenant la partie constante dehors (astuce 1).(E(θ^)θ)

  • Le terme est résolu (comme égal à zéro) en utilisant le fait que la variable a un zéro moyen (astuce 2).θ - E ( θ )E(θ^E(θ^))θ^E(θ^)

Sextus Empiricus
la source
3

E(θ^)θ n'est pas une constante.

Le commentaire de @ user1158559 est en fait le bon:

E[θ^E(θ^)]=E(θ^)E[E(θ^)]=E(θ^)E(θ^)=0
petit monstre
la source
Je ne vois pas ce que tu essaies de montrer. Le biais peut également ne pas être nul, mais cela ne signifie pas qu'il ne s'agit pas d'une constante.
Michael R. Chernick
Ce n'est pas une constante car où est une donnée d'apprentissage donnée, qui est également une variable aléatoire. Ainsi, son attente n'est pas une constante. Dθ^=f(D)D
little_monster
De plus, le fait qu'il ne s'agisse pas d'une constante ou non ne peut pas expliquer comment l'étape 4 est possible à partir de l'étape 3. En revanche, le commentaire de @ user1158559 l'explique.
little_monster
@Michael, il y a eu confusion sur la question. La partie en surbrillance contient cette expression , mais dans le texte de la question, il est mentionné que c'est à la place sur le passage de la troisième ligne à la quatrième ligne, modifiant l'imbrication des attentes. E(θ^E(θ^))=0
Sextus Empiricus