Biais d'optimisme - estimations de l'erreur de prédiction

9

Le livre Elements of Statistical Learning (disponible en ligne en PDF) discute du biais d'optimisim (7.21, page 229). Il indique que le biais d'optimisme est la différence entre l'erreur d'apprentissage et l'erreur dans l'échantillon (erreur observée si nous échantillonnons de nouvelles valeurs de résultat à chacun des points d'apprentissage d'origine) (voir ci-dessous).

entrez la description de l'image ici

Ensuite, il indique que ce biais d'optimisme ( ) est égal à la covariance de nos valeurs y estimées et des valeurs y réelles (formule par ci-dessous). J'ai du mal à comprendre pourquoi cette formule indique le biais d'optimisme; naïvement, j'aurais pensé qu'une forte covariance entre réel et prévu ne fait que décrire la précision - pas l'optimisme. Faites-moi savoir si quelqu'un peut aider à la dérivation de la formule ou partager l'intuition. ωyy

entrez la description de l'image ici

user1885116
la source
Très utile, merci! Je pense que l'une des équations a une faute de frappe mineure et devrait être: =1Nje=1N(Ey[yje2]+Ey[y^je2]-2Ey[yje]Ey[y^je]-Ey[yje2]-Ey[y^je2]+2E[yjey^je])
Sleepster

Réponses:

8

Commençons par l'intuition.

Il est faux de rien avec l' aide à prédis y i . En fait, ne pas l'utiliser signifierait que nous jetons des informations précieuses. Cependant, plus nous dépendons des informations contenues dans y i pour arriver à notre prédiction, plus notre estimateur sera trop optimiste .yjey^jeyje

D'un extrême, si y i est juste y i , vous aurez parfait dans la prédiction échantillon ( R 2 = 1 ), mais nous sommes pratiquement sûrs que la prévision hors échantillon va être mauvais. Dans ce cas (il est facile de vérifier par vous - même), les degrés de liberté seront d f ( y ) = n .y^jeyjeR2=1F(y^)=n

À l'autre extrême, si vous utilisez la moyenne de l'échantillon de : y i = ^ y i = ˉ y pour tous les i , alors vos degrés de liberté ne seront que de 1.yyje=yje^=y¯je

Consultez ce joli document de Ryan Tibshirani pour plus de détails sur cette intuition


Maintenant une preuve similaire à l'autre réponse, mais avec un peu plus d'explications

N'oubliez pas que, par définition, l'optimisme moyen est:

ω=Ey(Errinerr¯)

=Ey(1Ni=1NEY0[L(Yi0,f^(xi)|T)]1Ni=1NL(yi,f^(xi)))

Utilisez maintenant une fonction de perte quadratique et développez les termes au carré:

=Ey(1Nje=1NEOui0[(Ouije0-y^je)2]-1Nje=1N(yje-y^je)2))

=1Ni=1N(EyEY0[(Yi0)2]+EyEY0[y^i2]2EyEY0[Yi0y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])

utilisez pour remplacer:EyEY0[(Yi0)2]=Ey[yi2]

=1Ni=1N(Ey[yi2]+Ey[yi^2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])

=2Ni=1N(E[yiy^i]Ey[yi]Ey[y^i])

Pour terminer, notez que , ce qui donne:Cov(x,w)=E[xw]E[x]E[w]

=2Nje=1NCov(yje,y^je)
cd98
la source
5
Je dois souligner que son nom est orthographié "Ryan Tibshirani" Rob Tibshirani
robert tibshirani
2
Bienvenue sur notre site, Rob - c'est un privilège de vous avoir ici, ne serait-ce que pour corriger une erreur! Si vous en voyez plus, faites-le nous savoir: et bien sûr, nous serions heureux de toute réponse que vous (ou vos élèves) souhaiteriez publier. Votre travail est largement référencé sur ce site, en particulier ESL et Intro to the Bootstrap.
whuber
EyEOui0[(Ouije0)2]=Ey[yje2]2EyEOui0[Ouije0y^je]=2Ey[EOui0[Ouije0]EOui0[y^je]]=2Ey[yje]Ey[y^je]
7

F^(Xje)=y^je

ω=Ey[op]=Ey[Errjen-err¯]=Ey[Errjen]-Ey[err¯]=Ey[1Nje=1NEOui0[L(Ouije0,F^(Xje))]-Ey[1Nje=1NL(yje,F^(Xje))]=1Nje=1NEyEOui0[(Ouije0-y^je)2]-Ey[(yje-y^je)2]=1Nje=1NEyEOui0[(Ouije0)2]+EyEOui0[y^je2]-2EyEOui0[Ouije0y^je]-Ey[yje2]-Ey[y^je2]+2Ey[yjey^je]=1Nje=1NEy[yje2]+Ey[y^je2]-2Ey[yje]Ey[y^je]-Ey[yje2]-Ey[y^je2]+2Ey[yjey^je]=2Nje=1NEy[yjey^je]-Ey[yje]Ey[y^je]=2Nje=1NEy[yjey^je-yjeEy[y^je]-Ey[yje]y^je+Ey[yje]Ey[y^je]]=2Nje=1NEy[(y^je-Ey[y^je])([yje-Ey[yje])]=2Nje=1Ncov(y^je,yje)
QED
Maciej Lazarewicz
la source
1
Les quatre dernières étapes peuvent être simplifiées par cette propriété de covariance: E[Xw]-E[X]E[w]=Cov(X,w)
cd98