Comprendre la dérivation du compromis biais-variance

20

Je lis le chapitre sur le compromis biais-variance des éléments de l'apprentissage statistique et j'ai un doute dans la formule de la page 29. Que les données proviennent d'un modèle tel que où est aléatoire nombre avec la valeur attendue et la variance . Soit la valeur d'erreur attendue du modèle est où f_k (x) est la prédiction de x de notre apprenant. Selon le livre, l'erreur est E [(Y-f_k (x)) ^ 2] = \ sigma ^ 2 + Bias (f_k) ^ 2 + Var (f_k (x)).

Y=f(x)+ϵ
ε = E [ ε ] = 0 E [ ( ε - ε ) 2 ] = E [ ε 2 ] = σ 2 E [ ( Y - f k ( x ) ) 2 ] f k ( x ) x E [ ( Y -ϵϵ^=E[ϵ]=0E[(ϵϵ^)2]=E[ϵ2]=σ2
E[(Yfk(x))2]
fk(x)x
E[(Yfk(x))2]=σ2+Bias(fk)2+Var(fk(x)).

Ma question est pourquoi le terme de biais n'est pas 0? développer la formule de l'erreur que je vois

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)fk(x))ϵ]+σ2

comme ϵ est un nombre aléatoire indépendant 2E[(f(x)fk(x))ϵ]=2E[(f(x)fk(x))]E[ϵ]=0

Où je me trompe?

emanuele
la source

Réponses:

20

Vous ne vous trompez pas, mais vous avez fait une erreur en une seule étape depuis E[(F(X)-Fk(X))2]Vuner(Fk(X)) . E[(F(X)-Fk(X))2] est MSE(Fk(X))=Vuner(Fk(X))+Biais2(Fk(X)) .

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=E[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2=Var(fk(x))+Bias2(fk(x))+σ2.

Remarque:E[(fk(x)E(fk(x)))(f(x)E(fk(x))]=E[fk(x)E(fk(x))](f(x)E(fk(x)))=0.

Greenparker
la source
En cas de résultats binaires, existe-t-il une preuve équivalente avec entropie croisée comme mesure d'erreur?
emanuele
1
Cela ne fonctionne pas très bien avec une réponse binaire. Voir Ex 7.2 dans la deuxième édition de "The Elements of Statistical Learning".
Matthew Drury
3
pourriez-vous expliquer comment vous allez de à ? V a r ( f kE[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2Var(fk(x))+Bias2(fk(x))+σ2
Antoine
16

Quelques étapes supplémentaires du biais - Décomposition de la variance

En effet, la dérivation complète est rarement donnée dans les manuels scolaires car elle implique beaucoup d'algèbre sans intérêt. Voici une dérivation plus complète utilisant la notation du livre "Elements of Statistical Learning" à la page 223


Si nous supposons que et et alors nous pouvons dériver l'expression de l'erreur de prédiction attendue d'un ajustement de régression à une entrée utilisant la perte d'erreur au carréY=f(X)+ϵE[ϵ]=0Var(ϵ)=σϵ2f ( X ) X = x 0f^(X)X=x0

Err(x0)=E[(Yf^(x0))2|X=x0]

Pour une simplicité de notation, considérons , et rappelons que etf^(x0)=f^f(x0)=fE[f]=fE[Y]=f

E[(Yf^)2]=E[(Yf+ff^)2]=E[(yf)2]+E[(ff^)2]+2E[(ff^)(yf)]=E[(f+ϵf)2]+E[(ff^)2]+2E[fYf2f^Y+f^f]=E[ϵ2]+E[(ff^)2]+2(f2f2fE[f^]+fE[f^])=σϵ2+E[(ff^)2]+0

Pour le terme nous pouvons utiliser une astuce similaire à celle ci-dessus, en ajoutant et en soustrayant pour obtenirE[(ff^)2]E[f^]

E[(ff^)2]=E[(f+E[f^]E[f^]f^)2]=E[fE[f^]]2+E[f^E[f^]]2=[fE[f^]]2+E[f^E[f^]]2=Bias2[f^]+Var[f^]

Mettre ensemble

E[(Yf^)2]=σϵ2+Bias2[f^]+Var[f^]


Quelques commentaires sur les raisons pour lesquellesE[f^Y]=fE[f^]

Extrait d'Alecos Papadopoulos ici

Rappelons que est le prédicteur que nous avons construit sur la base des points de données afin que nous puissions écrire pour nous en souvenir.f^m{(x(1),y(1)),...,(x(m),y(m))} f = f mF^=F^m

D'un autre côté, est la prédiction que nous faisons sur un nouveau point de données en utilisant le modèle construit sur les points de données ci-dessus. Ainsi, l'erreur quadratique moyenne peut être écrite commeOui(X(m+1),y(m+1))m

E[F^m(X(m+1))-y(m+1)]2

Développer l'équation de la section précédente

E[F^mOui]=E[F^m(F+ϵ)]=E[F^mF+F^mϵ]=E[F^mF]+E[F^mϵ]

La dernière partie de l'équation peut être considérée comme

E[F^m(X(m+1))ϵ(m+1)]=0

Puisque nous faisons les hypothèses suivantes sur le point :X(m+1)

  • Il n'a pas été utilisé lors de la construction deF^m
  • Elle est indépendante de toutes les autres observations{(X(1),y(1)),...,(X(m),y(m))}
  • Il est indépendant deϵ(m+1)

Autres sources avec dérivations complètes

Xavier Bourret Sicotte
la source
1
Pourquoi ? Je ne pense pas et sont indépendants, puisque est essentiellement construit en utilisant . E[F^Oui]=FE[F^]OuiF^F^Oui
Felipe Pérez
5
Mais la question est essentiellement la même, pourquoi ? Le caractère aléatoire de vient de l'erreur donc je ne vois pas pourquoi et seraient indépendants, et donc . E[F^ϵ]=0F^ϵF^ϵE(F^ϵ)=0
Felipe Pérez
D'après votre précision, la perspective dans l'échantillon vs hors échantillon est cruciale. C'est tellement? Si nous travaillons uniquement dans l'échantillon et, alors, voyons comme résiduel, le compromis de la variance du biais disparaît? ϵ
Markowitz
1
@ FelipePérez pour autant que je sache, le caractère aléatoire de vient de la division du test de train (quels points se sont retrouvés dans l'ensemble de formation et ont donné comme prédicteur entraîné). En d'autres termes, la variance de provient de tous les sous-ensembles possibles d'un ensemble de données fixe donné que nous pouvons prendre comme ensemble d'apprentissage. Comme l'ensemble de données est fixe, il n'y a pas d'aléatoire provenant de et donc et sont indépendants. F^F^F^ϵF^ϵ
Alberto Santini