Je lis le chapitre sur le compromis biais-variance des éléments de l'apprentissage statistique et j'ai un doute dans la formule de la page 29. Que les données proviennent d'un modèle tel que où est aléatoire nombre avec la valeur attendue et la variance . Soit la valeur d'erreur attendue du modèle est où f_k (x) est la prédiction de x de notre apprenant. Selon le livre, l'erreur est E [(Y-f_k (x)) ^ 2] = \ sigma ^ 2 + Bias (f_k) ^ 2 + Var (f_k (x)).
Ma question est pourquoi le terme de biais n'est pas 0? développer la formule de l'erreur que je vois
comme est un nombre aléatoire indépendant
Où je me trompe?
Quelques étapes supplémentaires du biais - Décomposition de la variance
En effet, la dérivation complète est rarement donnée dans les manuels scolaires car elle implique beaucoup d'algèbre sans intérêt. Voici une dérivation plus complète utilisant la notation du livre "Elements of Statistical Learning" à la page 223
Si nous supposons que et et alors nous pouvons dériver l'expression de l'erreur de prédiction attendue d'un ajustement de régression à une entrée utilisant la perte d'erreur au carréY=f(X)+ϵ E[ϵ]=0 Var(ϵ)=σ2ϵ f ( X ) X = x 0f^(X) X=x0
Pour une simplicité de notation, considérons , et rappelons que etf^(x0)=f^ f(x0)=f E[f]=f E[Y]=f
Pour le terme nous pouvons utiliser une astuce similaire à celle ci-dessus, en ajoutant et en soustrayant pour obtenirE[(f−f^)2] E[f^]
Mettre ensemble
Quelques commentaires sur les raisons pour lesquellesE[f^Y]=fE[f^]
Extrait d'Alecos Papadopoulos ici
Rappelons que est le prédicteur que nous avons construit sur la base des points de données afin que nous puissions écrire pour nous en souvenir.f^ m {(x(1),y(1)),...,(x(m),y(m))} f = f mF^= f^m
D'un autre côté, est la prédiction que nous faisons sur un nouveau point de données en utilisant le modèle construit sur les points de données ci-dessus. Ainsi, l'erreur quadratique moyenne peut être écrite commeOui ( x( m + 1 ), y( m + 1 )) m
Développer l'équation de la section précédente
La dernière partie de l'équation peut être considérée comme
Puisque nous faisons les hypothèses suivantes sur le point :X( m + 1 )
Autres sources avec dérivations complètes
la source