Terme de variance dans la décomposition biais-variance de la régression linéaire

Dans «Les éléments de l'apprentissage statistique», l'expression de la décomposition biais-variance du modèle linéaire est donnée par où est la fonction cible réelle, est la variance de l'erreur aléatoire dans le modèle et est l'estimateur linéaire de .

E r r (x_{0}) = σ_{ϵ}^{2} + E [f (x_{0}) - E \hat{f} (x_{0})]^{2} + | | h (x_{0}) | |^{2} σ_{ϵ}^{2},

$Err(x_0)=\sigma_\epsilon^2+E[f(x_0)-E\hat f(x_0)]^2+||h(x_0)||^2\sigma_\epsilon^2,$

f (x_{0})

$f(x_0)$

σ_{ϵ}^{2}

$\sigma_\epsilon^2$

y = f (x) + ϵ

$y=f(x)+\epsilon$

\hat{f} (x)

$\hat f(x)$

f (x)

$f(x)$

Le terme de variance me trouble ici parce que l'équation implique que la variance serait nulle si les cibles sont silencieuses, c'est-à-direMais cela n'a pas de sens pour moi car même avec un bruit nul, je peux toujours obtenir différents estimateurs pour différents ensembles d'apprentissage, ce qui implique que la variance est non nulle. $\sigma_\epsilon^2=0.$ $\hat f(x_0)$

Par exemple, supposons que la fonction cible est un quadratique et que les données d'apprentissage contiennent deux points échantillonnés au hasard à partir de ce quadratique; clairement, j'obtiendrai un ajustement linéaire différent chaque fois que j'échantillonnerai deux points au hasard à partir de la cible quadratique. Alors, comment la variance peut-elle être nulle? $f(x_0)$

Quelqu'un peut-il m'aider à découvrir ce qui ne va pas dans ma compréhension de la décomposition biais-variance?

regression linear-model bias-variance-tradeoff Abhinav Gupta
la source

Il y a toujours une subtilité cachée dans les traitements de biais et de variance, et il est important d'y prêter une attention particulière lors de l'étude. Si vous relisez les premiers mots d'ESL dans une section de ce chapitre, les auteurs doivent lui rendre un peu de respect.

Les discussions sur l'estimation du taux d'erreur peuvent prêter à confusion, car nous devons préciser quelles quantités sont fixes et lesquelles sont aléatoires

La subtilité est ce qui est fixe et ce qui est aléatoire .

Dans les traitements traditionnels de régression linéaire, les données sont traitées comme fixes et connues. Si vous suivez les arguments d'ESL, vous constaterez que les auteurs font également cette hypothèse. Dans ces hypothèses, votre exemple ne vient pas en jeu, comme la seule qui reste source de hasard dans de la distribution conditionnelle de donnée . Si cela vous aide, vous voudrez peut-être remplacer la notation dans votre esprit par . $X$ $y$ $X$ $Err(x_0)$ $Err(x_0 \mid X)$

Cela ne veut pas dire que votre préoccupation n'est pas valide, il est certainement vrai que la sélection des données de formation introduit effectivement le caractère aléatoire dans notre algorithme de modèle, et un praticien diligent tentera de quantifier l'effet de ce caractère aléatoire sur leurs résultats. En fait, vous pouvez voir très clairement que les pratiques courantes de bootstrap et de validation croisée incorporent explicitement ces sources de hasard dans leurs inférences.

Pour dériver une expression mathématique explicite du biais et de la variance d'un modèle linéaire dans le contexte d'un ensemble de données d'apprentissage aléatoire, il faudrait faire quelques hypothèses sur la structure du caractère aléatoire dans les donnéesCela impliquerait des suppositions sur la répartition des . Cela peut être fait, mais n'est pas devenu une partie des principales expositions de ces idées. $X$ $X$

Matthew Drury
la source

Merci beaucoup pour compensation le fait que les auteurs ont supposé à fixer, de sorte que l'attente est ici WRT non . Mais on peut écrire , ce qui signifie qu'en traitant X comme aléatoire on obtiendra . Il serait toujours nul si est nul. J'avais un doute similaire sur cette équation, vous pouvez découvrir ma dérivation à ce poste: stats.stackexchange.com/questions/307110/…

X

$X$

Y | X

$Y|X$

(X, Y)

$(X,Y)$

E = E_{X} E_{Y | X}

$E=E_XE_{Y|X}$

V a r (\hat{f} (x_{0})) = E_{X} [| | h (x_{0}) | |^{2} σ_{ϵ}^{2}]

$Var(\hat f(x_0))=E_X[||h(x_0)||^2\sigma_\epsilon^2]$

σ_{ϵ}^{2}

$\sigma_\epsilon^2$

Abhinav Gupta

Je suppose que les auteurs supposent que le modèle est correctement spécifié, c'est-à-dire qu'il inclut tous et uniquement les prédicteurs pertinents avec les transformations correctes. Je devrais revenir au livre au lieu de me fier à ma mémoire pour le confirmer.

Matthew Drury

Si par «correctement spécifié» vous voulez dire que la fonction cible est en effet linéaire, alors je comprends qu'un bruit nul impliquerait un biais nul. Mais il s'avère que même si la fonction cible n'est pas linéaire, nous obtenons exactement la même expression pour la variance.

Abhinav Gupta du

C'est vrai, mais dans ce cas, «correctement spécifié» signifierait que vous utilisiez une régression linéaire pour ajuster un modèle incluant les bons prédicteurs. Donc, si la vraie relation est quadratique, vous supposeriez que votre modèle inclut les termes quadratiques.

Matthew Drury

Terme de variance dans la décomposition biais-variance de la régression linéaire

Réponses: