Hastie et al. "Les éléments de l'apprentissage statistique" (2009) considèrent un processus de génération de données avec E ( ε ) = 0 et Var ( ε ) = σ 2 ε .
Ils présentent la décomposition biais-variance suivante de l'erreur de prévision quadratique attendue au point (p. 223, formule 7.9): Err ( x 0 ) Dans mon travailje ne précise pas f (⋅)mais prendre une prévision arbitraire y lieu (si cela est pertinent). Question:Je recherche un terme pour Biais2+Variance ou, plus précisément, Err(x0)-Erreur irréductible.
variance
forecasting
prediction
terminology
bias
Richard Hardy
la source
la source
Réponses:
Je propose une erreur réductible . C'est également la terminologie adoptée au paragraphe 2.1.1 de Gareth, Witten, Hastie & Tibshirani, An Introduction to Statistical Learning , un livre qui est fondamentalement une simplification d'ESL + quelques laboratoires de code R très cool (sauf pour le fait qu'ils utilisent
attach
, mais bon, personne n'est parfait). Je vais énumérer ci-dessous les raisons du pour et du contre de cette terminologie.Tout d'abord, nous devons rappeler que non seulement nous supposons que a une moyenne de 0, mais qu'il est également indépendant de X (voir paragraphe 2.6.1, formule 2.29 de l'ESL, 2 e édition, 12 e impression). Bien sûr, ϵ ne peut pas être estimé à partir de X , quelle que soit la classe d'hypothèse H (famille de modèles) que nous choisissons, et la taille d'un échantillon que nous utilisons pour apprendre notre hypothèse (estimer notre modèle). Cela explique pourquoi σ 2 ϵ est appelé erreur irréductible .ϵ X ϵ X H σ2ϵ
la source
Pourquoi je n'aime pas le terme "réductibilité"? Cela sent la tautologie autoréférentielle comme dans l' Axiome de réductibilité . Je suis d'accord avec Russell 1919 que "je ne vois aucune raison de croire que l'axiome de réductibilité est logiquement nécessaire, ce qui signifierait qu'il est vrai dans tous les mondes possibles. L'admission de cet axiome dans un système de la logique est donc un défaut ... une hypothèse douteuse. "
Il est à noter que lorsque l'on laisse tomber le premier échantillon au bout de cinq minutes, la physique s'améliore comme elle le fait séquentiellement tandis que l'on continue à retirer les premiers échantillons à 60 min. Cela montre que bien que le GV forme finalement un bon modèle pour la concentration plasmatique du médicament, quelque chose d'autre se passe pendant les premiers temps.
la source