Décomposition de la variance de biais

Dans la section 3.2 de Bishop's Pattern Recognition and Machine Learning , il discute de la décomposition biais-variance, déclarant que pour une fonction de perte au carré, la perte attendue peut être décomposée en un terme de biais au carré (qui décrit la distance entre les prévisions moyennes et la vraie modèle), un terme de variance (qui décrit la propagation des prédictions autour de la moyenne), et un terme de bruit (qui donne le bruit intrinsèque des données).

La décomposition biais-variance peut-elle être effectuée avec des fonctions de perte autres que la perte au carré?
Pour un ensemble de données de modèle donné, y a-t-il plus d'un modèle dont la perte attendue est le minimum sur tous les modèles, et si oui, cela signifie-t-il qu'il pourrait y avoir différentes combinaisons de biais et de variance qui produisent la même perte minimale attendue?
Si un modèle implique une régularisation, existe-t-il une relation mathématique entre le biais, la variance et le coefficient de régularisation $\lambda$ ?
Comment calculer le biais si vous ne connaissez pas le vrai modèle?
Y a-t-il des situations dans lesquelles il est plus logique de minimiser le biais ou la variance plutôt que la perte attendue (la somme des biais et de la variance au carré)?

self-study variance bias regularization loss-functions Vivek Subramanian
la source

... la perte [d'erreur quadratique] attendue peut être décomposée en un terme de biais au carré (qui décrit à quelle distance les prévisions moyennes sont du vrai modèle), un terme de variance (qui décrit la propagation des prédictions autour de la moyenne), et un terme de bruit (qui donne le bruit intrinsèque des données).

En regardant la décomposition de la perte d'erreur au carré Je ne vois que deux termes: un pour le biais et un autre pour la variance de l'estimateur ou du prédicteur, . Il n'y a pas de terme de bruit supplémentaire dans la perte attendue. Comme il se doit puisque la variabilité est la variabilité de , pas de l'échantillon lui-même.

E_{θ} [(θ - δ (X_{1 : n}))^{2}] = (θ - E_{θ} [δ (X_{1 : n})])^{2} + E_{θ} [(E_{θ} [δ (X_{1 : n})] - δ (X_{1 : n}))^{2}]

$\mathbb{E}_\theta[(\theta-\delta(X_{1:n}))^2]=(\theta-\mathbb{E}_\theta[\delta(X_{1:n})])^2+\mathbb{E}_\theta[(\mathbb{E}_\theta[\delta(X_{1:n})]-\delta(X_{1:n}))^2]$

δ (X_{1 : n})

$\delta(X_{1:n})$

δ (X_{1 : n})

$\delta(X_{1:n})$

La décomposition biais-variance peut-elle être effectuée avec des fonctions de perte autres que la perte au carré?

Mon interprétation de la décomposition du biais + variance au carré [et de la façon dont je l'enseigne] est que c'est l'équivalent statistique du théorème de Pythagore, à savoir que la distance au carré entre un estimateur et un point dans un certain ensemble est la somme de la distance au carré entre un estimateur et l'ensemble, plus la distance au carré entre la projection orthogonale sur l'ensemble et le point dans l'ensemble. Toute perte basée sur une distance avec un nPour un ensemble de données de modèle donné, existe-t-il plus d'un modèle dont la perte attendue est le minimum sur tous les modèles, et si tel est le cas, cela signifie-t-il qu'il pourrait y avoir différentes combinaisons de biais et de variance même perte minimale attendue? otion de projection orthogonale, c'est-à-dire qu'un produit interne, c'est-à-dire essentiellement des espaces de Hilbert, satisfait cette décomposition.

Pour un ensemble de données de modèle donné, y a-t-il plus d'un modèle dont la perte attendue est le minimum sur tous les modèles, et si oui, cela signifie-t-il qu'il pourrait y avoir différentes combinaisons de biais et de variance qui produisent la même perte minimale attendue?

La question n'est pas claire: si par minimum sur les modèles, vous voulez dire alors il existe de nombreux exemples de modèles statistiques et de décisions associées avec une perte attendue constante (ou un risque ). Prenons par exemple le MLE d'une moyenne normale.

min_{θ} E_{θ} [(θ - δ (X_{1 : n}))^{2}]

$\min_\theta \mathbb{E}_\theta[(\theta-\delta(X_{1:n}))^2]$

Comment calculer le biais si vous ne connaissez pas le vrai modèle?

Dans un sens générique, le biais est la distance entre le vrai modèle et le modèle le plus proche au sein de la famille supposée de distributions. Si le vrai modèle est inconnu, le biais peut être vérifié par bootstrap.

Y a-t-il des situations dans lesquelles il est plus logique de minimiser le biais ou la variance plutôt que la perte attendue (la somme des biais et de la variance au carré)?

(θ - E_{θ} [δ (X_{1 : n})])^{2} + α [(E_{θ} [δ (X_{1 : n})] - δ (X_{1 : n}))^{2}] 0 < α

$(\theta-\mathbb{E}_\theta[\delta(X_{1:n})])^2+\alpha[(\mathbb{E}_\theta[\delta(X_{1:n})]-\delta(X_{1:n}))^2]\qquad 0<\alpha$

α

$\alpha$

α

$\alpha$

Xi'an
la source

f

$f$

Y = f (X) + ϵ

$Y = f(X) + \epsilon$

ϵ

$\epsilon$

σ_{ϵ}

$\sigma_\epsilon$

f (X)

$f(X)$

E [\hat{f} (X)]

$E[\hat{f}(X)]$

E [(Y - f (X))^{2} | X = x]

$E[(Y-f(X))^2 | X=x]$

σ_{ϵ}^{2} + {Bias}^{2} \hat{f} (x) + Var \hat{f} (x)

$\sigma^2_\epsilon + \operatorname{Bias}^2 \hat{f}(x) + \operatorname{Var} \hat{f}(x)$

\hat{f}

$\hat f$

ϵ

$\epsilon$

Hmm, vous avez bien sûr raison. Mais je pense que le problème est un artefact de ma dérivation bâclée. Consultez la page 223 de l' ESLII

Miguel

ϵ

$\epsilon$

\hat{f}

$\hat{f}$

Décomposition de la variance de biais

Réponses: