15

J'essaie de comprendre le compromis biais-variance, la relation entre le biais de l'estimateur et le biais du modèle, et la relation entre la variance de l'estimateur et la variance du modèle.

Je suis arrivé à ces conclusions:

Nous avons tendance à surajuster les données lorsque nous négligeons le biais de l'estimateur, c'est-à-dire lorsque nous visons uniquement à minimiser le biais du modèle en négligeant la variance du modèle (en d'autres termes, nous visons uniquement à minimiser la variance de l'estimateur sans considérer le biais de l'estimateur aussi)
Inversement, nous avons tendance à sous-ajuster les données lorsque nous négligeons la variance de l'estimateur, c'est-à-dire lorsque nous visons uniquement à minimiser la variance du modèle en négligeant le biais du modèle (en d'autres termes, nous visons uniquement à minimiser le biais de la estimateur sans tenir compte également de la variance de l'estimateur).

Mes conclusions sont-elles correctes?

regression variance bias bias-variance-tradeoff John M
la source

John, je pense que vous apprécierez la lecture de cet article de Tal Yarkoni et Jacob Westfall - il fournit une interprétation intuitive du compromis biais-variance: jakewestfall.org/publications/… .

Isabella Ghement

22

Eh bien, en quelque sorte. Comme indiqué, vous attribuez l'intention au scientifique de minimiser le biais ou la variance. En pratique, vous ne pouvez pas observer explicitement le biais ou la variance de votre modèle (si vous le pouviez, alors vous connaîtriez le vrai signal, auquel cas vous n'auriez pas besoin d'un modèle). En général, vous ne pouvez observer le taux d'erreur de votre modèle que sur un ensemble de données spécifique et vous cherchez à estimer le taux d'erreur hors échantillon à l'aide de diverses techniques créatives.

Vous savez maintenant que, théoriquement au moins, ce taux d'erreur peut être décomposé en termes de biais et de variance, mais vous ne pouvez pas observer directement cet équilibre dans une situation concrète spécifique. Je reformulerais donc légèrement vos observations:

Un modèle est inadapté aux données lorsque le terme de biais contribue à la majorité des erreurs hors échantillon.
Un modèle est surajusté aux données lorsque le terme de variance contribue à la majorité des erreurs hors échantillon.

En général, il n'y a pas de véritable moyen de savoir avec certitude, car vous ne pouvez jamais vraiment observer le biais du modèle. Néanmoins, il existe divers modèles de comportement qui indiquent être dans une situation ou une autre:

Les modèles d'ajustement ont généralement une bien meilleure qualité d'ajustement sur un ensemble de données de test par rapport à un ensemble de données d'entraînement.
Les modèles de sous-vêtements ont généralement la même qualité de performance d'ajustement sur un ensemble de données de test vs d'entraînement.

Ce sont les modèles qui se manifestent dans les célèbres graphiques des taux d'erreur par la complexité du modèle, celui-ci est tiré des éléments de l'apprentissage statistique:

modelComplexity

Souvent, ces graphiques sont recouverts d'une courbe de biais et de variance. J'ai pris celui-ci dans cette belle exposition :

entrez la description de l'image ici

Mais, il est très important de réaliser que vous ne avez jamais arriver à voir ces courbes supplémentaires dans une situation réaliste.

Matthew Drury
la source

4

Illustrer le biais - compromis de variance à l'aide d'un exemple de jouet

Comme le souligne @Matthew Drury, dans des situations réalistes, vous ne voyez pas le dernier graphique, mais l'exemple de jouet suivant peut fournir une interprétation visuelle et une intuition à ceux qui le trouvent utile.

Ensemble de données et hypothèses

$Y$

$Y = sin(\pi x - 0.5) + \epsilon$ $\epsilon \sim Uniform(-0.5,0.5)$
$Y = f(x) + \epsilon$

$x$ $Y$ $Var(Y) = Var(\epsilon) = \frac{1}{12}$

$\hat f(x) = \beta_0 + \beta_1x + \beta_1 x^2 + ... + \beta_px^p$

Montage de différents modèles de polynômes

Intuitivement, vous vous attendez à ce qu'une courbe en ligne droite fonctionne mal car le jeu de données est clairement non linéaire. De même, l'ajustement d'un polynôme d'ordre très élevé peut être excessif. Cette intuition est reflétée dans le graphique ci-dessous qui montre les différents modèles et leur erreur quadratique moyenne correspondante pour les données de train et d'essai.

Le graphique ci-dessus fonctionne pour un seul train / fractionnement d'essai, mais comment savoir s'il se généralise?

Estimation du train et du test MSE attendus

Ici, nous avons de nombreuses options, mais une approche consiste à diviser au hasard les données entre le train / test - ajuster le modèle sur la répartition donnée et répéter cette expérience plusieurs fois. Le MSE résultant peut être tracé et la moyenne est une estimation de l'erreur attendue.

Il est intéressant de voir que le test MSE fluctue énormément pour différentes répartitions train / test des données. Mais prendre la moyenne sur un nombre suffisamment important d'expériences nous donne une meilleure confiance.

$Y$

Biais - Décomposition de la variance

Comme expliqué ici, le MSE peut être décomposé en 3 composants principaux:

E [(Oui - \hat{F})^{2}] = σ_{ϵ}^{2} + B je une s^{2} [\hat{F}] + V une r [\hat{F}]

$E[ (Y - \hat f)^2 ] = \sigma^2_\epsilon + Bias^2[\hat f] + Var[\hat f]$

E [(Oui - \hat{F})^{2}] = σ_{ϵ}^{2} + {[F - E [\hat{F}]]}^{2} + E {[\hat{F} - E [\hat{F}]]}^{2}

$E[ (Y - \hat f)^2 ] = \sigma^2_\epsilon + \left[ f - E[\hat f] \right]^2 + E\left[ \hat f - E[ \hat f] \right]^2$

Où dans notre coffre à jouets:

$f$
$\sigma^2_\epsilon$ $\epsilon$
$E[\hat f]$
$\hat f$
$E\left[ \hat f - E[ \hat f] \right]^2$

Donner la relation suivante

Remarque: le graphique ci-dessus utilise les données de formation pour s'adapter au modèle, puis calcule le MSE sur train + test .

Xavier Bourret Sicotte
la source

Question sur le compromis biais-variance

Réponses:

Illustrer le biais - compromis de variance à l'aide d'un exemple de jouet

Ensemble de données et hypothèses

Montage de différents modèles de polynômes

Estimation du train et du test MSE attendus

Biais - Décomposition de la variance