Explication intuitive du compromis biais-variance?

46

Je cherche une explication intuitive du compromis biais-variance, à la fois en général et spécifiquement dans le contexte de la régression linéaire.

regression variance bias NPE
la source

1

Il y a une autre discussion pertinente sur ces sujets ici: quoi-problème-fait-rétrécir-méthodes-résoudre .

gung - Rétablir Monica

scott.fortmann-roe.com/docs/BiasVariance.html

Pinocchio le

24

Imaginez des données 2D - disons taille / poids pour les élèves d’un lycée - tracées sur une paire d’axes.

Supposons maintenant que vous y fassiez une ligne droite. Cette ligne, qui représente bien sûr un ensemble de valeurs prédites, a une variance statistique nulle. Mais le biais est (probablement) élevé - en d’autres termes, il ne correspond pas très bien aux données.

Ensuite, supposons que vous modélisiez les données avec une spline polynomiale de degré élevé. Vous n'êtes pas satisfait de l'ajustement, vous augmentez donc le degré polynomial jusqu'à ce que l'ajustement s'améliore (et ce sera le cas, à une précision arbitraire, en fait). Vous avez maintenant une situation avec un biais qui tend vers zéro, mais la variance est très grande.

Notez que le compromis biais-variance ne décrit pas une relation proportionnelle - c’est-à-dire que si vous tracez le biais par rapport à la variance, vous ne verrez pas nécessairement une ligne droite à l’origine avec la pente -1. Dans l'exemple de la spline polynomiale ci-dessus, réduire le degré augmente presque certainement la variance beaucoup moins que le biais ne diminue.

Le compromis biais-variance est également intégré à la fonction d'erreur de la somme des carrés. Ci-dessous, j'ai réécrit (mais pas modifié) la forme habituelle de cette équation pour souligner ceci:

texte alternatif

À droite, il y a trois termes: le premier d'entre eux est simplement l'erreur irréductible (la variance dans les données elles-mêmes); ceci est hors de notre contrôle alors ignorez-le. Le deuxième terme est le carré du biais ; et le troisième est la variance . Il est facile de voir que, quand on monte, l'autre descend - ils ne peuvent pas varier tous les deux dans la même direction. En d'autres termes, vous pouvez penser à la régression des moindres carrés comme à la recherche (implicite) de la combinaison optimale de biais et de variance parmi les modèles candidats.

doug
la source

8

J'ai du mal à comprendre l'équation; Je ne trouve aucun moyen de le justifier. Même une analyse des unités de base identifie les problèmes. Supposons que soit mesuré dans les parsecs et dans les drams, par exemple, de sorte que et son estimateur (est-ce ce que le petit point sur le signifie?) Sont également dans les parsecs. Alors les lhs et sont des parsecs au carré; le terme moyen sur le rhs est le carré d'une différence entre un parsec ( ) et un parsec par dram (en raison de la division par ); et le dernier terme sur le rhs est carré parsecs par dram. Ce n'est pas valable d'ajouter ces termes l'un à l'autre!

y

$y$

x

$x$

f

$f$

f

$f$

σ^{2}

$\sigma^2$

f (x)

$f(x)$

x

$x$

whuber

l'équation est bonne (les petites lettres grecques du numérateur ne sont pas 'x' mais 'kappa'). Essayez ceci: commencez avec une formule pour l'ESS avec laquelle vous êtes à l'aise et quelques étapes vous mèneront à celle ci-dessus.

Doug

Qu'est-ce que 'kappa' dans ce contexte?

Je suis un noob. Pouvez-vous m'aider intuitivement à comprendre pourquoi, dans la première partie de votre réponse, vous indiquez que l'ajustement d'une spline polynomiale entraîne une augmentation de la variance?

Rohit Banga

3

Un exemple plus simple: y = a + b x + e (erreur). Si j'adapte une constante à ceci, biais = b x et variance = var (e) + la variance de mon estimation de a autour de la valeur vraie. Si j'ajoute un terme b * x au modèle, le biais est égal à zéro partout, mais maintenant la variance inclut les effets de l'erreur de mon estimation de b ainsi que de a et la variance de e, sera donc plus élevée que dans la première Cas. Il existe donc un compromis entre diminution du biais, obtenue en ajoutant des termes au modèle qui devrait être là, et augmentation de la variance, obtenue en ayant à estimer ces termes et, éventuellement, en ajoutant des termes non pertinents.

jbowman

25

Supposons que vous envisagez une assurance maladie catastrophique et que la probabilité de tomber malade soit de 1%, ce qui coûterait 1 million de dollars. Le coût attendu de la maladie est donc de 10 000 dollars. La compagnie d’assurance, qui souhaite réaliser un profit, vous facturera 15 000 $ pour la police.

L'achat de la police vous coûtera 15 000 €, ce qui correspond à un écart de 0 mais peut être considéré comme biaisé car il est 5 000 de plus que le coût réel attendu de la maladie.

Le fait de ne pas souscrire à la police donne un coût prévu de 10 000, ce qui est impartial, car il est égal au coût réel attendu de la maladie, mais la variance est très élevée. Le compromis est ici entre une approche systématiquement fausse mais jamais de beaucoup, et une approche correcte en moyenne mais plus variable.

CDX
la source

15

Je recommande fortement de jeter un coup d'œil au cours Caltech ML de Yaser Abu-Mostafa, conférence 8 (compromis entre la variance et la partialité) . Voici les grandes lignes:

Supposons que vous essayez d'apprendre la fonction sinus:

Notre ensemble de formation ne comprend que 2 points de données.

Essayons de le faire avec deux modèles, et : $h_0(x)=b$ $h_1(x)=ax+b$

Pour , lorsque nous essayons avec de nombreux ensembles d’entraînement différents (c’est-à-dire que nous sélectionnons plusieurs fois 2 points de données et effectuons l’apprentissage sur eux), nous obtenons (le graphique de gauche représente tous les modèles appris, le graphique de droite représente leur moyenne g et leur variance (zone grise)): $h_0(x)=b$

Pour , lorsque nous essayons avec de nombreux ensembles d’entraînement différents, nous obtenons: $h_1(x)=ax+b$

$h_0$ $h_1$ $h_0$ $h_1$ $h_0$ $h_1$ $h_0$ $h_1$

Si vous examinez l'évolution de la fonction de coût par rapport à la taille de l'ensemble de formation (chiffres de Coursera - Machine Learning de Andrew Ng ):

Biais élevé:

entrez la description de l'image ici

Forte variance:

entrez la description de l'image ici

Franck Dernoncourt
la source

h_{1}

$h_1$

D_{i}

$D_i$

({\hat{a}}_{i}, {\hat{b}}_{i})

$(\hat a_i,\hat b_i)$

x_{0}

$x_0$

({\hat{a}}_{i}, {\hat{b}}_{i})

$(\hat a_i,\hat b_i)$

{\hat{y}}_{0}

$\hat y_0$

{\hat{y}}_{0}

$\hat y_0$

(\hat{a}, \hat{b})

$(\hat a,\hat b)$

x

$x$

\hat{y}

$\hat y$

votre fonction sinus est inversée XP

Diego

1

C'est déroutant, car vous semblez faire référence à des parcelles qui n'y sont pas (peut-être le "texte alternatif").

Gay - Rétablir Monica

@gung fixe, merci de le signaler. ImageShack ferme les comptes gratuits et supprime les images . Et Stack Exchange n'a pas réussi à prendre les mesures appropriées. Connexes: images ImageShack interdites car elles réutilisent d'anciennes URL à des fins publicitaires (veuillez soutenir l'interdiction); Quel est le moyen le plus simple pour moi de télécharger toutes mes questions + réponses sur tous les sites Stack Exchange? (Je suis heureux d'avoir une copie de sauvegarde; s'il vous plaît appuyez sur StackExchange pour fournir de meilleurs outils de sauvegarde de contenu.)

Franck Dernoncourt

Merci de partager le lien des vidéos, cela explique bien ce que je cherchais, je peux maintenant comprendre votre réponse

Espoir Murhabazi

13

Je pense habituellement à ces deux images:

Premièrement, signification de biais et de variance:

Imaginez que le centre de la région de l'œil des taureaux rouges soit la vraie moyenne de notre variable aléatoire cible que nous essayons de prédire, et que la région rouge indique l'étendue de la variance de cette variable. Chaque fois que nous prenons un échantillon d'échantillons d'observations et prédisons la valeur de cette variable, nous traçons un point bleu. Nous avons prédit correctement si le point bleu tombe dans la région rouge. En d’autres termes, le biais est la mesure de la distance qui sépare les points bleus prédits de la région rouge véritable; intuitivement, il s’agit d’une erreur. La variance est la dispersion de nos prévisions.

Maintenant, le compromis est ici:

lorsque nous essayons de diminuer l'un de ces paramètres (soit le biais, soit la variance), l'autre paramètre augmente. Mais il existe un compromis entre non-moins de préjugés et non moins de variance, ce qui produit la moindre erreur de prédiction à long terme.

Ces images sont tirées de http://scott.fortmann-roe.com/docs/BiasVariance.html . Consultez les explications avec la régression linéaire et les voisins les plus proches K pour plus de détails

Thamme Gowda
la source

le premier chiffre ressemble plus à précision vs précision?

KingBoomie

0

Voici une explication très simple. Imaginez que vous ayez un nuage de points {x_i, y_i} échantillonnés à partir d'une distribution. Vous voulez adapter un modèle à cela. Vous pouvez choisir une courbe linéaire, une courbe polynomiale d'ordre supérieur ou autre chose. Quoi que vous choisissiez, il sera appliqué pour prévoir de nouvelles valeurs y pour un ensemble de {x_i} points. Appelons cela l'ensemble de validation. Supposons que vous connaissiez également leurs vraies valeurs {y_i} et que nous les utilisions uniquement pour tester le modèle.

Les valeurs prédites vont être différentes des valeurs réelles. Nous pouvons mesurer les propriétés de leurs différences. Considérons simplement un seul point de validation. Appelez-le x_v et choisissez un modèle. Faisons un ensemble de prévisions pour ce point de validation en utilisant, par exemple, 100 échantillons aléatoires différents pour l’entraînement du modèle. Nous allons donc obtenir 100 valeurs y. La différence entre la moyenne de ces valeurs et la valeur vraie s'appelle le biais. La variance de la distribution est la variance.

Selon le modèle que nous utilisons, nous pouvons faire des compromis entre ces deux. Considérons les deux extrêmes. Le modèle de variance le plus faible est celui qui ignore complètement les données. Disons que nous prévoyons simplement 42 pour chaque x. Ce modèle a zéro variance à travers différents échantillons de formation à chaque point. Cependant, il est clairement biaisé. Le biais est simplement 42-y_v.

De l’autre extrême, nous pouvons choisir un modèle surajusté autant que possible. Par exemple, adaptez un polynôme de 100 degrés à 100 points de données. Ou alternativement, interpoler linéairement entre voisins les plus proches. Cela a un faible biais. Pourquoi? Parce que pour tout échantillon aléatoire, les points voisins de x_v fluctueront beaucoup, mais interpoleront plus haut presque aussi souvent qu’ils interpoleront plus bas. Donc, en moyenne sur tous les échantillons, ils s'annuleront et le biais sera donc très faible, à moins que la courbe vraie ne présente beaucoup de variation de fréquence élevée.

Cependant, ces modèles de surajustement ont une grande variance entre les échantillons aléatoires car ils ne lissent pas les données. Le modèle d'interpolation utilise simplement deux points de données pour prédire le point intermédiaire, ce qui crée beaucoup de bruit.

Notez que le biais est mesuré en un seul point. Peu importe que ce soit positif ou négatif. C'est toujours un biais à un x donné. Les biais moyens sur toutes les valeurs x seront probablement faibles, mais cela ne les rend pas non biaisés.

Un autre exemple. Supposons que vous essayez de prédire la température à divers endroits aux États-Unis à un moment donné. Supposons que vous avez 10 000 points d’entraînement. Encore une fois, vous pouvez obtenir un modèle à faible variance en faisant quelque chose de simple en renvoyant simplement la moyenne. Mais ce sera biaisé bas dans l'état de Floride et biaisé haut dans l'état d'Alaska. Vous seriez mieux si vous utilisiez la moyenne pour chaque état. Mais même dans ce cas, vous serez biaisé haut en hiver et bas en été. Alors maintenant, vous incluez le mois dans votre modèle. Mais vous allez toujours être biaisé bas dans la vallée de la mort et haut sur le mont Shasta. Alors maintenant, vous passez au niveau de granularité du code postal. Mais finalement, si vous continuez à faire cela pour réduire les biais, vous manquez de points de données. Peut-être que pour un code postal et un mois donnés, vous n'avez qu'un seul point de données. Clairement, cela va créer beaucoup de variance. Vous voyez donc qu'un modèle plus compliqué réduit le biais au détriment de la variance.

Vous voyez donc qu'il y a un compromis. Les modèles plus lisses présentent une variance moindre entre les échantillons d'apprentissage, mais ne capturent pas non plus la forme réelle de la courbe. Les modèles moins lisses peuvent mieux capturer la courbe, mais aux dépens du bruit. Quelque part au milieu se trouve un modèle Goldilocks qui fait un compromis acceptable entre les deux.

Dave31415
la source

0

Imaginez si la tâche de création de modèle pouvait être répétée pour différents jeux de données d'apprentissage, c'est-à-dire que nous entraînions un nouveau modèle pour différents jeux de données à chaque fois (voir la figure ci-dessous). Si nous fixons un point de données de test et évaluons la prédiction du modèle sur ce point, les prédictions varieront en raison du caractère aléatoire du processus de génération du modèle. Dans la figure ci-dessous pour cette situation, P_1, P_2,…, P_n sont différentes prédictions et aléatoires.