Question sur le compromis biais-variance

15

J'essaie de comprendre le compromis biais-variance, la relation entre le biais de l'estimateur et le biais du modèle, et la relation entre la variance de l'estimateur et la variance du modèle.

Je suis arrivé à ces conclusions:

  • Nous avons tendance à surajuster les données lorsque nous négligeons le biais de l'estimateur, c'est-à-dire lorsque nous visons uniquement à minimiser le biais du modèle en négligeant la variance du modèle (en d'autres termes, nous visons uniquement à minimiser la variance de l'estimateur sans considérer le biais de l'estimateur aussi)
  • Inversement, nous avons tendance à sous-ajuster les données lorsque nous négligeons la variance de l'estimateur, c'est-à-dire lorsque nous visons uniquement à minimiser la variance du modèle en négligeant le biais du modèle (en d'autres termes, nous visons uniquement à minimiser le biais de la estimateur sans tenir compte également de la variance de l'estimateur).

Mes conclusions sont-elles correctes?

John M
la source
John, je pense que vous apprécierez la lecture de cet article de Tal Yarkoni et Jacob Westfall - il fournit une interprétation intuitive du compromis biais-variance: jakewestfall.org/publications/… .
Isabella Ghement

Réponses:

22

Eh bien, en quelque sorte. Comme indiqué, vous attribuez l'intention au scientifique de minimiser le biais ou la variance. En pratique, vous ne pouvez pas observer explicitement le biais ou la variance de votre modèle (si vous le pouviez, alors vous connaîtriez le vrai signal, auquel cas vous n'auriez pas besoin d'un modèle). En général, vous ne pouvez observer le taux d'erreur de votre modèle que sur un ensemble de données spécifique et vous cherchez à estimer le taux d'erreur hors échantillon à l'aide de diverses techniques créatives.

Vous savez maintenant que, théoriquement au moins, ce taux d'erreur peut être décomposé en termes de biais et de variance, mais vous ne pouvez pas observer directement cet équilibre dans une situation concrète spécifique. Je reformulerais donc légèrement vos observations:

  • Un modèle est inadapté aux données lorsque le terme de biais contribue à la majorité des erreurs hors échantillon.
  • Un modèle est surajusté aux données lorsque le terme de variance contribue à la majorité des erreurs hors échantillon.

En général, il n'y a pas de véritable moyen de savoir avec certitude, car vous ne pouvez jamais vraiment observer le biais du modèle. Néanmoins, il existe divers modèles de comportement qui indiquent être dans une situation ou une autre:

  • Les modèles d'ajustement ont généralement une bien meilleure qualité d'ajustement sur un ensemble de données de test par rapport à un ensemble de données d'entraînement.
  • Les modèles de sous-vêtements ont généralement la même qualité de performance d'ajustement sur un ensemble de données de test vs d'entraînement.

Ce sont les modèles qui se manifestent dans les célèbres graphiques des taux d'erreur par la complexité du modèle, celui-ci est tiré des éléments de l'apprentissage statistique:

modelComplexity

Souvent, ces graphiques sont recouverts d'une courbe de biais et de variance. J'ai pris celui-ci dans cette belle exposition :

entrez la description de l'image ici

Mais, il est très important de réaliser que vous ne avez jamais arriver à voir ces courbes supplémentaires dans une situation réaliste.

Matthew Drury
la source
4

Illustrer le biais - compromis de variance à l'aide d'un exemple de jouet

Comme le souligne @Matthew Drury, dans des situations réalistes, vous ne voyez pas le dernier graphique, mais l'exemple de jouet suivant peut fournir une interprétation visuelle et une intuition à ceux qui le trouvent utile.

Ensemble de données et hypothèses

Oui

  • Oui=sjen(πX-0,5)+ϵϵUnjeForm(-0,5,0,5)
  • Oui=F(X)+ϵ

XOuiVuner(Oui)=Vuner(ϵ)=112

F^(X)=β0+β1X+β1X2+...+βpXp

Montage de différents modèles de polynômes

Intuitivement, vous vous attendez à ce qu'une courbe en ligne droite fonctionne mal car le jeu de données est clairement non linéaire. De même, l'ajustement d'un polynôme d'ordre très élevé peut être excessif. Cette intuition est reflétée dans le graphique ci-dessous qui montre les différents modèles et leur erreur quadratique moyenne correspondante pour les données de train et d'essai.

entrez la description de l'image ici

Le graphique ci-dessus fonctionne pour un seul train / fractionnement d'essai, mais comment savoir s'il se généralise?

Estimation du train et du test MSE attendus

Ici, nous avons de nombreuses options, mais une approche consiste à diviser au hasard les données entre le train / test - ajuster le modèle sur la répartition donnée et répéter cette expérience plusieurs fois. Le MSE résultant peut être tracé et la moyenne est une estimation de l'erreur attendue.

entrez la description de l'image ici

Il est intéressant de voir que le test MSE fluctue énormément pour différentes répartitions train / test des données. Mais prendre la moyenne sur un nombre suffisamment important d'expériences nous donne une meilleure confiance.

Oui

 Biais - Décomposition de la variance

Comme expliqué ici, le MSE peut être décomposé en 3 composants principaux:

E[(Oui-F^)2]=σϵ2+Bjeunes2[F^]+Vuner[F^]
E[(Oui-F^)2]=σϵ2+[F-E[F^]]2+E[F^-E[F^]]2

Où dans notre coffre à jouets:

  • F
  • σϵ2ϵ
  • E[F^]
  • F^
  • E[F^-E[F^]]2

Donner la relation suivante

entrez la description de l'image ici

Remarque: le graphique ci-dessus utilise les données de formation pour s'adapter au modèle, puis calcule le MSE sur train + test .

Xavier Bourret Sicotte
la source