J'essaie de comprendre le compromis biais-variance, la relation entre le biais de l'estimateur et le biais du modèle, et la relation entre la variance de l'estimateur et la variance du modèle.
Je suis arrivé à ces conclusions:
- Nous avons tendance à surajuster les données lorsque nous négligeons le biais de l'estimateur, c'est-à-dire lorsque nous visons uniquement à minimiser le biais du modèle en négligeant la variance du modèle (en d'autres termes, nous visons uniquement à minimiser la variance de l'estimateur sans considérer le biais de l'estimateur aussi)
- Inversement, nous avons tendance à sous-ajuster les données lorsque nous négligeons la variance de l'estimateur, c'est-à-dire lorsque nous visons uniquement à minimiser la variance du modèle en négligeant le biais du modèle (en d'autres termes, nous visons uniquement à minimiser le biais de la estimateur sans tenir compte également de la variance de l'estimateur).
Mes conclusions sont-elles correctes?
Réponses:
Eh bien, en quelque sorte. Comme indiqué, vous attribuez l'intention au scientifique de minimiser le biais ou la variance. En pratique, vous ne pouvez pas observer explicitement le biais ou la variance de votre modèle (si vous le pouviez, alors vous connaîtriez le vrai signal, auquel cas vous n'auriez pas besoin d'un modèle). En général, vous ne pouvez observer le taux d'erreur de votre modèle que sur un ensemble de données spécifique et vous cherchez à estimer le taux d'erreur hors échantillon à l'aide de diverses techniques créatives.
Vous savez maintenant que, théoriquement au moins, ce taux d'erreur peut être décomposé en termes de biais et de variance, mais vous ne pouvez pas observer directement cet équilibre dans une situation concrète spécifique. Je reformulerais donc légèrement vos observations:
En général, il n'y a pas de véritable moyen de savoir avec certitude, car vous ne pouvez jamais vraiment observer le biais du modèle. Néanmoins, il existe divers modèles de comportement qui indiquent être dans une situation ou une autre:
Ce sont les modèles qui se manifestent dans les célèbres graphiques des taux d'erreur par la complexité du modèle, celui-ci est tiré des éléments de l'apprentissage statistique:
Souvent, ces graphiques sont recouverts d'une courbe de biais et de variance. J'ai pris celui-ci dans cette belle exposition :
Mais, il est très important de réaliser que vous ne avez jamais arriver à voir ces courbes supplémentaires dans une situation réaliste.
la source
Illustrer le biais - compromis de variance à l'aide d'un exemple de jouet
Comme le souligne @Matthew Drury, dans des situations réalistes, vous ne voyez pas le dernier graphique, mais l'exemple de jouet suivant peut fournir une interprétation visuelle et une intuition à ceux qui le trouvent utile.
Ensemble de données et hypothèses
Montage de différents modèles de polynômes
Intuitivement, vous vous attendez à ce qu'une courbe en ligne droite fonctionne mal car le jeu de données est clairement non linéaire. De même, l'ajustement d'un polynôme d'ordre très élevé peut être excessif. Cette intuition est reflétée dans le graphique ci-dessous qui montre les différents modèles et leur erreur quadratique moyenne correspondante pour les données de train et d'essai.
Le graphique ci-dessus fonctionne pour un seul train / fractionnement d'essai, mais comment savoir s'il se généralise?
Estimation du train et du test MSE attendus
Ici, nous avons de nombreuses options, mais une approche consiste à diviser au hasard les données entre le train / test - ajuster le modèle sur la répartition donnée et répéter cette expérience plusieurs fois. Le MSE résultant peut être tracé et la moyenne est une estimation de l'erreur attendue.
Il est intéressant de voir que le test MSE fluctue énormément pour différentes répartitions train / test des données. Mais prendre la moyenne sur un nombre suffisamment important d'expériences nous donne une meilleure confiance.
Biais - Décomposition de la variance
Comme expliqué ici, le MSE peut être décomposé en 3 composants principaux:
Où dans notre coffre à jouets:
Donner la relation suivante
Remarque: le graphique ci-dessus utilise les données de formation pour s'adapter au modèle, puis calcule le MSE sur train + test .
la source