Définition mathématique / algorithmique du sur-ajustement

18

Existe-t-il une définition mathématique ou algorithmique du sur-ajustement?

Les définitions souvent fournies sont le tracé 2D classique de points avec une ligne passant par chaque point et la courbe de perte de validation qui augmente soudainement.

Mais y a-t-il une définition mathématiquement rigoureuse?

Brian Ko
la source

Réponses:

22

Oui, il existe une définition (un peu plus) rigoureuse:

Étant donné un modèle avec un ensemble de paramètres, le modèle peut être considéré comme sur-adaptant les données si après un certain nombre d'étapes d'apprentissage, l'erreur d'apprentissage continue de diminuer tandis que l'erreur hors échantillon (test) commence à augmenter.

entrez la description de l'image ici Dans cet exemple, l'erreur hors échantillon (test / validation) diminue d'abord en synchronisation avec l'erreur de train, puis elle commence à augmenter vers la 90e époque, c'est-à-dire lorsque le surapprentissage commence

Une autre façon de voir les choses est en termes de biais et de variance. L'erreur hors échantillon pour un modèle peut être décomposée en deux composants:

  • Biais: erreur due à la différence entre la valeur attendue du modèle estimé et la valeur attendue du vrai modèle.
  • Variance: erreur due au fait que le modèle est sensible aux petites fluctuations de l'ensemble de données.

X

Oui=F(X)+ϵϵE(ϵ)=0Vuner(ϵ)=σϵ

et le modèle estimé est:

Oui^=F^(X)

Xt

Err(Xt)=σϵ+Bjeunes2+Vunerjeunence

Bjeunes2=E[F(Xt)-F^(Xt)]2Vunerjeunence=E[F^(Xt)-E[F^(Xt)]]2

(Strictement parlant, cette décomposition s'applique dans le cas de la régression, mais une décomposition similaire fonctionne pour toute fonction de perte, c'est-à-dire dans le cas de la classification également).

Les deux définitions ci-dessus sont liées à la complexité du modèle (mesurée en termes de nombre de paramètres dans le modèle): plus la complexité du modèle est élevée, plus il est probable qu'un sur-ajustement se produise.

Voir le chapitre 7 des éléments de l'apprentissage statistique pour un traitement mathématique rigoureux du sujet.

entrez la description de l'image ici Le compromis entre la variance et la variance (c'est-à-dire le sur-ajustement) augmente avec la complexité du modèle. Extrait du chapitre 7 de l'ESL

Skander H. - Réintégrer Monica
la source
1
Est-il possible que les erreurs de formation et de test diminuent, mais le modèle est toujours trop adapté? Dans mon esprit, la divergence de la formation et des erreurs de test démontre un sur-ajustement, mais un sur-ajustement n'entraîne pas nécessairement la divergence. Par exemple, un NN qui apprend à distinguer les criminels des non-criminels en reconnaissant le fond blanc des photos de prison est trop adapté, mais les erreurs de formation et de test ne sont probablement pas divergentes.
yters
@yters dans ce cas, je ne pense pas qu'il y aurait une quelconque façon de mesurer le sur-ajustement qui se produit. Tout ce à quoi vous avez accès est la formation et les données de test, et si les deux ensembles de données présentent tous les deux la même fonctionnalité dont le NN tire parti (fond blanc), alors c'est simplement une fonctionnalité valide qui devrait être exploitée, et pas nécessairement surajustée. Si vous ne vouliez pas de cette fonctionnalité, vous devrez alors inclure des variations à ce sujet dans vos ensembles de données.
Calvin Godfrey
1
@yters votre exemple est ce que je pense être un "surajustement social": mathématiquement, le modèle n'est pas surajusté, mais il y a des considérations sociales extérieures qui font que le prédicteur ne fonctionne pas bien. Un exemple plus intéressant est certaines compétitions Kaggle et divers ensembles de données ouvertes comme Boston Housing, MNIST, etc ... le modèle lui-même n'est peut-être pas sur-adapté (en termes de biais, variance, etc ...), mais il y a beaucoup de connaissances sur le problème dans la communauté en général (résultats des équipes précédentes et des documents de recherche, noyaux partagés publiquement, etc.) qui conduisent à un sur-ajustement.
Skander H. - Rétablir Monica le
1
@yters (suite) c'est pourquoi en théorie un ensemble de données de validation distinct (en plus de l'ensemble de données de test) devrait rester dans un "coffre-fort" et ne pas être utilisé jusqu'à la validation finale.
Skander H. - Rétablir Monica le
1
@CalvinGodfrey voici un exemple plus technique. Disons que j'ai un ensemble de données de classification binaire qui est également réparti entre les deux classes, puis ajoute du bruit à la classification à partir d'une distribution de Bernoulli assez déséquilibrée afin que l'ensemble de données devienne asymétrique vers l'une des classes. J'ai divisé l'ensemble de données en un train et un test, et j'obtiens une grande précision sur les deux en partie en raison de la distribution déséquilibrée. Cependant, la précision du modèle n'est pas aussi élevée sur la véritable classification de l'ensemble de données car le modèle a appris la distribution asymétrique de Bernoulli.
yters