Surajustement du réseau neuronal

9

J'ai appris qu'un sur-ajustement peut être détecté en traçant l'erreur d'apprentissage et l'erreur de test en fonction des époques. Comme dans:

entrez la description de l'image ici

J'ai lu ce blog où ils disent que le réseau neuronal, net5 est trop adapté et ils fournissent ce chiffre:

entrez la description de l'image ici

Ce qui est étrange pour moi, car l'erreur de validation et de formation de net5 continue de baisser (mais lentement).

Pourquoi prétendent-ils que c'est trop approprié? Est-ce parce que l'erreur de validation stagne?

Olivier_s_j
la source

Réponses:

10

Le sur-ajustement n'est pas seulement lorsque l'erreur de test augmente avec les itérations. Nous disons qu'il y a surajustement lorsque les performances sur l'ensemble de test sont bien inférieures à celles sur l'ensemble de trains (car le modèle correspond trop aux données vues et ne se généralise pas bien).

Dans votre deuxième graphique, nous pouvons voir que les performances sur les bancs d'essai sont près de 10 fois inférieures aux performances sur les trains, ce qui peut être considéré comme un sur-ajustement.

Il est presque toujours vrai qu'un modèle fonctionne mieux sur l'ensemble d'apprentissage que sur l'ensemble de test, car le modèle a déjà vu les données. Cependant, un bon modèle devrait être en mesure de bien généraliser sur des données invisibles, puis de réduire l'écart entre les performances sur train et les bancs d'essai.

Votre premier exemple de sur-ajustement peut être résolu par un arrêt précoce par exemple. Votre deuxième exemple peut être résolu par régularisation, par corruption d'entrée, etc.

jpl
la source
Pourquoi le sur-ajustement est mauvais dans ce cas? Nous pouvons voir qu'il fonctionne mieux sur l'ensemble de test, alors généralisez-vous mieux, n'est-ce pas?
Fractale
1
@Fractale Il y a beaucoup d'autres aspects à considérer au-delà de l'étape de formation. Par exemple, un autre ensemble d'hyperparamètres peut entraîner une meilleure erreur de test et une pire erreur d'entraînement (régularisation plus forte). Par conséquent, une telle configuration entraînerait moins de sur-ajustement. Le "sur-ajustement" implique toujours une comparaison. Changer quelque chose de telle sorte qu'il en résulte une erreur de formation considérablement meilleure, mais une erreur de test pire ou pas significativement meilleure correspond trop aux exemples de formation, par rapport au paramètre d'origine. Le "changement" peut être n'importe quoi: le nombre d'itérations d'entraînement, d'hyperparams etc.
isarandi