Il semble y avoir des conseils contradictoires sur la façon de gérer la comparaison entre l'erreur de train et l'erreur de test, en particulier lorsqu'il y a un écart entre les deux. Il semble y avoir deux écoles de pensée qui, selon moi, semblent en conflit. Je cherche à comprendre comment réconcilier les deux (ou comprendre ce qui me manque ici).
Pensée n ° 1: un écart entre les performances du train et de l'ensemble de test ne signifie pas à lui seul un sur-ajustement
Premièrement, (également discuté ici: Comment les comparaisons d'erreurs de formation et de test peuvent-elles indiquer un sur-ajustement? ), L'idée qu'une différence entre le train et l'ensemble de test ne peut à elle seule indiquer un sur-ajustement. Cela correspond à mon expérience pratique avec, par exemple, les méthodes d'arborescence d'ensemble, où même après un réglage hyper paramétrique basé sur la validation croisée, l'écart entre le train et l'erreur de test peut rester quelque peu important. Mais (quel que soit le type de modèle) tant que votre erreur de validation ne revient pas, vous êtes bon. C'est du moins la pensée.
Réflexion n ° 2: lorsque vous voyez un écart entre les performances du train et des tests: faites des choses qui lutteraient contre le sur-ajustement
Cependant, il y a des conseils que vous voyez, de très bonnes sources qui suggèrent qu'un écart entre le train et l'erreur de test indique un sur-ajustement. Voici un exemple: le discours "Nuts and Bolts of Deep Learning" par Andrew Ng (un discours fantastique) https://www.youtube.com/watch?v=F1ka6a13S9I où, vers l'horodatage 48:00, il dessine un organigramme qui dit "si votre erreur de train est faible et que votre erreur de train-dev est élevée, vous devez ajouter une régularisation, obtenir plus de données ou changer l'architecture du modèle" ... ce sont toutes des actions que vous pourriez prendre pour lutter contre le sur-ajustement.
Ce qui m'amène à ... : Suis-je en train de manquer quelque chose ici? S'agit-il d'une règle empirique spécifique au modèle (les modèles généralement plus simples semblent avoir moins d'écart entre le train et le test)? Ou existe-t-il simplement deux écoles de pensée différentes?
la source