Techniques pour détecter le sur-ajustement

J'ai eu un entretien d'embauche pour un poste en science des données. Au cours de l'entretien, on m'a demandé ce que je dois faire pour m'assurer que le modèle n'est pas trop adapté. Ma première réponse a été d'utiliser la validation croisée pour évaluer les performances du modèle. Cependant, l'intervieweur a déclaré que même la validation croisée ne peut pas identifier un sur-ajustement complet. Ensuite, j'ai mentionné la régularisation, mais l'intervieweur a dit que cela pourrait aider à réduire le sur-ajustement (ce que je suis d'accord), mais pas à le détecter. Y a-t-il d'autres techniques qui peuvent être utilisées pour s'assurer qu'un modèle n'est pas trop adapté?

cross-validation regularization overfitting jroberayalas
la source

ce q pourrait aider: stats.stackexchange.com/questions/193661/…

einar

Je ne sais pas si c'est exactement ce que vous voulez, John Langford dans cette URL décrit la source du sur-ajustement et la technique de réparation.

Wolfe

Réponses:

Je crois que lorsque vous posez des questions sur l'ajustement, l'intervieweur cherchait la "réponse du manuel" pendant que vous faisiez quelques pas après cela.

Un symptôme de sur-ajustement est que les performances du classificateur sur l'ensemble de train sont meilleures que celles sur l'ensemble de test. Je me réfère à cette réponse comme la "réponse du manuel" car c'est la réponse commune et une approximation raisonnable.

Notez que cette réponse a de nombreuses extrémités ouvertes. Par exemple, quelle différence fait le sur-ajustement? . En outre, une différence de performances entre les ensembles de données n'est pas nécessairement due à un sur-ajustement. D'un autre côté, un sur-ajustement n'entraînera pas nécessairement une différence significative dans les performances des deux ensembles de données.

La validation croisée est une technique pour évaluer les performances d'un apprenant (par exemple, arbre de décision) sur des données qu'il n'a pas vues auparavant. Cependant, le sur-ajustement fait référence à un modèle spécifique (par exemple, si "f1" alors et non "f2" prédit Vrai). Il vous montrera la tendance de l'apprenant à s'adapter à ces données, mais ne répondra pas si votre modèle spécifique est trop adapté.

Pour être surajusté, le modèle aura besoin de complexité et c'est là que la régularisation aide. Il limite (ou échange) la complexité du modèle. Notez qu'une autre source de sur-ajustement est la taille de l'ensemble d'hypothèses (peut être considérée comme le nombre de modèles possibles). Décider à l'avance d'utiliser un ensemble d'hypothèses restreintes est une autre façon d'éviter le surapprentissage.

DaL
la source