Je sais que le réglage de l'hyperparamètre en dehors de la validation croisée peut conduire à des estimations biaisées de la validité externe, car l'ensemble de données que vous utilisez pour mesurer les performances est le même que celui que vous avez utilisé pour régler les fonctionnalités.
Ce que je me demande, c'est à quel point c'est grave . Je peux comprendre comment ce serait vraiment mauvais pour la sélection des fonctionnalités, car cela vous donne un grand nombre de paramètres à régler. Mais que se passe-t-il si vous utilisez quelque chose comme LASSO (qui n'a qu'un seul paramètre, la force de régularisation), ou une forêt aléatoire sans sélection de fonctionnalités (qui peut avoir quelques paramètres mais rien de plus dramatique que d'ajouter / supprimer des fonctionnalités de bruit)?
Dans ces scénarios, dans quelle mesure pouvez-vous espérer que votre estimation de l'erreur de formation soit optimiste?
J'apprécierais toute information à ce sujet - études de cas, articles, anecdonnées, etc. Merci!
EDIT: Pour clarifier, je ne parle pas d'estimer les performances du modèle sur les données de formation (c'est-à-dire de ne pas utiliser du tout de validation croisée). Par "réglage hyperparamétrique en dehors de la validation croisée", j'entends utiliser la validation croisée uniquement pour estimer les performances de chaque modèle individuel, mais sans inclure une deuxième boucle de validation croisée externe pour corriger le sur-ajustement dans la procédure de réglage hyperparamétrique (par opposition à sur-ajustement pendant la procédure de formation). Voir par exemple la réponse ici .
Tout algorithme d'apprentissage complexe, comme SVM, les réseaux de neurones, la forêt aléatoire, ... peut atteindre une précision d'entraînement de 100% si vous les laissez (par exemple par une régularisation faible / nulle), avec des performances de généralisation absolument horribles en conséquence.
En bref, vous pouvez facilement vous retrouver avec un classificateur parfait sur votre ensemble d'entraînement qui n'a absolument rien appris d'utile sur un ensemble de test indépendant. Voilà à quel point c'est mauvais.
la source