Si j'ai des données et que j'exécute une classification (disons forêt aléatoire sur ces données) avec validation croisée (disons 5 fois), pourrais-je conclure qu'il n'y a pas de sur-ajustement dans ma méthode?
la source
Si j'ai des données et que j'exécute une classification (disons forêt aléatoire sur ces données) avec validation croisée (disons 5 fois), pourrais-je conclure qu'il n'y a pas de sur-ajustement dans ma méthode?
Pas du tout. Cependant, la validation croisée vous aide à évaluer dans quelle mesure votre méthode convient.
Par exemple, si vos données d'entraînement R au carré d'une régression sont de 0,50 et que le R au carré croisé est de 0,48, vous n'avez pratiquement pas de sur-ajustement et vous vous sentez bien. D'un autre côté, si le R au carré croisé n'est que de 0,3 ici, alors une partie considérable des performances de votre modèle vient du sur-ajustement et non de vraies relations. Dans un tel cas, vous pouvez soit accepter une performance inférieure, soit essayer différentes stratégies de modélisation avec moins de sur-ajustement.
La validation croisée est une bonne technique, mais pas parfaite, pour minimiser le sur-ajustement.
La validation croisée ne fonctionnera pas bien avec les données externes si les données dont vous disposez ne sont pas représentatives des données que vous essayez de prédire!
Voici deux situations concrètes où la validation croisée présente des défauts:
la source
Je peux également recommander ces vidéos du cours de Stanford en apprentissage statistique. Ces vidéos expliquent en détail comment utiliser efficacement la valorisation croisée.
La validation croisée et le bootstrap (14:01)
Validation croisée K-fold (13:33)
Validation croisée: les bonnes et les mauvaises voies (10:07)
la source