La validation croisée est-elle suffisante pour éviter le sur-ajustement?

17

Si j'ai des données et que j'exécute une classification (disons forêt aléatoire sur ces données) avec validation croisée (disons 5 fois), pourrais-je conclure qu'il n'y a pas de sur-ajustement dans ma méthode?

Mamatv
la source

Réponses:

20

Pas du tout. Cependant, la validation croisée vous aide à évaluer dans quelle mesure votre méthode convient.

Par exemple, si vos données d'entraînement R au carré d'une régression sont de 0,50 et que le R au carré croisé est de 0,48, vous n'avez pratiquement pas de sur-ajustement et vous vous sentez bien. D'un autre côté, si le R au carré croisé n'est que de 0,3 ici, alors une partie considérable des performances de votre modèle vient du sur-ajustement et non de vraies relations. Dans un tel cas, vous pouvez soit accepter une performance inférieure, soit essayer différentes stratégies de modélisation avec moins de sur-ajustement.

Michael M
la source
8
Je pense que cette réponse est correcte dans son esprit, mais je ne suis pas d'accord avec la qualification de sur-ajustement dans le deuxième paragraphe. Je ne crois pas que le sur-ajustement se produise lorsque l'erreur de train - erreur de test> une certaine limite, au lieu de cela, je caractériserais le sur-ajustement comme une situation où l'augmentation de la complexité du modèle tend légèrement à augmenter l'erreur de maintien. Exiger que vos erreurs de train et de test soient comparables entraînera souvent des modèles très sous- équipés.
Matthew Drury
7

La validation croisée est une bonne technique, mais pas parfaite, pour minimiser le sur-ajustement.

La validation croisée ne fonctionnera pas bien avec les données externes si les données dont vous disposez ne sont pas représentatives des données que vous essayez de prédire!

Voici deux situations concrètes où la validation croisée présente des défauts:

  • Vous utilisez le passé pour prédire l'avenir: c'est souvent une grande hypothèse de supposer que les observations passées proviendront de la même population avec la même distribution que les observations futures. La validation croisée sur un ensemble de données tiré du passé ne protège pas contre cela.
  • Il y a un biais dans les données que vous collectez: les données que vous observez sont systématiquement différentes des données que vous n'avez pas observées. Par exemple, nous connaissons le biais des répondants chez ceux qui ont choisi de participer à une enquête.
TrynnaDoStat
la source
3
Le fait que votre ensemble de données ne soit pas une mauvaise représentation de la population réelle est généralement considéré comme un problème distinct de surajustement. Bien sûr, il est exact que la validation croisée ne les traite pas.
Cliff AB