À mon humble avis, l'une des pires propriétés de la validation de maintien est psychologique plutôt que statistique: je vois beaucoup de maintien qui est interprété comme s'il s'agissait d'une expérience de validation indépendante (avec une indépendance déjà au niveau expérimental), bien que beaucoup de les problèmes cruciaux que je vois avec la validation du rééchantillonnage peuvent et vont se produire de la même manière avec le maintien (tout problème qui découle d'un fractionnement incorrect).
À part cela, à mon humble avis, c'est presque la même chose que le rééchantillonnage (du moins comme je l'ai vu en pratique). Les différences sont
- le nombre total de cas testés réellement différents est inférieur (et, par conséquent, l'estimation est moins certaine).
- Avec hold-out, les performances sont revendiquées pour le modèle réellement testé, et non pour un modèle réellement non testé construit à partir du traçage de maintien et des données de test de maintien. Le rééchantillonnage prétend que la performance mesurée est une bonne approximation de la performance de ce dernier modèle. Mais j'ai aussi vu l'approche hold-out utilisée de cette façon ("set validation").
Esbensen et Geladi: Principles of Proper Validation: use and abuse of re-sampling for validation, Journal of Chemometrics, 24 (3-4), 168-187 soutient qu'en termes pratiques, les deux ne sont pas de très bonnes approximations pour les ensembles de données (validation expériences) qui permettent de mesurer les caractéristiques de performance vraiment intéressantes.
vous pourriez finir par sur-adapter aux données de test de la même manière que vous pouvez sur-adapter aux données d'entraînement.
Comme pour toute autre validation: si vous effectuez une modélisation / sélection basée sur les données, un autre niveau de validation indépendant est nécessaire. Je ne vois aucune différence ici entre les plans de maintien et de rééchantillonnage.
utiliser d'abord la validation de maintien pour construire et tester un modèle, puis comme étape de validation recréer plusieurs fois l'ensemble de maintien pour montrer que mes estimations de l'erreur de prédiction (sur l'ensemble de test) sont robustes à l'erreur d'échantillonnage dans le test ensemble. Est-ce une mauvaise idée pour une raison quelconque?
Je pense que oui, à mon humble avis, une configuration imbriquée devrait être utilisée
(sauf si vous voulez suggérer que la validation de maintien pourrait et devrait également être répétée - c'est une approche valide qui ne diffère de la validation de l'ensemble itéré / répété que par interprétation : si l'énoncé de performance concerne les nombreux modèles réellement testés ou s'il est extrapolé au modèle unique construit à partir de toutes les données).
cbeleites mécontents de SX
la source