La validation d'exclusion est-elle une meilleure approximation de «l'obtention de nouvelles données» que le CV k-fold?

10

J'ai repensé une réponse que j'ai donnée à une question il y a quelques semaines

La validation croisée hold-out produit un ensemble de tests unique qui peut être utilisé à plusieurs reprises pour la démonstration. Nous semblons tous convenir qu'il s'agit à bien des égards d'une caractéristique négative, car l'ensemble unique retenu pourrait se révéler non représentatif par hasard. De plus, vous pourriez finir par sur-adapter aux données de test de la même manière que vous pouvez sur-adapter aux données d'entraînement.

Cependant, il me semble que la nature statique d'un échantillon retenu est une meilleure approximation de «l'obtention de plus de données» que le CV k-fold, et évite le problème de la moyenne des plis. Je ne peux cependant pas trouver de base statistique pour ce sentiment que j'ai. Y a-t-il une logique dans mon intuition?

Par exemple, ce que j'ai en tête pour un projet à venir, c'est d'abord d'utiliser la validation d'exclusion pour construire et tester un modèle, puis comme étape de validation en redessinant plusieurs fois l'ensemble d'exclusion pour montrer que mes estimations d'erreur de prédiction ( sur l'ensemble de test) sont robustes aux erreurs d'échantillonnage dans l'ensemble de test. Est-ce une mauvaise idée pour une raison quelconque? Cette question a été posée auparavant mais n'a jamais reçu de réponse.

shadowtalker
la source

Réponses:

6

À mon humble avis, l'une des pires propriétés de la validation de maintien est psychologique plutôt que statistique: je vois beaucoup de maintien qui est interprété comme s'il s'agissait d'une expérience de validation indépendante (avec une indépendance déjà au niveau expérimental), bien que beaucoup de les problèmes cruciaux que je vois avec la validation du rééchantillonnage peuvent et vont se produire de la même manière avec le maintien (tout problème qui découle d'un fractionnement incorrect).

À part cela, à mon humble avis, c'est presque la même chose que le rééchantillonnage (du moins comme je l'ai vu en pratique). Les différences sont

  • le nombre total de cas testés réellement différents est inférieur (et, par conséquent, l'estimation est moins certaine).
  • Avec hold-out, les performances sont revendiquées pour le modèle réellement testé, et non pour un modèle réellement non testé construit à partir du traçage de maintien et des données de test de maintien. Le rééchantillonnage prétend que la performance mesurée est une bonne approximation de la performance de ce dernier modèle. Mais j'ai aussi vu l'approche hold-out utilisée de cette façon ("set validation").

Esbensen et Geladi: Principles of Proper Validation: use and abuse of re-sampling for validation, Journal of Chemometrics, 24 (3-4), 168-187 soutient qu'en termes pratiques, les deux ne sont pas de très bonnes approximations pour les ensembles de données (validation expériences) qui permettent de mesurer les caractéristiques de performance vraiment intéressantes.

vous pourriez finir par sur-adapter aux données de test de la même manière que vous pouvez sur-adapter aux données d'entraînement.

Comme pour toute autre validation: si vous effectuez une modélisation / sélection basée sur les données, un autre niveau de validation indépendant est nécessaire. Je ne vois aucune différence ici entre les plans de maintien et de rééchantillonnage.

utiliser d'abord la validation de maintien pour construire et tester un modèle, puis comme étape de validation recréer plusieurs fois l'ensemble de maintien pour montrer que mes estimations de l'erreur de prédiction (sur l'ensemble de test) sont robustes à l'erreur d'échantillonnage dans le test ensemble. Est-ce une mauvaise idée pour une raison quelconque?

Je pense que oui, à mon humble avis, une configuration imbriquée devrait être utilisée
(sauf si vous voulez suggérer que la validation de maintien pourrait et devrait également être répétée - c'est une approche valide qui ne diffère de la validation de l'ensemble itéré / répété que par interprétation : si l'énoncé de performance concerne les nombreux modèles réellement testés ou s'il est extrapolé au modèle unique construit à partir de toutes les données).

cbeleites mécontents de SX
la source