Supposons que j'ai formé plusieurs modèles sur l'ensemble d'entraînement, choisissez le meilleur en utilisant l'ensemble de validation croisée et les performances mesurées sur l'ensemble d'essai. Alors maintenant, j'ai un dernier meilleur modèle. Dois-je le recycler sur toutes mes données disponibles ou sur la solution d'expédition formée uniquement sur le kit de formation? Si ce dernier, alors pourquoi?
MISE À JOUR: Comme l'a noté @ P.Windridge, l'expédition d'un modèle recyclé signifie essentiellement l'expédition d'un modèle sans validation. Mais nous pouvons signaler les performances de l'ensemble de tests et, après cela, recycler le modèle sur des données complètes, en espérant à juste titre que les performances soient meilleures - parce que nous utilisons notre meilleur modèle et plus de données. Quels problèmes peuvent surgir d'une telle méthodologie?
Réponses:
Vous obtiendrez presque toujours un meilleur modèle après avoir remonté sur l'échantillon entier. Mais comme d'autres l'ont dit, vous n'avez aucune validation. Il s'agit d'une faille fondamentale dans l'approche de fractionnement des données. Non seulement le fractionnement des données est une occasion manquée de modéliser directement les différences d'échantillon dans un modèle global, mais il est instable à moins que votre échantillon entier ne dépasse peut-être 15 000 sujets. C'est pourquoi 100 répétitions de validation croisée 10 fois sont nécessaires (en fonction de la taille de l'échantillon) pour obtenir précision et stabilité, et pourquoi le bootstrap pour une validation interne forte est encore meilleur. Le bootstrap expose également à quel point la tâche de sélection des fonctionnalités est difficile et arbitraire.
J'ai décrit plus en détail les problèmes de validation «externe» à Biostatistics in Biomedical Research Section 10.11.
la source
Vous n'avez pas besoin de vous réentraîner. Lorsque vous communiquez vos résultats, vous signalez toujours les résultats des données de test car ils permettent une meilleure compréhension. Par un ensemble de données de test, nous pouvons voir plus précisément dans quelle mesure un modèle est susceptible de fonctionner sur des données hors échantillon.
la source