Le modèle final (prêt pour la production) doit-il être formé sur des données complètes ou simplement sur un ensemble de formation?

23

Supposons que j'ai formé plusieurs modèles sur l'ensemble d'entraînement, choisissez le meilleur en utilisant l'ensemble de validation croisée et les performances mesurées sur l'ensemble d'essai. Alors maintenant, j'ai un dernier meilleur modèle. Dois-je le recycler sur toutes mes données disponibles ou sur la solution d'expédition formée uniquement sur le kit de formation? Si ce dernier, alors pourquoi?

MISE À JOUR: Comme l'a noté @ P.Windridge, l'expédition d'un modèle recyclé signifie essentiellement l'expédition d'un modèle sans validation. Mais nous pouvons signaler les performances de l'ensemble de tests et, après cela, recycler le modèle sur des données complètes, en espérant à juste titre que les performances soient meilleures - parce que nous utilisons notre meilleur modèle et plus de données. Quels problèmes peuvent surgir d'une telle méthodologie?

Yurii
la source
Travaillez-vous dans un environnement réglementé de l'extérieur? (c'est-à-dire que vous devez peut-être expédier le modèle validé, et votre question n'est qu'hypothétique, mais cela vaut quand même la peine d'être discuté :)). Modifier: ok je vois que vous avez modifié votre message.
P.Windridge
Croyez-vous que vos données de test sont représentatives de la population / couvrent une partie de la population ne faisant pas partie de l'échantillon de développement? Votre échantillon de développement d'origine est-il déficient d'une manière ou d'une autre?
P.Windridge
@ P.Windridge bien, ma question est juste hypothétique. À propos de votre deuxième commentaire, je pense que personne ne devrait s'attendre à ce qu'un ingénieur forme un bon modèle tout en lui fournissant des données non représentatives.
Yurii
1
Je ne peux pas imaginer de nombreuses situations où vous expédieriez un modèle sans validation. Je préfère envisager de réduire la taille de l'échantillon de test (sous réserve qu'il soit toujours assez grand pour être validé!). Une discussion peut-être plus intéressante concerne les avantages / inconvénients de / la sélection / le modèle basé sur / toutes / les données, puis la formation à l'aide d'un sous-échantillon, puis la validation sur le reste.
P.Windridge
1
Question similaire = stats.stackexchange.com/questions/174026/… , bien que je pense que cela pourrait
nécessiter

Réponses:

15

Vous obtiendrez presque toujours un meilleur modèle après avoir remonté sur l'échantillon entier. Mais comme d'autres l'ont dit, vous n'avez aucune validation. Il s'agit d'une faille fondamentale dans l'approche de fractionnement des données. Non seulement le fractionnement des données est une occasion manquée de modéliser directement les différences d'échantillon dans un modèle global, mais il est instable à moins que votre échantillon entier ne dépasse peut-être 15 000 sujets. C'est pourquoi 100 répétitions de validation croisée 10 fois sont nécessaires (en fonction de la taille de l'échantillon) pour obtenir précision et stabilité, et pourquoi le bootstrap pour une validation interne forte est encore meilleur. Le bootstrap expose également à quel point la tâche de sélection des fonctionnalités est difficile et arbitraire.

J'ai décrit plus en détail les problèmes de validation «externe» à Biostatistics in Biomedical Research Section 10.11.

Frank Harrell
la source
La terminologie dans mon domaine (chimie analytique) considérerait tout fractionnement des données que vous faites au (avant) début de la formation comme une validation interne . La validation externe commencerait quelque part entre la réalisation d'une étude de validation dédiée et des essais en anneau.
cbeleites prend en charge Monica
0

Vous n'avez pas besoin de vous réentraîner. Lorsque vous communiquez vos résultats, vous signalez toujours les résultats des données de test car ils permettent une meilleure compréhension. Par un ensemble de données de test, nous pouvons voir plus précisément dans quelle mesure un modèle est susceptible de fonctionner sur des données hors échantillon.

Umar
la source
4
Nous pouvons signaler les performances de l'ensemble de tests et, après cela, recycler le modèle sur des données complètes, en espérant justement que les performances soient meilleures - car nous utilisons le meilleur mode et plus de données. Y a-t-il une faille dans mon raisonnement?
Yurii
Eh bien, si après le test, vous collectez plus de données, vous pouvez alors diviser à nouveau les données, les réentraîner à nouveau, puis les tester à nouveau, puis signaler le résultat du test à nouveau.
Umar
6
En ne faisant pas d'estimation sur l'ensemble de l'échantillon, vous renoncez à l'opportunité d'une plus grande efficacité. Ce n'est pas justifié. Je suis également d'accord avec le commentaire de Yurii ci-dessus.
Richard Hardy
@ RichardHardy, qu'est-ce qui ne va pas dans mon commentaire?
Umar
C'est expliqué dans mon dernier commentaire. En n'utilisant pas toutes les données pour estimer le modèle, vous renoncez à la plus grande efficacité disponible. Pourquoi faire ça?
Richard Hardy