Supposons que j'ai un petit échantillon, par exemple N = 100 et deux classes. Comment dois-je choisir la formation, la validation croisée et la taille des ensembles de tests pour l'apprentissage automatique?
Je choisirais intuitivement
- Taille de l'ensemble d'entraînement: 50
- Ensemble de validation croisée taille 25, et
- Taille du test: 25.
Mais cela a probablement plus ou moins de sens. Comment dois-je vraiment décider de ces valeurs? Puis-je essayer différentes options (même si je suppose que ce n'est pas si préférable ... possibilité accrue de surapprentissage)?
Et si j'avais plus de deux cours?
Réponses:
Vous avez sûrement trouvé la question très similaire: Choix de K dans la validation croisée K-fold ?
(Y compris le lien vers le travail de Ron Kohavi)
Fait intéressant, avec ces problèmes de classification de très petite taille d'échantillon, la validation est souvent plus difficile (en termes de besoins en taille d'échantillon) que la formation d'un modèle décent. Si vous avez besoin de documentation à ce sujet, consultez par exemple notre article sur la planification de la taille des échantillons:
Beleites, C. et Neugebauer, U. et Bocklitz, T. et Krafft, C. et Popp, J .: Planification de la taille des échantillons pour les modèles de classification. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manuscrit accepté sur arXiv: 1211.1323
Un autre point important est de faire bon usage de la possibilité d'itérer / répéter la validation croisée (ce qui est une des raisons contre LOO): cela permet de mesurer la stabilité des prédictions contre les perturbations (ie peu de cas différents) de la formation Les données.
Littérature:
DOI: 10.1007 / s00216-007-1818-6
DOI: 10.1016 / j.chemolab.2009.07.016
Si vous décidez pour une seule exécution sur un ensemble de test de maintien (pas d'itérations / répétitions),
la source
Étant donné que la taille de votre échantillon est petite, une bonne pratique serait de laisser de côté la section de validation croisée et d'utiliser un rapport de 60 à 40 ou 70 à 30.
Comme vous pouvez le voir dans la section 2.8 d' Introduction à Clementine et à l'exploration de données et également dans MSDN Library - Exploration de données - Ensembles de formation et de test, un rapport de 70 à 30 est courant. Selon les conférences Machine Learning d'Andrew Ng, un rapport 60 - 20 - 20 est recommandé.
J'espère que j'ai été utile. Meilleures salutations.
la source