Comment choisir la formation, la validation croisée et la taille des ensembles de tests pour les données de petite taille d'échantillon?

10

Supposons que j'ai un petit échantillon, par exemple N = 100 et deux classes. Comment dois-je choisir la formation, la validation croisée et la taille des ensembles de tests pour l'apprentissage automatique?

Je choisirais intuitivement

  • Taille de l'ensemble d'entraînement: 50
  • Ensemble de validation croisée taille 25, et
  • Taille du test: 25.

Mais cela a probablement plus ou moins de sens. Comment dois-je vraiment décider de ces valeurs? Puis-je essayer différentes options (même si je suppose que ce n'est pas si préférable ... possibilité accrue de surapprentissage)?

Et si j'avais plus de deux cours?

est
la source
2
100 est trop petit pour moi. J'opterais pour une stratégie d'abandon pour la validation croisée et l'évaluation des tests.
Memming
Je n'ai vu aucune littérature à ce sujet (tailles minimales d'échantillon pour validation). Pas certain de pourquoi. Semble être une question importante.
charles

Réponses:

15
cbeleites mécontents de SX
la source
+1 uniquement pour les conseils sur l'optimisation des paramètres et la complexité du modèle. mais tous ces conseils sont fantastiques.
charles
1

Étant donné que la taille de votre échantillon est petite, une bonne pratique serait de laisser de côté la section de validation croisée et d'utiliser un rapport de 60 à 40 ou 70 à 30.

Comme vous pouvez le voir dans la section 2.8 d' Introduction à Clementine et à l'exploration de données et également dans MSDN Library - Exploration de données - Ensembles de formation et de test, un rapport de 70 à 30 est courant. Selon les conférences Machine Learning d'Andrew Ng, un rapport 60 - 20 - 20 est recommandé.

J'espère que j'ai été utile. Meilleures salutations.

mrdatamx
la source