Comment décidez-vous de vos pourcentages de train, de validation et de test?

10

Lors de la division de mes données étiquetées en ensembles de formation, de validation et de test, j'ai tout entendu du 50/25/25 au 85/5/10. Je suis sûr que cela dépend de la façon dont vous allez utiliser votre modèle et de la tendance à sur-adapter votre algorithme d'apprentissage. Existe-t-il un moyen de décider ou est-ce tout par la règle d'or? Même ELSII semble vague sur le sujet.

Ed Fine
la source
Ce Q & A Stackoverflow a deux bonnes réponses sur le sujet avec> 30 votes positifs chacun. stackoverflow.com/questions/13610074/…
Luke Singham

Réponses:

13

La validation d'échantillons fractionnés sans rééchantillonnage (validation croisée ou mieux: amorçage) n'est pas fiable, sauf si vous avez un énorme échantillon (par exemple, ). Une validation interne rigoureuse utilisant le bootstrap est généralement préférée, en supposant que vous programmez toutes les étapes de sélection de modèle afin qu'elles puissent être répétées dans chaque boucle de bootstrap. Et l'un des problèmes des approches d'échantillonnage fractionné, outre la volatilité, est la difficulté de choisir les fractions fractionnées.N>20000

Frank Harrell
la source
Et si vous travaillez à des données à plus grande échelle (mais pas à des données volumineuses) de 10000 <N <1000000? À ce stade, le fractionnement semble raisonnable. Cela correspond à de nombreuses situations, mais pas à toutes, que je rencontre.
Ed Fine
Cela pourrait être tout à fait raisonnable.
Frank Harrell
J'ai N = 95 000 000 (tenez ensemble de 9 500 000). Où est une référence qui me dit que je n'ai pas à répéter mon expérience 10 fois?
dranxo
2
Exécutez simplement deux fois (2 divisions) et vous verrez à quel point les résultats varient. Ils varient probablement si peu que vous n'avez besoin que d'une seule division. Pensez à la largeur d'un intervalle de confiance pour une proportion avec un échantillon aussi important.
Frank Harrell
3

Bien sûr, vous devez également décider des taux de fractionnement pour le (double) rééchantillonnage ...

Cependant, le rééchantillonnage fonctionne généralement pour une gamme assez large de rapports de division, si vous gardez à l'esprit

  • de ne pas laisser de place si cela réduirait le nombre de pistes distinctes possibles
  • laisser suffisamment de cas de formation dans l'ensemble de formation le plus interne pour que l'algorithme de suivi ait une chance décente de produire un modèle utile.
  • plus vous avez de cas indépendants, moins ces considérations sont importantes.

Et si vous travaillez à des données à plus grande échelle (mais pas à des données volumineuses) de 10000 <N <1000000?

Ce que vous pouvez faire si vous n'êtes pas certain de la nécessité d'un rééchantillonnage, c'est de rééchantillonner plusieurs fois. Assez pour que vous puissiez mesurer si le rééchantillonnage était nécessaire.

  • vérifier la stabilité de vos prédictions
  • vérifier la stabilité des paramètres de votre modèle

Avec ces résultats, vous pouvez décider si vous devez ajouter plus d'itérations de rééchantillonnage ou si les choses vont bien comme elles le sont.

cbeleites mécontents de SX
la source
2

Il n'y a pas de règle stricte pour cela. Mais l'analyse empirique a montré que plus vous disposez de données d'entraînement, meilleure sera votre précision. Mais quoi que vous fassiez, n'oubliez pas de rassembler toutes vos données de formation / validation / test et de faire un CV 10 fois lorsque vous terminez. Cela donne un très bon aperçu du problème de sur-ajustement / sous-équipement pendant votre expérience.

Rushdi Shams
la source
1

Je pense que tout compte pour quelles questions vous essayez de répondre. Êtes-vous intéressé par une vue précise de la différence de performances entre plusieurs algorithmes? Ensuite, vous avez besoin d'un ensemble de validation assez important. Êtes-vous intéressé par la performance d'un algorithme pour N = 10000 échantillons? Ensuite, vous devez mettre au moins 10000 échantillons dans le train.

Un ensemble de validation plus large vous donne plus de certitude statistique sur vos résultats, mais la certitude concerne les performances d'un algorithme qui a été formé sur moins d'échantillons, ce qui n'est peut-être pas ce que vous recherchez à la fin.

MLS
la source