Lors de la division de mes données étiquetées en ensembles de formation, de validation et de test, j'ai tout entendu du 50/25/25 au 85/5/10. Je suis sûr que cela dépend de la façon dont vous allez utiliser votre modèle et de la tendance à sur-adapter votre algorithme d'apprentissage. Existe-t-il un moyen de décider ou est-ce tout par la règle d'or? Même ELSII semble vague sur le sujet.
10
Réponses:
La validation d'échantillons fractionnés sans rééchantillonnage (validation croisée ou mieux: amorçage) n'est pas fiable, sauf si vous avez un énorme échantillon (par exemple, ). Une validation interne rigoureuse utilisant le bootstrap est généralement préférée, en supposant que vous programmez toutes les étapes de sélection de modèle afin qu'elles puissent être répétées dans chaque boucle de bootstrap. Et l'un des problèmes des approches d'échantillonnage fractionné, outre la volatilité, est la difficulté de choisir les fractions fractionnées.N>20000
la source
Selon l'application, vous pouvez probablement ignorer l'incertitude et utiliser à la place le bootstrap.
Wiki: http://en.wikipedia.org/wiki/Bootstrapping_(statistics)
Question connexe ici. Comprendre l'amorçage pour la validation et la sélection de modèle
la source
Bien sûr, vous devez également décider des taux de fractionnement pour le (double) rééchantillonnage ...
Cependant, le rééchantillonnage fonctionne généralement pour une gamme assez large de rapports de division, si vous gardez à l'esprit
Ce que vous pouvez faire si vous n'êtes pas certain de la nécessité d'un rééchantillonnage, c'est de rééchantillonner plusieurs fois. Assez pour que vous puissiez mesurer si le rééchantillonnage était nécessaire.
Avec ces résultats, vous pouvez décider si vous devez ajouter plus d'itérations de rééchantillonnage ou si les choses vont bien comme elles le sont.
la source
Il n'y a pas de règle stricte pour cela. Mais l'analyse empirique a montré que plus vous disposez de données d'entraînement, meilleure sera votre précision. Mais quoi que vous fassiez, n'oubliez pas de rassembler toutes vos données de formation / validation / test et de faire un CV 10 fois lorsque vous terminez. Cela donne un très bon aperçu du problème de sur-ajustement / sous-équipement pendant votre expérience.
la source
Je pense que tout compte pour quelles questions vous essayez de répondre. Êtes-vous intéressé par une vue précise de la différence de performances entre plusieurs algorithmes? Ensuite, vous avez besoin d'un ensemble de validation assez important. Êtes-vous intéressé par la performance d'un algorithme pour N = 10000 échantillons? Ensuite, vous devez mettre au moins 10000 échantillons dans le train.
Un ensemble de validation plus large vous donne plus de certitude statistique sur vos résultats, mais la certitude concerne les performances d'un algorithme qui a été formé sur moins d'échantillons, ce qui n'est peut-être pas ce que vous recherchez à la fin.
la source