Nous avons un ensemble d'échantillons biologiques qui était assez cher à obtenir. Nous avons soumis ces échantillons à une série de tests pour générer des données qui sont utilisées pour construire un modèle prédictif. À cette fin, nous avons divisé les échantillons en ensembles d'apprentissage (70%) et d'essai (30%). Nous avons réussi à créer un modèle et à l'appliquer sur l'ensemble de test pour découvrir que les performances étaient "moins qu'optimales". Les expérimentateurs veulent maintenant améliorer les tests biologiques afin de créer un meilleur modèle. À condition que nous ne puissions pas obtenir de nouveaux échantillons, nous suggéreriez-vous de remélanger les échantillons pour créer de nouveaux ensembles de formation et de validation ou de vous en tenir à la division d'origine. (Nous n'avons aucune indication que la division était problématique).
9
Réponses:
Comme vous utilisez déjà un exemple d'exclusion, je dirais que vous devez le conserver et créer vos nouveaux modèles sur le même exemple de formation afin que tous les modèles prennent en compte les mêmes relations entre les fonctionnalités. De plus, si vous effectuez une sélection de fonction, les échantillons doivent être omis avant l'une de ces étapes de filtrage; c'est-à-dire que la sélection des caractéristiques doit être incluse dans la boucle de validation croisée.
Il convient de noter qu'il existe des méthodes plus puissantes qu'un fractionnement de 0,67 / 0,33 pour la sélection de modèle, à savoir la validation croisée k-fold ou la mise à l'écart. Voir, par exemple, The Elements of Statistical Learning (§7.10, pp. 241-248), www.modelselection.org ou A survey of cross-validation procedures for model selection by Arlot and Celisse (plus de connaissances mathématiques avancées requises).
la source