Je suis confus sur la façon de partitionner les données pour la validation croisée k-fold de l'apprentissage d'ensemble.
En supposant que j'ai un cadre d'apprentissage d'ensemble pour la classification. Ma première couche contient les modèles de classification, par exemple svm, les arbres de décision.
Ma deuxième couche contient un modèle de vote, qui combine les prédictions de la première couche et donne la prédiction finale.
Si nous utilisons la validation croisée 5 fois, je pense utiliser les 5 plis comme suit:
- 3 plis pour l'entraînement de la première couche
- 1 pli pour l'entraînement de la deuxième couche
- 1 fois pour les tests
C'est la bonne route? Les données d'apprentissage pour la première et la deuxième couche devraient-elles être indépendantes? Je pense qu'ils devraient être indépendants afin que le cadre d'apprentissage de l'ensemble soit solide.
Mon ami suggère que les données d'entraînement pour la première et la deuxième couche soient les mêmes, c'est-à-dire
- 4 plis pour l'entraînement des première et deuxième couches
- 1 fois pour les tests
De cette façon, nous aurons une erreur plus précise du cadre d'apprentissage d'ensemble, et le réglage itératif du cadre sera plus précis, car il est basé sur une seule donnée de formation. De plus, la deuxième couche peut être biaisée vers les données d'entraînement indépendantes
Tous les conseils sont grandement appréciés