Ma principale question est de savoir comment comprendre la validation croisée k-fold dans le contexte des ensembles de formation / validation / test (si cela correspond à un tel contexte).
Habituellement, les gens parlent de diviser les données en un ensemble de formation, de validation et de test - disons à un ratio de 60/20/20 par cours d'Andrew Ng - où l'ensemble de validation est utilisé pour identifier les paramètres optimaux pour la formation du modèle.
Cependant, si l'on voulait utiliser la validation croisée k-fold dans l'espoir d'obtenir une mesure d'exactitude plus représentative lorsque la quantité de données est relativement petite, que signifie la validation croisée k-fold exactement dans cette répartition 60/20/20 scénario?
Par exemple, cela signifierait-il que nous combinerions réellement les ensembles de formation et de test (80% des données) et ferions une validation croisée sur eux pour obtenir notre mesure de précision (éliminer efficacement avec un `` ensemble de test '' explicite? Si oui, quel modèle formé utilisons-nous a) en production et b) à utiliser par rapport à l'ensemble de validation et à identifier les paramètres d'entraînement optimaux? Par exemple, une réponse possible pour a et b est peut-être d'utiliser le modèle le mieux replié.
La division en formation / validation / test est également une stratégie d'échantillonnage.
Vous pouvez remplacer la formation / validation par une autre stratégie d'échantillonnage. Ensuite , vous procéderez CV de 80% sur des données et test sur les 20% restants.K
Vous pouvez également l'appliquer à la partie test (c'est ce que les gens appellent la validation croisée imbriquée), où les plis sont utilisés pour la formation / validation et le reste pour tester, puis vous répétez cela sur les plis.K−1
la source