J'ai lu sur la validation k-fold, et je veux m'assurer de comprendre comment cela fonctionne.
Je sais que pour la méthode d'exclusion, les données sont divisées en trois ensembles, et l'ensemble de test n'est utilisé qu'à la toute fin pour évaluer les performances du modèle, tandis que l'ensemble de validation est utilisé pour régler les hyperparamètres, etc.
Dans la méthode du pli k, tenons-nous toujours un ensemble de test pour la toute fin, et utilisons-nous uniquement les données restantes pour la formation et le réglage des hyperparamètres, c'est-à-dire que nous divisons les données restantes en k plis, puis utilisons la précision moyenne après la formation à chaque fois (ou quelle que soit la mesure de performance que nous choisissons pour régler nos hyperparamètres)? Ou n'utilisons-nous pas du tout un ensemble de tests séparé et divisons-nous simplement l'ensemble des données en k plis (si tel est le cas, je suppose que nous considérons simplement la précision moyenne sur les k plis comme notre précision finale)?
la source
Réponses:
Oui. En règle générale, l'ensemble de test ne doit jamais être utilisé pour modifier votre modèle (par exemple, ses hyperparamètres).
Cependant, la validation croisée peut parfois être utilisée à des fins autres que le réglage d'hyperparamètre, par exemple pour déterminer dans quelle mesure la répartition train / test a un impact sur les résultats.
la source
En général, oui. Fondamentalement, nous parlons du compromis biais-variance. Si vous utilisez des données pour construire votre modèle (données de formation et de validation) et que vous parcourez différents hyperparamètres et que vous essayez de maximiser une mesure de performance moyenne, votre modèle peut ne pas être aussi bon qu'indiqué.
Cependant, en particulier dans les petits ensembles de données, la division supplémentaire peut conduire à un ensemble d'apprentissage encore plus petit et entraîner un mauvais modèle.
la source
Idéalement, la validation (pour la sélection du modèle) et le test final ne devraient pas être mélangés. Cependant, si votre valeur k est élevée, ou si elle est laissée pour compte, l'utilisation du résultat du test pour guider la sélection de votre modèle est moins nocive. Dans ce scénario, si vous écrivez un article académique, ne le faites pas (sauf si vous vous donnez la peine de l'expliquer) - ce qui signifie toujours avoir un ensemble de tests séparé. Si vous construisez un projet pratique, vous pouvez le faire.
la source