Je vois souvent des gens parler de la validation croisée 5x2 comme un cas spécial de validation croisée imbriquée .
Je suppose que le premier nombre (ici: 5) fait référence au nombre de plis dans la boucle intérieure et le deuxième nombre (ici: 2) fait référence au nombre de plis dans la boucle extérieure? Alors, en quoi est-ce différent d'une approche de sélection et d'évaluation de modèle "traditionnelle"? Par "traditionnel", je veux dire
- diviser l'ensemble de données en une formation distincte (par exemple, 80%) et un ensemble de tests
- utiliser la validation croisée k-fold (par exemple, k = 10) pour le réglage de l'hyperparamètre et la sélection du modèle sur l'ensemble d'apprentissage
- évaluer les performances de généralisation du modèle sélectionné à l'aide de l'ensemble de test
Le 5x2 n'est-il pas exactement le même, sauf que l'ensemble de test et d'entraînement a une taille égale si k = 2?
Réponses:
5x2cv pour autant que je l'ai vu dans la littérature, se réfèrent toujours à une répétition 5 d'un double. Il n'y a pas du tout de nidification. faire un double (50/50 divisé entre le train et le test), répétez-le 4 fois de plus. Le 5x2cv a été popularisé par l'article Tests statistiques approximatifs pour comparer les algorithmes d'apprentissage de classification supervisée par Dietterich comme un moyen d'obtenir non seulement une bonne estimation de l'erreur de généralisation mais aussi une bonne estimation de la variance de cette erreur (afin d'effectuer des tests statistiques )
la source
2 répétitions en boucle externe signifient que vous répétez votre CV 5 fois 2 fois sur l'ensemble du train. Chaque fois, la subdivision en plis sera différente.
Ceci est principalement utilisé pour de meilleures estimations des performances du modèle, comme l'exécution de tests statistiques sur la performance statistiquement significative d'un modèle par rapport à un autre.
Le CV imbriqué n'est pas d'une importance critique si votre ensemble de données est volumineux et sans valeurs aberrantes. Si vos données contiennent des valeurs aberrantes, les performances de validation croisée peuvent être radicalement différentes selon le ou les plis de ces valeurs aberrantes. Par conséquent, vous répétez le CV plusieurs fois.
la source