Mis à part les considérations relatives à la puissance de calcul, y a-t-il des raisons de penser que l' augmentation du nombre de plis lors de la validation croisée conduit à une meilleure sélection / validation du modèle (en d'autres termes, plus le nombre de plis est élevé, mieux c'est).
En poussant l'argument à l'extrême, la validation croisée «laisser-un-out» conduit-elle nécessairement à de meilleurs modèles que la validation croisée « fold»?
Quelques informations sur cette question: je travaille sur un problème avec très peu d'instances (par exemple 10 positifs et 10 négatifs), et j'ai bien peur que mes modèles ne se généralisent pas bien / sur-équipent avec si peu de données.
cross-validation
bias-variance-tradeoff
Amelio Vazquez-Reina
la source
la source
Réponses:
En règle générale, la validation croisée "laissez-passer" ne conduit pas à de meilleures performances que le pli-K, elle risque davantage d'être pire , car la variance est relativement élevée (c'est-à-dire que sa valeur change davantage pour différents échantillons de données que la valeur pour validation croisée k-fold). Ceci est mauvais pour un critère de sélection de modèle car cela signifie que le critère de sélection de modèle peut être optimisé d'une manière qui exploite simplement la variation aléatoire de l'échantillon de données particulier, plutôt que d'améliorer réellement les performances, ce qui signifie que vous êtes plus susceptible de sur-adapter le critère de sélection du modèle. La raison pour laquelle la validation croisée let-one-out est utilisée dans la pratique est que, pour de nombreux modèles, elle peut être évaluée à très bon marché en tant que sous-produit de l'ajustement du modèle.
Si les dépenses de calcul ne sont pas principalement un problème, une meilleure approche consiste à effectuer une validation croisée multipliée par k, où la procédure de validation croisée à pli k est répétée avec différentes partitions aléatoires en k sous-ensembles disjoints à chaque fois. Cela réduit la variance.
Si vous n’avez que 20 modèles, il est très probable que vous éprouviez des difficultés à surpasser le critère de sélection du modèle, un piège très négligé dans les statistiques et l’apprentissage automatique (fiche éhontée: voir mon article à ce sujet). Vous feriez peut-être mieux de choisir un modèle relativement simple et de ne pas l’optimiser de manière très agressive, ou d’adopter une approche bayésienne et une moyenne de tous les choix de modèles, pondérés par leur plausibilité. L'optimisation IMHO est la racine de tous les maux dans les statistiques, il est donc préférable de ne pas optimiser si vous n'avez pas à le faire, et d'optimiser avec prudence chaque fois que vous le faites.
Notez également que si vous allez effectuer une sélection de modèle, vous devez utiliser quelque chose comme une validation croisée imbriquée si vous avez également besoin d'une estimation des performances (vous devez par exemple considérer la sélection de modèle comme une partie intégrante de la procédure d'ajustement du modèle et valider cette validation croisée). ainsi que).
la source
Choisir le nombre K se plie en tenant compte de la courbe d'apprentissage
Je voudrais dire que le choix du nombre approprié de plis dépend beaucoup de la forme et de la position de la courbe d'apprentissage, principalement en raison de son impact sur le biais . Cet argument, qui s'étend au CV sans omission, est largement repris de l'ouvrage "Éléments d'apprentissage statistique", chapitre 7.10, page 243.K
Pour des discussions sur l'impact de sur la variance, voir iciK
Une visualisation intuitive utilisant un exemple de jouet
Pour comprendre visuellement cet argument, considérons l'exemple de jouet suivant dans lequel nous ajustons un polynôme de degré 4 à une courbe sinusoïdale bruyante:
Intuitivement et visuellement, nous nous attendons à ce que ce modèle présente des résultats médiocres pour les petits ensembles de données en raison de la suralimentation. Ce comportement est reflété dans la courbe d'apprentissage où nous traçons Erreur quadratique moyenne vs taille de l'entraînement avec 1 écart type. Notez que j'ai choisi de tracer 1 - MSE ici pour reproduire l'illustration utilisée dans ESL page 243±1− ±
Discuter de l'argument
Les performances du modèle s'améliorent considérablement lorsque la taille de l'entraînement augmente jusqu'à 50 observations. Augmenter ce nombre à 200 par exemple n'apporte que de petits avantages. Considérons les deux cas suivants:
Si notre ensemble d’entraînement comportait 200 observations, une validation croisée sur fois estimerait la performance sur une taille d’entraînement de 160, ce qui est pratiquement la même que celle pour un ensemble d’entraînement de 200. Ainsi, la validation croisée ne souffrirait pas de beaucoup de biais et augmenterait de à des valeurs plus grandes n'apporteront pas beaucoup d'avantages ( intrigue de gauche )K5 K
Cependant, si l'ensemble d'apprentissage comportait observations, une validation croisée sur fois estimait la performance du modèle par rapport à des ensembles d'apprentissage de taille 40, ce qui conduirait à un résultat biaisé de la courbe d'apprentissage. Par conséquent, l'augmentation de dans ce cas aura tendance à réduire le biais. ( intrigue de droite ).5 K50 5 K
[Mise à jour] - Commentaires sur la méthodologie
Vous pouvez trouver le code pour cette simulation ici . L'approche était la suivante:
Une autre approche consiste à ne pas rééchantillonner un nouvel ensemble de données à chaque itération, mais à remanier à chaque fois le même ensemble de données. Cela semble donner des résultats similaires.
la source