Utilisation abusive de la validation croisée (rapport des performances pour la meilleure valeur d'hyperparamètre)

31

Récemment, je suis tombé sur un article qui propose d'utiliser un classificateur k-NN sur un ensemble de données spécifique. Les auteurs ont utilisé tous les échantillons de données disponibles pour effectuer une validation croisée k-fold pour différentes valeurs k et rapporter les résultats de la validation croisée de la meilleure configuration hyperparamétrique.

À ma connaissance, ce résultat est biaisé et ils auraient dû conserver un ensemble de tests séparé pour obtenir une estimation de précision sur les échantillons non utilisés pour effectuer une optimisation hyperparamétrique.

Ai-je raison? Pouvez-vous fournir quelques références (de préférence des documents de recherche) qui décrivent cette utilisation abusive de la validation croisée?

Daniel López
la source
3
Notez qu'au lieu d'un ensemble de tests séparé, on peut utiliser ce qu'on appelle la validation croisée imbriquée . Si vous recherchez ce terme sur ce site, vous trouverez de nombreuses discussions. Recherchez en particulier les réponses de @DikranMarsupial qui est l'un des auteurs du deuxième article cité dans la réponse acceptée.
Amoeba dit Reinstate Monica

Réponses:

30

Oui, il y a des problèmes avec les rapports de CV uniquement k-fold. Vous pouvez utiliser, par exemple, les trois publications suivantes pour votre objectif (bien qu'il y en ait plus, bien sûr) pour orienter les gens vers la bonne direction:

Personnellement, j'aime ceux-ci car ils essaient d'énoncer les problèmes plus en anglais simple qu'en mathématiques.

geekoverdose
la source
2
Plus précisément, le problème ne concerne pas les résultats de la validation croisée, mais les estimations des performances qui ont fait partie du processus de sélection / optimisation.
cbeleites prend en charge Monica
1
Notez également que l'article de Bengio & Grandvalet est un peu moins pertinent si le problème ici est la performance d'un modèle spécifique formé sur un ensemble de données particulier - ils discutent des performances pour le même algorithme de formation appliqué à de nouveaux ensembles de données de la même population (ce qui nécessite pour inclure la variance entre différents ensembles de données de la même taille échantillonnés à partir de la même source - ce qui n'est pas un problème si nous parlons des performances de prédiction d'un modèle formé sur un ensemble de données spécifique).
cbeleites prend en charge Monica
1
@cbeleites Correctement repéré: dans ma première version de la réponse, j'ai accidentellement choisi la troisième référence au lieu de la deuxième, mais plus tard, je ne voulais plus supprimer aucune information de la réponse déjà acceptée - c'est pourquoi j'ai plutôt ajouté la seconde dans entre (voir les versions de la réponse). Néanmoins, je pense que la question portait principalement sur l'erreur signalée, et ces documents soulignent très bien certaines des choses que l'on peut faire de mal avec CV à cet égard à mon humble avis.
geekoverdose du