Récemment, je suis tombé sur un article qui propose d'utiliser un classificateur k-NN sur un ensemble de données spécifique. Les auteurs ont utilisé tous les échantillons de données disponibles pour effectuer une validation croisée k-fold pour différentes valeurs k et rapporter les résultats de la validation croisée de la meilleure configuration hyperparamétrique.
À ma connaissance, ce résultat est biaisé et ils auraient dû conserver un ensemble de tests séparé pour obtenir une estimation de précision sur les échantillons non utilisés pour effectuer une optimisation hyperparamétrique.
Ai-je raison? Pouvez-vous fournir quelques références (de préférence des documents de recherche) qui décrivent cette utilisation abusive de la validation croisée?
la source
Réponses:
Oui, il y a des problèmes avec les rapports de CV uniquement k-fold. Vous pouvez utiliser, par exemple, les trois publications suivantes pour votre objectif (bien qu'il y en ait plus, bien sûr) pour orienter les gens vers la bonne direction:
Varma et Simon (2006). "Biais dans l'estimation d'erreur lors de l'utilisation de la validation croisée pour la sélection du modèle." BMC Bioinformatics , 7: 91
Cawley et Talbot (2010). "Sur le sur-ajustement dans la sélection du modèle et les biais de sélection ultérieurs dans l'évaluation des performances." Journal of Machine Learning Research , 11: 2079-2107
Personnellement, j'aime ceux-ci car ils essaient d'énoncer les problèmes plus en anglais simple qu'en mathématiques.
la source