Le merveilleux paquet libsvm fournit une interface python et un fichier "easy.py" qui recherche automatiquement les paramètres d'apprentissage (coût et gamma) qui maximisent la précision du classificateur. Dans un ensemble de paramètres d'apprentissage candidat donné, la précision est opérationnalisée par la validation croisée, mais j'ai l'impression que cela sape l'objectif de la validation croisée. Autrement dit, dans la mesure où les paramètres d'apprentissage eux-mêmes peuvent être choisis d'une manière qui pourrait entraîner un surajustement des données, je pense qu'une approche plus appropriée consisterait à appliquer la validation croisée au niveau de la recherche elle-même: effectuer la recherche sur un ensemble de données d'apprentissage, puis évaluer la précision ultime de SVM résultant des paramètres d'apprentissage finalement choisis par évaluation dans un ensemble de données de test distinct. Ou est-ce que je manque quelque chose ici?
la source
Je ne pense pas que la validation croisée soit utilisée à mauvais escient dans le cas de LIBSVM car elle est effectuée au niveau des données de test. Tout ce qu'il fait est une validation croisée k-fold et rechercher le meilleur paramètre pour le noyau RBF. Faites-moi savoir que vous n'êtes pas d'accord.
la source