J'ai une question sur l'optimisation des paramètres lorsque j'utilise la validation croisée 10 fois.
Je veux demander si les paramètres doivent être fixés ou non lors de la formation du modèle de chaque pli, c'est-à-dire (1) sélectionner un ensemble de paramètres optimisés pour la précision moyenne de chaque pli.
ou
(2) Je devrais trouver le paramètre optimisé pour chaque pli, puis chaque pli utilise différents paramètres optimisés pour former son modèle, puis tester respectivement les données de test du pli, et enfin faire la moyenne de la précision de chaque pli en résultat?
Laquelle est la bonne méthode pour la validation croisée? Merci beaucoup.
Réponses:
Distinguons d'abord deux ensembles de paramètres: les paramètres du modèle (par exemple les poids pour les entités en régression) et les paramètres de l'algorithme d'apprentissage (et les hyperparamètres). Le but de la validation croisée est d'identifier les paramètres d'apprentissage qui se généralisent bien à travers les échantillons de population dont nous tirons parti dans chaque repli.
Plus précisément: Nous recherchons globalement dans l'espace des paramètres d'apprentissage, mais dans chaque pli, nous fixons les paramètres d'apprentissage et apprenons les paramètres du modèle. Le résultat devrait être l'apprentissage de paramètres qui produisent en moyenne les meilleures performances dans tous les plis. Nous pouvons ensuite les utiliser pour former un modèle sur l'ensemble des données.
la source
Je pense que la réponse actuellement acceptée est incomplète d'une manière malheureuse. Je ne suis pas d'accord avec la phrase
Il s'agit en effet d'une application très importante de la validation croisée, mais pas la seule. Habituellement, vous voulez faire deux choses:
Maintenant, pour compléter l'objectif 1 en fonction de votre algorithme, vous devrez peut-être régler certains hyperparamètres et cela se fait en effet souvent par validation croisée. Mais cela ne vous aide pas encore avec l'objectif 2. Pour cela, vous devez essentiellement imbriquer la validation croisée, comme ceci:
Pour construire un bon modèle, vous avez juste besoin de la validation croisée interne. Vous devrez toujours le faire pour obtenir un bon modèle. Mais pour obtenir une bonne estimation des performances de votre modèle, vous devez exécuter l'ensemble du processus de création de modèle dans un schéma de validation croisée. Cela comprend également des étapes comme l'imputation, etc.
la source