En lisant le site, la plupart des réponses suggèrent que la validation croisée devrait être effectuée dans les algorithmes d'apprentissage automatique. Cependant, alors que je lisais le livre "Understanding Machine Learning", j'ai vu qu'il y avait un exercice selon lequel il vaut parfois mieux ne pas utiliser la validation croisée. Je suis vraiment confus. Quand l'algorithme de formation sur l'ensemble des données est meilleur que la validation croisée? Cela se produit-il dans de vrais ensembles de données?
Soit k classes d'hypothèses. Supposons que l'on vous donne des exemples de formation iid et que vous souhaitez apprendre la classe . Considérez deux approches alternatives:
Apprenez sur les exemples en utilisant la règle ERM
Divisez les m exemples en un ensemble d'apprentissage de taille et un ensemble de validation de taille , pour certains . Ensuite, appliquez l'approche de la sélection du modèle à l'aide de la validation. Autrement dit, entraînez d'abord chaque classe sur les exemples d'apprentissage à l'aide de la règle ERM par rapport à , et laissez être les hypothèses résultantes . Ensuite, appliquez la règle ERM en ce qui concerne la classe finie { } sur les exemples de validation .
Décrivez des scénarios dans lesquels la première méthode est meilleure que la seconde et vice versa.
Réponses:
Messages à emporter:
l'exercice devrait vous apprendre qu'il est parfois (en fonction de votre domaine: souvent, voire presque toujours) préférable de ne pas faire d'optimisation / réglage / sélection de modèle basé sur les données.
Il existe également des situations où la validation croisée n'est pas le meilleur choix parmi les différentes options de validation , mais ces considérations ne sont pas pertinentes dans le contexte de votre exercice ici.
Malheureusement, le texte que vous citez change deux choses entre l'approche 1 et 2:
À mon humble avis, la validation croisée et l'optimisation basée sur les données sont deux décisions totalement différentes (et largement indépendantes) dans la mise en place de votre stratégie de modélisation. La seule connexion est que vous pouvez utiliser des estimations de validation croisée comme fonction cible pour votre optimisation. Mais il existe d'autres fonctionnalités cibles prêtes à être utilisées, et il existe d'autres utilisations d'estimations de validation croisée (surtout, vous pouvez les utiliser pour la vérification de votre modèle, alias validation ou test)
Malheureusement, la terminologie d'apprentissage automatique est à mon humble avis actuellement un gâchis qui suggère de fausses connexions / causes / dépendances ici.
Lorsque vous recherchez l'approche 3 (validation croisée non pas pour l'optimisation mais pour mesurer les performances du modèle), vous trouverez que la validation croisée «décision» par rapport à la formation sur l'ensemble des données est une fausse dichotomie dans ce contexte: lors de l'utilisation de la validation croisée pour mesurer les performances du classificateur, le chiffre de validation croisée du mérite est utilisé comme estimation pour un modèle formé sur l'ensemble des données. C'est-à-dire que l'approche 3 comprend l'approche 1.
Maintenant, regardons la 2ème décision: l'optimisation du modèle basé sur les données ou non. C'est à mon humble avis le point crucial ici. Et oui, il existe des situations réelles où il est préférable de ne pas optimiser les modèles basés sur les données. L'optimisation des modèles basée sur les données a un coût. Vous pouvez y penser de cette façon: les informations de votre ensemble de données sont utilisées pour estimer non seulement lep paramètres / coefficients du modèle, mais ce que l'optimisation fait est d'estimer d'autres paramètres, les soi-disant hyperparamètres. Si vous décrivez le processus d'ajustement et d'optimisation / réglage du modèle comme une recherche des paramètres du modèle, cette optimisation hyperparamétrique signifie qu'un espace de recherche beaucoup plus grand est pris en compte. En d'autres termes, dans l'approche 1 (et 3), vous restreignez l'espace de recherche en spécifiant ces hyperparamètres. Votre ensemble de données du monde réel peut être suffisamment grand (contenir suffisamment d'informations) pour permettre un ajustement dans cet espace de recherche restreint, mais pas assez grand pour fixer suffisamment bien tous les paramètres dans l'espace de recherche plus large des approches 2 (et 4).
En fait, dans mon domaine, je dois très souvent gérer des ensembles de données beaucoup trop petits pour permettre une réflexion sur l'optimisation basée sur les données. Alors, que dois-je faire à la place: j'utilise mes connaissances de domaine sur les données et les processus de génération de données pour décider quel modèle correspond bien à la nature physique des données et de l'application. Et à l'intérieur de ceux-ci, je dois encore restreindre la complexité de mon modèle.
la source