La validation croisée est-elle un substitut approprié à l'ensemble de validation?

27

Dans la classification de texte, j'ai un ensemble de formation avec environ 800 échantillons et un ensemble de test avec environ 150 échantillons. L'ensemble de test n'a jamais été utilisé et attend d'être utilisé jusqu'à la fin.

J'utilise l'ensemble de formation de 800 échantillons, avec une validation croisée 10 fois tout en ajustant et en ajustant les classificateurs et les fonctionnalités. Cela signifie que je n'ai pas de jeu de validation séparé, mais chaque fois sur 10 fois, un jeu de validation est sélectionné automatiquement.

Après avoir été satisfait de tout et vouloir entrer dans la phase finale d'évaluation, je formerai mes classificateurs sur l'ensemble des 800 échantillons. Et testez sur l'ensemble de test de 150 échantillons.

Ma compréhension de l'utilisation de la validation croisée dans la classification de texte est-elle correcte? Cette pratique est-elle valable?

Une autre question par rapport à la validation croisée est:

au lieu de 10 fois, j'ai également essayé d'en laisser un comme indicateur général de performance. Parce que pour laisser de côté, il n'est pas possible d'avoir des informations sur f1 / précision / rappel, je me demande quelle est la relation entre la précision de la sortie de sortie et les mesures de 10 fois?

Toute idée serait très appréciée.


Modifier:

Ceci est une très bonne introduction à la validation croisée. Il renvoie également à d'autres documents de recherche.

Flocon
la source
3
Les estimateurs à laisser-un sont sans biais, tandis que la validation croisée 10 fois aura tendance à vous donner un biais (vers des erreurs plus faibles). Cependant, l'impartialité se fait au prix d'une variance élevée.
blubb
@Simon, je pense que cela dépend d'une complexité du problème. N'est-ce pas?
Biostat
@blubb: LOO dans certaines situations peut avoir un biais pessimiste important. La variance de la LOO et une seule série de 10 fois le CV sont généralement très similaires. Le biais optimiste (estimations d'erreur trop faibles) ne vient pas ici du choix du rééchantillonnage, mais du fait que la validation croisée est déjà utilisée pour l'optimisation basée sur les données. Après cela, une autre validation indépendante est nécessaire. Cela peut également être une boucle "externe" de validation croisée (sans biais optimiste!)
cbeleites prend en charge Monica

Réponses:

15

Vous avez en effet correctement décrit la façon de travailler avec la validation croisée. En fait, vous êtes «chanceux» d'avoir un ensemble de validation raisonnable à la fin, car souvent, la validation croisée est utilisée pour optimiser un modèle, mais aucune validation «réelle» n'est effectuée.

Comme l'a dit @Simon Stelling dans son commentaire, la validation croisée entraînera une baisse des erreurs estimées (ce qui est logique parce que vous réutilisez constamment les données), mais heureusement, c'est le cas pour tous les modèles, donc, sauf catastrophe (c'est-à-dire que les erreurs ne sont réduites que légèrement pour un "mauvais" modèle, et plus pour "le bon" modèle), la sélection du modèle qui fonctionne le mieux sur un critère de validation croisée, sera généralement aussi le meilleur "pour de vrai".

Une méthode qui est parfois utilisée pour corriger quelque peu les erreurs les plus faibles, en particulier si vous recherchez des modèles parcimonieux, consiste à sélectionner le modèle le plus petit / la méthode la plus simple pour laquelle l'erreur de validation croisée se situe dans une SD à partir de l'optimum (de validation croisée). Comme la validation croisée elle-même, il s'agit d'une heuristique, elle doit donc être utilisée avec précaution (si cela est une option: tracez vos erreurs par rapport à vos paramètres de réglage: cela vous donnera une idée si vous avez des résultats acceptables)

Compte tenu du biais à la baisse des erreurs, il est important de ne pas publier les erreurs ou autres mesures de performance de la validation croisée sans mentionner que celles-ci proviennent de la validation croisée (bien que, à vrai dire: j'ai vu trop de publications qui ne mentionnent pas que le la mesure des performances a été obtenue en vérifiant les performances sur l'ensemble de données d'origine --- alors, la mention de la validation croisée donne en fait plus de valeur à vos résultats ). Pour vous, ce ne sera pas un problème, car vous avez un ensemble de validation.

Un dernier avertissement: si l'ajustement de votre modèle se traduit par des concurrents proches, c'est une bonne idée de regarder leurs performances sur votre jeu de validation par la suite, mais ne basez pas votre sélection finale de modèle sur cela: vous pouvez au mieux l'utiliser pour apaiser votre conscience, mais votre modèle "final" doit avoir été choisi avant de regarder l'ensemble de validation.

Par rapport à votre deuxième question: je pense que Simon vous a donné toutes les réponses dont vous avez besoin dans son commentaire, mais pour compléter le tableau: comme souvent, c'est le compromis biais-variance qui entre en jeu. Si vous savez qu'en moyenne, vous obtiendrez le résultat correct (impartialité), le prix est généralement que chacun de vos calculs individuels peut en être assez éloigné (variance élevée). Autrefois, l'impartialité était le nec plus ultra, de nos jours, on a parfois accepté un (petit) biais (donc vous ne savez même pas que la moyenne de vos calculs donnera le bon résultat), si elle entraîne une variance plus faible. L'expérience a montré que l'équilibre est acceptable avec une validation croisée 10 fois. Pour vous, le biais ne serait un problème que pour l'optimisation de votre modèle, puisque vous pouvez ensuite estimer le critère (sans biais) sur l'ensemble de validation. En tant que tel, il y a peu de raisons de ne pas utiliser la validation croisée.

Nick Sabbe
la source
"mais votre modèle" final "doit avoir été choisi avant que vous ne regardiez l'ensemble de validation." Agréable.
Mooncrater