Pourquoi les chercheurs utilisent-ils la validation croisée 10 fois au lieu de tester sur un ensemble de validation?

23

J'ai lu de nombreux articles de recherche sur la classification des sentiments et des sujets connexes.

La plupart d'entre eux utilisent une validation croisée 10 fois pour former et tester les classificateurs. Cela signifie qu'aucun test / validation séparé n'est effectué. Pourquoi donc?

Quels sont les avantages / inconvénients de cette approche, en particulier pour ceux qui font de la recherche?

user18075
la source
3
Êtes-vous sûr qu'aucun test distinct n'a été effectué?
Douglas Zare

Réponses:

17

Ce n'est pas un problème si le CV est imbriqué , c'est-à-dire que toutes les optimisations, sélections de fonctionnalités et sélections de modèles, qu'elles utilisent elles-mêmes ou non le CV, sont regroupées dans un grand CV.

Comment cela se compare-t-il à un ensemble de validation supplémentaire? Alors que l'ensemble de validation n'est généralement qu'une partie plus ou moins sélectionnée au hasard de l'ensemble des données, il s'agit simplement d'un équivalent d'une itération de CV. À cette fin, il s'agit en fait d'une méthode pire, car elle peut être facilement biaisée par (espérons-le) un ensemble de validation sélectionné par chance ou par hasard.

La seule exception à cette règle concerne les séries chronologiques et d'autres données où l'ordre des objets est important; mais ils nécessitent un traitement spécial de toute façon.

Gala
la source
16

La raison principale est que l'estimateur à validation croisée k fois a une variance plus faible qu'un estimateur à jeu de données unique, ce qui peut être très important si la quantité de données disponibles est limitée. Si vous avez un seul ensemble d'exclusion, où 90% des données sont utilisées pour la formation et 10% pour les tests, l'ensemble de test est très petit, il y aura donc beaucoup de variations dans l'estimation des performances pour différents échantillons de données, ou pour différentes partitions des données pour former des ensembles de formation et de test. La validation k-fold réduit cette variance en faisant la moyenne sur k partitions différentes, de sorte que l'estimation des performances est moins sensible au partitionnement des données. Vous pouvez aller encore plus loin en répétant la validation croisée k-fold, où la validation croisée est effectuée en utilisant différents partitionnements des données pour former k sous-ensembles,

Notez cependant que toutes les étapes de la procédure d'ajustement du modèle (sélection du modèle, sélection des caractéristiques, etc.) doivent être effectuées indépendamment dans chaque pli de la procédure de validation croisée, sinon l'estimation des performances résultante sera biaisée de manière optimiste.

Dikran Marsupial
la source
9

[MODIFIÉ à la lumière du commentaire]

Je pense qu'il y a un problème si vous utilisez les résultats de CV pour sélectionner parmi plusieurs modèles.

CV vous permet d'utiliser l'intégralité de l'ensemble de données pour former et tester un modèle / méthode, tout en ayant une idée raisonnable de la façon dont il généralisera. Mais si vous comparez plusieurs modèles, mon instinct est que la comparaison de modèles utilise le niveau supplémentaire d'isolement de test de train que CV vous donne, donc le résultat final ne sera pas une estimation raisonnable de la précision du modèle choisi.

Je suppose donc que si vous créez plusieurs modèles et en choisissez un en fonction de son CV, vous êtes trop optimiste quant à ce que vous avez trouvé. Un autre ensemble de validation serait nécessaire pour voir dans quelle mesure le gagnant se généralise.

Wayne
la source
Merci. C'est vrai. Mais ma question était surtout de savoir pourquoi les articles de recherche manquent d'une validation finale? Y a-t-il une bonne raison? Est-ce sur le point de réduire les données ou parce que le CV fait du bon travail et qu'une validation séparée n'est pas nécessaire?
user18075
5
Oui
7
  • D'après mon expérience, la principale raison est généralement que vous n'avez pas assez d'échantillons.
    Dans mon domaine (classification des échantillons biologiques / médicaux), parfois un ensemble de tests est conservé séparément, mais souvent il ne comprend que quelques cas. Dans ce cas, les intervalles de confiance sont généralement trop larges pour être utiles.

  • Un autre avantage de la validation croisée répétée / itérée ou de la validation hors bootstrap est que vous créez un tas de modèles "de substitution". Ceux-ci sont supposés être égaux. S'ils ne le sont pas, les modes sont instables. Vous pouvez réellement mesurer cette instabilité (en ce qui concerne l'échange de quelques cas d'apprentissage) en comparant soit les modèles de substitution eux-mêmes, soit les prédictions que différents modèles de substitution font pour le même cas.

  • Cet article par Esbensen & Geladi donne une belle discussion sur certaines limites de la validation croisée.
    Vous pouvez vous occuper de la plupart d'entre eux, mais un point important qui ne peut pas être résolu par la validation du rééchantillonnage est la dérive, qui est liée au point de mbq:

    La seule exception à cette règle concerne les séries chronologiques et d'autres données où l'ordre des objets est important.

    La dérive signifie que, par exemple, la réponse / l'étalonnage réel d'un instrument change lentement au fil du temps. Ainsi, l'erreur de généralisation pour les cas inconnus peut ne pas être la même que pour les cas futurs inconnus . Vous arrivez à des instructions comme "refaire l'étalonnage quotidiennement / hebdomadaire / ..." si vous constatez une dérive lors de la validation, mais cela nécessite des ensembles de tests systématiquement acquis plus tard que les données d'entraînement.
    (Vous pouvez effectuer des fractionnements "spéciaux" qui prennent en compte le temps d'acquisition, si votre expérience est planifiée de manière appropriée, mais généralement cela ne couvrira pas autant de temps que vous souhaitez tester pour la détection de dérive)

cbeleites soutient Monica
la source