Je fais une validation croisée imbriquée. J'ai lu que la validation croisée avec un seul retrait peut être biaisée (je ne me souviens pas pourquoi).
Est-il préférable d'utiliser la validation croisée 10 fois ou la validation croisée avec suppression de la mise à part le temps d'exécution plus long pour la validation croisée avec suppression?
machine-learning
cross-validation
machinerie
la source
la source
Réponses:
Juste pour ajouter un peu à la réponse de @SubravetiSuraj (+1)
La validation croisée donne une estimation pessimiste de la performance car la plupart des modèles statistiques s'amélioreront si l'ensemble d'entraînement est agrandi. Cela signifie que la validation croisée k-fold estime les performances d'un modèle formé sur un ensemble de données 100 * (k-1) / k% des données disponibles, plutôt que sur 100% de celui-ci. Donc, si vous effectuez une validation croisée pour estimer les performances, puis utilisez un modèle formé sur toutes les données pour une utilisation opérationnelle, il fonctionnera légèrement mieux que ne le suggère l'estimation de validation croisée.
La validation croisée avec omission est approximativement non biaisée , car la différence de taille entre l'ensemble d'apprentissage utilisé dans chaque pli et l'ensemble de données n'est qu'un seul modèle. Il existe un article à ce sujet de Luntz et Brailovsky (en russe).
Luntz, Aleksandr et Viktor Brailovsky. "Sur l'estimation des caractères obtenus en procédure statistique de reconnaissance." Technicheskaya Kibernetica 3.6 (1969): 6-12.
voir également
Estimation des taux d'erreur dans l'analyse discriminante Peter A. Lachenbruch et M. Ray Mickey Technometrics Vol. 10, Iss. 1,1968
Cependant, bien que la validation croisée avec omission soit approximativement sans biais, elle a tendance à avoir une variance élevée (vous obtiendrez donc des estimations très différentes si vous répétiez l'estimation avec différents échantillons initiaux de données de la même distribution). Étant donné que l'erreur de l'estimateur est une combinaison de biais et de variance, le fait que la validation croisée avec ou sans interruption soit meilleure que la validation croisée multipliée par 10 dépend des deux quantités.
Maintenant, la variance dans l'ajustement du modèle a tendance à être plus élevée s'il est ajusté à un petit ensemble de données (car il est plus sensible aux bruits / artefacts d'échantillonnage dans l'échantillon d'apprentissage particulier utilisé). Cela signifie qu'une validation croisée 10 fois est susceptible d'avoir une variance élevée (ainsi qu'un biais plus élevé) si vous ne disposez que d'une quantité limitée de données, car la taille de l'ensemble d'apprentissage sera plus petite que pour LOOCV. La validation croisée k-fold peut également avoir des problèmes de variance, mais pour une raison différente. C'est pourquoi LOOCV est souvent meilleur lorsque la taille de l'ensemble de données est petite.
Cependant, la principale raison d'utiliser LOOCV à mon avis est qu'il est peu coûteux en calcul pour certains modèles (comme la régression linéaire, la plupart des méthodes du noyau, les classificateurs du plus proche voisin, etc.), et à moins que l'ensemble de données ne soit très petit, j'utiliserais Validation croisée 10 fois si elle correspondait à mon budget de calcul, ou mieux encore, estimation bootstrap et ensachage.
la source
À mon avis, laisser une validation croisée est préférable lorsque vous disposez d'un petit ensemble de données de formation. Dans ce cas, vous ne pouvez pas vraiment faire 10 plis pour faire des prédictions sur l'utilisation du reste de vos données pour former le modèle.
Si vous disposez d'un grand nombre de données d'entraînement d'un autre côté, une validation croisée 10 fois serait un meilleur pari, car il y aura trop d'itérations pour en laisser une en dehors de la validation croisée, et compte tenu de ces nombreux résultats pour régler vos hyperparamètres, pas une si bonne idée.
Selon ISL, il y a toujours un compromis biais-variance entre le fait de laisser un sur et la validation croisée k fois. Dans LOOCV (laissez un CV), vous obtenez des estimations d'erreur de test avec un biais plus faible et une variance plus élevée car chaque ensemble d'entraînement contient n-1 exemples, ce qui signifie que vous utilisez presque tout l'ensemble d'entraînement à chaque itération. Cela entraîne également une variance plus élevée, car il y a beaucoup de chevauchement entre les ensembles d'apprentissage, et donc les estimations d'erreur de test sont fortement corrélées, ce qui signifie que la valeur moyenne de l'estimation d'erreur de test aura une variance plus élevée.
L'inverse est vrai avec un CV multiplié par k, car il y a relativement moins de chevauchement entre les ensembles d'apprentissage, donc les estimations d'erreur de test sont moins corrélées, de sorte que la valeur d'erreur de test moyenne n'aura pas autant de variance que LOOCV.
la source