J'ai lu maintes et maintes fois que la validation croisée "Leave-one-out" a une grande variance en raison du grand chevauchement des plis de formation. Cependant, je ne comprends pas pourquoi: les performances de la validation croisée ne devraient-elles pas être très stables (faible variance) exactement parce que les ensembles d'entraînement sont presque identiques? Ou ai-je une mauvaise compréhension du concept de "variance"?
Je ne comprends pas non plus complètement comment la LOO peut être impartiale, mais j'ai une variance élevée? Si l'estimation LOO est égale à la vraie valeur de l'estimateur dans l'espérance - comment peut-elle alors avoir une variance élevée?
Remarque: Je sais qu'il y a une question similaire ici: pourquoi la variance de validation croisée sans effet (LOOCV) sur l'estimation moyenne de l'erreur est-elle élevée? Cependant, la personne qui a répondu dit plus loin dans les commentaires que malgré les votes positifs, il a réalisé que sa réponse était fausse.
Réponses:
Cette question va probablement finir par être fermée en tant que doublon de variance et de biais dans la validation croisée: pourquoi le CV avec sortie unique a-t-il une variance plus élevée? , mais avant que cela n'arrive, je pense que je vais transformer mes commentaires en réponse.
Prenons un exemple simple. Soit la vraie valeur d'un paramètre soit . Un estimateur qui donne est sans biais et a une variance relativement faible, mais un estimateur qui donne est également sans biais mais avec une variance beaucoup plus élevée.0.5 0.49,0.51,0.49,0.51... 0.1,0.9,0.1,0.9...
Vous devez penser à la variance entre les différentes réalisations de l'ensemble de données entier. Pour un ensemble de données donné, la validation croisée avec omission produira en effet des modèles très similaires pour chaque division, car les ensembles d'apprentissage se croisent beaucoup (comme vous l'avez bien remarqué), mais ces modèles peuvent tous ensemble être loin du vrai modèle; entre les ensembles de données, ils seront éloignés dans des directions différentes, d'où une variance élevée.
C'est du moins ainsi que je le comprends. Veuillez consulter les fils liés pour plus de discussion et les articles référencés pour encore plus de discussion.
la source
for one particular dataset we can expect a very good estimation
. Je suppose que l'on peut l'interpréter comme signifiant que l'estimation de certains paramètres spécifiques à l'ensemble de données sera bonne. Mais en général, la validation croisée est censée estimer un paramètre de population : dans quelle mesure un certain type de modèle peut-il prédire la variable dépendante dans la population; et on ne peut pas en attendre une très bonne estimation par LOOCV, à cause de ce que vous avez écrit (l'estimation estvery specific for this particular dataset
).Cette grande variance concerne l'espace des ensembles d'entraînement. Voici pourquoi le LOOCV présente une variance élevée: dans le LOOCV, nous obtenons une erreur de prédiction pour chaque observation, disons l'observation i, en utilisant l'ensemble des données observées à l'exception de cette observation. Ainsi, la valeur prédite pour i dépend très de l'ensemble de données actuel. Supposons maintenant que nous observons un autre ensemble de données indépendant et ajustons un modèle sur ce nouvel ensemble de données. Si nous utilisons ce nouveau modèle pour obtenir une valeur prédite pour l'observation i, la valeur prédite est potentiellement très différente de celle évaluée par LOOCV (bien que correcte en moyenne (non biaisée)).
C'est l'intuition derrière la grande variance de la prédiction d'erreur dans LOOCV.
Cependant, si vous utilisez LOOCV pour comparer les résultats d'un modèle avec différents hyperparamètres, je pense que vous pouvez utiliser en toute sécurité LOOCV pour estimer les erreurs de prédiction, à condition que la vraie valeur de l'erreur de prédiction ne vous intéresse pas, c'est-à-dire que vous voulez simplement comparer différents modèles ayant l'ensemble d'entraînement observé et vous ne vous souciez pas de la véritable erreur réelle à estimer.
Cela dit, en règle générale, si vous avez un petit échantillon, utilisez LOOCV, sinon, utilisez k-fold CV avec une valeur plus petite pour k.
la source