Variation élevée de la validation croisée avec absence

15

J'ai lu maintes et maintes fois que la validation croisée "Leave-one-out" a une grande variance en raison du grand chevauchement des plis de formation. Cependant, je ne comprends pas pourquoi: les performances de la validation croisée ne devraient-elles pas être très stables (faible variance) exactement parce que les ensembles d'entraînement sont presque identiques? Ou ai-je une mauvaise compréhension du concept de "variance"?

Je ne comprends pas non plus complètement comment la LOO peut être impartiale, mais j'ai une variance élevée? Si l'estimation LOO est égale à la vraie valeur de l'estimateur dans l'espérance - comment peut-elle alors avoir une variance élevée?

Remarque: Je sais qu'il y a une question similaire ici: pourquoi la variance de validation croisée sans effet (LOOCV) sur l'estimation moyenne de l'erreur est-elle élevée? Cependant, la personne qui a répondu dit plus loin dans les commentaires que malgré les votes positifs, il a réalisé que sa réponse était fausse.

Pegah
la source
2
Je suis cette personne :-) mais veuillez noter que, premièrement, j'ai déjà mis à jour ma réponse il y a quelque temps pour éliminer la confusion, et, deuxièmement, ce fil entier est fermé en tant que doublon d'un autre fil: stats.stackexchange.com/ questions / 61783 . Vous y avez regardé? Votre Q me semble également être un double de celui-ci. Si vous n'êtes pas satisfait de la réponse qui y est donnée, pensez à formuler votre question plus spécifiquement. En ce moment, je voterai pour fermer, mais n'hésitez pas à modifier votre Q.
amibe dit Reinstate Monica
3
Eh bien, c'est simple: laissez la vraie valeur d'un paramètre être . Un estimateur qui donne est sans biais et a une variance relativement faible, mais un estimateur qui donne est également sans biais mais a une variance beaucoup plus élevée. 0.50.49,0.51,0.49,0.51...0.1,0.9,0.1,0.9...
amibe dit Réintégrer Monica
5
Concernant votre premier paragraphe: vous devez penser à la variance entre les différentes réalisations de l'ensemble de données . Pour un ensemble de données donné, LOOCV produira en effet des modèles très similaires pour chaque division car les ensembles d'apprentissage se croisent tellement (comme vous l'avez dit), mais ces modèles peuvent tous ensemble être loin du vrai modèle; entre les ensembles de données, ils seront éloignés dans des directions différentes, d'où une variance élevée. Voilà comment je le comprends qualitativement.
amibe dit Réintégrer Monica
2
@amoeba, pourquoi ne pas transformer ces commentaires en réponse officielle?
gung - Rétablir Monica

Réponses:

10

Cette question va probablement finir par être fermée en tant que doublon de variance et de biais dans la validation croisée: pourquoi le CV avec sortie unique a-t-il une variance plus élevée? , mais avant que cela n'arrive, je pense que je vais transformer mes commentaires en réponse.

Je ne comprends pas non plus complètement comment la LOO peut être impartiale, mais j'ai une variance élevée?

Prenons un exemple simple. Soit la vraie valeur d'un paramètre soit . Un estimateur qui donne est sans biais et a une variance relativement faible, mais un estimateur qui donne est également sans biais mais avec une variance beaucoup plus élevée.0.50.49,0.51,0.49,0.51...0.1,0.9,0.1,0.9...

Les performances de la validation croisée ne devraient-elles pas être très stables (faible variance) précisément parce que les ensembles d'entraînement sont presque identiques?

Vous devez penser à la variance entre les différentes réalisations de l'ensemble de données entier. Pour un ensemble de données donné, la validation croisée avec omission produira en effet des modèles très similaires pour chaque division, car les ensembles d'apprentissage se croisent beaucoup (comme vous l'avez bien remarqué), mais ces modèles peuvent tous ensemble être loin du vrai modèle; entre les ensembles de données, ils seront éloignés dans des directions différentes, d'où une variance élevée.

C'est du moins ainsi que je le comprends. Veuillez consulter les fils liés pour plus de discussion et les articles référencés pour encore plus de discussion.

amibe dit réintégrer Monica
la source
2
Donc, si je comprends bien, un faible biais est donné parce que l'ensemble d'apprentissage est très grand - presque identique à l'ensemble de données (car un seul échantillon de données est laissé de côté pour les tests). Ainsi, pour un ensemble de données particulier, nous pouvons nous attendre à une très bonne estimation. Cependant, en raison de cette forte corrélation des plis (la validation croisée est presque effectuée sur des données identiques dans ses itérations), l'estimation est également très spécifique pour cet ensemble de données particulier, entraînant une variance élevée entre les performances sur différents ensembles de données de la même distribution sous-jacente . Correct?
Pegah
2
Je pense que c'est surtout correct, mais il faut être prudent en disant cela for one particular dataset we can expect a very good estimation. Je suppose que l'on peut l'interpréter comme signifiant que l'estimation de certains paramètres spécifiques à l'ensemble de données sera bonne. Mais en général, la validation croisée est censée estimer un paramètre de population : dans quelle mesure un certain type de modèle peut-il prédire la variable dépendante dans la population; et on ne peut pas en attendre une très bonne estimation par LOOCV, à cause de ce que vous avez écrit (l'estimation est very specific for this particular dataset).
amibe dit Réintégrer Monica
1
Je devrais ajouter une mise en garde que tout cela est ma compréhension actuelle, mais en général, je trouve ce sujet assez délicat et mon expérience avec la validation croisée est limitée. Je ne suis pas un expert.
amibe dit Réintégrer Monica
1
Puis-je vous demander pourquoi vous trouvez cela difficile? Je suis curieux, car cela pourrait m'apprendre quelque chose sur la façon de faire attention en matière de CV ou d'approfondir mes connaissances
Pegah
2
Compte tenu de la réponse acceptée dans ce fil , vous n'avez peut-être plus besoin de mentionner une variance élevée de LOOCV dans cette réponse, à savoir, donc une variance élevée ? J'ai réfléchi à ces questions pendant un certain temps et je n'ai pas pu trouver de raison théorique à la forte variance de LOOCV dans les problèmes de régression continue ("continue"?), Bien que je vois le point de Paul dans les commentaires du fil de liaison que LOOCV échoue si votre échantillon contient des doublons de chaque point.
Richard Hardy
1

Cette grande variance concerne l'espace des ensembles d'entraînement. Voici pourquoi le LOOCV présente une variance élevée: dans le LOOCV, nous obtenons une erreur de prédiction pour chaque observation, disons l'observation i, en utilisant l'ensemble des données observées à l'exception de cette observation. Ainsi, la valeur prédite pour i dépend très de l'ensemble de données actuel. Supposons maintenant que nous observons un autre ensemble de données indépendant et ajustons un modèle sur ce nouvel ensemble de données. Si nous utilisons ce nouveau modèle pour obtenir une valeur prédite pour l'observation i, la valeur prédite est potentiellement très différente de celle évaluée par LOOCV (bien que correcte en moyenne (non biaisée)).

C'est l'intuition derrière la grande variance de la prédiction d'erreur dans LOOCV.

Cependant, si vous utilisez LOOCV pour comparer les résultats d'un modèle avec différents hyperparamètres, je pense que vous pouvez utiliser en toute sécurité LOOCV pour estimer les erreurs de prédiction, à condition que la vraie valeur de l'erreur de prédiction ne vous intéresse pas, c'est-à-dire que vous voulez simplement comparer différents modèles ayant l'ensemble d'entraînement observé et vous ne vous souciez pas de la véritable erreur réelle à estimer.

Cela dit, en règle générale, si vous avez un petit échantillon, utilisez LOOCV, sinon, utilisez k-fold CV avec une valeur plus petite pour k.

Mehdi Rostami
la source