Signification de l'erreur de test conditionnelle par rapport à l'erreur de test attendue dans la validation croisée

9

Mon manuel sur la validation croisée est Les éléments de l'apprentissage statistique par Hastie et al. (2e éd.). Dans les sections 7.10.1 et 7.12, ils parlent de la différence entre l'erreur de test conditionnelle

E(X,Y)[L(Y,f^(X))|τ]
et erreur de test attendue
Eτ[E(X,Y)[L(Y,f^(X))|τ]].
Ici τ est l'ensemble de données de formation, L est la fonction de perte, f^ est le modèle formé sur τ. E est l'attente.

Ils ont expliqué que CV ne fait que bien estimer l'erreur de test attendue.

Ma question est la suivante: y a-t-il une raison pour laquelle nous nous soucierions de l'erreur de test conditionnel?

La seule raison pour laquelle je pouvais penser est que nous voulons répondre à la question «Si Dieu met n ensembles de données sur la table, mais nous permet seulement de prendre 1 maison pour s'adapter à notre modèle, lequel devrions-nous choisir?

qoheleth
la source

Réponses:

5

Je pense que vous pouvez mal comprendre l'erreur de test conditionnel. Cela peut être dû au fait que Hastie, Friedman et Tibshirani (HFT) ne sont pas cohérents dans leur terminologie, appelant parfois cette même notion «erreur de test», «erreur de généralisation», «erreur de prédiction sur un ensemble de tests indépendant», «véritable erreur conditionnelle» ou "erreur de test réelle".

Quel que soit le nom, c'est l'erreur moyenne que le modèle que vous avez monté sur un ensemble d'entraînement particulier τentraînerait une application à des exemples tirés de la distribution des paires (X, Y). Si vous perdez de l'argent chaque fois que le modèle ajusté fait une erreur (ou proportionnel à l'erreur si vous parlez de régression), c'est le montant moyen que vous perdez chaque fois que vous utilisez le classificateur. Sans doute, c'est la chose la plus naturelle à prendre en compte pour un modèle que vous avez adapté à un ensemble d'entraînement particulier.

Une fois que cela s'enfonce, la vraie question est de savoir pourquoi on devrait se soucier de l'erreur de test attendue! (HFT appelle également cette "erreur de prédiction attendue".) Après tout, c'est une moyenne sur toutes sortes d'ensembles d'entraînement que vous n'allez généralement jamais utiliser. (Soit dit en passant, HFT vise une moyenne sur des ensembles d'entraînement d'une taille particulière pour définir l'erreur de test attendue, mais ils ne le disent jamais explicitement.)

La raison en est que l'erreur de test attendue est une caractéristique plus fondamentale d'un algorithme d'apprentissage, car elle fait la moyenne des aléas de savoir si vous avez eu de la chance ou non avec votre ensemble d'entraînement particulier.

Comme vous le mentionnez, HFT montre que le CV estime l'erreur de test attendue mieux qu'il ne l'estime l'erreur de test conditionnelle. C'est une chance si vous comparez des algorithmes d'apprentissage automatique, mais malheureux si vous voulez savoir dans quelle mesure le modèle particulier que vous adaptez à un ensemble d'entraînement particulier fonctionnera.

DavidDLewis
la source
+1. Comprenez-vous pourquoi le CV, en particulier le CV à sortie unique (LOOCV), estime l'erreur de test attendue et non le conditionnel (surτ) erreur de test? Hastie et al. prétendez simplement que c'est le cas dans la section 7.12 sur la base d'une simulation qu'ils ont faite (ce qui n'est pas très clairement présenté), mais n'offre aucune explication pour expliquer pourquoi cela devrait être le cas. Je suis confus par cette section. LOOCV me semble être le moyen le plus direct possible d'estimer l' erreur conditionnelle .
amibe
1
Intuitivement, il est logique pour moi que le CV ne soit pas si bon pour une erreur de test conditionnelle car toute la procédure est basée sur la modification de vos données d'entraînement. (Pour la meilleure estimation de l'erreur de test conditionnelle, vous avez besoin d'un ensemble de test distinct.) Mais il est juste de se demander pourquoi les minuscules modifications apportées à l'ensemble de formation impliqué dans LOOCV en particulier suffisent pour cela.
Kodiologist
@amoeba vous avez dit quelque chose qui a retenu mon attention. LOOCV semble être un moyen plus direct d'estimer l'erreur conditionnelle par rapport à un CV 10 fois supérieur. Mais en effet, la page 255 du livre HTF, de l'exercice de simulation, montre que le CV 10 fois est une meilleure façon d'estimer l'erreur conditionnelle. Je pense que cela m'inquiète toujours aussi
Chamberlain Foncha
0

Je pense au même passage et je me demande aussi quand je serais jamais intéressé par l'erreur de test conditionnel. De plus, pour autant que je sache, ils devraient être les mêmes de manière asymptotique: pour les très grands ensembles de formation et de test, la répartition précise de l'ensemble de formation / test ne devrait plus entraîner des estimations d'erreur de test conditionnelles différentes. Comme vous pouvez le voir dans Hastie et al. réserver leurs exemples sur les différences conditionnelles - attendues sont toujours basées sur un nombre relativement petit d'observations, ce qui, si je comprends bien, est la raison pour laquelle les erreurs de test conditionnelles et attendues semblent différentes dans les graphiques.

Le livre mentionne que l'erreur de test attendue fait la moyenne du caractère aléatoire dans l'ensemble d'apprentissage, contrairement à l'erreur de test (conditionnelle). Maintenant, quand voudrais-je prendre en compte l'incertitude associée à la partition d'entraînement / de test que je prends en compte? Ma réponse serait que je ne suis généralement jamais intéressé à accepter ce type d'incertitude car ce n'est pas ce qui m'intéresse lorsque je fais une évaluation de modèle: En évaluant la qualité prédictive d'un modèle, je veux savoir comment il ferait dans disons la prévision de la météo demain. La météo de demain est liée à mes données globales à peu près comme mes données de test sont liées à mes données d'entraînement - je calcule donc une erreur de test conditionnelle pour évaluer mon modèle. cependant, la météo de demain est liée à mes données globales, pas comme un ensemble de tests spécifique est lié à l'ensemble d'entraînement spécifique correspondant, mais comment l'ensemble de tests moyen est lié à l'ensemble d'entraînement moyen. J'obtiens donc la prochaine partition de formation / ensemble de tests et j'obtiens une autre erreur de test conditionnel. Je le fais plusieurs fois (comme par exemple dans la validation croisée K-fold) - la variation des erreurs de test conditionnelles individuelles est moyenne - et je reste avec l'erreur de test attendue; ce qui, encore une fois, est tout ce que je peux penser de vouloir obtenir. dans la validation croisée pliée en K) - la variation des erreurs de test conditionnelles individuelles est moyenne - et je me retrouve avec l'erreur de test attendue; ce qui, encore une fois, est tout ce que je peux penser de vouloir obtenir. dans la validation croisée pliée en K) - la variation des erreurs de test conditionnelles individuelles est moyenne - et je me retrouve avec l'erreur de test attendue; ce qui, encore une fois, est tout ce que je peux penser de vouloir obtenir.

Autrement dit, dans les graphiques d'erreur de test / erreur de test attendue dans Hastie et al., Nous avons une idée de l'efficacité de l'estimateur du modèle: si les erreurs de test conditionnelles sont largement dispersées autour de l'erreur de test attendue, ceci est une indication de l'estimateur étant inefficace, alors qu'une variation moindre des erreurs de test conditionnelles indiquerait un estimateur plus efficace, compte tenu de la quantité d'observations.

Bottomline: Je peux me tromper ici, et je serais heureux d'être corrigé à ce sujet, mais comme je le vois pour le moment, le concept de l'erreur de test conditionnelle est une tentative douteuse d'évaluer la validité d'un modèle externe en s'autorisant une seule formation / test de partitionnement. Pour les échantillons de grande taille, ce tir unique devrait être équivalent à des erreurs de test conditoinal moyennes sur de nombreux coups de formation / partitionnement de test, c'est-à-dire l'erreur de test attendue. Pour les petits échantillons où une différence se produit, la mesure réelle d'intérêt me semble être l'attente, et non l'erreur de test conditionnelle.

user52821
la source