Dans la théorie de l'apprentissage statistique, n'y a-t-il pas un problème de surapprentissage sur un ensemble de test?

16

Examinons le problème de la classification de l'ensemble de données MNIST.

Selon la page Web MNIST de Yann LeCun , «Ciresan et al.» a obtenu un taux d'erreur de 0,23% sur l'ensemble de test MNIST en utilisant le réseau neuronal convolutionnel.

Notons l'ensemble de formation MNIST comme Dtrain , l'ensemble de test MNIST comme Dtest , l'hypothèse finale qu'ils ont obtenue en utilisant Dtrain comme h1 , et leur taux d'erreur sur l'ensemble de test MNIST en utilisant h1 comme Etest(h1)=0.0023 .

De leur point de vue, étant donné que est un ensemble de tests échantillonné au hasard à partir de l'espace d'entrée indépendamment de h 1 , ils peuvent insister sur le fait que les performances d'erreur hors échantillon de leur hypothèse finale E o u t ( h 1 ) sont limitées comme suit de l'inégalité P de Hoeffding [ | E o u t ( h 1 ) - E t e s t ( h 1 ) | < ϵ | ]Dtesth1Eout(h1) N

P[|Eout(h1)Etest(h1)|<ϵ|]12e2ϵ2Ntest

.Ntest=|Dtest|

En d'autres termes, au moins probabilité , E o u t ( h 1 ) E t e s t ( h 1 ) + 1δ

Eout(h1)Etest(h1)+12Ntestln2δ

Prenons un autre point de vue. Supposons qu'une personne souhaite bien classer l'ensemble de test MNIST. Il a donc d'abord regardé la page Web MNIST de Yann LeCun , et a trouvé les résultats suivants obtenus par d'autres personnes en utilisant 8 modèles différents,

Résultats de la classification MNIST

g

gDtestHtrained={h1,h2,..,h8}

Etest(g)

P[|Eout(g)Ein(g)|<ϵ]12|Htrained|e2ϵ2Ntest

1δ

Eout(g)Etest(g)+12Ntestln2|Htrained|δ

Ce résultat implique qu'il pourrait y avoir sur-ajustement sur l'ensemble de test si nous choisissons le modèle le plus performant parmi plusieurs modèles.

h1Etest(h1)=0.0023h1Dtesth1

Eout(h1)Etest(h1)+12Ntestln2|Htrained|δ

P[Eout(h1)Etest(h1)+12Ntestln2δ]1δ
P[Eout(h1)Etest(h1)+12Ntestln2|Htrained|δ]1δ

Cependant, il est évident que ces deux inégalités sont incompatibles.

Où est-ce que je fais mal? Lequel a raison et lequel a tort?

Si cette dernière est fausse, quelle est la bonne façon d'appliquer la limite VC pour les ensembles d'hypothèses finies dans ce cas?

asqdf
la source

Réponses:

1

g=h1gh1 est un modèle indépendant des données de test.

gHtrained={h1,h2,...,h8}Dtest

gtesttestg(test)=h1g(Dtest)Htrainedh1Htrained

Pour l'autre question:

Si cette dernière est fausse, quelle est la bonne façon d'appliquer la limite VC pour les ensembles d'hypothèses finies dans ce cas?

gh1gh1

Tĩnh Trần
la source