Examinons le problème de la classification de l'ensemble de données MNIST.
Selon la page Web MNIST de Yann LeCun , «Ciresan et al.» a obtenu un taux d'erreur de 0,23% sur l'ensemble de test MNIST en utilisant le réseau neuronal convolutionnel.
Notons l'ensemble de formation MNIST comme , l'ensemble de test MNIST comme , l'hypothèse finale qu'ils ont obtenue en utilisant comme , et leur taux d'erreur sur l'ensemble de test MNIST en utilisant comme .
De leur point de vue, étant donné que est un ensemble de tests échantillonné au hasard à partir de l'espace d'entrée indépendamment de h 1 , ils peuvent insister sur le fait que les performances d'erreur hors échantillon de leur hypothèse finale E o u t ( h 1 ) sont limitées comme suit de l'inégalité P de Hoeffding [ | E o u t ( h 1 ) - E t e s t ( h 1 ) | < ϵ | ] où N
.
En d'autres termes, au moins probabilité , E o u t ( h 1 ) ≤ E t e s t ( h 1 ) + √
Prenons un autre point de vue. Supposons qu'une personne souhaite bien classer l'ensemble de test MNIST. Il a donc d'abord regardé la page Web MNIST de Yann LeCun , et a trouvé les résultats suivants obtenus par d'autres personnes en utilisant 8 modèles différents,
Ce résultat implique qu'il pourrait y avoir sur-ajustement sur l'ensemble de test si nous choisissons le modèle le plus performant parmi plusieurs modèles.
Cependant, il est évident que ces deux inégalités sont incompatibles.
Où est-ce que je fais mal? Lequel a raison et lequel a tort?
Si cette dernière est fausse, quelle est la bonne façon d'appliquer la limite VC pour les ensembles d'hypothèses finies dans ce cas?