Cohérence du processus d'apprentissage

9

J'ai deux questions liées au concept de "cohérence d'apprentissage" pour ceux qui connaissent la théorie de l'apprentissage statistique à la Vapnik.

Question 1.
Le processus d'apprentissage est appelé cohérent (pour la classe de fonctions et la distribution de probabilité ) siFP

Remp(fl)PinffFR(f),l
et
R(fl)PinffFR(f),l

Ces deux conditions sont indépendantes. Dans. 83 de la "Théorie de l'apprentissage statistique" de Vapnik, il y a un exemple d'un ensemble de classificateurs F tels que la deuxième convergence a lieu mais pas la première. Je pensais à un exemple d'un ensemble de classificateurs tels que la première convergence a lieu, mais pas la seconde , et je n'ai rien pu trouver. Quelqu'un peut-il m'aider?

Question 2.
Le processus d'apprentissage est appelé non trivialement cohérent (ou strictement cohérent) (pour la classe de fonctions F et la distribution de probabilité P ) si pour tout nombre réel cR tel que set Λ(c)={f|R(f)c} n'est pas vide nous avons:

infflΛ(c)Remp(fl)=Remp(fl)PinffΛ(c)R(f),l

La page 81 de la "Théorie de l'apprentissage statistique" de Vapnik illustre pourquoi nous voulons considérer la cohérence stricte au lieu de la cohérence définie dans la question 1, c'est-à-dire pourquoi nous voulons introduire et considérer pour tout . Tous les autres textes qui considèrent la cohérence stricte reproduisent essentiellement l'illustration de Vapnik lorsqu'ils veulent expliquer la raison d'être du concept de cohérence stricte. Cependant, je ne suis pas vraiment satisfait de l'illustration de Vapnik pour 2 raisons: d'abord, cela se fait en termes de fonctions de perteΛ(c)inffΛ(c)cQ(z,α)et non les classificateurs, et, deuxièmement, la figure 3.2. du livre n'a pas vraiment de sens lorsque nous considérons la fonction de perte commune pour les problèmes de classification, c'est-à-dire la fonction qui est égale à 0 lorsque l'étiquette de classe prédite est égale à l'étiquette de classe vraie et à 1 sinon.

Alors, est-il possible de donner une autre illustration, plus sensible, de la logique derrière le concept de cohérence stricte? Essentiellement, nous avons besoin d'un exemple d'un ensemble de classificateurs tels que ces classificateurs ne sont pas cohérents (en termes de définition de la question 1) et d'un nouveau classificateur qui fonctionne mieux que n'importe lequel des classificateurs de l'ensemble, de sorte que lorsque nous ajoutons ces classificateurs à l'ensemble on se retrouve avec le cas de la "cohérence triviale". Des idées?

Leo
la source

Réponses:

1

Pour votre question 1, j'ai un exemple, mais il nécessite la fonction de perte pour prendre la valeur . Je suis sûr que nous pouvons donner un exemple qui ne nécessite qu'une fonction de perte illimitée, mais ce serait un peu plus de travail à construire. Une question ouverte est de savoir s'il existe un exemple avec une fonction de perte bornée.

Considérons le paramètre de classification, où la distribution de probabilité est sur un espace . On notera un exemple par , avec et . Soit l'espace de toutes les fonctions de classification sur . Définissez la fonction de pertePZ=X×{0,1}z=(x,y)xXy{0,1}F=X{0,1}X

Q(z,f)=Q((x,y),f)={0for f(x)=yotherwise,
pour tout . En d'autres termes, que vous vous trompiez ou que vous vous trompiez tous, votre risque est .fF

Supposons maintenant que soit un ensemble infiniment comptable, et que soit n'importe quelle distribution de probabilité pour laquelle pour tous les . En outre, supposons qu'il existe une fonction de classification déterministe, ie il existe pour laquelle pour . Cela implique que .X={x1,x2,}PP({xi})>0i=1,2,cFyi=c(xi)i=1,2,...inffFR(f)=0

Alors pour chaque , , mais (sauf s'il y a un choix extrêmement chanceux de parmi tous les qui ont erreur empirique). Ainsi , mais ne converge pas vers cette valeur.lRemp(fl)=0R(fl)=flfF0Remp(fl)inffFR(f)R(fl)

Pour la question 2, je conviens que son exemple ne semble pas s'appliquer au cas de classement, et je ne vois pas de moyen évident de faire un tel exemple.

DavidR
la source
Merci, @DavidR. C'est un exemple intéressant quand en effet pour tout et , mais lorsque et lorsque . Cela montre que la définition de la cohérence doit inclure "pour toute partie ". Remp(fl)=0lflR(fl)=flcR(fl)=0fl=cfl
Leo