J'ai deux questions liées au concept de "cohérence d'apprentissage" pour ceux qui connaissent la théorie de l'apprentissage statistique à la Vapnik.
Question 1.
Le processus d'apprentissage est appelé cohérent (pour la classe de fonctions et la distribution de probabilité ) si
Ces deux conditions sont indépendantes. Dans. 83 de la "Théorie de l'apprentissage statistique" de Vapnik, il y a un exemple d'un ensemble de classificateurs tels que la deuxième convergence a lieu mais pas la première. Je pensais à un exemple d'un ensemble de classificateurs tels que la première convergence a lieu, mais pas la seconde , et je n'ai rien pu trouver. Quelqu'un peut-il m'aider?
Question 2.
Le processus d'apprentissage est appelé non trivialement cohérent (ou strictement cohérent) (pour la classe de fonctions et la distribution de probabilité ) si pour tout nombre réel tel que set n'est pas vide nous avons:
La page 81 de la "Théorie de l'apprentissage statistique" de Vapnik illustre pourquoi nous voulons considérer la cohérence stricte au lieu de la cohérence définie dans la question 1, c'est-à-dire pourquoi nous voulons introduire et considérer pour tout . Tous les autres textes qui considèrent la cohérence stricte reproduisent essentiellement l'illustration de Vapnik lorsqu'ils veulent expliquer la raison d'être du concept de cohérence stricte. Cependant, je ne suis pas vraiment satisfait de l'illustration de Vapnik pour 2 raisons: d'abord, cela se fait en termes de fonctions de perteet non les classificateurs, et, deuxièmement, la figure 3.2. du livre n'a pas vraiment de sens lorsque nous considérons la fonction de perte commune pour les problèmes de classification, c'est-à-dire la fonction qui est égale à 0 lorsque l'étiquette de classe prédite est égale à l'étiquette de classe vraie et à 1 sinon.
Alors, est-il possible de donner une autre illustration, plus sensible, de la logique derrière le concept de cohérence stricte? Essentiellement, nous avons besoin d'un exemple d'un ensemble de classificateurs tels que ces classificateurs ne sont pas cohérents (en termes de définition de la question 1) et d'un nouveau classificateur qui fonctionne mieux que n'importe lequel des classificateurs de l'ensemble, de sorte que lorsque nous ajoutons ces classificateurs à l'ensemble on se retrouve avec le cas de la "cohérence triviale". Des idées?