Limites de dimension VC d'apprentissage PAC appropriées

11

Il est bien connu que pour une classe de concept de dimension VC , il suffit d'obtenir exemples étiquetés pour PAC learn . Il n'est pas clair pour moi si l'algorithme d'apprentissage PAC (qui utilise ces nombreux échantillons) est approprié ou inapproprié? Dans les manuels de Kearns et Vazirani ainsi que d'Anthony et Biggs, il semble que l'algorithme d'apprentissage PAC soit incorrect (c'est-à-dire que l'hypothèse de sortie ne réside pas dans ) d O ( dCdCCO(dεlog1ε)CC

  1. Quelqu'un pourrait-il préciser si une limite supérieure similaire s'applique également au paramètre d'apprentissage PAC approprié? Si oui, pourriez-vous me donner une référence où cela est explicitement mentionné et contient également une preuve autonome?

  2. Hanneke a récemment amélioré cette limite en se débarrassant du facteur . Quelqu'un pourrait-il préciser si le est connu pour être amovible pour le paramètre d'apprentissage PAC approprié? Ou est-ce encore une question ouverte?log(1/ε)log(1/ε)

Annonyme
la source
À quel document Hanneke faites-vous référence?
gradstudent
1
@gradstudent arxiv.org/abs/1507.00473
Clement C.

Réponses:

9

Merci à Aryeh d' avoir porté cette question à mon attention.

Comme d'autres l'ont mentionné, la réponse à (1) est Oui , et la méthode simple de minimisation des risques empiriques dans atteint la complexité de l'échantillon ( voir Vapnik et Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler et Warmuth, 1989).CO((d/ε)log(1/ε))

Quant à (2), il est en fait connu qu'il existe des espaces où aucun algorithme d'apprentissage approprié n'atteint mieux que la complexité de l'échantillon, et par conséquent, un apprentissage correct ne peut pas atteindre la complexité optimale de l' échantillon . À ma connaissance, ce fait n'a jamais été publié, mais est enraciné dans un argument connexe de Daniely et Shalev-Shwartz (COLT 2014) (formulé à l'origine pour une question différente, mais liée, dans l'apprentissage multiclasse).C Ω ( ( d / ε ) log ( 1 / ε ) ) O ( d / ε )Ω((d/ε)log(1/ε))O(d/ε)

Considérez le cas simple , et mettez l'espace comme , et est singletons : c'est-à-dire que chaque classificateur dans classe exactement un point de comme et les autres comme . Pour la borne inférieure, prenez la fonction cible comme un singleton aléatoire , où , et , la distribution marginale de , est uniforme surd=1X{1,2,...,1/ε}Cfz(x):=I[x=z],zXCX10fxxUniform(X)PXX{x}1 z 1 C z X{ x * } 1 / 2 f z z x * 1 / 2 Ω ( ( 1 / ε ) log ( 1 / ε ) ) X{ x * } Ω ( ( 1 / ε ) log ( 1 / ε ) ). Maintenant, l'apprenant ne voit jamais d'exemples étiquetés , mais il doit choisir un point pour deviner est étiqueté (surtout, la fonction `` tout zéro '' n'est pas dans , donc tout apprenant doit deviner quelques ), et jusqu'à ce qu'il ait vu chaque point dans il a au moins chance de deviner faux (c'est-à-dire la probabilité postérieure que son ait est au moins ). L'argument du collecteur de coupons implique qu'il faudrait1z1CzX{x}1/2fzzx1/2Ω((1/ε)log(1/ε)) pour voir chaque point dans . Cela prouve donc une limite inférieure de pour tous les apprenants appropriés.X{x}Ω((1/ε)log(1/ε))

Pour le général , nous prenons comme , prenons comme classificateurs pour les ensembles de taille exactement , choisissez la fonction cible au hasard dans , et reprenez comme uniforme sur les seuls points que la fonction cible classe (de sorte que l'apprenant ne voit jamais un point nommé ). Ensuite, une généralisation de l'argument coupon-collecteur implique que nous avons besoin d' échantillons pour voir au moinsd>1X{1,2,...,d/(4ε)}CIAAXdCP01Ω((d/ε)log(1/ε))|X|2dpoints distincts de , et sans voir autant de points distincts, tout apprenant approprié a au moins chance d'obtenir plus de de sa supposition de points erronés dans son hypothèse choisie , ce qui signifie que son taux d'erreur est supérieur à . Donc, dans ce cas, il n'y a aucun apprenant approprié avec une complexité d'échantillon inférieure à , ce qui signifie qu'aucun apprenant approprié n'atteint la complexité optimale de l'échantillon .X1/3d/4AdhAεΩ((d/ε)log(1/ε))O(d/ε)

Notez que le résultat est assez spécifique à l'espace construit. Il existe des espaces où les apprenants appropriés peuvent atteindre la complexité optimale de l'échantillon , et même l'expression exacte complète dans (Hanneke, 2016a). Certaines limites supérieures et inférieures pour les apprenants ERM généraux ont été développées dans (Hanneke, 2016b), quantifiées en termes de propriétés de l'espace , ainsi que des cas plus spécialisés où des apprenants appropriés spécifiques peuvent parfois atteindre l'optimum complexité de l'échantillon.CCO(d/ε)O((d/ε)+(1/ε)log(1/δ))C

Références:

Vapnik et Chervonenkis (1974). Théorie de la reconnaissance des formes. Nauka, Moscou, 1974.

Blumer, Ehrenfeucht, Haussler et Warmuth (1989). L'apprentissage et la dimension Vapnik-Chervonenkis. Journal de l'Association for Computing Machinery, 36 (4): 929–965.

Daniely et Shalev-Shwartz (2014). Apprenants optimaux pour les problèmes multiclasses. Dans les actes de la 27e conférence sur la théorie de l'apprentissage.

Hanneke (2016a). L'échantillon optimal de complexité de l'apprentissage PAC. Journal of Machine Learning Research, vol. 17 (38), p. 1-15.

Hanneke (2016b). Limites d'erreur raffinées pour plusieurs algorithmes d'apprentissage. Journal of Machine Learning Research, vol. 17 (135), p. 1-55.

S. Hanneke
la source
Intéressant ... Existe-t-il une caractérisation combinatoire des classes pour lesquelles un apprentissage PAC approprié est optimal pour l'échantillon? Ou au moins des conditions suffisantes (fermeture sous intersection, union?)C
Clement C.
2
@ClementC. Il n'y a pas de caractérisation complète connue des classes ayant des taux optimaux pouvant être atteints par les apprenants appropriés en général. L'article référencé "Refined error bounds ..." donne une caractérisation combinatoire des classes qui admettent des taux optimaux pour tous les apprenants ERM (Corollaire 14). La quantité pertinente est le "nombre d'étoiles": le plus grand nombre de points de sorte que l'on peut retourner l'étiquette de n'importe quel point sans changer les autres (définition 9). Les classes fermées aux intersections ont un apprenant propre optimal: l'alg de «fermeture» (Théorème 5 dans l'article, et également prouvé par Darnstädt, 2015).
S.Hanneke
Je vous remercie!
Clement C.
6

Vos questions (1) et (2) sont liées. Tout d'abord, parlons d'un bon apprentissage PAC. Il est connu qu'il existe des apprenants PAC appropriés qui n'atteignent aucune erreur d'échantillon et nécessitent néanmoins des exemples . Pour une preuve simple de la dépendance , considérons la classe conceptuelle d'intervalles sous la distribution uniforme. Si nous choisissons le plus petit intervalle cohérent, nous obtenons en effet un échantillon de complexité de . Supposons, cependant, que nous choisissions le plus grand intervalle cohérent, et que le concept cible soit un intervalle ponctuel tel queΩ(dϵlog1ϵ)ϵ[a,b][0,1]O(1/ϵ)[0,0]. Ensuite, un simple argument de collecteur de coupons montre qu'à moins que nous recevions à peu près des exemples , nous serons dupés par l'espacement entre les exemples négatifs (le seul type que nous verrons ) - qui a un comportement caractéristique de [taille de l'échantillon] sous la distribution uniforme. Des bornes inférieures plus générales de ce type sont données dans1ϵlog1ϵ1/

P. Auer, R. Ortner. Un nouveau PAC à destination des classes de concept à intersection fermée. Machine Learning 66 (2-3): 151-163 (2007) http://personal.unileoben.ac.at/rortner/Pubs/PAC-intclosed.pdf

La chose à propos du PAC approprié est que pour des résultats positifs dans le cas abstrait, on ne peut pas spécifier un algorithme au-delà de l'ERM, qui dit "trouver un concept cohérent avec l'échantillon étiqueté". Lorsque vous avez une structure supplémentaire, comme des intervalles, vous pouvez examiner deux algorithmes ERM différents, comme ci-dessus: un segment cohérent minimal vs maximal cohérent. Et ceux-ci ont des complexités d'échantillons différentes!

Le pouvoir d'un PAC inapproprié est que vous pouvez concevoir différents schémas de vote (celui d'Hanneke est un tel résultat) - et cette structure supplémentaire vous permet de prouver des taux améliorés. (L'histoire est plus simple pour les PAC agnostiques, où l'ERM vous donne le meilleur taux de pire cas possible, jusqu'aux constantes.)

Éditer. Il me vient maintenant à l'esprit que la stratégie de prédiction du graphique à 1 inclusion de D. Haussler, N. Littlestone, Md K. Warmuth. Prédire {0,1} -fonctions sur des points tirés aléatoirement. Inf. Comput. 115 (2): 248-292 (1994) pourrait être un candidat naturel pour un apprenant PAC approprié universel .O(d/ϵ)

Aryeh
la source
Merci! Ok, donc si je vous comprends bien, l'exemple de complexité d'un apprentissage PAC incorrect est et pour un apprentissage PAC correct c'est , le borne inférieure pour ce dernier étant atteint pour l'exemple que vous donnez. Est-ce correct? Θ(d/ϵ)Θ(d/ϵlog(1/ϵ))
2018 anonyme
Oui, avec la légère réserve que pour un PAC incorrect, vous devez utiliser un algorithme spécifique (celui d'Hanneke) - pas n'importe quel ancien ERM. N'hésitez pas à accepter la réponse :)
Aryeh
Je suis en retard à la fête, mais la borne inférieure Proper-PAC mentionnée ci-dessus n'est-elle pas une limite inférieure de complexité d'échantillon pour un algorithme d'apprentissage spécifique (ou une classe restreinte de celui-ci) uniquement? Je veux dire, sans une telle restriction, il n'y a théoriquement aucune séparation entre le PAC approprié et incorrect, non? (Et donc pas de séparation sans hypothèses de calcul, comme ou similaire)?)NPRP
Clement C.
1
La définition habituelle de la capacité d'apprentissage PAC demande des algorithmes de temps poly. Ce que je veux dire, c'est que (i) assouplir ce qui est approprié et inapproprié a la même complexité d'échantillon; (ii) avec cette exigence, nous ne pouvons pas prouver une séparation inconditionnelle entre le bon et le mauvais (car cela prouverait essentiellement quelque chose comme NP non égal à RP). (Nous pouvons prouver des limites inférieures sur la complexité de l'échantillon d' algorithmes d'apprentissage spécifiques spécifiques , cependant, ce qui, si je comprends bien, est ce que fait la référence d'Aryeh.)
Clement C.
1
@ClementC. Dans l'un de vos commentaires précédents, vous avez mentionné qu'après avoir exécuté un algorithme PAC incorrect, un apprenant obtient une hypothèse éventuellement incorrecte et l'apprenant peut ensuite trouver l'hypothèse appropriée la plus proche de la classe de concept (sans plus d'échantillons). Mais comment l'apprenant pourrait-il faire cela sans connaître la distribution sous laquelle il reçoit les échantillons? Le plus proche n'est-il pas mesuré selon une distribution inconnue?
2018
5

Pour ajouter à la réponse actuellement acceptée:

  1. Oui. La limite supérieure de la complexité de l'échantillon est également valable pour un apprentissage PAC correct (bien qu'il soit important de noter qu'il peut ne pas conduire à un algorithme d'apprentissage efficace sur le plan des calculs. Ce qui est normal, car à moins que soit connu que certaines classes ne sont pas efficacement apprises correctement par PAC. Cf. par exemple le théorème 1.3 dans le livre de Kearns — Vazirani vous mention). Ceci est en fait montré dans le livre de Kearns-Vazirani (Théorème 3.3), car il existe un chercheur d'hypothèses cohérent avec la classe d'hypothèses . Voir aussi [1].NP=RPLH=C

    O(dεlog1ε)
    NP=RPLH=C
  2. Inconnue. L'algorithme de Hanneke [2] est un algorithme d'apprentissage incorrect. La question de savoir si ce facteur supplémentaire dans la complexité de l'échantillon peut être supprimé pour un apprentissage PAC approprié (informations théoriquement, c'est-à-dire en mettant de côté toute exigence d'efficacité de calcul) reste une question ouverte. Cf. les questions ouvertes à la fin de [3]:log(1/ε)

    Classiquement, il reste une question ouverte de savoir si le facteur dans la limite supérieure de [1] pour -un apprentissage PAC approprié est nécessaire.( ε , δ )log(1/ε)(ε,δ)

    (La note de bas de page 1 du même document est également pertinente)


[1] A. Blumer, A. Ehrenfeucht, D. Haussler et MK Warmuth. L'apprentissage et la dimension Vapnik-Chervonenkis. Journal de l'ACM, 36 (4): 929–965, 1989.

[2] S. Hanneke. L'échantillon optimal de complexité de l'apprentissage PAC. J. Mach. Apprendre. Res. 17, 1, 1319-1333, 2016.

[3] S. Arunachalam et R. de Wolf. Complexité d'échantillonnage quantique optimale des algorithmes d'apprentissage. Dans les actes de la 32e Computational Complexity Conference (CCC), 2017.

Clement C.
la source
Est-il conjecturé que le graphique à 1 inclusion de Haussler et al. est un apprenant PAC optimal?
Aryeh
@Aryeh, je ne suis pas sûr. D'après ce que j'ai pu trouver, Warmuth l'a supposé en 2004. Je n'en sais pas plus.
Clement C.