Fonctions qui ne sont pas efficacement calculables mais qui peuvent être apprises

28

Nous savons que (voir, par exemple, les théorèmes 1 et 3 de [1]), en gros, dans des conditions appropriées, des fonctions qui peuvent être efficacement calculées par la machine de Turing en temps polynomial ("efficacement calculable") peuvent être exprimées par des réseaux de neurones polynomiaux avec des tailles raisonnables, et peut donc être appris avec une complexité d'échantillon polynomiale ("apprenable") sous toutes les distributions d'entrée.

Ici "apprenable" ne concerne que la complexité de l'échantillon, quelle que soit la complexité de calcul.

Je m'interroge sur un problème très proche: existe-t-il une fonction qui ne peut pas être calculée efficacement par la machine de Turing en temps polynomial ("pas efficacement calculable"), mais qui peut être apprise avec la complexité d'un échantillon polynomial ("apprenable") sous toutes les distributions d'entrée?

Minkov
la source
4
Je m'oppose à "et donc je peux apprendre". Il existe des fonctions calculables très efficacement (par exemple, les DFA) qui sont TRÈS difficiles à apprendre, même approximativement.
Aryeh
3
Cela manque probablement le but, mais qu'en est-il de la classe des fonctions booléennes biaisées par ? (C'est-à-dire, plus ou moins, une fonction aléatoire avec chaque valeur étant indépendamment avec une probabilité ). Pour tout , l'apprentissage PAC sous la distribution uniforme est trivial (0 échantillon nécessaire, la fonction constante est une bonne hypothèse), mais il semble que tout algorithme d'évaluation devrait passer du temps superpolynomial (car il n'y a pas de structure à la fonction). Je suis très probablement mal compris la question, cependant. 12-2n1 ε>2-2n 0ε>2n0
Clement C.
3
Votre terminologie est un peu déroutante. Lorsque nous disons «apprenant efficacement», nous faisons généralement référence à l'efficacité de calcul. Le simple fait de dire «apprenable» suffit pour impliquer l'efficacité de l'échantillon.
Lev Reyzin
1
@Minkov Pour apprendre PAC, vous devez apprendre en ce qui concerne toute distribution. Sinon, la question n'est pas intéressante (comme le souligne Clément).
Lev Reyzin
2
Pourquoi les gens votent-ils pour fermer? Je pense que c'est une question profonde et subtile!
Aryeh

Réponses:

11

Je vais formaliser une variante de cette question où "efficacité" est remplacée par "calculabilité".

Soit Cn la classe conceptuelle de tous les langages LΣ reconnaissable par les machines de Turing sur n états ou moins. En général, pour xΣ et fCn , le problème de l'évaluation de f(x) est indécidable.

Cependant, supposons que nous ayons accès à un (bon, réalisation) oracle PAC-apprentissage A pour Cn . Autrement dit, pour tout , l'oracle demande un échantillon étiqueté de taille telle sorte que, en supposant qu'un tel échantillon a été tiré iid d'une distribution inconnue , l'oracle génère une hypothèse qui, avec une probabilité d'au moins , a une erreur de généralisation pas plus de . Nous montrerons que cet oracle n'est pas calculable par Turing.ϵ,δ>0m0(n,ϵ,δ)DAfC n 1 - δ D εf^Cn1δDϵ

En fait, nous allons montrer qu'il ya un problème plus simple est indécidable: L' un de déterminer, étant donné un échantillon étiqueté , s'il existe un compatible avec . Supposons (pour obtenir une contradiction) que est une machine de Turing qui décide du problème de cohérence.SfCnSK

Nous faisons les conventions de notation suivantes. Identifiez avec via l'ordre lexicographique habituel. Pour , on dit qu'un TM "S-imprime" s'il accepte toutes les chaînes de correspondant aux indices st et ne le fait pas accepter (éventuellement en ne s'arrêtant) aucune des chaînes correspondant aux indices . Puisque (par hypothèse) est décidable, il s'ensuit que la fonction , définie comme étant la plus petite telle que certains TM dansΣN={0,1,2,}x{0,1}MxΣixi=1xi=0KK~:xkkCk x g : k x k N x { 0 , 1 } S-imprime , est calculable par Turing. Il s'ensuit en outre que la fonction , qui mappe un à la plus petite chaîne (lexicographiquement) telle que , est également calculable.xg:kxkNx{0,1}K~(x)>k

Définissez maintenant le TM comme suit: S-imprime , où est l'encodage de , indique la longueur de chaîne, et le théorème récursion est invoqué pour affirmer l'existence d'un tel . Alors a une certaine longueur d'encodage,, et il S-imprime une chaîne, . Par construction, , et donc ne peut être imprimé en S par aucune MT avec la longueur de descriptionMMg(|M|)MM|x|MM=|M|xM{0,1}K~(xM)>xMou plus court. Et pourtant, il est défini comme la sortie S-print d'une MT avec une longueur de description --- une contradiction.

Aryeh
la source
2
Défi: convertir mon argument "infinitaire" via la calculabilité en argument finitaire via l'efficacité. Je pense que la réponse à la question de @ minkov est négative: vous ne pouvez pas apprendre efficacement une classe de fonction que vous ne pouvez pas évaluer efficacement. Je pense que cela continuera d'être vrai si vous allez au-delà du PAC approprié ou réalisable.
Aryeh