Nous savons que (voir, par exemple, les théorèmes 1 et 3 de [1]), en gros, dans des conditions appropriées, des fonctions qui peuvent être efficacement calculées par la machine de Turing en temps polynomial ("efficacement calculable") peuvent être exprimées par des réseaux de neurones polynomiaux avec des tailles raisonnables, et peut donc être appris avec une complexité d'échantillon polynomiale ("apprenable") sous toutes les distributions d'entrée.
Ici "apprenable" ne concerne que la complexité de l'échantillon, quelle que soit la complexité de calcul.
Je m'interroge sur un problème très proche: existe-t-il une fonction qui ne peut pas être calculée efficacement par la machine de Turing en temps polynomial ("pas efficacement calculable"), mais qui peut être apprise avec la complexité d'un échantillon polynomial ("apprenable") sous toutes les distributions d'entrée?
- [1] Roi Livni, Shai Shalev-Shwartz, Ohad Shamir, " Sur l'efficacité informatique de la formation des réseaux de neurones ", 2014
Réponses:
Je vais formaliser une variante de cette question où "efficacité" est remplacée par "calculabilité".
SoitCn la classe conceptuelle de tous les langages L⊆Σ∗
reconnaissable par les machines de Turing sur n états ou moins. En général, pour x∈Σ∗ et f∈Cn , le problème de l'évaluation de
f(x) est indécidable.
Cependant, supposons que nous ayons accès à un (bon, réalisation) oracle PAC-apprentissageA
pour Cn . Autrement dit, pour tout , l'oracle demande un échantillon étiqueté de taille
telle sorte que, en supposant qu'un tel échantillon a été tiré iid d'une distribution inconnue , l'oracle génère une hypothèse
qui, avec une probabilité d'au moins , a une erreur de généralisation pas plus de . Nous montrerons que cet oracle n'est pas calculable par Turing.ϵ,δ>0 m0(n,ϵ,δ) D A f ∈ C n 1 - δ D εf^∈Cn 1−δ D ϵ
En fait, nous allons montrer qu'il ya un problème plus simple est indécidable: L' un de déterminer, étant donné un échantillon étiqueté , s'il existe un compatible avec . Supposons (pour obtenir une contradiction) que est une machine de Turing qui décide du problème de cohérence.S f∈Cn S K
Nous faisons les conventions de notation suivantes. Identifiez avec via l'ordre lexicographique habituel. Pour , on dit qu'un TM "S-imprime" s'il accepte toutes les chaînes de correspondant aux indices st et ne le fait pas accepter (éventuellement en ne s'arrêtant) aucune des chaînes correspondant aux indices . Puisque (par hypothèse) est décidable, il s'ensuit que la fonction , définie comme étant la plus petite telle que certains TM dansΣ∗ N={0,1,2,…} x∈{0,1}∗ M x Σ∗ i xi=1 xi=0 K K~:x↦k k Ck x g : k ↦ x k ∈ N x ∈ { 0 , 1 } ∗
S-imprime , est calculable par Turing. Il s'ensuit en outre que la fonction
, qui mappe un
à la plus petite chaîne (lexicographiquement)
telle que , est également calculable.x g:k↦x k∈N x∈{0,1}∗ K~(x)>k
Définissez maintenant le TM comme suit: S-imprime , où est l'encodage de , indique la longueur de chaîne, et le théorème récursion est invoqué pour affirmer l'existence d'un tel . Alors a une certaine longueur d'encodage,, et il S-imprime une chaîne, . Par construction, , et donc ne peut être imprimé en S par aucune MT avec la longueur de descriptionM M g(|⟨M⟩|) ⟨M⟩ M |x| M M ℓ=|⟨M⟩| xM∈{0,1}∗ K~(xM)>ℓ xM ℓ ou plus court. Et pourtant, il est défini comme la sortie S-print d'une MT avec une longueur de description --- une contradiction.ℓ
la source