Approximation de la fonction universelle

15

Il est connu via le théorème d'approximation universel qu'un réseau neuronal avec même une seule couche cachée et une fonction d'activation arbitraire peut approximer n'importe quelle fonction continue.

Quels sont les autres modèles qui sont également des approximateurs de fonctions universelles

Opter
la source
J'ai rejoint ce site pour voter pour cette question et certaines des réponses.
Prasad Raghavendra

Réponses:

20

Ceci est traité en détail dans la littérature statistique, sous le thème de la régression. Deux références standard ici sont le livre de Wasserman «toutes les statistiques non paramétriques» et «l'introduction à l'estimation non paramétrique» de Tsybakov. Je vais parler brièvement de certaines choses standard et essayer de donner des indications en dehors des statistiques (c'est un sujet commun et différents domaines ont des cultures différentes: prouver différents types de théorèmes, faire différentes hypothèses).

  1. (Régresseurs du noyau, parfois appelés estimateur Nadaraya-Watson.) Ici, vous écrivez la fonction à tout moment sous la forme d'une combinaison pondérée de valeurs proches. Plus concrètement, puisque c'est dans la littérature statistique, vous supposez généralement que vous avez des exemples tirés d'une certaine distribution, et fixez un noyau K (peut penser à cela comme une gaussienne, mais nul moyen est ce qui importe le plus), et d' écrire f ( x ) : = Σ i f ( x i((Xje,F(Xje)))je=1nKcn(vous êtes plus sensible aux petites distances lorsquenaugmente). La garantie est que, commen, un critère probabiliste de distorsion (attente de sup-norme, probabilité élevée, peu importe) va à zéro. (Peu importe à quoiressembleK--- la façon dont vous choisissezcnimporte plus.)

    F^(X): =jeF(Xje)(K(cn(X-Xje))jK(cn(X-Xj))),
    cnnnKcn
  2. L2F^F. Pour avoir une idée de la diversité des approches ici, un article soigné est «l'approximation uniforme des fonctions avec des bases aléatoires» de Rahimi & Recht. Je devrais peut-être dire que le grand-papa de tout cela est l'expansion de Fourier; il y a beaucoup de bon matériel à ce sujet dans le livre de Mallat sur les ondelettes.

  3. (Méthodes d'arborescence.) Une autre façon consiste à considérer une fonction comme un arbre; à chaque niveau, vous travaillez avec une partition du domaine et renvoyez, par exemple, le point moyen. (Chaque élagage de l'arbre donne également une partition.) A la limite, la finesse de cette partition ne discrétisera plus la fonction, et vous l'avez reconstruite exactement. La meilleure façon de choisir cette partition est un problème difficile. (Vous pouvez faire une recherche sur Google sous "arbre de régression".)

  4. (Méthodes polynomiales; voir aussi splines et autres techniques d'interpolation.) Par le théorème de Taylor, vous savez que vous pouvez vous rapprocher arbitrairement de fonctions bien comportées. Cela peut sembler une approche très basique (c. -à-il suffit d' utiliser le polynôme Lagrange interpoler), mais où les choses deviennent intéressantes est de décider quipointe à interpoler. Cela a été étudié de manière approfondie dans le contexte de l'intégration numérique; vous pouvez trouver des mathématiques étonnantes sous les sujets de "quadrature clenshaw-curtis" et "quadrature gaussienne". Je lance ceci ici parce que les types d'hypothèses et de garanties ici sont radicalement différents de ce qui apparaît ci-dessus. J'aime ce domaine mais ces méthodes souffrent vraiment beaucoup de la malédiction de la dimension, du moins je pense que c'est pourquoi elles sont moins discutées qu'auparavant (si vous faites une intégration numérique avec Mathemica, je pense que cela fait de la quadrature pour les domaines univariés, mais techniques d'échantillonnage pour les domaines multivariés).

Compte tenu de diverses restrictions à votre classe de fonctions, vous pouvez instancier ce qui précède pour obtenir toutes sortes d'autres scénarios largement utilisés. Par exemple, avec des fonctions à valeur booléenne, le seuillage (1.) ressemblera beaucoup à un estimateur du plus proche voisin ou à un SVM avec un noyau local (gaussien). Beaucoup de choses ci-dessus souffrent d'une malédiction de dimension (les bornes présentent une dépendance exponentielle de la dimension). Dans l'apprentissage automatique, vous contournez ce problème soit en contraignant explicitement votre classe à une famille (c.-à-d. "Méthodes paramétriques), soit par une contrainte implicite, généralement quelque chose reliant la qualité des approximants à la complexité de la fonction cible (c.-à-d. Un analogue de la hypothèse d'apprentissage faible en matière de stimulation).

F:RR

F(X)=j=02hj(je=1gj,je(Xje)),
gj,je:RRhj:RRghΘ(2)

(Vous avez seulement posé des questions sur les classes de fonctions, mais j'ai pensé que vous seriez également intéressé par les méthodes .. sinon ... oups)

matus
la source
"A partir de 1957!", Est-ce l'exponentielle de 1957, donc c'est du futur?! :)
nbro