Quels sont les principaux théorèmes en apprentissage machine (profond)?

45

Al Rahimi a récemment donné un discours très provocateur dans le NIPS 2017 comparant l'actuel apprentissage automatique à l'alchimie. L’une de ses affirmations est qu’il est nécessaire de revenir aux développements théoriques, de disposer de théorèmes simples prouvant des résultats fondamentaux.

Quand il a dit cela, j'ai commencé à chercher les principaux théorèmes de ML, mais je n'ai pas trouvé de référence permettant de comprendre les résultats principaux. Voici donc ma question: quels sont les principaux théorèmes mathématiques actuels (théorie) en ML / DL et que prouvent-ils? Je suppose que le travail de Vapnik irait quelque part ici. En plus, quels sont les principaux problèmes théoriques non résolus?

statslearner
la source
3
@Tim Cette thead est d'un genre avec stats.stackexchange.com/questions/2379/… ("Quels sont les gros problèmes en statistiques?").
whuber
2
C'est un peu large. Pourriez-vous au moins spécifier un sous-ensemble de Machine Learning? Si nous nous limitons à l’apprentissage en profondeur, ou au moins à l’apprentissage supervisé, on pourrait tenter une réponse. Mais si vous insistez sur quelque chose comme «Mathématiques de l’apprentissage automatique», une réponse prendra du temps à écrire.
DeltaIV
3
À la lumière de l'exemple analogique de @ whuber, je suis enclin à dire que cela devrait rester ouvert en tant que CW, surtout si cela peut être limité à un sous-ensemble spécifique de ML, tel que l' apprentissage supervisé , tel que demandé par DeltaV.
gung - Rétablir Monica
3
@ DeltaIV Notez que "Deep" est dans le titre.
amibe dit de réintégrer Monica le
4
La compréhension de cette question a fait l’objet d’une récente série de conférences animées par David Donoho: voir stats385.github.io .
user795305

Réponses:

43

Comme je l'ai écrit dans les commentaires, cette question me semble trop large, mais je vais tenter d'y répondre. Afin de fixer certaines limites, je commencerai par un peu de calcul qui sous-tend la plupart de ML, puis je me concentrerai sur les résultats récents pour DL.


Le compromis biais-variance est mentionné dans d'innombrables livres, cours, MOOC, blogs, tweets, etc. sur ML, nous ne pouvons donc pas commencer sans le mentionner:

E[(Yf^(X))2|X=x0]=σϵ2+(Ef^(x0)f(x0))2+E[(f^(x0)Ef^(x0))2]=Irreducible error + Bias2 + Variance

La preuve ici: https://web.stanford.edu/~hastie/ElemStatLearn/


Le théorème de Gauss-Markov (oui, la régression linéaire restera une partie importante de Machine Learning, quoi qu'il en soit: résolvez-le): clarifie que, lorsque le modèle linéaire est vrai et que certaines hypothèses sur le terme d'erreur sont valides, le MLS a le minimum erreur quadratique moyenne (qui , dans l'expression ci - dessus est juste ) que parmi les impartiales estimateurs linéaires du modèle linéaire. Ainsi, il pourrait bien y avoir des estimateurs linéaires avec biais (ou des estimateurs non linéaires) qui ont une meilleure erreur quadratique moyenne, et donc une meilleure erreur de prédiction attendue, que la méthode MCO. Et cela ouvre la voie à tout l’arsenal de la régularisation (régression d’arête, LASSO, décroissance du poids, etc.) qui est un bourreau de travail de ML. Une preuve est donnée ici (et dans d'innombrables autres livres): Bias2 + Variancehttps://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467

Le théorème de James-Stein est probablement plus pertinent pour l'explosion des approches de régularisation, comme l'a souligné Carlos Cinelli dans les commentaires, et certainement plus amusant à apprendre . Considérons indépendant, même variance mais pas les mêmes variables aléatoires moyennes gaussiennes:n

Xi|μiN(θi,σ2),i=1,,n

autrement dit, nous avons un vecteur aléatoire gaussien à composantes . Nous avons un exemple de de et nous voulons estimer . L'estimateur MLE (et également UMVUE) est évidemment . Considérons l'estimateur de James-SteinnXN(θ,σ2I)xXθθ^MLE=x

θ^JS=(1(n2)σ2||x||2)x

Clairement, si , réduit l'estimation MLE à zéro. Le théorème de James-Stein indique que pour , domine strictement , c'est-à-dire qu'il a un MSE plus bas . Pheraps étonnamment, même si nous réduisons vers une autre constante , domine toujours . Depuis le(n2)σ2||x||2θ^JS n4θ^JS θ^MLE θc0θ^JSθ^MLEXisont indépendants, il peut sembler étrange qu’en essayant d’estimer la taille de trois personnes indépendantes, y compris un échantillon du nombre de pommes produites en Espagne, on puisse améliorer notre estimation en moyenne . Le point clé ici est "en moyenne": l’erreur quadratique moyenne pour l’estimation simultanée de toutes les composantes du vecteur paramètre est plus petite, mais l’erreur quadratique pour une ou plusieurs composantes peut bien être plus grande, et il est souvent le cas quand vous avez des observations "extrêmes".

Découvrir que MLE, qui était en fait l’estimateur «optimal» pour le cas de l’estimation univariée, était détrôné pour une estimation multivariée, était un choc à l’époque et suscitait un vif intérêt pour le rétrécissement, mieux connu sous le nom de régularisation dans le langage parlé. On peut noter certaines similitudes avec les modèles mixtes et le concept de "force d’emprunt": il existe effectivement un lien, comme discuté ici.

Vue unifiée sur le retrait: quelle relation existe-t-il entre le paradoxe de Stein, la régression de la crête et les effets aléatoires dans des modèles mixtes?

Référence: James, W., Stein, C., Estimation avec perte quadratique . Actes du quatrième symposium de Berkeley sur les statistiques mathématiques et les probabilités, volume 1: Contributions à la théorie de la statistique, 361–379, Presses de l'Université de Californie, Berkeley, Californie, 1961


L’analyse en composantes principales est la clé de l’important sujet de la réduction des dimensions et elle est basée sur la décomposition en valeurs singulières : pour chaque matrice réelle (bien que le théorème se généralise facilement à des matrices complexes), nous pouvons écrireN×pX

X=UDVT

où de taille est orthogonal, est une matrice diagonale de avec des éléments diagonaux non négatifs et de taille est de nouveau orthogonal. Pour des preuves et des algorithmes permettant de le calculer, voir: Golub, G., et Van Loan, C. (1983), Calculs matriciels , John Hopkins University Press, Baltimore.UN×pDp×pUp×p


Le théorème de Mercer est la pierre de fondation pour un grand nombre de méthodes différentes ML: splines plaque mince, les machines à vecteurs, l'estimation krigeage d'un processus aléatoire gaussienne, etc. En fait, est l' un des deux théorèmes derrière la soi-disant astuce du noyau . Soit soit une fonction continue symétrique ou un noyau. si est semi-défini positif, alors il admet une base orthorormale de fonctions propres correspondant à des valeurs propres non négatives:K(x,y):[a,b]×[a,b]RK

K(x,y)=i=1γiϕi(x)ϕi(y)

L'importance de ce théorème pour la théorie du ML est attestée par le nombre de références qu'il obtient dans des textes célèbres, comme par exemple le texte de Rasmussen & Williams sur les processus gaussiens .

Référence: J. Mercer, Fonctions de type positif et négatif et leur lien avec la théorie des équations intégrales. Transactions philosophiques de la Royal Society of London. Série A, contenant des papiers de caractère mathématique ou physique, 209: 415-446, 1909

Il existe également une présentation plus simple dans Konrad Jörgens, Opérateurs intégraux linéaires , Pitman, Boston, 1982.


L'autre théorème qui, avec le théorème de Mercer, établit le fondement théorique de l'astuce du noyau, est le théorème du représentant . Supposons que vous ayez un espace exemple et un noyau semi-défini positif symétrique . Aussi laissez être les RKHS associés à . Enfin, prenons soit un échantillon d'apprentissage. Le théorème dit que parmi toutes les fonctions , qui admettent toutes une représentation infinie en termes de fonctions propres deXK:X×XRHKKS={xi,yi}i=1nfHKKdu fait du théorème de Mercer, celui qui minimise le risque régularisé a toujours une représentation finie dans la base formée par le noyau évalué aux points d'apprentissage, c'est-à-diren

minfHKi=1nL(yi,f(xi))+λ||f||HK2=min{cj}1i=1nL(yi,jcjϕj(xi))+λjcj2γj=i=1nαiK(x,xi)

(le théorème est la dernière égalité). Références: Wahba, G. 1990, Modèles splines pour données d'observation , SIAM, Philadelphie.


Le théorème d'approximation universel a déjà été cité par l'utilisateur Tobias Windisch et est beaucoup moins pertinent pour le Machine Learning que pour l'analyse fonctionnelle, même si cela ne semble pas tout à fait à première vue. Le problème est que le théorème dit seulement qu'un tel réseau existe, mais:

  • cela ne donne aucune corrélation entre la taille de la couche cachée et une mesure de la complexité de la fonction cible , comme par exemple Variation totale. Si et le requis pour une erreur corrigée augmenté de façon exponentielle avec , alors la couche neurale cachée est unique les réseaux seraient inutiles.Nf(x)f(x)=sin(ωx):[0,2π][1,1]Nϵω
  • il ne dit pas si le réseau est apprenable . En d'autres termes, supposons que, étant donné et , nous savons qu'une taille NN approchera avec la tolérance requise dans l'hypercube. Ensuite, en utilisant des ensembles d’entraînement de taille et une procédure d’apprentissage telle que, par exemple, le support arrière, avons-nous la garantie qu’en augmentant nous pouvons récupérer ?F(x)fϵNfMMF
  • enfin, et pire que tout, cela ne dit rien sur l'erreur de prédiction des réseaux de neurones. Ce que nous intéresse vraiment est une estimation de l'erreur de prédiction, au moins en moyenne sur tous les ensembles de formation de taille . Le théorème n'aide pas à cet égard.M

La version de Hornik de ce théorème pose un problème moins important, car il n’est pas valable pour les fonctions d’activation de ReLU. Cependant, Bartlett a depuis fait ses preuves pour une version étendue qui couvre cette lacune.


Jusqu'à présent, je suppose que tous les théorèmes que je considérais étaient bien connus de tous. Alors maintenant, passons aux choses amusantes :-) Voyons quelques théorèmes de Deep Learning :

Hypothèses:

  • le réseau neuronal profond (pour fixe , est la fonction qui associe les entrées du réseau neuronal à ses sorties) et la perte de régularisation sont toutes deux des sommes de positivement fonctions homogènes du même degréΦ(X,W)WΦW(X)Θ(W)
  • la fonction de perte est convexe et une fois différentiable en , dans un ensemble compactL(Y,Φ(X,W)XS

Ensuite:

  • tout minimum local pour tel qu'un sous-réseau de ait un poids nul, est un minimum global ( théorème 1 )L(Y,Φ(X,W))+λΘ(W)Φ(X,W)
  • au-dessus d'une taille de réseau critique, la descente locale convergera toujours vers un minimum global à partir de toute initialisation ( théorème 2 ).

C’est très intéressant: les CNN constitués uniquement de couches convolutives, ReLU, max-pooling, ReLU entièrement connectée et couches linéaires sont des fonctions positivement homogènes , alors que si nous incluons des fonctions d’activation sigmoïde, ce n’est plus vrai, ce qui peut expliquer en partie la supériorité. performances dans certaines applications du pool ReLU + max par rapport à sigmoids. De plus, les théorèmes ne valent que si aussi est positivement homogène en du même degré que . Le fait amusant est que la régularisation ou , bien que positivement homogène, n’a pas le même degré de (le degré deΘWΦl1l2ΦΦ, dans le cas simple de CNN mentionné précédemment, augmente avec le nombre de couches). Au lieu de cela, des méthodes de régularisation plus modernes telles que la normalisation par lots et chemin-SGD correspondent à une fonction de régularisation positivement homogène du même degré que , et le décrochage, bien que ne cadrant pas exactement avec ce cadre, présente de fortes similitudes. Cela explique peut-être pourquoi, pour obtenir une grande précision avec CNN, la régularisation de et de ne suffit pas, mais nous devons utiliser toutes sortes d’astuces diaboliques, telles que l’abandon et la normalisation des lots! Autant que je sache, ceci est la chose la plus proche d'une explication de l'efficacité de la normalisation par lots, qui est par ailleurs très obscure, comme l'a correctement noté Al Rahimi dans son exposé.Φl1l2

D'après le théorème 1 , une autre observation est que certaines personnes pourraient expliquer pourquoi ReLU fonctionne bien, même avec le problème des neurones morts . Selon cette intuition, le fait que, pendant l'entraînement, certains neurones ReLU "meurent" (passez à l'activation zéro puis ne récupérez jamais, car pour le gradient de ReLU est nul) est "une caractéristique, pas un bug ", parce que si nous avons atteint un minimum et qu'un sous-réseau complet est mort, il est prouvé que nous avons atteint un minimum global (sous les hypothèses du théorème 1x<0). Il se peut que je manque quelque chose, mais je pense que cette interprétation est farfelue. Tout d’abord, pendant la formation, les ReLU peuvent "mourir" bien avant que nous ayons atteint un minimum local. Deuxièmement, il faut prouver que lorsque les unités ReLU "meurent", elles le font toujours sur un sous-réseau complet: le seul cas où cela est trivialement vrai est lorsque vous n'avez qu'une couche cachée, auquel cas, bien sûr, chaque neurone est un sous-réseau. Mais en général, je serais très prudent de considérer les "neurones morts" comme une bonne chose.

Les références:

B. Haeffele et R. Vidal, Optimalité globale dans la formation au réseau de neurones , Conférence de l'IEEE sur la vision par ordinateur et la reconnaissance des formes, 2017.

B. Haeffele et R. Vidal. Optimalité globale en factorisation du tenseur, apprentissage en profondeur et au-delà , arXiv, abs / 1506.07540, 2015.


La classification des images nécessite l'apprentissage de représentations invariantes (ou du moins robustes, c'est-à-dire très peu sensibles) à diverses transformations telles que la position, la pose, le point de vue, l'éclairage, l'expression, etc. couramment présentes dans les images naturelles, mais ne contenant pas d'informations. pour la tâche de classification. Même chose pour la reconnaissance vocale: changements de hauteur, de volume, de cadence, d’accent. etc. ne devrait pas entraîner de modification de la classification du mot. Les opérations telles que la convolution, la mise en pool maximale, la mise en pool moyenne, etc., utilisées dans les réseaux CNN, ont exactement cet objectif. Nous nous attendons donc intuitivement à ce qu'elles fonctionnent pour ces applications. Mais avons-nous des théorèmes pour soutenir cette intuition? Il existe un théorème d'invariance de traduction verticale, qui, malgré son nom, n’a rien à voir avec la translation verticale, mais il s’agit essentiellement d’un résultat indiquant que les fonctionnalités apprises dans les couches suivantes deviennent de plus en plus invariantes à mesure que le nombre de couches augmente. Ceci est opposé à un ancien théorème d'invariance de traduction horizontale qui est valable pour les réseaux de diffusion, mais pas pour les CNN. Le théorème est cependant très technique:

  • supposez que (votre image d'entrée) est carré-intégrablef
  • supposons que votre filtre bascule avec l'opérateur de traduction , qui mappe l'image d'entrée sur une copie traduite d'elle-même . Un noyau de convolution appris (filtre) satisfait cette hypothèse.TtfTtf
  • supposons que tous les filtres, les non-linéarités et la mise en commun de votre réseau satisfont à une condition d'admissibilité dite faible , qui est fondamentalement une sorte de conditions de régularité et de limitation faibles. Ces conditions sont satisfaites par le noyau de convolution appris (tant qu'une opération de normalisation est effectuée sur chaque couche), ReLU, sigmoïde, tanh, etc., par non-linéarités et par pooling moyen, mais pas par pooling maximal. Donc, il couvre certaines architectures CNN du monde réel (pas toutes).
  • Supposons enfin que chaque couche a un facteur de regroupement , c'est-à-dire qu'un regroupement est appliqué à chaque couche et élimine efficacement les informations. La condition suffirait également pour une version plus faible du théorème.nSn>1Sn1

Indiquez avec la sortie de la couche du CNN, lorsque l’entrée est . Enfin:Φn(f)nf

limn|||Φn(Tff)Φn(f)|||=0

(les barres triples ne sont pas une erreur), ce qui signifie que chaque couche apprend des caractéristiques qui deviennent de plus en plus invariantes, et dans la limite d’un réseau infiniment profond, nous avons une architecture parfaitement invariante. Puisque les CNN ont un nombre fini de couches, ils ne sont pas parfaitement invariants à la traduction, ce qui est bien connu des praticiens.

Référence: T. Wiatowski et H. Bolcskei, Théorie mathématique des réseaux de neurones convolutionnels profonds pour l'extraction de caractéristiques , arXiv: 1512.06293v3 .


Pour conclure, de nombreuses limites pour l'erreur de généralisation d'un réseau de neurones profonds basé sur sa dimension Vapnik-Chervonkensis ou sur la complexité de Rademacher augmentent avec le nombre de paramètres (certains même de manière exponentielle), ce qui signifie qu'ils ne peuvent pas expliquer pourquoi les DNN fonctionnent si bien en pratique, même lorsque le nombre de paramètres est considérablement plus grand que le nombre d'échantillons d'apprentissage. En fait, la théorie de la CV n'est pas très utile dans l'apprentissage en profondeur.

Inversement, certains résultats de l'année dernière ont lié l'erreur de généralisation d'un classifieur DNN à une quantité indépendante de la profondeur et de la taille du réseau de neurones, mais ne dépendant que de la structure de l'ensemble d'apprentissage et de l'espace de saisie. Sous de jolies hypothèses techniques sur la procédure d'apprentissage, sur l'ensemble de formation et sur l'espace d'entrée, mais avec très peu d'hypothèses sur le DNN (en particulier, les CNN sont entièrement couvertes), puis avec une probabilité d'au moins , nous avons:1δ

GE2log2NyNγm+2log(1/δ)m

où:

  • GE est l'erreur de généralisation, définie comme étant la différence entre la perte attendue (la perte moyenne du classifieur appris sur tous les points de test possibles) et la perte empirique (juste la bonne erreur du jeu d'apprentissage)
  • Ny est le nombre de classes
  • m est la taille de l'ensemble d'entraînement
  • Nγ est le nombre couvrant des données, une quantité liée à la structure de l'espace de saisie et à la séparation minimale entre les points de différentes classes de l'ensemble d'apprentissage. Référence:

J. Sokolic, R. Giryes, G. Sapiro et M. Rodrigues. Erreur de généralisation des classificateurs invariants . Dans AISTATS, 2017

DeltaIV
la source
2
+1 Excellente réponse, la dernière partie est très intrigante. Dans la première partie, le théorème de Mercer ressemble au SVD que vous avez présenté ci-dessus.
amibe dit de réintégrer Monica le
1
@ amoeba, vous avez raison, mais 1) tous les lecteurs ne sont pas aussi féroces en mathématiques que vous, car ils reconnaîtront immédiatement la similitude entre la SVD, l'expansion de Karhunen- Loeve et le théorème de Mercer. Aussi 2) l'autre théorème de Functional Analysis qui "alimente" le tour du noyau, et que j'ai choisi de ne pas inclure, est plus difficile à expliquer que le théorème de Mercer, et j'ai déjà éclaté mon samedi :-) Peut-être que je l'ajouterai demain!
DeltaIV
1
Gauss Markov semble hors de propos, jamais vu quelqu'un se soucier de BLUE dans la communauté ML.
Carlos Cinelli
2
Je conviens qu'en règle générale, la référence d'origine (archaïque) comporte une notation fastidieuse. Cela dit, le papier de Mercer est étonnamment moderne à cet égard et je l’ai ajouté précisément à cause de cela. :) (J'ai dit à l'origine, c'est une très bonne réponse, ce n'est qu'un commentaire après le vote positif)
us11852 dit Réintégrer Monic
2
J'aime le théorème de Mercer ici, ne l'enlève pas. Et pourquoi ne pas avoir les deux liens? Il suffit d’ajouter qch See [here] for a modern exposition, ou inversement, "pour le papier original".
amibe dit de réintégrer Monica le
11

Je pense que le théorème suivant auquel vous faites allusion est considéré comme assez fondamental en apprentissage statistique.

Théorème (Vapnik et Chervonenkis, 1971) Soit une classe d'hypothèses de fonctions d'un domaine à et que la fonction de perte soit la perte . Ensuite, les éléments suivants sont équivalents:HX{0,1}01

  1. H a la propriété de convergence uniforme.
  2. H est PAC apprenable.
  3. H a une dimension VC finie.

Prouvé dans une version quantitative ici:

VN Vapnik et AY Chervonenkis: Sur la convergence uniforme des fréquences relatives des événements vers leurs probabilités. Théorie de la probabilité et ses applications, 16 (2): 264–280, 1971.

La version formulée ci-dessus avec une belle exposition d'autres résultats de la théorie de l'apprentissage est disponible ici :

Shalev-Shwartz, Shai et Shai Ben-David. Comprendre le machine learning: de la théorie aux algorithmes. Presse universitaire de Cambridge, 2014.

Machine epsilon
la source
6

Le truc du noyau est une idée générale utilisée dans de nombreux endroits et tirée de nombreux calculs abstraits sur Hilbert Spaces. Bien trop de théorie pour que je puisse taper (copier ...) dans une réponse ici, mais si vous parcourez cela en vitesse, vous pouvez vous faire une bonne idée de ses fondements rigoureux:

http://www.stats.ox.ac.uk/~sejdinov/teaching/atml14/Theory_2014.pdf

Taimur
la source
4

Mon préféré est l'inégalité de Kraft.

Théorème: Pour toute méthode de description pour l'alphabet fini , les longueurs des mots de code doivent satisfaire l'inégalité .CA={1,,m}LC(1),,LC(2)xA2LC(x)1

Cette inégalité concerne la compression avec les densités de probabilité : étant donné un code, la longueur d’un résultat représenté par ce code est la probabilité logarithmique négative d’un modèle identifié par le code.

En outre, le théorème «no free lunch» pour l'apprentissage automatique a un frère moins connu, le théorème «no hyper compression», qui stipule que toutes les séquences ne peuvent pas être compressées.

Bayerj
la source
4

Je ne l'appellerais pas un théorème principal , mais je pense que le suivant (parfois appelé le théorème d'approximation universelle) est intéressant (et du moins surprenant pour moi) puisqu'il énonce le pouvoir approximatif des réseaux de neurones à rétroaction.

Théorème: Soit une fonction continue non constante et de plus en plus forte. Pour toute continu fonctionner et tout , il existe un INTEGERn et un perceptron multicouche avec une couche cachée ayant neurones qui a que l' activation fonctionner de telle sorte queσf:[0,1]mRϵ>0NFNσ

|F(x)f(x)|ϵ
pour tout .x[0,1]m

Bien sûr, comme il s'agit d'une déclaration d' existence , son impact sur les praticiens est négligeable.

Une preuve peut être trouvée dans Hornik, Capacités d’approximation des réseaux de transmission directe de Muitilayer, Réseaux de neurones 4 (2), 1991,

Tobias Windisch
la source
5
Ce théorème est un peu inintéressant car il n'est pas particulier aux réseaux de neurones. Beaucoup d'autres classes de fonctions partagent des propriétés d'approximation similaires (et parfois plus fortes). Voir par exemple le théorème de Stone-Weierstrass. Un résultat plus intéressant serait la cohérence de la régression du réseau neuronal dans un cadre général. En outre, l'erreur de généralisation moyenne doit être connue en termes de complexité du réseau et de taille de l'échantillon d'apprentissage.
Olivier
1
@ Olivier: Je suis totalement d'accord. Mais même si ce théorème n'est pas exclusivement consacré aux réseaux de neurones, je le trouve toujours énoncé, sa preuve rigoureuse et ses implications intéressantes. Par exemple, il est indiqué que tant que vous utilisez une fonction d'activation ayant les propriétés indiquées ci-dessus, la capacité approximative du réseau est la même (à peu près). Ou bien, il est dit que les réseaux de neurones sont trop frénétiques car vous pouvez déjà en apprendre beaucoup avec une couche cachée.
Tobias Windisch
1
Cela ne dit pas exactement ça. Il dit seulement qu'il existe un réseau de neurones avec une couche cachée pouvant représenter , mais il ne vous dit rien sur la croissance de avec , par exemple, ou avec une mesure de la complexité de (par exemple, sa variation totale ). Cela ne vous dit pas si vous pouvez le poids de votre réseau, à partir des données. Vous constaterez que dans de nombreux cas intéressants, est exponentiellement plus grand pour les réseaux à couche cachée que pour les réseaux multicouches (profonds). C'est pourquoi personne n'utilise une seule couche de réseau cachée pour ImageNet ou pour Kaggle. fNmflearnN
DeltaIV
@ DeltaIV: Il y a une faute de frappe dans la dernière phrase de mon commentaire précédent: le mot "apprendre" devrait en réalité être "approximatif" (sinon, ma déclaration sur "l'overfitting" n'aurait aucun sens). Merci pour l'allusion!
Tobias Windisch
Oui, j'ai interprété cela dans le sens «d'approximation». Ce que je veux dire, c'est que même si vous savez qu'en théorie, vous pouvez approximer n'importe quelle fonction (sur un hypercube délimité) avec une couche cachée NN, dans la pratique, cela est souvent inutile. Autre exemple: les processus gaussiens avec le noyau exponentiel carré ont la propriété d'approximation universelle, mais ils n'ont pas éliminé toutes les autres méthodes de régression, également parce que, pour certains problèmes, le nombre d'échantillons requis pour une approximation précise augmente de façon exponentielle.
DeltaIV