Al Rahimi a récemment donné un discours très provocateur dans le NIPS 2017 comparant l'actuel apprentissage automatique à l'alchimie. L’une de ses affirmations est qu’il est nécessaire de revenir aux développements théoriques, de disposer de théorèmes simples prouvant des résultats fondamentaux.
Quand il a dit cela, j'ai commencé à chercher les principaux théorèmes de ML, mais je n'ai pas trouvé de référence permettant de comprendre les résultats principaux. Voici donc ma question: quels sont les principaux théorèmes mathématiques actuels (théorie) en ML / DL et que prouvent-ils? Je suppose que le travail de Vapnik irait quelque part ici. En plus, quels sont les principaux problèmes théoriques non résolus?
machine-learning
deep-learning
theory
statslearner
la source
la source
Réponses:
Comme je l'ai écrit dans les commentaires, cette question me semble trop large, mais je vais tenter d'y répondre. Afin de fixer certaines limites, je commencerai par un peu de calcul qui sous-tend la plupart de ML, puis je me concentrerai sur les résultats récents pour DL.
Le compromis biais-variance est mentionné dans d'innombrables livres, cours, MOOC, blogs, tweets, etc. sur ML, nous ne pouvons donc pas commencer sans le mentionner:
La preuve ici: https://web.stanford.edu/~hastie/ElemStatLearn/
Le théorème de Gauss-Markov (oui, la régression linéaire restera une partie importante de Machine Learning, quoi qu'il en soit: résolvez-le): clarifie que, lorsque le modèle linéaire est vrai et que certaines hypothèses sur le terme d'erreur sont valides, le MLS a le minimum erreur quadratique moyenne (qui , dans l'expression ci - dessus est juste ) que parmi les impartiales estimateurs linéaires du modèle linéaire. Ainsi, il pourrait bien y avoir des estimateurs linéaires avec biais (ou des estimateurs non linéaires) qui ont une meilleure erreur quadratique moyenne, et donc une meilleure erreur de prédiction attendue, que la méthode MCO. Et cela ouvre la voie à tout l’arsenal de la régularisation (régression d’arête, LASSO, décroissance du poids, etc.) qui est un bourreau de travail de ML. Une preuve est donnée ici (et dans d'innombrables autres livres):Bias2 + Variance https://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467
Le théorème de James-Stein est probablement plus pertinent pour l'explosion des approches de régularisation, comme l'a souligné Carlos Cinelli dans les commentaires, et certainement plus amusant à apprendre . Considérons indépendant, même variance mais pas les mêmes variables aléatoires moyennes gaussiennes:n
autrement dit, nous avons un vecteur aléatoire gaussien à composantes . Nous avons un exemple de de et nous voulons estimer . L'estimateur MLE (et également UMVUE) est évidemment . Considérons l'estimateur de James-Steinn− X∼N(θ,σ2I) x X θ θ^MLE=x
Clairement, si , réduit l'estimation MLE à zéro. Le théorème de James-Stein indique que pour , domine strictement , c'est-à-dire qu'il a un MSE plus bas . Pheraps étonnamment, même si nous réduisons vers une autre constante , domine toujours . Depuis le(n−2)σ2≤||x||2 θ^JS n≥4 θ^JS θ^MLE ∀ θ c≠0 θ^JS θ^MLE Xi sont indépendants, il peut sembler étrange qu’en essayant d’estimer la taille de trois personnes indépendantes, y compris un échantillon du nombre de pommes produites en Espagne, on puisse améliorer notre estimation en moyenne . Le point clé ici est "en moyenne": l’erreur quadratique moyenne pour l’estimation simultanée de toutes les composantes du vecteur paramètre est plus petite, mais l’erreur quadratique pour une ou plusieurs composantes peut bien être plus grande, et il est souvent le cas quand vous avez des observations "extrêmes".
Découvrir que MLE, qui était en fait l’estimateur «optimal» pour le cas de l’estimation univariée, était détrôné pour une estimation multivariée, était un choc à l’époque et suscitait un vif intérêt pour le rétrécissement, mieux connu sous le nom de régularisation dans le langage parlé. On peut noter certaines similitudes avec les modèles mixtes et le concept de "force d’emprunt": il existe effectivement un lien, comme discuté ici.
Vue unifiée sur le retrait: quelle relation existe-t-il entre le paradoxe de Stein, la régression de la crête et les effets aléatoires dans des modèles mixtes?
Référence: James, W., Stein, C., Estimation avec perte quadratique . Actes du quatrième symposium de Berkeley sur les statistiques mathématiques et les probabilités, volume 1: Contributions à la théorie de la statistique, 361–379, Presses de l'Université de Californie, Berkeley, Californie, 1961
L’analyse en composantes principales est la clé de l’important sujet de la réduction des dimensions et elle est basée sur la décomposition en valeurs singulières : pour chaque matrice réelle (bien que le théorème se généralise facilement à des matrices complexes), nous pouvons écrireN×p X
où de taille est orthogonal, est une matrice diagonale de avec des éléments diagonaux non négatifs et de taille est de nouveau orthogonal. Pour des preuves et des algorithmes permettant de le calculer, voir: Golub, G., et Van Loan, C. (1983), Calculs matriciels , John Hopkins University Press, Baltimore.U N×p D p×p U p×p
Le théorème de Mercer est la pierre de fondation pour un grand nombre de méthodes différentes ML: splines plaque mince, les machines à vecteurs, l'estimation krigeage d'un processus aléatoire gaussienne, etc. En fait, est l' un des deux théorèmes derrière la soi-disant astuce du noyau . Soit soit une fonction continue symétrique ou un noyau. si est semi-défini positif, alors il admet une base orthorormale de fonctions propres correspondant à des valeurs propres non négatives:K(x,y):[a,b]×[a,b]→R K
L'importance de ce théorème pour la théorie du ML est attestée par le nombre de références qu'il obtient dans des textes célèbres, comme par exemple le texte de Rasmussen & Williams sur les processus gaussiens .
Référence: J. Mercer, Fonctions de type positif et négatif et leur lien avec la théorie des équations intégrales. Transactions philosophiques de la Royal Society of London. Série A, contenant des papiers de caractère mathématique ou physique, 209: 415-446, 1909
Il existe également une présentation plus simple dans Konrad Jörgens, Opérateurs intégraux linéaires , Pitman, Boston, 1982.
L'autre théorème qui, avec le théorème de Mercer, établit le fondement théorique de l'astuce du noyau, est le théorème du représentant . Supposons que vous ayez un espace exemple et un noyau semi-défini positif symétrique . Aussi laissez être les RKHS associés à . Enfin, prenons soit un échantillon d'apprentissage. Le théorème dit que parmi toutes les fonctions , qui admettent toutes une représentation infinie en termes de fonctions propres deX K:X×X→R HK K S={xi,yi}ni=1 f∈HK K du fait du théorème de Mercer, celui qui minimise le risque régularisé a toujours une représentation finie dans la base formée par le noyau évalué aux points d'apprentissage, c'est-à-diren
(le théorème est la dernière égalité). Références: Wahba, G. 1990, Modèles splines pour données d'observation , SIAM, Philadelphie.
Le théorème d'approximation universel a déjà été cité par l'utilisateur Tobias Windisch et est beaucoup moins pertinent pour le Machine Learning que pour l'analyse fonctionnelle, même si cela ne semble pas tout à fait à première vue. Le problème est que le théorème dit seulement qu'un tel réseau existe, mais:
La version de Hornik de ce théorème pose un problème moins important, car il n’est pas valable pour les fonctions d’activation de ReLU. Cependant, Bartlett a depuis fait ses preuves pour une version étendue qui couvre cette lacune.
Jusqu'à présent, je suppose que tous les théorèmes que je considérais étaient bien connus de tous. Alors maintenant, passons aux choses amusantes :-) Voyons quelques théorèmes de Deep Learning :
Hypothèses:
Ensuite:
C’est très intéressant: les CNN constitués uniquement de couches convolutives, ReLU, max-pooling, ReLU entièrement connectée et couches linéaires sont des fonctions positivement homogènes , alors que si nous incluons des fonctions d’activation sigmoïde, ce n’est plus vrai, ce qui peut expliquer en partie la supériorité. performances dans certaines applications du pool ReLU + max par rapport à sigmoids. De plus, les théorèmes ne valent que si aussi est positivement homogène en du même degré que . Le fait amusant est que la régularisation ou , bien que positivement homogène, n’a pas le même degré de (le degré deΘ W Φ l1 l2 Φ Φ , dans le cas simple de CNN mentionné précédemment, augmente avec le nombre de couches). Au lieu de cela, des méthodes de régularisation plus modernes telles que la normalisation par lots et chemin-SGD correspondent à une fonction de régularisation positivement homogène du même degré que , et le décrochage, bien que ne cadrant pas exactement avec ce cadre, présente de fortes similitudes. Cela explique peut-être pourquoi, pour obtenir une grande précision avec CNN, la régularisation de et de ne suffit pas, mais nous devons utiliser toutes sortes d’astuces diaboliques, telles que l’abandon et la normalisation des lots! Autant que je sache, ceci est la chose la plus proche d'une explication de l'efficacité de la normalisation par lots, qui est par ailleurs très obscure, comme l'a correctement noté Al Rahimi dans son exposé.Φ l1 l2
D'après le théorème 1 , une autre observation est que certaines personnes pourraient expliquer pourquoi ReLU fonctionne bien, même avec le problème des neurones morts . Selon cette intuition, le fait que, pendant l'entraînement, certains neurones ReLU "meurent" (passez à l'activation zéro puis ne récupérez jamais, car pour le gradient de ReLU est nul) est "une caractéristique, pas un bug ", parce que si nous avons atteint un minimum et qu'un sous-réseau complet est mort, il est prouvé que nous avons atteint un minimum global (sous les hypothèses du théorème 1x<0 ). Il se peut que je manque quelque chose, mais je pense que cette interprétation est farfelue. Tout d’abord, pendant la formation, les ReLU peuvent "mourir" bien avant que nous ayons atteint un minimum local. Deuxièmement, il faut prouver que lorsque les unités ReLU "meurent", elles le font toujours sur un sous-réseau complet: le seul cas où cela est trivialement vrai est lorsque vous n'avez qu'une couche cachée, auquel cas, bien sûr, chaque neurone est un sous-réseau. Mais en général, je serais très prudent de considérer les "neurones morts" comme une bonne chose.
Les références:
B. Haeffele et R. Vidal, Optimalité globale dans la formation au réseau de neurones , Conférence de l'IEEE sur la vision par ordinateur et la reconnaissance des formes, 2017.
B. Haeffele et R. Vidal. Optimalité globale en factorisation du tenseur, apprentissage en profondeur et au-delà , arXiv, abs / 1506.07540, 2015.
La classification des images nécessite l'apprentissage de représentations invariantes (ou du moins robustes, c'est-à-dire très peu sensibles) à diverses transformations telles que la position, la pose, le point de vue, l'éclairage, l'expression, etc. couramment présentes dans les images naturelles, mais ne contenant pas d'informations. pour la tâche de classification. Même chose pour la reconnaissance vocale: changements de hauteur, de volume, de cadence, d’accent. etc. ne devrait pas entraîner de modification de la classification du mot. Les opérations telles que la convolution, la mise en pool maximale, la mise en pool moyenne, etc., utilisées dans les réseaux CNN, ont exactement cet objectif. Nous nous attendons donc intuitivement à ce qu'elles fonctionnent pour ces applications. Mais avons-nous des théorèmes pour soutenir cette intuition? Il existe un théorème d'invariance de traduction verticale, qui, malgré son nom, n’a rien à voir avec la translation verticale, mais il s’agit essentiellement d’un résultat indiquant que les fonctionnalités apprises dans les couches suivantes deviennent de plus en plus invariantes à mesure que le nombre de couches augmente. Ceci est opposé à un ancien théorème d'invariance de traduction horizontale qui est valable pour les réseaux de diffusion, mais pas pour les CNN. Le théorème est cependant très technique:
Indiquez avec la sortie de la couche du CNN, lorsque l’entrée est . Enfin:Φn(f) n f
(les barres triples ne sont pas une erreur), ce qui signifie que chaque couche apprend des caractéristiques qui deviennent de plus en plus invariantes, et dans la limite d’un réseau infiniment profond, nous avons une architecture parfaitement invariante. Puisque les CNN ont un nombre fini de couches, ils ne sont pas parfaitement invariants à la traduction, ce qui est bien connu des praticiens.
Référence: T. Wiatowski et H. Bolcskei, Théorie mathématique des réseaux de neurones convolutionnels profonds pour l'extraction de caractéristiques , arXiv: 1512.06293v3 .
Pour conclure, de nombreuses limites pour l'erreur de généralisation d'un réseau de neurones profonds basé sur sa dimension Vapnik-Chervonkensis ou sur la complexité de Rademacher augmentent avec le nombre de paramètres (certains même de manière exponentielle), ce qui signifie qu'ils ne peuvent pas expliquer pourquoi les DNN fonctionnent si bien en pratique, même lorsque le nombre de paramètres est considérablement plus grand que le nombre d'échantillons d'apprentissage. En fait, la théorie de la CV n'est pas très utile dans l'apprentissage en profondeur.
Inversement, certains résultats de l'année dernière ont lié l'erreur de généralisation d'un classifieur DNN à une quantité indépendante de la profondeur et de la taille du réseau de neurones, mais ne dépendant que de la structure de l'ensemble d'apprentissage et de l'espace de saisie. Sous de jolies hypothèses techniques sur la procédure d'apprentissage, sur l'ensemble de formation et sur l'espace d'entrée, mais avec très peu d'hypothèses sur le DNN (en particulier, les CNN sont entièrement couvertes), puis avec une probabilité d'au moins , nous avons:1−δ
où:
J. Sokolic, R. Giryes, G. Sapiro et M. Rodrigues. Erreur de généralisation des classificateurs invariants . Dans AISTATS, 2017
la source
See [here] for a modern exposition
, ou inversement, "pour le papier original".Je pense que le théorème suivant auquel vous faites allusion est considéré comme assez fondamental en apprentissage statistique.
Théorème (Vapnik et Chervonenkis, 1971) Soit une classe d'hypothèses de fonctions d'un domaine à et que la fonction de perte soit la perte . Ensuite, les éléments suivants sont équivalents:H X {0,1} 0−1
Prouvé dans une version quantitative ici:
VN Vapnik et AY Chervonenkis: Sur la convergence uniforme des fréquences relatives des événements vers leurs probabilités. Théorie de la probabilité et ses applications, 16 (2): 264–280, 1971.
La version formulée ci-dessus avec une belle exposition d'autres résultats de la théorie de l'apprentissage est disponible ici :
Shalev-Shwartz, Shai et Shai Ben-David. Comprendre le machine learning: de la théorie aux algorithmes. Presse universitaire de Cambridge, 2014.
la source
Le truc du noyau est une idée générale utilisée dans de nombreux endroits et tirée de nombreux calculs abstraits sur Hilbert Spaces. Bien trop de théorie pour que je puisse taper (copier ...) dans une réponse ici, mais si vous parcourez cela en vitesse, vous pouvez vous faire une bonne idée de ses fondements rigoureux:
http://www.stats.ox.ac.uk/~sejdinov/teaching/atml14/Theory_2014.pdf
la source
Mon préféré est l'inégalité de Kraft.
Cette inégalité concerne la compression avec les densités de probabilité : étant donné un code, la longueur d’un résultat représenté par ce code est la probabilité logarithmique négative d’un modèle identifié par le code.
En outre, le théorème «no free lunch» pour l'apprentissage automatique a un frère moins connu, le théorème «no hyper compression», qui stipule que toutes les séquences ne peuvent pas être compressées.
la source
Je ne l'appellerais pas un théorème principal , mais je pense que le suivant (parfois appelé le théorème d'approximation universelle) est intéressant (et du moins surprenant pour moi) puisqu'il énonce le pouvoir approximatif des réseaux de neurones à rétroaction.
Théorème: Soit une fonction continue non constante et de plus en plus forte. Pour toute continu fonctionner et tout , il existe un INTEGERn et un perceptron multicouche avec une couche cachée ayant neurones qui a que l' activation fonctionner de telle sorte queσ f:[0,1]m→R ϵ>0 N F N σ
Bien sûr, comme il s'agit d'une déclaration d' existence , son impact sur les praticiens est négligeable.
Une preuve peut être trouvée dans Hornik, Capacités d’approximation des réseaux de transmission directe de Muitilayer, Réseaux de neurones 4 (2), 1991,
la source
Un article intéressant sur cette question (spécifiquement l'apprentissage en profondeur plutôt que les théorèmes généraux d'apprentissage automatique) est ici:
https://medium.com/mlreview/modern-theory-of-deep-learning-why-does-it-works-so-well-9ee1f7fb2808
Il donne un résumé accessible des principaux théorèmes émergents sur la capacité de généralisation des réseaux de neurones profonds.
la source