Cela dépend probablement de ce que l'on entend par «théorie fondamentale», mais il ne manque pas de théorie quantitative rigoureuse en deep learning, dont certaines sont très générales, malgré les affirmations contraires.
Un bon exemple est le travail autour des méthodes d'apprentissage basées sur l'énergie. Voir par exemple les travaux de Neal & Hinton sur l'inférence variationnelle et l'énergie libre: http://www.cs.toronto.edu/~fritz/absps/emk.pdf
Aussi ce guide sur la minimisation de l'énergie en tant que "cadre théorique commun pour de nombreux modèles d'apprentissage" par Yann LeCun et ses collègues: http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf
Et un cadre général pour les modèles basés sur l'énergie par Scellier et Bengio:
https://arxiv.org/pdf/1602.05179.pdf
Il existe également des travaux antérieurs de Hinton et Sejnowski qui montrent analytiquement qu'un réseau inspiré de Hopfield particulier + un algorithme d'apprentissage non supervisé peuvent approximer l'inférence optimale de Bayes: https://papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%201983 -646.pdf
Il existe de nombreux articles reliant l'apprentissage profond aux neurosciences théoriques, tels que les suivants, qui montrent que les effets de la rétropropagation peuvent être obtenus dans des architectures neuronales biologiquement plausibles:
https://arxiv.org/pdf/1411.0247.pdf
Bien sûr, il existe de nombreuses questions ouvertes et aucune théorie unifiée et non controversée, mais on pourrait en dire autant de presque tous les domaines.
Une question clé qui reste dans la théorie de l'apprentissage en profondeur est la raison pour laquelle de tels modèles énormes (avec beaucoup plus de paramètres que de points de données) ne correspondent pas aux ensembles de données que nous utilisons.
La théorie classique basée sur des mesures de complexité n'explique pas le comportement des réseaux neuronaux pratiques. Par exemple, les estimations de la dimension VC donnent des bornes de généralisation vides. Pour autant que je sache, les bornes les plus étroites (supérieures et inférieures) de la dimension VC sont données en [1] et sont de l'ordre du nombre de poids dans le réseau. Clairement, cette complexité du pire des cas ne peut pas expliquer comment, par exemple, un gros resnet se généralise sur CIFAR ou MNIST.
Récemment, il y a eu d'autres tentatives pour assurer la généralisation des réseaux de neurones, par exemple par rapport au noyau de tangente neuronale ou par diverses mesures normatives sur les poids. Respectivement, ceux-ci se sont révélés ne pas s'appliquer aux réseaux de taille pratique et avoir d'autres propriétés non satisfaisantes [2].
Il existe des travaux dans le cadre PAC Bayes pour les bornes non vides, par exemple [3]. Ces configurations, cependant, nécessitent une certaine connaissance du réseau formé et sont donc différentes en saveur à l'analyse PAC classique.
Quelques autres aspects:
optimisation: comment se fait-il que nous obtenions de «bonnes» solutions à partir de la descente de gradient sur un tel problème non convexe? (Il y a quelques réponses à cela dans la littérature récente)
interprétabilité: peut-on expliquer de manière intuitive ce que le réseau «pense»? (Pas ma région)
références (incomplètes):
la source
Je voudrais souligner qu'il n'y a pas de bonne théorie sur les raisons pour lesquelles l'apprentissage automatique fonctionne en général. Les limites de VC supposent toujours un modèle, mais la réalité ne correspond à aucun de ces idéaux mathématiques. En fin de compte, en ce qui concerne l'application, tout se résume à des résultats emperiques. Même quantifier la similitude entre les images à l'aide d'un algorithme cohérent avec la compréhension intuitive des humains est vraiment difficile
Quoi qu'il en soit, NN ne fonctionne pas bien sous sa forme entièrement connectée. Tous les réseaux qui réussissent ont une sorte de régularisation intégrée à l'architecture du réseau (CNN, LSTM, etc.).
la source