Y a-t-il réellement un manque de théorie fondamentale sur l'apprentissage profond?

10

J'ai entendu plusieurs fois que l'un des problèmes fondamentaux / ouverts de l'apprentissage en profondeur est le manque de «théorie générale» à ce sujet, car en fait nous ne savons pas pourquoi l'apprentissage en profondeur fonctionne si bien. Même la page Wikipedia sur l'apprentissage en profondeur contient des commentaires similaires . Ces déclarations sont-elles crédibles et représentatives de l'état du terrain?

heleone
la source

Réponses:

5

Il existe un article intitulé Pourquoi le Deep Learning fonctionne-t-il si bien? .

"Cependant, on ne sait toujours pas pourquoi l'apprentissage en profondeur fonctionne si bien. Contrairement aux algorithmes GOFAI (" bonne ancienne IA ") qui sont fabriqués à la main et entièrement compris analytiquement, de nombreux algorithmes utilisant des réseaux de neurones artificiels ne sont compris qu'à un niveau heuristique, où nous savons empiriquement que certains protocoles de formation utilisant de grands ensembles de données se traduiront par d'excellentes performances. Cela rappelle la situation avec le cerveau humain: nous savons que si nous formons un enfant selon un certain programme, elle apprendra certains compétences - mais nous manquons d'une compréhension profonde de la façon dont son cerveau accomplit cela. "

BlindKungFuMaster
la source
3

C'est très bien le cas. Les modèles d'apprentissage en profondeur, même les plus superficiels tels que les auto-encodeurs empilés et les réseaux de neurones ne sont pas entièrement compris. Il y a des efforts pour comprendre ce qui se passe dans le processus d'optimisation pour une fonction intensive variable aussi complexe. Mais c'est une tâche difficile.

Une façon que les chercheurs utilisent pour découvrir comment fonctionne l'apprentissage en profondeur consiste à utiliser des modèles génératifs. Nous formons d'abord un algorithme d'apprentissage et le handicapons systématiquement en lui demandant de générer des exemples. En observant les exemples générés qui en résultent, nous serons en mesure de déduire ce qui se passe dans l'algorithme à un niveau plus significatif. Cela ressemble beaucoup à l'utilisation d'inhibiteurs en neurosciences pour comprendre à quoi servent les différentes composantes du cerveau. Par exemple, nous savons que le cortex visuel est là où il se trouve, car si nous l'endommagons, vous deviendrez aveugle.

JahKnows
la source
2

Cela dépend probablement de ce que l'on entend par «théorie fondamentale», mais il ne manque pas de théorie quantitative rigoureuse en deep learning, dont certaines sont très générales, malgré les affirmations contraires.

Un bon exemple est le travail autour des méthodes d'apprentissage basées sur l'énergie. Voir par exemple les travaux de Neal & Hinton sur l'inférence variationnelle et l'énergie libre: http://www.cs.toronto.edu/~fritz/absps/emk.pdf

Aussi ce guide sur la minimisation de l'énergie en tant que "cadre théorique commun pour de nombreux modèles d'apprentissage" par Yann LeCun et ses collègues: http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf

Et un cadre général pour les modèles basés sur l'énergie par Scellier et Bengio: https://arxiv.org/pdf/1602.05179.pdf

Il existe également des travaux antérieurs de Hinton et Sejnowski qui montrent analytiquement qu'un réseau inspiré de Hopfield particulier + un algorithme d'apprentissage non supervisé peuvent approximer l'inférence optimale de Bayes: https://papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%201983 -646.pdf

Il existe de nombreux articles reliant l'apprentissage profond aux neurosciences théoriques, tels que les suivants, qui montrent que les effets de la rétropropagation peuvent être obtenus dans des architectures neuronales biologiquement plausibles: https://arxiv.org/pdf/1411.0247.pdf

Bien sûr, il existe de nombreuses questions ouvertes et aucune théorie unifiée et non controversée, mais on pourrait en dire autant de presque tous les domaines.

a.kief
la source
1

Votre citation de wikipedia est discutable car le deep learning est bien développé. En fait, il y en a un [citation needed]sur la page Wikipedia.

Regardez https://github.com/terryum/awesome-deep-learning-papers . Il y a comme 100 articles dans le lien, pensez-vous toujours que le deep learning manque de "théorie générale"?

Oui. L'apprentissage en profondeur est difficile à comprendre car il s'agit d'un modèle très compliqué. Mais cela ne signifie pas que nous n'avons pas de théories.

Peut-être le limepaquet et son papier: "Pourquoi devrais-je vous faire confiance?": Expliquer les prédictions de tout classificateur vous aidera. L'article suggère que nous devrions être en mesure d'approximer localement un modèle compliqué (incluant l'apprentissage en profondeur) avec un modèle beaucoup plus simple.

Bonjour le monde
la source
3
Beaucoup d'applications intéressantes ne signifie pas que ces applications ont été développées à la suite d'un processus rigoureux. "Hmm ... je devrais peut-être essayer 8 couches à la place? Ah ... ça marche! Génial, publions les résultats."
Chris Anderson
2
"L'apprentissage en profondeur est difficile à comprendre parce que c'est un modèle très compliqué. Mais cela ne signifie pas que nous n'avons pas les théories." Certes, mais nous aussi n'avons pas les théories. Il y a très peu de compréhension mathématique des techniques dans la littérature. La plupart des explications pour savoir comment ou pourquoi le deep learning fonctionne sont basées sur l'intuition et l'empirisme, ce qui est bien, mais ne constitue pas une théorie imo.
user27182
0

Une question clé qui reste dans la théorie de l'apprentissage en profondeur est la raison pour laquelle de tels modèles énormes (avec beaucoup plus de paramètres que de points de données) ne correspondent pas aux ensembles de données que nous utilisons.

La théorie classique basée sur des mesures de complexité n'explique pas le comportement des réseaux neuronaux pratiques. Par exemple, les estimations de la dimension VC donnent des bornes de généralisation vides. Pour autant que je sache, les bornes les plus étroites (supérieures et inférieures) de la dimension VC sont données en [1] et sont de l'ordre du nombre de poids dans le réseau. Clairement, cette complexité du pire des cas ne peut pas expliquer comment, par exemple, un gros resnet se généralise sur CIFAR ou MNIST.

Récemment, il y a eu d'autres tentatives pour assurer la généralisation des réseaux de neurones, par exemple par rapport au noyau de tangente neuronale ou par diverses mesures normatives sur les poids. Respectivement, ceux-ci se sont révélés ne pas s'appliquer aux réseaux de taille pratique et avoir d'autres propriétés non satisfaisantes [2].

Il existe des travaux dans le cadre PAC Bayes pour les bornes non vides, par exemple [3]. Ces configurations, cependant, nécessitent une certaine connaissance du réseau formé et sont donc différentes en saveur à l'analyse PAC classique.

Quelques autres aspects:

  • optimisation: comment se fait-il que nous obtenions de «bonnes» solutions à partir de la descente de gradient sur un tel problème non convexe? (Il y a quelques réponses à cela dans la littérature récente)

  • interprétabilité: peut-on expliquer de manière intuitive ce que le réseau «pense»? (Pas ma région)

références (incomplètes):

user27182
la source
0

Je voudrais souligner qu'il n'y a pas de bonne théorie sur les raisons pour lesquelles l'apprentissage automatique fonctionne en général. Les limites de VC supposent toujours un modèle, mais la réalité ne correspond à aucun de ces idéaux mathématiques. En fin de compte, en ce qui concerne l'application, tout se résume à des résultats emperiques. Même quantifier la similitude entre les images à l'aide d'un algorithme cohérent avec la compréhension intuitive des humains est vraiment difficile

Quoi qu'il en soit, NN ne fonctionne pas bien sous sa forme entièrement connectée. Tous les réseaux qui réussissent ont une sorte de régularisation intégrée à l'architecture du réseau (CNN, LSTM, etc.).

FourierFlux
la source