Où et pourquoi le deep learning brille-t-il?

Avec toutes les discussions et le battage médiatique sur l'apprentissage profond ces jours-ci, j'ai lu des trucs élémentaires à ce sujet. Je viens de découvrir que ce n'est qu'une autre méthode d'apprentissage automatique pour apprendre des modèles à partir de données. Mais ma question est: d'où vient et pourquoi cette méthode brille? Pourquoi tout le monde en parle maintenant? C'est-à-dire de quoi s'agit-il?

machine-learning data-mining deep-learning deep-belief-networks Jack Twain
la source

Regardez les conférences qualitatives sur YouTube de Geoff Hinton et Andrew Ng pour un aperçu facile de pourquoi c'est si bon.

Jase

Réponses:

Les principaux avantages supposés:

(1) Ne nécessite pas d'ingénierie manuelle pour les problèmes d'apprentissage non linéaire (gain de temps et évolutif pour l'avenir, car l'ingénierie manuelle est considérée par certains comme un pansement à court terme)

(2) Les fonctionnalités apprises sont parfois meilleures que les meilleures fonctionnalités conçues à la main, et peuvent être si complexes (vision par ordinateur - par exemple, des fonctionnalités de type visage) qu'il faudrait beaucoup trop de temps humain à concevoir.

(3) Peut utiliser des données sans étiquette pour pré-former le réseau. Supposons que nous ayons 1000000 images sans étiquette et 1000 images étiquetées. Nous pouvons maintenant améliorer considérablement un algorithme d'apprentissage supervisé en pré-entraînant sur les images non marquées 1000000 avec un apprentissage en profondeur. De plus, dans certains domaines, nous avons tellement de données non étiquetées mais les données étiquetées sont difficiles à trouver. Un algorithme qui peut utiliser ces données sans étiquette pour améliorer la classification est précieux.

(4) Empiriquement, a brisé de nombreux repères qui ne voyaient que des améliorations progressives jusqu'à l'introduction de méthodes d'apprentissage en profondeur.

(5) Le même algorithme fonctionne dans plusieurs domaines avec des entrées brutes (peut-être avec un prétraitement mineur).

(6) Continue de s'améliorer à mesure que davantage de données sont envoyées au réseau (en supposant des distributions stationnaires, etc.).

Jase
la source

Un autre point important en plus de ce qui précède (je n'ai pas suffisamment de représentants pour simplement l'ajouter en tant que commentaire) est qu'il s'agit d'un modèle génératif (Deep Belief Nets au moins) et donc vous pouvez échantillonner à partir des distributions apprises - cela peut présentent des avantages majeurs dans certaines applications où vous souhaitez générer des données synthétiques correspondant aux classes / clusters appris.

Alex McMurray
la source

Ce n'est pas une propriété générale du deep learning, mais du modèle concret en question. Par exemple, vous pouvez échantillonner à partir d'une gaussienne mais pas à partir d'une régression logistique. Vous pouvez également échantillonner à partir d'une variété de modèles d'apprentissage en profondeur, par exemple les réseaux de croyances profondes comme vous l'avez dit, les machines Boltzmann profondes, les modèles gaussiens latents profonds, etc. Mais vous ne pouvez pas échantillonner à partir de drednets, qui sont les modèles qui ont été utilisés dans tous les applications.

bayerj

... Pourquoi ne pouvez-vous pas échantillonner à partir d'une régression logistique?

Hong Ooi

Étant donné un modèle LR , vous pouvez échantillonner la classe conditionnée sur l'entrée. Mais vous ne pouvez pas échantillonner une entrée. Il s'agit donc davantage d'une distinction discriminante / générative.

p (c | x)

$p(c|x)$

bayerj

Mais il en va de même pour un modèle de régression gaussien, si vous entendez par là une régression linéaire de base.

Hong Ooi du