Existe-t-il un problème d'apprentissage supervisé empêchant les réseaux de neurones (profonds) de surpasser les autres méthodes?

J'ai vu des gens mettre beaucoup d'efforts sur SVM et les noyaux, et ils ont l'air très intéressants en tant que débutants en Machine Learning. Mais si nous nous attendons à ce que nous puissions presque toujours trouver une solution plus performante en termes de réseau de neurones (profonds), quelle est la signification d'essayer d'autres méthodes à cette époque?

Voici ma contrainte sur ce sujet.

Nous pensons uniquement aux apprentis supervisés; Régression et classification.
La lisibilité du résultat n'est pas comptée; seule la précision sur le problème d'apprentissage supervisé compte.
Le coût de calcul n'est pas pris en compte.
Je ne dis pas que toutes les autres méthodes sont inutiles.

machine-learning svm kernel-trick supervised-learning Robin
la source

Des contraintes sur la quantité de données de formation disponibles?

Jake Westfall

Je ne l'ai pas encore fait, mais je m'attends à ce que vous ayez beaucoup de mal à entraîner un réseau de neurones à effectuer, par exemple, une décomposition en valeurs singulières sur une matrice de taille non triviale (par exemple, rang> 10).

Mehrdad

Google Translate utilise à présent des réseaux de neurones et produit désormais des échecs plus curieux pour un nom de ville brésilienne où l'utilisation du dictionnaire dictionnaire par mot aurait été bien meilleure

Henry, le

Je n'ai jamais entendu parler d'apprentissage en profondeur pour l'utilisation de l'achèvement de la matrice (bien que l'utilisation de l'achèvement de la matrice avant l'apprentissage en profondeur soit une pratique courante). Vous pourriez soutenir que cela pourrait être une question de coûts de calcul, mais il convient également de noter que je ne sais pas si tous les ordinateurs du monde pourraient compléter la matrice d'apprentissage en profondeur avec, par exemple, le problème de Netflix.

Cliff AB

@ CliffAB: (la langue à mi-joue ...), il est probablement intéressant de noter qu'ils ne le pourront peut-être pas, mais je ne suis pas sûr que cela vaut la peine de noter que vous ne savez pas s'ils le peuvent;)

Mehrdad,

Réponses:

Voici une raison théorique et deux raisons pratiques pour lesquelles une personne pourrait rationnellement préférer une approche non DNN.

Le théorème «aucun repas gratuit» de Wolpert et Macready dit

Nous avons surnommé les théorèmes de la NFL associés aux résultats, car ils démontrent que si un algorithme fonctionne bien sur une certaine classe de problèmes, il en va nécessairement de même pour les performances dégradées sur l'ensemble des problèmes restants.

En d'autres termes, aucun algorithme ne les règle tous; vous devez comparer.

La réfutation évidente ici est que vous ne pas besoin de savoir tous les problèmes possibles et l' apprentissage en profondeur semble bien fonctionner sur plusieurs classes de problèmes que les gens font attention au sujet (par exemple, la reconnaissance d'objets), et il est donc un premier / seul choix raisonnable pour d'autres applications dans ces domaines.
Beaucoup de ces réseaux très profonds nécessitent des tonnes de données, ainsi que des tonnes de calculs, pour s'adapter. Si vous avez (par exemple) 500 exemples, un réseau de vingt couches ne sera jamais bien appris, alors qu’il serait peut-être possible d’adapter un modèle beaucoup plus simple. Il existe un nombre surprenant de problèmes pour lesquels il est impossible de collecter une tonne de données. D'autre part, vous pouvez essayer d'apprendre à résoudre un problème connexe (où davantage de données sont disponibles), par exemple en transférant l'apprentissage pour l'adapter à la tâche spécifique de disponibilité réduite des données.
Les réseaux neuronaux profonds peuvent également avoir des modes de défaillance inhabituels. Il y a des papiers montrant que des changements à peine perceptible de l' homme peut causer un réseau à classer correctement basculer d'une image pour en toute confiance mal classer. (Voir ici et le document d' accompagnement de Szegedy et al.) D'autres approches pourraient être plus robustes à cela: il existe des attaques d'empoisonnement contre les SVM (par exemple, ceci par Biggio, Nelson et Laskov), mais celles-ci se produisent à la train, plutôt que de tester temps. À l'extrême opposé, il existe des limites de performance connues (mais pas grandes) pour l'algorithme du plus proche voisin. Dans certaines situations, vous obtiendrez peut-être une performance globale plus basse et moins de risques de catastrophe.

Matt Krause
la source

J'ai accepté tout ce que tu dis. Mais le problème concerne les "problèmes de calcul ignorés". Cela signifie que l'OP suppose que vous disposeriez d'un nombre infini d'échantillons et de ressources informatiques.

SmallChess

Calcul infini! = Échantillons infinis. Par exemple, j'ai accès à un cluster incroyablement vaste pour le traitement des données. Cependant, les expériences de laboratoire que nous réalisons pour acquérir certaines de ces données sont difficiles, lentes et prennent beaucoup de temps (de l'ordre de quelques heures à quelques jours pour un seul point de données) et tous les calculs effectués dans le monde ne serviront à rien. .

Matt Krause

Les SVM avec un extracteur de caractéristiques donné sont probablement tout aussi vulnérables aux entrées contradictoires que les CNN - il est simplement plus difficile de les trouver, car nous ne disposons pas de gradients facilement disponibles des couches d'extraction de caractéristiques.

Dougal

Un exemple récent et intéressant du problème rencontré par @MattKrause dans la vie réelle et une tentative pour le contourner en utilisant l'apprentissage par transfert est présenté dans Apprentissage

robotique

@Dougal, je me demande également s'il est important que les extracteurs de fonctionnalités DNN soient appris, alors que les extracteurs de SVM sont (généralement) fabriqués à la main et correspondent à des fonctionnalités que les humains remarquent. Une partie de ce qui rend l’exemple du panda si insidieux est la différence imperceptible entre l’exemple contradictoire et l’exemple normal.

Matt Krause

Quelque part dans cette liste de conférences de Geoff Hinton (tiré de son cours Coursera sur les réseaux de neurones), il y a un segment dans lequel il parle de deux classes de problèmes:

Problèmes où le bruit est la caractéristique principale,
Problèmes où le signal est l'élément clé.

Je me souviens de l’explication selon laquelle, alors que les réseaux de neurones prospèrent dans ce dernier espace, les méthodes statistiques traditionnelles sont souvent mieux adaptées au premier. L’analyse de photographies numériques haute résolution représentant des faits réels dans le monde, un lieu où les réseaux convolutionnels profonds excellent, constitue clairement ce dernier moyen.

Par ailleurs, lorsque le bruit est la caractéristique dominante, par exemple, dans une étude cas-témoins médicale comportant 50 cas et 50 contrôles, les méthodes statistiques traditionnelles peuvent être mieux adaptées au problème.

Si quelqu'un trouve cette vidéo, commentez et je mettrai à jour.

Ben Ogorek
la source

Excellente réponse. C'est exactement pourquoi nous nous tournons vers l'apprentissage en profondeur pour des choses que nous pouvons déjà faire (comme reconnaître des images et écrire du texte), mais que nous pouvons nous tourner vers d'autres modèles pour des choses qui peuvent être intuitivement difficiles.

Mustafa S Eisa

Personnellement, je prends cette réponse dans mon plus grand intérêt. Merci beaucoup pour la réponse.

Robin

Deux variables corrélées perfectionnées linéairement. Un réseau profond avec 1 million de couches cachées et 2 trillions de neutrons peut-il battre une régression linéaire simple?

ÉDITÉ

D'après mon expérience, le prélèvement d'échantillons coûte plus cher que le calcul. Je veux dire, nous pouvons simplement engager des instances Amazon, organiser une formation en profondeur et revenir quelques jours plus tard. Le coût dans mon domaine est d'environ 200 USD. Le coût est minime. Mes collègues gagnent plus que cela en une journée.

Le prélèvement d'échantillons nécessite généralement une connaissance du domaine et des équipements spécialisés. L'apprentissage en profondeur ne convient que pour les problèmes liés à un ensemble de données bon marché et facile d'accès, tels que le traitement du langage naturel, le traitement des images et tout ce que vous pouvez extraire d'Internet.

Petitchess
la source

Bien entendu, toute méthode d’EML surpassera l’apprentissage en profondeur si le modèle de génération répond aux hypothèses de l’EML . Cependant, cela ne se produit jamais avec des données réelles, ou du moins pour des problèmes intéressants (c'est-à-dire ne pas prédire le résultat du tirage au sort). Je pense donc que le PO demande des exemples impliquant de vraies questions d’intérêt avec des données réelles.

Cliff AB

C'est une très bonne réponse. Vous avez offert un point de vue très intuitif et réaliste. Merci beaucoup.

Robin