J'ai vu des gens mettre beaucoup d'efforts sur SVM et les noyaux, et ils ont l'air très intéressants en tant que débutants en Machine Learning. Mais si nous nous attendons à ce que nous puissions presque toujours trouver une solution plus performante en termes de réseau de neurones (profonds), quelle est la signification d'essayer d'autres méthodes à cette époque?
Voici ma contrainte sur ce sujet.
- Nous pensons uniquement aux apprentis supervisés; Régression et classification.
- La lisibilité du résultat n'est pas comptée; seule la précision sur le problème d'apprentissage supervisé compte.
- Le coût de calcul n'est pas pris en compte.
- Je ne dis pas que toutes les autres méthodes sont inutiles.
Réponses:
Voici une raison théorique et deux raisons pratiques pour lesquelles une personne pourrait rationnellement préférer une approche non DNN.
Le théorème «aucun repas gratuit» de Wolpert et Macready dit
En d'autres termes, aucun algorithme ne les règle tous; vous devez comparer.
La réfutation évidente ici est que vous ne pas besoin de savoir tous les problèmes possibles et l' apprentissage en profondeur semble bien fonctionner sur plusieurs classes de problèmes que les gens font attention au sujet (par exemple, la reconnaissance d'objets), et il est donc un premier / seul choix raisonnable pour d'autres applications dans ces domaines.
Beaucoup de ces réseaux très profonds nécessitent des tonnes de données, ainsi que des tonnes de calculs, pour s'adapter. Si vous avez (par exemple) 500 exemples, un réseau de vingt couches ne sera jamais bien appris, alors qu’il serait peut-être possible d’adapter un modèle beaucoup plus simple. Il existe un nombre surprenant de problèmes pour lesquels il est impossible de collecter une tonne de données. D'autre part, vous pouvez essayer d'apprendre à résoudre un problème connexe (où davantage de données sont disponibles), par exemple en transférant l'apprentissage pour l'adapter à la tâche spécifique de disponibilité réduite des données.
Les réseaux neuronaux profonds peuvent également avoir des modes de défaillance inhabituels. Il y a des papiers montrant que des changements à peine perceptible de l' homme peut causer un réseau à classer correctement basculer d'une image pour en toute confiance mal classer. (Voir ici et le document d' accompagnement de Szegedy et al.) D'autres approches pourraient être plus robustes à cela: il existe des attaques d'empoisonnement contre les SVM (par exemple, ceci par Biggio, Nelson et Laskov), mais celles-ci se produisent à la train, plutôt que de tester temps. À l'extrême opposé, il existe des limites de performance connues (mais pas grandes) pour l'algorithme du plus proche voisin. Dans certaines situations, vous obtiendrez peut-être une performance globale plus basse et moins de risques de catastrophe.
la source
Quelque part dans cette liste de conférences de Geoff Hinton (tiré de son cours Coursera sur les réseaux de neurones), il y a un segment dans lequel il parle de deux classes de problèmes:
Je me souviens de l’explication selon laquelle, alors que les réseaux de neurones prospèrent dans ce dernier espace, les méthodes statistiques traditionnelles sont souvent mieux adaptées au premier. L’analyse de photographies numériques haute résolution représentant des faits réels dans le monde, un lieu où les réseaux convolutionnels profonds excellent, constitue clairement ce dernier moyen.
Par ailleurs, lorsque le bruit est la caractéristique dominante, par exemple, dans une étude cas-témoins médicale comportant 50 cas et 50 contrôles, les méthodes statistiques traditionnelles peuvent être mieux adaptées au problème.
Si quelqu'un trouve cette vidéo, commentez et je mettrai à jour.
la source
Deux variables corrélées perfectionnées linéairement. Un réseau profond avec 1 million de couches cachées et 2 trillions de neutrons peut-il battre une régression linéaire simple?
ÉDITÉ
D'après mon expérience, le prélèvement d'échantillons coûte plus cher que le calcul. Je veux dire, nous pouvons simplement engager des instances Amazon, organiser une formation en profondeur et revenir quelques jours plus tard. Le coût dans mon domaine est d'environ 200 USD. Le coût est minime. Mes collègues gagnent plus que cela en une journée.
Le prélèvement d'échantillons nécessite généralement une connaissance du domaine et des équipements spécialisés. L'apprentissage en profondeur ne convient que pour les problèmes liés à un ensemble de données bon marché et facile d'accès, tels que le traitement du langage naturel, le traitement des images et tout ce que vous pouvez extraire d'Internet.
la source