Au cours des 50 dernières années, l'augmentation / la baisse / l'augmentation de la popularité des réseaux neuronaux a agi comme un «baromètre» pour la recherche sur l'IA.
Il ressort clairement des questions sur ce site que les gens sont intéressés à appliquer le Deep Learning (DL) à une grande variété de problèmes difficiles.
J'ai donc deux questions:
- Praticiens - Quels sont, selon vous, les principaux obstacles à l'application du DL «prêt à l'emploi» à votre problème?
- Chercheurs - Quelles techniques utilisez-vous (ou avez-vous développées) qui pourraient aider à résoudre des problèmes pratiques? Font-ils partie de DL ou proposent-ils une approche alternative?
deep-learning
NietzscheanAI
la source
la source
Réponses:
Pour résumer, le Deep Learning appliqué présente deux problèmes majeurs.
Le premier étant que sur le plan informatique, il est exhaustif. Les processeurs normaux nécessitent beaucoup de temps pour effectuer même le calcul / la formation de base avec Deep Learning. Les GPU sont donc recommandés, même s'ils ne suffisent pas dans de nombreuses situations. Les modèles d'apprentissage profond typiques ne prennent pas en charge le temps théorique pour être dans les polynômes. Cependant, si nous regardons les modèles relativement simples en ML pour les mêmes tâches, nous avons trop souvent des garanties mathématiques que le temps de formation requis pour de tels algorithmes plus simples se trouve dans les polynômes. Pour moi, c'est au moins probablement la plus grande différence.
Il existe cependant des solutions pour contrer ce problème. Une approche principale consiste à optimiser les algorithmes DL pour un certain nombre d'itérations uniquement (au lieu de regarder les solutions globales dans la pratique, il suffit d'optimiser l'algorithme pour une bonne solution locale, tandis que le critère de «bonne» est défini par l'utilisateur).
Un autre problème qui peut être un peu controversé pour les jeunes passionnés d'apprentissage profond est que les algorithmes d'apprentissage profond manquent de compréhension et de raisonnement théoriques. Les réseaux de neurones profonds ont été utilisés avec succès dans de nombreuses situations, notamment la reconnaissance de l'écriture manuscrite, le traitement d'images, les voitures autonomes, le traitement du signal, la PNL et l'analyse biomédicale. Dans certains de ces cas, ils ont même dépassé les humains. Cependant, cela étant dit, ils ne sont en aucun cas, théoriquement aussi solides que la plupart des méthodes statistiques.
Je n'entrerai pas dans les détails, je laisse plutôt cela à vous. Il y a des avantages et des inconvénients pour chaque algorithme / méthodologie et DL ne fait pas exception. C'est très utile comme cela a été prouvé dans de nombreuses situations et chaque jeune Data Scientist doit apprendre au moins les bases de la DL. Cependant, dans le cas de problèmes relativement simples, il est préférable d'utiliser des méthodes statistiques célèbres car elles ont beaucoup de résultats théoriques / garanties pour les soutenir. De plus, du point de vue de l'apprentissage, il est toujours préférable de commencer avec des approches simples et de les maîtriser en premier.
la source
J'ai très peu d'expérience avec ML / DL pour m'appeler l'un ou l'autre praticien, mais voici ma réponse à la 1ère question:
À sa base, DL résout bien la tâche de classification. Tous les problèmes pratiques ne peuvent pas être reformulés en termes de classification. Le domaine de classification doit être connu à l'avance. Bien que la classification puisse être appliquée à tout type de données, il est nécessaire de former le NN avec des échantillons du domaine spécifique où il sera appliqué. Si le domaine est changé à un moment donné, tout en conservant le même modèle (structure NN), il devra être recyclé avec de nouveaux échantillons. De plus, même les meilleurs classificateurs ont des «lacunes» - des exemples contradictoires peuvent être facilement construits à partir d'un échantillon de formation, de sorte que les changements sont imperceptibles pour l'homme, mais sont mal classés par le modèle formé.
la source
Question 2. Je recherche si l'informatique hyper dimensionnelle est une alternative au Deep Learning. Hyper-D utilise des vecteurs de bits très longs (10 000 bits) pour coder les informations. Les vecteurs sont aléatoires et en tant que tels, ils sont approximativement orthogonaux. En groupant et en faisant la moyenne d'une collection de tels vecteurs, un "ensemble" peut être formé et ensuite interrogé pour voir si un vecteur inconnu appartient à l'ensemble. L'ensemble peut être considéré comme un concept ou une image généralisée, etc. La formation est très rapide tout comme la reconnaissance. Ce qu'il faut faire, c'est simuler les domaines dans lesquels le Deep Learning a réussi et comparer Hyper-D avec lui.
la source
D'un point de vue mathématique, l'un des problèmes majeurs des réseaux profonds à plusieurs couches est la disparition ou la dégradation des gradients . Chaque couche cachée supplémentaire apprend beaucoup plus lentement, annulant presque l'avantage de la couche supplémentaire.
Les approches modernes d'apprentissage en profondeur peuvent améliorer ce comportement, mais dans les réseaux neuronaux simples et à l'ancienne, c'est un problème bien connu. Vous pouvez trouver une analyse bien écrite ici pour une étude plus approfondie.
la source