Pourquoi ML n'est-il devenu viable qu'après la disponibilité des puces de Nvidia?

11

J'ai écouté un discours d'un panel composé de deux scientifiques chinois influents: Wang Gang et Yu Kai et d'autres.

Interrogé sur le plus gros goulot d'étranglement du développement de l'intelligence artificielle dans un avenir proche (3 à 5 ans), Yu Kai, qui a une formation dans l'industrie du matériel, a déclaré que le matériel serait le problème essentiel et que nous devrions payer la plupart des notre attention à cela. Il nous a donné deux exemples:

  1. Au tout début du développement de l'ordinateur, nous comparons nos machines par ses puces;
  2. L'intelligence artificielle qui est très populaire ces années serait presque impossible si elle n'était pas autorisée par le GPU de Nvidia.

Les algorithmes fondamentaux existaient déjà dans les années 1980 et 1990, mais l'intelligence artificielle a traversé 3 hivers AI et n'était pas empirique jusqu'à ce que nous puissions former des modèles avec des méga serveurs boostés par GPU.

Ensuite, le Dr Wang a commenté ses opinions selon lesquelles nous devrions également développer des systèmes logiciels, car nous ne pouvons pas construire une voiture automatique même si nous avons combiné tous les GPU et tous les calculs du monde.

Puis, comme d'habitude, mon esprit s'est éloigné et j'ai commencé à penser que si ceux qui pouvaient utiliser des superordinateurs dans les années 1980 et 1990 utilisaient les algorithmes de réseau neuronal alors en place et les formaient avec des tonnes de données scientifiques? Certaines personnes à ce moment-là peuvent évidemment tenter de construire les systèmes d'IA que nous construisons maintenant. Mais pourquoi l'IA est-elle devenue un sujet brûlant et est-elle devenue empirique des décennies plus tard? S'agit-il uniquement de matériel, de logiciels et de données?

Lerner Zhang
la source
3
Cette question présuppose que l'IA n'est qu'un apprentissage automatique, ce qui est manifestement faux. Il existe depuis plus de 60 ans, et seul le domaine très étroit de l'apprentissage profond / réseaux de neurones a été accéléré par le matériel actuellement disponible. L'IA a été un sujet brûlant à plusieurs reprises, repoussé à chaque fois par la surexcitation.
Oliver Mason
@OliverMason Oui. Dans ce contexte, nous avons limité l'IA uniquement à l'apprentissage automatique et à l'apprentissage en profondeur.
Lerner Zhang
OK, j'ai modifié le titre en conséquence.
Oliver Mason

Réponses:

14

Il y a beaucoup de facteurs pour l'essor de l'industrie de l'IA. Ce que beaucoup de gens manquent cependant, c'est que le boom a principalement été dans la partie Machine Learning de l'IA. Cela peut être attribué à diverses raisons simples ainsi qu'à leurs comparaisons antérieures:

  • Mathématiques : Les mathématiques derrière les algorithmes ML sont assez simples et connues depuis longtemps (si cela fonctionnerait ou non n'était pas connu cependant). Auparavant, il n'était pas possible de mettre en œuvre des algorithmes qui nécessitent une grande précision des nombres, à calculer sur une puce, dans un laps de temps acceptable. L'une des principales opérations arithmétiques de division des nombres prend encore beaucoup de cycles dans les processeurs modernes. Les processeurs plus anciens étaient plus lents que les processeurs modernes (plus de 100 fois), ce goulot d'étranglement a rendu impossible la formation de modèles sophistiqués sur des processeurs contemporains.
  • 10
  • Parallélisation : Le concept de parallélisation des opérations matricielles n'est pas nouveau. Ce n'est que lorsque nous avons commencé à voir le Deep Learning comme un ensemble d'opérations matricielles que nous avons réalisé qu'il pouvait être facilement parallélisé sur des GPU massivement parallèles, mais si votre algorithme ML n'est pas intrinsèquement parallèle, peu importe que vous utilisiez le CPU ou le GPU ( par exemple RNN).
  • Données : Probablement la principale cause du boom du ML. Internet a permis de collecter d'énormes quantités de données auprès des utilisateurs et de les mettre à la disposition des parties intéressées. Puisqu'un algorithme ML est juste un approximateur de fonction basé sur des données, les données sont donc la chose la plus importante dans un algorithme ML. Plus les données sont nombreuses, meilleures sont les performances de votre modèle.
  • Coût : Le coût de la formation d'un modèle ML a considérablement baissé. Donc, utiliser un supercalculateur pour former un modèle pourrait être bien, mais en valait-il la peine? Les super ordinateurs contrairement aux PC normaux sont extrêmement gourmands en ressources en termes de refroidissement, d'espace, etc. Un article récenton MIT Technology Review souligne l'empreinte carbone de la formation d'un modèle d'apprentissage en profondeur (sous-branche de ML). C'est un assez bon indicateur de la raison pour laquelle il aurait été impossible de s'entraîner sur des superordinateurs à une époque antérieure (étant donné que les processeurs modernes consomment beaucoup moins d'énergie et offrent des vitesses plus élevées). Bien que je ne sois pas sûr, mais je pense que les superordinateurs antérieurs étaient spécialisés dans le "calcul parallèle + très haute précision" (requis pour la météo, l'astronomie, les applications militaires, etc.) et la "partie de très haute précision" est exagérée dans le scénario Machine Learning.

Un autre aspect important est que tout le monde a aujourd'hui accès à des ordinateurs puissants. Ainsi, n'importe qui peut construire de nouveaux modèles ML, réentraîner des modèles préexistants, modifier des modèles, etc. Cela n'était tout à fait pas possible auparavant,

Tous ces facteurs ont conduit à une énorme augmentation de l'intérêt pour le ML et ont provoqué le boom que nous voyons aujourd'hui. Consultez également cette question sur la façon dont nous allons au-delà des processeurs numériques.

DuttaA
la source
2

Les GPU étaient idéaux pour le boom de l'IA

  • Ils frappent au bon moment

L'IA est étudiée depuis longtemps. Près d'un demi-siècle. Cependant, c'était toute l'exploration du fonctionnement et de l'apparence des algorithmes. Lorsque NV a vu que l'IA était sur le point de se généraliser, ils ont regardé leurs GPU et se sont rendu compte que l'énorme puissance de traitement parallèle, avec une relative facilité de programmation, était idéale pour l'époque à venir. Beaucoup d'autres personnes l'ont également compris.

  • Les GPU sont en quelque sorte des accélérateurs à usage général

GPGPU est un concept d'utilisation du traitement parallèle GPU pour les tâches générales. Vous pouvez accélérer les graphiques ou rendre votre algorithme utliser des milliers de cœurs disponibles sur GPU. Cela fait du GPU une cible impressionnante pour toutes sortes de cas d'utilisation, y compris l'IA. Étant donné qu'ils sont déjà disponibles et ne sont pas trop difficiles à programmer, son choix idéal pour accélérer les algorithmes d'IA.

Aleksandar Kostovic
la source