L'impulsion derrière la transition du XXe siècle des circuits analogiques aux circuits numériques a été motivée par le désir d'une plus grande précision et d'un bruit plus faible. Nous développons maintenant un logiciel où les résultats sont approximatifs et où le bruit a une valeur positive.
- Dans les réseaux artificiels, nous utilisons des gradients (jacobiens) ou des modèles du second degré (hessois) pour estimer prochaines étapes d'un algorithme convergent et définir des niveaux acceptables d'imprécision et de doute. 1
- Dans les stratégies de convergence, nous ajoutons délibérément du bruit en injectant des perturbations aléatoires ou pseudo-aléatoires pour améliorer la fiabilité en sautant essentiellement les minima locaux dans la surface d'optimisation pendant la convergence.2
Ce que nous acceptons et introduisons délibérément dans les systèmes d'IA actuels sont les mêmes choses qui ont poussé l'électronique vers les circuits numériques.
Pourquoi ne pas revenir aux circuits analogiques pour les réseaux neuronaux et les implémenter avec des matrices d'amplificateur opérationnel au lieu de matrices d'éléments de traitement de signal numérique?
Les valeurs des paramètres d'apprentissage du réseau artificiel peuvent être conservées à l'aide de condensateurs intégrés chargés via des convertisseurs D-A de sorte que les états appris peuvent bénéficier de la précision et de la commodité numériques, tandis que la propagation vers l'avant bénéficie d'avantages analogiques.
- Plus grande vitesse 3
- Des ordres de grandeur moins de transistors pour représenter les cellules du réseau
- Bruit thermique naturel 4
Un article académique ou une recherche de brevets pour des réseaux artificiels analogiques révèle beaucoup de travail au cours des quarante dernières années, et la tendance de la recherche a été maintenue. Les circuits analogiques de calcul sont bien développés et fournissent une base pour les réseaux de neurones.
L'obsession actuelle du calcul numérique pourrait-elle obscurcir la vision commune des options architecturales de l'IA?
L'analogue hybride est-il l'architecture supérieure des réseaux artificiels?
Notes de bas de page
[1] Le cadre d'apprentissage PAC (probablement approximativement correct) relie l'erreur acceptable et le doute acceptable à la taille d'échantillon requise pour l'apprentissage pour des types de modèles spécifiques. (Notez que représente la précision et représente la confiance dans ce cadre.)
[2] La descente de gradient stochastique est montrée, lorsque des stratégies et des hyper-paramètres appropriés sont utilisés, pour converger plus rapidement pendant l'apprentissage et devient une meilleure pratique dans les applications typiques du monde réel des réseaux artificiels.
[3] Le processeur Intel Core i9-7960X fonctionne à des vitesses turbo de 4,2 GHz alors que la diffusion satellite fixe standard est de 41 GHz.
[4] Le bruit thermique peut être obtenu sur le silicium en amplifiant et en filtrant les fuites d'électrons à travers une diode zener polarisée en inverse à son point d'avalanche. La source des phénomènes quantiques est le bruit thermique de Johnson – Nyquist. Sanguinetti et. Al. dans leur «Génération de nombres aléatoires quantiques sur un téléphone mobile» (2014), «Un détecteur peut être modélisé comme un canal avec perte avec une probabilité de transmission η suivi d'un convertisseur photon-à-électron avec efficacité unitaire ... la distribution mesurée sera être la combinaison de l'incertitude quantique et du bruit technique ", et il y a le travail JTWPA de CalTech. Ces deux éléments peuvent devenir des normes pour produire un bruit quantique véritablement non déterministe dans les circuits intégrés.
Les références
- STDP Learning of Image Patches with Convolutional Spiking Neural Networks , Saunders et. Al. 2018, U Mass et HAS
- Accélération de code à usage général avec calcul analogique à précision limitée , Amant et. al., 2014
- L'informatique analogique et les simulations biologiques sont stimulées par le nouveau compilateur MIT , par Devin Coldewey, 2016
- Retour de l'informatique analogique , par Larry Hardesty, 2016 *
- Pourquoi le calcul analogique? , Document déclassifié de la NSA
- Retour à l'informatique analogique: des chercheurs de Columbia fusionnent l'informatique analogique et numérique sur une seule puce , Columbia U, 2016
- Réseau de barres transversales programmables sur site (FPCA) pour l'informatique reconfigurable , Zidan et. al., IEEE, 2017
- Infrastructure de calcul hybride FPAA / Memristor , Laiho et. al., IEEE, 2015
- Fondements et paradigmes émergents pour l'informatique dans les cellules vivantes , Ma, Perli, Lu, Harvard U, 2016
- Un modèle flexible d'un réseau de transistors programmables sur site CMOS ciblé pour l'évolution du matériel (FPAA), par Zebulum, Stoica, Keymeulen, NASA / JPL, 2000
- Le réseau linéaire personnalisé incorpore jusqu'à 48 amplis opérationnels de précision par puce , Ashok Bindra, 2001, Conception électronique
- Matrices analogiques programmables à grande échelle pour le traitement du signal analogique , Hall et. al., IEEE Transactions on Circuits and Systems, vol. 52, non. 11, 2005
- Matrices analogiques programmables à grande échelle pour le traitement du signal analogique , Hall et. Al. 2005
- Un réseau VLSI de neurones dopants de faible puissance et de synapses bistables avec une plasticité dépendante du timing des pointes dopants pointes, Indiveri G, Chicca E, Douglas RJ, 2006
- https://www.amazon.com/Analog-Computing-Ulmann/dp/3486728970
- https://www.amazon.com/Neural-Networks-Analog-Computation-Theoretical/dp/0817639497
la source
Réponses:
Je pense qu'il y a plusieurs raisons. Tout d'abord: la flexibilité. Avec les processeurs et les GPU modernes, vous pouvez construire à peu près tous les modèles d'IA que vous voulez et dans toutes les tailles et complexité que vous souhaitez. Comment pouvez-vous être sûr que le modèle que vous utilisez actuellement est toujours adapté dans quelques années? Peut-être y aura-t-il une percée majeure dans les NN au cours des prochaines années? Peut-être que certains scientifiques trouvent qu'il existe un moyen bien meilleur de développer une IA qu'avec les NN, les algorithmes génétiques, etc. Les puces normales peuvent tout gérer, et elles peuvent le faire assez bien. Mais si vous voulez l'optimiser et ne vous souciez pas d'argent, vous pouvez développer une architecture spécialisée (cela est déjà fait par différentes entreprises, ce qui donne un coup de pouce majeur à la vitesse sur des tâches spécifiques).
Raison numéro deux: la production de masse. Je veux dire, les entreprises pourraient éventuellement produire des composants AI analogiques hautement intégrés (disons, par exemple, des puces NN). Mais ce serait un investissement plus important. Il est assez difficile de savoir si des unités suffisamment flexibles pour être une alternative matérielle sérieuse à l'IA peuvent être facilement produites dans une production de masse-nm qui peut rivaliser avec les processeurs et les GPU. En particulier, ces derniers sont hautement optimisés pour effectuer des calculs parallèles massifs. Et, si vous regardez le développement d'architectures similaires au GPU (peut faire peu de choses, mais celles-ci très bien) qui sont en outre optimisées pour l'apprentissage maschine, vous pouvez voir que ce serait une rude concurrence pour les unités analogiques.
Tout ce qui précède ne signifie pas qu'il n'y a pas de recherche dans ce domaine. Il existe plusieurs expériences qui tentent de l'archiver, mais elles ne sont pas encore «dangereuses» pour les architectures courantes. Finalement, ils viendront à l'avenir, lorsque nous comprendrons mieux l'IA et l'intelligence en général et que nous essaierons simplement de les modifier, mais je suis plutôt sceptique à ce sujet.
EDIT: En outre, quelque chose qui appartient également à la flexibilité: vous pouvez mieux expérimenter avec les algorithmes d'IA fonctionnant sur du matériel numérique «normal». Par exemple, vous pouvez facilement inspecter un NN à certains emplacements, vous pouvez rapidement modifier les données d'entrée ou en fournir d'autres, vous n'êtes vraiment lié à rien. Et comme nous ne connaissons pas ou ne comprenons toujours pas tous les modèles complètement, quand les utiliser, s'il existe de meilleures architectures pour une certaine tâche, etc., il n'est pas logique de mettre quelque chose de «jeune» et «expérimental» dans un analogique fixe architecture.
la source
Réponse rapide
Quand Intel a acquis Nirvana, ils ont indiqué leur conviction que le VLSI analogique a sa place dans les puces neuromorphiques du futur proche 1, 2, 3 .
Que ce soit à cause de la capacité d'exploiter plus facilement le bruit quantique naturel dans les circuits analogiques n'est pas encore public. Cela est plus probable en raison du nombre et de la complexité des fonctions d'activation parallèles qui peuvent être regroupées dans une seule puce VLSI. À cet égard, l'analogique a des avantages considérables par rapport au numérique.
Il est probablement avantageux pour les membres AI Stack Exchange de se mettre au courant de cette évolution technologique fortement indiquée.
Tendances et non-tendances importantes de l'IA
Pour aborder cette question scientifiquement, il est préférable de contraster la théorie du signal analogique et numérique sans biais des tendances.
Les amateurs d'intelligence artificielle peuvent trouver beaucoup sur le Web sur l'apprentissage en profondeur, l'extraction de fonctionnalités, la reconnaissance d'images et les bibliothèques de logiciels à télécharger et à commencer immédiatement à expérimenter. C'est la façon dont la plupart se mouillent les pieds avec la technologie, mais l'introduction accélérée à l'IA a aussi ses inconvénients.
Lorsque les fondements théoriques des premiers déploiements réussis de l'IA destinée aux consommateurs ne sont pas compris, des hypothèses se dressent en conflit avec ces fondements. Les options importantes, telles que les neurones artificiels analogiques, les réseaux enrichis et la rétroaction en temps réel, sont ignorées. L'amélioration des formulaires, des capacités et de la fiabilité est compromise.
L'enthousiasme pour le développement technologique doit toujours être tempéré par au moins une mesure égale de pensée rationnelle.
Convergence et stabilité
Dans un système où la précision et la stabilité sont obtenues par rétroaction, les valeurs des signaux analogiques et numériques sont toujours de simples estimations.
Comprendre le parallèle entre la convergence grâce à la correction d'erreurs dans un algorithme numérique et la stabilité obtenue grâce à la rétroaction dans l'instrumentation analogique est important dans la réflexion sur cette question. Ce sont les parallèles utilisant le jargon contemporain, avec le numérique à gauche et l'analogue à droite.
Popularité des circuits numériques
Le principal facteur de l'augmentation de la popularité des circuits numériques est son confinement du bruit. Les circuits numériques VLSI actuels ont de longs délais moyens de défaillance (temps moyen entre les instances où une valeur de bit incorrecte est rencontrée).
L'élimination virtuelle du bruit a donné aux circuits numériques un avantage significatif par rapport aux circuits analogiques pour la mesure, le contrôle PID, le calcul et d'autres applications. Avec les circuits numériques, on pouvait mesurer jusqu'à cinq chiffres décimaux de précision, contrôler avec une précision remarquable et calculer π à mille chiffres décimaux de précision, de manière répétée et fiable.
Ce sont principalement les budgets de l'aéronautique, de la défense, de la balistique et des contre-mesures qui ont accru la demande de fabrication pour réaliser des économies d'échelle dans la fabrication de circuits numériques. La demande de résolution d'affichage et de vitesse de rendu motive désormais l'utilisation du GPU comme processeur de signal numérique.
Ces forces essentiellement économiques sont-elles à l'origine des meilleurs choix de conception? Les réseaux artificiels numériques sont-ils la meilleure utilisation des biens immobiliers VLSI précieux? C'est le défi de cette question, et c'est une bonne question.
Réalités de la complexité des circuits intégrés
Comme mentionné dans un commentaire, il faut des dizaines de milliers de transistors pour implémenter dans le silicium un neurone de réseau artificiel indépendant et réutilisable. Ceci est largement dû à la multiplication matrice-vecteur conduisant à chaque couche d'activation. Il suffit de quelques dizaines de transistors par neurone artificiel pour mettre en œuvre une multiplication matrice-vecteur et le réseau d'amplificateurs opérationnels de la couche. Les amplificateurs opérationnels peuvent être conçus pour exécuter des fonctions telles que le pas binaire, le sigmoïde, le soft plus, l'ELU et l'ISRLU.
Bruit du signal numérique provenant de l'arrondi
La signalisation numérique n'est pas exempte de bruit car la plupart des signaux numériques sont arrondis et donc approximatifs. La saturation du signal en rétropropagation apparaît d'abord comme le bruit numérique généré par cette approximation. Une saturation supplémentaire se produit lorsque le signal est toujours arrondi à la même représentation binaire.
Les programmeurs rencontrent parfois les effets d'arrondi en nombres à virgule flottante IEEE double ou simple précision lorsque les réponses qui devraient être 0,2 apparaissent sous la forme 0.20000000000001. Un cinquième ne peut pas être représenté avec une précision parfaite sous forme de nombre binaire car 5 n'est pas un facteur de 2.
Battage médiatique et tendances populaires
Dans l'apprentissage automatique, comme pour de nombreux produits technologiques, il existe quatre indicateurs de qualité clés.
Parfois, mais pas toujours, la réalisation de l'un compromet l'autre, auquel cas un équilibre doit être trouvé. La descente de gradient est une stratégie de convergence qui peut être réalisée dans un algorithme numérique qui équilibre bien ces quatre, c'est pourquoi c'est la stratégie dominante dans la formation de perceptron multicouche et dans de nombreux réseaux profonds.
Ces quatre choses étaient au cœur des premiers travaux de cybernétique de Norbert Wiener avant les premiers circuits numériques dans les Bell Labs ou la première bascule réalisée avec des tubes à vide. Le terme cybernétique est dérivé du grec κυβερνήτης (prononcé kyvernítis ) signifiant timonier, où le ruder et les voiles devaient compenser le vent et le courant en constante évolution et le navire devait converger vers le port ou le port prévu.
Le point de vue orienté sur les tendances de cette question pourrait entourer l'idée de savoir si le VLSI peut être accompli pour réaliser des économies d'échelle pour les réseaux analogiques, mais le critère donné par son auteur est d'éviter les vues motivées par les tendances. Même si ce n'était pas le cas, comme mentionné ci-dessus, beaucoup moins de transistors sont nécessaires pour produire des couches de réseau artificielles avec des circuits analogiques qu'avec des circuits numériques. Pour cette raison, il est légitime de répondre à la question en supposant que l'analogique VLSI est tout à fait réalisable à un coût raisonnable si l'attention était dirigée vers sa réalisation.
Conception de réseaux artificiels analogiques
Les filets artificiels analogiques sont à l'étude dans le monde entier, y compris la coentreprise IBM / MIT, Nirvana d'Intel, Google, l'US Air Force dès 1992 5 , Tesla et bien d'autres, certains indiqués dans les commentaires et l'addendum à cette question.
L'intérêt de l'analogique pour les réseaux artificiels a à voir avec le nombre de fonctions d'activation parallèles impliquées dans l'apprentissage pouvant tenir sur un millimètre carré de puce VLSI immobilier. Cela dépend en grande partie du nombre de transistors nécessaires. Les matrices d'atténuation (les matrices des paramètres d'apprentissage) 4 nécessitent une multiplication matricielle vectorielle, ce qui nécessite un grand nombre de transistors et donc une partie importante de l'immobilier VLSI.
Il doit y avoir cinq composants fonctionnels indépendants dans un réseau perceptron multicouche de base s'il doit être disponible pour une formation entièrement parallèle.
Dans les circuits analogiques, avec le plus grand parallélisme inhérent à la méthode de transmission du signal, 2 et 4 peuvent ne pas être nécessaires. La théorie de la rétroaction et l'analyse harmonique seront appliquées à la conception du circuit, à l'aide d'un simulateur comme Spice.
Pour les valeurs communes de ces circuits dans les circuits intégrés analogiques actuels, nous avons un coût pour les puces VLSI analogiques qui convergent avec le temps à une valeur au moins trois fois inférieure à celle des puces numériques avec un parallélisme d'entraînement équivalent.
Adressage direct de l'injection de bruit
La question indique: «Nous utilisons des gradients (jacobiens) ou des modèles du deuxième degré (hessois) pour estimer les prochaines étapes d'un algorithme convergent et ajouter délibérément du bruit [ou] injecter des perturbations pseudo-aléatoires pour améliorer la fiabilité de la convergence en sautant les puits locaux dans l'erreur surface pendant la convergence. "
La raison pour laquelle du bruit pseudo-aléatoire est injecté dans l'algorithme de convergence pendant l'entraînement et dans les réseaux rentrants en temps réel (tels que les réseaux de renforcement) est dû à l'existence de minima locaux dans la surface de disparité (erreur) qui ne sont pas les minima globaux de celui-ci. surface. Les minima globaux sont l'état d'entraînement optimal du réseau artificiel. Les minima locaux peuvent être loin d'être optimaux.
Cette surface illustre la fonction d'erreur des paramètres (deux dans ce cas très simplifié 6 ) et la question des minima locaux masquant l'existence des minima globaux. Les points bas de la surface représentent des minima aux points critiques des régions locales de convergence d'entraînement optimale. 7,8
Les fonctions d'erreur sont simplement une mesure de la disparité entre l'état actuel du réseau pendant la formation et l'état du réseau souhaité. Lors de la formation des réseaux artificiels, l'objectif est de trouver le minimum global de cette disparité. Une telle surface existe que les échantillons de données soient étiquetés ou non et que les critères d'achèvement de la formation soient internes ou externes au réseau artificiel.
Si le taux d'apprentissage est faible et que l'état initial est à l'origine de l'espace des paramètres, la convergence, en utilisant la descente de gradient, convergera vers le puits le plus à gauche, qui est un minimum local, pas le minimum global à droite.
Même si les experts initialisant le réseau artificiel d'apprentissage sont suffisamment intelligents pour choisir le point médian entre les deux minima, le gradient à ce point descend toujours vers le minimum de la main gauche, et la convergence arrivera à un état d'entraînement non optimal. Si l'optimalité de la formation est critique, ce qui est souvent le cas, la formation ne parviendra pas à obtenir des résultats de qualité de production.
Une solution utilisée consiste à ajouter de l'entropie au processus de convergence, qui est souvent simplement l'injection de la sortie atténuée d'un générateur de nombres pseudo-aléatoires. Une autre solution moins souvent utilisée consiste à dériver le processus de formation et à essayer d'injecter une grande quantité d'entropie dans un deuxième processus convergent afin qu'il y ait une recherche conservatrice et une recherche quelque peu sauvage s'exécutant en parallèle.
Il est vrai que le bruit quantique dans les circuits analogiques extrêmement petits présente une plus grande uniformité dans le spectre du signal de son entropie qu'un générateur numérique pseudo-aléatoire et beaucoup moins de transistors sont nécessaires pour obtenir un bruit de meilleure qualité. La question de savoir si les défis à relever dans les implémentations VLSI ont été surmontées n'a pas encore été révélée par les laboratoires de recherche intégrés dans les gouvernements et les entreprises.
Les trois défis sont plausibles. Ce qui est certain et aussi très intéressant, c'est la façon dont les concepteurs et les fabricants facilitent le contrôle numérique des voies de signaux analogiques et des fonctions d'activation pour obtenir une formation à grande vitesse.
Notes de bas de page
[1] https://ieeexplore.ieee.org/abstract/document/8401400/
[2] https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/analog-and-neuromorphic-chips-will-rule-robotic-age
[3] https://www.roboticstomorrow.com/article/2018/04/whats-the-difference-between-analog-and-neuromorphic-chips-in-robots/11820
[4] L'atténuation fait référence à la multiplication d'un signal de sortie d'une actionnement par un périmètre entraînable pour fournir un ajout à additionner avec d'autres pour l'entrée d'une activation d'une couche suivante. Bien qu'il s'agisse d'un terme physique, il est souvent utilisé en génie électrique et c'est le terme approprié pour décrire la fonction de la multiplication matricielle-vecteur qui permet ce qui, dans les cercles moins instruits, est appelé pondération des entrées de couche.
[5] http://www.dtic.mil/dtic/tr/fulltext/u2/a256621.pdf
[6] Il y a beaucoup plus de deux paramètres dans les réseaux artificiels, mais seulement deux sont représentés dans cette illustration parce que l'intrigue ne peut être compréhensible qu'en 3D et nous avons besoin d'une des trois dimensions pour la valeur de la fonction d'erreur.
[8] Commandes gnuplot associées:
la source
Instrumentation numérique des cellules analogiques
L'un des principaux défis des réseaux artificiels analogiques est que l'instrumentation de réseau serait plus pratique si elle était numérique. Toute mise en œuvre VLSI de perceptrons analogiques, de convolutions ou de réseaux à pointes devra probablement avoir des composants numériques dans un arrangement hybride pour plusieurs fonctions.
Cela signifie que la réalisation d'un réseau d'apprentissage artificiel analogique à usage général nécessitera une conversion A-D et D-A. 2 Le défi de conception VLSI devient alors d'éviter la formation de transistors à partir de l'introduction d'un grand nombre de blocs de conversion. Cela annulerait l'avantage de densité de la réalisation analogique de propagation avant et arrière.
La solution probable consiste à utiliser une matrice de verrouillage pour distribuer les signaux des convertisseurs D-A aux condensateurs et la matrice de commutation à faible fuite pour sélectionner la valeur qui sera lue par les convertisseurs A-D. Cela doit être fait sans introduire de bruit numérique dans les chemins analogiques et sans dégrader les charges stockées ni perdre en précision lors de leur chargement.
L'importance du nombre de transistors et de routes supplémentaires dans un circuit hors du réseau primaire ne peut être trouvée qu'en appliquant un processus de conception VLSI.
Importantes contributions Open Source
L'Université du Massachusetts a introduit le référentiel open source BindsNet 3,4 en février 2018. Il simule les réseaux de dopage analogiques avec des logiciels et du matériel numériques et exploite l'accélération GPU via PyTorch.
Cela facilite l'expérimentation actuelle dans la conception et les stratégies de réseaux de dopage. Le succès de l'utilisation de la simulation, s'il était suffisamment important, conduirait probablement à des conceptions VLSI supérieures.
Notes de bas de page
[1] Dans tout système d'apprentissage pratique, les paramètres appris doivent être extraits de la mise en œuvre de VLSI, stockés dans une base de données et mis à la disposition de n'importe quel nombre de systèmes de développement, de test, d'UAT ou de production pour le déploiement, l'analyse des causes profondes des défauts, la mise à l'échelle et reprise après sinistre. L'enregistrement et le chargement doivent être une caractéristique de base des réseaux artificiels analogiques hybrides VLSI, même entre les époques pendant la formation et pendant l'utilisation réelle sur le terrain.
[2] On ne peut pas maintenir indéfiniment l'état appris d'un réseau artificiel dans des condensateurs. Bien que les condensateurs soient devenus le composant passif dominant pour les circuits analogiques conçus dans les processus CMOS standard, ils ne peuvent pas avoir beaucoup de capacité et les fuites ne sont pas nulles. La demi-vie des circuits de stockage capacitifs et la précision requise des valeurs des paramètres détermineront la vitesse d'un cycle de lecture et de remise à jour conditionnelle.
[3] Référentiel open source BindsNet
[4] BindsNET [article]: Une bibliothèque de réseaux de neurones dopants orientée apprentissage automatique en Python pour la publication Harvard U du résumé de l'article BindsNet.
la source
Je suis surpris que personne n'ait mentionné certaines des directions de recherche spécifiques dans le domaine de l'IA analogique. Et aussi pour clarifier l'intelligence artificielle n'est pas exactement la même chose que l'apprentissage automatique comme le suggère cette réponse . Les progrès récents du calcul analogique ne concernent que le Machine Learning.
CMOS analogique:
Tout d'abord, parlons des premières implémentations analogiques des neurones. Dr.Giacomo Indiveri, et al a été peu des pionniers dans le domaine. Bien qu'avec la logique CMOS, vous pouvez concevoir des réseaux neuronaux STDP (temps de Spike Plasticité à charge), il est difficile d'utiliser dans les algorithmes d' apprentissage machine. Le cerveau humain doit encore être entièrement compris, en particulier comment il communique des informations complexes avec des pointes. Les réseaux basés sur des pointes sont bons pour effectuer des tâches de reconnaissance d'image relativement petites et de faible complexité (la plupart des articles semblent plus soucieux d'améliorer les performances plutôt que de s'appliquer à des tâches très complexes). En raison du grand nombre de transistors disponibles, nous pourrions être en mesure de l'utiliser dans des tâches complexes.
Le meilleur exemple serait que Google utilise cette idée de faible précision dans les TPU et de précision de compensation, en utilisant un grand nombre d'unités de traitement, ce qui entraîne une sorte de compromis entre le temps, la précision et la zone. Cela peut être analogue à un grand nombre de transistors dans un processeur, mais avec une faible précision. ( Un regard en profondeur sur la première unité de traitement de tenseur (TPU) de Google )
REMARQUE: certains pourraient faire valoir que la technologie CMOS relève du domaine numérique, mais comme nous n'utilisons pas spécifiquement CMOS ici pour effectuer une opération numérique, j'aime à la considérer comme analogique.
Les tâches basées sur les pics sont apparemment très bonnes pour les réseaux Winner Take All (un peu comme les cartes auto-organisées ), c'est donc la manière générale d'implémenter des algorithmes d'apprentissage automatique dans les puces VLSI.
Les réseaux basés sur des pointes n'ont pas de mémoire idéale, vous ne pouvez pas avoir des poids de haute précision. Ils ont proposé d'implémenter des poids biologiques ou des synapses ou de la mémoire à l'aide de condensateurs, mais apparemment, il fait face à des problèmes similaires aux puces de silicium normales, comme la fuite de charge et également d'autres non-idéalités à base de silicium et d'après ce que j'ai compris, ils peuvent également modéliser des poids limités ( comme -1, 0, 1).
Calcul numérique:
Ici, vient le calcul numérique. Les tâches qui nécessitent une grande quantité de représentation en virgule flottante ne peuvent pas simplement être mises en œuvre par des pointes, car nous ne connaissons pas encore, ni même sommes capables d'imiter complètement la biophysique ou tous les aspects d'un vrai neurone d'ailleurs. Le calcul numérique aide simplement à transmettre plus d'informations avec autant de précision que nous le souhaitons (si nous concevons un tel processeur). Même si les goulots d'étranglement sont un inconvénient connu de l'architecture de Von Neumann pour le calcul numérique, ce n'est pas autant un problème que la représentation de l'information via des pointes. Les pointes ont toujours une amplitude fixe, la seule façon dont elle transmet probablement l'information est par sa fréquence et son signe (excitateur ou inhibiteur). Les vitesses d'horloge sont également assez élevées dans les ordinateurs modernes.
Memristors: une nouvelle direction
Voici l'invention la plus récente, le Memristor . Il s'agit de loin de l'appareil analogique le plus prometteur du Machine Learning. Les Memristors sont un tout nouveau concept prévu dans les années 70 et produit seulement en 2008. Fondamentalement, ce sont des RRAM ou des RAM résistives. En cela, la résistance de la résistance de mémoire ou du Memristor est directement liée à l'histoire actuelle du passé qui est très similaire aux modèles biophysiques des neurones. Ils peuvent également être formés facilement en utilisant des réseaux de barres transversales (essentiellement des matrices de contacts électriques) de memristors (les réseaux de barres transversales représenteront des matrices de poids, la tension appliquée le long des lignes ou des colonnes détermine la propagation vers l'avant ou la propagation vers l'arrière).
Ainsi, Memristor donne un véritable spin analogique aux algorithmes d'apprentissage automatique. Malheureusement, en raison de son arrivée récente, de nombreux problèmes restent à résoudre.
Laboratoire de recherche en nanoélectronique, Université Purdue
Matériaux électrochimiques, ETH Zurich
Projet sur le cerveau humain
L'Institut MARCS pour le cerveau, le comportement et le développement
Photonique neuromorphique:
Récemment, il y a eu un intérêt dans le domaine de la photonique neuromorphique. Voici un court article sur le même sujet. Je ne connais pas le fonctionnement interne de la même chose, mais AFAIK cela implique la transmission d'informations sous forme optique au sein de la puce de traitement elle-même. Cela conduit à certains avantages par rapport aux circuits analogiques ou numériques normaux:
la source
Je pense que la plupart des gens ont à peu près répondu à la question avec diligence de manière très informative. Je voudrais juste dire que nous utilisons des circuits numériques couramment parce que c'est la technologie existante et que les circuits analogiques semblent vraiment très prometteurs.
Cependant, en ce moment, cette idée n'est pas très bien développée malgré la quantité de recherches effectuées au cours des dernières années. Jusqu'à présent, aucune entreprise n'a essayé de mettre en œuvre l'idée à un niveau commercial où elle fabrique de telles puces pour une utilisation en dehors de ses laboratoires.
De plus, cette idée ressemble à une nouvelle approche et a un grand potentiel.
Mais, avec notre manque de compréhension du fonctionnement de certains modèles, certains ne le font tout simplement pas pour un problème; comment les réseaux de neurones résolvent vraiment des problèmes aussi complexes et bien d'autres choses. Par conséquent, il s'agit encore d'une technologie assez éloignée pour atteindre son plein potentiel.
PS Je suis toujours un débutant dans ce domaine et je pense que mon avis ne compte pas, donc si j'étais redondant quelque part ou si je ne vous donnais pas la réponse attendue, je le regrette sincèrement.
la source
On peut également aborder la question sous l'angle de la théorie de l'information:
Vous avez le choix entre deux compromis:
Informations analogiques pouvant représenter des informations de manière plus précise / spécifique, mais en quantité limitée.
Des informations numériques qui ne représentent pas entièrement le monde réel, mais peuvent contenir une quantité illimitée d'informations en quelques bits. Un bon exemple pourrait être quelque chose comme une boucle d'incrémentation pour:
Lequel est le plus puissant alors?
la source
Hava Siegelmann
À première vue, l'informatique analogique est supérieure à l'informatique numérique. Les ordinateurs quantiques sont plus rapides que les ordinateurs Von-Neumann et les puces neuromorphiques nécessitent moins d'énergie que les processeurs Intel. D'un point de vue théorique, beaucoup parlent également d'ordinateurs analogiques. Hava Siegelmann a étudié la capacité de super-turing du réseau neuronal, ce qui signifie qu'un ordinateur analogique peut émuler un ordinateur numérique mais pas l'inverse. Alors pourquoi ne pas utiliser l'informatique analogique?
Stephen Wolfram
La raison tient au système éducatif. Les mathématiques classiques enseignées dans les écoles sont des mathématiques analogiques. Il est basé sur des règles de diapositives, un tableau de logarithme et la réflexion dans les circuits. En revanche, penser en valeurs discrètes d'un algorithme et décrire le monde en zéro et en uns est fondamentalement différent et nous conduit à un nouveau type de mathématiques. Stephen Wolfram a expliqué que la compréhension des automates cellulaires est une étape importante pour décrire l'univers et il a raison. Ignorer les mathématiques analogiques et préférer les langages informatiques capables de turing est une méthode puissante en éducation. Cela aide non seulement à se familiariser avec les ordinateurs, mais aussi avec toutes les autres choses comme la médecine, la littérature et l'économie. Même si les machines analogiques sont techniquement supérieures, nous préférons les machines de Turing lentes mais discrètes,
Enseigner les mathématiques
Pour comprendre la différence entre le calcul numérique et analogique, nous devons nous concentrer sur les mathématiques elles-mêmes qui sont utilisées dans les écoles. Si l'idée est de faire avancer le calcul analogique, le type de mathématiques approprié est regroupé autour des champs électriques, de l'intégration et de la différenciation. Dans les écoles, cela est enseigné sous le terme générique "Analyse mathématique". Ce sujet était très important dans le passé, car l'analyse aide à construire des ponts, des machines et des voitures. Dans tous ces domaines, une algèbre vectorielle pour décrire l'espace géométrique est utilisée.
Si le calcul analogique est si puissant, pourquoi quelqu'un a-t-il besoin des mathématiques numériques? Cela a à voir avec l'algorithme. Ce que le planimètre et l'analyseur différentiel n'ont pas à offrir, ce sont les capacités de programmation. Il n'est pas possible de définir des algorithmes et des langages artificiels. Un regard sur l'histoire des mathématiques montre que la théorie des algorithmes n'était pas très courante dans le passé. En mathématiques modernes, il est discuté sous le terme de calcul lambda et de problème d'arrêt .
Le plus drôle, c'est qu'à première vue, le calcul Lamda n'a aucune application pratique. Ce n'est pas nécessaire si quelqu'un veut calculer l'aire d'un pont. La théorie des algorithmes est une école de pensée pour améliorer la pensée critique. C'est une philosophie dont les humains ont besoin, pas les machines.
la source