Qu'est-ce que le «nouvel algorithme d'apprentissage par renforcement» dans AlphaGo Zero?

10

Pour une raison quelconque, AlphaGo Zero ne reçoit pas autant de publicité que l'AlphaGo original, malgré ses résultats incroyables. Partant de zéro, il a déjà battu AlphaGo Master et a dépassé de nombreux autres critères. Encore plus incroyable, cela se fait en 40 jours. Google le nomme "sans doute le meilleur joueur de Go au monde" .

DeepMind affirme qu'il s'agit d'une "nouvelle forme d'apprentissage par renforcement" - cette technique est-elle vraiment nouvelle? Ou y a-t-il eu d'autres moments où cette technique a été utilisée - et si oui, quels ont été leurs résultats? Je pense que les exigences dont je parle sont 1) aucune intervention humaine et 2) aucun jeu historique, mais ceux-ci sont flexibles.

Cela semble être une question similaire, mais toutes les réponses semblent partir de l'hypothèse qu'AlphaGo Zero est la première du genre.

Dubukay
la source
L'apprentissage par renforcement n'est pas nouveau. Quelles techniques Google a affirmé être les premières?
HelloWorld
Il y a une citation à ce sujet sur le site Web lié, et dans l'article, ils utilisent la phrase "Le réseau neuronal d'AlphaGo Zero est formé à partir de jeux d'auto-jeu par un nouvel algorithme d'apprentissage par renforcement."
Dubukay
1
Le jeu en soi n'est certainement pas nouveau. Il existait avant Google. Il y a des détails dans leur algorithme qui les rendent "nouveaux". Peut-être que quelqu'un d'autre peut répondre.
HelloWorld
2
Je comprends cela - je suppose que j'essaie de comprendre ce qui a rendu leur approche si incroyablement bonne, et si c'est quelque chose que nous devrions nous attendre à voir dans d'autres domaines. Est-ce une nouvelle philosophie ou tout simplement un bon code?
Dubukay
1
J'ai trouvé une copie du document ici: nature.com/articles/… (inclut le jeton d'accès au partage, qui provient du blog qui le relie, il est donc légalement partagé par le public AFAICS). Même après avoir lu la description, bien qu'il soit difficile de déterminer la nouveauté réelle - toutes les idées individuelles semblent être des techniques de jeu / jeu de rôle préexistantes, il se peut que ce soit une combinaison spécifique d'entre elles qui soit nouvelle
Neil Slater

Réponses:

6

L' article d' AlphaGo Zero de Nature , «Maîtriser le jeu de Go sans connaissance humaine», affirme quatre différences majeures par rapport à la version précédente:

  1. Auto-apprentissage uniquement (non formé aux jeux humains)
  2. Utiliser uniquement le tableau et les pierres en entrée (pas de caractéristiques manuscrites).
  3. Utilisation d'un réseau de neurones unique pour les politiques et les valeurs
  4. Un nouvel algorithme de recherche d'arborescence qui utilise ce réseau combiné stratégie / valeur pour guider où rechercher les bons mouvements.

Les points (1) et (2) ne sont pas nouveaux dans l'apprentissage par renforcement, mais améliorent le logiciel AlphaGo précédent comme indiqué dans les commentaires à votre question. Cela signifie simplement qu'ils utilisent maintenant un apprentissage par renforcement pur à partir de poids initialisés au hasard. Ceci est rendu possible par des algorithmes d'apprentissage meilleurs et plus rapides.

Leur affirmation ici est "Notre principale contribution est de démontrer que la performance surhumaine peut être obtenue sans connaissance du domaine humain." (p. 22).

Les points (3) et (4) sont nouveaux dans le sens où leur algorithme est plus simple et plus général que leur approche précédente. Ils mentionnent également qu'il s'agit d'une amélioration par rapport aux travaux antérieurs de Guo et al.

L'unification du réseau politique / valeur (3) leur permet de mettre en œuvre une variante plus efficace de la recherche d'arbre Monte-Carlo pour rechercher de bons mouvements et en utilisant simultanément l'arbre de recherche pour former plus rapidement le réseau (4). C'est très puissant.

De plus, ils décrivent un certain nombre de détails d'implémentation intéressants comme le traitement par lots et la réutilisation des structures de données pour optimiser la recherche de nouveaux mouvements.

L'effet est qu'il a besoin de moins de puissance de calcul, fonctionnant sur 4 TPU plutôt que sur 176 GPU et 48 TPU pour les versions précédentes de leur logiciel.

Cela le rend définitivement "nouveau" dans le contexte du logiciel Go. Je crois que (3) et (4) sont également "nouveaux" dans un contexte plus large et seront applicables dans d'autres domaines d'apprentissage par renforcement tels que par exemple la robotique.

mjul
la source
Je pense que (4) est mentionné dans les conférences de David Silver - conférence 10 sur les jeux classiques - dans de nombreux cas existants, les SCTM sont guidés par le ML déjà formé. Dans le cas d'AlphaGo Zero, cela est inversé et le résultat du SCTM est utilisé pour définir les objectifs d'apprentissage pour le ML. Cependant, ce qui me fait me demander s'il s'agit vraiment d'un "roman", c'est la possibilité de faire exactement cela qui est mentionné dans la conférence. . .
Neil Slater