Pour une raison quelconque, AlphaGo Zero ne reçoit pas autant de publicité que l'AlphaGo original, malgré ses résultats incroyables. Partant de zéro, il a déjà battu AlphaGo Master et a dépassé de nombreux autres critères. Encore plus incroyable, cela se fait en 40 jours. Google le nomme "sans doute le meilleur joueur de Go au monde" .
DeepMind affirme qu'il s'agit d'une "nouvelle forme d'apprentissage par renforcement" - cette technique est-elle vraiment nouvelle? Ou y a-t-il eu d'autres moments où cette technique a été utilisée - et si oui, quels ont été leurs résultats? Je pense que les exigences dont je parle sont 1) aucune intervention humaine et 2) aucun jeu historique, mais ceux-ci sont flexibles.
Cela semble être une question similaire, mais toutes les réponses semblent partir de l'hypothèse qu'AlphaGo Zero est la première du genre.
la source
Réponses:
L' article d' AlphaGo Zero de Nature , «Maîtriser le jeu de Go sans connaissance humaine», affirme quatre différences majeures par rapport à la version précédente:
Les points (1) et (2) ne sont pas nouveaux dans l'apprentissage par renforcement, mais améliorent le logiciel AlphaGo précédent comme indiqué dans les commentaires à votre question. Cela signifie simplement qu'ils utilisent maintenant un apprentissage par renforcement pur à partir de poids initialisés au hasard. Ceci est rendu possible par des algorithmes d'apprentissage meilleurs et plus rapides.
Leur affirmation ici est "Notre principale contribution est de démontrer que la performance surhumaine peut être obtenue sans connaissance du domaine humain." (p. 22).
Les points (3) et (4) sont nouveaux dans le sens où leur algorithme est plus simple et plus général que leur approche précédente. Ils mentionnent également qu'il s'agit d'une amélioration par rapport aux travaux antérieurs de Guo et al.
L'unification du réseau politique / valeur (3) leur permet de mettre en œuvre une variante plus efficace de la recherche d'arbre Monte-Carlo pour rechercher de bons mouvements et en utilisant simultanément l'arbre de recherche pour former plus rapidement le réseau (4). C'est très puissant.
De plus, ils décrivent un certain nombre de détails d'implémentation intéressants comme le traitement par lots et la réutilisation des structures de données pour optimiser la recherche de nouveaux mouvements.
L'effet est qu'il a besoin de moins de puissance de calcul, fonctionnant sur 4 TPU plutôt que sur 176 GPU et 48 TPU pour les versions précédentes de leur logiciel.
Cela le rend définitivement "nouveau" dans le contexte du logiciel Go. Je crois que (3) et (4) sont également "nouveaux" dans un contexte plus large et seront applicables dans d'autres domaines d'apprentissage par renforcement tels que par exemple la robotique.
la source