Je lisais un résumé de haut niveau sur AlphaGo de Google ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ), et je suis tombé sur les termes "politique réseau "et" réseau de valeur ". À un niveau élevé, je comprends que le réseau de stratégies est utilisé pour suggérer des mouvements et que le réseau de valeurs est utilisé pour "réduire la profondeur de l'arborescence de recherche [et estimer] le gagnant dans chaque position au lieu de rechercher tout le chemin jusqu'à la Fin du jeu."
Ces deux réseaux me semblent redondants. Que fait le réseau de stratégies s'il n'utilise pas le réseau de valeurs pour élaguer ses stratégies? Il semble assez clair que le réseau de valeur est un réseau neuronal d'apprentissage en profondeur; le réseau politique n'est-il qu'une abstraction théorique et non un véritable réseau neuronal? La variable cible pour le réseau de valeur semble être gagnant / perdant. Existe-t-il une variable cible pour le réseau de règles? si oui, c'est quoi? Qu'est-ce que le réseau politique essaie d'optimiser?
Le pdf complet du document de Google, publié dans Nature, peut être trouvé ici: https://vk.com/doc-44016343_437229031?dl=56ce06e325d42fbc72
la source
Réponses:
En bref, chaque filet a un objectif différent, comme vous l'avez mentionné:
En général, vous pouvez utiliser des méthodes de fonction de valeur pour trouver une stratégie optimale ou rechercher directement dans l'espace de stratégie pour optimiser une fonction de stratégie paramétrée (bien sûr, il y a des avantages et des inconvénients). Vous pouvez utiliser des approximateurs de fonction (par exemple, Deep Nets) dans chaque cas. Je vois que vous êtes principalement confus au sujet du filet de politique, donc je concentre ma réponse là-dessus.
Le filet de politique était d'abord:
formés pour effectuer les mouvements que ferait très probablement un humain étant donné l'état de la carte (donc l'entrée est un état de la carte et la sortie est un histogramme qui montre la probabilité de chaque action étant donné cet état). Le filet peut approximer la fonction de probabilité sous-jacente au mappage des états aux actions. Il est raisonnable de penser à commencer à construire votre politique à partir des données disponibles après tout. Après une formation supervisée utilisant des mouvements d'experts, le filet de politique pourrait jouer le jeu suffisamment (bien que loin d'un niveau de maîtrise). Simplement, vous avez tenté de saisir le schéma général de sélection des actions des joueurs professionnels.
Ensuite,
il a été entraîné dans des jeux avec l'adversaire lui-même, afin d'optimiser la politique apprise précédemment. Cette fois, ses poids ont été mis à jour à l'aide de l'algorithme REINFORCE. Ce faisant, vous mettez à jour les paramètres nets pour maximiser la récompense attendue. Finalement, vous avez un filet qui sélectionne non seulement les actions comme un joueur professionnel, mais aussi pour gagner le jeu (mais il ne peut pas planifier!).
Après cette étape, ils ont approximé la fonction de valeur d'une version un peu plus bruyante de la politique apprise, par régression (l'entrée est le tableau d'état et cible le résultat du jeu). Vous pouvez utiliser ce réseau pour affecter l'évaluation du nœud feuille.
Sur le plan conceptuel, le filet de stratégie vous donne une probabilité sur les actions, mais cela n'indique pas que vous vous retrouverez dans un bon état pour avoir gagné le jeu. AlphaGo a eu quelques "angles morts" et pendant le tournoi a fait de très mauvais coups mais aussi un coup exceptionnel auquel un humain n'aurait jamais pu penser.
Enfin, vous pouvez utiliser votre algorithme de planification (SCTM) en combinaison avec ces réseaux. Pourquoi avons-nous pris toutes ces mesures? En bref, le simple SCTM sans «intuition» aurait échoué.
la source
Voici mon processus de réflexion concis pour comprendre les deux réseaux différents.
Tout d'abord, l'objectif est de trouver une solution optimale (ou très quasi optimale) sans recourir à une recherche exhaustive, ce qui est définitivement un défi.
Par position ou état, il y aura N mouvements possibles, et à chaque mouvement il y aura sa propre profondeur D dans un arbre de recherche complet. Il est théoriquement ou mathématiquement possible de parcourir tous les chemins et de trouver une ou des solutions optimales. Cependant, nous ne voulons pas faire une recherche complète.
Nous avons maintenant deux questions distinctes pour développer une approche d'approximation.
Q1. Comment pouvons-nous ignorer ou ignorer certains mouvements de N par position? (c.-à-d. réduction de la respiration)
Q2. Comment s'arrêter à une profondeur intermédiaire dans un arbre de recherche plutôt que de marcher jusqu'à la fin du jeu, sans manquer de trouver une solution optimale? (c.-à-d. réduction de la profondeur)
Le réseau de politique est principalement conçu pour filtrer les déplacements inutiles hors de N, mais sans manquer de trouver une solution optimale. Ici, ce réseau repose initialement sur des mouvements d'experts humains, c'est-à-dire SL, et amélioré par RL plus tard.
Le réseau de valeur est principalement conçu pour trouver la probabilité de gain sans recherche complète.
Ces deux réseaux ont un objectif commun: trouver une solution optimale. Cependant, dans chaque choix stratégique de déménagement, chaque réseau joue un rôle différent.
J'espère juste que cela aide. Je sais que ce serait toujours à un niveau élevé.
la source
Je pense que l'OP confondait AlphaGo avec l'alpha-bêta. En alpha-bêta, vous utiliseriez en effet le réseau de règles pour aider à l'élagage, mais pas ici. Encore une fois, il n'y a pas d'élagage car l'algorithme repose sur la recherche d'arbre Monte-Carlo (SCTM).
Quiconque pense que ma réponse est trop longue peut passer à la section récapitulative, où j'explique pourquoi les deux réseaux ne sont pas redondants.
Dans l'exemple suivant, je ferai quelques simplifications pour rendre mes idées plus faciles à comprendre.
Exemple:
Imaginez que vous ayez une position où il y a deux mouvements légaux. Le premier coup est un mort-perdu pour vous, cependant, le deuxième coup vous donne un avantage gagnant.
Réseau d'évaluation
Supposons que le réseau d'évaluation que Google vous propose est parfait. Il peut évaluer parfaitement n'importe quelle position de feuille dans notre exemple. Nous ne changerons pas notre réseau de valeur dans l'exemple.
Pour simplifier notre exemple, supposons que notre réseau de valeur donne:
Réseau politique
Supposons que Google vous propose deux réseaux de règles. Les probabilités générées pour notre position sont:
Notez que notre premier réseau de règles donne une probabilité antérieure incorrecte pour notre exemple. Il donne 0,9 pour le coup 1, qui est un coup perdant. C'est très bien car même Google ne pouvait pas former un réseau de politique parfait.
Jouer avec le premier réseau politique
AlphaGo doit générer une simulation avec Monte-Carlo, et il doit choisir le mouvement 1 ou 2. Maintenant, AlphaGo dessine une variable aléatoire uniformément distribuée, et il choisira:
AlphaGo est donc beaucoup plus susceptible de choisir le mouvement perdant à simuler (dans notre toute première simulation). Dans notre première simulation, nous utiliserons également le réseau de valeurs pour obtenir un score pour la simulation. Dans le papier, c'est:
Cette valeur serait -1000, car cette simulation entraînerait une perte.
Maintenant, AlphaGo doit générer la deuxième simulation. Encore une fois, le premier mouvement serait beaucoup plus susceptible de choisir. Mais finalement, le deuxième mouvement serait choisi parce que:
Notez que
N
c'est le nombre de coups recherchés pour le coup et c'est dans le dénominateur. Plus notre premier mouvement est recherché, plus lau
fonction est petite . Ainsi, la probabilité de sélectionner notre deuxième coup s'améliore car AlphaGo choisit en fait un coup par cette équation:C'est l' équation clé . Veuillez le regarder attentivement:
P
pour la probabilité a priori (donné par le réseau politique)Q
pour les scores d'évaluation (donnés par le réseau de valeur)Maintenant, nous savons que notre deuxième déménagement sera finalement choisi. Lorsque cela se produit, le réseau de valeur donne +1000. Cela augmentera
Q
, ce qui rendra le deuxième coup beaucoup plus probable dans les simulations ultérieures.Avec suffisamment de simulations, le nombre de fois où le deuxième coup est choisi pour la simulation devrait être supérieur au nombre de fois où le premier coup est choisi.
Enfin, le mouvement qu'AlphaGo décide de faire est (cité dans le journal):
Jouer avec le deuxième réseau politique
Notre deuxième réseau de stratégie aura besoin de moins d'itérations pour choisir le mouvement 2 car sa probabilité donnée par le réseau de stratégie est correcte en premier lieu.
Remarques
Tout ici est très similaire à l'
Bayesian
analyse. Nous commençons avec une probabilité antérieure (donnée par le réseau de politique), puis nous générons des données pour déplacer la distirubtion de probabilité (donnée par le réseau de valeurs).Résumés
la source
Policy Network : Le réseau qui apprend à donner une sortie définie en donnant une entrée particulière au jeu est connu sous le nom de Policy Network.
Réseaux de valeur : le réseau de valeur attribue une valeur / un score à l'état du jeu en calculant un score cumulé attendu pour l'état actuel
s
. Chaque état passe par le réseau de valeur. Les États qui obtiennent plus de récompenses obtiennent évidemment plus de valeur dans le réseau.Mieux comprendre avec les animations Allez ici: Réseaux politiques vs réseaux de valeur dans l'apprentissage par renforcement
la source
D'après ce que je comprends, la différence est dans les sorties. Lorsque le réseau de règles génère une distribution de probabilité sur les mouvements possibles, le réseau de valeurs renvoie une valeur réelle qui peut être interprétée comme la probabilité de gagner compte tenu de la configuration de cette carte. À partir de là, la recherche d'arbre de Monte-Carlo est effectuée en prenant les mouvements K supérieurs, puis en rétrécissant à nouveau l'arbre de recherche en prenant les sorties réseau de valeur K supérieure.
Sentez-vous obligé de me corriger si je me trompe.
la source