Le papier est ici .
La politique de déploiement ... est une politique de softmax linéaire basée sur des fonctionnalités rapides, calculées de manière incrémentielle et basées sur des modèles locaux ...
Je ne comprends pas ce qu'est la politique de déploiement et comment elle est liée au réseau de politiques de sélection d'un déménagement. Une explication plus simple?
machine-learning
monte-carlo
reinforcement-learning
games
Bonjour le monde
la source
la source
Réponses:
Il apparaît que le réseau politique détermine une distribution de probabilité sur les mouvements possibles lorsqu'il est dans l'état de jeu . Lorsque le programme recherche l'arborescence du jeu, il le fait de manière aléatoire, et détermine comment il effectue cette recherche. L'espoir est que cette fonction "guide" le programme vers les bons coups qu'un joueur fort est susceptible de faire. Cela a du sens car lorsque vous recherchez dans l'arbre de jeu, les branches qui commencent par des erreurs sont moins pertinentes lors de l'évaluation de la position actuelle du plateau par rapport à un adversaire intelligent.p(a∣s) a s p
Quand ils disent que la politique de déploiement (je crois qu'ils ont emprunté le terme "déploiement" au backgammon) est une fonction softmax linéaire, ils font référence à une généralisation de la fonction sigmoïde utilisée dans la régression logistique. Cette fonction prend la forme
où est un vecteur qui est fonction de la position actuelle du conseil d'administration (selon l'article, le softmax linéaire n'est utilisé qu'à la dernière étape du réseau politique) et est un vecteur de pondérations qui déterminent ensemble la probabilité que la politique le réseau choisira l'action .x βi ai
la source