Quelle est la politique de déploiement dans le document d'AlphaGo?

Le papier est ici .

La politique de déploiement ... est une politique de softmax linéaire basée sur des fonctionnalités rapides, calculées de manière incrémentielle et basées sur des modèles locaux ...

Je ne comprends pas ce qu'est la politique de déploiement et comment elle est liée au réseau de politiques de sélection d'un déménagement. Une explication plus simple?

machine-learning monte-carlo reinforcement-learning games Bonjour le monde
la source

Le journal semble être derrière un mur payant ...

Vladislavs Dovgalecs

@xeon, je ne peux pas m'en empêcher. J'ai un accès complet au document mais je ne peux pas le télécharger ici (lois sur le droit d'auteur). Peut-être google autour si quelqu'un d'autre en a une copie?

HelloWorld

@xeon airesearch.com/wp-content/uploads/2016/01/…

dsaxton

Réponses:

Il apparaît que le réseau politique détermine une distribution de probabilité sur les mouvements possibles lorsqu'il est dans l'état de jeu . Lorsque le programme recherche l'arborescence du jeu, il le fait de manière aléatoire, et détermine comment il effectue cette recherche. L'espoir est que cette fonction "guide" le programme vers les bons coups qu'un joueur fort est susceptible de faire. Cela a du sens car lorsque vous recherchez dans l'arbre de jeu, les branches qui commencent par des erreurs sont moins pertinentes lors de l'évaluation de la position actuelle du plateau par rapport à un adversaire intelligent. $p(a \mid s)$ $a$ $s$ $p$

Quand ils disent que la politique de déploiement (je crois qu'ils ont emprunté le terme "déploiement" au backgammon) est une fonction softmax linéaire, ils font référence à une généralisation de la fonction sigmoïde utilisée dans la régression logistique. Cette fonction prend la forme

\frac{e^{β_{i}^{T} x}}{\sum_{j = 1}^{k} e^{β_{j}^{T} x}}

$\frac{e^{\beta^T_i x}}{\sum_{j=1}^{k} e^{\beta_j^T x}}$

où est un vecteur qui est fonction de la position actuelle du conseil d'administration (selon l'article, le softmax linéaire n'est utilisé qu'à la dernière étape du réseau politique) et est un vecteur de pondérations qui déterminent ensemble la probabilité que la politique le réseau choisira l'action . $x$ $\beta_i$ $a_i$

dsaxton
la source