Dans les articles AlphaGo Zero et AlphaZero de DeepMind , ils décrivent l'ajout de bruit de Dirichlet aux probabilités antérieures d'actions du nœud racine (état de la carte) dans Monte Carlo Tree Search:
Une exploration supplémentaire est obtenue en ajoutant du bruit de Dirichlet aux probabilités antérieures dans le nœud racine , en particulier , où et ; ce bruit garantit que tous les mouvements peuvent être essayés, mais la recherche peut toujours annuler les mauvais mouvements. P ( s , a ) = ( 1 - ε ) p a + ε η a η ∼ Dir ( 0,03 ) ε = 0,25
(AlphaGo Zero)
Et:
Le bruit de Dirichlet été ajouté aux probabilités antérieures dans le nœud racine; cela a été mis à l'échelle en proportion inverse du nombre approximatif de mouvements légaux dans une position typique, à une valeur de pour les échecs, le shogi et le go respectivement.α = { 0,3 ,
(AlphaZero)
Deux choses que je ne comprends pas:
P(s, a)
est un vecteur à dimensions. Est raccourci pour la distribution Dirichlet avec paramètres, chacun d' une valeur ?Dir ( α ) n αJe n'ai rencontré Dirichlet que comme conjugué avant la distribution multinomiale. Pourquoi at-il été choisi ici?
Pour le contexte, ce P(s, a)
n'est qu'une composante du calcul du PUCT (arbre de confiance supérieur polynomial, une variante des limites de confiance supérieures) pour un état / action donné. Il est mis à l'échelle par une constante et une métrique pour combien de fois l'action donnée a été sélectionnée parmi ses frères et sœurs au cours des SCTM, et ajoutée à la valeur d'action estimée Q(s, a)
:
PUCT(s, a) = Q(s, a) + U(s, a)
.- .
Réponses:
P(s,a)
a
s
P(s,a)
la source
Pour la question 2, les échantillons tirés d'une distribution de Dirichlet ont la propriété que les éléments résumeront à 1. Je suppose qu'ils l'utilisent pour s'assurer qu'après avoir ajouté le bruit, et les éléments résumeront toujours à 1.
la source