But du bruit de Dirichlet dans le papier AlphaZero

10

Dans les articles AlphaGo Zero et AlphaZero de DeepMind , ils décrivent l'ajout de bruit de Dirichlet aux probabilités antérieures d'actions du nœud racine (état de la carte) dans Monte Carlo Tree Search:

Une exploration supplémentaire est obtenue en ajoutant du bruit de Dirichlet aux probabilités antérieures dans le nœud racine , en particulier , où et ; ce bruit garantit que tous les mouvements peuvent être essayés, mais la recherche peut toujours annuler les mauvais mouvements. P ( s , a ) = ( 1 - ε ) p a + ε η a η Dir ( 0,03 ) ε = 0,25s0P(s,a)=(1ε)pa+εηaηDir(0.03)ε=0.25

(AlphaGo Zero)

Et:

Le bruit de Dirichlet été ajouté aux probabilités antérieures dans le nœud racine; cela a été mis à l'échelle en proportion inverse du nombre approximatif de mouvements légaux dans une position typique, à une valeur de pour les échecs, le shogi et le go respectivement.α = { 0,3 ,Dir(α)α={0.3,0.15,0.03}

(AlphaZero)

Deux choses que je ne comprends pas:

  1. P(s, a)est un vecteur à dimensions. Est raccourci pour la distribution Dirichlet avec paramètres, chacun d' une valeur ?Dir ( α ) n αnDir(α)nα

  2. Je n'ai rencontré Dirichlet que comme conjugué avant la distribution multinomiale. Pourquoi at-il été choisi ici?

Pour le contexte, ce P(s, a)n'est qu'une composante du calcul du PUCT (arbre de confiance supérieur polynomial, une variante des limites de confiance supérieures) pour un état / action donné. Il est mis à l'échelle par une constante et une métrique pour combien de fois l'action donnée a été sélectionnée parmi ses frères et sœurs au cours des SCTM, et ajoutée à la valeur d'action estimée Q(s, a):

  • PUCT(s, a) = Q(s, a) + U(s, a).
  • U(s,a)=cpuctP(s,a)bN(s,b)1+N(s,a) .
moine
la source
1
Bon alors Dir (a) signifie en effet Dir (a, a, ...). Pour a <1, cela sera concentré près des vecteurs de base standard de R ^ n (les plus petits, les plus étroitement). Dirichlet (a) aide donc (1) à maintenir la somme des paramètres constante, (2) à se concentrer près des vecteurs de base et (3) à ne préférer aucun d'entre eux.
moine

Réponses:

6

α

απDir(α)(π)Cat(π)α

P(s,a)asDir(α)pi=P(s,a)ααi=0πDir(α)πi=0α

Dir(0.3)

Tomáš Gavenčiak
la source
3

α

Pour la question 2, les échantillons tirés d'une distribution de Dirichlet ont la propriété que les éléments résumeront à 1. Je suppose qu'ils l'utilisent pour s'assurer qu'après avoir ajouté le bruit, et les éléments résumeront toujours à 1.

Max S.
la source
Merci. En plus de résumer à un (ce que nous pourrions également faire en mettant à l'échelle un ensemble de distributions arbitraires), il préfère les vecteurs de base standard. Cela semble utile.
moine