Est-ce que quelqu'un connaît l'exemple d'un algorithme Williams proposé dans l'article "Une classe d'algorithmes d'estimation de gradient pour l'apprentissage par renforcement dans les réseaux de neurones" http://incompleteideas.net/sutton/williams-92.pdf
reinforcement-learning
Alex Gao
la source
la source
Réponses:
À partir de la conférence de David Silver sur les méthodes de gradient politique , la diapositive 21 est un pseudo-code pour l'algorithme épisodique de renforcement, qui est fondamentalement une méthode basée sur un gradient où le rendement attendu est échantillonné directement à partir de l'épisode (au lieu de l'estimer avec certains appris une fonction). Dans ce cas, le rendement attendu est en fait la récompense épisodique totale à partir de cette étape,gt .
initialiserθ
pour chaque épisode {s1,une1,r2. . .sT- 1,uneT- 1,rT } échantillonné à partir de la stratégie πθ faire
pour t = 1 à T - 1 do
fin pour
fin pour
Cet algorithme souffre d'une variance élevée car les récompenses échantillonnées peuvent être très différentes d'un épisode à l'autre, donc cet algorithme est généralement utilisé avec une ligne de base soustraite de la politique. Voici une explication plus détaillée avec des exemples de code.
la source
L'algorithme REINFORCE pour l'apprentissage par renforcement de gradient de politique est un algorithme de gradient stochastique simple. Cela fonctionne bien lorsque les épisodes sont relativement courts, de sorte que de nombreux épisodes peuvent être simulés. Les méthodes de valeur-fonction sont meilleures pour les épisodes plus longs car elles peuvent commencer à apprendre avant la fin d'un seul épisode.
la source