Dans le document présentant DQN " Jouer à Atari avec l'apprentissage par renforcement profond ", il mentionnait:
Notez que lors de l'apprentissage par rejeu d'expérience, il est nécessaire d'apprendre hors politique (car nos paramètres actuels sont différents de ceux utilisés pour générer l'échantillon), ce qui motive le choix du Q-learning.
Je n'ai pas bien compris ce que cela signifie. Que se passe-t-il si nous utilisons SARSA et nous souvenons de l'action a'
pour l'action que nous devons effectuer dans s'
notre mémoire, puis en échantillonnons des lots et mettons à jour Q comme nous l'avons fait dans DQN? Et, les méthodes d'acteur-critique (A3C, pour spécifique) peuvent-elles utiliser la relecture d'expérience? Sinon, pourquoi?
la source
(s, a, r, s')
et je tire cette expérience pour la rejouer; Supposons maintenant que ma politique actuelle dit que vous devriez prendrea'
surs'
, puis marque jeQ(s, a)
doit êtrer + Q(s', a')
et faire une descente de gradient. Je pense que je fais l'expérience de rejouer sur la politique. Y a-t-il un problème avec le processus?David Silver aborde ce sujet dans cette conférence vidéo à 46:10 http://videolectures.net/rldm2015_silver_reinforcement_learning/ : La relecture d'expérience choisit parmi les utilisant la politique en vigueur à l'époque, et c'est l'un de ses avantages - il permet la fonction Q pour apprendre des politiques précédentes, ce qui rompt la corrélation des états et politiques récents et empêche le réseau de se "verrouiller" dans un certain mode de comportement.sa s
la source