Quelle est la différence entre l'épisode et l'époque dans l'apprentissage Q profond?

14

J'essaie de comprendre le célèbre article "Jouer à Atari avec l'apprentissage par renforcement profond" ( pdf ). Je ne suis pas clair sur la différence entre une époque et un épisode . Dans l'algorithme , la boucle externe est sur des épisodes , tandis que sur la figure l'axe des x est étiqueté époque . Dans le contexte de l'apprentissage par renforcement, je ne sais pas ce que signifie une époque. Une époque est-elle une boucle extérieure autour de la boucle d'épisode? 12

entrez la description de l'image ici

entrez la description de l'image ici

UN D
la source
1
Alors ... combien d'épisodes font une époque?
Lewen

Réponses:

10
  • un épisode = un une séquence d'états, d'actions et de récompenses, qui se termine par un état terminal. Par exemple, jouer un jeu entier peut être considéré comme un épisode, l'état terminal étant atteint lorsqu'un joueur perd / gagne / tire. Parfois, on peut préférer définir un épisode comme plusieurs jeux ( exemple : "chaque épisode est de quelques dizaines de jeux, car les jeux montent au score de 21 pour chaque joueur").
  • une époque = une passe avant et une passe arrière de tous les exemples d'apprentissage, dans la terminologie du réseau neuronal.

Dans le document que vous mentionnez, ils semblent être plus flexibles en ce qui concerne la signification de l'époque, car ils définissent simplement une époque comme étant une certaine quantité de mises à jour de poids. Vous pouvez donc voir une époque comme étant une boucle extérieure autour de la boucle d'épisode, comme vous l'avez mentionné dans la question.

Franck Dernoncourt
la source