J'essaie de comprendre le célèbre article "Jouer à Atari avec l'apprentissage par renforcement profond" ( pdf ). Je ne suis pas clair sur la différence entre une époque et un épisode . Dans l'algorithme , la boucle externe est sur des épisodes , tandis que sur la figure l'axe des x est étiqueté époque . Dans le contexte de l'apprentissage par renforcement, je ne sais pas ce que signifie une époque. Une époque est-elle une boucle extérieure autour de la boucle d'épisode?
14
Réponses:
Dans le document que vous mentionnez, ils semblent être plus flexibles en ce qui concerne la signification de l'époque, car ils définissent simplement une époque comme étant une certaine quantité de mises à jour de poids. Vous pouvez donc voir une époque comme étant une boucle extérieure autour de la boucle d'épisode, comme vous l'avez mentionné dans la question.
la source