Dans l'apprentissage par renforcement, une politique est-elle toujours déterministe ou est-ce une distribution de probabilité sur les actions (à partir desquelles nous échantillonnons)? Si la politique est déterministe, pourquoi pas la fonction valeur, qui est définie à un état donné pour une politique donnée comme suit
une sortie ponctuelle?
Dans la définition ci-dessus, nous prenons une attente. Quelle est cette attente terminée?
Une politique peut-elle conduire à des itinéraires différents?
reinforcement-learning
deterministic-policy
stochastic-policy
MiloMinderbinder
la source
la source
Réponses:
Les questions sont multiples: 1. Une politique est-elle toujours déterministe? 2. Si la politique est déterministe, la valeur ne devrait-elle pas également être déterministe? 3. À quoi s'attend-on dans l'estimation de la fonction de valeur? Votre dernière question n'est pas très claire "Une politique peut-elle conduire à des itinéraires qui ont des valeurs actuelles différentes?" mais je pense que vous voulez dire: 4. Une politique peut-elle conduire à des itinéraires différents?
Une politique est une fonction qui peut être déterministe ou stochastique. Il dicte les actions à entreprendre dans un état particulier. La distribution est utilisée pour une politique stochastique et une fonction de mappage est utilisée pour une politique déterministe, où est l'ensemble des états possibles et est l'ensemble des actions possibles .π(a∣s) π:S→A S A
La fonction de valeur n'est pas déterministe. La valeur (d'un état) est la récompense attendue si vous commencez à cet état et continuez de suivre une politique. Même si la politique est déterministe, la fonction de récompense et l'environnement peuvent ne pas l'être.
L'attente dans cette formule est sur toutes les routes possibles à partir de l'état . Habituellement, les itinéraires ou les chemins sont décomposés en plusieurs étapes, qui sont utilisées pour former des estimateurs de valeur. Ces étapes peuvent être représentées par le tuple (état, action, récompense, état suivant)s (s,a,r,s′)
Ceci est lié à la réponse 2, la politique peut conduire à des chemins différents (même une politique déterministe) car l'environnement n'est généralement pas déterministe.
la source
La politique peut être stochastique ou déterministe. L'attente est supérieure aux exemples de formation compte tenu des conditions. La fonction de valeur est une estimation du rendement, c'est pourquoi c'est une attente.
la source