Le site Web sur l' intelligence artificielle définit l'apprentissage hors politique et en ligne comme suit:
"Un apprenant hors politique apprend la valeur de la politique optimale indépendamment des actions de l'agent. Q-learning est un apprenant hors politique. Un apprenant en politique découvre la valeur de la politique mise en œuvre par l'agent, y compris les étapes d'exploration. . "
J'aimerais vous demander des éclaircissements à ce sujet, car ils ne semblent pas faire de différence pour moi. Les deux définitions semblent identiques. Ce que j’ai bien compris, c’est l’apprentissage sans modèle et basé sur un modèle, et je ne sais pas s’ils ont quelque chose à voir avec ceux en question.
Comment est-il possible que la stratégie optimale soit apprise indépendamment des actions de l'agent? La stratégie n'est-elle pas apprise lorsque l'agent exécute les actions?
Réponses:
Tout d’abord, il n’ya aucune raison qu’un agent doive faire l’ action gloutonne ; Les agents peuvent explorer ou suivre des options . Ce n'est pas ce qui distingue l'apprentissage en politique de l'apprentissage non politique.
La raison pour laquelle Q-learning n’est pas conforme à la politique est qu’elle met à jour ses valeurs Q à l’aide de la valeur Q de l’état suivant et de l’ action gloutonne . En d'autres termes, il estime que le rendement (total de la récompense future actualisée) pour les paires action-état dans l'hypothèse d'une politique gloutonne a été suivi alors que cela ne suit pas une politique gloutonne.s′ a ′ a′
La raison pour laquelle SARSA est conforme à la politique est qu'elle met à jour ses valeurs Q à l'aide de la valeur Q de l'état suivant et de l' action de la stratégie actuelle . Il estime le rendement des paires état-action en supposant que la politique actuelle continue d'être suivie.s′ a′′
La distinction disparaît si la politique actuelle est une politique gourmande. Cependant, un tel agent ne serait pas bon car il n’explore jamais.
Avez-vous consulté le livre disponible gratuitement en ligne? Richard S. Sutton et Andrew G. Barto. Apprentissage par renforcement: une introduction. Deuxième édition, MIT Press, Cambridge, MA, 2018.
la source
Les méthodes sur stratégie évaluent la valeur d'une stratégie tout en l'utilisant pour le contrôle.
Dans les méthodes hors stratégie , la stratégie utilisée pour générer le comportement, appelée stratégie de comportement , peut ne pas être liée à la stratégie évaluée et améliorée, appelée stratégie d' estimation .
Un avantage de cette séparation est que la politique d'estimation peut être déterministe (par exemple gourmande), tandis que la politique de comportement peut continuer à échantillonner toutes les actions possibles.
Pour plus de détails, voir les sections 5.4 et 5.6 de l’ouvrage L’ apprentissage par renforcement: une introduction de Barto et Sutton, première édition.
la source
La différence entre les méthodes hors stratégie et les stratégies actives est qu'avec la première méthode, vous n'avez pas besoin de suivre une stratégie spécifique. Votre agent peut même se comporter de manière aléatoire. Malgré cela, les méthodes hors stratégie peuvent toujours trouver la stratégie optimale. D'autre part, les méthodes en ligne dépendent de la politique utilisée. Dans le cas de Q-Learning, qui est hors stratégie, il trouvera la stratégie optimale indépendamment de la stratégie utilisée lors de l'exploration. Toutefois, cela n'est vrai que lorsque vous visitez suffisamment d'états différents. Vous pouvez trouver dans le document original de Watkins la preuve qui montre cette très belle propriété de Q-Learning. Il y a cependant un compromis à faire et c'est que les méthodes non politiques ont tendance à être plus lentes que les méthodes non politiques. Voici un lien avec d'autres résumé intéressant des propriétés des deux types de méthodes
la source
Tout d’abord, que signifie réellement politique (noté )? Policy spécifie une action , effectuée dans un état (ou plus précisément, est une probabilité, qu'une action soit entreprise dans un état ).π
a s π a s
Deuxièmement, quels types d’apprentissage avons-nous?Q(s,a) a s
π π(a|s)
1. Evaluer la fonction : prédire la somme des récompenses actualisées futures, où est une action et est un état. 2. Trouvez (en fait, ), qui donne une récompense maximale.
Retour à la question initiale. L'apprentissage en politique et hors politique n'est lié qu'à la première tâche: évaluer .Q(s,a)
La différence est la suivante:Q(s,a) π
Q(s,a)
Dans sur la politique d' apprentissage du fonction appris des actions, nous avons utilisé notre politique actuelle . Dans l' apprentissage non politique, la fonction est apprise à partir de différentes actions (par exemple, des actions aléatoires). Nous n'avons même pas besoin d'une politique du tout!
Voici la fonction de mise à jour de l' algorithme SARSA en politique : , où est l'action qui a été prise conformément à la politique .Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)−Q(s,a)) a′ π
Comparez-le avec la fonction de mise à jour de l' algorithme Q-learning hors stratégie : , où sont toutes les actions qui ont été sondées dans l'état .Q(s,a)←Q(s,a)+α(r+γmaxa′Q(s′,a′)−Q(s,a)) a′ s′
la source
Extrait du livre de Sutton: "L’approche politique de la section précédente est en réalité un compromis: elle apprend des valeurs d’action non pas pour une politique optimale, mais pour une politique presque optimale qui reste explorée. Une approche plus simple consiste à utiliser deux politiques Une stratégie qui est apprise et qui devient la politique optimale, et qui est plus exploratoire et est utilisée pour générer un comportement.La politique en cours d’apprentissage est appelée politique cible et la politique utilisée pour générer un comportement est appelée politique de comportement. Dans ce cas, nous disons que l'apprentissage provient des données «de la politique cible» et que l'ensemble du processus est appelé «apprentissage par la politique». "
la source