Il me semble que la fonction peut être facilement exprimée par la fonction et donc la fonction me semble superflue. Cependant, je suis nouveau dans l'apprentissage par renforcement, donc je suppose que je me suis trompé.
Définitions
L'apprentissage Q et V s'inscrit dans le contexte des processus de décision de Markov . Un MDP est un 5-tuple avec
- est un ensemble d'états (généralement finis)
- est un ensemble d'actions (généralement finies)
- est la probabilité de passer de l'état à l'état avec l'action .
- est la récompense immédiate après être passé de l'état à l'état avec l'action . (Il me semble que généralement questions).
- est appelé facteur d'actualisation et détermine si l'on se concentre sur les récompenses immédiates ( ), la récompense totale ( ) ou certains compromis.
Une politique , selon Reinforcement Learning: An Introduction de Sutton et Barto, est une fonction (cela pourrait être probabiliste).
D'après les diapositives de Mario Martins , la fonction est
Mes pensées
La fonction indique quelle est la valeur globale attendue (pas la récompense!) D'un état sous la politique .
La fonction indique quelle est la valeur d'un état s et d'une action a sous la politique π .
Cela signifie que
Droite? Alors, pourquoi avons-nous la fonction de valeur? (Je suppose que j'ai mélangé quelque chose)
la source
Cela peut sembler étrange au premier abord, car il exprime la valeur Q d'une action dans l'état actuel en termes de la meilleure valeur Q d'un état successeur , mais cela a du sens lorsque vous regardez comment le processus de sauvegarde l'utilise: l'exploration le processus s'arrête lorsqu'il atteint un état objectif et recueille la récompense, qui devient la valeur Q de cette transition finale. Dans un épisode de formation ultérieur, lorsque le processus d'exploration atteint cet état prédécesseur, le processus de sauvegarde utilise l'égalité ci-dessus pour mettre à jour la valeur Q actuelle de l'état prédécesseur. La prochaine fois que lale prédécesseur est visité pour que la valeur Q de l'état soit mise à jour, et ainsi de suite sur la ligne (le livre de Mitchell décrit une manière plus efficace de le faire en stockant tous les calculs et en les rejouant plus tard). À condition que chaque état soit visité à l'infini souvent, ce processus calcule finalement le Q optimal
la source
la source
La fonction de valeur est une formulation abstraite d'utilité. Et la fonction Q est utilisée pour l'algorithme Q-learning.
la source