Apprentissage par renforcement: une introduction. Deuxième édition, en cours ., Richard S. Sutton et Andrew G. Barto (c) 2012, pp. 67-68.
Résoudre une tâche d'apprentissage par renforcement signifie, en gros, trouver une politique qui obtient beaucoup de récompenses à long terme. Pour les MDP finis, nous pouvons définir précisément une politique optimale de la manière suivante. Les fonctions de valeur définissent un ordre partiel sur les stratégies. Une politique est définie comme étant supérieure ou égale à une politique si son rendement attendu est supérieur ou égal à celui de , pour tous les États. En d'autres termes, si et seulement si , pour tout . Il existe toujours au moins une stratégie meilleure ou égale à toutes les autres stratégies. Il s'agit d'une politique optimale.
Pourquoi y a-t-il toujours au moins une politique meilleure ou égale à toutes les autres politiques?
Réponses:
Juste après la partie citée, le même paragraphe vous dit en fait quelle est cette politique: c'est celle qui prend la meilleure action dans chaque état. Dans un MDP, l'action que nous entreprenons dans un État n'affecte pas les récompenses pour les actions entreprises dans d'autres, nous pouvons donc simplement maximiser la politique État par État.
la source
L'existence d'une politique optimale n'est pas évidente. Pour voir pourquoi, notez que la fonction de valeur ne fournit qu'un ordre partiel sur l'espace des stratégies. Ça signifie:
Comme il ne s'agit que d'un ordre partiel, il pourrait y avoir un cas où deux politiques, et π 2 , ne sont pas comparables. En d'autres termes, il existe des sous-ensembles de l'espace d'état, S 1 et S 2 tels que:π1 π2 S1 S2
Dans ce cas, nous ne pouvons pas dire qu'une politique est meilleure que l'autre. Mais si nous avons affaire à des MDP finis avec des fonctions de valeur bornées, un tel scénario ne se produit jamais. Il existe exactement une fonction de valeur optimale, bien qu'il puisse exister plusieurs politiques optimales.
Pour en avoir la preuve, vous devez comprendre le théorème du point fixe de Banach. Pour une analyse détaillée, veuillez vous référer .
la source
Réglage
Nous envisageons dans le cadre de:
La politique optimale est définie comme: et la fonction de valeur optimale est: V ∗ = max π V π ( s ) , ∀ s ∈ S Il peut y avoir un ensemble des politiques qui atteignent le maximum. Mais il n'y a qu'une seule fonction de valeur optimale: V ∗ = V π ∗
La question
Comment prouver qu'il existe au moins un qui satisfait (1) simultanément pour tout s ∈ S ?π∗ s∈S
Aperçu de la preuve
Construire l' équation optimale à utiliser comme définition de substitution temporaire de la fonction de valeur optimale, dont nous prouverons à l'étape 2 qu'elle est équivalente à la définition via l'équation (2).
Dérivez l'équivalence de la définition de la fonction de valeur optimale via l'équation (4) et via l'équation (2).
(Notez en fait que nous n'avons besoin que de la direction de nécessité dans la preuve, car la suffisance est évidente puisque nous avons construit l'équation (4) à partir de l'équation (2).)
Démontrer qu'il existe une solution unique à l'équation (4).
Par l'étape 2, nous savons que la solution obtenue à l'étape 3 est également une solution à l'équation (2), c'est donc une fonction de valeur optimale.
À partir d'une fonction de valeur optimale, nous pouvons récupérer une politique optimale en choisissant l'action de maximisation dans l'équation (4) pour chaque état.
Détails des étapes
1Puisque , nous avons V π ∗ ( s ) ≤ max a ∈ A Q π ∗ ( s , a ) . Et s'il y a des ˜ s tels que V π ∗ ≠ max a ∈V∗(s)=Vπ∗(s)=Ea[Qπ∗(s,a)] Vπ∗(s)≤maxa∈AQπ∗(s,a) s~ Vπ∗≠maxa∈AQπ∗(s,a) Q∗(s,a)=Qπ∗(s,a) a
2(=>)
Suit l'étape 1.
(<=)
Define the optimal Bellman operator as
a) IfV~≥TV~ , then V~≥V∗ .
b) IfV~≤TV~ , then V~≤V∗ .
Proof:
a)
For anyπ=(d1,d2,...) ,
By induction, for anyn ,
Since
Follows from step 1.
3The optimal Bellman operator is a contraction inL∞ norm, cf. [2].
Proof: For anys ,
Thus by Banach fixed point theorum it follows thatT has a unique fixed point.
References
[1] Puterman, Martin L.. “Markov Decision Processes : Discrete Stochastic Dynamic Programming.” (2016).
[2] A. Lazaric. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf
la source