Pour répondre à votre question, permettez-moi d'abord d'écrire quelques (in) égalités importantes.
Équation d'optimalité de Bellman:
v∗(s)=maxaE[Rt+1+γv∗(St+1)∣St=s,At=a]=maxa∑s′p(s′∣s,a)[r(s,a,s′)+γv∗(s′)]
où v∗(.) est la fonction de valeur optimale.
Théorème d'amélioration des politiques ( Pit ):
Soit et n'importe quelle paire de politiques déterministes telles que, pour tout ,
Alors la politique doit être aussi bon ou meilleur que . Autrement dit, il doit obtenir un retour attendu supérieur ou égal de tous les états . ππ′s∈Sqπ(s,π′(s))≥vπ(s)π′πs∈S:vπ′(s)≥vπ(s)
(voir à la page 89 de Sutton & Barto, Renforcement de l'apprentissage: un livre d' introduction )
Nous pouvons améliorer une politique à chaque état par la règle suivante:π
π′(s)=argmaxaqπ(s,a)=argmaxa∑s′p(s′∣s,a)[r(s,a,s′)+γvπ(s′)]
Notre nouvelle politique satisfait la condition de Pit et est donc aussi bonne ou meilleure que . Si est aussi bon, mais pas meilleur que , alors pour tous les . De notre définition de nous déduisons que:π′ππ′πvπ′(s)=vπ(s)sπ′
vπ′(s)=maxaE[Rt+1+γvπ′(St+1)∣St=s,At=a]=maxa∑s′p(s′∣s,a)[r(s,a,s′)+γvπ′(s′)]
Mais cette égalité est la même que l'équation d'optimalité de Bellman, donc doit être égal à .vπ′v∗
D'après ce qui précède, il est clair, espérons-le, que si nous améliorons une politique et obtenons la même fonction de valeur que nous avions auparavant, la nouvelle politique doit être l'une des politiques optimales. Pour plus d'informations, voir Sutton & Barto (2012)