TL; DR.
Le fait que le taux d'actualisation soit limité à 1 est une astuce mathématique pour finaliser une somme infinie. Cela aide à prouver la convergence de certains algorithmes.
En pratique, le facteur de réduction pourrait être utilisé pour modéliser le fait que le décideur ne sait pas si le prochain monde (par exemple, environnement / jeu / processus ) va prendre fin.
Par exemple:
Si le décideur est un robot, le facteur de réduction pourrait être la probabilité que le robot soit éteint dans l'instant (le monde se termine dans la terminologie précédente). C’est la raison pour laquelle le robot est myope et n’optimise pas la récompense, mais la
récompense actualisée .
Facteur d'actualisation inférieur à 1 (en détail)
Afin de répondre plus précisément au pourquoi le taux d'actualisation doit être inférieur à un, je vais d'abord introduire les processus de décision de Markov (PDM).
Des techniques d'apprentissage par renforcement peuvent être utilisées pour résoudre les PDM. Un PDM fournit un cadre mathématique pour la modélisation de situations de prise de décision où les résultats sont en partie aléatoires et en partie sous le contrôle du décideur. Un MDP est défini via un espace d’états , un espace d’action , une fonction de probabilités de transition entre états (conditionnée par l’action prise par le décideur) et une fonction de récompense.SUNE
Dans son contexte de base, le décideur prend des mesures et obtient une récompense de l'environnement. L'environnement change alors d'état. Ensuite, le décideur détecte l’état de l’environnement, passe à l’action, obtient une récompense, etc. Les transitions d'état sont probabilistes et dépendent uniquement de l'état réel et des mesures prises par le décideur. La récompense obtenue par le décideur dépend de l'action entreprise et de l'état initial et du nouvel état de l'environnement.
Une récompense est obtenue lors d'une action dans l'état et l'environnement / le système passe à l'état après que le décideur a pris l'action . Le décideur suit une politique, , pour chaque état effectue une action . La politique indique donc au décideur les actions à prendre dans chaque état. La politique peut aussi être randomisée mais cela n’a aucune importance pour le moment.Runeje( sj, sk)unejesjskunejeπ π( ⋅ ) : S→ unsj∈ Suneje∈ unπ
L’objectif est de trouver une politique telle queπ
maxπ: S( n ) → ajelimT→ ∞E{ Σn = 1TβnRXje( S( n ) , S( n + 1 ) ) } ( 1 ) ,
où est le facteur de réduction et .ββ< 1
Notez que le problème d'optimisation ci-dessus a un horizon temporel infini ( ) et que l'objectif est de maximiser la somme de la récompense (la récompense est multipliée par ). Ce problème est généralement appelé un problème MDP avec un horizon infini de critères de récompense actualisés .T→ ∞réi s c o u n t e dRβn
Le problème s'appelle discounted parce que . S'il ne s'agissait pas d'un problème actualisé la somme ne convergerait pas. Toutes les polices qui obtiennent en moyenne une récompense positive à chaque instant résument à l'infini. Ce serait un critère de récompense de somme d'horizon infini , et ce n'est pas un bon critère d'optimisation.β< 1β= 1
Voici un exemple de jouet pour vous montrer ce que je veux dire:
Supposons qu'il n'y a que deux actions possibles et que la fonction de récompense est égale à si et à si (la récompense ne dépend pas de l'état).a = 0 , 1R1a = 10a = 0
Il est clair que la politique qui obtient plus de récompense consiste à toujours prendre l’action et jamais l’action . Je vais appeler cette politique . Je vais comparer à une autre politique qui effectue l'action avec une faible probabilité et l'action sinon.a = 1a = 0π*π*π′a = 1α < < 1a = 0
Dans l'horizon infini, l'équation (1) des critères de récompense actualisée devient (la somme d'une série géométrique) pour la règle tandis que pour la règle équation (1) devient la . Depuis , nous disons que est une meilleure politique que . En fait, est la politique optimale.11 - βπ*π′α1 - β11 - β> α1 - βπ*π′π*
Dans l’horizon infini, le critère de récompense de somme ( ) ne correspond à aucune équation (1) pour les polices (il résume à l’infini). Ainsi, alors que la politique obtient des récompenses plus élevées que deux politiques sont égales en fonction de ce critère. C'est une des raisons pour lesquelles le critère de récompense de somme d'horizon infini n'est pas utile.β= 1ππ′
Comme je l'ai déjà mentionné, fait en sorte que la somme de l'équation (1) converge.β< 1
Autres critères d'optimalité
Il y a d'autres critères d'optimalité qui n'imposent pas que :β< 1
Dans le cas des critères d’horizon fini, l’objectif est de maximiser la récompense actualisée jusqu’à l’horizon temporelT
maxπ: S( n ) → ajeE{ Σn = 1TβnRXje( S( n ) , S( n + 1 ) ) } ,
pour et fini.β≤ 1T
Dans les critères de récompense moyenne de l'horizon infini, l'objectif est
maxπ: S( n ) → ajelimT→ ∞E{ Σn = 1T1TRXje( S( n ) , S( n + 1 ) ) } ,
Note de fin
En fonction des critères d'optimalité, on utilisera un algorithme différent pour trouver la stratégie optimale. Par exemple, les stratégies optimales des problèmes d'horizon fini dépendent à la fois de l'état et de l'instant temporel réel. La plupart des algorithmes d'apprentissage par renforcement (tels que SARSA ou Q-learning) convergent vers la stratégie optimale uniquement pour les critères d'horizon infini des récompenses actualisées (il en va de même pour les algorithmes de programmation dynamique). Pour les critères de récompense moyenne, il n’existe aucun algorithme qui converge vers la politique optimale; toutefois, on peut utiliser le R-learning qui offre de bonnes performances, même si la convergence théorique n’est pas satisfaisante.
la source
TL; DR: les facteurs de réduction sont associés aux horizons temporels. Les horizons à long terme ont beaucoup plus de variance car ils incluent plus d'informations non pertinentes, tandis que les horizons à court terme sont orientés vers les gains à court terme.
la source