Comprendre le rôle du facteur d'escompte dans l'apprentissage par renforcement

43

Je m'enseigne moi-même sur l'apprentissage par renforcement et j'essaie de comprendre le concept de récompense actualisée. La récompense est donc nécessaire pour indiquer au système quelles paires d’État-action sont bonnes et lesquelles sont mauvaises. Mais ce que je ne comprends pas, c'est pourquoi la récompense à prix réduit est nécessaire. Pourquoi importe-t-il si un bon état est atteint rapidement plutôt que plus tard?

Je comprends que cela soit pertinent dans certains cas spécifiques. Par exemple, si vous utilisez l'apprentissage par renforcement pour négocier sur le marché boursier, il est plus avantageux de réaliser des bénéfices le plus tôt possible. En effet, disposer de cet argent vous permet maintenant de faire des choses avec cet argent maintenant, ce qui est plus souhaitable que de le faire plus tard.

Mais dans la plupart des cas, je ne vois pas pourquoi la réduction est utile. Par exemple, supposons que vous vouliez qu'un robot apprenne à naviguer dans une pièce pour atteindre l'autre côté, où des pénalités sont prévues s'il se heurte à un obstacle. S'il n'y avait pas de facteur d'escompte, il apprendrait à atteindre parfaitement l'autre côté, sans se heurter à aucun obstacle. Il faudra peut-être beaucoup de temps pour y arriver, mais cela finira par arriver.

Mais si nous accordons un rabais à la récompense, le robot sera encouragé à atteindre rapidement l’autre côté de la pièce, même s’il doit heurter des objets tout au long du parcours. Ce n'est clairement pas un résultat souhaitable. Bien sûr, vous souhaitez que le robot atteigne rapidement l’autre côté, mais pas si cela signifie qu’il doit entrer en collision avec des objets.

Mon intuition est donc que toute forme de facteur de réduction conduira en fait à une solution sous-optimale. Et le choix du facteur d'actualisation semble souvent arbitraire - de nombreuses méthodes que j'ai vues tout simplement le fixent à 0,9. Cela me semble très naïf et semble donner un compromis arbitraire entre la solution optimale et la solution la plus rapide, alors qu'en réalité ce compromis est très important.

S'il vous plaît, quelqu'un peut-il m'aider à comprendre tout cela? Je vous remercie :)

Karnivaurus
la source

Réponses:

36

TL; DR.

Le fait que le taux d'actualisation soit limité à 1 est une astuce mathématique pour finaliser une somme infinie. Cela aide à prouver la convergence de certains algorithmes.

En pratique, le facteur de réduction pourrait être utilisé pour modéliser le fait que le décideur ne sait pas si le prochain monde (par exemple, environnement / jeu / processus ) va prendre fin.

Par exemple:

Si le décideur est un robot, le facteur de réduction pourrait être la probabilité que le robot soit éteint dans l'instant (le monde se termine dans la terminologie précédente). C’est la raison pour laquelle le robot est myope et n’optimise pas la récompense, mais la récompense actualisée .

Facteur d'actualisation inférieur à 1 (en détail)

Afin de répondre plus précisément au pourquoi le taux d'actualisation doit être inférieur à un, je vais d'abord introduire les processus de décision de Markov (PDM).

Des techniques d'apprentissage par renforcement peuvent être utilisées pour résoudre les PDM. Un PDM fournit un cadre mathématique pour la modélisation de situations de prise de décision où les résultats sont en partie aléatoires et en partie sous le contrôle du décideur. Un MDP est défini via un espace d’états , un espace d’action , une fonction de probabilités de transition entre états (conditionnée par l’action prise par le décideur) et une fonction de récompense.SA

Dans son contexte de base, le décideur prend des mesures et obtient une récompense de l'environnement. L'environnement change alors d'état. Ensuite, le décideur détecte l’état de l’environnement, passe à l’action, obtient une récompense, etc. Les transitions d'état sont probabilistes et dépendent uniquement de l'état réel et des mesures prises par le décideur. La récompense obtenue par le décideur dépend de l'action entreprise et de l'état initial et du nouvel état de l'environnement.

Une récompense est obtenue lors d'une action dans l'état et l'environnement / le système passe à l'état après que le décideur a pris l'action . Le décideur suit une politique, , pour chaque état effectue une action . La politique indique donc au décideur les actions à prendre dans chaque état. La politique peut aussi être randomisée mais cela n’a aucune importance pour le moment.Rai(sj,sk)aisjskaiπ π():SAsjSaiAπ

L’objectif est de trouver une politique telle queπ

maxπ:S(n)ailimTE{n=1TβnRxi(S(n),S(n+1))}(1),
où est le facteur de réduction et .ββ<1

Notez que le problème d'optimisation ci-dessus a un horizon temporel infini ( ) et que l'objectif est de maximiser la somme de la récompense (la récompense est multipliée par ). Ce problème est généralement appelé un problème MDP avec un horizon infini de critères de récompense actualisés .TdiscountedRβn

Le problème s'appelle discounted parce que . S'il ne s'agissait pas d'un problème actualisé la somme ne convergerait pas. Toutes les polices qui obtiennent en moyenne une récompense positive à chaque instant résument à l'infini. Ce serait un critère de récompense de somme d'horizon infini , et ce n'est pas un bon critère d'optimisation.β<1β=1

Voici un exemple de jouet pour vous montrer ce que je veux dire:

Supposons qu'il n'y a que deux actions possibles et que la fonction de récompense est égale à si et à si (la récompense ne dépend pas de l'état).a=0,1R1a=10a=0

Il est clair que la politique qui obtient plus de récompense consiste à toujours prendre l’action et jamais l’action . Je vais appeler cette politique . Je vais comparer à une autre politique qui effectue l'action avec une faible probabilité et l'action sinon.a=1a=0πππa=1α<<1a=0

Dans l'horizon infini, l'équation (1) des critères de récompense actualisée devient (la somme d'une série géométrique) pour la règle tandis que pour la règle équation (1) devient la . Depuis , nous disons que est une meilleure politique que . En fait, est la politique optimale.11βππα1β11β>α1βπππ

Dans l’horizon infini, le critère de récompense de somme ( ) ne correspond à aucune équation (1) pour les polices (il résume à l’infini). Ainsi, alors que la politique obtient des récompenses plus élevées que deux politiques sont égales en fonction de ce critère. C'est une des raisons pour lesquelles le critère de récompense de somme d'horizon infini n'est pas utile.β=1ππ

Comme je l'ai déjà mentionné, fait en sorte que la somme de l'équation (1) converge.β<1

Autres critères d'optimalité

Il y a d'autres critères d'optimalité qui n'imposent pas que :β<1

Dans le cas des critères d’horizon fini, l’objectif est de maximiser la récompense actualisée jusqu’à l’horizon temporelT

maxπ:S(n)aiE{n=1TβnRxi(S(n),S(n+1))},

pour et fini.β1T

Dans les critères de récompense moyenne de l'horizon infini, l'objectif est

maxπ:S(n)ailimTE{n=1T1TRxi(S(n),S(n+1))},

Note de fin

En fonction des critères d'optimalité, on utilisera un algorithme différent pour trouver la stratégie optimale. Par exemple, les stratégies optimales des problèmes d'horizon fini dépendent à la fois de l'état et de l'instant temporel réel. La plupart des algorithmes d'apprentissage par renforcement (tels que SARSA ou Q-learning) convergent vers la stratégie optimale uniquement pour les critères d'horizon infini des récompenses actualisées (il en va de même pour les algorithmes de programmation dynamique). Pour les critères de récompense moyenne, il n’existe aucun algorithme qui converge vers la politique optimale; toutefois, on peut utiliser le R-learning qui offre de bonnes performances, même si la convergence théorique n’est pas satisfaisante.

PolBM
la source
1
Une idée sur ce que je devrais lire pour comprendre tout le chinois dans votre réponse?
thibaut noah
@thibautnoah C’est à mon humble avis la meilleure référence. Apprentissage par renforcement: Une introduction de Sutton et Barto. [ people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf]
PolBM
merci mate, aura probablement besoin d'un autre livre sur les mathématiques, mais je suppose que c'est un début;)
thibaut noah
6

γλλ

Neil G
la source
2

TL; DR: les facteurs de réduction sont associés aux horizons temporels. Les horizons à long terme ont beaucoup plus de variance car ils incluent plus d'informations non pertinentes, tandis que les horizons à court terme sont orientés vers les gains à court terme.

γ=0γ=1

γdéterminera dans votre jugement si vous avez ou non pris la bonne décision en matière de smoothie. Vous prendrez en compte de nombreuses informations non pertinentes. Par conséquent, votre jugement aura une énorme variance et il sera difficile à apprendre.

γG

Gt=Rt+γRt+1+γ2Rt+2+=k=0γkRt+k=Δt=0eΔt/τRt+Δt
γ=e1/τkΔtτγ=1τ=τ

clwainwright
la source