En quoi consiste exactement l'amorçage dans l'apprentissage par renforcement?

23

Apparemment, dans l'apprentissage par renforcement, la méthode de la différence temporelle (TD) est une méthode d'amorçage. En revanche, les méthodes Monte Carlo ne sont pas des méthodes d'amorçage.

En quoi consiste exactement l'amorçage dans RL? Qu'est-ce qu'une méthode d'amorçage en RL?

nbro
la source

Réponses:

22

Le bootstrapping dans RL peut être lu comme "utilisant une ou plusieurs valeurs estimées dans l'étape de mise à jour pour le même type de valeur estimée".

Dans la plupart des règles de mise à jour de TD, vous verrez quelque chose comme cette mise à jour SARSA (0):

Q(s,a)Q(s,a)+α(Rt+1+γQ(s,a)Q(s,a))

La valeur Rt+1+γQ(s,a) est une estimation de la vraie valeur de Q(s,a) , également appelée cible TD. Il s'agit d'une méthode d'amorçage car nous utilisons en partie une valeur Q pour mettre à jour une autre valeur Q. Il existe une petite quantité de données réelles observées sous la forme de Rt+1 , la récompense immédiate pour l'étape, ainsi que dans la transition d'état ss .

Contrairement à Monte Carlo où la règle de mise à jour équivalente peut être:

Q(s,a)Q(s,a)+α(GtQ(s,a))

Gt était la récompense totale actualisée au temps t , en supposant dans cette mise à jour, qu'elle a commencé dans l'état s , en prenant l'action a , puis a suivi la politique actuelle jusqu'à la fin de l'épisode. Techniquement, Gt=k=0Tt1γkRt+k+1Test le pas de temps pour la récompense finale et l'état. Notamment, cette valeur cible n'utilise aucune estimation existante (à partir d'autres valeurs Q), elle utilise uniquement un ensemble d'observations (c.-à-d. Des récompenses) de l'environnement. En tant que tel, il est garanti qu'il s'agit d'une estimation non biaisée de la vraie valeur de Q(s,a) , car il s'agit techniquement d'un échantillon de Q(s,a) .

Le principal inconvénient du bootstrapping est qu'il est biaisé vers quelles que soient vos valeurs de départ de Q(s,a) (ou V(s) ). Ce sont probablement des erreurs, et le système de mise à jour peut être instable dans son ensemble en raison de trop d'auto-référence et pas assez de données réelles - c'est un problème avec l'apprentissage hors politique (par exemple Q-learning) en utilisant des réseaux de neurones.

Sans amorçage, en utilisant des trajectoires plus longues, il y a souvent une variance élevée à la place, ce qui, en pratique, signifie que vous avez besoin de plus d'échantillons avant que les estimations convergent. Ainsi, malgré les problèmes de bootstrap, s'il peut fonctionner, il peut apprendre beaucoup plus rapidement et est souvent préféré aux approches de Monte Carlo.

Vous pouvez faire un compromis entre les méthodes basées sur des échantillons Monte Carlo et les méthodes TD en une seule étape qui démarrent en utilisant un mélange de résultats provenant de trajectoires de longueur différentes. C'est ce qu'on appelle l' apprentissage TD ( λ ) , et il existe une variété de méthodes spécifiques telles que SARSA ( λ ) ou Q ( λ ).

Neil Slater
la source
1
Cela devrait probablement être une autre question. Cependant, si vous voulez répondre, pourquoi exactement et une estimation pour Q ( s , a ) ? Rt+1+γQ(s,a)Q(s,a)
nbro
1
@nbro: Parce qu'à la convergence, (ces équations et la plupart des RL sont pilotées par les équations de Bellman pour les MDP). En regardant un événement réel qui s'est produit à partir de l'état s et de l'action aQ(s,a)=E[Rt+1+γQ(St+1,At+1)|St=s,At=a]sa, vous échantillonnez essentiellement à partir de cette attente. Le problème est cependant que la valeur que vous avez pour n'a probablement pas encore convergé, donc l'échantillon est biaisé. Q(St+1,At+1)
Neil Slater
1
Qu'est-ce qui empêche d'utiliser des méthodes MC comme phase de gravure avant de passer au bootstrap? Ou pourrait-on considérer cela comme un sous-cas de ? λTD
n1k31t4
1
@ n1k31t4: Rien n'empêche de faire cela, et ce devrait être une approche RL valide. Ce serait différent de TD ( ), mais motivé par la même idée d'essayer d'obtenir de bonnes fonctionnalités des deux algorithmes. Vous auriez besoin de l'essayer et de comparer l'efficacité d'apprentissage avec TD ( λ ) - vous avez toujours un hyper paramètre à régler, qui est le nombre d'épisodes pour exécuter MC. Une version plus générale consisterait à permettre à λ de changer - commencez par λ = 1 et diminuez-le jusqu'à par exemple 0,4 ou la valeur qui semble la plus optimale. Cependant, cela a 2 hyper paramètres, taux de désintégration et cible pour λλλλλ=10.4λ
Neil Slater
@NeilSlater, lors de l'utilisation du bootstrap, peut-il converger? Je ne peux pas comprendre pourquoi il le devrait puisque Q (s ', a') n'est qu'une supposition arbitraire qui déforme alors l'estimation de Q (s, a). Aussi, pourquoi MC a-t-il une variance élevée par rapport à TD?
d56
4

En général, l'amorçage dans RL signifie que vous mettez à jour une valeur basée sur certaines estimations et non sur certaines valeurs exactes . Par exemple

Mises à jour incrémentales de l'évaluation des politiques de Monte Carlo:

V(St)=V(St)+α(GtV(St))

Mises à jour de l'évaluation des politiques de TD (0):

V(St)=V(St)+α(Rt+1+γV(St+1)V(St))

Dans TD (0), le retour à partir de l'état est estimé (bootstrapé) par R t + 1 + γ V ( S t + 1 ) tandis que dans MC nous utilisons le retour exact G t .sRt+1+γV(St+1) Gt

plopd
la source