Le bootstrapping dans RL peut être lu comme "utilisant une ou plusieurs valeurs estimées dans l'étape de mise à jour pour le même type de valeur estimée".
Dans la plupart des règles de mise à jour de TD, vous verrez quelque chose comme cette mise à jour SARSA (0):
Q(s,a)←Q(s,a)+α(Rt+1+γQ(s′,a′)−Q(s,a))
La valeur Rt+1+γQ(s′,a′) est une estimation de la vraie valeur de Q(s,a) , également appelée cible TD. Il s'agit d'une méthode d'amorçage car nous utilisons en partie une valeur Q pour mettre à jour une autre valeur Q. Il existe une petite quantité de données réelles observées sous la forme de Rt+1 , la récompense immédiate pour l'étape, ainsi que dans la transition d'état s→s′ .
Contrairement à Monte Carlo où la règle de mise à jour équivalente peut être:
Q(s,a)←Q(s,a)+α(Gt−Q(s,a))
Où Gt était la récompense totale actualisée au temps t , en supposant dans cette mise à jour, qu'elle a commencé dans l'état s , en prenant l'action a , puis a suivi la politique actuelle jusqu'à la fin de l'épisode. Techniquement, Gt=∑T−t−1k=0γkRt+k+1 où Test le pas de temps pour la récompense finale et l'état. Notamment, cette valeur cible n'utilise aucune estimation existante (à partir d'autres valeurs Q), elle utilise uniquement un ensemble d'observations (c.-à-d. Des récompenses) de l'environnement. En tant que tel, il est garanti qu'il s'agit d'une estimation non biaisée de la vraie valeur de Q(s,a) , car il s'agit techniquement d'un échantillon de Q(s,a) .
Le principal inconvénient du bootstrapping est qu'il est biaisé vers quelles que soient vos valeurs de départ de Q(s′,a′) (ou V(s′) ). Ce sont probablement des erreurs, et le système de mise à jour peut être instable dans son ensemble en raison de trop d'auto-référence et pas assez de données réelles - c'est un problème avec l'apprentissage hors politique (par exemple Q-learning) en utilisant des réseaux de neurones.
Sans amorçage, en utilisant des trajectoires plus longues, il y a souvent une variance élevée à la place, ce qui, en pratique, signifie que vous avez besoin de plus d'échantillons avant que les estimations convergent. Ainsi, malgré les problèmes de bootstrap, s'il peut fonctionner, il peut apprendre beaucoup plus rapidement et est souvent préféré aux approches de Monte Carlo.
Vous pouvez faire un compromis entre les méthodes basées sur des échantillons Monte Carlo et les méthodes TD en une seule étape qui démarrent en utilisant un mélange de résultats provenant de trajectoires de longueur différentes. C'est ce qu'on appelle l' apprentissage TD ( λ ) , et il existe une variété de méthodes spécifiques telles que SARSA ( λ ) ou Q ( λ ).
En général, l'amorçage dans RL signifie que vous mettez à jour une valeur basée sur certaines estimations et non sur certaines valeurs exactes . Par exemple
Mises à jour incrémentales de l'évaluation des politiques de Monte Carlo:
Mises à jour de l'évaluation des politiques de TD (0):
Dans TD (0), le retour à partir de l'état est estimé (bootstrapé) par R t + 1 + γ V ( S t + 1 ) tandis que dans MC nous utilisons le retour exact G t .s Rt+1+γV(St+1) Gt
la source