En mathématiques, l' opérateur de mot peut faire référence à plusieurs concepts distincts mais liés. Un opérateur peut être défini comme une fonction entre deux espaces vectoriels, il peut être défini comme une fonction où le domaine et le domaine de codage sont identiques, ou il peut être défini comme une fonction de fonctions (qui sont des vecteurs) à d'autres fonctions (pour exemple, l' opérateur différentiel ), c'est-à-dire une fonction d'ordre élevé (si vous êtes familier avec la programmation fonctionnelle).
Qu'est-ce que l' opérateur Bellman dans l'apprentissage par renforcement (RL)? Pourquoi en avons-nous même besoin? Comment l'opérateur Bellman est-il lié aux équations de Bellman dans RL?
Réponses:
La notation que j'utiliserai provient de deux conférences différentes de David Silver et est également informée par ces diapositives .
L'équation de Bellman attendue estvπ( s ) =∑a ∈ Aπ( a | s ) (Runes+ γ∑s′∈ SPuness′vπ(s′) )(1)
Si nous laissonsPπss′=∑a ∈ Aπ( a | s )Puness′( 2 )
et
Rπs=∑a ∈ Aπ( a | s )Runes( 3 )
alors nous pouvons réécrire ( 1 ) comme
Cela peut être écrit sous forme de matrice
Ou, de façon plus compacte,
Notez que les deux côtés de( 6 ) sont n -vecteurs dimensionnels. Icin = | S| est la taille de l'espace d'état. On peut alors définir un opérateurTπ:Rn→Rn comme
pour toutev ∈Rn . Il s'agit de l'opérateur Bellman attendu.
De même, vous pouvez réécrire l'équation d'optimalité de Bellman
comme opérateur d'optimalité Bellman
Les opérateurs Bellman sont des "opérateurs" en ce sens qu'ils sont des correspondances d'un point à un autre dans l'espace vectoriel des valeurs d'état,Rn .
La réécriture des équations de Bellman en opérateurs est utile pour prouver que certains algorithmes de programmation dynamique (par exemple, itération de politique, itération de valeur) convergent vers un point fixe unique. Cette utilité se présente sous la forme d'un corpus de travaux existants en théorie des opérateurs, qui nous permet d'utiliser les propriétés spéciales des opérateurs de Bellman.
Plus précisément, le fait que les opérateurs de Bellman soient des contractions donne des résultats utiles qui, pour toute politiqueπ et tout vecteur initial v ,
oùvπ est la valeur de la politique π et v∗ est la valeur d'une politique optimale π∗ . La preuve est due au théorème de cartographie de contraction .
la source