La politique optimale est-elle toujours stochastique (c'est-à-dire une carte des états vers une distribution de probabilité sur les actions) si l'environnement est également stochastique?
Intuitivement, si l'environnement est déterministe (c'est-à-dire si l'agent est dans un état et prend l'action , alors l'état suivant est toujours le même, quel que soit le pas de temps), alors la politique optimale doit également être déterministe (c'est-à-dire que ce devrait être une carte des états aux actions, et non à une distribution de probabilité sur les actions).
Réponses:
Non.
Une politique optimale est généralement déterministe à moins que:
Des informations d'état importantes sont manquantes (un POMDP). Par exemple, dans une carte où l'agent n'est pas autorisé à connaître son emplacement exact ou à se souvenir des états précédents, et l'état qui lui est donné n'est pas suffisant pour lever l'ambiguïté entre les emplacements. Si l'objectif est d'arriver à un emplacement final spécifique, la politique optimale peut inclure des mouvements aléatoires afin d'éviter de rester coincé. Notez que l'environnement dans ce cas pourrait être déterministe (du point de vue de quelqu'un qui peut voir l'état entier), mais conduire à exiger une politique stochastique pour le résoudre.
Il existe une sorte de scénario de théorie des jeux minimax, où une politique déterministe peut être punie par l'environnement ou un autre agent. Pensez aux ciseaux / papier / pierre ou au dilemme du prisonnier.
Cela semble raisonnable, mais vous pouvez pousser cette intuition plus loin avec n'importe quelle méthode basée sur une fonction de valeur:
Si vous avez trouvé une fonction de valeur optimale, alors agir avec avidité à son égard est la politique optimale.
L'énoncé ci-dessus n'est qu'une réécriture en langage naturel de l'équation d'optimalité de Bellman:
c'est-à-dire que les valeurs optimales sont obtenues en choisissant toujours l'action qui maximise la récompense plus la valeur actualisée de l'étape suivante. L' opérationmaxa est déterministe (si nécessaire, vous pouvez rompre les liens pour la valeur max de manière déterministe avec par exemple une liste ordonnée d'actions).
Par conséquent, tout environnement qui peut être modélisé par un MDP et résolu par une méthode basée sur des valeurs (par exemple, itération de valeurs, Q-learning) a une politique optimale qui est déterministe.
Il est possible dans un tel environnement que la solution optimale ne soit pas du tout stochastique (c'est-à-dire que si vous ajoutez un caractère aléatoire à la politique optimale déterministe, la politique deviendra strictement pire). Cependant, lorsqu'il existe des liens pour une valeur maximale pour une ou plusieurs actions dans un ou plusieurs états, il existe plusieurs politiques optimales et déterministes équivalentes. Vous pouvez construire une politique stochastique qui les mélange dans n'importe quelle combinaison, et ce sera également optimal.
la source
Je dirais non.
Évidemment, si vous êtes dans un environnement où vous jouez contre un autre agent (un cadre de théorie des jeux), votre politique optimale sera certainement stochastique (pensez à un jeu de poker, par exemple).
la source
Je pense à un paysage de probabilité, dans lequel vous vous retrouvez en tant qu'acteur, avec divers pics et creux inconnus. Une bonne approche déterministe est toujours susceptible de vous conduire à l'optimum local le plus proche, mais pas nécessairement à l'optimum global. Pour trouver l'optimum global, quelque chose comme un algorithme MCMC permettrait d'accepter stochastiquement un résultat temporairement pire afin d'échapper à un optimum local et de trouver l'optimum global. Mon intuition est que dans un environnement stochastique, cela serait également vrai.
la source