La politique optimale est-elle toujours stochastique si l'environnement est également stochastique?

La politique optimale est-elle toujours stochastique (c'est-à-dire une carte des états vers une distribution de probabilité sur les actions) si l'environnement est également stochastique? Intuitivement, si l'environnement est déterministe (c'est-à-dire si l'agent est dans un état sss et prend...