Questions marquées «stochastic-policy»

Une politique est-elle toujours déterministe dans l'apprentissage par renforcement?

Dans l'apprentissage par renforcement, une politique est-elle toujours déterministe ou est-ce une distribution de probabilité sur les actions (à partir desquelles nous échantillonnons)? Si la politique est déterministe, pourquoi pas la fonction valeur, qui est définie à un état donné pour une...

reinforcement-learning deterministic-policy stochastic-policy