Une politique est-elle toujours déterministe dans l'apprentissage par renforcement?
Dans l'apprentissage par renforcement, une politique est-elle toujours déterministe ou est-ce une distribution de probabilité sur les actions (à partir desquelles nous échantillonnons)? Si la politique est déterministe, pourquoi pas la fonction valeur, qui est définie à un état donné pour une...