Quelle est la différence entre l'itération de valeur et l'itération de politique?

Dans l'apprentissage par renforcement, quelle est la différence entre l'itération des politiques et l' itération des valeurs ? Autant que je sache, dans l'itération de la valeur, vous utilisez l'équation de Bellman pour résoudre la politique optimale, tandis que, dans l'itération de la politique,...