Dans l'apprentissage par renforcement, l'approximation de fonction linéaire est souvent utilisée lorsque de grands espaces d'états sont présents. (Lorsque les tables de recherche deviennent irréalisables.)
La forme de la valeur avec approximation de la fonction linéaire est donnée par
où sont les poids et les caractéristiques.f i
Les fonctionnalités sont prédéfinies par l'utilisateur. Ma question est la suivante: comment les poids sont-ils attribués?
J'ai lu / téléchargé quelques diapositives de cours sur l' apprentissage avec approximation des fonctions. La plupart d'entre eux ont des diapositives sur la régression linéaire qui suivent. Comme ce ne sont que des diapositives, elles ont tendance à être incomplètes. Je me demande quelle est la connexion / relation entre les deux sujets.