Il est vrai que tout problème d'apprentissage supervisé peut être présenté comme un problème d'apprentissage par renforcement équivalent: les états correspondent aux données d'entrée. Que les actions correspondent aux prédictions de la sortie. Définissez la récompense comme le négatif de la fonction de perte utilisée pour l'apprentissage supervisé. Maximisez la récompense attendue. En revanche, les problèmes d'apprentissage par renforcement ne peuvent généralement pas être considérés comme des problèmes d'apprentissage supervisé. Ainsi, de ce point de vue, les problèmes d'apprentissage supervisé sont un sous-ensemble des problèmes d'apprentissage par renforcement.
Mais, essayer de résoudre un problème d'apprentissage supervisé en utilisant un algorithme général d'apprentissage par renforcement serait plutôt inutile; tout cela ne fait que jeter une structure qui aurait rendu le problème plus facile à résoudre. Divers problèmes se posent dans l'apprentissage par renforcement qui ne sont pas pertinents pour l'apprentissage supervisé. De plus, l'apprentissage supervisé peut bénéficier d'approches qui ne s'appliquent pas dans le cadre général de l'apprentissage par renforcement. Ainsi, bien qu'il existe des principes sous-jacents communs et des techniques partagées entre les domaines, on ne voit généralement pas l'apprentissage supervisé comme un type d'apprentissage par renforcement.
Les références
Barto et Dietterich (2004) . L'apprentissage par renforcement et sa relation avec l'apprentissage supervisé.