L'apprentissage fait référence à tout algorithme qui affine une croyance sur le monde à travers l'exposition à des expériences ou à des exemples d'expériences d'autrui. Les algorithmes d'apprentissage n'ont pas de parent clair, car ils ont été développés séparément dans de nombreux sous-domaines ou disciplines différents. Une taxonomie raisonnable est le modèle des 5 tribus . Certains algorithmes d'apprentissage utilisent en fait la recherche en eux-mêmes pour comprendre comment changer leurs croyances en réponse à de nouvelles expériences!
Un exemple d'algorithme d'apprentissage utilisé aujourd'hui est le Q-learning , qui fait partie de la famille plus générale d' algorithmes d' apprentissage par renforcement . Le Q-learning fonctionne comme ceci:
une. Le programme d'apprentissage (généralement appelé agent ) reçoit une représentation de l'état actuel du monde et une liste d'actions qu'il pourrait choisir d'effectuer.
b. Si l'agent n'a jamais vu cet état du monde auparavant, il attribue un nombre aléatoire à la récompense qu'il s'attend à obtenir pour effectuer chaque action. Il stocke ce numéro sousQ ( s , a ), sa conjecture sur la qualité de l'exécution de l'action une en état s.
c. L'agent regardeQ ( s , a )pour chaque action qu'il pourrait effectuer. Il choisit la meilleure action avec une certaine probabilitéϵ et agit autrement au hasard.
ré. L'action de l'agent fait changer le monde et peut entraîner la récompense de l'agent de l'environnement. L'agent note s'il a obtenu une récompense (et combien était la récompense), et à quoi ressemble le nouvel état du monde. Il ajuste ensuite sa croyance sur la qualité de l'exécution de l'action qu'il a effectuée dans l'état dans lequel il se trouvait, de sorte que sa croyance sur la qualité de cette action soit plus proche de la réalité de la récompense qu'il a obtenue et de la qualité de l'endroit où il a été fini.
e. L'agent répète les étapes bd pour toujours. Au fil du temps, ses convictions sur la qualité des différentes paires état / action convergeront pour correspondre de plus en plus à la réalité.