Un processus de décision markovien a en effet à voir avec le passage d'un état à un autre et est principalement utilisé pour la planification et la prise de décision .
La théorie
En répétant rapidement la théorie, un MDP est:
MDP = ⟨ S, A , T, R , γ⟩
SUNETPr ( s′| s,a)Rγ
Donc, pour l'utiliser, vous devez avoir prédéfini:
- États : ceux-ci peuvent faire référence par exemple à des plans de grille en robotique, ou par exemple porte ouverte et porte fermée .
- Actions : un ensemble fixe d'actions, comme par exemple aller vers le nord, le sud, l'est, etc. pour un robot, ou ouvrir et fermer une porte.
- Probabilités de transition : probabilité de passer d'un état à un autre compte tenu d'une action. Par exemple, quelle est la probabilité d'une porte ouverte si l'action est ouverte . Dans un monde parfait, la dernière version pourrait être 1.0, mais s'il s'agit d'un robot, il pourrait avoir échoué dans la manipulation de la poignée de porte correctement. Un autre exemple dans le cas d'un robot en mouvement serait l'action au nord , qui dans la plupart des cas l'amènerait dans la cellule de la grille au nord de celui-ci, mais dans certains cas aurait pu se déplacer trop et atteindre la cellule suivante par exemple.
- Récompenses : elles sont utilisées pour guider la planification. Dans le cas de l'exemple de grille, nous pourrions vouloir aller dans une certaine cellule, et la récompense sera plus élevée si nous nous rapprochons. Dans le cas de l'exemple de porte, une porte ouverte peut donner une récompense élevée.
Une fois le MDP défini, une politique peut être apprise en faisant une itération de valeur ou une itération de politique qui calcule la récompense attendue pour chacun des états. La politique donne ensuite à chaque État la meilleure action (compte tenu du modèle MDP) à faire.
En résumé, un MDP est utile lorsque vous souhaitez planifier une séquence d'actions efficace dans laquelle vos actions ne sont pas toujours efficaces à 100%.
Vos questions
Peut-il être utilisé pour prédire des choses?
Je l'appellerais planification, pas prédiction comme la régression par exemple.
Si oui, quels types de choses?
Voir des exemples .
Peut-il trouver des modèles parmi des quantités infinies de données?
Les MDP sont utilisés pour faire un apprentissage par renforcement , pour| S|
Que peut faire cet algorithme pour moi.
Voir des exemples .
Exemples d'applications des MDP
- White, DJ (1993) mentionne une grande liste d'applications:
- Récolte: combien de membres d'une population doivent être laissés pour la reproduction.
- Agriculture: combien planter en fonction de la météo et de l'état du sol.
- Ressources en eau: maintenir le niveau d'eau correct aux réservoirs.
- Inspection, entretien et réparation: quand remplacer / inspecter en fonction de l'âge, de l'état, etc.
- Achat et production: combien produire en fonction de la demande.
- Files d'attente: réduire le temps d'attente.
- ...
- Finance: décider combien investir en stock.
- Robotique:
Et il y a beaucoup plus de modèles. Un modèle encore plus intéressant est le processus de décision markovien partiellement observable dans lequel les états ne sont pas complètement visibles, et à la place, les observations sont utilisées pour se faire une idée de l'état actuel, mais cela sort du cadre de cette question.
Information additionnelle
Un processus stochastique est markovien (ou possède la propriété Markov) si la distribution de probabilité conditionnelle des états futurs ne dépend que de l'état actuel, et non des précédents (c'est-à-dire pas d'une liste des états précédents).
states
,actions
,transition probabilities
etrewards
défini serait appelé comme markovien?