Exemples concrets de processus décisionnels de Markov

20

J'ai regardé beaucoup de vidéos tutorielles et elles se ressemblent. Celui-ci par exemple: https://www.youtube.com/watch?v=ip4iSMRW5X4

Ils expliquent les états, les actions et les probabilités qui conviennent. La personne l'explique, mais je n'arrive pas à comprendre à quoi cela pourrait servir dans la vie réelle. Je n'ai pas trouvé de liste pour l'instant. Le plus commun que je vois est les échecs.

Peut-il être utilisé pour prédire des choses? Si oui, quels types de choses? Peut-il trouver des modèles parmi des quantités infinies de données? Que peut faire cet algorithme pour moi.

Bonus: Il semble également que le MDP consiste à passer d'un état à un autre, est-ce vrai?

Karl Morrison
la source

Réponses:

28

Un processus de décision markovien a en effet à voir avec le passage d'un état à un autre et est principalement utilisé pour la planification et la prise de décision .

La théorie

En répétant rapidement la théorie, un MDP est:

MDP=S,UNE,T,R,γ

SUNETPr(s|s,une)Rγ

Donc, pour l'utiliser, vous devez avoir prédéfini:

  1. États : ceux-ci peuvent faire référence par exemple à des plans de grille en robotique, ou par exemple porte ouverte et porte fermée .
  2. Actions : un ensemble fixe d'actions, comme par exemple aller vers le nord, le sud, l'est, etc. pour un robot, ou ouvrir et fermer une porte.
  3. Probabilités de transition : probabilité de passer d'un état à un autre compte tenu d'une action. Par exemple, quelle est la probabilité d'une porte ouverte si l'action est ouverte . Dans un monde parfait, la dernière version pourrait être 1.0, mais s'il s'agit d'un robot, il pourrait avoir échoué dans la manipulation de la poignée de porte correctement. Un autre exemple dans le cas d'un robot en mouvement serait l'action au nord , qui dans la plupart des cas l'amènerait dans la cellule de la grille au nord de celui-ci, mais dans certains cas aurait pu se déplacer trop et atteindre la cellule suivante par exemple.
  4. Récompenses : elles sont utilisées pour guider la planification. Dans le cas de l'exemple de grille, nous pourrions vouloir aller dans une certaine cellule, et la récompense sera plus élevée si nous nous rapprochons. Dans le cas de l'exemple de porte, une porte ouverte peut donner une récompense élevée.

Une fois le MDP défini, une politique peut être apprise en faisant une itération de valeur ou une itération de politique qui calcule la récompense attendue pour chacun des états. La politique donne ensuite à chaque État la meilleure action (compte tenu du modèle MDP) à faire.

En résumé, un MDP est utile lorsque vous souhaitez planifier une séquence d'actions efficace dans laquelle vos actions ne sont pas toujours efficaces à 100%.

Vos questions

Peut-il être utilisé pour prédire des choses?

Je l'appellerais planification, pas prédiction comme la régression par exemple.

Si oui, quels types de choses?

Voir des exemples .

Peut-il trouver des modèles parmi des quantités infinies de données?

Les MDP sont utilisés pour faire un apprentissage par renforcement , pour|S|

Que peut faire cet algorithme pour moi.

Voir des exemples .

Exemples d'applications des MDP

Et il y a beaucoup plus de modèles. Un modèle encore plus intéressant est le processus de décision markovien partiellement observable dans lequel les états ne sont pas complètement visibles, et à la place, les observations sont utilisées pour se faire une idée de l'état actuel, mais cela sort du cadre de cette question.

Information additionnelle

Un processus stochastique est markovien (ou possède la propriété Markov) si la distribution de probabilité conditionnelle des états futurs ne dépend que de l'état actuel, et non des précédents (c'est-à-dire pas d'une liste des états précédents).

agold
la source
2
C'est probablement la réponse la plus claire que j'ai jamais vue sur Cross Validated.
Modèle de Markov caché
Y a-t-il une chance que vous puissiez réparer les liens? Certains d'entre eux semblent cassés ou obsolètes.
ComputerScientist
Ainsi , tout processus qui a states, actions, transition probabilitieset rewardsdéfini serait appelé comme markovien?
Suhail Gupta