Марковский процесс принятия решений

Марковский процесс принятия решений (англ. Markov decision process (MDP)) — спецификация задачи последовательного принятия решений для полностью наблюдаемой среды с марковской моделью перехода и дополнительными вознаграждениями. Назван в честь Андрея Маркова, служит математической основой для того, чтобы смоделировать принятие решения в ситуациях, где результаты частично случайны и частично под контролем лица, принимающего решения. Сегодня эта спецификация используются во множестве областей, включая робототехнику, автоматизированное управление, экономику и производство.

Определение

Пример MDP с 3 состояниями и 2 действиями

Чтобы определить марковский процесс принятия решений нужно задать 4-кортеж , где

конечное число состояний,
конечное число действий (часто представляется в виде, конечное число действий доступных из состояния ),
вероятность, что действие в состоянии во время перейдет в состояние ко времени ,
вознаграждение получаемое после перехода в состояние из состония с вероятностью перехода .

См. также

Это заготовка статьи по математике. Вы можете помочь проекту, исправив и дополнив её.

Stamp-i-k.ru

Печати, штампы

Рекомендуем

Марковский процесс принятия решений

Определение

См. также