Computing Optimal Stationary Policies for Multi-objective Markov Decision Processes

Wiering, M.A.; Jong, E.D. de

Computing Optimal Stationary Policies for Multi-objective Markov Decision Processes

DSpace/Manakin Repository

Computing Optimal Stationary Policies for Multi-objective Markov Decision Processes

Wiering, M.A.; Jong, E.D. de

(2007) Proceedings of IEEE International Symposium on Approximate Dynamic Programming and Reinforcement Learning (ADPRL)

(Article in proceedings)

Abstract

This paper describes a novel algorithm called CONMODP for computing Pareto optimal policies for deterministic multi-objective sequential decision problems. CON-MODP is a value iteration based multi-objective dynamic programming algorithm that only computes stationary policies. We observe that for guaranteeing convergence to the unique Pareto optimal set of deterministic stationary policies, the algorithm needs to perform a policy ... read more

Download/Full Text

Open Access version via Utrecht University Repository

See more statistics about this item