Mean Variance Optimality Criteria for Discounted Markov Decision Process

01/09/1978

Mean Variance Optimality Criteria for Discounted Markov Decision Process

Satia J K

Working Papers

The criteria of maximizing expected rewards has been widely used in Markov decision processes following Howard [2]. Recently considerations related to higher moments of rewards have also been incorporated by Jaquette [4] and Goldwerger [1]. This paper considers mean variance criteria for discounted Markov decision processes. Variability in rewards arising both out of variability of rewards during each period and due to stochastic nature of transitions is considered. It is shown that randomized policies need not be considered when a function of mean and variance (m - as) is to be optimized. However an example illustrates that policies which will simultaneously minimize variances for all states may not exist. We, therefore, provide a dynamic programming formulation for optimizing mi - asi for each state i. An example is given to illustrate the procedure.

Mean Variance Optimality Criteria for Discounted Markov Decision Process

Research & Publications

Mean Variance Optimality Criteria for Discounted Markov Decision Process

Recommended Articles

Spokesperson effectiveness in B2B advertising: Spokesperson characteristics and posture using eye-tracking

Consumer perspectives on food traceability—A systematic literature review and future research agenda

Adoption of agronomic practices and their impact on crop yield and income: An analysis for black gram and green gram in India