内容简介
《马尔可夫决策过程理论与应用》从马氏决策的一般理论出发,介绍了马氏决策的基本概念,给出了决策过程的表述方法并介绍了不同准则条件下的基本理论,还给出了作者对一些实际问题的研究心得,为读者提供参考。《马尔可夫决策过程理论与应用》在《实用马尔可夫决策过程》一书的基础上增加了Bandit过程、部分可观察过程、软件可靠性建模分析以及大规模计算方法等章节,为读者提供更为宽阔的视野。
目录
目录
《运筹与管理科学丛书》序
前言
常用符号表
第1章 引论 1
1.1 序列决策模型 1
1.2 马氏决策过程的例子 3
1.3 马氏决策过程的定义与记号 7
1.3.1 决策时刻与周期 7
1.3.2 状态与行动集 8
1.3.3 转移概率和报酬 8
1.3.4 历史、决策规则与策略 9
1.3.5 诱导过程、效用准则与马氏策略优势 10
1.4 马氏决策过程的起源和发展 14
1.5 问题 16
第2章 有限阶段模型 17
2.1 最优准则 17
2.2 有限阶段的策略迭代和最优方程 18
2.3 最优策略的存在性和算法 20
2.4 两个例子 23
2.4.1 序贯分配问题 23
2.4.2 秘书问题 26
2.5 单调策略的最优性 29
2.6 部分可观察的马氏决策过程 33
2.6.1 有限状态和行动空间的部分可观察马氏决策过程 34
2.6.2 算法 42
2.7 问题 44
第3章 无限阶段折扣模型 47
3.1 最优准则 47
3.2 最优方程 48
3.3 最优策略的存在性 50
3.4 策略迭代算法 54
3.5 值迭代算法 57
3.6 改进的策略迭代算法 63
3.7 线性规划算法 64
3.8 可数状态与行动的模型 67
3.8.1 无界报酬的情形 67
3.8.2 有限状态逼近无限状态的情形 70
3.8.3 设备维修的例子 74
3.8.4 有限状态可数行动的情形 78
3.9 最优单调策略 80
3.10 最优策略的结构 82
3.1 1多臂赌博机问题 83
3.1 2问题 88
第4章 无限阶段平均模型 91
4.1 最优准则 91
4.2 最优平稳策略的存在性 93
4.3 平稳策略一些特征 94
4.4 最优方程与策略迭代算法 103
4.5 单链时的情形 107
4.5.1 最优方程解存在的条件 108
4.5.2 值迭代算法 109
4.5.3 单链MDPs的策略迭代算法及其改进 114
4.5.4 单链MDPs的线性规划算法 116
4.5.5 带约束模型和方差准则模型 118
4.5.6 可数状态模型 124
4.5.7 结构化最优策略 127
4.6 多链时的情形 130
4.6.1 线性规划算法 131
4.6.2 平均准则下的Bellman最优原则 133
4.7 问题 136
第5章 权重准则模型与概率准则模型 138
5.1 折扣权重模型 138
5.2 折扣与平均权重模型 145
5.3 MDP的百分比与目标水平 149
5.4 风险概率准则模型 154
5.4.1 终达目标最小风险模型 156
5.4.2 首达目标最小风险模型 163
5.5 问题 164
第6章 连续时间与半马氏模型 165
6.1 连续时间折扣MDP 165
6.1.1 模型和策略的定义 165
6.1.2 连续时间MDP的决策过程与折扣准则 166
6.1.3 最优策略的存在性与结构 168
6.1.4 转化为离散时间模型 170
6.1.5 适用范围的推广 171
6.2 连续时间平均MDP 172
6.3 折扣半马氏模型 175
6.4 平均半马氏模型 180
6.5 服务率受控的一个排队模型 182
6.6 问题 184
第7章 空集装箱调配问题 185
7.1 单港口的问题与建模 185
7.2 无限阶段折扣准则 189
7.3 无限阶段平均准则 191
7.4 数值例子 193
7.5 多港口空集装箱的调配问题 194
第8章 人力资源模型 199
8.1 问题 199
8.2 数学模型 200
8.2.1 状态空间 201
8.2.2 决策时刻与行动集 202
8.2.3 转移速率写转移概率 202
8.2.4 费用与准则 204
8.3 相关参数分析 204
8.4 数例 207
第9章 软件测试的最优发布问题 209
9.1 模型 210
9.2 结构性质 212
9.2.1 最优函数V*(n,t)的性质 212
9.2.2 最优策略的阂值结构 215
9.3 数值仿真研究 217
9.3.1 连续时间模型的离散逼近 218
9.3.2 数值例子 218
9.4 基本模型的一般化 219
第10章 大规模问题的近似算法 220
10.1 大规模问题的挑战 220
10.2 向前动态规划方法 222
10.2.1 近似最优决策行为的选择 222
10.2.2 随时间向前递推过程 223
10.2.3 随机变量的抽样 223
10.2.4 向前动态规划算法 224
10.3 Q-Iearning和SARSA方法 225
10.3.1 Q-Iearning方法 225
10.3.2 SARSA方法 227
10.4 实时动态规划方法 227
10.5 逼近值迭代方法 228
10.6 决策后状态方法 230
10.6.1 寻找决策后状态变量 230
10.6.2 决策后状态变量的例子 231
10.6.3 决策后状态变量的最优方程 235
10.6.4 决策后状态方程的逼近算法 236
10.6.5 决策后状态与Q-Iearning 237
10.7 探索和利用的问题 238
10.8 近似线性规划方法 240
10.9 策略近似算法 243
10.10 总结 245
参考文献 248
索引 260
习题解答 263
《运筹与管理科学丛书》已出版书目 277
精彩书摘
《运筹与管理科学丛书(22):马尔可夫决策过程理论与应用》:
第1章 引 论
做决策是人们在日常生活和生产实践中经常遇到的问题。 人们也总希望做出的决策能够达到最优的效果。 事实上, 人们在做决策的时候需要考虑很多影响决策效果的因素, 如当前决策立即显现出的效果?当前决策行为对长远利益的影响等等。因此, 做决策不是孤立的, 也就是说今天的决策会影响到明天, 而明天的决策会影响到将来。 如果不顾及对将来的影响而只考虑当前的利益做决策 (即采用近视眼策略), 从长远的角度来看, 通常效果不会很好。 比如说长跑运动员, 要根据需要跑的距离而合理分配自己的体力, 以避免尚未跑完全程就筋疲力尽。
本书描述和研究了在不确定环境下的一类序列决策模型, 决策者不仅要考虑决策结果的即时效应, 还要考虑到为将来做决策创造机会。 看上去这个模型比较直观且不复杂, 但是它的应用极其广泛, 而且产生了丰富的数学理论。 这一章主要通过一些例子来说明做决策过程中的关键因素?这些因素之间的关系以及决策过程的动态表现, 然后给出马氏决策过程的一般记号与定义, 最后叙述了马氏决策过程的 发展简史和一些比较有影响的相关书籍。
1。1 序列决策模型
我们用图 1。1。1 描述多阶段决策过程的一个完整步骤。 在时刻 t, 控制系统的决 策者观察到系统当前所处的状态, 并根据这个状态从可行的决策行为集合中选取一 个决策行为 (我们称选择一个行动)。 之后, 该行动会对系统的后续运行产生两方面 的影响:一方面是产生了一个既得的报酬或费用, 而另一方面是系统的状态会按照 与这个行动有关的一个概率规律在下个阶段即在 t + 1 时刻转移到一个新的状态。 这时决策者面临着与开始时 (即时刻 t) 相同的问题, 也就是选取 t + 1 时刻的决策 行为。 依此循环下去, 不同的只是在不同时刻系统的状态可能是不同的, 而且可采 用的行动集合随着状态的变化也会发生相应的变化。
……
前言/序言
马尔可夫决策过程理论与应用 电子书 下载 mobi epub pdf txt