强化学习

强化学习
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [荷兰] (Martijn van Otterlo)
2018-06
版次: 1
ISBN: 9787111600220
定价: 119.00
装帧: 其他
开本: 16开
纸张: 胶版纸
91人买过
  • 本书共有19章,分为六大部分,详细介绍了强化学习中各领域的基本理论和新进展,内容包括:MDP、动态规划、蒙特卡罗方法、批处理强化学习、TD学习、Q学习、策略迭代的小二乘法、迁移学习、贝叶斯强化学习、、一阶逻辑MDP、层次式强化学习、演化计算、预测性定义状态表示、去中心化的部分可观察MDP、博弈论和多学习器强化学习等内容,并阐述强化学习与心理和神经科学、游戏领域、机器人领域的关系和应用,后提出未来发展趋势及研究热点问题,有助于年轻的研究者了解整个强化学习领域,发现新的研究方向。本书适合作为高等院校机器学习相关课程的参考书,也可作为人工智能领域从业技术人员的参考用书。 马可•威宁(Marco Wiering)在荷兰格罗宁根大学人工智能系工作,他发表过各种强化学习主题的文章,研究领域包括强化学习、机器学习、深度学习、目标识别、文本学习,进化计算、机器人等。

    马丁•范•奥特罗(Martijn van Otterlo)是荷兰奈梅亨大学认知人工智能小组的一员。主要研究领域是强化学习在环境中的知识表示。 目  录

    Reinforcement Learning: State-of-the-Art

    译者序

    序言

    前言

    作者清单

    第一部分 绪论

    第1章 强化学习和马尔可夫决策过程  2

    1.1 简介  2

    1.2 时序决策  3

    1.2.1 接近时序决策  4

    1.2.2 在线学习与离线学习  4

    1.2.3 贡献分配  5

    1.2.4 探索–运用的平衡  5

    1.2.5 反馈、目标和性能  5

    1.2.6 表达  6

    1.3 正式的框架  6

    1.3.1 马尔可夫决策过程  7

    1.3.2 策略  9

    1.3.3 最优准则和减量  9

    1.4 价值函数和贝尔曼方程  10

    1.5 求解马尔可夫决策过程  12

    1.6 动态规划:基于模型的解决方案  13

    1.6.1 基本的动态规划算法  13

    1.6.2 高效的动态规划算法  17

    1.7 强化学习:无模型的解决方案  19

    1.7.1 时序差分学习  20

    1.7.2 蒙特卡罗方法  23

    1.7.3 高效的探索和价值更新  24

    1.8 总结  27

    参考文献  27

    第二部分 高效的解决方案框架

    第2章 批处理强化学习  32

    2.1 简介  32

    2.2 批处理强化学习问题  33

    2.2.1 批处理学习问题  33

    2.2.2 增长批处理学习问题  34

    2.3 批处理强化学习算法的基础  34

    2.4 批处理强化学习算法  37

    2.4.1 基于核的近似动态规划  37

    2.4.2 拟合Q迭代  39

    2.4.3 基于最小二乘的策略迭代  40

    2.4.4 识别批处理算法  41

    2.5 批处理强化学习理论  42

    2.6 批处理强化学习的实现  43

    2.6.1 神经拟合Q迭代  44

    2.6.2 控制应用中的神经拟合Q迭代算法  45

    2.6.3 面向多学习器的批处理强化学习  46

    2.6.4 深度拟合Q迭代  48

    2.6.5 应用/发展趋势  49

    2.7 总结  50

    参考文献  50

    第3章 策略迭代的最小二乘法  53

    3.1 简介  53

    3.2 预备知识:经典策略迭代算法  54

    3.3 近似策略评估的最小二乘法  55

    3.3.1 主要原则和分类  55

    3.3.2 线性情况下和矩阵形式的方程  57

    3.3.3 无模型算法的实现  60

    3.3.4 参考文献  62

    3.4 策略迭代的在线最小二乘法  63

    3.5 例子:car-on-the-hill  64

    3.6 性能保障  66

    3.6.1 渐近收敛性和保证  66

    3.6.2 有限样本的保证  68

    3.7 延伸阅读  73

    参考文献  74

    第4章 学习和使用模型  78

    4.1 简介  78

    4.2 什么是模型  79

    4.3 规划  80

    4.4 联合模型和规划  82

    4.5 样本复杂度  84

    4.6 分解域  86

    4.7 探索  88

    4.8 连续域  91

    4.9 实证比较  93

    4.10 扩展  95

    4.11 总结  96

    参考文献  97

    第5章 强化学习中的迁移:框架和概观  101

    5.1 简介  101

    5.2 强化学习迁移的框架和分类  102

    5.2.1 迁移框架  102

    5.2.2 分类  104

    5.3 固定状态–动作空间中从源到目标迁移的方法  108

    5.3.1 问题形式化  108

    5.3.2 表示迁移  109

    5.3.3 参数迁移  110

    5.4 固定状态–动作空间中跨多任务迁移的方法  111

    5.4.1 问题形式化  111

    5.4.2 实例迁移  111

    5.4.3 表示迁移  112

    5.4.4 参数迁移  113

    5.5 不同状态–动作空间中从源到目标任务迁移的方法  114

    5.5.1 问题形式化  114

    5.5.2 实例迁移  115

    5.5.3 表示迁移  115

    5.5.4 参数迁移  116

    5.6 总结和开放性问题  116

    参考文献  117

    第6章 探索的样本复杂度边界  122

    6.1 简介  122

    6.2 预备知识  123

    6.3 形式化探索效率  124

    6.3.1 探索的样本复杂度和PAC-MDP  124

    6.3.2 遗憾最小化  125

    6.3.3 平均损失  127

    6.3.4 贝叶斯框架  127

    6.4 通用PAC-MDP定理  128

    6.5 基于模型的方法  130

    6.5.1 Rmax  130

    6.5.2 Rmax的泛化  132

    6.6 无模型方法  138

    6.7 总结  141

    参考文献  141

    第三部分 建设性的表征方向

    第7章 连续状态和动作空间中的强化学习  146

    7.1 简介  146

    7.1.1 连续域中的马尔可夫决策过程  147

    7.1.2 求解连续MDP的方法  148

    7.2 函数逼近  149

    7.2.1 线性函数逼近  150

    7.2.2 非线性函数逼近  153

    7.2.3 更新参数  154

    7.3 近似强化学习  157

    7.3.1 数值逼近  157

    7.3.2 策略逼近  162

    7.4 双极车杆实验  168

    7.5 总结  171

    参考文献  171

    第8章 综述:求解一阶逻辑马尔可夫决策过程  179

    8.1 关系世界中的顺序决策简介  179

    8.1.1 马尔可夫决策过程:代表性和可扩展性  180

    8.1.2 简短的历史和与其他领域的联系  181

    8.2 用面向对象和关系扩展马尔可夫决策过程  183

    8.2.1 关系表示与逻辑归纳  183

    8.2.2 关系型马尔可夫决策过程  184

    8.2.3 抽象问题和求解  184

    8.3 基于模型的解决方案  186

    8.3.1 贝尔曼备份的结构  186

    8.3.2 确切的基于模型的算法  187

    8.3.3 基于近似模型的算法  190

    8.4 无模型的解决方案  192

    8.4.1 固定泛化的价值函数学习  192

    8.4.2 带自适应泛化的价值函数  193

    8.4.3 基于策略的求解技巧  196

    8.5 模型、层级、偏置  198

    8.6 现在的发展  201

    8.7 总结和展望  203

    参考文献  204

    第9章 层次式技术  213

    9.1 简介  213

    9.2 背景  215

    9.2.1 抽象动作  215

    9.2.2 半马尔可夫决策问题  216

    9.2.3 结构  217

    9.2.4 状态抽象  218

    9.2.5 价值函数分解  219

    9.2.6 优化  220

    9.3 层次式强化学习技术  220

    9.3.1 选项  221

    9.3.2 HAMQ学习  222

    9.3.3 MAXQ  223

    9.4 学习结构  226

    9.5 相关工作和当前研究  228

    9.6 总结  230

    参考文献  230

    第10章 针对强化学习的演化计算  235

    10.1 简介  235

    10.2 神经演化  237

    10.3 TWEANN  239

    10.3.1 挑战  239

    10.3.2 NEAT  240

    10.4 混合方法  241

    10.4.1 演化函数近似  242

    10.4.2 XCS  243

    10.5 协同演化  245

    10.5.1 合作式协同演化  245

    10.5.2 竞争式协同演化  246

    10.6 生成和发展系统  247

    10.7 在线方法  249

    10.7.1 基于模型的技术  249

    10.7.2 在线演化计算  250

    10.8 总结  251

    参考文献  251

    第四部分 概率模型

    第11章 贝叶斯强化学习  260

    11.1 简介  260

    11.2 无模型贝叶斯强化学习  261

    11.2.1 基于价值函数的算法  261

    11.2.2 策略梯度算法  264

    11.2.3 演员–评论家算法  266

    11.3 基于模型的贝叶斯强化学习  268

    11.3.1 由POMDP表述的贝叶斯强化学习  268

    11.3.2 通过动态规划的贝叶斯强化学习  269

    11.3.3 近似在线算法  271

    11.3.4 贝叶斯多任务强化学习  272

    11.3.5 集成先验知识  273

    11.4 有限样本分析和复杂度问题  274

    11.5 总结和讨论  275

    参考文献  275

    第12章 部分可观察的马尔可夫决策过程  279

    12.1 简介  279

    12.2 部分可观察环境中的决策  280

    12.2.1 POMDP模型  280

    12.2.2 连续和结构化的表达  281

    12.2.3 优化决策记忆  282

    12.2.4 策略和价值函数  284

    12.3 基于模型的技术  285

    12.3.1 基于MDP的启发式解决方案  285

    12.3.2 POMDP的值迭代  286

    12.3.3 确切的值迭代  288

    12.3.4 基于点的值迭代方法  290

    12.3.5 其他近似求解方法  291

    12.4 无先验模型的决策  292

    12.4.1 无记忆技术  292

    12.4.2 学习内部记忆  292

    12.5 近期研究趋势  294

    参考文献  295

    第13章 预测性定义状态表示  300

    13.1 简介  300

    13.1.1 状态是什么  301

    13.1.2 哪一个状态表示  301

    13.1.3 为什么使用预测性定义模型  302

    13.2 PSR  303

    13.2.1 历史及测试  303

    13.2.2 测试的预测  304

    13.2.3 系统动态向量  304

    13.2.4 系统动态矩阵  305

    13.2.5 充分的数据集  305

    13.2.6 状态  306

    13.2.7 更新状态  306

    13.2.8 线性PSR  307

    13.2.9 线性PSR与POMDP的关联  307

    13.2.10 线性PSR的理论结果  308

    13.3 PSR模型学习  308

    13.3.1 发现问题  308

    13.3.2 学习问题  309

    13.3.3 估计系统动态矩阵  309

    13.4 规划与PSR  309

    13.5 PSR的扩展  310

    13.6 其他具有预测性定义状态的模型  311

    13.6.1 可观测算子模型  311

    13.6.2 预测线性高斯模型  312

    13.6.3 时序差分网络  312

    13.6.4 分集自动机  312

    13.6.5 指数族PSR  313

    13.6.6 转换PSR  313

    13.7 总结  313

    参考文献  314

    第14章 博弈论和多学习器强化学习  317

    14.1 简介  317

    14.2 重复博弈  319

    14.2.1 博弈论  319

    14.2.2 重复博弈中的强化学习  322

    14.3 顺序博弈  325

    14.3.1 马尔可夫博弈  326

    14.3.2 马尔可夫博弈中的强化学习  327

    14.4 在多学习器系统中的稀疏交互  330

    14.4.1 多等级学习  330

    14.4.2 协调学习与稀疏交互  331

    14.5 延伸阅读  334

    参考文献  334

    第15章 去中心化的部分可观察马尔可夫决策过程  338

    15.1 简介  338

    15.2 Dec-POMDP框架  339

    15.3 历史状态与策略  340

    15.3.1 历史状态  341

    15.3.2 策略  341

    15.3.3 策略的结构  342

    15.3.4 联合策略的质量  343

    15.4 有限域的Dec-POMDP的解决方案  344

    15.4.1 穷举搜索和Dec-POMDP复杂性  344

    15.4.2 交替最大化  344

    15.4.3 Dec-POMDP的最优价值函数  345

    15.4.4 前推法:启发式搜索  348

    15.4.5 后推法:动态规划  350

    15.4.6 其他有限域的方法  353

    15.5 延伸阅读  353

    15.5.1 一般化和特殊问题  353

    15.5.2 有限Dec-POMDP  354

    15.5.3 强化学习  355

    15.5.4 通信  356

    参考文献  356

    第五部分 其他应用领域

    第16章 强化学习与心理和神经科学之间的关系  364

    16.1 简介  364

    16.2 经典(巴甫洛夫)条件反射  365

    16.2.1 行为  365

    16.2.2 理论  366

    16.2.3 小结和其他注意事项  367

    16.3 操作性(工具性)条件反射  368

    16.3.1 动作  368

    16.3.2 理论  369

    16.3.3 基于模型的控制与无模型的控制  370

    16.3.4 小结和其他注意事项  371

    16.4 多巴胺  371

    16.4.1 多巴胺作为奖励预测误差  372

    16.4.2 多巴胺的强化信号的作用  372

    16.4.3 小结和其他注意事项  373

    16.5 基底神经节  373

    16.5.1 基底神经节概述  374

    16.5.2 纹状体的神经活动  374

    16.5.3 皮质基神经节丘脑循环  375

    16.5.4 小结和其他注意事项  377

    16.6 总结  378

    参考文献  378

    第17章 游戏领域的强化学习  387

    17.1 简介  387

    17.1.1 目标和结构  387

    17.1.2 范围  388
  • 内容简介:
    本书共有19章,分为六大部分,详细介绍了强化学习中各领域的基本理论和新进展,内容包括:MDP、动态规划、蒙特卡罗方法、批处理强化学习、TD学习、Q学习、策略迭代的小二乘法、迁移学习、贝叶斯强化学习、、一阶逻辑MDP、层次式强化学习、演化计算、预测性定义状态表示、去中心化的部分可观察MDP、博弈论和多学习器强化学习等内容,并阐述强化学习与心理和神经科学、游戏领域、机器人领域的关系和应用,后提出未来发展趋势及研究热点问题,有助于年轻的研究者了解整个强化学习领域,发现新的研究方向。本书适合作为高等院校机器学习相关课程的参考书,也可作为人工智能领域从业技术人员的参考用书。
  • 作者简介:
    马可•威宁(Marco Wiering)在荷兰格罗宁根大学人工智能系工作,他发表过各种强化学习主题的文章,研究领域包括强化学习、机器学习、深度学习、目标识别、文本学习,进化计算、机器人等。

    马丁•范•奥特罗(Martijn van Otterlo)是荷兰奈梅亨大学认知人工智能小组的一员。主要研究领域是强化学习在环境中的知识表示。
  • 目录:
    目  录

    Reinforcement Learning: State-of-the-Art

    译者序

    序言

    前言

    作者清单

    第一部分 绪论

    第1章 强化学习和马尔可夫决策过程  2

    1.1 简介  2

    1.2 时序决策  3

    1.2.1 接近时序决策  4

    1.2.2 在线学习与离线学习  4

    1.2.3 贡献分配  5

    1.2.4 探索–运用的平衡  5

    1.2.5 反馈、目标和性能  5

    1.2.6 表达  6

    1.3 正式的框架  6

    1.3.1 马尔可夫决策过程  7

    1.3.2 策略  9

    1.3.3 最优准则和减量  9

    1.4 价值函数和贝尔曼方程  10

    1.5 求解马尔可夫决策过程  12

    1.6 动态规划:基于模型的解决方案  13

    1.6.1 基本的动态规划算法  13

    1.6.2 高效的动态规划算法  17

    1.7 强化学习:无模型的解决方案  19

    1.7.1 时序差分学习  20

    1.7.2 蒙特卡罗方法  23

    1.7.3 高效的探索和价值更新  24

    1.8 总结  27

    参考文献  27

    第二部分 高效的解决方案框架

    第2章 批处理强化学习  32

    2.1 简介  32

    2.2 批处理强化学习问题  33

    2.2.1 批处理学习问题  33

    2.2.2 增长批处理学习问题  34

    2.3 批处理强化学习算法的基础  34

    2.4 批处理强化学习算法  37

    2.4.1 基于核的近似动态规划  37

    2.4.2 拟合Q迭代  39

    2.4.3 基于最小二乘的策略迭代  40

    2.4.4 识别批处理算法  41

    2.5 批处理强化学习理论  42

    2.6 批处理强化学习的实现  43

    2.6.1 神经拟合Q迭代  44

    2.6.2 控制应用中的神经拟合Q迭代算法  45

    2.6.3 面向多学习器的批处理强化学习  46

    2.6.4 深度拟合Q迭代  48

    2.6.5 应用/发展趋势  49

    2.7 总结  50

    参考文献  50

    第3章 策略迭代的最小二乘法  53

    3.1 简介  53

    3.2 预备知识:经典策略迭代算法  54

    3.3 近似策略评估的最小二乘法  55

    3.3.1 主要原则和分类  55

    3.3.2 线性情况下和矩阵形式的方程  57

    3.3.3 无模型算法的实现  60

    3.3.4 参考文献  62

    3.4 策略迭代的在线最小二乘法  63

    3.5 例子:car-on-the-hill  64

    3.6 性能保障  66

    3.6.1 渐近收敛性和保证  66

    3.6.2 有限样本的保证  68

    3.7 延伸阅读  73

    参考文献  74

    第4章 学习和使用模型  78

    4.1 简介  78

    4.2 什么是模型  79

    4.3 规划  80

    4.4 联合模型和规划  82

    4.5 样本复杂度  84

    4.6 分解域  86

    4.7 探索  88

    4.8 连续域  91

    4.9 实证比较  93

    4.10 扩展  95

    4.11 总结  96

    参考文献  97

    第5章 强化学习中的迁移:框架和概观  101

    5.1 简介  101

    5.2 强化学习迁移的框架和分类  102

    5.2.1 迁移框架  102

    5.2.2 分类  104

    5.3 固定状态–动作空间中从源到目标迁移的方法  108

    5.3.1 问题形式化  108

    5.3.2 表示迁移  109

    5.3.3 参数迁移  110

    5.4 固定状态–动作空间中跨多任务迁移的方法  111

    5.4.1 问题形式化  111

    5.4.2 实例迁移  111

    5.4.3 表示迁移  112

    5.4.4 参数迁移  113

    5.5 不同状态–动作空间中从源到目标任务迁移的方法  114

    5.5.1 问题形式化  114

    5.5.2 实例迁移  115

    5.5.3 表示迁移  115

    5.5.4 参数迁移  116

    5.6 总结和开放性问题  116

    参考文献  117

    第6章 探索的样本复杂度边界  122

    6.1 简介  122

    6.2 预备知识  123

    6.3 形式化探索效率  124

    6.3.1 探索的样本复杂度和PAC-MDP  124

    6.3.2 遗憾最小化  125

    6.3.3 平均损失  127

    6.3.4 贝叶斯框架  127

    6.4 通用PAC-MDP定理  128

    6.5 基于模型的方法  130

    6.5.1 Rmax  130

    6.5.2 Rmax的泛化  132

    6.6 无模型方法  138

    6.7 总结  141

    参考文献  141

    第三部分 建设性的表征方向

    第7章 连续状态和动作空间中的强化学习  146

    7.1 简介  146

    7.1.1 连续域中的马尔可夫决策过程  147

    7.1.2 求解连续MDP的方法  148

    7.2 函数逼近  149

    7.2.1 线性函数逼近  150

    7.2.2 非线性函数逼近  153

    7.2.3 更新参数  154

    7.3 近似强化学习  157

    7.3.1 数值逼近  157

    7.3.2 策略逼近  162

    7.4 双极车杆实验  168

    7.5 总结  171

    参考文献  171

    第8章 综述:求解一阶逻辑马尔可夫决策过程  179

    8.1 关系世界中的顺序决策简介  179

    8.1.1 马尔可夫决策过程:代表性和可扩展性  180

    8.1.2 简短的历史和与其他领域的联系  181

    8.2 用面向对象和关系扩展马尔可夫决策过程  183

    8.2.1 关系表示与逻辑归纳  183

    8.2.2 关系型马尔可夫决策过程  184

    8.2.3 抽象问题和求解  184

    8.3 基于模型的解决方案  186

    8.3.1 贝尔曼备份的结构  186

    8.3.2 确切的基于模型的算法  187

    8.3.3 基于近似模型的算法  190

    8.4 无模型的解决方案  192

    8.4.1 固定泛化的价值函数学习  192

    8.4.2 带自适应泛化的价值函数  193

    8.4.3 基于策略的求解技巧  196

    8.5 模型、层级、偏置  198

    8.6 现在的发展  201

    8.7 总结和展望  203

    参考文献  204

    第9章 层次式技术  213

    9.1 简介  213

    9.2 背景  215

    9.2.1 抽象动作  215

    9.2.2 半马尔可夫决策问题  216

    9.2.3 结构  217

    9.2.4 状态抽象  218

    9.2.5 价值函数分解  219

    9.2.6 优化  220

    9.3 层次式强化学习技术  220

    9.3.1 选项  221

    9.3.2 HAMQ学习  222

    9.3.3 MAXQ  223

    9.4 学习结构  226

    9.5 相关工作和当前研究  228

    9.6 总结  230

    参考文献  230

    第10章 针对强化学习的演化计算  235

    10.1 简介  235

    10.2 神经演化  237

    10.3 TWEANN  239

    10.3.1 挑战  239

    10.3.2 NEAT  240

    10.4 混合方法  241

    10.4.1 演化函数近似  242

    10.4.2 XCS  243

    10.5 协同演化  245

    10.5.1 合作式协同演化  245

    10.5.2 竞争式协同演化  246

    10.6 生成和发展系统  247

    10.7 在线方法  249

    10.7.1 基于模型的技术  249

    10.7.2 在线演化计算  250

    10.8 总结  251

    参考文献  251

    第四部分 概率模型

    第11章 贝叶斯强化学习  260

    11.1 简介  260

    11.2 无模型贝叶斯强化学习  261

    11.2.1 基于价值函数的算法  261

    11.2.2 策略梯度算法  264

    11.2.3 演员–评论家算法  266

    11.3 基于模型的贝叶斯强化学习  268

    11.3.1 由POMDP表述的贝叶斯强化学习  268

    11.3.2 通过动态规划的贝叶斯强化学习  269

    11.3.3 近似在线算法  271

    11.3.4 贝叶斯多任务强化学习  272

    11.3.5 集成先验知识  273

    11.4 有限样本分析和复杂度问题  274

    11.5 总结和讨论  275

    参考文献  275

    第12章 部分可观察的马尔可夫决策过程  279

    12.1 简介  279

    12.2 部分可观察环境中的决策  280

    12.2.1 POMDP模型  280

    12.2.2 连续和结构化的表达  281

    12.2.3 优化决策记忆  282

    12.2.4 策略和价值函数  284

    12.3 基于模型的技术  285

    12.3.1 基于MDP的启发式解决方案  285

    12.3.2 POMDP的值迭代  286

    12.3.3 确切的值迭代  288

    12.3.4 基于点的值迭代方法  290

    12.3.5 其他近似求解方法  291

    12.4 无先验模型的决策  292

    12.4.1 无记忆技术  292

    12.4.2 学习内部记忆  292

    12.5 近期研究趋势  294

    参考文献  295

    第13章 预测性定义状态表示  300

    13.1 简介  300

    13.1.1 状态是什么  301

    13.1.2 哪一个状态表示  301

    13.1.3 为什么使用预测性定义模型  302

    13.2 PSR  303

    13.2.1 历史及测试  303

    13.2.2 测试的预测  304

    13.2.3 系统动态向量  304

    13.2.4 系统动态矩阵  305

    13.2.5 充分的数据集  305

    13.2.6 状态  306

    13.2.7 更新状态  306

    13.2.8 线性PSR  307

    13.2.9 线性PSR与POMDP的关联  307

    13.2.10 线性PSR的理论结果  308

    13.3 PSR模型学习  308

    13.3.1 发现问题  308

    13.3.2 学习问题  309

    13.3.3 估计系统动态矩阵  309

    13.4 规划与PSR  309

    13.5 PSR的扩展  310

    13.6 其他具有预测性定义状态的模型  311

    13.6.1 可观测算子模型  311

    13.6.2 预测线性高斯模型  312

    13.6.3 时序差分网络  312

    13.6.4 分集自动机  312

    13.6.5 指数族PSR  313

    13.6.6 转换PSR  313

    13.7 总结  313

    参考文献  314

    第14章 博弈论和多学习器强化学习  317

    14.1 简介  317

    14.2 重复博弈  319

    14.2.1 博弈论  319

    14.2.2 重复博弈中的强化学习  322

    14.3 顺序博弈  325

    14.3.1 马尔可夫博弈  326

    14.3.2 马尔可夫博弈中的强化学习  327

    14.4 在多学习器系统中的稀疏交互  330

    14.4.1 多等级学习  330

    14.4.2 协调学习与稀疏交互  331

    14.5 延伸阅读  334

    参考文献  334

    第15章 去中心化的部分可观察马尔可夫决策过程  338

    15.1 简介  338

    15.2 Dec-POMDP框架  339

    15.3 历史状态与策略  340

    15.3.1 历史状态  341

    15.3.2 策略  341

    15.3.3 策略的结构  342

    15.3.4 联合策略的质量  343

    15.4 有限域的Dec-POMDP的解决方案  344

    15.4.1 穷举搜索和Dec-POMDP复杂性  344

    15.4.2 交替最大化  344

    15.4.3 Dec-POMDP的最优价值函数  345

    15.4.4 前推法:启发式搜索  348

    15.4.5 后推法:动态规划  350

    15.4.6 其他有限域的方法  353

    15.5 延伸阅读  353

    15.5.1 一般化和特殊问题  353

    15.5.2 有限Dec-POMDP  354

    15.5.3 强化学习  355

    15.5.4 通信  356

    参考文献  356

    第五部分 其他应用领域

    第16章 强化学习与心理和神经科学之间的关系  364

    16.1 简介  364

    16.2 经典(巴甫洛夫)条件反射  365

    16.2.1 行为  365

    16.2.2 理论  366

    16.2.3 小结和其他注意事项  367

    16.3 操作性(工具性)条件反射  368

    16.3.1 动作  368

    16.3.2 理论  369

    16.3.3 基于模型的控制与无模型的控制  370

    16.3.4 小结和其他注意事项  371

    16.4 多巴胺  371

    16.4.1 多巴胺作为奖励预测误差  372

    16.4.2 多巴胺的强化信号的作用  372

    16.4.3 小结和其他注意事项  373

    16.5 基底神经节  373

    16.5.1 基底神经节概述  374

    16.5.2 纹状体的神经活动  374

    16.5.3 皮质基神经节丘脑循环  375

    16.5.4 小结和其他注意事项  377

    16.6 总结  378

    参考文献  378

    第17章 游戏领域的强化学习  387

    17.1 简介  387

    17.1.1 目标和结构  387

    17.1.2 范围  388
查看详情
12
相关图书 / 更多
强化学习
强化学习(微课版)
袁莎;白朔天;唐杰
强化学习
强化学习:原理与Python实战
肖智清 著
强化学习
强化学习实战——从零开始制作AlphaGo围棋(微课视频版)
刘佳
强化学习
强化“四大功能” 提升上海城市核心竞争力
上海市人民政府发展研究中心
强化学习
强化党规研究 推进依规治党
夏小和;潘牧天
强化学习
强化学习入门——基于Python(基于Python的数据分析丛书)
吴喜之 张敏
强化学习
强化学习
魏庆来;王飞跃
强化学习
强化学习与机器人控制
[墨] 余文(Wen Yu),阿道夫·佩鲁斯基亚(Adolfo Perrusquia)著 刘晓骏 译
强化学习
强化学习
[美]菲尔·温德尔博士(Phil Winder;Ph.D
强化学习
强化学习算法入门
曾我部东马
强化学习
强化学习:前沿算法与应用
白辰甲 赵英男 郝建业 刘鹏 王震
强化学习
强化思想引领谋篇“十四五”发展
丛书编写组 编
您可能感兴趣 / 更多
强化学习
逃出瓶子的精灵:一部关于“我”的哲学史
[荷兰]戈尔·格罗特
强化学习
无条件投降博物馆
[荷兰]杜布拉夫卡·乌格雷西奇
强化学习
合规评估与测量 : 基于企业犯罪与不当行为的防范
[荷兰]本杰明·范·鲁伊 主编;范晓亮 译;[美]梅丽莎·罗里;朱庆
强化学习
《忠犬山姆》(2024年百班千人寒假书单 四年级推荐阅读)
[荷兰]菲利普·霍普曼 译者:林霄霄 绘者;著者:【荷】爱德华·范戴尔
强化学习
自有品牌革命
[荷兰]科恩·德·琼(Koen;A.M.;de;Jong;[荷兰]罗伯特·朗贝尔;[荷兰]洛·林普斯
强化学习
多谢不阅
[荷兰]杜布拉夫卡·乌格雷西奇 著;理想国 出品
强化学习
文明破晓时
[荷兰]范德莱乌 著;高师宁 宋立道 曹静 王六二 译;何光沪 校
强化学习
编码理论导论 第3版 香农信息科学经典
[荷兰]雅各布斯·亨德里克斯·范·林特(J.H. van Lint)
强化学习
小熊战士(99)(获美国巴切尔德奖的真实故事,让孩子更了解战争的本质;作者获荷兰青少年文学终身成就奖!)
[荷兰]彼彼·迪蒙·达克
强化学习
DevOps持续万物(DevOps组织能力成熟度评估)(数字化转型与创新管理丛书)
[荷兰]巴特·德·贝斯特(Bart de Best) 著
强化学习
雕版手绘珍鸟图鉴
[荷兰]比比·多姆·塔克
强化学习
共情时代
[荷兰]弗朗斯·德瓦尔