深度学习入门4:强化学习

深度学习入门4:强化学习
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [日]
2024-08
版次: 1
ISBN: 9787115649171
定价: 109.80
装帧: 平装
开本: 32开
页数: 332页
字数: 298千字
7人买过
  • 本书前半部分介绍强化学习的重要思想和基础知识,后半部分介绍如何将深度学习应用于强化学习,遴选讲解了深度强化学习的近期新技术。全书从最适合入门的多臂老虎机问题切入,依次介绍了定义一般强化学习问题的马尔可夫决策过程、用于寻找很好答案的贝尔曼方程,以及解决贝尔曼方程的动态规划法、蒙特卡洛方法和TD方法。随后,神经网络和Q学习、DQN、策略梯度法等几章则分别讨论了深度学习在强化学习领域的应用。本书延续‘鱼书‘系列的风格,搭配丰富的图、表、代码示例,加上轻松、简明的讲解,让人循序渐进地理解强化学习中各种方法之间的关系,于不知不觉中登堂入室。本书既适合深度学习的初学者,也适合对人工智能感兴趣的教师、学生和相关从业者学习参考。 斋藤康毅,1984年出生于日本长崎县,东京工业大学毕业,并完成东京大学研究生院课程。目前在某企业从事人工智能相关的研究和开发工作。著有“鱼书”系列《深度学习入门:基于Python的理论与实现》《深度学习进阶:自然语言处理》《深度学习入门2:自制框架》,同时也是Python in Practice、The Elements of Computing Systems、Building MachineLearning Systems with Python的日文版译者。 【译者介绍】 郑明智,智慧医疗工程师。主要研究方向为医疗与前沿ICT技术的结合及其应用。译有《深度学习基础与实践》《详解深度学习》《白话机器学习的数学》等书。 前言

    第1章 老虎机问题 1

    1.1 机器学习的分类与强化学习 1

    1.1.1 监督学习 2

    1.1.2 无监督学习 2

    1.1.3 强化学习 3

    1.2 老虎机问题 5

    1.2.1 什么是老虎机问题 5

    1.2.2 什么是好的老虎机 7

    1.2.3 使用数学式表示 8

    1.3 老虎机算法 9

    1.3.1 价值的估计方法 10

    1.3.2 求平均值的实现 12

    1.3.3 玩家的策略 15

    1.4 老虎机算法的实现 17

    1.4.1 老虎机的实现 17

    1.4.2 智能代理的实现 19

    1.4.3 尝试运行 20

    1.4.4 算法平均的特性 23

    1.5 非稳态问题 28

    1.5.1 解决非稳态问题前的准备工作 29

    1.5.2 解决非稳态问题 32

    1.6 小结 34

    第2章 马尔可夫决策过程 36

    2.1 什么是MDP 37

    2.1.1 MDP的具体例子 37

    2.1.2 智能代理与环境的互动 39

    2.2 环境和智能代理的数学表示 40

    2.2.1 状态迁移 40

    2.2.2 奖励函数 42

    2.2.3 智能代理的策略 43

    2.3 MDP的目标 45

    2.3.1 回合制任务和连续性任务 45

    2.3.2 收益 46

    2.3.3 状态价值函数 47

    2.3.4 很优策略和很优价值函数 48

    2.4 MDP的例子 50

    2.4.1 回溯线形图 51

    2.4.2 找出很优策略 52

    2.5 小结 54

    第3章 贝尔曼方程 56

    3.1 贝尔曼方程的推导 57

    3.1.1 概率和期望值(推导贝尔曼方程的准备)57

    3.1.2 贝尔曼方程的推导 60

    3.2 贝尔曼方程的例子 64

    3.2.1 有两个方格的网格世界 64

    3.2.2 贝尔曼方程的意义 68

    3.3 行动价值函数与贝尔曼方程 68

    3.3.1 行动价值函数 69

    3.3.2 使用行动价值函数的贝尔曼方程 70

    3.4 贝尔曼很优方程 71

    3.4.1 状态价值函数的贝尔曼很优方程 71

    3.4.2 Q函数的贝尔曼很优方程 73

    3.5 贝尔曼很优方程的示例 74

    3.5.1 应用贝尔曼很优方程 74

    3.5.2 得到很优策略 76

    3.6 小结 78

    第4章 动态规划法 79

    4.1 动态规划法和策略评估 80

    4.1.1 动态规划法简介 80

    4.1.2 尝试迭代策略评估 81

    4.1.3 迭代策略评估的其他实现方式 86

    4.2 解决更大的问题 87

    4.2.1 GridWorld类的实现 88

    4.2.2 defaultdict的用法 94

    4.2.3 迭代策略评估的实现 95

    4.3 策略迭代法 99

    4.3.1 策略的改进 99

    4.3.2 重复评估和改进 101

    4.4 实施策略迭代法 102

    4.4.1 改进策略 103

    4.4.2 重复评估和改进 105

    4.5 价值迭代法 107

    4.5.1 价值迭代法的推导 109

    4.5.2 价值迭代法的实现 113

    4.6 小结 116

    第5章 蒙特卡洛方法 117

    5.1 蒙特卡洛方法的基础知识 117

    5.1.1 骰子的点数和 118

    5.1.2 分布模型和样本模型 119

    5.1.3 蒙特卡洛方法的实现 121

    5.2 使用蒙特卡洛方法评估策略 123

    5.2.1 使用蒙特卡洛方法计算价值函数 124

    5.2.2 求所有状态的价值函数 126

    5.2.3 蒙特卡洛方法的高效实现 129

    5.3 蒙特卡洛方法的实现 130

    5.3.1 step方法 130

    5.3.2 智能代理类的实现 132

    5.3.3 运行蒙特卡洛方法 134

    5.4 使用蒙特卡洛方法的策略控制 136

    5.4.1 评估和改进 136

    5.4.2 使用蒙特卡洛方法实现策略控制 137

    5.4.3 ε-greedy算法(第 1个修改) 139

    5.4.4 修改为固定值α的方式(第 2个修改) 141

    5.4.5 [ 修改版] 使用蒙特卡洛方法实现策略迭代法 142

    5.5 异策略型和重要性采样 145

    5.5.1 同策略型和异策略型 145

    5.5.2 重要性采样 146

    5.5.3 如何减小方差 150

    5.6 小结 152

    第6章 TD方法 153

    6.1 使用TD方法评估策略 153

    6.1.1 TD方法的推导 154

    6.1.2 MC方法和TD方法的比较 157

    6.1.3 TD方法的实现 158

    6.2 SARSA 161

    6.2.1 同策略型的SARSA 161

    6.2.2 SARSA的实现 162

    6.3 异策略型的SARSA 165

    6.3.1 异策略型和重要性采样 166

    6.3.2 异策略型的SARSA的实现 167

    6.4 Q学习 169

    6.4.1 贝尔曼方程与SARSA 170

    6.4.2 贝尔曼很优方程与Q学习 171

    6.4.3 Q学习的实现 173

    6.5 分布模型与样本模型 175

    6.5.1 分布模型与样本模型 175

    6.5.2 样本模型版的Q学习 176

    6.6 小结 179

    第7章 神经网络和Q学习 181

    7.1 DeZero简介 182

    7.1.1 使用DeZero 183

    7.1.2 多维数组(张量)和函数 184

    7.1.3 很优化 186

    7.2 线性回归 189

    7.2.1 玩具数据集 189

    7.2.2 线性回归的理论知识 190

    7.2.3 线性回归的实现 191

    7.3 神经网络 195

    7.3.1 非线性数据集 195

    7.3.2 线性变换和激活函数 196

    7.3.3 神经网络的实现 197

    7.3.4 层与模型 199

    7.3.5 优化器(很优化方法)202

    7.4 Q学习与神经网络 204

    7.4.1 神经网络的预处理 204

    7.4.2 表示Q函数的神经网络 205

    7.4.3 神经网络和Q学习 208

    7.5 小结 212

    第8章 DQN 213

    8.1 OpenAI Gym 213

    8.1.1 OpenAI Gym的基础知识 214

    8.1.2 随机智能代理 216

    8.2 DQN的核心技术 218

    8.2.1 经验回放 218

    8.2.2 经验回放的实现 220

    8.2.3 目标网络 223

    8.2.4 目标网络的实现 224

    8.2.5 运行DQN 227

    8.3 DQN与Atari 230

    8.3.1 Atari的游戏环境 231

    8.3.2 预处理 232

    8.3.3 CNN 232

    8.3.4 其他技巧 233

    8.4 DQN的扩展 234

    8.4.1 Double DQN 234

    8.4.2 优先级经验回放 235

    8.4.3 Dueling DQN 236

    8.5 小结 238

    第9章 策略梯度法 239

    9.1 最简单的策略梯度法 239

    9.1.1 策略梯度法的推导 240

    9.1.2 策略梯度法的算法 241

    9.1.3 策略梯度法的实现 243

    9.2 REINFORCE 248

    9.2.1 REINFORCE算法 249

    9.2.2 REINFORCE的实现 250

    9.3 基线 251

    9.3.1 基线的思路 251

    9.3.2 带基线的策略梯度法 253

    9.4 Actor-Critic 254

    9.4.1 Actor-Critic的推导 255

    9.4.2 Actor-Critic的实现 257

    9.5 基于策略的方法的优点 260

    9.6 小结 262

    第 10章 进一步学习 263

    10.1 深度强化学习算法的分类 263

    10.2 策略梯度法的改进算法 265

    10.2.1 A3C和A2C 265

    10.2.2 DDPG 268

    10.2.3 TRPO和PPO 271

    10.3 DQN的改进算法 272

    10.3.1 分类DQN 272

    10.3.2 Noisy Network 274

    10.3.3 Rainbow 274

    10.3.4 在Rainbow以后提出的改进算法 275

    10.4 案例研究 276

    10.4.1 棋盘游戏 277

    10.4.2 机器人控制 279

    10.4.3 NAS 280

    10.4.4 其他案例 282

    10.5 深度强化学习的挑战和可能性 283

    10.5.1 应用于实际系统 283

    10.5.2 将问题表示为MDP形式时的建议 286

    10.5.3 通用人工智能系统 288

    10.6 小结 288

    附录A 异策略型的蒙特卡洛方法 291

    附录B n-step TD方法 298

    附录C Double DQN的理解 300

    附录D 策略梯度法的证明 304

    后记 308

    参考文献 310
  • 内容简介:
    本书前半部分介绍强化学习的重要思想和基础知识,后半部分介绍如何将深度学习应用于强化学习,遴选讲解了深度强化学习的近期新技术。全书从最适合入门的多臂老虎机问题切入,依次介绍了定义一般强化学习问题的马尔可夫决策过程、用于寻找很好答案的贝尔曼方程,以及解决贝尔曼方程的动态规划法、蒙特卡洛方法和TD方法。随后,神经网络和Q学习、DQN、策略梯度法等几章则分别讨论了深度学习在强化学习领域的应用。本书延续‘鱼书‘系列的风格,搭配丰富的图、表、代码示例,加上轻松、简明的讲解,让人循序渐进地理解强化学习中各种方法之间的关系,于不知不觉中登堂入室。本书既适合深度学习的初学者,也适合对人工智能感兴趣的教师、学生和相关从业者学习参考。
  • 作者简介:
    斋藤康毅,1984年出生于日本长崎县,东京工业大学毕业,并完成东京大学研究生院课程。目前在某企业从事人工智能相关的研究和开发工作。著有“鱼书”系列《深度学习入门:基于Python的理论与实现》《深度学习进阶:自然语言处理》《深度学习入门2:自制框架》,同时也是Python in Practice、The Elements of Computing Systems、Building MachineLearning Systems with Python的日文版译者。 【译者介绍】 郑明智,智慧医疗工程师。主要研究方向为医疗与前沿ICT技术的结合及其应用。译有《深度学习基础与实践》《详解深度学习》《白话机器学习的数学》等书。
  • 目录:
    前言

    第1章 老虎机问题 1

    1.1 机器学习的分类与强化学习 1

    1.1.1 监督学习 2

    1.1.2 无监督学习 2

    1.1.3 强化学习 3

    1.2 老虎机问题 5

    1.2.1 什么是老虎机问题 5

    1.2.2 什么是好的老虎机 7

    1.2.3 使用数学式表示 8

    1.3 老虎机算法 9

    1.3.1 价值的估计方法 10

    1.3.2 求平均值的实现 12

    1.3.3 玩家的策略 15

    1.4 老虎机算法的实现 17

    1.4.1 老虎机的实现 17

    1.4.2 智能代理的实现 19

    1.4.3 尝试运行 20

    1.4.4 算法平均的特性 23

    1.5 非稳态问题 28

    1.5.1 解决非稳态问题前的准备工作 29

    1.5.2 解决非稳态问题 32

    1.6 小结 34

    第2章 马尔可夫决策过程 36

    2.1 什么是MDP 37

    2.1.1 MDP的具体例子 37

    2.1.2 智能代理与环境的互动 39

    2.2 环境和智能代理的数学表示 40

    2.2.1 状态迁移 40

    2.2.2 奖励函数 42

    2.2.3 智能代理的策略 43

    2.3 MDP的目标 45

    2.3.1 回合制任务和连续性任务 45

    2.3.2 收益 46

    2.3.3 状态价值函数 47

    2.3.4 很优策略和很优价值函数 48

    2.4 MDP的例子 50

    2.4.1 回溯线形图 51

    2.4.2 找出很优策略 52

    2.5 小结 54

    第3章 贝尔曼方程 56

    3.1 贝尔曼方程的推导 57

    3.1.1 概率和期望值(推导贝尔曼方程的准备)57

    3.1.2 贝尔曼方程的推导 60

    3.2 贝尔曼方程的例子 64

    3.2.1 有两个方格的网格世界 64

    3.2.2 贝尔曼方程的意义 68

    3.3 行动价值函数与贝尔曼方程 68

    3.3.1 行动价值函数 69

    3.3.2 使用行动价值函数的贝尔曼方程 70

    3.4 贝尔曼很优方程 71

    3.4.1 状态价值函数的贝尔曼很优方程 71

    3.4.2 Q函数的贝尔曼很优方程 73

    3.5 贝尔曼很优方程的示例 74

    3.5.1 应用贝尔曼很优方程 74

    3.5.2 得到很优策略 76

    3.6 小结 78

    第4章 动态规划法 79

    4.1 动态规划法和策略评估 80

    4.1.1 动态规划法简介 80

    4.1.2 尝试迭代策略评估 81

    4.1.3 迭代策略评估的其他实现方式 86

    4.2 解决更大的问题 87

    4.2.1 GridWorld类的实现 88

    4.2.2 defaultdict的用法 94

    4.2.3 迭代策略评估的实现 95

    4.3 策略迭代法 99

    4.3.1 策略的改进 99

    4.3.2 重复评估和改进 101

    4.4 实施策略迭代法 102

    4.4.1 改进策略 103

    4.4.2 重复评估和改进 105

    4.5 价值迭代法 107

    4.5.1 价值迭代法的推导 109

    4.5.2 价值迭代法的实现 113

    4.6 小结 116

    第5章 蒙特卡洛方法 117

    5.1 蒙特卡洛方法的基础知识 117

    5.1.1 骰子的点数和 118

    5.1.2 分布模型和样本模型 119

    5.1.3 蒙特卡洛方法的实现 121

    5.2 使用蒙特卡洛方法评估策略 123

    5.2.1 使用蒙特卡洛方法计算价值函数 124

    5.2.2 求所有状态的价值函数 126

    5.2.3 蒙特卡洛方法的高效实现 129

    5.3 蒙特卡洛方法的实现 130

    5.3.1 step方法 130

    5.3.2 智能代理类的实现 132

    5.3.3 运行蒙特卡洛方法 134

    5.4 使用蒙特卡洛方法的策略控制 136

    5.4.1 评估和改进 136

    5.4.2 使用蒙特卡洛方法实现策略控制 137

    5.4.3 ε-greedy算法(第 1个修改) 139

    5.4.4 修改为固定值α的方式(第 2个修改) 141

    5.4.5 [ 修改版] 使用蒙特卡洛方法实现策略迭代法 142

    5.5 异策略型和重要性采样 145

    5.5.1 同策略型和异策略型 145

    5.5.2 重要性采样 146

    5.5.3 如何减小方差 150

    5.6 小结 152

    第6章 TD方法 153

    6.1 使用TD方法评估策略 153

    6.1.1 TD方法的推导 154

    6.1.2 MC方法和TD方法的比较 157

    6.1.3 TD方法的实现 158

    6.2 SARSA 161

    6.2.1 同策略型的SARSA 161

    6.2.2 SARSA的实现 162

    6.3 异策略型的SARSA 165

    6.3.1 异策略型和重要性采样 166

    6.3.2 异策略型的SARSA的实现 167

    6.4 Q学习 169

    6.4.1 贝尔曼方程与SARSA 170

    6.4.2 贝尔曼很优方程与Q学习 171

    6.4.3 Q学习的实现 173

    6.5 分布模型与样本模型 175

    6.5.1 分布模型与样本模型 175

    6.5.2 样本模型版的Q学习 176

    6.6 小结 179

    第7章 神经网络和Q学习 181

    7.1 DeZero简介 182

    7.1.1 使用DeZero 183

    7.1.2 多维数组(张量)和函数 184

    7.1.3 很优化 186

    7.2 线性回归 189

    7.2.1 玩具数据集 189

    7.2.2 线性回归的理论知识 190

    7.2.3 线性回归的实现 191

    7.3 神经网络 195

    7.3.1 非线性数据集 195

    7.3.2 线性变换和激活函数 196

    7.3.3 神经网络的实现 197

    7.3.4 层与模型 199

    7.3.5 优化器(很优化方法)202

    7.4 Q学习与神经网络 204

    7.4.1 神经网络的预处理 204

    7.4.2 表示Q函数的神经网络 205

    7.4.3 神经网络和Q学习 208

    7.5 小结 212

    第8章 DQN 213

    8.1 OpenAI Gym 213

    8.1.1 OpenAI Gym的基础知识 214

    8.1.2 随机智能代理 216

    8.2 DQN的核心技术 218

    8.2.1 经验回放 218

    8.2.2 经验回放的实现 220

    8.2.3 目标网络 223

    8.2.4 目标网络的实现 224

    8.2.5 运行DQN 227

    8.3 DQN与Atari 230

    8.3.1 Atari的游戏环境 231

    8.3.2 预处理 232

    8.3.3 CNN 232

    8.3.4 其他技巧 233

    8.4 DQN的扩展 234

    8.4.1 Double DQN 234

    8.4.2 优先级经验回放 235

    8.4.3 Dueling DQN 236

    8.5 小结 238

    第9章 策略梯度法 239

    9.1 最简单的策略梯度法 239

    9.1.1 策略梯度法的推导 240

    9.1.2 策略梯度法的算法 241

    9.1.3 策略梯度法的实现 243

    9.2 REINFORCE 248

    9.2.1 REINFORCE算法 249

    9.2.2 REINFORCE的实现 250

    9.3 基线 251

    9.3.1 基线的思路 251

    9.3.2 带基线的策略梯度法 253

    9.4 Actor-Critic 254

    9.4.1 Actor-Critic的推导 255

    9.4.2 Actor-Critic的实现 257

    9.5 基于策略的方法的优点 260

    9.6 小结 262

    第 10章 进一步学习 263

    10.1 深度强化学习算法的分类 263

    10.2 策略梯度法的改进算法 265

    10.2.1 A3C和A2C 265

    10.2.2 DDPG 268

    10.2.3 TRPO和PPO 271

    10.3 DQN的改进算法 272

    10.3.1 分类DQN 272

    10.3.2 Noisy Network 274

    10.3.3 Rainbow 274

    10.3.4 在Rainbow以后提出的改进算法 275

    10.4 案例研究 276

    10.4.1 棋盘游戏 277

    10.4.2 机器人控制 279

    10.4.3 NAS 280

    10.4.4 其他案例 282

    10.5 深度强化学习的挑战和可能性 283

    10.5.1 应用于实际系统 283

    10.5.2 将问题表示为MDP形式时的建议 286

    10.5.3 通用人工智能系统 288

    10.6 小结 288

    附录A 异策略型的蒙特卡洛方法 291

    附录B n-step TD方法 298

    附录C Double DQN的理解 300

    附录D 策略梯度法的证明 304

    后记 308

    参考文献 310
查看详情
12
相关图书 / 更多
您可能感兴趣 / 更多
深度学习入门4:强化学习
干物妹!小埋8
[日]三角头
深度学习入门4:强化学习
干物妹!小埋4(首刷特典版)
[日]三角头
深度学习入门4:强化学习
干物妹!小埋5
[日]三角头
深度学习入门4:强化学习
干物妹!小埋2(首刷特典版)
[日]三角头
深度学习入门4:强化学习
干物妹!小埋7
[日]三角头
深度学习入门4:强化学习
干物妹!小埋6
[日]三角头
深度学习入门4:强化学习
干物妹!小埋10
[日]三角头
深度学习入门4:强化学习
干物妹!小埋1-12
[日]三角头
深度学习入门4:强化学习
干物妹!小埋11(首刷特典版)
[日]三角头
深度学习入门4:强化学习
干物妹!小埋9
[日]三角头
深度学习入门4:强化学习
一介平凡的影迷(续篇)
[日]手冢治虫 著
深度学习入门4:强化学习
深度学习入门2:自制框架
[日]斋藤康毅