深入浅出强化学习：编程实战

深入浅出强化学习：编程实战

分享

作者: 郭宪著 , 宋俊潇著 , 方勇纯著

出版社: 电子工业出版社

出版时间: 2020-03

ISBN: 9787121367465

定价: 89.00

装帧: 平装

开本: 16开

纸张: 胶版纸

分类: 计算机与互联网

40人买过

《深入浅出强化学习：编程实战》是《深入浅出强化学习：原理入门》的姊妹篇，写作的初衷是通过编程实例帮助那些想要学习强化学习算法的读者更深入、更清楚地理解算法。
本书首先介绍马尔可夫决策过程的理论框架，然后介绍基于动态规划的策略迭代算法和值迭代算法，在此基础上分3 篇介绍了目前强化学习算法中最基本的算法。第1 篇讲解基于值函数的强化学习算法，介绍了基于两种策略评估方法（蒙特卡洛策略评估和时间差分策略评估）的强化学习算法，以及如何将函数逼近的方法引入强化学习算法中。第2 篇讲解直接策略搜索方法，介绍了基本的策略梯度方法、AC 方法、PPO 方法和DDPG 算法。第3 篇讲解基于模型的强化学习方法，介绍了基于MPC 的方法、AlphaZero 算法基本原理及在五子棋上的具体实现细节。建议读者根据书中的代码亲自动手编程，并修改程序中的超参数，根据运行结果不断体会算法原理。

第0 篇先导篇 ......... 1
1 一个极其简单的强化学习实例 .................................. 2
1.1 多臂赌博机 ..................... 2
1.1.1 e - greedy策略 .... 3
1.1.2 玻尔兹曼策略 ...... 6
1.1.3 UCB 策略 ............. 7
1.2 多臂赌博机代码实现 ..... 7
2 马尔可夫决策过程 .............. 13
2.1 从多臂赌博机到马尔可夫决策过程 ............... 13
2.2 马尔可夫决策过程代码实现 ........................... 23

第1 篇基于值函数的方法 .......................... 31
3 基于动态规划的方法 ........... 32
3.1 策略迭代与值迭代 ....... 32
3.1.1 策略迭代算法原理 ................................ 33
3.1.2 值迭代算法原理  35
3.2 策略迭代和值迭代的代码实现 ....................... 36
3.2.1 鸳鸯环境的修改  36
3.2.2 策略迭代算法代码实现 ........................ 37
3.2.3 值迭代算法代码实现 ............................ 41
4 基于蒙特卡洛的方法 ........... 45
4.1 蒙特卡洛算法原理 ....... 46
4.2 蒙特卡洛算法的代码实现 ............................... 49
4.2.1 环境类的修改和蒙特卡洛算法类的声明 ................................ 49
4.2.2 探索初始化蒙特卡洛算法实现 ............ 52
4.2.3 同策略蒙特卡洛算法实现 .................... 56
5 基于时间差分的方法 ........... 62
5.1 从动态规划到时间差分强化学习 ................... 62
5.2 时间差分算法代码实现 ................................... 66
5.2.1 时间差分算法类的声明 ........................ 66
5.2.2 SARSA 算法 ...... 67
5.2.3 Q-Learning 算法  70
6 基于函数逼近的方法 ........... 74
6.1 从表格型强化学习到线性函数逼近强化学习  74
6.1.1 表格特征表示 .... 74
6.1.2 固定稀疏表示 .... 75
6.1.3 参数的训练 ........ 76
6.2 基于线性函数逼近的Q-Learning 算法实现 ... 76
6.3 非线性函数逼近DQN 算法代码实现 ............. 85

第2 篇直接策略搜索的方法 ...................... 95
7 策略梯度方法 ..................... 96
7.1 算法基本原理及代码架构 ............................... 96
7.1.1 策略的表示问题  97
7.1.2 随机策略梯度的推导 ............................ 98
7.1.3 折扣累积回报 .... 99
7.1.4 代码架构 .......... 101
7.2 离散动作：CartPole 实例解析及编程实战 ... 103
7.2.1 CartPole 简介 ... 103
7.2.2 问题分析及MDP 模型 ....................... 104
7.2.3 采样类的Python 源码实现 ................. 105
7.2.4 策略网络模型分析 .............................. 106
7.2.5 策略网络类的Python 源码实现 ......... 108
7.2.6 策略网络的训练与测试 ....................... 110
7.2.7 用策略梯度法求解Cartpole 的主函数 ................................... 112
7.2.8 CartPole 仿真环境开发 ........................ 113
7.3 连续动作Pendulum 实例解析及编程实战 .... 117
7.3.1 Pendulum 简介 .. 118
7.3.2 采样类的Python 源代码实现 .............. 118
7.3.3 策略网络模型分析 .............................. 120
7.3.4 策略网络类的Python 源码实现 ......... 121
7.3.5 策略网络的训练与测试 ...................... 125
7.3.6 用策略梯度法求解Pendulum 的主函数 ................................ 126
7.3.7 Pendulum 仿真环境开发 ..................... 127
8 Actor-Critic 方法 ............... 131
8.1 Actor-Critic 原理及代码架构 ......................... 131
8.1.1 Actor-Critic 基本原理 .......................... 131
8.1.2 Actor-Critic 算法架构 .......................... 133
8.2 TD-AC 算法 ................ 133
8.2.1 采样类的Python 源码 ......................... 134
8.2.2 策略网络的Python 源码 ..................... 135
8.2.3 策略训练和测试 .................................. 138
8.2.4 主函数及训练效果 .............................. 140
8.3 Minibatch-MC-AC 算法 ................................. 141
8.3.1 Minibatch-MC-AC 算法框架 .............. 141
8.3.2 采样类的Python 源码 ......................... 142
8.3.3 策略网络的Python 源码 ..................... 144
8.3.4 策略的训练和测试 .............................. 147
8.3.5 主函数及训练效果 .............................. 149
9 PPO 方法 ......................... 151
9.1 PPO 算法基本原理及代码结构 ..................... 151
9.2 Python 源码解析 ......... 154
9.2.1 采样类 .............. 154
9.2.2 策略网络 .......... 156
9.2.3 策略的训练和测试 .............................. 159
9.2.4 主函数及训练效果 .............................. 160
10 DDPG 方法 .................... 163
10.1 DDPG 基本原理 ....... 163
10.2 Python 源码解析 ....... 167
10.2.1 经验缓存器类  167
10.2.2 策略网络类 .... 169
10.2.3 训练和测试 .... 173
10.2.4 主函数及训练效果 ............................ 175

第3 篇基于模型的强化学习方法 ............. 177
11 基于模型预测控制的强化学习算法 ..................... 178
11.1 基于模型的强化学习算法的基本原理 ........ 178
11.1.1 神经网络拟合动力学模型 ................ 179
11.1.2 模型预测控制  179
11.1.3 基于模型的强化学习算法伪代码 .... 180
11.2 Python 源码实现及解析 ............................... 181
11.2.1 数据收集类 .... 181
11.2.2 数据采样类 .... 181
11.2.3 动力学网络类  182
11.2.4 模型预测控制器类 ............................ 185
11.2.5 模型训练和预测函数 ........................ 186
11.2.6 主函数 ............ 188
12 AlphaZero 原理浅析 ....... 190
12.1 从AlphaGo 到AlphaZero ............................ 191
12.2 蒙特卡洛树搜索算法 ................................... 196
12.2.1 博弈树和极小极大搜索 .................... 196
12.2.2 再论多臂老虎机问题 ........................ 198
12.2.3 UCT 算法 ....... 200
12.3 基于自我对弈的强化学习 ........................... 206
12.3.1 基于MCTS 的自我对弈 ................... 206
12.3.2 策略价值网络的训练 ........................ 210
13 AlphaZero 实战：从零学下五子棋 ...................... 214
13.1 构建简易的五子棋环境 ............................... 215
13.2 建立整体算法流程 ... 223
13.3 实现蒙特卡洛树搜索 ................................... 229
13.4 实现策略价值网络 ... 235
13.5 训练实验与效果评估 ................................... 240

附录A PyTorch 入门 ........... 246
A.1 PyTorch 基础知识 ...... 246
A.1.1 Tensor .............. 246
A.1.2 基础操作 ......... 247
A.1.3 Tensor 和NumPy array 间的转化 ...... 249
A.1.4 Autograd：自动梯度 .......................... 249
A.2 PyTorch 中的神经网络 .................................. 250
A.2.1 如何定义神经网络 ............................. 251
A.2.2 如何训练神经网络 ............................. 254
A.2.3 在CIFAR-10 数据集上进行训练和测试 ............................... 256
A.2.4 模型的保存和加载 ............................. 259
参考文献 ................................ 261
后记 ... 263
内容简介:
《深入浅出强化学习：编程实战》是《深入浅出强化学习：原理入门》的姊妹篇，写作的初衷是通过编程实例帮助那些想要学习强化学习算法的读者更深入、更清楚地理解算法。
本书首先介绍马尔可夫决策过程的理论框架，然后介绍基于动态规划的策略迭代算法和值迭代算法，在此基础上分3 篇介绍了目前强化学习算法中最基本的算法。第1 篇讲解基于值函数的强化学习算法，介绍了基于两种策略评估方法（蒙特卡洛策略评估和时间差分策略评估）的强化学习算法，以及如何将函数逼近的方法引入强化学习算法中。第2 篇讲解直接策略搜索方法，介绍了基本的策略梯度方法、AC 方法、PPO 方法和DDPG 算法。第3 篇讲解基于模型的强化学习方法，介绍了基于MPC 的方法、AlphaZero 算法基本原理及在五子棋上的具体实现细节。建议读者根据书中的代码亲自动手编程，并修改程序中的超参数，根据运行结果不断体会算法原理。
目录:
第0 篇先导篇 ......... 1
1 一个极其简单的强化学习实例 .................................. 2
1.1 多臂赌博机 ..................... 2
1.1.1 e - greedy策略 .... 3
1.1.2 玻尔兹曼策略 ...... 6
1.1.3 UCB 策略 ............. 7
1.2 多臂赌博机代码实现 ..... 7
2 马尔可夫决策过程 .............. 13
2.1 从多臂赌博机到马尔可夫决策过程 ............... 13
2.2 马尔可夫决策过程代码实现 ........................... 23

第1 篇基于值函数的方法 .......................... 31
3 基于动态规划的方法 ........... 32
3.1 策略迭代与值迭代 ....... 32
3.1.1 策略迭代算法原理 ................................ 33
3.1.2 值迭代算法原理  35
3.2 策略迭代和值迭代的代码实现 ....................... 36
3.2.1 鸳鸯环境的修改  36
3.2.2 策略迭代算法代码实现 ........................ 37
3.2.3 值迭代算法代码实现 ............................ 41
4 基于蒙特卡洛的方法 ........... 45
4.1 蒙特卡洛算法原理 ....... 46
4.2 蒙特卡洛算法的代码实现 ............................... 49
4.2.1 环境类的修改和蒙特卡洛算法类的声明 ................................ 49
4.2.2 探索初始化蒙特卡洛算法实现 ............ 52
4.2.3 同策略蒙特卡洛算法实现 .................... 56
5 基于时间差分的方法 ........... 62
5.1 从动态规划到时间差分强化学习 ................... 62
5.2 时间差分算法代码实现 ................................... 66
5.2.1 时间差分算法类的声明 ........................ 66
5.2.2 SARSA 算法 ...... 67
5.2.3 Q-Learning 算法  70
6 基于函数逼近的方法 ........... 74
6.1 从表格型强化学习到线性函数逼近强化学习  74
6.1.1 表格特征表示 .... 74
6.1.2 固定稀疏表示 .... 75
6.1.3 参数的训练 ........ 76
6.2 基于线性函数逼近的Q-Learning 算法实现 ... 76
6.3 非线性函数逼近DQN 算法代码实现 ............. 85

第2 篇直接策略搜索的方法 ...................... 95
7 策略梯度方法 ..................... 96
7.1 算法基本原理及代码架构 ............................... 96
7.1.1 策略的表示问题  97
7.1.2 随机策略梯度的推导 ............................ 98
7.1.3 折扣累积回报 .... 99
7.1.4 代码架构 .......... 101
7.2 离散动作：CartPole 实例解析及编程实战 ... 103
7.2.1 CartPole 简介 ... 103
7.2.2 问题分析及MDP 模型 ....................... 104
7.2.3 采样类的Python 源码实现 ................. 105
7.2.4 策略网络模型分析 .............................. 106
7.2.5 策略网络类的Python 源码实现 ......... 108
7.2.6 策略网络的训练与测试 ....................... 110
7.2.7 用策略梯度法求解Cartpole 的主函数 ................................... 112
7.2.8 CartPole 仿真环境开发 ........................ 113
7.3 连续动作Pendulum 实例解析及编程实战 .... 117
7.3.1 Pendulum 简介 .. 118
7.3.2 采样类的Python 源代码实现 .............. 118
7.3.3 策略网络模型分析 .............................. 120
7.3.4 策略网络类的Python 源码实现 ......... 121
7.3.5 策略网络的训练与测试 ...................... 125
7.3.6 用策略梯度法求解Pendulum 的主函数 ................................ 126
7.3.7 Pendulum 仿真环境开发 ..................... 127
8 Actor-Critic 方法 ............... 131
8.1 Actor-Critic 原理及代码架构 ......................... 131
8.1.1 Actor-Critic 基本原理 .......................... 131
8.1.2 Actor-Critic 算法架构 .......................... 133
8.2 TD-AC 算法 ................ 133
8.2.1 采样类的Python 源码 ......................... 134
8.2.2 策略网络的Python 源码 ..................... 135
8.2.3 策略训练和测试 .................................. 138
8.2.4 主函数及训练效果 .............................. 140
8.3 Minibatch-MC-AC 算法 ................................. 141
8.3.1 Minibatch-MC-AC 算法框架 .............. 141
8.3.2 采样类的Python 源码 ......................... 142
8.3.3 策略网络的Python 源码 ..................... 144
8.3.4 策略的训练和测试 .............................. 147
8.3.5 主函数及训练效果 .............................. 149
9 PPO 方法 ......................... 151
9.1 PPO 算法基本原理及代码结构 ..................... 151
9.2 Python 源码解析 ......... 154
9.2.1 采样类 .............. 154
9.2.2 策略网络 .......... 156
9.2.3 策略的训练和测试 .............................. 159
9.2.4 主函数及训练效果 .............................. 160
10 DDPG 方法 .................... 163
10.1 DDPG 基本原理 ....... 163
10.2 Python 源码解析 ....... 167
10.2.1 经验缓存器类  167
10.2.2 策略网络类 .... 169
10.2.3 训练和测试 .... 173
10.2.4 主函数及训练效果 ............................ 175

第3 篇基于模型的强化学习方法 ............. 177
11 基于模型预测控制的强化学习算法 ..................... 178
11.1 基于模型的强化学习算法的基本原理 ........ 178
11.1.1 神经网络拟合动力学模型 ................ 179
11.1.2 模型预测控制  179
11.1.3 基于模型的强化学习算法伪代码 .... 180
11.2 Python 源码实现及解析 ............................... 181
11.2.1 数据收集类 .... 181
11.2.2 数据采样类 .... 181
11.2.3 动力学网络类  182
11.2.4 模型预测控制器类 ............................ 185
11.2.5 模型训练和预测函数 ........................ 186
11.2.6 主函数 ............ 188
12 AlphaZero 原理浅析 ....... 190
12.1 从AlphaGo 到AlphaZero ............................ 191
12.2 蒙特卡洛树搜索算法 ................................... 196
12.2.1 博弈树和极小极大搜索 .................... 196
12.2.2 再论多臂老虎机问题 ........................ 198
12.2.3 UCT 算法 ....... 200
12.3 基于自我对弈的强化学习 ........................... 206
12.3.1 基于MCTS 的自我对弈 ................... 206
12.3.2 策略价值网络的训练 ........................ 210
13 AlphaZero 实战：从零学下五子棋 ...................... 214
13.1 构建简易的五子棋环境 ............................... 215
13.2 建立整体算法流程 ... 223
13.3 实现蒙特卡洛树搜索 ................................... 229
13.4 实现策略价值网络 ... 235
13.5 训练实验与效果评估 ................................... 240

附录A PyTorch 入门 ........... 246
A.1 PyTorch 基础知识 ...... 246
A.1.1 Tensor .............. 246
A.1.2 基础操作 ......... 247
A.1.3 Tensor 和NumPy array 间的转化 ...... 249
A.1.4 Autograd：自动梯度 .......................... 249
A.2 PyTorch 中的神经网络 .................................. 250
A.2.1 如何定义神经网络 ............................. 251
A.2.2 如何训练神经网络 ............................. 254
A.2.3 在CIFAR-10 数据集上进行训练和测试 ............................... 256
A.2.4 模型的保存和加载 ............................. 259
参考文献 ................................ 261
后记 ... 263

查看详情

相关分类

计算机理论编程与开发操作系统大数据与云计算图形图像/多媒体网站设计与网页开发网络与通讯硬件、嵌入式开发办公软件信息安全辅助设计与工程计算软件工程/开发项目管理

【正版】深入浅出强化学习编程实战9787121367465 正版旧书 85成新左右里面部分划线标记内容完好可正常使用旧书不附带光盘

九品

亲亲一家de书店

天津市武清区

平均发货12小时成功完成率94.8%

￥29.43

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习：编程实战

全新

尚贤文化郑州分店

河北省保定市

平均发货32小时成功完成率86.43%

￥40.90

券

100减20

立即购买加入购物车
深入浅出强化学习编程实战正版新书新华官方库房直发可开电子发票

全新

问典书店

江苏省南京市

平均发货5小时成功完成率98.61%

￥51.62

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习编程实战正版新书新华官方库房直发可开电子发票

全新

日知文化的书店

江苏省南京市

平均发货4小时成功完成率93.65%

￥51.62

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习.编程实战正版图书，下单以书名为准

全新

品诺图书专营店

河北省保定市

平均发货29小时成功完成率91.99%

￥38.30

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习：编程实战全新正版图书

全新

兴文书店

北京市海淀区

平均发货16小时成功完成率88.86%

￥69.51

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习编程实战全新正版假一赔十可开发票

全新

轻阅书店

北京市海淀区

平均发货9小时成功完成率97.83%

￥46.62

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学编程实战编程语言郭宪,宋俊潇,方勇纯

全新

悦霖图书

河北省廊坊市

平均发货27小时成功完成率86.68%

￥38.30

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习.编程实战正版图书，放心下单，请核对以书号和标题书名为准

全新

鑫誠書苑

河北省保定市

平均发货25小时成功完成率90.09%

￥38.30

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学：编程实战编程语言郭宪，宋俊潇，方勇纯

全新

萬書緣

河北省保定市

平均发货26小时成功完成率87.4%

￥38.30

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习：编程实战下午5点前订单，当日发货！超时赔付

九五品

才华有限

四川省成都市

平均发货10小时成功完成率94.32%

￥19.95

券

100减20

立即购买加入购物车
深入浅出强化学习(编程实战) 全新正版极速发货

全新

书香美美

广东省广州市

平均发货15小时成功完成率91.6%

￥35.42

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习(编程实战) 9787121367465 全新正版可开票支持7天无理由，不清楚的请咨询客服。

全新

倒爷图书专营店

浙江省嘉兴市

平均发货13小时成功完成率94.92%

￥38.71

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习：编程实战

九五品

灵感飞驰

北京市通州区

平均发货33小时成功完成率81.81%

￥20.00

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习：编程实战正版全新，绝无盗版，可开具图书发票

全新

碧水东乡图书专营店

四川省成都市

平均发货15小时成功完成率91.6%

￥39.60

券

100减20

立即购买加入购物车
深入浅出强化学习：编程实战套书请先咨询

全新

书昀书店

河北省保定市

平均发货13小时成功完成率88.73%

￥35.60

券

100减20

立即购买加入购物车
深入浅出强化学习.编程实战正版图书，放心下单，请核对以书号和标题书名为准

全新

缘缘书轩

河北省保定市

平均发货22小时成功完成率88.03%

￥34.82

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学编程实战编程语言郭宪,宋俊潇,方勇纯涵盖强化学基本算法实践+深度强化学算法的实现及案例。配套丰富的课程资源！

全新

智胜图书专营店

北京市丰台区

平均发货28小时成功完成率86.77%

￥45.90

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习：编程实战

全新

牧野书屋

广东省广州市

平均发货29小时成功完成率85.9%

￥46.00

券

100减20

立即购买加入购物车
深入浅出强化学习.编程实战

全新

武汉灿润文化传播

河北省保定市

平均发货30小时成功完成率81.16%

￥33.82

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习(编程实战) 全新正版极速发货

全新

谢岳书店

广东省广州市

平均发货18小时成功完成率94.35%

￥35.42

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习：编程实战正版（内页干净）

九品

缘分书店

北京市海淀区

平均发货12小时成功完成率93.58%

￥15.00

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习编程实战按标题名购买，批量下载图片有时不对应，多本图片为其中一本，有问题请联系客服。

全新

小布丁书店

河北省保定市

平均发货28小时成功完成率88.69%

￥47.25

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学编程实战编程语言郭宪,宋俊潇,方勇纯涵盖强化学基本算实践+深度强化学算的实现及案例。配套丰富的课程资源！

全新

浩子书屋

河北省保定市

平均发货15小时成功完成率93.54%

￥46.35

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习(编程实战) 全新正版极速发货

全新

大智慧小美丽

广东省广州市

平均发货17小时成功完成率92.39%

￥35.42

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习：编程实战

八五品

南之大旧书店

江苏省苏州市

平均发货8小时成功完成率87.3%

￥500.00

券

100减20

立即购买加入购物车
深入浅出强化学习.编程实战正版图书

全新

墨缘轩图书旗舰店

河北省保定市

平均发货29小时成功完成率90.38%

￥38.52

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习:编程实战书籍均为精品二手图书品相85品以上，出库会经过高温消毒，书籍上架都会检测可保证正版!!

九品

粤读二手书店

天津市宝坻区

平均发货14小时成功完成率96.11%

￥35.90

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习(编程实战) 正版图书，可开发票，请放心购买。

全新

淘书宝店

广东省广州市

平均发货7小时成功完成率94.62%

￥42.71

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习(编程实战) 9787121367465 郭宪//宋俊潇//方勇纯|责编:刘皎电子工业当天发货，全新正版书。新华书店集团直发，凡是套装书，价格异常时，请咨询后下单。

全新

白湘云书社

北京市通州区

平均发货9小时成功完成率89.35%

￥51.50

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习编程实践

全新

尚同书屋

北京市房山区

平均发货35小时成功完成率83.65%

￥40.90

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习：编程实战

2022-01 印刷
印次: 5

九品

墨香聚书阁

安徽省蚌埠市

平均发货11小时成功完成率98.43%

￥17.00

券

100减20

立即购买加入购物车不属于本条目
正版现货深入浅出强化学习：编程实战编程语言涵盖强化学习基本算法实践+深度强化学习算法的原理实现及案例。配套丰富的课程资源！新华书店全新正版书籍

全新

卓越网店

北京市东城区

平均发货21小时成功完成率88.53%

￥44.42

券

100减20

立即购买加入购物车不属于本条目
G① 深入浅出强化学习：编程实战正版实拍图，品相如图，页内干净。

九品

萧然阁的书店

浙江省绍兴市

平均发货8小时成功完成率95.89%

￥25.00

券

100减20

立即购买加入购物车
深入浅出强化学习：编程实战原版二手书，有少量字迹

八五品

天津市南大书店

天津市津南区

平均发货11小时成功完成率95.47%

￥30.00

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习：编程实战

九品

土陂乡文文书店

上海市浦东新区

平均发货6小时成功完成率97.42%

￥12.00

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习：编程实战全新正版现货

全新

天涯淘书阁

四川省成都市

平均发货21小时成功完成率90.94%

￥66.20

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习：编程实战

八五品

古今缘图书

山东省济南市

平均发货13小时成功完成率97.83%

￥15.00

券

100减20

立即购买加入购物车
深入浅出强化学习：编程实战正版一版一印，第3页有点点划线，无水印，无印章

九品

云盟书阁

湖南省长沙市

平均发货8小时成功完成率96.01%

￥15.00

券

100减20

立即购买加入购物车
深入浅出强化学习：编程实战

八品

林歌字画阁

广东省广州市

平均发货12小时成功完成率94.2%

￥23.00

券

100减20

立即购买加入购物车
深入浅出强化学习：编程实战正版现货。实物拍照，品好，内页干净无字迹

九品

杭州精品二手书店

浙江省杭州市

平均发货6小时成功完成率90.33%

￥23.00

券

100减20

立即购买加入购物车
深入浅出强化学习：编程实战

2021-02 印刷
印次: 3

八五品

重温古旧书店

北京市朝阳区

平均发货9小时成功完成率98.43%

￥20.00

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习：编程实战

九品

阿猛书斋

北京市大兴区

平均发货10小时成功完成率95.79%

￥24.00

券

100减20

立即购买加入购物车
深入浅出强化学习：编程实战

九品

慧源书社

北京市顺义区

平均发货5小时成功完成率97.95%

￥26.00

券

100减20

立即购买加入购物车
深入浅出强化学习编程实战本店所售书籍均为新华书店全新特价正版书籍！

全新

文天书社

天津市西青区

平均发货18小时成功完成率75%

￥52.00

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习：编程实战本店所有图书均为正版一手库存书，无笔记，未翻阅。电脑自动采集上传，如果商品名称和图片不符时（注：有很多单本，系统会匹配套装图片，下单请提前咨询）本店以商品名称和书号为准，配货发货只核对书号和商品名称，谢谢

全新

春之雪书城的书店

河北省保定市

平均发货8小时成功完成率86.87%

￥35.60

券

100减20

立即购买加入购物车
【假一罚四】深入浅出强化学习(编程实战)郭宪//宋俊潇//方勇纯|责编:刘皎全新正版书籍，假一罚四，可开发票。

全新

朗朗图书书店

浙江省嘉兴市

平均发货10小时成功完成率93.36%

￥40.90

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习编程实战电子工业出版社【保正版出版社正版新书发货放心订购】

全新

书山有路图书专营店

北京市朝阳区

平均发货12小时成功完成率94.3%

￥73.90

券

100减20

立即购买加入购物车不属于本条目
深入浅出强化学习：编程实战两页画线如图

九品

鑫园书店

北京市大兴区

平均发货16小时成功完成率90.87%

￥16.00

券

100减20

立即购买加入购物车
深入浅出强化学习:编程实战郭宪电子工业出版社

八五品

滔滔图书

河南省郑州市

平均发货11小时成功完成率78.94%

￥32.80

券

100减20

立即购买加入购物车不属于本条目