Linux经典实例(第二版)

Linux经典实例(第二版)
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [美] (Carla Schroder)
2023-03
版次: 1
ISBN: 9787519869724
定价: 168.00
装帧: 其他
开本: 16开
纸张: 铜版纸
页数: 580页
字数: 747.000千字
分类: 工程技术
1人买过
  • 本书针对各种具体问题,提出解决方案,并详细解释了涉及到的技术原理,最z后还给出了参考资料以供深入学习。本书的主要内容有:学习使用全新的通用服务管理器systemd。利用firewalld构建简单或复杂的防火墙。保证Linux系统与移动设备间网络连接的安全。抢救无法引导的系统。重置Linux与Windows的用户密码。利用dnsmasq管理局域网名称服务。管理用户与组,控制文件的访问。探测计算机硬件,监控硬件健康。管理GRUB引导加载程序,设置Linux与Windows双启动。通过最z新的工具同步网络上所有系统的时间。在树莓派上构建互联网路由器与防火墙。管理文件系统与分区。 Carla Schroder是一名科技记者与作家,拥有系统与网络管理员的经验,曾负责管理Linux-微软-苹果混合网络。她撰写过1000多篇Linux操作指南,目前就职于一家Linux企业软件公司,负责编写和维护产品手册。出版的书籍有《Linux Networking Cookbook》《The Book of Audacity》等。 目录

    前言 .1

    第1 章 强化学习概述 .13

    1.1 为什么现在就需要强化学习? . 14

    1.2 机器学习 15

    1.3 强化学习 17

    1.3.1 什么时候使用强化学习 19

    1.3.2 强化学习的应用场景 20

    1.4 强化学习的种类 22

    1.4.1 免模型学习或有模型学习 . 22

    1.4.2 智能体如何使用并更新它们的策略 23

    1.4.3 离散或连续的行为 . 25

    1.4.4 优化方法. 25

    1.4.5 策略评估和改进 . 26

    1.5 强化学习的基本概念 . 27

    1.5.1 历史上第一个强化学习算法 . 28

    1.5.2 强化学习和机器学习是一种东西吗? . 31

    1.5.3 奖励和反馈 32

    1.6 强化学习的发展简史 . 35

    1.7 本章总结 37

    1.8 扩展阅读 38

    1.9 参考文献 38

    第2 章 马尔可夫决策过程,动态规划,蒙特卡洛方法 44

    2.1 多臂老虎机测试 44

    2.1.1 奖励工程. 45

    2.1.2 策略评估:价值函数 45

    2.1.3 策略改进:选择最佳动作 48

    2.1.4 模拟环境. 50

    2.1.5 运行实验. 50

    2.1.6 ε - 贪婪算法的改进. 52

    2.2 马尔可夫决策过程 . 54

    2.2.1 库存控制. 56

    2.2.2 库存控制仿真 . 60

    2.3 策略与价值函数 62

    2.3.1 打折的奖励 62

    2.3.2 用状态?C 价值函数预测奖励 64

    2.3.3 用动作值函数预测奖励 . 67

    2.3.4 最优策略. 69

    2.4 蒙特卡洛策略生成 70

    2.5 动态规划的值迭代 72

    2.5.1 值迭代的过程 74

    2.5.2 数值迭代结果 76

    2.6 总结 78

    2.7 扩展阅读 79

    2.8 参考文献 79

    第3 章 时序差分学习,Q 学习和n 步算法 80

    3.1 时序差分学习的相关公式 81

    3.1.1 Q 学习 . 83

    3.1.2 SARSA 85

    3.1.3 Q 学习与SARSA 方法的对比 . 87

    3.1.4 案例解析:自动扩展应用程序容器以降低成本 . 90

    3.2 行业实例:广告中的实时竞价 . 92

    3.2.1 MDP 的定义 . 92

    3.2.2 实时竞价案例的环境 93

    3.2.3 进一步改进 94

    3.3 Q 学习的相关扩展 96

    3.3.1 双重Q 学习 96

    3.3.2 延迟Q 学习 97

    3.3.3 各类版本的Q 学习之间的对比 98

    3.3.4 对抗学习. 98

    3.4 n 步算法 99

    3.5 有效跟踪 104

    3.6 有效跟踪算法的扩展 107

    3.6.1 沃特金斯的Q(λ) 107

    3.6.2 沃特金斯Q(λ) 的模糊擦除 . 108

    3.6.3 快速Q 学习 108

    3.6.4 积累式有效跟踪与取代式有效跟踪 108

    3.7 总结 . 109

    3.8 扩展阅读 110

    3.9 参考文献 110

    第4 章 深度Q 网络 . 112

    4.1 深度学习的体系结构 113

    4.1.1 基础知识 113

    4.1.2 深度学习架构 114

    4.1.3 深度学习库 . 115

    4.1.4 深度强化学习 117

    4.2 深度Q 学习 . 117

    4.2.1 经验重放 118

    4.2.2 克隆Q 网络 118

    4.2.3 神经网络结构 119

    4.2.4 DQN 的实现 119

    4.2.5 实际案例:倒立摆环境中的DQN 120

    4.2.6 案例研究:减少建筑物的能源使用 125

    4.3 彩虹DQN 126

    4.3.1 分配强化学习 126

    4.3.2 优先经验重放 129

    4.3.3 噪声网络 129

    4.3.4 决斗网络 129

    4.4 实际案例:雅达利的彩虹DQN 130

    4.4.1 结果 131

    4.4.2 讨论 132

    4.5 其他DQN 改进 134

    4.5.1 改进探索过程 135

    4.5.2 改进奖励过程 136

    4.5.3 从离线数据中进行学习 137

    4.6 总结 . 139

    4.7 扩展阅读 140

    4.8 参考文献 140

    第5 章 梯度策略 144

    5.1 直接学习策略的优势 144

    5.2 如何计算策略的梯度 145

    5.3 策略梯度理论 . 146

    5.4 策略函数 149

    5.4 1 线性策略 149

    5.4.2 其他策略 151

    5.5 基本实现 152

    5.5.1 蒙特卡洛算法(强化算法) 152

    5.5.2 带基线的强化算法 153

    5.5.3 梯度方差的减小 157

    5.5.4 n 步演员评论家和优势演员评论家(A2C) . 159

    5.5.5 基于资格迹的演员评论家算法 . 164

    5.5.6 基本策略梯度算法的比较 165

    5.6 行业研究:为客户自动提供产品 . 166

    5.6.1 行业实例:Gym 环境中的购物车实验 . 167

    5.6.2 预设期望 168

    5.6.3 购物车实验环境的结果展示 169

    5.7 总结 . 173

    5.8 扩展阅读 174

    5.9 参考文献 174

    第6 章 超越策略梯度 176

    6.1 离线算法 177

    6.1.1 重要性抽样 177

    6.1.2 行为和目标策略 179

    6.1.3 离线 Q 学习 180

    6.1.4 梯度时差学习 180

    6.1.5 Greedy-GQ 算法 181

    6.1.6 离线演员评论家算法 . 182

    6.2 决定性策略梯度 183

    6.2.1 决定性策略梯度 183

    6.2.2 深度确定性策略梯度 . 185

    6.2.3 双延迟DDPG 189

    6.2.4 案例研究:利用到用户评论的推荐算法 193

    6.2.5 改进DPG. 194

    6.3 信赖域方法 195

    6.3.1 Kullback-Leibler 散度 197

    6.3.2 自然策略梯度与信任区域策略优化 198

    6.3.3 近端策略优化 201

    6.4 实际案例:在现实生活中使用伺服器 206

    6.4.1 实验设置 . 206

    6.4.2 强化学习算法实现 207

    6.4.3 增加算法的复杂度 210

    6.4.4 模拟中的超参数调优 . 211

    6.4.5 产生的策略 212

    6.5 其他策略梯度算法 214

    6.5.1 回溯(λ) 214

    6.5.2 有经验重放的演员评论家(ACER) 214

    6.5.3 使用Kronecker 因子信任区域的演员评论家算法(ACKTR) 215

    6.5.4 更多相关方法 216

    6.6 策略梯度算法的扩展 216

    6.7 总结 . 217

    6.7.1 应该使用哪种算法? . 217

    6.7.2 关于异步方法的注意事项 218

    6.8 扩展阅读 218

    6.9 参考文献 219

    第7 章 用熵方法学习所有可能的策略 225

    7.1 什么是熵? 225

    7.2 最大熵强化学习 226

    7.3 弱演员评论家算法 227

    7.3.1 SAC 的实现细节与离散动作空间 228

    7.3.2 自动调整温度 229

    7.3.3 案例研究:有助于减少交通拥堵的自动化交通管理系统 229

    7.4 最大熵方法的推广 231

    7.4.1 熵的其他度量(以及策略集) . 231

    7.4.2 基于双重Q 学习上限的优化探索 231

    7.4.3 通过历史经验重放改进结果 232

    7.4.4 软策略梯度 . 232

    7.4.5 软Q 学习(及其扩展) 232

    7.4.6 路径一致性学习 233

    7.5 性能比较:SAC 与PPO 233

    7.6 熵是如何激励智能体进行探索的? . 235

    7.7 行业实例:通过遥控车学习自动驾驶 240

    7.7.1 问题描述 241

    7.7.2 减少训练时间 241

    7.7.3 夸张的动作 . 244

    7.7.4 超参数探索 . 246

    7.7.5 最终策略 246

    7.7.6 进一步改进 . 247

    7.8 本章总结 248

    7.8.1 策略梯度与软Q 学习的等价性 249

    7.8.2 这对今后的发展意味着什么? . 249

    7.8.3 这对目前来说意味着什么? 249

    7.9 参考文献 250

    第8 章 改进智能体的学习方式 253

    8.1 关于MDP 的思考 . 254

    8.1.1 部分可观察马尔可夫决策过程 . 254

    8.1.2 案例研究:POMDP 在自动驾驶汽车中的应用 256

    8.1.3 上下文马尔可夫决策过程 . 257

    8.1.4 动作不断变化的MDPs 257

    8.1.5 正则化MDP 258

    8.2 层次强化学习 . 259

    8.2.1 初级层次强化学习 . 259

    8.2.2 具有内在奖励的层次强化学习(HIRO) 260

    8.2.3 学习技巧和无监督学习 262

    8.2.4 在HRL 中使用技能 263

    8.2.5 HRL 研究结论 264

    8.3 多智能体强化学习 265

    8.3.1 MARL 的框架 265

    8.3.2 集中式或分布式 267

    8.3.3 单智能体算法 268

    8.3.4 案例研究:单智能体分散学习在无人机中的应用 . 269

    8.3.5 集中学习,分散执行 . 270

    8.3.6 分散的学习 . 272

    8.3.7 其他的组合 . 273

    8.3.8 MARL 的挑战 274

    8.3.9 MARL 的结论 275

    8.4 专家的指导 276

    8.4.1 克隆行为 276

    8.4.2 模拟强化学习 276

    8.4.3 反向强化学习 277

    8.4.4 课程学习 279

    8.5 其他案例 281

    8.5.1 元学习 281

    8.5.2 迁移学习 281

    8.6 总结 . 282

    8.7 扩展阅读 283

    8.8 参考文献 285

    第9 章 强化学习实践 293

    9.1 强化学习的生命周期 293

    9.2 问题定义:一个真正的强化学习项目到底包括什么? . 299

    9.2.1 强化学习问题是连续性问题 299

    9.2.2 强化学习问题是战略性问题 300

    9.2.3 强化学习中的基础指标 302

    9.2.4 学习类型 304

    9.3 强化学习工程和改进 309

    9.3.1 项目过程 309

    9.3.2 环境工程 310

    9.3.3 状态工程或状态表示学习 313

    9.3.4 策略工程 316

    9.3.5 将策略映射到操作空间 322

    9.3.6 探索 326

    9.3.7 奖励工程 333

    9.4 总结 . 337

    9.5 扩展阅读 338

    9.6 参考文献 339

    第10 章 强化学习的生产部署 348

    10.1 实现阶段 . 349

    10.1.1 框架 . 349

    10.1.2 大规模强化学习 353

    10.1.3 评价 . 361

    10.2 部署 370

    10.2.1 目标 . 371

    10.2.2 体系架构 374

    10.2.3 辅助工具 376

    10.2.4 安全、保障和道德 382

    10.3 总结 389

    10.4 扩展阅读 . 390

    10.5 参考文献 . 392

    第11 章 结论与展望 . 400

    11.1 提示和技巧 400

    11.1.1 框架问题 400

    11.1.2 你的数据 402

    11.1.3 训练 . 403

    11.1.4 评价 . 404

    11.1.5 部署 . 404

    11.2 调试 405

    11.2.1 ${ALGORITHM_NAME} 不能解决${ENVIRONMENT}! 406

    11.2.2 监测调试 407

    11.3 强化学习的未来 408

    11.3.1 强化学习市场机会 409

    11.3.2 强化学习的研究方向 410

    11.4 结束语 416

    11.4.1 未来下一步 417

    11.4.2 现在轮到你了! . 418

    11.5 扩展阅读 . 418

    11.6 参考文献 . 419

    附录A 两种动作的Logistic 策略梯度 423

    附录B Softmax 的策略梯度 . 427
  • 内容简介:
    本书针对各种具体问题,提出解决方案,并详细解释了涉及到的技术原理,最z后还给出了参考资料以供深入学习。本书的主要内容有:学习使用全新的通用服务管理器systemd。利用firewalld构建简单或复杂的防火墙。保证Linux系统与移动设备间网络连接的安全。抢救无法引导的系统。重置Linux与Windows的用户密码。利用dnsmasq管理局域网名称服务。管理用户与组,控制文件的访问。探测计算机硬件,监控硬件健康。管理GRUB引导加载程序,设置Linux与Windows双启动。通过最z新的工具同步网络上所有系统的时间。在树莓派上构建互联网路由器与防火墙。管理文件系统与分区。
  • 作者简介:
    Carla Schroder是一名科技记者与作家,拥有系统与网络管理员的经验,曾负责管理Linux-微软-苹果混合网络。她撰写过1000多篇Linux操作指南,目前就职于一家Linux企业软件公司,负责编写和维护产品手册。出版的书籍有《Linux Networking Cookbook》《The Book of Audacity》等。
  • 目录:
    目录

    前言 .1

    第1 章 强化学习概述 .13

    1.1 为什么现在就需要强化学习? . 14

    1.2 机器学习 15

    1.3 强化学习 17

    1.3.1 什么时候使用强化学习 19

    1.3.2 强化学习的应用场景 20

    1.4 强化学习的种类 22

    1.4.1 免模型学习或有模型学习 . 22

    1.4.2 智能体如何使用并更新它们的策略 23

    1.4.3 离散或连续的行为 . 25

    1.4.4 优化方法. 25

    1.4.5 策略评估和改进 . 26

    1.5 强化学习的基本概念 . 27

    1.5.1 历史上第一个强化学习算法 . 28

    1.5.2 强化学习和机器学习是一种东西吗? . 31

    1.5.3 奖励和反馈 32

    1.6 强化学习的发展简史 . 35

    1.7 本章总结 37

    1.8 扩展阅读 38

    1.9 参考文献 38

    第2 章 马尔可夫决策过程,动态规划,蒙特卡洛方法 44

    2.1 多臂老虎机测试 44

    2.1.1 奖励工程. 45

    2.1.2 策略评估:价值函数 45

    2.1.3 策略改进:选择最佳动作 48

    2.1.4 模拟环境. 50

    2.1.5 运行实验. 50

    2.1.6 ε - 贪婪算法的改进. 52

    2.2 马尔可夫决策过程 . 54

    2.2.1 库存控制. 56

    2.2.2 库存控制仿真 . 60

    2.3 策略与价值函数 62

    2.3.1 打折的奖励 62

    2.3.2 用状态?C 价值函数预测奖励 64

    2.3.3 用动作值函数预测奖励 . 67

    2.3.4 最优策略. 69

    2.4 蒙特卡洛策略生成 70

    2.5 动态规划的值迭代 72

    2.5.1 值迭代的过程 74

    2.5.2 数值迭代结果 76

    2.6 总结 78

    2.7 扩展阅读 79

    2.8 参考文献 79

    第3 章 时序差分学习,Q 学习和n 步算法 80

    3.1 时序差分学习的相关公式 81

    3.1.1 Q 学习 . 83

    3.1.2 SARSA 85

    3.1.3 Q 学习与SARSA 方法的对比 . 87

    3.1.4 案例解析:自动扩展应用程序容器以降低成本 . 90

    3.2 行业实例:广告中的实时竞价 . 92

    3.2.1 MDP 的定义 . 92

    3.2.2 实时竞价案例的环境 93

    3.2.3 进一步改进 94

    3.3 Q 学习的相关扩展 96

    3.3.1 双重Q 学习 96

    3.3.2 延迟Q 学习 97

    3.3.3 各类版本的Q 学习之间的对比 98

    3.3.4 对抗学习. 98

    3.4 n 步算法 99

    3.5 有效跟踪 104

    3.6 有效跟踪算法的扩展 107

    3.6.1 沃特金斯的Q(λ) 107

    3.6.2 沃特金斯Q(λ) 的模糊擦除 . 108

    3.6.3 快速Q 学习 108

    3.6.4 积累式有效跟踪与取代式有效跟踪 108

    3.7 总结 . 109

    3.8 扩展阅读 110

    3.9 参考文献 110

    第4 章 深度Q 网络 . 112

    4.1 深度学习的体系结构 113

    4.1.1 基础知识 113

    4.1.2 深度学习架构 114

    4.1.3 深度学习库 . 115

    4.1.4 深度强化学习 117

    4.2 深度Q 学习 . 117

    4.2.1 经验重放 118

    4.2.2 克隆Q 网络 118

    4.2.3 神经网络结构 119

    4.2.4 DQN 的实现 119

    4.2.5 实际案例:倒立摆环境中的DQN 120

    4.2.6 案例研究:减少建筑物的能源使用 125

    4.3 彩虹DQN 126

    4.3.1 分配强化学习 126

    4.3.2 优先经验重放 129

    4.3.3 噪声网络 129

    4.3.4 决斗网络 129

    4.4 实际案例:雅达利的彩虹DQN 130

    4.4.1 结果 131

    4.4.2 讨论 132

    4.5 其他DQN 改进 134

    4.5.1 改进探索过程 135

    4.5.2 改进奖励过程 136

    4.5.3 从离线数据中进行学习 137

    4.6 总结 . 139

    4.7 扩展阅读 140

    4.8 参考文献 140

    第5 章 梯度策略 144

    5.1 直接学习策略的优势 144

    5.2 如何计算策略的梯度 145

    5.3 策略梯度理论 . 146

    5.4 策略函数 149

    5.4 1 线性策略 149

    5.4.2 其他策略 151

    5.5 基本实现 152

    5.5.1 蒙特卡洛算法(强化算法) 152

    5.5.2 带基线的强化算法 153

    5.5.3 梯度方差的减小 157

    5.5.4 n 步演员评论家和优势演员评论家(A2C) . 159

    5.5.5 基于资格迹的演员评论家算法 . 164

    5.5.6 基本策略梯度算法的比较 165

    5.6 行业研究:为客户自动提供产品 . 166

    5.6.1 行业实例:Gym 环境中的购物车实验 . 167

    5.6.2 预设期望 168

    5.6.3 购物车实验环境的结果展示 169

    5.7 总结 . 173

    5.8 扩展阅读 174

    5.9 参考文献 174

    第6 章 超越策略梯度 176

    6.1 离线算法 177

    6.1.1 重要性抽样 177

    6.1.2 行为和目标策略 179

    6.1.3 离线 Q 学习 180

    6.1.4 梯度时差学习 180

    6.1.5 Greedy-GQ 算法 181

    6.1.6 离线演员评论家算法 . 182

    6.2 决定性策略梯度 183

    6.2.1 决定性策略梯度 183

    6.2.2 深度确定性策略梯度 . 185

    6.2.3 双延迟DDPG 189

    6.2.4 案例研究:利用到用户评论的推荐算法 193

    6.2.5 改进DPG. 194

    6.3 信赖域方法 195

    6.3.1 Kullback-Leibler 散度 197

    6.3.2 自然策略梯度与信任区域策略优化 198

    6.3.3 近端策略优化 201

    6.4 实际案例:在现实生活中使用伺服器 206

    6.4.1 实验设置 . 206

    6.4.2 强化学习算法实现 207

    6.4.3 增加算法的复杂度 210

    6.4.4 模拟中的超参数调优 . 211

    6.4.5 产生的策略 212

    6.5 其他策略梯度算法 214

    6.5.1 回溯(λ) 214

    6.5.2 有经验重放的演员评论家(ACER) 214

    6.5.3 使用Kronecker 因子信任区域的演员评论家算法(ACKTR) 215

    6.5.4 更多相关方法 216

    6.6 策略梯度算法的扩展 216

    6.7 总结 . 217

    6.7.1 应该使用哪种算法? . 217

    6.7.2 关于异步方法的注意事项 218

    6.8 扩展阅读 218

    6.9 参考文献 219

    第7 章 用熵方法学习所有可能的策略 225

    7.1 什么是熵? 225

    7.2 最大熵强化学习 226

    7.3 弱演员评论家算法 227

    7.3.1 SAC 的实现细节与离散动作空间 228

    7.3.2 自动调整温度 229

    7.3.3 案例研究:有助于减少交通拥堵的自动化交通管理系统 229

    7.4 最大熵方法的推广 231

    7.4.1 熵的其他度量(以及策略集) . 231

    7.4.2 基于双重Q 学习上限的优化探索 231

    7.4.3 通过历史经验重放改进结果 232

    7.4.4 软策略梯度 . 232

    7.4.5 软Q 学习(及其扩展) 232

    7.4.6 路径一致性学习 233

    7.5 性能比较:SAC 与PPO 233

    7.6 熵是如何激励智能体进行探索的? . 235

    7.7 行业实例:通过遥控车学习自动驾驶 240

    7.7.1 问题描述 241

    7.7.2 减少训练时间 241

    7.7.3 夸张的动作 . 244

    7.7.4 超参数探索 . 246

    7.7.5 最终策略 246

    7.7.6 进一步改进 . 247

    7.8 本章总结 248

    7.8.1 策略梯度与软Q 学习的等价性 249

    7.8.2 这对今后的发展意味着什么? . 249

    7.8.3 这对目前来说意味着什么? 249

    7.9 参考文献 250

    第8 章 改进智能体的学习方式 253

    8.1 关于MDP 的思考 . 254

    8.1.1 部分可观察马尔可夫决策过程 . 254

    8.1.2 案例研究:POMDP 在自动驾驶汽车中的应用 256

    8.1.3 上下文马尔可夫决策过程 . 257

    8.1.4 动作不断变化的MDPs 257

    8.1.5 正则化MDP 258

    8.2 层次强化学习 . 259

    8.2.1 初级层次强化学习 . 259

    8.2.2 具有内在奖励的层次强化学习(HIRO) 260

    8.2.3 学习技巧和无监督学习 262

    8.2.4 在HRL 中使用技能 263

    8.2.5 HRL 研究结论 264

    8.3 多智能体强化学习 265

    8.3.1 MARL 的框架 265

    8.3.2 集中式或分布式 267

    8.3.3 单智能体算法 268

    8.3.4 案例研究:单智能体分散学习在无人机中的应用 . 269

    8.3.5 集中学习,分散执行 . 270

    8.3.6 分散的学习 . 272

    8.3.7 其他的组合 . 273

    8.3.8 MARL 的挑战 274

    8.3.9 MARL 的结论 275

    8.4 专家的指导 276

    8.4.1 克隆行为 276

    8.4.2 模拟强化学习 276

    8.4.3 反向强化学习 277

    8.4.4 课程学习 279

    8.5 其他案例 281

    8.5.1 元学习 281

    8.5.2 迁移学习 281

    8.6 总结 . 282

    8.7 扩展阅读 283

    8.8 参考文献 285

    第9 章 强化学习实践 293

    9.1 强化学习的生命周期 293

    9.2 问题定义:一个真正的强化学习项目到底包括什么? . 299

    9.2.1 强化学习问题是连续性问题 299

    9.2.2 强化学习问题是战略性问题 300

    9.2.3 强化学习中的基础指标 302

    9.2.4 学习类型 304

    9.3 强化学习工程和改进 309

    9.3.1 项目过程 309

    9.3.2 环境工程 310

    9.3.3 状态工程或状态表示学习 313

    9.3.4 策略工程 316

    9.3.5 将策略映射到操作空间 322

    9.3.6 探索 326

    9.3.7 奖励工程 333

    9.4 总结 . 337

    9.5 扩展阅读 338

    9.6 参考文献 339

    第10 章 强化学习的生产部署 348

    10.1 实现阶段 . 349

    10.1.1 框架 . 349

    10.1.2 大规模强化学习 353

    10.1.3 评价 . 361

    10.2 部署 370

    10.2.1 目标 . 371

    10.2.2 体系架构 374

    10.2.3 辅助工具 376

    10.2.4 安全、保障和道德 382

    10.3 总结 389

    10.4 扩展阅读 . 390

    10.5 参考文献 . 392

    第11 章 结论与展望 . 400

    11.1 提示和技巧 400

    11.1.1 框架问题 400

    11.1.2 你的数据 402

    11.1.3 训练 . 403

    11.1.4 评价 . 404

    11.1.5 部署 . 404

    11.2 调试 405

    11.2.1 ${ALGORITHM_NAME} 不能解决${ENVIRONMENT}! 406

    11.2.2 监测调试 407

    11.3 强化学习的未来 408

    11.3.1 强化学习市场机会 409

    11.3.2 强化学习的研究方向 410

    11.4 结束语 416

    11.4.1 未来下一步 417

    11.4.2 现在轮到你了! . 418

    11.5 扩展阅读 . 418

    11.6 参考文献 . 419

    附录A 两种动作的Logistic 策略梯度 423

    附录B Softmax 的策略梯度 . 427
查看详情
相关图书 / 更多
Linux经典实例(第二版)
LiteOS轻量级物联网操作系统实战 微课视频版
魏杰
Linux经典实例(第二版)
Linux操作系统活页式教程
李国辉
Linux经典实例(第二版)
Linux综合实训案例教程
陈智斌;梁鹏;肖政宏
Linux经典实例(第二版)
Linux系统自动化运维(Python版)(微课版)
张莉,丁传炜
Linux经典实例(第二版)
Linux操作系统
刘睿;包大宏;兰晓天;李吉桃;王仕杰;吴晓清;张宏洲;杨云江
Linux经典实例(第二版)
Linux源码趣读
闪客
Linux经典实例(第二版)
Linux 内核完全注释(20周年版) 赵炯
赵炯
Linux经典实例(第二版)
Linux网络操作系统项目式教程(CentOS 7.6)(微课版)(第2版)
刘正,张运嵩,尤澜涛主编
Linux经典实例(第二版)
Linux 内核完全剖析——基于0.12内核(15周年版) 赵炯
赵炯
Linux经典实例(第二版)
Linux高效学习教程:Linux就该这么学+Linux常用命令自学手册
刘遄 刘遄
Linux经典实例(第二版)
Linux后端开发工程实践
万木春
Linux经典实例(第二版)
Linux运维从入门到精通
明日科技
您可能感兴趣 / 更多
Linux经典实例(第二版)
争吵的恋人:我们为什么相爱,又为什么争吵
[美]约翰·金,[美]瓦妮莎·贝内特
Linux经典实例(第二版)
蒙特卡洛的密码锁(数学大师的逻辑课) 文教科普读物 [美]雷蒙德·m.斯穆里安(raymondm.smullyan)
[美]雷蒙德·m.斯穆里安(raymondm.smullyan)
Linux经典实例(第二版)
福尔摩斯的棋盘:关于国际象棋的推理题(数学大师的逻辑课)
[美]雷蒙德·m.斯穆里安
Linux经典实例(第二版)
《生命大设计.重构》(关于“生命创造现实”这一惊人事实,独特且完整的科学探索与哲学诠释)
[美]鲍勃·伯曼 著;杨泓 译;[美]罗伯特·兰札;马泰·帕夫希奇(斯洛文尼亚)
Linux经典实例(第二版)
杰出投资者的底层认知:成功投资与明智创富的10个茅塞顿开之问(《聪明的投资者》新时代精华版)
[美]J.戴维·斯坦恩(J.David Stein) 著;刘寅龙 译;庞鑫
Linux经典实例(第二版)
浴缸里的海洋
[美]塞思·菲什曼
Linux经典实例(第二版)
新视界文库-生命故事:生物学上的伟大发现
[美]肖恩·B.卡罗尔
Linux经典实例(第二版)
洛丽塔原型:小说《洛丽塔》背后的萨莉?霍纳绑架案
[美]萨拉·魏恩曼 著;真故图书 出品
Linux经典实例(第二版)
托尔斯泰
[美]莉莎·克纳普(Liza Knapp)
Linux经典实例(第二版)
奇迹之门 《纽约时报》畅销书作家写给孩子的一封“成长家书”。让父母的爱与肯定,成为孩子探索世界的底气。拥抱成长的不确定性,打开通向无限可能的“奇迹之门”。
[美]艾莉森·麦基/文 (美) 柳泰恩 图
Linux经典实例(第二版)
全球通史(全六册)(另一个角度的“全球通史”,不一样的视野与新知。以地理为骨,历史为肉,一部超级丰满的世界通史。)
[美]塞缪尔·古德里奇 译者:冷惠玲、冯佳娜、王小忠、孙丽霞、李江艳
Linux经典实例(第二版)
《星际争霸》动画影像艺术
[美]罗伯特·布鲁克斯