人工智能云平台原理、设计与应用

人工智能云平台原理、设计与应用
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: , ,
2020-08
版次: 1
ISBN: 9787115543455
定价: 149.00
装帧: 平装
开本: 16开
页数: 329页
13人买过
  • 本书以实践为导向,深入浅出,从人工智能技术、机器学习框架和微服务等概念讲起,对主流的人工智能云平台产品进行剖析和比较,对从训练学习到服务封装再到模型发布应用的全过程进行介绍,并对人工智能云平台技术栈涉及的云计算、集群管理、任务调度、共享存储等技术进行了详细讲解,以提高研发人员对人工智能全生产流程的理解。书中结合以上技术知识,以目前较为主流的开源人工智能集群管理云平台为例,对相关工程案例进行了深入讲解,帮助读者加深对知识点的理解和掌握。
    本书适合有一定机器学习基础和大数据基础的学生、研发人员或希望进入人工智能云平台领域的读者阅读和学习。同时,也希望本书能帮助更多人在人工智能时代找到自己的方向和定位。 孙皓 
    孙皓,博士,主要研究方向为图像理解、视频分析、机器学习平台等。设计研发了特定领域分布式图像并行检测识别系统、多源数据机器学习智能平台等智能应用系统。主持多项国家自然科学基金、重大专项预研课题。曾荣获省级科学技术一等奖,并担任多个领域预研课题评审专家和多个期刊的审稿人。发表SCI论文20余篇,指导硕士生10余人。 
    郑歆慰 
    郑歆慰,2014年获得中国科学院大学博士学位,现为中国科学技术大学类脑智能技术及应用国家工程实验室特任副研究员,主要研究方向为机器学习系统,发表论文10余篇,是类脑智能开放平台、OpenPAI、启智社区等的活跃贡献者。 
    张文凯 
    张文凯,博士,中国科学院空天信息创新研究院地理与赛博空间信息技术研究部助理研究员,IEEE会员,主要研究方向为遥感图像处理、多模态数据处理以及智能计算平台开发。担任中国图象图形学报、IEEE Geoscience and Remote Sensing Letters、IET Image Processing、IET Intelligent Transport Systems等期刊审稿人。在国内外核心期刊上发表学术论文10余篇,其中SCI期刊收录8篇。 第 1章  人工智能云平台简介  / 1
    1.1人工智能发展 / 3
    1.2人工智能云平台 / 4
    1.3云计算与人工智能云平台 / 6
    1.4智能框架与人工智能云平台 / 8
    1.5人工智能云平台的主要环节与基本组成 / 10
    1.6小结 / 13
    参考文献 / 13

    第 2章 人工智能云平台案例概览 / 15
    2.1谷歌AI云平台 / 17
    2.1.1AI Hub / 17
    2.1.2AI基础组件 / 18
    2.1.3AI平台 / 18
    2.2微软Azure机器学习平台 / 20
    2.2.1Azure机器学习工作室 / 20
    2.2.2Azure机器学习服务 / 20
    2.3亚马逊 SageMaker平台 / 21
    2.3.1Amazon SageMaker Ground Truth标注工具 / 22
    2.3.2Amazon SageMaker模型训练与服务提供工具 / 22
    2.3.3Amazon SageMaker推理优化与部署工具集 / 23
    2.4企业自有智能平台 / 24
    2.4.1业务场景闭环 / 25
    2.4.2量身设计,灵活性强 / 26
    2.5小结 / 26
    参考文献 / 26

    第3章 共享存储与数据管理 / 27
    3.1基本概念 / 30
    3.1.1文件系统分类 / 30
    3.1.2存储设计目标 / 34
    3.2古老而有活力的NFS / 35
    3.2.1NFS版本更迭 / 35
    3.2.2NFS架构介绍 / 37
    3.2.3NFS常用配置 / 38
    3.3活跃于超算领域的Lustre / 40
    3.3.1Lustre架构分析 / 40
    3.3.2Lustre与NFS / 42
    3.3.3Lustre发展趋势 / 43
    3.4数据集管理 / 43
    3.4.1TFRecord / 43
    3.4.2LMDB / 47
    3.4.3RecordIO / 50
    3.5小结 / 51
    参考文献 / 51

    第4章 资源管理与调度 / 53
    4.1概述 / 55
    4.1.1工作流 / 55
    4.1.2资源的定义 / 56
    4.1.3资源隔离 / 56
    4.2Docker简介 / 57
    4.2.1什么是Docker? / 57
    4.2.2Docker组成 / 58
    4.2.3Docker工作流程 / 59
    4.2.4NVIDIA Docker / 60
    4.3任务调度系统架构简介 / 60
    4.4基于YARN的调度系统实现 / 63
    4.4.1系统架构 / 63
    4.4.2部署说明 / 64
    4.4.3业务流程 / 65
    4.4.4GPU支持 / 65
    4.5基于Kubernetes的调度系统实现 / 69
    4.5.1系统架构 / 70
    4.5.2业务流程 / 71
    4.5.3GPU支持 / 72
    4.6小结 / 75
    参考文献 / 75

    第5章 运维监控系统 / 77
    5.1Prometheus概述 / 79
    5.1.1Prometheus的特点和适用场景 / 79
    5.1.2Prometheus组成架构 / 80
    5.1.3Prometheus核心概念 / 81
    5.2数据采集之Exporter / 82
    5.2.1Node Exporter / 84
    5.2.2NVIDIA GPU Exporter / 88
    5.2.3Prometheus的部署 / 90
    5.3数据格式与编程――Prometheus查询语言 / 91
    5.3.1初识PromQL / 92
    5.3.2PromQL 操作符 / 92
    5.3.3PromQL函数 / 96
    5.4数据可视化之Grafana / 98
    5.4.1创建Prometheus数据源 / 99
    5.4.2创建数据可视化图形 / 99
    5.5告警系统之AlertManager / 99
    5.5.1安装和部署 / 100
    5.5.2配置Prometheus使之与AlertManager进行通信 / 103
    5.5.3在Prometheus中创建告警规则 / 105
    5.6小结 / 106
    参考文献 / 106

    第6章 机器学习框架 / 107
    6.1 SciPy / 109
    6.1.1什么是SciPy? / 109
    6.1.2SciPy的特点 / 109
    6.1.3使用示例 / 110
    6.2scikit-learn / 111
    6.2.1什么是scikit-learn? / 111
    6.2.2scikit-learn的六大功能 / 112
    6.2.3scikit-learn示例 / 113
    6.3Pandas / 116
    6.3.1什么是Pandas? / 116
    6.3.2Pandas的特点 / 116
    6.3.3Pandas示例 / 117
    6.4Spark MLlib和Spark ML / 119
    6.4.1什么是Spark MLlib和Spark ML? / 119
    6.4.2Spark使用示例 / 119
    6.5 XGBoost / 121
    6.5.1什么是XGBoost? / 121
    6.5.2XGBoost的特点 / 121
    6.5.3XGBoost功能和示例 / 122
    6.6 TensorFlow / 127
    6.6.1什么是TensorFlow? / 127
    6.6.2TensorFlow的特点 / 128
    6.6.3TensorFlow使用示例 / 128
    6.7PyTorch / 132
    6.7.1什么是PyTorch? / 132
    6.7.2PyTorch的特点 / 133
    6.7.3PyTorch使用示例――MNIST分类 / 133
    6.8其他 / 136
    6.8.1Apache MXNet / 136
    6.8.2Caffe / 136
    6.8.3CNTK / 137
    6.8.4Theano / 138
    6.9小结 / 139
    参考文献 / 140

    第7章 分布式并行训练 / 141
    7.1并行训练概述 / 143
    7.2并行编程工具 / 144
    7.3深度学习中的并行 / 146
    7.3.1算法并行优化 / 146
    7.3.2网络并行优化 / 148
    7.3.3分布式训练优化 / 151
    7.4小结 / 167
    参考文献 / 167

    第8章 自动机器学习 / 169
    8.1AutoML概述 / 171
    8.2特征工程 / 172
    8.3模型选择 / 175
    8.4优化算法选择 / 177
    8.5神经架构搜索 / 178
    8.5.1NAS综述 / 178
    8.5.2细分领域的NAS应用 / 180
    8.5.3NAS应用示例 / 182
    8.6搜索优化和评估 / 187
    8.6.1搜索策略 / 187
    8.6.2评估策略 / 189
    8.7小结 / 190
    参考文献 / 190

    第9章 模型构建与发布 / 193
    9.1模型构建流程 / 195
    9.2基于TensorFlow构建方案 / 195
    9.2.1神经网络模型训练 / 196
    9.2.2神经网络模型保存 / 199
    9.2.3使用命令行工具检测 SavedModel / 200
    9.2.4使用contrib.predictor提供服务 / 201
    9.2.5使用TensorFlow Serving提供服务 / 202
    9.3基于Seldon Core的模型部署 / 205
    9.3.1Seldon Core安装 / 206
    9.3.2Seldon Core使用示例 / 207
    9.4小结 / 209
    参考文献 / 210

    第 10章 可视化开发环境 / 211
    10.1Jupyter Notebook / 213
    10.2PyCharm / 216
    10.3Visual Studio Code / 218
    10.3.1资源管理器 / 219
    10.3.2搜索 / 219
    10.3.3源代码管理器 / 219
    10.3.4调试 / 220
    10.3.5扩展插件 / 221
    10.3.6管理 / 221
    10.3.7VSCode开发Python / 222
    10.4code-server / 223
    10.4.1code-server安装 / 223
    10.4.2code-server启动 / 224
    10.4.3code-server安装插件 / 224
    10.5TensorBoard / 227
    10.6小结 / 230
    参考文献 / 230
    第 11章 DIGITS实践 / 231
    11.1DIGITS配置 / 233
    11.1.1DIGITS安装 / 233
    11.1.2DIGITS启动 / 234
    11.2DIGITS示例 / 235
    11.2.1图像分类 / 235
    11.2.2语义分割 / 239
    11.3DIGITS源码解析 / 245
    11.3.1DIGITS功能介绍 / 248
    11.3.2类继承关系 / 251
    11.4小结 / 258
    参考文献 / 259

    第 12章 Kubeflow实践 / 261
    12.1什么是Kubeflow? / 263
    12.2Kubeflow部署 / 264
    12.3JupyterHub / 268
    12.3.1JupyterHub定义 / 268
    12.3.2JupyterHub子系统 / 268
    12.3.3JupyterHub子系统交互 / 268
    12.4Kubeflow-operator / 270
    12.4.1tf-operator / 270
    12.4.2pytorch-operator / 281
    12.5Katib / 286
    12.5.1Katib组成模块 / 286
    12.5.2Katib模块超参数优化 / 287
    12.5.3Katib实验运行基本流程 / 288
    12.5.4Kubeflow 路线图 / 289
    12.6小结 / 289
    参考文献 / 290

    第 13章 OpenPAI实践 / 291
    13.1直观感受 / 294
    13.1.1部署OpenPAI / 294
    13.1.2提交一个hello-world任务 / 297
    13.1.3作业配置与环境变量 / 298
    13.2平台架构 / 301
    13.2.1服务列表 / 302
    13.2.2工作流 / 303
    13.2.3资源分配 / 304
    13.3集群运维 / 304
    13.3.1可视化页面的集群管理 / 304
    13.3.2命令行管理维护工具――paictl.py / 305
    13.4OpenPAI代码导读 / 308
    13.4.1在YARN中对GPU调度的支持――Hadoop-AI / 310
    13.4.2YARN作业的编排服务――FrameworkLauncher / 321
    13.5小结 / 328
    参考文献 / 329
  • 内容简介:
    本书以实践为导向,深入浅出,从人工智能技术、机器学习框架和微服务等概念讲起,对主流的人工智能云平台产品进行剖析和比较,对从训练学习到服务封装再到模型发布应用的全过程进行介绍,并对人工智能云平台技术栈涉及的云计算、集群管理、任务调度、共享存储等技术进行了详细讲解,以提高研发人员对人工智能全生产流程的理解。书中结合以上技术知识,以目前较为主流的开源人工智能集群管理云平台为例,对相关工程案例进行了深入讲解,帮助读者加深对知识点的理解和掌握。
    本书适合有一定机器学习基础和大数据基础的学生、研发人员或希望进入人工智能云平台领域的读者阅读和学习。同时,也希望本书能帮助更多人在人工智能时代找到自己的方向和定位。
  • 作者简介:
    孙皓 
    孙皓,博士,主要研究方向为图像理解、视频分析、机器学习平台等。设计研发了特定领域分布式图像并行检测识别系统、多源数据机器学习智能平台等智能应用系统。主持多项国家自然科学基金、重大专项预研课题。曾荣获省级科学技术一等奖,并担任多个领域预研课题评审专家和多个期刊的审稿人。发表SCI论文20余篇,指导硕士生10余人。 
    郑歆慰 
    郑歆慰,2014年获得中国科学院大学博士学位,现为中国科学技术大学类脑智能技术及应用国家工程实验室特任副研究员,主要研究方向为机器学习系统,发表论文10余篇,是类脑智能开放平台、OpenPAI、启智社区等的活跃贡献者。 
    张文凯 
    张文凯,博士,中国科学院空天信息创新研究院地理与赛博空间信息技术研究部助理研究员,IEEE会员,主要研究方向为遥感图像处理、多模态数据处理以及智能计算平台开发。担任中国图象图形学报、IEEE Geoscience and Remote Sensing Letters、IET Image Processing、IET Intelligent Transport Systems等期刊审稿人。在国内外核心期刊上发表学术论文10余篇,其中SCI期刊收录8篇。
  • 目录:
    第 1章  人工智能云平台简介  / 1
    1.1人工智能发展 / 3
    1.2人工智能云平台 / 4
    1.3云计算与人工智能云平台 / 6
    1.4智能框架与人工智能云平台 / 8
    1.5人工智能云平台的主要环节与基本组成 / 10
    1.6小结 / 13
    参考文献 / 13

    第 2章 人工智能云平台案例概览 / 15
    2.1谷歌AI云平台 / 17
    2.1.1AI Hub / 17
    2.1.2AI基础组件 / 18
    2.1.3AI平台 / 18
    2.2微软Azure机器学习平台 / 20
    2.2.1Azure机器学习工作室 / 20
    2.2.2Azure机器学习服务 / 20
    2.3亚马逊 SageMaker平台 / 21
    2.3.1Amazon SageMaker Ground Truth标注工具 / 22
    2.3.2Amazon SageMaker模型训练与服务提供工具 / 22
    2.3.3Amazon SageMaker推理优化与部署工具集 / 23
    2.4企业自有智能平台 / 24
    2.4.1业务场景闭环 / 25
    2.4.2量身设计,灵活性强 / 26
    2.5小结 / 26
    参考文献 / 26

    第3章 共享存储与数据管理 / 27
    3.1基本概念 / 30
    3.1.1文件系统分类 / 30
    3.1.2存储设计目标 / 34
    3.2古老而有活力的NFS / 35
    3.2.1NFS版本更迭 / 35
    3.2.2NFS架构介绍 / 37
    3.2.3NFS常用配置 / 38
    3.3活跃于超算领域的Lustre / 40
    3.3.1Lustre架构分析 / 40
    3.3.2Lustre与NFS / 42
    3.3.3Lustre发展趋势 / 43
    3.4数据集管理 / 43
    3.4.1TFRecord / 43
    3.4.2LMDB / 47
    3.4.3RecordIO / 50
    3.5小结 / 51
    参考文献 / 51

    第4章 资源管理与调度 / 53
    4.1概述 / 55
    4.1.1工作流 / 55
    4.1.2资源的定义 / 56
    4.1.3资源隔离 / 56
    4.2Docker简介 / 57
    4.2.1什么是Docker? / 57
    4.2.2Docker组成 / 58
    4.2.3Docker工作流程 / 59
    4.2.4NVIDIA Docker / 60
    4.3任务调度系统架构简介 / 60
    4.4基于YARN的调度系统实现 / 63
    4.4.1系统架构 / 63
    4.4.2部署说明 / 64
    4.4.3业务流程 / 65
    4.4.4GPU支持 / 65
    4.5基于Kubernetes的调度系统实现 / 69
    4.5.1系统架构 / 70
    4.5.2业务流程 / 71
    4.5.3GPU支持 / 72
    4.6小结 / 75
    参考文献 / 75

    第5章 运维监控系统 / 77
    5.1Prometheus概述 / 79
    5.1.1Prometheus的特点和适用场景 / 79
    5.1.2Prometheus组成架构 / 80
    5.1.3Prometheus核心概念 / 81
    5.2数据采集之Exporter / 82
    5.2.1Node Exporter / 84
    5.2.2NVIDIA GPU Exporter / 88
    5.2.3Prometheus的部署 / 90
    5.3数据格式与编程――Prometheus查询语言 / 91
    5.3.1初识PromQL / 92
    5.3.2PromQL 操作符 / 92
    5.3.3PromQL函数 / 96
    5.4数据可视化之Grafana / 98
    5.4.1创建Prometheus数据源 / 99
    5.4.2创建数据可视化图形 / 99
    5.5告警系统之AlertManager / 99
    5.5.1安装和部署 / 100
    5.5.2配置Prometheus使之与AlertManager进行通信 / 103
    5.5.3在Prometheus中创建告警规则 / 105
    5.6小结 / 106
    参考文献 / 106

    第6章 机器学习框架 / 107
    6.1 SciPy / 109
    6.1.1什么是SciPy? / 109
    6.1.2SciPy的特点 / 109
    6.1.3使用示例 / 110
    6.2scikit-learn / 111
    6.2.1什么是scikit-learn? / 111
    6.2.2scikit-learn的六大功能 / 112
    6.2.3scikit-learn示例 / 113
    6.3Pandas / 116
    6.3.1什么是Pandas? / 116
    6.3.2Pandas的特点 / 116
    6.3.3Pandas示例 / 117
    6.4Spark MLlib和Spark ML / 119
    6.4.1什么是Spark MLlib和Spark ML? / 119
    6.4.2Spark使用示例 / 119
    6.5 XGBoost / 121
    6.5.1什么是XGBoost? / 121
    6.5.2XGBoost的特点 / 121
    6.5.3XGBoost功能和示例 / 122
    6.6 TensorFlow / 127
    6.6.1什么是TensorFlow? / 127
    6.6.2TensorFlow的特点 / 128
    6.6.3TensorFlow使用示例 / 128
    6.7PyTorch / 132
    6.7.1什么是PyTorch? / 132
    6.7.2PyTorch的特点 / 133
    6.7.3PyTorch使用示例――MNIST分类 / 133
    6.8其他 / 136
    6.8.1Apache MXNet / 136
    6.8.2Caffe / 136
    6.8.3CNTK / 137
    6.8.4Theano / 138
    6.9小结 / 139
    参考文献 / 140

    第7章 分布式并行训练 / 141
    7.1并行训练概述 / 143
    7.2并行编程工具 / 144
    7.3深度学习中的并行 / 146
    7.3.1算法并行优化 / 146
    7.3.2网络并行优化 / 148
    7.3.3分布式训练优化 / 151
    7.4小结 / 167
    参考文献 / 167

    第8章 自动机器学习 / 169
    8.1AutoML概述 / 171
    8.2特征工程 / 172
    8.3模型选择 / 175
    8.4优化算法选择 / 177
    8.5神经架构搜索 / 178
    8.5.1NAS综述 / 178
    8.5.2细分领域的NAS应用 / 180
    8.5.3NAS应用示例 / 182
    8.6搜索优化和评估 / 187
    8.6.1搜索策略 / 187
    8.6.2评估策略 / 189
    8.7小结 / 190
    参考文献 / 190

    第9章 模型构建与发布 / 193
    9.1模型构建流程 / 195
    9.2基于TensorFlow构建方案 / 195
    9.2.1神经网络模型训练 / 196
    9.2.2神经网络模型保存 / 199
    9.2.3使用命令行工具检测 SavedModel / 200
    9.2.4使用contrib.predictor提供服务 / 201
    9.2.5使用TensorFlow Serving提供服务 / 202
    9.3基于Seldon Core的模型部署 / 205
    9.3.1Seldon Core安装 / 206
    9.3.2Seldon Core使用示例 / 207
    9.4小结 / 209
    参考文献 / 210

    第 10章 可视化开发环境 / 211
    10.1Jupyter Notebook / 213
    10.2PyCharm / 216
    10.3Visual Studio Code / 218
    10.3.1资源管理器 / 219
    10.3.2搜索 / 219
    10.3.3源代码管理器 / 219
    10.3.4调试 / 220
    10.3.5扩展插件 / 221
    10.3.6管理 / 221
    10.3.7VSCode开发Python / 222
    10.4code-server / 223
    10.4.1code-server安装 / 223
    10.4.2code-server启动 / 224
    10.4.3code-server安装插件 / 224
    10.5TensorBoard / 227
    10.6小结 / 230
    参考文献 / 230
    第 11章 DIGITS实践 / 231
    11.1DIGITS配置 / 233
    11.1.1DIGITS安装 / 233
    11.1.2DIGITS启动 / 234
    11.2DIGITS示例 / 235
    11.2.1图像分类 / 235
    11.2.2语义分割 / 239
    11.3DIGITS源码解析 / 245
    11.3.1DIGITS功能介绍 / 248
    11.3.2类继承关系 / 251
    11.4小结 / 258
    参考文献 / 259

    第 12章 Kubeflow实践 / 261
    12.1什么是Kubeflow? / 263
    12.2Kubeflow部署 / 264
    12.3JupyterHub / 268
    12.3.1JupyterHub定义 / 268
    12.3.2JupyterHub子系统 / 268
    12.3.3JupyterHub子系统交互 / 268
    12.4Kubeflow-operator / 270
    12.4.1tf-operator / 270
    12.4.2pytorch-operator / 281
    12.5Katib / 286
    12.5.1Katib组成模块 / 286
    12.5.2Katib模块超参数优化 / 287
    12.5.3Katib实验运行基本流程 / 288
    12.5.4Kubeflow 路线图 / 289
    12.6小结 / 289
    参考文献 / 290

    第 13章 OpenPAI实践 / 291
    13.1直观感受 / 294
    13.1.1部署OpenPAI / 294
    13.1.2提交一个hello-world任务 / 297
    13.1.3作业配置与环境变量 / 298
    13.2平台架构 / 301
    13.2.1服务列表 / 302
    13.2.2工作流 / 303
    13.2.3资源分配 / 304
    13.3集群运维 / 304
    13.3.1可视化页面的集群管理 / 304
    13.3.2命令行管理维护工具――paictl.py / 305
    13.4OpenPAI代码导读 / 308
    13.4.1在YARN中对GPU调度的支持――Hadoop-AI / 310
    13.4.2YARN作业的编排服务――FrameworkLauncher / 321
    13.5小结 / 328
    参考文献 / 329
查看详情
您可能感兴趣 / 更多