未读消息消息

店铺

我的订单收藏

拍卖

拍卖交易我的竞拍收藏

我的好友资金账户

客服 |

帮助中心 9:00-20:30 在线留言

客服电话

010-89648155

服务时间

客服咨询 8:00-21:00

纠纷处理 9:00-21:00

图书审核 9:00-18:00

监督与建议

请选择

手机孔网

Hadoop/Spark大数据机器学习

Hadoop/Spark大数据机器学习

分享

作者: 翟俊海 , 张素芳

出版社: 科学出版社

出版时间: 2021-02

版次: 31

ISBN: 9787030666871

定价: 128.00

装帧: 其他

开本: 其他

纸张: 胶版纸

分类: 计算机与互联网

人类已进入大数据时代。大数据是指具有海量（volume）、多模态（variety）、变化速度快（velocity）、蕴含价值高（value）和不精确性高（veracity）“5V”特征的数据。大数据给传统的机器学习带来巨大的挑战，已引起学术界和工业界的高度关注。Hadoop和Spark正是在这种背景下产生的两个大数据开源平台。《Hadoop/Spark大数据机器学习》重点介绍基于这两种大数据开源平台的机器学习，包括机器学习概述、大数据与大数据处理系统、Hadoop分布式文件系统HDFS、Hadoop并行编程框架MapReduce、Hadoop大数据机器学习和Spark大数据机器学习。目录

前言

第1章机器学习概述 1

1.1 分类与聚类 1

1.1.1 分类 1

1.1.2 聚类 4

1.2 K-近邻算法与模糊K-近邻算法 7

1.2.1 K-近邻算法 7

1.2.2 模糊K-近邻算法 8

1.3 K-均值算法与模糊K-均值算法 10

1.3.1 K-均值算法 10

1.3.2 模糊K-均值算法 12

1.4 决策树算法 13

1.4.1 离散值决策树算法 13

1.4.2 连续值决策树算法 25

1.5 神经网络 31

1.5.1 神经元模型 32

1.5.2 梯度下降算法 33

1.5.3 多层感知器模型 35

1.6 极限学习机 40

1.7 支持向量机 42

1.7.1 线性可分支持向量机 42

1.7.2 近似线性可分支持向量机 46

1.7.3 线性不可分支持向量机 47

1.8 主动学习 49

第2章大数据与大数据处理系统 53

2.1 大数据及其特征 53

2.2 Linux操作系统简介 54

2.2.1 Linux版本 54

2.2.2 Linux的文件与目录 56

2.2.3 Linux用户与用户组 62

2.2.4 Linux系统软件包管理 65

2.2.5 Linux操作系统的安装 66

2.3 大数据处理系统Hadoop 79

2.3.1 什么是Hadoop 79

2.3.2 Hadoop的特性 82

2.3.3 Hadoop的体系结构 82

2.3.4 Hadoop的运行机制 83

2.3.5 Hadoop 1.0和Hadoop 2.0的区别 85

2.3.6 Hadoop的安装及大数据处理环境的架构 87

2.4 大数据处理系统Spark 95

2.4.1 什么是Spark 95

2.4.2 Spark的运行架构 96

2.4.3 Spark的工作机制 97

第3章 Hadoop分布式文件系统HDFS 106

3.1 HDFS概述 106

3.1.1 HDFS的优势 106

3.1.2 HDFS的局限性 107

3.2 HDFS的系统结构 107

3.3 HDFS的数据存储 111

3.3.1 数据块的存放策略 111

3.3.2 数据的读取策略 112

3.3.3 文件系统元数据的持久性 114

3.3.4 HDFS的鲁棒性 114

3.4 访问HDFS 116

3.4.1 通过文件系统Shell访问HDFS 116

3.4.2 通过文件系统Java API访问HDFS 120

3.5 HDFS读写数据的过程 132

3.5.1 HDFS读数据的过程 132

3.5.2 HDFS写数据的过程 133

第4章 Hadoop并行编程框架MapReduce 135

4.1 MapReduce概述 135

4.2 MapReduce的大数据处理过程 136

4.2.1 Map阶段 137

4.2.2 Shu2e阶段 138

4.2.3 Reduce阶段 140

4.3 一个例子:流量统计 141

4.4 MapReduce的系统结构 144

4.5 MapReduce的作业处理过程 146

4.6 MapReduce算法设计 147

4.6.1 大数据决策树算法设计 147

4.6.2 大数据极限学习机算法设计 150

第5章 Hadoop大数据机器学习 152

5.1 基于Hadoop的大数据K-近邻算法 155

5.1.1 大数据K-近邻算法的基本思想 155

5.1.2 大数据K-近邻算法的MapReduce编程实现 156

5.2 基于Hadoop的大数据极限学习机 170

5.2.1 大数据极限学习机的基本思想 170

5.2.2 大数据极限学习机的MapReduce编程实现 170

5.3 基于Hadoop的大数据主动学习 191

5.3.1 大数据主动学习的基本思想 191

5.3.2 大数据主动学习的MapReduce编程实现 192

第6章 Spark大数据机器学习 201

6.1 SparkMLlib 201

6.1.1 MLlib决策树算法 201

6.1.2 MLlib决策森林算法 204

6.1.3 MLlib K-means算法 207

6.1.4 主成分分析 210

6.2 基于Spark的大数据K-近邻算法 212

6.3 基于Spark的大数据主动学习 218

参考文献 238
内容简介:
人类已进入大数据时代。大数据是指具有海量（volume）、多模态（variety）、变化速度快（velocity）、蕴含价值高（value）和不精确性高（veracity）“5V”特征的数据。大数据给传统的机器学习带来巨大的挑战，已引起学术界和工业界的高度关注。Hadoop和Spark正是在这种背景下产生的两个大数据开源平台。《Hadoop/Spark大数据机器学习》重点介绍基于这两种大数据开源平台的机器学习，包括机器学习概述、大数据与大数据处理系统、Hadoop分布式文件系统HDFS、Hadoop并行编程框架MapReduce、Hadoop大数据机器学习和Spark大数据机器学习。
目录:
目录

前言

第1章机器学习概述 1

1.1 分类与聚类 1

1.1.1 分类 1

1.1.2 聚类 4

1.2 K-近邻算法与模糊K-近邻算法 7

1.2.1 K-近邻算法 7

1.2.2 模糊K-近邻算法 8

1.3 K-均值算法与模糊K-均值算法 10

1.3.1 K-均值算法 10

1.3.2 模糊K-均值算法 12

1.4 决策树算法 13

1.4.1 离散值决策树算法 13

1.4.2 连续值决策树算法 25

1.5 神经网络 31

1.5.1 神经元模型 32

1.5.2 梯度下降算法 33

1.5.3 多层感知器模型 35

1.6 极限学习机 40

1.7 支持向量机 42

1.7.1 线性可分支持向量机 42

1.7.2 近似线性可分支持向量机 46

1.7.3 线性不可分支持向量机 47

1.8 主动学习 49

第2章大数据与大数据处理系统 53

2.1 大数据及其特征 53

2.2 Linux操作系统简介 54

2.2.1 Linux版本 54

2.2.2 Linux的文件与目录 56

2.2.3 Linux用户与用户组 62

2.2.4 Linux系统软件包管理 65

2.2.5 Linux操作系统的安装 66

2.3 大数据处理系统Hadoop 79

2.3.1 什么是Hadoop 79

2.3.2 Hadoop的特性 82

2.3.3 Hadoop的体系结构 82

2.3.4 Hadoop的运行机制 83

2.3.5 Hadoop 1.0和Hadoop 2.0的区别 85

2.3.6 Hadoop的安装及大数据处理环境的架构 87

2.4 大数据处理系统Spark 95

2.4.1 什么是Spark 95

2.4.2 Spark的运行架构 96

2.4.3 Spark的工作机制 97

第3章 Hadoop分布式文件系统HDFS 106

3.1 HDFS概述 106

3.1.1 HDFS的优势 106

3.1.2 HDFS的局限性 107

3.2 HDFS的系统结构 107

3.3 HDFS的数据存储 111

3.3.1 数据块的存放策略 111

3.3.2 数据的读取策略 112

3.3.3 文件系统元数据的持久性 114

3.3.4 HDFS的鲁棒性 114

3.4 访问HDFS 116

3.4.1 通过文件系统Shell访问HDFS 116

3.4.2 通过文件系统Java API访问HDFS 120

3.5 HDFS读写数据的过程 132

3.5.1 HDFS读数据的过程 132

3.5.2 HDFS写数据的过程 133

第4章 Hadoop并行编程框架MapReduce 135

4.1 MapReduce概述 135

4.2 MapReduce的大数据处理过程 136

4.2.1 Map阶段 137

4.2.2 Shu2e阶段 138

4.2.3 Reduce阶段 140

4.3 一个例子:流量统计 141

4.4 MapReduce的系统结构 144

4.5 MapReduce的作业处理过程 146

4.6 MapReduce算法设计 147

4.6.1 大数据决策树算法设计 147

4.6.2 大数据极限学习机算法设计 150

第5章 Hadoop大数据机器学习 152

5.1 基于Hadoop的大数据K-近邻算法 155

5.1.1 大数据K-近邻算法的基本思想 155

5.1.2 大数据K-近邻算法的MapReduce编程实现 156

5.2 基于Hadoop的大数据极限学习机 170

5.2.1 大数据极限学习机的基本思想 170

5.2.2 大数据极限学习机的MapReduce编程实现 170

5.3 基于Hadoop的大数据主动学习 191

5.3.1 大数据主动学习的基本思想 191

5.3.2 大数据主动学习的MapReduce编程实现 192

第6章 Spark大数据机器学习 201

6.1 SparkMLlib 201

6.1.1 MLlib决策树算法 201

6.1.2 MLlib决策森林算法 204

6.1.3 MLlib K-means算法 207

6.1.4 主成分分析 210

6.2 基于Spark的大数据K-近邻算法 212

6.3 基于Spark的大数据主动学习 218

参考文献 238

查看详情

相关分类

计算机理论编程与开发操作系统大数据与云计算图形图像/多媒体网站设计与网页开发网络与通讯硬件、嵌入式开发办公软件信息安全辅助设计与工程计算软件工程/开发项目管理

Hadoop/Spark大数据机器学习 9787030666871 可开发票，支持7天无理由

全新

果然是好书店

天津市西青区

平均发货14小时成功完成率90.57%

￥51.15

券

100减20

立即购买加入购物车
【正版图书】Hadoop/Spark大数据机器学习翟俊海,张素芳9787030666871科学出版社2021-01-01 全新正版图书可放心拍，支持七天无理由退换

全新

百叶图书

四川省成都市

平均发货16小时成功完成率80.33%

￥55.68

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习正版全新，绝无盗版，可开发票

全新

石坪图书专营店

湖北省武汉市

平均发货15小时成功完成率94.37%

￥81.00

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习

全新

尚贤文化江苏分店

河北省保定市

平均发货29小时成功完成率85.15%

￥53.80

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习

全新

尚贤文化山东分店

河北省保定市

平均发货27小时成功完成率88.05%

￥58.40

券

100减20

立即购买加入购物车
Hadoop/Spark 大数据机器学习

全新

默燃图书

北京市通州区

平均发货23小时成功完成率87.05%

￥44.80

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习正版新书

全新

书宁图书城

河北省保定市

平均发货27小时成功完成率89.8%

￥51.20

券

100减20

立即购买加入购物车
hadoop\spark大数据机器学/信息科学技术学术著作丛书数据库翟俊海，张素芳著新华正版

全新

鑫誠書苑

河北省保定市

平均发货21小时成功完成率86.45%

￥88.94

券

100减20

立即购买加入购物车
hadoop/spark大数据机器学数据库翟俊海,张素芳新华正版新华书店全新正版书籍支持7天无理由

全新

智胜图书专营店

北京市丰台区

平均发货22小时成功完成率88.59%

￥88.90

券

100减20

立即购买加入购物车
Hadoop Spark大数据机器学习

九五品

鲁安格斯

北京市东城区

平均发货34小时成功完成率82.74%

￥41.00

券

100减20

立即购买加入购物车
Hadoop\Spark大数据机器学习/信息科学技术学术著作丛书正版保障假一赔十可开发票

全新

灵感书店

上海市黄浦区

平均发货11小时成功完成率94.45%

￥82.18

券

100减20

立即购买加入购物车
Hadoop\Spark大数据机器学习/信息科学技术学术著作丛书全新正版全新未开封新华集团直接发

全新

江苏读客文化

江苏省南京市

平均发货16小时成功完成率82.56%

￥101.12

券

100减20

立即购买加入购物车
Hadoop-Spark大数据机器学习

全新

静语飞扬

河北省保定市

平均发货25小时成功完成率89.15%

￥49.92

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习全新正版现货

全新

乐淘正品书城

四川省成都市

平均发货24小时成功完成率85.69%

￥88.30

券

100减20

立即购买加入购物车
Hadoop/Spark 大数据机器学习正版图书，放心下单，请核对以书号和标题书名为准

全新

悦霖图书

河北省廊坊市

平均发货24小时成功完成率84.58%

￥49.90

券

100减20

立即购买加入购物车
正版现货 Hadoop/Spark大数据机器学习数据库新华书店全新正版书籍

全新

卓越网店

北京市东城区

平均发货30小时成功完成率84.09%

￥86.54

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习正版认证假一赔十支持七天无理由退货

全新

兴文书店

广东省广州市

平均发货20小时成功完成率86.58%

￥92.72

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习

全新

百文斋書店

山东省潍坊市

平均发货10小时成功完成率85.43%

￥103.60

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习正版新华书店直发可开发票，支持7天无理由

全新

需配书院（南京书店）

江苏省无锡市

平均发货18小时成功完成率94.43%

￥91.40

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习 9787030666871 翟俊海,张素芳科学出版社当天发货，全新正版书。新华书店集团直发，凡是套装书，价格异常时，请咨询后下单。

全新

白湘云书社

北京市通州区

平均发货10小时成功完成率88.59%

￥95.90

券

100减20

立即购买加入购物车
Hadoop/Spark 大数据机器学习正版库存新书☞无阅读划线☞图片与标题不符时以标题为主☞套书售价较底的为单册价。

全新

好再来图书

河北省廊坊市

平均发货18小时成功完成率76.45%

￥65.30

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习正版新书开电子发票

全新

安轩图书专营店

江苏省无锡市

平均发货18小时成功完成率92.12%

￥88.94

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习数据库新华书店全新正版书籍

全新

新华文轩网络书店

江苏省无锡市

平均发货8小时成功完成率95.83%

￥101.12

券

100减20

立即购买加入购物车
Hadoop/Spark 大数据机器学习如遇标题和主图不符，以标题为主

九品

远磊书店

河北省保定市

平均发货17小时成功完成率88.69%

￥43.00

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习正版新书新华官方库房直发可开电子发票

全新

问典书店

江苏省南京市

平均发货7小时成功完成率97.62%

￥96.00

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习正版新书新华官方库房直发可开电子发票

全新

江苏读客文化

江苏省南京市

平均发货16小时成功完成率82.56%

￥96.00

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习批量下载数据，有图片和标题名不是一种书，要按标题名购买。

全新

小布丁书店

河北省保定市

平均发货24小时成功完成率90.48%

￥93.64

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习正版新书新华官方库房直发可开电子发票

全新

文源文化

江苏省南京市

平均发货8小时成功完成率96.72%

￥96.00

券

100减20

立即购买加入购物车
hadoop/spark大数据机器学数据库翟俊海,张素芳新华正版数据库新华书店全新正版书籍支持7天无理由

全新

浩子书屋

河北省保定市

平均发货15小时成功完成率91.04%

￥89.54

券

100减20

立即购买加入购物车
新华正版 Hadoop/Spark大数据机器学习翟俊海,张素芳 9787030666871 科学出版社新华书店直发全新正版急速发货开票联系客服

全新

建德书局的书店

北京市西城区

平均发货30小时成功完成率90.55%

￥106.18

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习全新正版假一赔十可开发票

全新

轻阅书店

北京市朝阳区

平均发货9小时成功完成率96.75%

￥88.94

券

100减20

立即购买加入购物车
保正版！Hadoop/Spark大数据机器学习9787030666871科学出版社翟俊海,张素芳 1.7天无理由退换货，2.当日16点前订单基本当日发出，最迟隔天，3.天津仓、成都仓、无锡仓、北京仓、广东仓、泰安仓、杭州仓、武汉仓就近发货。4.韵达、中国邮政、圆通、中通随机安排！无法指定快递敬请谅解！5.开票联系客服.

全新

博文明智书店

天津市河东区

平均发货29小时成功完成率89.71%

￥87.11

券

100减20

立即购买加入购物车
Hadoop/Spark 大数据机器学习

全新

水墨香书屋

北京市朝阳区

平均发货20小时成功完成率80.34%

￥28.22

券

100减20

立即购买加入购物车
Hadoop/Spark 大数据机器学习

全新

臣臣书店

北京市房山区

平均发货15小时成功完成率74.53%

￥44.80

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习

九五品

志尚勇合图书专营店

湖北省武汉市

平均发货30小时成功完成率81.91%

￥64.94

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习

全新

野原书苑

北京市丰台区

平均发货17小时成功完成率70.46%

￥61.44

券

100减20

立即购买加入购物车
【正版书籍】Hadoop/Spark大数据机器学习正版图书，可开发票。

全新

乐益图书批发

河北省保定市

平均发货14小时成功完成率83%

￥55.50

券

100减20

立即购买加入购物车
Hadoop-Spark大数据机器学习9787030666871

全新

名科图书

河北省保定市

平均发货22小时成功完成率82.67%

￥47.36

券

100减20

立即购买加入购物车
【正版新书】Hadoop/Spark大数据机器学习正版图书，可开发票。

全新

三言正版图书

河北省保定市

平均发货15小时成功完成率82.01%

￥57.60

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习全新正版极速发货可开发票

全新

谢岳书店

广东省广州市

平均发货21小时成功完成率80.44%

￥81.41

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习全新正版极速发货可开发票

全新

徐小智的书店

广东省广州市

平均发货17小时成功完成率87.95%

￥81.41

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习正版图书，可开发票，请放心购买。

全新

亿临书店

广东省广州市

平均发货7小时成功完成率90.97%

￥93.09

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习按需印刷

全新

知汇文轩书店

北京市通州区

平均发货50小时成功完成率71.83%

￥128.00

券

100减20

立即购买加入购物车
【全新正版】Hadoop/Spark大数据机器学习翟俊海,张素芳9787030666871科学出版社2021-01-01普通图书/教材教辅考试/教材/大学教材/计算机与互联网（仕）正版全新书友可放心！支持七天无理由退货

全新

思源汇书店

江西省南昌市

平均发货15小时成功完成率83.25%

￥55.68

券

100减20

立即购买加入购物车
Hadoop/Spark 大数据机器学习9787030666871

全新

书禾文化

河北省保定市

平均发货24小时成功完成率79.54%

￥44.80

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习按需印刷商品标题推荐语带有“按需印刷”字样的商品，全新正版出版社直发。为先下单后生产的绝版书订制服务，生产周期一般为1-3个工作日，按需印刷的非质量问题，不支持退货的哦，如急用请谨慎下单。按需印刷的书籍均为平装书籍哦，请知悉/:^_^

全新

博文苑

北京市通州区

平均发货71小时成功完成率80.61%

￥128.00

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习按需印刷正版

全新

博文苑

北京市通州区

平均发货71小时成功完成率80.61%

￥128.00

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习全新正版现货开发票请留言

全新

书逅图书专营店

江苏省徐州市

平均发货13小时成功完成率93.02%

￥92.40

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习按需印刷

全新

藏典阁书店

北京市通州区

平均发货39小时成功完成率51.35%

￥128.00

券

100减20

立即购买加入购物车
Hadoop/Spark大数据机器学习商品描述：印数1千册配送说明

全新

四毛书店

河南省新乡市

平均发货22小时成功完成率72.64%

￥102.70

券

100减20

立即购买加入购物车