Hadoop与大数据挖掘 第2版

Hadoop与大数据挖掘 第2版
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
2022-07
版次: 2
ISBN: 9787111709473
定价: 99.00
装帧: 其他
开本: 16开
纸张: 胶版纸
页数: 396页
字数: 534千字
3人买过
  • 本书基于开源Hadoop生态圈的主流技术,深入浅出地介绍了大数据相关技术的原理、知识点及具体应用,适合教师教学使用和零基础自学者使用。通过本书的学习,读者可以理解大数据相关技术的原理,迅速掌握大数据技术的操作,为后续数据挖掘与分布式计算平台的结合使用打下良好的技术基础。 前言

    第一部分 基础篇

    第1章 浅谈大数据  2

    1.1 大数据产生的背景  2

    1.1.1 信息化浪潮  2

    1.1.2 信息技术变革  3

    1.1.3 数据生产方式变革  4

    1.1.4 大数据的发展历程  5

    1.1.5 大数据时代的挑战  6

    1.1.6 大数据时代面临的机遇  7

    1.2 大数据概述  7

    1.2.1 大数据的概念  8

    1.2.2 大数据的特征  8

    1.2.3 大数据的影响  8

    1.2.4 大数据与互联网、云计算的关系  11

    1.3 大数据挖掘概述  11

    1.3.1 数据挖掘的概念  11

    1.3.2 大数据环境下的数据挖掘  12

    1.3.3 数据挖掘的过程  12

    1.3.4 数据挖掘常用工具  13

    1.4 大数据平台  14

    1.5 小结  15

    第2章 大数据基础架构Hadoop——实现大数据分布式存储与计算  16

    2.1 Hadoop技术概述  16

    2.1.1 Hadoop的发展历史  16

    2.1.2 Hadoop的特点  17

    2.1.3 Hadoop存储框架—HDFS  18

    2.1.4 Hadoop计算引擎—MapReduce  20

    2.1.5 Hadoop资源管理器—YARN  21

    2.2 Hadoop应用场景介绍  23

    2.3 Hadoop生态系统  23

    2.4 Hadoop安装配置  24

    2.4.1 创建Linux虚拟机  25

    2.4.2 设置固定IP  33

    2.4.3 远程连接虚拟机  35

    2.4.4 配置本地yum源及安装常用软件  38

    2.4.5 在Linux下安装Java  42

    2.4.6 修改配置文件  43

    2.4.7 克隆虚拟机  48

    2.4.8 配置SSH免密登录  50

    2.4.9 配置时间同步服务  51

    2.4.10 启动关闭集群  53

    2.5 Hadoop HDFS文件操作命令  54

    2.5.1 创建目录  54

    2.5.2 上传和下载文件  55

    2.5.3 查看文件内容  56

    2.5.4 删除文件或目录  56

    2.6 Hadoop MapReduce编程开发  57

    2.6.1 使用IDEA搭建MapReduce开发环境  57

    2.6.2 通过词频统计了解MapReduce执行流程  67

    2.6.3 通过源码认识MapReduce编程  68

    2.7 场景应用:电影网站用户影评分析  74

    2.7.1 了解数据字段并分析需求  74

    2.7.2 多维度分析用户影评  76

    2.8 小结  91

    第3章 数据仓库Hive——实现大数据查询与处理  92

    3.1 Hive技术概述  92

    3.1.1 Hive简介  92

    3.1.2 Hive的特点  93

    3.1.3 Hive的架构  93

    3.2 Hive应用场景介绍  94

    3.3 Hive安装配置  95

    3.3.1 配置MySQL数据库  95

    3.3.2 配置Hive数据仓库  96

    3.4 HiveQL查询语句  99

    3.4.1 Hive的基础数据类型  99

    3.4.2 创建与管理数据库  100

    3.4.3 创建与管理数据表  101

    3.4.4 Hive表的数据装载  108

    3.4.5 掌握select查询  111

    3.4.6 了解运算符的使用  112

    3.4.7 掌握Hive内置函数  115

    3.5 Hive自定义函数的使用  120

    3.5.1 了解Hive自定义函数  120

    3.5.2 自定义UDF  121

    3.5.3 自定义UDAF  124

    3.5.4 自定义UDTF  127

    3.6 场景应用:基站掉话率排名统计  129

    3.6.1 创建基站数据表并导入数据  130

    3.6.2 统计基站掉话率  130

    3.7 小结  132

    第4章 分布式协调框架ZooKeeper——实现应用程序分布式协调服务  133

    4.1 ZooKeeper技术概述  133

    4.1.1 ZooKeeper简介  133

    4.1.2 ZooKeeper的特点  135

    4.2 ZooKeeper应用场景介绍  135

    4.3 ZooKeeper分布式安装配置  136

    4.4 ZooKeeper客户端常用命令  138

    4.4.1 创建znode  138

    4.4.2 获取znode数据  138

    4.4.3 监视znode  139

    4.4.4 删除znode  140

    4.4.5 设置znode权限  140

    4.5 ZooKeeper Java API操作  142

    4.5.1 创建IDEA工程并连接ZooKeeper  142

    4.5.2 获取、修改和删除znode数据  143

    4.6 场景应用:服务器上下线动态监控  146

    4.7 小结  149

    第5章 分布式数据库HBase——实现大数据存储与快速查询  151

    5.1 HBase技术概述  151

    5.1.1 HBase的发展历程  151

    5.1.2 HBase的特点  152

    5.1.3 HBase的核心功能模块  153

    5.1.4 HBase的数据模型  155

    5.1.5 设计表结构的原则  155

    5.2 HBase应用场景介绍  156

    5.3 HBase安装配置  157

    5.4 HBase Shell操作  159

    5.4.1 创建与删除表  159

    5.4.2 插入数据  161

    5.4.3 查询数据  162

    5.4.4 删除数据  163

    5.4.5 扫描全表  163

    5.4.6 按时间版本查询记录  164

    5.5 HBase高级应用  165

    5.5.1 IDEA开发环境搭建  165

    5.5.2 HBase Java API使用  169

    5.5.3 HBase与MapReduce交互  174

    5.6 场景应用:用户通话记录数据存储设计及查询  180

    5.6.1 设计通话记录数据结构  180

    5.6.2 查询用户通话记录  181

    5.7 小结  187

    第6章 分布式计算框架Spark——实现大数据分析与挖掘  189

    6.1 Spark技术概述  189

    6.1.1 Spark的发展历史  189

    6.1.2 Spark的特点  190

    6.1.3 Spark生态圈  191

    6.2 Spark应用场景介绍  192

    6.3 Spark集群安装配置  192

    6.4 Spark Core—底层基础框架  196

    6.4.1 Spark集群架构  196

    6.4.2 Spark作业运行模式  197

    6.4.3 弹性分布式数据集RDD  199

    6.4.4 RDD算子基础操作  200

    6.4.5 场景应用:房屋销售数据分析  201

    6.5 Spark SQL—查询引擎框架  205

    6.5.1 Spark SQL概述  205

    6.5.2 DataFrame基础操作  205

    6.5.3 场景应用:广告
  • 内容简介:
    本书基于开源Hadoop生态圈的主流技术,深入浅出地介绍了大数据相关技术的原理、知识点及具体应用,适合教师教学使用和零基础自学者使用。通过本书的学习,读者可以理解大数据相关技术的原理,迅速掌握大数据技术的操作,为后续数据挖掘与分布式计算平台的结合使用打下良好的技术基础。
  • 目录:
    前言

    第一部分 基础篇

    第1章 浅谈大数据  2

    1.1 大数据产生的背景  2

    1.1.1 信息化浪潮  2

    1.1.2 信息技术变革  3

    1.1.3 数据生产方式变革  4

    1.1.4 大数据的发展历程  5

    1.1.5 大数据时代的挑战  6

    1.1.6 大数据时代面临的机遇  7

    1.2 大数据概述  7

    1.2.1 大数据的概念  8

    1.2.2 大数据的特征  8

    1.2.3 大数据的影响  8

    1.2.4 大数据与互联网、云计算的关系  11

    1.3 大数据挖掘概述  11

    1.3.1 数据挖掘的概念  11

    1.3.2 大数据环境下的数据挖掘  12

    1.3.3 数据挖掘的过程  12

    1.3.4 数据挖掘常用工具  13

    1.4 大数据平台  14

    1.5 小结  15

    第2章 大数据基础架构Hadoop——实现大数据分布式存储与计算  16

    2.1 Hadoop技术概述  16

    2.1.1 Hadoop的发展历史  16

    2.1.2 Hadoop的特点  17

    2.1.3 Hadoop存储框架—HDFS  18

    2.1.4 Hadoop计算引擎—MapReduce  20

    2.1.5 Hadoop资源管理器—YARN  21

    2.2 Hadoop应用场景介绍  23

    2.3 Hadoop生态系统  23

    2.4 Hadoop安装配置  24

    2.4.1 创建Linux虚拟机  25

    2.4.2 设置固定IP  33

    2.4.3 远程连接虚拟机  35

    2.4.4 配置本地yum源及安装常用软件  38

    2.4.5 在Linux下安装Java  42

    2.4.6 修改配置文件  43

    2.4.7 克隆虚拟机  48

    2.4.8 配置SSH免密登录  50

    2.4.9 配置时间同步服务  51

    2.4.10 启动关闭集群  53

    2.5 Hadoop HDFS文件操作命令  54

    2.5.1 创建目录  54

    2.5.2 上传和下载文件  55

    2.5.3 查看文件内容  56

    2.5.4 删除文件或目录  56

    2.6 Hadoop MapReduce编程开发  57

    2.6.1 使用IDEA搭建MapReduce开发环境  57

    2.6.2 通过词频统计了解MapReduce执行流程  67

    2.6.3 通过源码认识MapReduce编程  68

    2.7 场景应用:电影网站用户影评分析  74

    2.7.1 了解数据字段并分析需求  74

    2.7.2 多维度分析用户影评  76

    2.8 小结  91

    第3章 数据仓库Hive——实现大数据查询与处理  92

    3.1 Hive技术概述  92

    3.1.1 Hive简介  92

    3.1.2 Hive的特点  93

    3.1.3 Hive的架构  93

    3.2 Hive应用场景介绍  94

    3.3 Hive安装配置  95

    3.3.1 配置MySQL数据库  95

    3.3.2 配置Hive数据仓库  96

    3.4 HiveQL查询语句  99

    3.4.1 Hive的基础数据类型  99

    3.4.2 创建与管理数据库  100

    3.4.3 创建与管理数据表  101

    3.4.4 Hive表的数据装载  108

    3.4.5 掌握select查询  111

    3.4.6 了解运算符的使用  112

    3.4.7 掌握Hive内置函数  115

    3.5 Hive自定义函数的使用  120

    3.5.1 了解Hive自定义函数  120

    3.5.2 自定义UDF  121

    3.5.3 自定义UDAF  124

    3.5.4 自定义UDTF  127

    3.6 场景应用:基站掉话率排名统计  129

    3.6.1 创建基站数据表并导入数据  130

    3.6.2 统计基站掉话率  130

    3.7 小结  132

    第4章 分布式协调框架ZooKeeper——实现应用程序分布式协调服务  133

    4.1 ZooKeeper技术概述  133

    4.1.1 ZooKeeper简介  133

    4.1.2 ZooKeeper的特点  135

    4.2 ZooKeeper应用场景介绍  135

    4.3 ZooKeeper分布式安装配置  136

    4.4 ZooKeeper客户端常用命令  138

    4.4.1 创建znode  138

    4.4.2 获取znode数据  138

    4.4.3 监视znode  139

    4.4.4 删除znode  140

    4.4.5 设置znode权限  140

    4.5 ZooKeeper Java API操作  142

    4.5.1 创建IDEA工程并连接ZooKeeper  142

    4.5.2 获取、修改和删除znode数据  143

    4.6 场景应用:服务器上下线动态监控  146

    4.7 小结  149

    第5章 分布式数据库HBase——实现大数据存储与快速查询  151

    5.1 HBase技术概述  151

    5.1.1 HBase的发展历程  151

    5.1.2 HBase的特点  152

    5.1.3 HBase的核心功能模块  153

    5.1.4 HBase的数据模型  155

    5.1.5 设计表结构的原则  155

    5.2 HBase应用场景介绍  156

    5.3 HBase安装配置  157

    5.4 HBase Shell操作  159

    5.4.1 创建与删除表  159

    5.4.2 插入数据  161

    5.4.3 查询数据  162

    5.4.4 删除数据  163

    5.4.5 扫描全表  163

    5.4.6 按时间版本查询记录  164

    5.5 HBase高级应用  165

    5.5.1 IDEA开发环境搭建  165

    5.5.2 HBase Java API使用  169

    5.5.3 HBase与MapReduce交互  174

    5.6 场景应用:用户通话记录数据存储设计及查询  180

    5.6.1 设计通话记录数据结构  180

    5.6.2 查询用户通话记录  181

    5.7 小结  187

    第6章 分布式计算框架Spark——实现大数据分析与挖掘  189

    6.1 Spark技术概述  189

    6.1.1 Spark的发展历史  189

    6.1.2 Spark的特点  190

    6.1.3 Spark生态圈  191

    6.2 Spark应用场景介绍  192

    6.3 Spark集群安装配置  192

    6.4 Spark Core—底层基础框架  196

    6.4.1 Spark集群架构  196

    6.4.2 Spark作业运行模式  197

    6.4.3 弹性分布式数据集RDD  199

    6.4.4 RDD算子基础操作  200

    6.4.5 场景应用:房屋销售数据分析  201

    6.5 Spark SQL—查询引擎框架  205

    6.5.1 Spark SQL概述  205

    6.5.2 DataFrame基础操作  205

    6.5.3 场景应用:广告
查看详情
12
相关图书 / 更多
Hadoop与大数据挖掘 第2版
HappyBirthday,Moon
Frank Asch 著
Hadoop与大数据挖掘 第2版
Hadoop大数据分布式计算框架--原理与应用
杨成伟;祝翠玲;刘位龙
Hadoop与大数据挖掘 第2版
Hadoop大数据平台构建与应用(第2版)
米洪 陈永
Hadoop与大数据挖掘 第2版
Half a Man
Morpurgo;Michael;O\'Callaghan;Gemma
Hadoop与大数据挖掘 第2版
Hadoop大数据技术与项目实战
王小洁
Hadoop与大数据挖掘 第2版
HarmonyOS应用程序开发与实战(Java版)
姚信威
Hadoop与大数据挖掘 第2版
Handbook of ICU Therapy
Fuller;John;Granton;Jeff;McConachie;Ian
Hadoop与大数据挖掘 第2版
Hadoop简明教程
刘科峰
Hadoop与大数据挖掘 第2版
Harper儿童皮肤病学(上下卷),第4版(翻译版)
马琳;王华;姚志荣;徐子刚
Hadoop与大数据挖掘 第2版
Harry Potter: Hogwarts: A Movie Scrapbook
Revenson;Jody
Hadoop与大数据挖掘 第2版
HarveyQuaytman
Dore Ashton
Hadoop与大数据挖掘 第2版
Hadoop生态系统及开发
深圳市讯方技术股份有限公司