Hadoop+Spark生态系统操作与实战指南

Hadoop+Spark生态系统操作与实战指南
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2017-09
版次: 1
ISBN: 9787302479673
定价: 69.00
装帧: 其他
开本: 32开
纸张: 胶版纸
32人买过
  • 本书用于Hadoop Spark快速上手,全面解析Hadoop和Spark生态系统,通过原理解说和实例操作每一个组件,让读者能够轻松跨入大数据分析与开发的大门。
      全书共12章,大致分为3个部分,第1部分(第1~7章)讲解Hadoop的原生态组件,包括Hadoop、ZooKeeper、HBase、Hive环境搭建与安装,以及介绍MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本环境下实战操作。第2部分(第8~11章)讲解Spark的原生态组件,包括Spark Core、Spark SQL、Spark
      Streaming、DataFrame,以及介绍Scala、Spark API、Spark SQL、Spark Streaming、DataFrame原理和CDH版本环境下实战操作,其中Flume和Kafka属于Apache*开源项目也放在本篇讲解。第3部分(第12章)讲解两个大数据项目,包络网页日志离线项目和实时项目,在CDH版本环境下通过这两个项目将Hadoop和Spark原生态组件进行整合,一步步带领读者学习和实战操作。
      本书适合想要快速掌握大数据技术的初学者,也适合作为高等院校和培训机构相关专业师生的教学参考书和实验用书。 余辉,中国科学院大学硕士研究生毕业,研究方向为云计算和大数据。现供职于某上市公司担任技术经理,并在 Oracle OAEC人才产业集团大数据学院担任大数据讲师。 曾在清华大学电子工程系NGNLab研究室担任软件工程师。 第1章  Hadoop概述 1

    1.1 

    Hadoop简介 1

    1.2 

    Hadoop版本和生态系统 3

    1.3 

    MapReduce简介 7

    1.4 

    HDFS简介 8

    1.5 

    Eclipse Java开发环境搭建 10

    1.5.1 

    Java安装 10

    1.5.2 

    Maven安装 11

    1.5.3 

    Eclipse安装和配置 12

    1.5.4 

    Eclipse创建Maven项目 16

    1.5.5 

    Eclipse其余配置 19

    1.6  小结 21

    第2章  Hadoop集群搭建 22

    2.1  虚拟机简介 22

    2.2  虚拟机配置 24

    2.3 

    Linux系统设置 31

    2.4 

    Apache版本Hadoop集群搭建 36

    2.5 

    CDH版本Hadoop集群搭建 44

    2.5.1 

    安装前期准备 44

    2.5.2 

    Cloudera Manager安装 45

    2.5.3 

    CDH安装 46

    2.6  小结 55

    第3章  Hadoop基础与原理 56

    3.1 

    MapReduce原理介绍 56

    3.1.1 

    MapReduce的框架介绍 56

    3.1.2 

    MapReduce的执行步骤 58

    3.2 

    HDFS原理介绍 59

    3.2.1 

    HDFS是什么 59

    3.2.2 

    HDFS架构介绍 59

    3.3 

    HDFS实战 62

    3.3.1 

    HDFS客户端的操作 62

    3.3.2 

    Java操作HDFS 65

    3.4 

    YARN原理介绍 69

    3.5  小结 71

    第4章  ZooKeeper实战 72

    4.1 

    ZooKeeper原理介绍 72

    4.1.1  ZooKeeper基本概念 72

    4.1.2 

    ZooKeeper工作原理 73

    4.1.3 

    ZooKeeper工作流程 76

    4.2 

    ZooKeeper安装 78

    4.3 

    ZooKeeper实战 80

    4.3.1 

    ZooKeeper客户端的操作 80

    4.3.2 

    Java操作ZooKeeper 81

    4.3.3 

    Scala操作ZooKeeper 85

    4.4  小结 87

    第5章  MapReduce实战 88

    5.1  前期准备 88

    5.2  查看YARN上的任务 95

    5.3  加载配置文件 95

    5.4 

    MapReduce实战 96

    5.5  小结 121

    第6章  HBase实战 122

    6.1 

    HBase简介及架构 122

    6.2 

    HBase安装 127

    6.3 

    HBase实战 129

    6.3.1 

    HBase客户端的操作 129

    6.3.2 

    Java操作HBase 132

    6.3.3 

    Scala操作HBase 136

    6.4  小结 140

    第7章  Hive实战 141

    7.1 

    Hive介绍和架构 141

    7.2 

    Hive数据类型和表结构 143

    7.3  Hive分区、桶与倾斜 144

    7.4 

    Hive安装 146

    7.5 

    Hive实战 148

    7.5.1 

    Hive客户端的操作 148

    7.5.2 

    Hive常用命令 154

    7.5.3 

    Java操作Hive 155

    7.6  小结 161

    第8章  Scala实战 162

    8.1 

    Scala简介与安装 162

    8.2 

    IntelliJ IDEA开发环境搭建 164

    8.2.1 

    IntelliJ IDEA简介 164

    8.2.2 

    IntelliJ IDEA安装 164

    8.2.3 

    软件配置 166

    8.3 

    IntelliJ IDEA建立Maven项目 171

    8.4  基础语法 176

    8.5  函数 179

    8.6  控制语句 181

    8.7  函数式编程 184

    8.8  模式匹配 189

    8.9  类和对象 191

    8.10 

    Scala 异常处理 194

    8.11 

    Trait(特征) 195

    8.12 

    Scala文件I/O 196

    8.13 

    作业 198

    8.13.1 

    九九乘法表 198

    8.13.2 

    冒泡排序 199

    8.13.3 

    设计模式Command 200

    8.13.4 

    集合对称判断 202

    8.13.5 

    综合题 204

    8.14 

    小结 206

    第9章  Flume实战 207

    9.1 

    Flume概述 207

    9.2 

    Flume的结构 208

    9.3 

    Flume安装 211

    9.4 

    Flume实战 212

    9.5  小结 214

    第10章  Kafka实战 215

    10.1 

    Kafka概述 215

    10.1.1 

    简介 215

    10.1.2 

    使用场景 217

    10.2 

    Kafka设计原理 218

    10.3 

    Kafka主要配置 222

    10.4 

    Kafka客户端操作 224

    10.5 

    Java操作Kafka 226

    10.5.1 

    生产者 226

    10.5.2 

    消费者 228

    10.6 

    Flume连接Kafka 229

    10.7 

    小结 233

    第11章  Spark实战 234

    11.1 

    Spark概述 234

    11.2 

    Spark基本概念 234

    11.3 

    Spark算子实战及功能描述 238

    11.3.1 

    Value型Transformation算子 238

    11.3.2 

    Key-Value型Transformation算子 242

    11.3.3 

    Actions算子 245

    11.4 

    Spark Streaming实战 248

    11.5 

    Spark SQL和DataFrame实战 253

    11.6 

    小结 266

    第12章  大数据网站日志分析项目

    267

    12.1 

    项目介绍 267

    12.2 

    网站离线项目 267

    12.2.1 

    业务框架图 267

    12.2.2 

    子服务“趋势分析”详解 268

    12.2.3 

    表格的设计 272

    12.2.4 

    提前准备 274

    12.2.5 

    项目步骤 287

    12.3 

    网站实时项目 297

    12.3.1 

    业务框架图 297

    12.3.2 

    子服务“当前在线”详解 297

    12.3.3 

    表格的设计 302

    12.3.4 

    提前准备 304

    12.3.5 

    项目步骤 327

    12.4 

    小结 337
  • 内容简介:
    本书用于Hadoop Spark快速上手,全面解析Hadoop和Spark生态系统,通过原理解说和实例操作每一个组件,让读者能够轻松跨入大数据分析与开发的大门。
      全书共12章,大致分为3个部分,第1部分(第1~7章)讲解Hadoop的原生态组件,包括Hadoop、ZooKeeper、HBase、Hive环境搭建与安装,以及介绍MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本环境下实战操作。第2部分(第8~11章)讲解Spark的原生态组件,包括Spark Core、Spark SQL、Spark
      Streaming、DataFrame,以及介绍Scala、Spark API、Spark SQL、Spark Streaming、DataFrame原理和CDH版本环境下实战操作,其中Flume和Kafka属于Apache*开源项目也放在本篇讲解。第3部分(第12章)讲解两个大数据项目,包络网页日志离线项目和实时项目,在CDH版本环境下通过这两个项目将Hadoop和Spark原生态组件进行整合,一步步带领读者学习和实战操作。
      本书适合想要快速掌握大数据技术的初学者,也适合作为高等院校和培训机构相关专业师生的教学参考书和实验用书。
  • 作者简介:
    余辉,中国科学院大学硕士研究生毕业,研究方向为云计算和大数据。现供职于某上市公司担任技术经理,并在 Oracle OAEC人才产业集团大数据学院担任大数据讲师。 曾在清华大学电子工程系NGNLab研究室担任软件工程师。
  • 目录:
    第1章  Hadoop概述 1

    1.1 

    Hadoop简介 1

    1.2 

    Hadoop版本和生态系统 3

    1.3 

    MapReduce简介 7

    1.4 

    HDFS简介 8

    1.5 

    Eclipse Java开发环境搭建 10

    1.5.1 

    Java安装 10

    1.5.2 

    Maven安装 11

    1.5.3 

    Eclipse安装和配置 12

    1.5.4 

    Eclipse创建Maven项目 16

    1.5.5 

    Eclipse其余配置 19

    1.6  小结 21

    第2章  Hadoop集群搭建 22

    2.1  虚拟机简介 22

    2.2  虚拟机配置 24

    2.3 

    Linux系统设置 31

    2.4 

    Apache版本Hadoop集群搭建 36

    2.5 

    CDH版本Hadoop集群搭建 44

    2.5.1 

    安装前期准备 44

    2.5.2 

    Cloudera Manager安装 45

    2.5.3 

    CDH安装 46

    2.6  小结 55

    第3章  Hadoop基础与原理 56

    3.1 

    MapReduce原理介绍 56

    3.1.1 

    MapReduce的框架介绍 56

    3.1.2 

    MapReduce的执行步骤 58

    3.2 

    HDFS原理介绍 59

    3.2.1 

    HDFS是什么 59

    3.2.2 

    HDFS架构介绍 59

    3.3 

    HDFS实战 62

    3.3.1 

    HDFS客户端的操作 62

    3.3.2 

    Java操作HDFS 65

    3.4 

    YARN原理介绍 69

    3.5  小结 71

    第4章  ZooKeeper实战 72

    4.1 

    ZooKeeper原理介绍 72

    4.1.1  ZooKeeper基本概念 72

    4.1.2 

    ZooKeeper工作原理 73

    4.1.3 

    ZooKeeper工作流程 76

    4.2 

    ZooKeeper安装 78

    4.3 

    ZooKeeper实战 80

    4.3.1 

    ZooKeeper客户端的操作 80

    4.3.2 

    Java操作ZooKeeper 81

    4.3.3 

    Scala操作ZooKeeper 85

    4.4  小结 87

    第5章  MapReduce实战 88

    5.1  前期准备 88

    5.2  查看YARN上的任务 95

    5.3  加载配置文件 95

    5.4 

    MapReduce实战 96

    5.5  小结 121

    第6章  HBase实战 122

    6.1 

    HBase简介及架构 122

    6.2 

    HBase安装 127

    6.3 

    HBase实战 129

    6.3.1 

    HBase客户端的操作 129

    6.3.2 

    Java操作HBase 132

    6.3.3 

    Scala操作HBase 136

    6.4  小结 140

    第7章  Hive实战 141

    7.1 

    Hive介绍和架构 141

    7.2 

    Hive数据类型和表结构 143

    7.3  Hive分区、桶与倾斜 144

    7.4 

    Hive安装 146

    7.5 

    Hive实战 148

    7.5.1 

    Hive客户端的操作 148

    7.5.2 

    Hive常用命令 154

    7.5.3 

    Java操作Hive 155

    7.6  小结 161

    第8章  Scala实战 162

    8.1 

    Scala简介与安装 162

    8.2 

    IntelliJ IDEA开发环境搭建 164

    8.2.1 

    IntelliJ IDEA简介 164

    8.2.2 

    IntelliJ IDEA安装 164

    8.2.3 

    软件配置 166

    8.3 

    IntelliJ IDEA建立Maven项目 171

    8.4  基础语法 176

    8.5  函数 179

    8.6  控制语句 181

    8.7  函数式编程 184

    8.8  模式匹配 189

    8.9  类和对象 191

    8.10 

    Scala 异常处理 194

    8.11 

    Trait(特征) 195

    8.12 

    Scala文件I/O 196

    8.13 

    作业 198

    8.13.1 

    九九乘法表 198

    8.13.2 

    冒泡排序 199

    8.13.3 

    设计模式Command 200

    8.13.4 

    集合对称判断 202

    8.13.5 

    综合题 204

    8.14 

    小结 206

    第9章  Flume实战 207

    9.1 

    Flume概述 207

    9.2 

    Flume的结构 208

    9.3 

    Flume安装 211

    9.4 

    Flume实战 212

    9.5  小结 214

    第10章  Kafka实战 215

    10.1 

    Kafka概述 215

    10.1.1 

    简介 215

    10.1.2 

    使用场景 217

    10.2 

    Kafka设计原理 218

    10.3 

    Kafka主要配置 222

    10.4 

    Kafka客户端操作 224

    10.5 

    Java操作Kafka 226

    10.5.1 

    生产者 226

    10.5.2 

    消费者 228

    10.6 

    Flume连接Kafka 229

    10.7 

    小结 233

    第11章  Spark实战 234

    11.1 

    Spark概述 234

    11.2 

    Spark基本概念 234

    11.3 

    Spark算子实战及功能描述 238

    11.3.1 

    Value型Transformation算子 238

    11.3.2 

    Key-Value型Transformation算子 242

    11.3.3 

    Actions算子 245

    11.4 

    Spark Streaming实战 248

    11.5 

    Spark SQL和DataFrame实战 253

    11.6 

    小结 266

    第12章  大数据网站日志分析项目

    267

    12.1 

    项目介绍 267

    12.2 

    网站离线项目 267

    12.2.1 

    业务框架图 267

    12.2.2 

    子服务“趋势分析”详解 268

    12.2.3 

    表格的设计 272

    12.2.4 

    提前准备 274

    12.2.5 

    项目步骤 287

    12.3 

    网站实时项目 297

    12.3.1 

    业务框架图 297

    12.3.2 

    子服务“当前在线”详解 297

    12.3.3 

    表格的设计 302

    12.3.4 

    提前准备 304

    12.3.5 

    项目步骤 327

    12.4 

    小结 337
查看详情
12
相关图书 / 更多
Hadoop+Spark生态系统操作与实战指南
Hadoop技术与应用()
徐鲁辉
Hadoop+Spark生态系统操作与实战指南
Hadoop生态案例详解与项目实战
王盟 王新强
Hadoop+Spark生态系统操作与实战指南
HarmonyOS移动应用开发(ArkTS版)
刘安战;余雨萍;陈争艳
Hadoop+Spark生态系统操作与实战指南
Hadoop大数据分布式计算框架--原理与应用
杨成伟;祝翠玲;刘位龙
Hadoop+Spark生态系统操作与实战指南
Hadoop大数据平台搭建与应用(工作手册式)(微课版)
时东晓
Hadoop+Spark生态系统操作与实战指南
Hadoop大数据平台构建与应用(第2版)
米洪 陈永
Hadoop+Spark生态系统操作与实战指南
Hadoop大数据技术与项目实战
王小洁
Hadoop+Spark生态系统操作与实战指南
HarmonyOS应用程序开发与实战(Java版)
姚信威
Hadoop+Spark生态系统操作与实战指南
Hadoop简明教程
刘科峰
Hadoop+Spark生态系统操作与实战指南
Harper儿童皮肤病学(上下卷),第4版(翻译版)
马琳;王华;姚志荣;徐子刚
Hadoop+Spark生态系统操作与实战指南
Hadoop大数据技术原理与应用(第2版)
黑马程序员
Hadoop+Spark生态系统操作与实战指南
Hadoop生态系统及开发
深圳市讯方技术股份有限公司
您可能感兴趣 / 更多
Hadoop+Spark生态系统操作与实战指南
故宫学术文丛·翰墨辨疑:唐宋元书画家丛考
余辉
Hadoop+Spark生态系统操作与实战指南
了不起的中国画:清宫旧藏追踪录
余辉
Hadoop+Spark生态系统操作与实战指南
清明上河图深度游(精)/口袋里的国宝系列丛书
余辉 著
Hadoop+Spark生态系统操作与实战指南
百问千里??王希孟《千里江山图》卷问答录
余辉
Hadoop+Spark生态系统操作与实战指南
画里江山犹胜:百年艺术家族之赵宋家族
余辉 著;范景中 编
Hadoop+Spark生态系统操作与实战指南
印刷工艺
余辉 著
Hadoop+Spark生态系统操作与实战指南
图解汉字字根字理识字启蒙
余辉、刘诚 著
Hadoop+Spark生态系统操作与实战指南
Photoshop实用教程
余辉;熊伟
Hadoop+Spark生态系统操作与实战指南
Photoshop图像处理
余辉、胡爱萍 主编
Hadoop+Spark生态系统操作与实战指南
中文Dreamweaver 8网页设计与实训教程
余辉 编;李光明;曹蕾
Hadoop+Spark生态系统操作与实战指南
电气照明工程预算编制入门
余辉 主编
Hadoop+Spark生态系统操作与实战指南
人马画——中国美术图典
余辉 编