Hadoop理论与实践

Hadoop理论与实践
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
2021-01
版次: 1
ISBN: 9787302559504
定价: 58.00
装帧: 其他
开本: 16开
纸张: 胶版纸
  • 《Hadoop理论与实践》按照高等学校大数据、人工智能课程基本要求,以案例驱动的形式来组织内容,突出该课程的实践性特点。《Hadoop理论与实践》主要包含四大部分:Hadoop技术、数据仓库与Hive、Flume分布式日志处理系统、Spark及其生态圈概述。其中,Hadoop技术包括大数据与数据分析、Hadoop生态系统介绍、Hadoop存储、Hadoop计算之MapReduce、Hadoop安全等;数据仓库与Hive包括Hive与数据库的基础知识、Hive的高级特性、Hive优化及案例的应用;Flume分布式日志处理系统包括Flume介绍、Flume使用案例及Flume开发案例的应用;Spark及其生态圈概述包括Spark简介及Spark生态系统详解。 《Hadoop理论与实践》内容安排合理,层次清晰,通俗易懂,实例丰富,突出理论与实践的结合,可作为各类高等院校人工智能与大数据相关专业的教材,也可供广大程序设计人员参考。 北京百里半网络技术有限公司

    北京百里半网络技术有限公司为武汉厚溥企业集团成员单位,致力于互联网相关信息技术产品和服务的研究与开发,以及在线教育行业产品、服务的集成运营。公司拥有雄厚的具备学术、教育及产业背景的研发团队。 

    公司为政府、高校、企业等提供极具竞争力的产品服务。在人工智能、大数据及IT运维、互联网用户行为分析、在线教育等领域推出了自有知识产权的独特而领先的产品,为公司的持续发展奠定了坚实的基础。

    北京百里半网络技术有限公司长期以来坚持并弘扬“以人为本,本在心;以厚为道,道在行。创造机遇,成就潜能。IT成就最大潜能”的企业文化,努力成为值得客户信赖的、具有独特价值的优秀企业,并使之基业长青。

    李平

    李平,男,1981年出生,工学博士,任教于黄冈师范学院数学与统计学院。主要研究方向为大数据技术与应用、数学建模等,有丰富的高校教学经验与企业实践经历,发表科研论文十余篇,主持参与省部级科研项目三项,多次指导本专科学生及研究生参加数据挖掘竞赛、数学建模竞赛并获得国家级奖项。 第1章  大数据概述   1

    1.1  大数据与数据分析   2

    1.1.1  Hadoop的基础组件   2

    1.1.2  Hadoop分布式文件系统   3

    1.1.3  MapReduce   3

    1.1.4  YARN   4

    1.2  ZooKeeper   5

    1.3  Hive   6

    1.4  与其他系统集成   7

    1.4.1  Hadoop生态系统   7

    1.4.2  数据集成与Hadoop   8

    1.4.3  Hadoop商用平台CDH   9

    第2章  Hadoop存储   13

    2.1  HDFS的基础知识   14

    2.1.1  HDFS概念   14

    2.1.2  架构   18

    2.1.3  接口   21

    2.2  在分布式模式下设置HDFS集群   26

    2.3  HDFS的高级特性   30

    2.3.1  快照   30

    2.3.2  离线查看器   33

    2.3.3  分层存储   39

    2.4  文件格式   42

    2.5  云存储   43

    第3章  数据仓库和Hive   45

    3.1  数据仓库和Hive简介   45

    3.1.1  数据仓库简介   45

    3.1.2  数据仓库与数据库的区别   46

    3.1.3  Hive简介   46

    3.1.4  查看CDH中Hive版本   47

    3.2  Hive与数据库   48

    3.2.1  Hive与RDBMS   48

    3.2.2  HiveQL与SQL   50

    3.3  Hive的高级特性   51

    3.3.1  Hive的优缺点和适用场景   52

    3.3.2  Hive进程介绍   52

    3.3.3  Hive访问方式   53

    3.3.4  Hive体系结构   53

    3.3.5  Hive Metastore   55

    3.3.6  Hive数据类型   56

    3.3.7  Hive的常用参数配置   57

    3.3.8  Hive的数据模型   58

    3.3.9  Hive函数   62

    3.4  案例演示   66

    3.4.1  准备数据   67

    3.4.2  修改和查询   71

    3.4.3  表连接   72

    3.4.4  创建视图   74

    3.4.5  创建索引   75

    3.4.6  JDBC开发   76

    3.4.7  UDF的开发   84

    3.4.8  UDAF   86

    3.5  Hive优化和Hive中的锁   87

    3.5.1  注意事项   87

    3.5.2  Hive锁   88

    3.6  问题汇总   89

    第4章  Hadoop计算   91

    4.1  Hadoop MapReduce的基础   91

    4.1.1  概念   92

    4.1.2  架构   94

    4.2  启动MapReduce作业   99

    4.2.1  编写map任务   100

    4.2.2  编写reduce任务   102

    4.2.3  编写MapReduce作业   103

    4.2.4  MapReduce配置   105

    4.3  MapReduce的高级特性   106

    4.3.1  分布式缓存   106

    4.3.2  计数器   108

    4.3.3  作业历史服务器   109

    第5章  Hadoop安全   113

    5.1  提升Hadoop集群安全性   114

    5.1.1  边界安全   114

    5.1.2  Kerberos认证   115

    5.1.3  Hadoop中的服务级授权   120

    5.2  提升数据安全性   124

    5.2.1  数据分类   125

    5.2.2  将数据传到集群   125

    5.2.3  保护集群中的数据   130

    5.3  增强应用程序安全性   134

    5.3.1  YARN 架构   134

    5.3.2  YARN中的应用提交   135

    第6章  Flume分布式日志处理系统   139

    6.1  Flume介绍   139

    6.1.1  Flume简介   140

    6.1.2  Flume原理   141

    6.1.3  Flume特点   143

    6.1.4  Flume结构   143

    6.1.5  Flume使用   156

    6.2  Flume使用案例   159

    6.2.1  Flume监听端口示例   159

    6.2.2  两个主机组成的Flume集群示例   162

    6.2.3  HDFS Sink使用示例   164

    6.2.4  扇出示例   167

    6.2.5  负载均衡(Sink组)示例   169

    6.3  Flume开发案例   178

    6.3.1  开发自定义的Sink   178

    6.3.2  Flume结合Kafka的使用   183

    第7章  Spark及其生态圈概述   203

    7.1  Spark 简介   203

    7.1.1  什么是Spark   203

    7.1.2  Spark与MapReduce比较   206

    7.1.3  Spark的演进路线图   206

    7.2  Spark生态系统   207

    7.2.1  Spark Core   208

    7.2.2  Spark Streaming   209

    7.2.3  Spark SQL   211

    7.2.4  BlinkDB   213

    7.2.5  MLBase/MLIib   213

    7.2.6  GraphX   214

    7.2.7  SparkR   215

    7.2.8  Alluxio   216

    7.3  小结   217
  • 内容简介:
    《Hadoop理论与实践》按照高等学校大数据、人工智能课程基本要求,以案例驱动的形式来组织内容,突出该课程的实践性特点。《Hadoop理论与实践》主要包含四大部分:Hadoop技术、数据仓库与Hive、Flume分布式日志处理系统、Spark及其生态圈概述。其中,Hadoop技术包括大数据与数据分析、Hadoop生态系统介绍、Hadoop存储、Hadoop计算之MapReduce、Hadoop安全等;数据仓库与Hive包括Hive与数据库的基础知识、Hive的高级特性、Hive优化及案例的应用;Flume分布式日志处理系统包括Flume介绍、Flume使用案例及Flume开发案例的应用;Spark及其生态圈概述包括Spark简介及Spark生态系统详解。 《Hadoop理论与实践》内容安排合理,层次清晰,通俗易懂,实例丰富,突出理论与实践的结合,可作为各类高等院校人工智能与大数据相关专业的教材,也可供广大程序设计人员参考。
  • 作者简介:
    北京百里半网络技术有限公司

    北京百里半网络技术有限公司为武汉厚溥企业集团成员单位,致力于互联网相关信息技术产品和服务的研究与开发,以及在线教育行业产品、服务的集成运营。公司拥有雄厚的具备学术、教育及产业背景的研发团队。 

    公司为政府、高校、企业等提供极具竞争力的产品服务。在人工智能、大数据及IT运维、互联网用户行为分析、在线教育等领域推出了自有知识产权的独特而领先的产品,为公司的持续发展奠定了坚实的基础。

    北京百里半网络技术有限公司长期以来坚持并弘扬“以人为本,本在心;以厚为道,道在行。创造机遇,成就潜能。IT成就最大潜能”的企业文化,努力成为值得客户信赖的、具有独特价值的优秀企业,并使之基业长青。

    李平

    李平,男,1981年出生,工学博士,任教于黄冈师范学院数学与统计学院。主要研究方向为大数据技术与应用、数学建模等,有丰富的高校教学经验与企业实践经历,发表科研论文十余篇,主持参与省部级科研项目三项,多次指导本专科学生及研究生参加数据挖掘竞赛、数学建模竞赛并获得国家级奖项。
  • 目录:
    第1章  大数据概述   1

    1.1  大数据与数据分析   2

    1.1.1  Hadoop的基础组件   2

    1.1.2  Hadoop分布式文件系统   3

    1.1.3  MapReduce   3

    1.1.4  YARN   4

    1.2  ZooKeeper   5

    1.3  Hive   6

    1.4  与其他系统集成   7

    1.4.1  Hadoop生态系统   7

    1.4.2  数据集成与Hadoop   8

    1.4.3  Hadoop商用平台CDH   9

    第2章  Hadoop存储   13

    2.1  HDFS的基础知识   14

    2.1.1  HDFS概念   14

    2.1.2  架构   18

    2.1.3  接口   21

    2.2  在分布式模式下设置HDFS集群   26

    2.3  HDFS的高级特性   30

    2.3.1  快照   30

    2.3.2  离线查看器   33

    2.3.3  分层存储   39

    2.4  文件格式   42

    2.5  云存储   43

    第3章  数据仓库和Hive   45

    3.1  数据仓库和Hive简介   45

    3.1.1  数据仓库简介   45

    3.1.2  数据仓库与数据库的区别   46

    3.1.3  Hive简介   46

    3.1.4  查看CDH中Hive版本   47

    3.2  Hive与数据库   48

    3.2.1  Hive与RDBMS   48

    3.2.2  HiveQL与SQL   50

    3.3  Hive的高级特性   51

    3.3.1  Hive的优缺点和适用场景   52

    3.3.2  Hive进程介绍   52

    3.3.3  Hive访问方式   53

    3.3.4  Hive体系结构   53

    3.3.5  Hive Metastore   55

    3.3.6  Hive数据类型   56

    3.3.7  Hive的常用参数配置   57

    3.3.8  Hive的数据模型   58

    3.3.9  Hive函数   62

    3.4  案例演示   66

    3.4.1  准备数据   67

    3.4.2  修改和查询   71

    3.4.3  表连接   72

    3.4.4  创建视图   74

    3.4.5  创建索引   75

    3.4.6  JDBC开发   76

    3.4.7  UDF的开发   84

    3.4.8  UDAF   86

    3.5  Hive优化和Hive中的锁   87

    3.5.1  注意事项   87

    3.5.2  Hive锁   88

    3.6  问题汇总   89

    第4章  Hadoop计算   91

    4.1  Hadoop MapReduce的基础   91

    4.1.1  概念   92

    4.1.2  架构   94

    4.2  启动MapReduce作业   99

    4.2.1  编写map任务   100

    4.2.2  编写reduce任务   102

    4.2.3  编写MapReduce作业   103

    4.2.4  MapReduce配置   105

    4.3  MapReduce的高级特性   106

    4.3.1  分布式缓存   106

    4.3.2  计数器   108

    4.3.3  作业历史服务器   109

    第5章  Hadoop安全   113

    5.1  提升Hadoop集群安全性   114

    5.1.1  边界安全   114

    5.1.2  Kerberos认证   115

    5.1.3  Hadoop中的服务级授权   120

    5.2  提升数据安全性   124

    5.2.1  数据分类   125

    5.2.2  将数据传到集群   125

    5.2.3  保护集群中的数据   130

    5.3  增强应用程序安全性   134

    5.3.1  YARN 架构   134

    5.3.2  YARN中的应用提交   135

    第6章  Flume分布式日志处理系统   139

    6.1  Flume介绍   139

    6.1.1  Flume简介   140

    6.1.2  Flume原理   141

    6.1.3  Flume特点   143

    6.1.4  Flume结构   143

    6.1.5  Flume使用   156

    6.2  Flume使用案例   159

    6.2.1  Flume监听端口示例   159

    6.2.2  两个主机组成的Flume集群示例   162

    6.2.3  HDFS Sink使用示例   164

    6.2.4  扇出示例   167

    6.2.5  负载均衡(Sink组)示例   169

    6.3  Flume开发案例   178

    6.3.1  开发自定义的Sink   178

    6.3.2  Flume结合Kafka的使用   183

    第7章  Spark及其生态圈概述   203

    7.1  Spark 简介   203

    7.1.1  什么是Spark   203

    7.1.2  Spark与MapReduce比较   206

    7.1.3  Spark的演进路线图   206

    7.2  Spark生态系统   207

    7.2.1  Spark Core   208

    7.2.2  Spark Streaming   209

    7.2.3  Spark SQL   211

    7.2.4  BlinkDB   213

    7.2.5  MLBase/MLIib   213

    7.2.6  GraphX   214

    7.2.7  SparkR   215

    7.2.8  Alluxio   216

    7.3  小结   217
查看详情
相关图书 / 更多
Hadoop理论与实践
Hardy-Landau圆内整点问题(精)/现代数学中的著名定理纵横谈丛书
王梓坤 著;刘培杰数学工作室 编
Hadoop理论与实践
Hadoop大数据平台技术与应用
孙风栋 著
Hadoop理论与实践
Hadoop+Spark+Python大数据处理从算法到实战
朱春旭
Hadoop理论与实践
HarmonyOS IoT设备开发实战(鸿蒙操作系统开发)
江苏润和软件股份有限公司
Hadoop理论与实践
Hadoop技术与应用(高职)
魏迎
Hadoop理论与实践
Harbor权威指南:容器镜像、HelmChart等云原生制品的管理与实践(博文视点出品)
张海宁、邹佳、王岩、尹文开、任茂盛 著
Hadoop理论与实践
Hadoop应用开发与案例实战(慕课版)
穆建平、王建、商程 著
Hadoop理论与实践
Hadoop大数据处理技术基础与实践(第2版)(微课版)
安俊秀、靳宇倡、郭英 著
Hadoop理论与实践
Hadoop/Spark大数据机器学习
翟俊海;张素芳
Hadoop理论与实践
Hadoop大数据处理与分析教程(慕课版)
王秀友 丁小娜 刘运
Hadoop理论与实践
Harvard哈佛商业评论(2020年增刊)——中国式管理探索2019年获奖案例集
《哈弗商业评论》 著
Hadoop理论与实践
Hadoop 3实战指南
孙志伟
您可能感兴趣 / 更多
Hadoop理论与实践
Python核心编程实践/大数据人工智能系列丛书
北京百里半网络技术有限公司 编
Hadoop理论与实践
SolidEdge ST10中文版标准教程
北京百校千企科技有限公司 赵罘 郭卫东 张云文
Hadoop理论与实践
(2014版)少儿:我的朋友猪迪克 小小修理工 29-30集
北京百视文化传媒有限公司 著;京版北教控股有限公司 编
Hadoop理论与实践
(2014版)少儿:我的朋友猪迪克 小世界大冒险 27-28集
北京百视文化传媒有限公司 著;京版北教控股有限公司 编
Hadoop理论与实践
(2014版)少儿:我的朋友猪迪克 拯救流星雨 15-16集
北京百视文化传媒有限公司 作者;京版北教控股有限公司 编者
Hadoop理论与实践
(2014版)少儿:我的朋友猪迪克 谁打坏了地球仪 13-14集
北京百视文化传媒有限公司 著;京版北教控股有限公司 编
Hadoop理论与实践
(2014版)少儿:我的朋友猪迪克 歪歪扭扭枪 23-24集
北京百视文化传媒有限公司 著;京版北教控股有限公司 编
Hadoop理论与实践
(2014版)少儿:我的朋友猪迪克 梦琪生日快乐! 1-2集
北京百视文化传媒有限公司 著
Hadoop理论与实践
(2014版)少儿:我的朋友猪迪克 物体透明枪 3-4集
北京百视文化传媒有限公司 著;京版北教控股有限公司 编
Hadoop理论与实践
我的朋友猪迪克. 呃……离家出走?. 11-12集
北京百视文化传媒有限公司 著;京版北教控股有限公司 编
Hadoop理论与实践
我的朋友猪迪克. 保卫彩虹. 7-8集
北京百视文化传媒有限公司 著;京版北教控股有限公司 编
Hadoop理论与实践
程序员大本营系列
北京百联美达美数码科技有限公司