大数据原理与技术

大数据原理与技术
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2018-01
版次: 1
ISBN: 9787115458711
定价: 56.00
装帧: 其他
开本: 16开
纸张: 胶版纸
48人买过
  • 本书是华为ICT学院大数据技术官方教材,旨在帮助学生进一步学习大数据的基本概念、技术原理,以及大数据平台的搭建和使用。
      本书从大数据的概念和特征开始讲起,首先让读者对大数据有一个感性的认识;接下来结合大数据平台的各个功能模块,详细介绍大数据的存储、处理、分析、可视化等原理和操作;对大数据在各种行业中的应用加以叙述,让读者更加充分地感受到大数据应用的价值。
      除华为ICT学院的学生之外,本书同样适合正在备考HCNA-Big Data认证,或者正在参加HCNA-Big Data技术培训的学员进行阅读和参考。其他有志进入ICT行业的人员和大数据技术爱好者也可以通过阅读本书,加深自己对大数据技术的理解。 多年的Hadoop大数据平台企业业务应用实践,具有丰富的Hadoop平台运维,开发与分析实战经验 2. 主导过多个大型大数据项目的开发,如维达国际大数据平台、中国商品进出口交易中心ETL日志分析大数据平台 3、多年大数据与数据挖掘等IT领域技术培训经验,丰富的课程设计和授课经验。 第1章  大数据概述0

    1.1  大数据的概念与价值2

    1.1.1  什么是大数据2

    1.1.2  大数据的来源4

    1.1.3  大数据有什么价值5

    1.1.4  如何挖掘企业大数据的价值6

    1.2  大数据的关键技术7

    1.2.1  大数据采集、预处理与存储管理7

    1.2.2  大数据分析与挖掘8

    1.2.3  数据可视化9

    1.3  大数据产业9

    1.3.1  数据提供9

    1.3.2  技术提供9

    1.3.3  服务提供10

    1.4  大数据应用场景10

    1.5  本章总结11

    练习题12

    第2章  Hadoop大数据处理平台14

    2.1  Hadoop平台概述16

    2.1.1  Hadoop简介16

    2.1.2  Hadoop的特性17

    2.1.3  Hadoop应用现状17

    2.1.4  Hadoop版本及相关平台18

    2.2  Hadoop生态系统18

    2.2.1  Hadoop存储系统(HDFS&HBase)18

    2.2.2  Hadoop计算框架(MapReduce&YARN)19

    2.2.3  Hadoop数据仓库(Hive)20

    2.2.4  Hadoop数据转换与日志处理(Sqoop&Flume)20

    2.2.5  Hadoop应用协调与工作流(ZooKeeper&Oozie)20

    2.2.6  大数据安全技术(Kerberos&LDAP)21

    2.2.7  大数据即时查询与搜索(Impala&Solr)21

    2.2.8  大数据消息订阅(Kafka)21

    2.3  Hadoop安装部署22

    2.3.1  Hadoop规划部署22

    2.3.2  Hadoop的安装方式23

    2.4  华为FusionInsight HD安装部署26

    2.4.1  FusionInsight HD简介26

    2.4.2  FusionInsight HD集成设计28

    2.4.3  FusionInsight HD安装部署33

    2.4.4  FusionInsight HD重要参数配置41

    2.5  本章总结42

    练习题43

    第3章  大数据存储技术(HDFS)44

    3.1  概述46

    3.1.1  分布式文件系统的概念与作用47

    3.1.2  HDFS概述47

    3.2  HDFS的相关概念48

    3.2.1  块48

    3.2.2  NameNode49

    3.2.3  Secondary NameNode50

    3.2.4  DataNode51

    3.3  HDFS体系架构与原理52

    3.3.1  HDFS体系架构52

    3.3.2  HDFS的高可用机制52

    3.3.3  HDFS的目录结构54

    3.3.4  HDFS的数据读写过程57

    3.4  HDFS接口及其在FusionInsight HD编程中的实践58

    3.4.1  HDFS常用Shell命令59

    3.4.2  HDFS的Web界面60

    3.4.3  HDFS的Java接口及应用实例62

    3.5  本章总结67

    练习题67

    第4章  大数据离线计算框架(MapReduce & YARN)70

    4.1  MapReduce技术原理72

    4.1.1  MapReduce概述73

    4.1.2  Map函数与Reduce函数73

    4.2  YARN技术原理74

    4.2.1  YARN的概述与应用74

    4.2.2  YARN的架构75

    4.2.3  MapReduce的计算过程76

    4.2.4  YARN的资源调度78

    4.3  FusionInsight HD中MapReduce的应用78

    4.3.1  WordCount实例分析78

    4.3.2  MapReduce编程实践79

    4.4  本章总结85

    练习题86

    第5章  大数据数据库(HBase)88

    5.1  HBase概述90

    5.1.1  HBase简介90

    5.1.2  HBase与关系型数据库的区别91

    5.1.3  HBase的应用场景92

    5.2  HBase的架构原理92

    5.2.1  HBase的数据模型92

    5.2.2  表和Region93

    5.2.3  HBase的系统架构与功能组件94

    5.2.4  HBase的读写流程96

    5.2.5  HBase的Compaction过程97

    5.3  FusionInsight HD中HBase的编程实践98

    5.3.1  FusionInsight HD中HBase的常用参数配置98

    5.3.2  HBase的常用Shell命令100

    5.3.3  HBase常用的Java API及应用实例103

    5.4  本章总结118

    练习题118

    第6章  大数据数据仓库(Hive)120

    6.1  Hive概述122

    6.1.1  Hive简介和应用122

    6.1.2  Hive的特性123

    6.1.3  Hive与传统数据仓库的区别124

    6.2  Hive的架构和数据存储124

    6.2.1  Hive的架构原理124

    6.2.2  Hive的数据存储模型127

    6.2.3  HiveQL编程128

    6.3  FusionInsight HD中Hive应用实践132

    6.3.1  FusionInsight HD中Hive的常用参数配置132

    6.3.2  加载数据到Hive133

    6.3.3  使用HiveQL进行数据分析135

    6.4  本章总结139

    练习题139

    第7章  大数据数据转换(Sqoop与Loader)142

    7.1  Sqoop概述144

    7.1.1  Sqoop简介与应用145

    7.1.2  Sqoop的功能与特性145

    7.1.3  Sqoop与传统ETL的区别146

    7.2  FusionInsight HD中Loader的应用实践146

    7.2.1  FusionInsight HD中Loader与Sqoop的对比147

    7.2.2  FusionInsight HD中Loader的参数配置148

    7.2.3  使用Loader进行数据转换149

    7.2.4  Loader的常用Shell命令150

    7.2.5  Loader应用实践152

    7.3  本章总结153

    练习题154

    第8章  大数据日志处理(Flume)156

    8.1  Flume概述158

    8.1.1  Flume简介与应用158

    8.1.2  Flume的功能与特性161

    8.1.3  Flume与其他主流开源日志收集系统的区别162

    8.2  FusionInsight HD中Flume的应用实践162

    8.2.1  FusionInsight HD中Flume的常用参数配置163

    8.2.2  Flume常用的Shell命令164

    8.2.3  Flume与Kafka结合进行日志处理165

    8.3  本章总结168

    练习题169

    第9章  大数据实时计算框架(Spark)170

    9.1  Spark概述172

    9.1.1  Spark的概述与应用173

    9.1.2  Scala语言介绍174

    9.1.3  Spark生态系统组件174

    9.1.4  Spark与Hadoop的对比175

    9.2  Spark技术架构176

    9.2.1  Spark的运行原理176

    9.2.2  RDD概念与原理177

    9.2.3  Spark的三种部署方式181

    9.2.4  使用开发工具测试Spark182

    9.3  FusionInsight HD中Spark应用实践183

    9.3.1  运行Spark Shell183

    9.3.2  进行Spark RDD操作184

    9.3.3  使用Spark客户端工具运行Spark程序185

    9.4  Spark Streaming188

    9.4.1  Spark Streaming的设计思想188

    9.4.2  Spark Streaming的应用实例189

    9.5  Spark SQL191

    9.5.1  Spark SQL的功能191

    9.5.2  FusionInsight HD中Spark SQL的应用实例192

    9.6  Spark MLlib193

    9.6.1  机器学习简介193

    9.6.2  Spark MLlib的功能194

    9.7  Spark GraphX194

    9.7.1  图计算简介194

    9.7.2  Spark GraphX功能简介195

    9.8  本章总结195

    练习题196

    第10章  大数据流计算198

    10.1  流计算概述200

    10.1.1  静态数据和流数据201

    10.1.2  流计算的概念201

    10.1.3  MapReduce和流计算202

    10.1.4  流计算框架202

    10.2  流计算的处理流程203

    10.2.1  数据实时采集203

    10.2.2  数据实时计算203

    10.2.3  数据实时查询203

    10.3  Streaming流计算204

    10.3.1  Streaming简介204

    10.3.2  Streaming的特点206

    10.3.3  Streaming在FusionInsight HD上的应用实践208

    10.3.4  Spark Streaming与Streaming的差异212

    10.4  本章总结213

    练习题213

    第11章  数据可视化216

    11.1  可视化概述218

    11.1.1  数据可视化简介219

    11.1.2  数据可视化的重要性219

    11.1.3  可视化的发展历程219

    11.1.4  数据可视化的过程221

    11.2  可视化工具222

    11.2.1  入门级工具(Excel)222

    11.2.2  普通工具(R语言)222

    11.2.3  高级工具(Tableau和QlikView)223

    11.3  可视化的典型应用223

    11.3.1  可视化在医学上的应用223

    11.3.2  可视化在工程中的应用224

    11.3.3  可视化在互联网的应用225

    11.4  本章总结225

    练习题226

    第12章  大数据行业应用228

    12.1  大数据在金融行业的应用230

    12.2  大数据在电信行业的应用232

    12.3  大数据在公安系统的应用236

    12.4  大数据在互联网行业的应用237

    12.5  本章总结237

    练习题238

    术语表240

    参考文献252
  • 内容简介:
    本书是华为ICT学院大数据技术官方教材,旨在帮助学生进一步学习大数据的基本概念、技术原理,以及大数据平台的搭建和使用。
      本书从大数据的概念和特征开始讲起,首先让读者对大数据有一个感性的认识;接下来结合大数据平台的各个功能模块,详细介绍大数据的存储、处理、分析、可视化等原理和操作;对大数据在各种行业中的应用加以叙述,让读者更加充分地感受到大数据应用的价值。
      除华为ICT学院的学生之外,本书同样适合正在备考HCNA-Big Data认证,或者正在参加HCNA-Big Data技术培训的学员进行阅读和参考。其他有志进入ICT行业的人员和大数据技术爱好者也可以通过阅读本书,加深自己对大数据技术的理解。
  • 作者简介:
    多年的Hadoop大数据平台企业业务应用实践,具有丰富的Hadoop平台运维,开发与分析实战经验 2. 主导过多个大型大数据项目的开发,如维达国际大数据平台、中国商品进出口交易中心ETL日志分析大数据平台 3、多年大数据与数据挖掘等IT领域技术培训经验,丰富的课程设计和授课经验。
  • 目录:
    第1章  大数据概述0

    1.1  大数据的概念与价值2

    1.1.1  什么是大数据2

    1.1.2  大数据的来源4

    1.1.3  大数据有什么价值5

    1.1.4  如何挖掘企业大数据的价值6

    1.2  大数据的关键技术7

    1.2.1  大数据采集、预处理与存储管理7

    1.2.2  大数据分析与挖掘8

    1.2.3  数据可视化9

    1.3  大数据产业9

    1.3.1  数据提供9

    1.3.2  技术提供9

    1.3.3  服务提供10

    1.4  大数据应用场景10

    1.5  本章总结11

    练习题12

    第2章  Hadoop大数据处理平台14

    2.1  Hadoop平台概述16

    2.1.1  Hadoop简介16

    2.1.2  Hadoop的特性17

    2.1.3  Hadoop应用现状17

    2.1.4  Hadoop版本及相关平台18

    2.2  Hadoop生态系统18

    2.2.1  Hadoop存储系统(HDFS&HBase)18

    2.2.2  Hadoop计算框架(MapReduce&YARN)19

    2.2.3  Hadoop数据仓库(Hive)20

    2.2.4  Hadoop数据转换与日志处理(Sqoop&Flume)20

    2.2.5  Hadoop应用协调与工作流(ZooKeeper&Oozie)20

    2.2.6  大数据安全技术(Kerberos&LDAP)21

    2.2.7  大数据即时查询与搜索(Impala&Solr)21

    2.2.8  大数据消息订阅(Kafka)21

    2.3  Hadoop安装部署22

    2.3.1  Hadoop规划部署22

    2.3.2  Hadoop的安装方式23

    2.4  华为FusionInsight HD安装部署26

    2.4.1  FusionInsight HD简介26

    2.4.2  FusionInsight HD集成设计28

    2.4.3  FusionInsight HD安装部署33

    2.4.4  FusionInsight HD重要参数配置41

    2.5  本章总结42

    练习题43

    第3章  大数据存储技术(HDFS)44

    3.1  概述46

    3.1.1  分布式文件系统的概念与作用47

    3.1.2  HDFS概述47

    3.2  HDFS的相关概念48

    3.2.1  块48

    3.2.2  NameNode49

    3.2.3  Secondary NameNode50

    3.2.4  DataNode51

    3.3  HDFS体系架构与原理52

    3.3.1  HDFS体系架构52

    3.3.2  HDFS的高可用机制52

    3.3.3  HDFS的目录结构54

    3.3.4  HDFS的数据读写过程57

    3.4  HDFS接口及其在FusionInsight HD编程中的实践58

    3.4.1  HDFS常用Shell命令59

    3.4.2  HDFS的Web界面60

    3.4.3  HDFS的Java接口及应用实例62

    3.5  本章总结67

    练习题67

    第4章  大数据离线计算框架(MapReduce & YARN)70

    4.1  MapReduce技术原理72

    4.1.1  MapReduce概述73

    4.1.2  Map函数与Reduce函数73

    4.2  YARN技术原理74

    4.2.1  YARN的概述与应用74

    4.2.2  YARN的架构75

    4.2.3  MapReduce的计算过程76

    4.2.4  YARN的资源调度78

    4.3  FusionInsight HD中MapReduce的应用78

    4.3.1  WordCount实例分析78

    4.3.2  MapReduce编程实践79

    4.4  本章总结85

    练习题86

    第5章  大数据数据库(HBase)88

    5.1  HBase概述90

    5.1.1  HBase简介90

    5.1.2  HBase与关系型数据库的区别91

    5.1.3  HBase的应用场景92

    5.2  HBase的架构原理92

    5.2.1  HBase的数据模型92

    5.2.2  表和Region93

    5.2.3  HBase的系统架构与功能组件94

    5.2.4  HBase的读写流程96

    5.2.5  HBase的Compaction过程97

    5.3  FusionInsight HD中HBase的编程实践98

    5.3.1  FusionInsight HD中HBase的常用参数配置98

    5.3.2  HBase的常用Shell命令100

    5.3.3  HBase常用的Java API及应用实例103

    5.4  本章总结118

    练习题118

    第6章  大数据数据仓库(Hive)120

    6.1  Hive概述122

    6.1.1  Hive简介和应用122

    6.1.2  Hive的特性123

    6.1.3  Hive与传统数据仓库的区别124

    6.2  Hive的架构和数据存储124

    6.2.1  Hive的架构原理124

    6.2.2  Hive的数据存储模型127

    6.2.3  HiveQL编程128

    6.3  FusionInsight HD中Hive应用实践132

    6.3.1  FusionInsight HD中Hive的常用参数配置132

    6.3.2  加载数据到Hive133

    6.3.3  使用HiveQL进行数据分析135

    6.4  本章总结139

    练习题139

    第7章  大数据数据转换(Sqoop与Loader)142

    7.1  Sqoop概述144

    7.1.1  Sqoop简介与应用145

    7.1.2  Sqoop的功能与特性145

    7.1.3  Sqoop与传统ETL的区别146

    7.2  FusionInsight HD中Loader的应用实践146

    7.2.1  FusionInsight HD中Loader与Sqoop的对比147

    7.2.2  FusionInsight HD中Loader的参数配置148

    7.2.3  使用Loader进行数据转换149

    7.2.4  Loader的常用Shell命令150

    7.2.5  Loader应用实践152

    7.3  本章总结153

    练习题154

    第8章  大数据日志处理(Flume)156

    8.1  Flume概述158

    8.1.1  Flume简介与应用158

    8.1.2  Flume的功能与特性161

    8.1.3  Flume与其他主流开源日志收集系统的区别162

    8.2  FusionInsight HD中Flume的应用实践162

    8.2.1  FusionInsight HD中Flume的常用参数配置163

    8.2.2  Flume常用的Shell命令164

    8.2.3  Flume与Kafka结合进行日志处理165

    8.3  本章总结168

    练习题169

    第9章  大数据实时计算框架(Spark)170

    9.1  Spark概述172

    9.1.1  Spark的概述与应用173

    9.1.2  Scala语言介绍174

    9.1.3  Spark生态系统组件174

    9.1.4  Spark与Hadoop的对比175

    9.2  Spark技术架构176

    9.2.1  Spark的运行原理176

    9.2.2  RDD概念与原理177

    9.2.3  Spark的三种部署方式181

    9.2.4  使用开发工具测试Spark182

    9.3  FusionInsight HD中Spark应用实践183

    9.3.1  运行Spark Shell183

    9.3.2  进行Spark RDD操作184

    9.3.3  使用Spark客户端工具运行Spark程序185

    9.4  Spark Streaming188

    9.4.1  Spark Streaming的设计思想188

    9.4.2  Spark Streaming的应用实例189

    9.5  Spark SQL191

    9.5.1  Spark SQL的功能191

    9.5.2  FusionInsight HD中Spark SQL的应用实例192

    9.6  Spark MLlib193

    9.6.1  机器学习简介193

    9.6.2  Spark MLlib的功能194

    9.7  Spark GraphX194

    9.7.1  图计算简介194

    9.7.2  Spark GraphX功能简介195

    9.8  本章总结195

    练习题196

    第10章  大数据流计算198

    10.1  流计算概述200

    10.1.1  静态数据和流数据201

    10.1.2  流计算的概念201

    10.1.3  MapReduce和流计算202

    10.1.4  流计算框架202

    10.2  流计算的处理流程203

    10.2.1  数据实时采集203

    10.2.2  数据实时计算203

    10.2.3  数据实时查询203

    10.3  Streaming流计算204

    10.3.1  Streaming简介204

    10.3.2  Streaming的特点206

    10.3.3  Streaming在FusionInsight HD上的应用实践208

    10.3.4  Spark Streaming与Streaming的差异212

    10.4  本章总结213

    练习题213

    第11章  数据可视化216

    11.1  可视化概述218

    11.1.1  数据可视化简介219

    11.1.2  数据可视化的重要性219

    11.1.3  可视化的发展历程219

    11.1.4  数据可视化的过程221

    11.2  可视化工具222

    11.2.1  入门级工具(Excel)222

    11.2.2  普通工具(R语言)222

    11.2.3  高级工具(Tableau和QlikView)223

    11.3  可视化的典型应用223

    11.3.1  可视化在医学上的应用223

    11.3.2  可视化在工程中的应用224

    11.3.3  可视化在互联网的应用225

    11.4  本章总结225

    练习题226

    第12章  大数据行业应用228

    12.1  大数据在金融行业的应用230

    12.2  大数据在电信行业的应用232

    12.3  大数据在公安系统的应用236

    12.4  大数据在互联网行业的应用237

    12.5  本章总结237

    练习题238

    术语表240

    参考文献252
查看详情
相关图书 / 更多
大数据原理与技术
大数据驱动的突发事件情报感知及快速响应研究
唐明伟,庄玉良
大数据原理与技术
大数据处理技术基础与应用(Hadoop+Spark)
许桂秋 孙海民 胡贵恒
大数据原理与技术
大数据十讲 周烜 陈志广
周烜 陈志广
大数据原理与技术
大数据财务分析
李峰
大数据原理与技术
大数据时代的营销管理创新研究
高芳 著
大数据原理与技术
大数据警务的崛起
(美)安德鲁.格思里.弗格森
大数据原理与技术
大数据侦查法治化研究
彭俊磊
大数据原理与技术
大数据时代思想政治教育创新发展研究
彭晓宽 著
大数据原理与技术
大数据背景下公众参与环境治理的程度评估与作用机制研究
史亚东
大数据原理与技术
大数据医疗:从即时检测设备进行解析
(英)波利亚·阿梅里安,(英)特鲁迪·朗,(英)弗朗索瓦·范·洛格伦伯格
大数据原理与技术
大数据可视化编程和应用
倪振松 胡煜华 朱家全 主编 谢岳富 陈建平 副主编
大数据原理与技术
大数据财务与会计应用
周忠宝 著;樊斌、樊斌、周忠宝 编
您可能感兴趣 / 更多
大数据原理与技术
大数据原理与技术
黄史浩