大数据实践

大数据实践
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
2018-05
版次: 1
ISBN: 9787302494256
定价: 58.00
装帧: 其他
开本: 16开
纸张: 胶版纸
页数: 222页
字数: 261千字
40人买过
  • 本书内容涵盖了目前使用*为广泛的大数据处理系统Hadoop生态圈中的几大核心软件系统:分布式大数据处理系统Hadoop、数据库HBase、数据仓库工具Hive、内存大数据计算框架Spark和Spark SQL,详细介绍了它们的架构、工作原理、部署方法、常用配置、常用操作命令、SQL引擎等内容。本书对上述几大系统的各种安装部署方式给出了详细步骤,常用命令也都有具体示例介绍,是一本实操性很强的工具书,能帮助初学者快速掌握这几款常用的大数据处理系统。
      
      
      本书以浅显易懂的语言风格和图文并茂的操作示例引领读者迈入大数据实践之门,可以作为培养应用型人才的课程教材,也可作为开发人员的自学教材和参考手册。 袁晓东-数据库和大数据专家,1998年毕业于南京大学计算机系,获软件博士学位。曾任职于Oracel公司纽约分部、趋势科技南京研发中心,现为南京市领军型科技创业人才,云白科技创始人,江苏省计算机学会软件专委会委员,东南大学研究生院校外导师。     第1章  大数据概述

    1.1  从数据库到大数据库 1

    1.1.1 

    关系型数据库 1

    1.1.2 

    大数据库 2

    1.2  大数据库的类型 4

    1.3  大数据库的应用 5

    习题1 8

    参考文献 8

    第2章  Hadoop基础

    2.1 

    Hadoop简介 9

    2.2 

    Hadoop部署 14

    2.2.1 

    单节点部署 14

    2.2.2 

    伪分布式部署 18

    2.2.3 

    集群部署 25

    2.3  

    Hadoop常用命令 33

    2.3.1 

    用户命令 33

    2.3.2 

    管理命令 35

    2.3.3 

    启动/关闭命令 36

    2.4 

    HDFS常用命令 38

    2.4.1 

    用户命令 38

    2.4.2 

    管理命令 39

    实验1  Hadoop实验 41

    习题2 42

    参考文献 42

    第3章  Hadoop数据库HBase

    3.1 

    HBase简介 43

    3.1.1 

    体系架构 43

    3.1.2 

    数据模型 46

    3.1.3 

    主要特性 51

    3.2 

    HBase部署 51

    3.2.1 

    准备工作 51

    3.2.2 

    单节点部署 53

    3.2.3 

    伪分布式部署 55

    3.2.4 

    集群部署 57

    3.2.5 

    版本升级 61

    3.3 

    HBase配置 63

    3.3.1 

    配置文件 63

    3.3.2 

    主要配置项 65

    3.3.3 

    配置建议 69

    3.3.4 

    客户端配置 72

    3.4 

    HBase Shell 72

    3.4.1 

    交互模式 73

    3.4.2 

    非交互模式 82

    3.5 

    HBase模式设计 84

    3.5.1 

    设计准则 84

    3.5.2 

    列族属性

    88

    3.5.3 

    表属性 91

    3.5.4 

    设计实例 94

    3.6 

    HBase安全 97

    3.6.1 

    安全访问配置 97

    3.6.2 

    数据访问权限控制 99

    实验2  HBase集群搭建 100

    习题3 101

    参考文献 102

    第4章  数据仓库工具Hive

    4.1 

    Hive简介 103

    4.1.1 

    工作原理 104

    4.1.2 

    体系架构 104

    4.1.3 

    数据模型 106

    4.2 

    Hive部署 108

    4.2.1 

    Hive部署模式 109

    4.2.2 

    Hive内嵌模式部署 110

    4.2.3 

    Hive本地和远程模式部署 113

    4.3 

    Hive配置 115

    4.4 

    Hive接口 117

    4.4.1 

    Hive Shell接口 117

    4.4.2 

    Hive Web接口 119

    4.5 

    Hive SQL 122

    4.5.1 

    数据类型 122

    4.5.2 

    DDL语句 122

    4.5.3 

    DML语句 137

    4.6 

    Hive操作实例 146

    实验3  Hive实验 147

    习题4 150

    参考文献 150

    第5章  内存大数据计算框架Spark

    5.1 

    Spark简介 151

    5.1.1 

    Spark概览 151

    5.1.2 

    Spark生态系统BDAS 152

    5.1.3 

    Spark架构与原理 153

    5.2 

    Spark部署 155

    5.2.1 

    准备工作 155

    5.2.2 

    Spark单节点部署 156

    5.2.3 

    Spark集群部署 157

    5.3 

    Spark配置 169

    5.3.1 

    Spark属性 169

    5.3.2 

    环境变量配置 171

    5.3.3 

    日志配置 171

    5.3.4 

    查看配置 172

    5.4 

    Spark RDD 173

    5.4.1 

    RDD特征 174

    5.4.2 

    RDD转换操作 174

    5.4.3 

    RDD依赖 175

    5.4.4 

    RDD行动操作 177

    5.5 

    Spark Shell 177

    5.5.1 

    准备工作 177

    5.5.2 

    启动Spark Shell 178

    5.5.3 

    创建RDD 179

    5.5.4 

    转换RDD 180

    5.5.5 

    执行RDD作业 181

    实验4  Spark Standalone集群搭建 184

    习题5 185

    参考文献 185

    第6章  Spark SQL

    6.1  Spark

    SQL简介 186

    6.1.1 

    Spark SQL概览 186

    6.1.2 

    Spark SQL特性 188

    6.1.3 

    Spark SQL架构与原理 188

    6.1.4 

    和Hive的兼容性 190

    6.1.5 

    数据类型 191

    6.2  分布式SQL引擎 192

    6.2.1 

    Spark SQL配置 192

    6.2.2 

    Spark SQL CLI 195

    6.2.3 

    Thrift JDBC/ODBC Server的搭建与测试 198

    6.3  使用DataFrame

    API处理结构化数据 201

    实验5  Thrift JDBC/ODBC Server的搭建与测试 205

    习题6 206

    参考文献 206

    附录A  大数据和人工智能实验环境

    附录B  Hadoop环境要求

    附录C  名词解释

     
  • 内容简介:
    本书内容涵盖了目前使用*为广泛的大数据处理系统Hadoop生态圈中的几大核心软件系统:分布式大数据处理系统Hadoop、数据库HBase、数据仓库工具Hive、内存大数据计算框架Spark和Spark SQL,详细介绍了它们的架构、工作原理、部署方法、常用配置、常用操作命令、SQL引擎等内容。本书对上述几大系统的各种安装部署方式给出了详细步骤,常用命令也都有具体示例介绍,是一本实操性很强的工具书,能帮助初学者快速掌握这几款常用的大数据处理系统。
      
      
      本书以浅显易懂的语言风格和图文并茂的操作示例引领读者迈入大数据实践之门,可以作为培养应用型人才的课程教材,也可作为开发人员的自学教材和参考手册。
  • 作者简介:
    袁晓东-数据库和大数据专家,1998年毕业于南京大学计算机系,获软件博士学位。曾任职于Oracel公司纽约分部、趋势科技南京研发中心,现为南京市领军型科技创业人才,云白科技创始人,江苏省计算机学会软件专委会委员,东南大学研究生院校外导师。    
  • 目录:
    第1章  大数据概述

    1.1  从数据库到大数据库 1

    1.1.1 

    关系型数据库 1

    1.1.2 

    大数据库 2

    1.2  大数据库的类型 4

    1.3  大数据库的应用 5

    习题1 8

    参考文献 8

    第2章  Hadoop基础

    2.1 

    Hadoop简介 9

    2.2 

    Hadoop部署 14

    2.2.1 

    单节点部署 14

    2.2.2 

    伪分布式部署 18

    2.2.3 

    集群部署 25

    2.3  

    Hadoop常用命令 33

    2.3.1 

    用户命令 33

    2.3.2 

    管理命令 35

    2.3.3 

    启动/关闭命令 36

    2.4 

    HDFS常用命令 38

    2.4.1 

    用户命令 38

    2.4.2 

    管理命令 39

    实验1  Hadoop实验 41

    习题2 42

    参考文献 42

    第3章  Hadoop数据库HBase

    3.1 

    HBase简介 43

    3.1.1 

    体系架构 43

    3.1.2 

    数据模型 46

    3.1.3 

    主要特性 51

    3.2 

    HBase部署 51

    3.2.1 

    准备工作 51

    3.2.2 

    单节点部署 53

    3.2.3 

    伪分布式部署 55

    3.2.4 

    集群部署 57

    3.2.5 

    版本升级 61

    3.3 

    HBase配置 63

    3.3.1 

    配置文件 63

    3.3.2 

    主要配置项 65

    3.3.3 

    配置建议 69

    3.3.4 

    客户端配置 72

    3.4 

    HBase Shell 72

    3.4.1 

    交互模式 73

    3.4.2 

    非交互模式 82

    3.5 

    HBase模式设计 84

    3.5.1 

    设计准则 84

    3.5.2 

    列族属性

    88

    3.5.3 

    表属性 91

    3.5.4 

    设计实例 94

    3.6 

    HBase安全 97

    3.6.1 

    安全访问配置 97

    3.6.2 

    数据访问权限控制 99

    实验2  HBase集群搭建 100

    习题3 101

    参考文献 102

    第4章  数据仓库工具Hive

    4.1 

    Hive简介 103

    4.1.1 

    工作原理 104

    4.1.2 

    体系架构 104

    4.1.3 

    数据模型 106

    4.2 

    Hive部署 108

    4.2.1 

    Hive部署模式 109

    4.2.2 

    Hive内嵌模式部署 110

    4.2.3 

    Hive本地和远程模式部署 113

    4.3 

    Hive配置 115

    4.4 

    Hive接口 117

    4.4.1 

    Hive Shell接口 117

    4.4.2 

    Hive Web接口 119

    4.5 

    Hive SQL 122

    4.5.1 

    数据类型 122

    4.5.2 

    DDL语句 122

    4.5.3 

    DML语句 137

    4.6 

    Hive操作实例 146

    实验3  Hive实验 147

    习题4 150

    参考文献 150

    第5章  内存大数据计算框架Spark

    5.1 

    Spark简介 151

    5.1.1 

    Spark概览 151

    5.1.2 

    Spark生态系统BDAS 152

    5.1.3 

    Spark架构与原理 153

    5.2 

    Spark部署 155

    5.2.1 

    准备工作 155

    5.2.2 

    Spark单节点部署 156

    5.2.3 

    Spark集群部署 157

    5.3 

    Spark配置 169

    5.3.1 

    Spark属性 169

    5.3.2 

    环境变量配置 171

    5.3.3 

    日志配置 171

    5.3.4 

    查看配置 172

    5.4 

    Spark RDD 173

    5.4.1 

    RDD特征 174

    5.4.2 

    RDD转换操作 174

    5.4.3 

    RDD依赖 175

    5.4.4 

    RDD行动操作 177

    5.5 

    Spark Shell 177

    5.5.1 

    准备工作 177

    5.5.2 

    启动Spark Shell 178

    5.5.3 

    创建RDD 179

    5.5.4 

    转换RDD 180

    5.5.5 

    执行RDD作业 181

    实验4  Spark Standalone集群搭建 184

    习题5 185

    参考文献 185

    第6章  Spark SQL

    6.1  Spark

    SQL简介 186

    6.1.1 

    Spark SQL概览 186

    6.1.2 

    Spark SQL特性 188

    6.1.3 

    Spark SQL架构与原理 188

    6.1.4 

    和Hive的兼容性 190

    6.1.5 

    数据类型 191

    6.2  分布式SQL引擎 192

    6.2.1 

    Spark SQL配置 192

    6.2.2 

    Spark SQL CLI 195

    6.2.3 

    Thrift JDBC/ODBC Server的搭建与测试 198

    6.3  使用DataFrame

    API处理结构化数据 201

    实验5  Thrift JDBC/ODBC Server的搭建与测试 205

    习题6 206

    参考文献 206

    附录A  大数据和人工智能实验环境

    附录B  Hadoop环境要求

    附录C  名词解释

     
查看详情
相关图书 / 更多
大数据实践
大数据十讲 周烜 陈志广
周烜 陈志广
大数据实践
大数据财务分析
李峰
大数据实践
大数据时代的营销管理创新研究
高芳 著
大数据实践
大数据警务的崛起
(美)安德鲁.格思里.弗格森
大数据实践
大数据侦查法治化研究
彭俊磊
大数据实践
大数据时代思想政治教育创新发展研究
彭晓宽 著
大数据实践
大数据哲学——大数据技术革命的哲学问题研究
黄欣荣 著
大数据实践
大数据背景下公众参与环境治理的程度评估与作用机制研究
史亚东
大数据实践
大数据医疗:从即时检测设备进行解析
(英)波利亚·阿梅里安,(英)特鲁迪·朗,(英)弗朗索瓦·范·洛格伦伯格
大数据实践
大数据环境下移动社交网络个性化隐私保护技术研究
王平水 著
大数据实践
大数据财务与会计应用
周忠宝 著;樊斌、樊斌、周忠宝 编
大数据实践
大数据下税收风险业务场景应用
李崇西
您可能感兴趣 / 更多
大数据实践
思入风云
刘鹏;辛香英
大数据实践
Python语言(第2版)
刘鹏;李肖俊;钟涛
大数据实践
R语言(第2版)
刘鹏;程显毅;孙丽丽;林道荣
大数据实践
云计算导论
刘鹏;王成喜;王巍
大数据实践
云计算实战
刘鹏;苏翔宇;李腾
大数据实践
网空态势感知理论与模型
刘鹏;[美]苏西尔 贾约迪亚(Sushil Jajodia);克利夫·王(Cliff Wang)
大数据实践
R语言
刘鹏;张燕;程显毅;刘颖;朱倩
大数据实践
大数据导论
刘鹏;张燕;付雯;陈甫;李法平
大数据实践
数据挖掘基础
刘鹏;张燕;陶建辉;姜才康
大数据实践
大数据系统运维
刘鹏;张燕;姜才康;陶建辉
大数据实践
病原生物与免疫学实验与学习指导
刘鹏;王纯伦