Hive实战

Hive实战
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [美] (Scott Shaw) , [南非]
2018-11
版次: 1
ISBN: 9787115493910
定价: 69.00
装帧: 其他
开本: 16开
纸张: 胶版纸
页数: 238页
79人买过
  • Hive“出身名门”,是*初由Facebook公司开发的数据仓库工具。它简单且容易上手,是深入学习Hadoop技术的一个很好的切入点。本书由数据库专家和大数据专家共同撰写,具体内容包括:Hive的安装和配置,其核心组件和架构,Hive数据操作语言,如何加载、查询和分析数据,Hive的性能调优以及安全性,等等。本书旨在为读者打牢基础,从而踏上专业的大数据处理之旅。 斯科特·肖(Scott Shaw)

    Hortonworks公司解决方案工程师,曾为微软公司的商业智能项目担任顾问,拥有近20年的数据管理经验。作为演讲者和培训师,他致力于普及分布式计算、大数据概念、商业智能、Hive和Hadoop。

    安德烈亚斯·弗朗索瓦·弗穆尔恩(Andreas Fran?ois Vermeulen)

    集数据科学家、数据仓库架构师、博士研究员、企业顾问等角色于一身,曾获“英国数据科学技术先锋”称号,广泛涉足数据工程、商业智能、云架构、深度学习等多个领域。

    安库尔·古普塔(Ankur Gupta)

    Hortonworks公司解决方案工程师,曾在Oracle公司担任顾问,有多年从事数据架构师和Oracle数据库管理员的经验,著有Oracle GoldenGate 11g Complete Cookbook。

    戴维·杰鲁姆加德(David Kjerrumgaard)

    Streamlio公司解决方案架构主管,曾是Hortonworks公司的系统架构师和数据流实践主管,拥有Certified Developer for Apache Hadoop认证,精通Hive、Kafka、Spark、Storm等技术。 第 1章 为Hive打好基础:Hadoop  1

    1.1 一只小象出生了 2

    1.2 Hadoop的结构 3

    1.3 数据冗余 6

    1.3.1 传统的高可用性 6

    1.3.2 Hadoop的高可用性 9

    1.4 MapReduce处理 12

    1.4.1 超越MapReduce 16

    1.4.2 YARN和现代数据架构 17

    1.4.3 Hadoop 和开源社区 19

    1.4.4 我们身在何处 22

    第 2 章 Hive 简介 24

    2.1 Hadoop 发行版 25

    2.2 集群架构 27

    2.3 Hive 的安装 30

    2.4 探寻你的方式 32

    2.5 Hive CLI 35

    第3 章 Hive架构 37

    3.1 Hive组件 37

    3.2 HCatalog 38

    3.3 HiveServer2 40

    3.4 客户端工具 42

    3.5 执行引擎:Tez 46

    第4 章 Hive表DDL 48

    4.1 schema-on-read 48

    4.2 Hive数据模型 49

    4.2.1 模式/数据库 49

    4.2.2 为什么使用多个模式/数据库 49

    4.2.3 创建数据库 49

    4.2.4 更改数据库 50

    4.2.5 删除数据库 50

    4.2.6 列出数据库 51

    4.3 Hive中的数据类型 51

    4.3.1 基本数据类型 51

    4.3.2 选择数据类型 51

    4.3.3 复杂数据类型 52

    4.4 表 53

    4.4.1 创建表 53

    4.4.2 列出表 54

    4.4.3 内部表/外部表 54

    4.4.4 内部表/受控表 55

    4.4.5 内部表/外部表示例 55

    4.4.6 表的属性 59

    4.4.7 生成已有表的CREATE TABLE命令 60

    4.4.8 分区和分桶 61

    4.4.9 分区注意事项 63

    4.4.10 对日期列进行高效分区 63

    4.4.11 分桶的注意事项 65

    4.4.12 更改表 66

    4.4.13 ORC文件格式 67

    4.4.14 更改表分区 68

    4.4.15 修改列 72

    4.4.16 删除表/分区 72

    4.4.17 保护表/分区 73

    4.4.18 其他CREATE TABLE命令选项 73

    第5 章 数据操作语言 75

    5.1 将数据装载到表中 75

    5.1.1 使用存储在HDFS中的文件装载数据 75

    5.1.2 使用查询装载数据 77

    5.1.3 将查询到的数据写入文件系统 80

    5.1.4 直接向表插入值 81

    5.1.5 直接更新表中数据 83

    5.1.6 在表中直接删除数据 84

    5.1.7 创建结构相同的表 85

    5.2 连接 86

    5.2.1 使用等值连接来整合表 86

    5.2.2 使用外连接 87

    5.2.3 使用左半连接 89

    5.2.4 用单次MapReduce实现连接 90

    5.2.5 最后使用最大的表 91

    5.2.6 事务处理 92

    5.2.7 ACID是什么,以及为什么要用到它 92

    5.2.8 Hive配置 92

    第6章 将数据装载到Hive 94

    6.1 装载数据之前的设计注意事项 94

    6.2 将数据装载到HDFS 95

    6.2.1 Ambari 文件视图 95

    6.2.2 Hadoop命令行 97

    6.2.3 HDFS的NFS Gateway 97

    6.2.4 Sqoop 98

    6.2.5 Apache NiFi 101

    6.3 用Hive 访问数据 105

    6.3.1 外部表 105

    6.3.2 LOAD DATA语句 106

    6.4 在Hive中装载增量变更数据 107

    6.5 Hive流处理 107

    6.6 小结 108

    第7章 查询半结构化数据 109

    7.1 点击流数据 111

    7.1.1 摄取数据 113

    7.1.2 创建模式 116

    7.1.3 装载数据 116

    7.1.4 查询数据 116

    7.2 摄取JSON数据 119

    7.2.1 使用UDF查询JSON 121

    7.2.2 使用SerDe访问JSON 122

    第8章 Hive分析 125

    8.1 构建分析模型 125

    8.1.1 使用太阳模型获取需求 125

    8.1.2 将太阳模型转换为星型模式 129

    8.1.3 构建数据仓库 137

    8.2 评估分析模型 . 140

    8.2.1 评估太阳模型 140

    8.2.2 评估聚合结果 142

    8.2.3 评估数据集市 143

    8.3 掌握数据仓库管理 144

    8.3.1 必备条件 144

    8.3.2 检索数据库 144

    8.3.3 评估数据库 147

    8.3.4 过程数据库 160

    8.3.5 转换数据库 185

    8.3.6 你掌握了什么 192

    8.3.7 组织数据库 192

    8.3.8 报表数据库 196

    8.3.9 示例报表 197

    8.4 高级分析 199

    8.5 接下来学什么 199

    第9章 Hive性能调优 200

    9.1 Hive性能检查表 200

    9.2 执行引擎 201

    9.2.1 MapReduce 201

    9.2.2 Tez 201

    9.3 存储格式 203

    9.3.1 ORC格式 203

    9.3.2 Parquet格式 205

    9.4 矢量化查询执行 206

    9.5 查询执行计划 206

    9.5.1 基于代价的优化 208

    9.5.2 执行计划 210

    9.5.3 性能检查表小结 212

    第 10章 Hive的安全性 213

    10.1 数据安全性的几个方面 213

    10.1.1 身份认证 214

    10.1.2 授权 214

    10.1.3 管理 214

    10.1.4 审计 214

    10.1.5 数据保护 214

    10.2 Hadoop的安全性 215

    10.3 Hive的安全性 215

    10.3.1 默认授权模式 215

    10.3.2 基于存储的授权模式 216

    10.3.3 基于SQL标准的授权模式 217

    10.3.4 管理通过SQL进行的访问 218

    10.4 使用Ranger进行Hive授权 219

    10.4.1 访问Ranger用户界面 220

    10.4.2 创建Ranger策略 220

    10.4.3 使用Ranger审计 222

    第 11章 Hive的未来 224

    11.1 LLAP 224

    11.2 Hive-on-Spark 225

    11.3 Hive:ACID 和MERGE 225

    11.4 可调隔离等级 225

    11.5 ROLAP/基于立方体的分析 226

    11.6 HiveServer2的发展 226

    11.7 面向不同工作负载的多个HiveServer2实例 226

    附录A 建立大数据团队 227

    附录B Hive函数 231
  • 内容简介:
    Hive“出身名门”,是*初由Facebook公司开发的数据仓库工具。它简单且容易上手,是深入学习Hadoop技术的一个很好的切入点。本书由数据库专家和大数据专家共同撰写,具体内容包括:Hive的安装和配置,其核心组件和架构,Hive数据操作语言,如何加载、查询和分析数据,Hive的性能调优以及安全性,等等。本书旨在为读者打牢基础,从而踏上专业的大数据处理之旅。
  • 作者简介:
    斯科特·肖(Scott Shaw)

    Hortonworks公司解决方案工程师,曾为微软公司的商业智能项目担任顾问,拥有近20年的数据管理经验。作为演讲者和培训师,他致力于普及分布式计算、大数据概念、商业智能、Hive和Hadoop。

    安德烈亚斯·弗朗索瓦·弗穆尔恩(Andreas Fran?ois Vermeulen)

    集数据科学家、数据仓库架构师、博士研究员、企业顾问等角色于一身,曾获“英国数据科学技术先锋”称号,广泛涉足数据工程、商业智能、云架构、深度学习等多个领域。

    安库尔·古普塔(Ankur Gupta)

    Hortonworks公司解决方案工程师,曾在Oracle公司担任顾问,有多年从事数据架构师和Oracle数据库管理员的经验,著有Oracle GoldenGate 11g Complete Cookbook。

    戴维·杰鲁姆加德(David Kjerrumgaard)

    Streamlio公司解决方案架构主管,曾是Hortonworks公司的系统架构师和数据流实践主管,拥有Certified Developer for Apache Hadoop认证,精通Hive、Kafka、Spark、Storm等技术。
  • 目录:
    第 1章 为Hive打好基础:Hadoop  1

    1.1 一只小象出生了 2

    1.2 Hadoop的结构 3

    1.3 数据冗余 6

    1.3.1 传统的高可用性 6

    1.3.2 Hadoop的高可用性 9

    1.4 MapReduce处理 12

    1.4.1 超越MapReduce 16

    1.4.2 YARN和现代数据架构 17

    1.4.3 Hadoop 和开源社区 19

    1.4.4 我们身在何处 22

    第 2 章 Hive 简介 24

    2.1 Hadoop 发行版 25

    2.2 集群架构 27

    2.3 Hive 的安装 30

    2.4 探寻你的方式 32

    2.5 Hive CLI 35

    第3 章 Hive架构 37

    3.1 Hive组件 37

    3.2 HCatalog 38

    3.3 HiveServer2 40

    3.4 客户端工具 42

    3.5 执行引擎:Tez 46

    第4 章 Hive表DDL 48

    4.1 schema-on-read 48

    4.2 Hive数据模型 49

    4.2.1 模式/数据库 49

    4.2.2 为什么使用多个模式/数据库 49

    4.2.3 创建数据库 49

    4.2.4 更改数据库 50

    4.2.5 删除数据库 50

    4.2.6 列出数据库 51

    4.3 Hive中的数据类型 51

    4.3.1 基本数据类型 51

    4.3.2 选择数据类型 51

    4.3.3 复杂数据类型 52

    4.4 表 53

    4.4.1 创建表 53

    4.4.2 列出表 54

    4.4.3 内部表/外部表 54

    4.4.4 内部表/受控表 55

    4.4.5 内部表/外部表示例 55

    4.4.6 表的属性 59

    4.4.7 生成已有表的CREATE TABLE命令 60

    4.4.8 分区和分桶 61

    4.4.9 分区注意事项 63

    4.4.10 对日期列进行高效分区 63

    4.4.11 分桶的注意事项 65

    4.4.12 更改表 66

    4.4.13 ORC文件格式 67

    4.4.14 更改表分区 68

    4.4.15 修改列 72

    4.4.16 删除表/分区 72

    4.4.17 保护表/分区 73

    4.4.18 其他CREATE TABLE命令选项 73

    第5 章 数据操作语言 75

    5.1 将数据装载到表中 75

    5.1.1 使用存储在HDFS中的文件装载数据 75

    5.1.2 使用查询装载数据 77

    5.1.3 将查询到的数据写入文件系统 80

    5.1.4 直接向表插入值 81

    5.1.5 直接更新表中数据 83

    5.1.6 在表中直接删除数据 84

    5.1.7 创建结构相同的表 85

    5.2 连接 86

    5.2.1 使用等值连接来整合表 86

    5.2.2 使用外连接 87

    5.2.3 使用左半连接 89

    5.2.4 用单次MapReduce实现连接 90

    5.2.5 最后使用最大的表 91

    5.2.6 事务处理 92

    5.2.7 ACID是什么,以及为什么要用到它 92

    5.2.8 Hive配置 92

    第6章 将数据装载到Hive 94

    6.1 装载数据之前的设计注意事项 94

    6.2 将数据装载到HDFS 95

    6.2.1 Ambari 文件视图 95

    6.2.2 Hadoop命令行 97

    6.2.3 HDFS的NFS Gateway 97

    6.2.4 Sqoop 98

    6.2.5 Apache NiFi 101

    6.3 用Hive 访问数据 105

    6.3.1 外部表 105

    6.3.2 LOAD DATA语句 106

    6.4 在Hive中装载增量变更数据 107

    6.5 Hive流处理 107

    6.6 小结 108

    第7章 查询半结构化数据 109

    7.1 点击流数据 111

    7.1.1 摄取数据 113

    7.1.2 创建模式 116

    7.1.3 装载数据 116

    7.1.4 查询数据 116

    7.2 摄取JSON数据 119

    7.2.1 使用UDF查询JSON 121

    7.2.2 使用SerDe访问JSON 122

    第8章 Hive分析 125

    8.1 构建分析模型 125

    8.1.1 使用太阳模型获取需求 125

    8.1.2 将太阳模型转换为星型模式 129

    8.1.3 构建数据仓库 137

    8.2 评估分析模型 . 140

    8.2.1 评估太阳模型 140

    8.2.2 评估聚合结果 142

    8.2.3 评估数据集市 143

    8.3 掌握数据仓库管理 144

    8.3.1 必备条件 144

    8.3.2 检索数据库 144

    8.3.3 评估数据库 147

    8.3.4 过程数据库 160

    8.3.5 转换数据库 185

    8.3.6 你掌握了什么 192

    8.3.7 组织数据库 192

    8.3.8 报表数据库 196

    8.3.9 示例报表 197

    8.4 高级分析 199

    8.5 接下来学什么 199

    第9章 Hive性能调优 200

    9.1 Hive性能检查表 200

    9.2 执行引擎 201

    9.2.1 MapReduce 201

    9.2.2 Tez 201

    9.3 存储格式 203

    9.3.1 ORC格式 203

    9.3.2 Parquet格式 205

    9.4 矢量化查询执行 206

    9.5 查询执行计划 206

    9.5.1 基于代价的优化 208

    9.5.2 执行计划 210

    9.5.3 性能检查表小结 212

    第 10章 Hive的安全性 213

    10.1 数据安全性的几个方面 213

    10.1.1 身份认证 214

    10.1.2 授权 214

    10.1.3 管理 214

    10.1.4 审计 214

    10.1.5 数据保护 214

    10.2 Hadoop的安全性 215

    10.3 Hive的安全性 215

    10.3.1 默认授权模式 215

    10.3.2 基于存储的授权模式 216

    10.3.3 基于SQL标准的授权模式 217

    10.3.4 管理通过SQL进行的访问 218

    10.4 使用Ranger进行Hive授权 219

    10.4.1 访问Ranger用户界面 220

    10.4.2 创建Ranger策略 220

    10.4.3 使用Ranger审计 222

    第 11章 Hive的未来 224

    11.1 LLAP 224

    11.2 Hive-on-Spark 225

    11.3 Hive:ACID 和MERGE 225

    11.4 可调隔离等级 225

    11.5 ROLAP/基于立方体的分析 226

    11.6 HiveServer2的发展 226

    11.7 面向不同工作负载的多个HiveServer2实例 226

    附录A 建立大数据团队 227

    附录B Hive函数 231
查看详情
您可能感兴趣 / 更多
Hive实战
无辜者的谎言(相信我!看到结局你一定会头皮发麻;全美读者推荐的悬疑神作,GOODREADS高分作品)
[美]A.R.托雷 著;梁颂宇 译;星文文化 出品
Hive实战
孩子,把你的手给我1:怎么说孩子才爱听,怎么教孩子才肯学?帮助每一位3-12岁孩子的父母结束与孩子的所有冲突!
[美]海姆·G.吉诺特
Hive实战
哲学、历史与僭政——重审施特劳斯与科耶夫之争
[美]弗罗斯特(Bryan-Paul Frost) 编;[美]伯恩斯(Timothy W. Burns)
Hive实战
怎样做成大事
[美]丹·加德纳(Dan Gardner) 著;贾拥民 译;湛庐文化 出品;[丹麦]傅以斌(Bent Flyvbjerg)
Hive实战
1200年希腊罗马神话
[美]伊迪丝·汉密尔顿
Hive实战
爱情心理学(新编本)
[美]罗伯特·J. 斯腾伯格 (美)凯琳·斯腾伯格 倪爱萍 译
Hive实战
黄金圈法则
[美]西蒙·斯涅克 著;磨铁文化 出品
Hive实战
最后一章
[美]厄尼·派尔
Hive实战
汤姆·索亚历险记 彩图注音版 一二三四年级5-6-7-8-9岁小学生课外阅读经典 儿童文学无障碍有声伴读世界名著童话故事
[美]马克 吐温
Hive实战
富兰克林自传 名家全译本 改变无数人命运的励志传奇 埃隆马斯克反复推荐 赠富兰克林签名照及精美插图
[美]本杰明·富兰克林 著;李自修 译
Hive实战
汤姆素亚历险记:中小学生课外阅读快乐读书吧 儿童文学无障碍有声伴读世界名著童话故事
[美]马克·吐温
Hive实战
国际大奖图画书系列 共11册(小老鼠的恐惧的大书,大灰狼,红豆与菲比,别烦我,下雪了 ,穿靴子的猫 ,先有蛋,绿 ,特别快递,如果你想看鲸鱼 ,一个部落的孩子 ) 麦克米伦世纪
[美]莱恩·史密斯 (英)埃米莉·格雷维特 (美)劳拉·瓦卡罗·等/文 (英)埃米莉·格雷维特 等/图 彭懿 杨玲玲 阿甲 孙慧阳 白薇 译