Spark SQL大数据实例开发教程

Spark SQL大数据实例开发教程
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2018-04
版次: 1
ISBN: 9787111591979
定价: 59.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 254页
  • Spark SQL是Spark生态环境中核心和基础的组件,是掌握Spark的关键所在。本书完全从企业级开发的角度出发,结合多个企业级应用案例,深入剖析Spark SQL。全书共分为8章,包括:认识Spark SQL、DataFrame原理与常用操作、Spark SQL操作多种数据源、Parquet列式存储、Spark SQL内置函数与窗口函数、Spark SQL UDF与UDAF、Thrift Server、Spark SQL综合应用案例。 

    本书可以使读者对Spark SQL有深入彻底的理解,本书适合于Spark学习爱好者,是学习Spark SQL的入门和提高教材,也是Spark开发工程师开发过程中查阅Spark SQL的案头手册。 录 

    前言 

    第1章认识Spark SQL 

    1.1Spark SQL概述 

    1.1.1Spark SQL与DataFrame 

    1.1.2DataFrame与RDD的差异 

    1.1.3Spark SQL的发展历程 

    1.2从零起步掌握Hive 

    1.2.1Hive的本质是什么 

    1.2.2Hive安装和配置 

    1.2.3使用Hive分析搜索数据 

    1.3Spark SQL on Hive安装与配置 

    1.3.1安装Spark SQL 

    1.3.2安装MySQL 

    1.3.3启动Hive Metastore 

    1.4Spark SQL初试 

    1.4.1通过spark-shell来使用Spark SQL 

    1.4.2Spark SQL的命令终端 

    1.4.3Spark的Web UI 

    1.5本章小结 

    第2章DataFrame原理与常用操作 

    2.1DataFrame编程模型 

    2.2DataFrame基本操作实战 

    2.2.1数据准备 

    2.2.2启动交互式界面 

    2.2.3数据处理与分析 

    2.3通过RDD来构建DataFrame 

    2.4缓存表(列式存储) 

    2.5DataFrame API应用示例 

    2.6本章小结 

    第3章Spark SQL 操作多种数据源 

    3.1通用的加载/保存功能 

    3.1.1Spark SQL加载数据 

    3.1.2Spark SQL保存数据 

    3.1.3综合案例——电商热销商品排名 

    3.2Spark SQL操作Hive示例 

    3.3Spark SQL操作JSON数据集示例 

    3.4Spark SQL操作HBase示例 

    3.5Spark SQL操作MySQL示例 

    3.5.1安装并启动MySQL 

    3.5.2准备数据表 

    3.5.3操作MySQL表 

    3.6Spark SQL操作MongoDB示例 

    3.6.1安装配置MongoDB 

    3.6.2启动MongoDB 

    3.6.3准备数据 

    3.6.4Spark SQL操作MongoDB 

    3.7本章小结 

    第4章Parquet列式存储 

    4.1Parquet概述 

    4.1.1Parquet的基本概念 

    4.1.2Parquet数据列式存储格式应用举例 

    4.2Parquet的Block配置及数据分片 

    4.2.1Parquet的Block的配置 

    4.2.2Parquet 内部的数据分片 

    4.3Parquet序列化 

    4.3.1Spark实施序列化的目的 

    4.3.2Parquet两种序列化方式 

    4.4本章小结 

    第5章Spark SQL内置函数与窗口函数 

    5.1Spark SQL内置函数 

    5.1.1Spark SQL内置函数概述 

    5.1.2Spark SQL内置函数应用实例 

    5.2Spark SQL窗口函数 

    5.2.1Spark SQL窗口函数概述 

    5.2.2Spark SQL窗口函数分数查询统计案例 

    5.2.3Spark SQL窗口函数NBA常规赛数据统计案例 

    5.3本章小结 

    第6章Spark SQL UDF与UDAF 

    6.1UDF概述 

    6.2UDF示例 

    6.2.1Hobby_count函数 

    6.2.2Combine函数 

    6.2.3Str2Int函数 

    6.2.4Wsternstate函数 

    6.2.5ManyCustomers函数 

    6.2.6StateRegion函数 

    6.2.7DiscountRatio函数 

    6.2.8MakeStruct函数 

    6.2.9MyDateFilter函数 

    6.2.10MakeDT函数 

    6.3UDAF概述 

    6.4UDAF示例 

    6.4.1ScalaAggregateFunction函数 

    6.4.2GeometricMean函数 

    6.4.3CustomMean函数 

    6.4.4BelowThreshold函数 

    6.4.5YearCompare函数 

    6.4.6WordCount函数 

    6.5本章小结 

    第7章Thrift Server 

    7.1Thrift概述 

    7.1.1Thrift的基本概念 

    7.1.2Thrift的工作机制 

    7.1.3Thrift的运行机制 

    7.1.4一个简单的Thrift 实例 

    7.2Thrift Server的启动过程 

    7.2.1Thrift Sever启动详解 

    7.2.2HiveThriftServer2类的解析 

    7.3Beeline操作 

    7.3.1Beeline连接方式 

    7.3.2在Beeline中进行SQL查询操作 

    7.3.3通过Web控制台查看用户进行的操作 

    7.4Thrift Server应用示例 

    7.4.1示例源代码 

    7.4.2关键代码行解析 

    7.4.3测试运行 

    7.4.4运行结果解析 

    7.4.5Spark Web控制台查看运行日志 

    7.5本章小结 

    第8章Spark SQL综合应用案例 

    8.1综合案例实战——电商网站日志多维度数据分析 

    8.1.1数据准备 

    8.1.2数据说明 

    8.1.3数据创建 

    8.1.4数据导入 

    8.1.5数据测试和处理 

    8.2综合案例实战——电商网站搜索排名统计 

    8.2.1案例概述 

    8.2.2数据准备 

    8.2.3实现用户每天搜索前3名的商品排名统计 

    8.3本章小结
  • 内容简介:
    Spark SQL是Spark生态环境中核心和基础的组件,是掌握Spark的关键所在。本书完全从企业级开发的角度出发,结合多个企业级应用案例,深入剖析Spark SQL。全书共分为8章,包括:认识Spark SQL、DataFrame原理与常用操作、Spark SQL操作多种数据源、Parquet列式存储、Spark SQL内置函数与窗口函数、Spark SQL UDF与UDAF、Thrift Server、Spark SQL综合应用案例。 

    本书可以使读者对Spark SQL有深入彻底的理解,本书适合于Spark学习爱好者,是学习Spark SQL的入门和提高教材,也是Spark开发工程师开发过程中查阅Spark SQL的案头手册。
  • 目录:
    录 

    前言 

    第1章认识Spark SQL 

    1.1Spark SQL概述 

    1.1.1Spark SQL与DataFrame 

    1.1.2DataFrame与RDD的差异 

    1.1.3Spark SQL的发展历程 

    1.2从零起步掌握Hive 

    1.2.1Hive的本质是什么 

    1.2.2Hive安装和配置 

    1.2.3使用Hive分析搜索数据 

    1.3Spark SQL on Hive安装与配置 

    1.3.1安装Spark SQL 

    1.3.2安装MySQL 

    1.3.3启动Hive Metastore 

    1.4Spark SQL初试 

    1.4.1通过spark-shell来使用Spark SQL 

    1.4.2Spark SQL的命令终端 

    1.4.3Spark的Web UI 

    1.5本章小结 

    第2章DataFrame原理与常用操作 

    2.1DataFrame编程模型 

    2.2DataFrame基本操作实战 

    2.2.1数据准备 

    2.2.2启动交互式界面 

    2.2.3数据处理与分析 

    2.3通过RDD来构建DataFrame 

    2.4缓存表(列式存储) 

    2.5DataFrame API应用示例 

    2.6本章小结 

    第3章Spark SQL 操作多种数据源 

    3.1通用的加载/保存功能 

    3.1.1Spark SQL加载数据 

    3.1.2Spark SQL保存数据 

    3.1.3综合案例——电商热销商品排名 

    3.2Spark SQL操作Hive示例 

    3.3Spark SQL操作JSON数据集示例 

    3.4Spark SQL操作HBase示例 

    3.5Spark SQL操作MySQL示例 

    3.5.1安装并启动MySQL 

    3.5.2准备数据表 

    3.5.3操作MySQL表 

    3.6Spark SQL操作MongoDB示例 

    3.6.1安装配置MongoDB 

    3.6.2启动MongoDB 

    3.6.3准备数据 

    3.6.4Spark SQL操作MongoDB 

    3.7本章小结 

    第4章Parquet列式存储 

    4.1Parquet概述 

    4.1.1Parquet的基本概念 

    4.1.2Parquet数据列式存储格式应用举例 

    4.2Parquet的Block配置及数据分片 

    4.2.1Parquet的Block的配置 

    4.2.2Parquet 内部的数据分片 

    4.3Parquet序列化 

    4.3.1Spark实施序列化的目的 

    4.3.2Parquet两种序列化方式 

    4.4本章小结 

    第5章Spark SQL内置函数与窗口函数 

    5.1Spark SQL内置函数 

    5.1.1Spark SQL内置函数概述 

    5.1.2Spark SQL内置函数应用实例 

    5.2Spark SQL窗口函数 

    5.2.1Spark SQL窗口函数概述 

    5.2.2Spark SQL窗口函数分数查询统计案例 

    5.2.3Spark SQL窗口函数NBA常规赛数据统计案例 

    5.3本章小结 

    第6章Spark SQL UDF与UDAF 

    6.1UDF概述 

    6.2UDF示例 

    6.2.1Hobby_count函数 

    6.2.2Combine函数 

    6.2.3Str2Int函数 

    6.2.4Wsternstate函数 

    6.2.5ManyCustomers函数 

    6.2.6StateRegion函数 

    6.2.7DiscountRatio函数 

    6.2.8MakeStruct函数 

    6.2.9MyDateFilter函数 

    6.2.10MakeDT函数 

    6.3UDAF概述 

    6.4UDAF示例 

    6.4.1ScalaAggregateFunction函数 

    6.4.2GeometricMean函数 

    6.4.3CustomMean函数 

    6.4.4BelowThreshold函数 

    6.4.5YearCompare函数 

    6.4.6WordCount函数 

    6.5本章小结 

    第7章Thrift Server 

    7.1Thrift概述 

    7.1.1Thrift的基本概念 

    7.1.2Thrift的工作机制 

    7.1.3Thrift的运行机制 

    7.1.4一个简单的Thrift 实例 

    7.2Thrift Server的启动过程 

    7.2.1Thrift Sever启动详解 

    7.2.2HiveThriftServer2类的解析 

    7.3Beeline操作 

    7.3.1Beeline连接方式 

    7.3.2在Beeline中进行SQL查询操作 

    7.3.3通过Web控制台查看用户进行的操作 

    7.4Thrift Server应用示例 

    7.4.1示例源代码 

    7.4.2关键代码行解析 

    7.4.3测试运行 

    7.4.4运行结果解析 

    7.4.5Spark Web控制台查看运行日志 

    7.5本章小结 

    第8章Spark SQL综合应用案例 

    8.1综合案例实战——电商网站日志多维度数据分析 

    8.1.1数据准备 

    8.1.2数据说明 

    8.1.3数据创建 

    8.1.4数据导入 

    8.1.5数据测试和处理 

    8.2综合案例实战——电商网站搜索排名统计 

    8.2.1案例概述 

    8.2.2数据准备 

    8.2.3实现用户每天搜索前3名的商品排名统计 

    8.3本章小结
查看详情
您可能感兴趣 / 更多
Spark SQL大数据实例开发教程
Spring Framework6开发实战 Spring+Spring Web MVC+MyBatis
肖海鹏、耿卫江、王荣芝、张天怡、张志慧
Spark SQL大数据实例开发教程
Spark大数据分析
作者
Spark SQL大数据实例开发教程
Spark大数据开发(职业教育计算机系列教材)
唐春玲;周桥;陈小龙
Spark SQL大数据实例开发教程
Spring Boot+Vue前后端分离项目全栈开发实战
唐文
Spark SQL大数据实例开发教程
Spectrum Reading Workbook, Grade K
Spectrum
Spark SQL大数据实例开发教程
Spring快速入门到精通
明日科技 编著
Spark SQL大数据实例开发教程
Spring Boot 3.0开发实战
李西明;陈立为
Spark SQL大数据实例开发教程
Spark分布式处理实战
刘均 王璐烽
Spark SQL大数据实例开发教程
Spring Security原理与实战:构建安全可靠的微服务
邹炎
Spark SQL大数据实例开发教程
Spark原理深入与编程实战(微课视频版)
辛立伟;张帆;张会娟
Spark SQL大数据实例开发教程
Spring Cloud Alibaba大型微服务架构项目实战(上册)
十三 著
Spark SQL大数据实例开发教程
Spring Boot 3 +Vue 3开发实战
朱建昕
系列丛书 / 更多
Spark SQL大数据实例开发教程
Spring Framework6开发实战 Spring+Spring Web MVC+MyBatis
肖海鹏、耿卫江、王荣芝、张天怡、张志慧
Spark SQL大数据实例开发教程
Spark大数据分析
作者
Spark SQL大数据实例开发教程
Spark大数据开发(职业教育计算机系列教材)
唐春玲;周桥;陈小龙
Spark SQL大数据实例开发教程
Spring Boot+Vue前后端分离项目全栈开发实战
唐文
Spark SQL大数据实例开发教程
Spectrum Reading Workbook, Grade K
Spectrum
Spark SQL大数据实例开发教程
Spring快速入门到精通
明日科技 编著
Spark SQL大数据实例开发教程
Spring Boot 3.0开发实战
李西明;陈立为
Spark SQL大数据实例开发教程
Spark分布式处理实战
刘均 王璐烽
Spark SQL大数据实例开发教程
Spring Security原理与实战:构建安全可靠的微服务
邹炎
Spark SQL大数据实例开发教程
Spark原理深入与编程实战(微课视频版)
辛立伟;张帆;张会娟
Spark SQL大数据实例开发教程
Spring Cloud Alibaba大型微服务架构项目实战(上册)
十三 著
Spark SQL大数据实例开发教程
Spring Boot 3 +Vue 3开发实战
朱建昕
相关图书 / 更多
Spark SQL大数据实例开发教程
Spring Framework6开发实战 Spring+Spring Web MVC+MyBatis
肖海鹏、耿卫江、王荣芝、张天怡、张志慧
Spark SQL大数据实例开发教程
Spark大数据分析
作者
Spark SQL大数据实例开发教程
Spark大数据开发(职业教育计算机系列教材)
唐春玲;周桥;陈小龙
Spark SQL大数据实例开发教程
Spring Boot+Vue前后端分离项目全栈开发实战
唐文
Spark SQL大数据实例开发教程
Spectrum Reading Workbook, Grade K
Spectrum
Spark SQL大数据实例开发教程
Spring快速入门到精通
明日科技 编著
Spark SQL大数据实例开发教程
Spring Boot 3.0开发实战
李西明;陈立为
Spark SQL大数据实例开发教程
Spark分布式处理实战
刘均 王璐烽
Spark SQL大数据实例开发教程
Spring Security原理与实战:构建安全可靠的微服务
邹炎
Spark SQL大数据实例开发教程
Spark原理深入与编程实战(微课视频版)
辛立伟;张帆;张会娟
Spark SQL大数据实例开发教程
Spring Cloud Alibaba大型微服务架构项目实战(上册)
十三 著
Spark SQL大数据实例开发教程
Spring Boot 3 +Vue 3开发实战
朱建昕