Spark大数据编程实用教程

Spark大数据编程实用教程
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2020-05
ISBN: 9787111651000
定价: 109.00
装帧: 其他
  • 本书是一本讲解Spark基础应用及编程的实用教程,基于 Spark 2.3 版本,内容包括 Spark 与大数据、构建 Spark 运行环境、开发一个Spark 程序、深入理解 Spark 程序代码、RDD 编程、Spark SQL 结构化数据处理、Spark Streaming、Structured Streaming、SparkR和GraphX。本书总结了Spark 学习的关键点;提出了 Spark 快速学习路线图;提供配套的 Spark前置课程学习资源链接,包括虚拟机、Linux 和 Shell 免费高清视频、《零基础快速入门Scala》免费电子书等,帮助零基础读者迅速夯实Spark基础。 
    本书配以大量的示例、源代码和注释,可以帮助读者快速、全面而又深入地掌握Spark编程技能。 
    本书既可作为高等院校大数据、云计算和人工智能相关专业的教材,也可以作为Spark学习者和大数据研发人员的技术参考书。 文艾(艾叔):系统分析师,原解放军理工大学-奇虎360联合实验室技术负责人;具有多年大数据开发和运维经验,带领团队完成了与华为、中兴通讯和奇虎360等公司的多个大数据类项目;曾受邀为中兴通讯和奇虎360等公司做技术培训,其主讲的Spark课程长期排名51CTO学院大数据类(Spark分类)年销量前列;擅长帮助初学者快速掌握Spark大数据编程技能,近年来指导零基础本科生参加Spark类全国编程竞赛,战胜了多支985高校的研究生队,获得全国总决赛二等奖两次和三等奖一次;指导本科生完成的云计算和大数据类作品,参加科技创新竞赛,共获得全国特等奖一次,一等奖两次;通过“艾叔编程”公众号,以及在网易云课堂上开设的一系列免费视频课程,至今已帮助8万多名学习者入门编程,并获得好评。 目    录 
    前言 
      
    第1章  Spark与大数据 1 
    1.1  大数据开发基础 1 
    1.1.1  什么是大数据 1 
    1.1.2  大数据开发的通用步骤 2 
    1.1.3  大数据开发技术 4 
    1.2  初识Spark 10 
    1.2.1  Spark是什么 10 
    1.2.2  Spark的技术特点 11 
    1.3  Spark技术栈 12 
    1.4  Spark重要组件 13 
    1.4.1  Spark Core 13 
    1.4.2  Spark SQL 14 
    1.4.3  GraphX 15 
    1.4.4  流数据处理 16 
    1.4.5  SparkR 17 
    1.4.6  MLlib/ML 18 
    1.4.7  Spark交互工具 18 
    1.5  Spark和Scala 19 
    1.5.1  Scala语言简介 19 
    1.5.2  为什么用Scala开发Spark框架 20 
    1.5.3  为什么用Scala开发Spark程序 20 
    1.5.4  Scala开发Spark程序所涉及的技术 20 
    1.5.5  Scala语言基础 21 
    1.6  如何快速掌握Spark 21 
    1.6.1  Spark学习的痛点 21 
    1.6.2  Spark快速学习路线图 22 
    1.6.3  Spark学习中的关键点 23 
    1.6.4  利用本书相关资源高效学习Spark 23 
    1.6.5  本书所使用的软件和版本 25 
    1.7  练习 25 
    第2章  构建Spark运行环境 26 
    2.1  Spark程序运行时架构 26 
    2.2  构建Spark大数据运行环境 28 
    2.2.1  构建HDFS 28 
    2.2.2  构建Yarn 30 
    2.2.3  构建Spark集群 31 
    2.3  运行Spark程序(Local方式) 31 
    2.4  运行Spark程序(分布式方式) 32 
    2.4.1  Spark on Yarn 32 
    2.4.2  Spark on Standalone 36 
    2.5  Spark程序在spark-shell上运行 41 
    2.6  使用Web UI监控Spark程序运行 43 
    2.7  扩展集群节点 48 
    2.8  练习 49 
    第3章  开发第一个Spark程序 51 
    3.1  在命令行模式下开发Spark程序 51 
    3.1.1  构建Scala程序编译环境 51 
    3.1.2  使用Vim编写Spark程序 53 
    3.1.3  使用命令编译、打包Spark程序 54 
    3.1.4  运行Spark程序 56 
    3.1.5  使用java命令运行Spark程序 57 
    3.1.6  Spark程序编译、运行、部署的关键点 58 
    3.2  使用IDEA开发Spark程序 58 
    3.2.1  IDEA安装和基本使用 59 
    3.2.2  使用IDEA编辑Spark代码 60 
    3.2.3  IDEA编译、打包 62 
    3.2.4  IDEA远程提交Spark程序 63 
    3.3  练习 64 
    第4章  深入理解Spark程序代码 66 
    4.1  Spark程序代码结构 66 
    4.2  Spark程序代码的核心概念 68 
    4.2.1  RDD 68 
    4.2.2  Application 68 
    4.2.3  Job 69 
    4.2.4  DAG 70 
    4.2.5  Stage 72 
    4.2.6  Task 76 
    4.2.7  Application、Job、Stage和Task的并行粒度和并行条件 77 
    4.3  Spark程序代码执行过程 77 
    4.4  练习 85 
    第5章  RDD编程 86 
    5.1  RDD核心概念 86 
    5.1.1  Transformation的基本概念 87 
    5.1.2  Action的基本概念 88 
    5.1.3  Partition的基本概念 88 
    5.2  创建RDD 89 
    5.3  RDD Partition 93 
    5.4  Transformation操作 107 
    5.5  Action操作 130 
    5.6  RDD的cache/persist和checkpoint操作 136 
    5.7  练习 140 
    第6章  Spark SQL结构化数据处理 142 
    6.1  Spark SQL的核心概念 142 
    6.2  Spark SQL数据处理概述 147 
    6.3  构建Spark SQL运行环境 150 
    6.4  DataFrame/Dataset快速上手 157 
    6.5  DataFrame/Dataset与数据源的转换 165 
    6.6  DataFrame/Dataset常用API 198 
    6.7  SQL操作 223 
    6.8  练习 234 
    第7章  Spark Streaming 236 
    7.1  Spark Streaming基础 236 
    7.2  编写一个Spark Streaming程序 241 
    7.3  Spark Streaming Web UI的使用 244 
    7.4  多路流数据合并处理示例 250 
    7.5  DStream Transformation操作 255 
    7.6  DStream Output 操作 262 
    7.7  练习 264 
    第8章  Structured Streaming 265 
    8.1  Structured Streaming基础 265 
    8.2  Structured Streaming接入Text File数据源 268 
    8.3  Structured Streaming接入Rate数据源 273 
    8.4  使用Schema解析JSON格式数据源 274 
    8.5  使用DataFrame/Dataset处理流数据 277 
    8.6  Structured Streaming Window操作 282 
    8.7  Structured Streaming Watermarking操作 288 
    8.8  Structured Streaming JOIN操作 290 
    8.9  练习 304 
    第9章  SparkR 305 
    9.1  SparkR基础 305 
    9.2  构建SparkR程序开发和运行环境 307 
    9.3  SparkR代码的执行方式 308 
    9.4  SparkR的基本使用 314 
    9.5  SparkR机器学习算子 323 
    9.6  利用SparkR实现单词统计和图形输出 326 
    9.7  练习 329 
    第10章  GraphX 330 
    10.1  GraphX基础 330 
    10.2  GraphX的基本数据结构 335 
    10.3  GraphX实现最短路径算法――SGDSP 354 
    10.4  GraphX Pregel的原理及使用 361 
    10.5  GraphX Pregel实现最短路径算法――SGPSP 366 
    10.6  练习 370 
    参考文献 372 

  • 内容简介:
    本书是一本讲解Spark基础应用及编程的实用教程,基于 Spark 2.3 版本,内容包括 Spark 与大数据、构建 Spark 运行环境、开发一个Spark 程序、深入理解 Spark 程序代码、RDD 编程、Spark SQL 结构化数据处理、Spark Streaming、Structured Streaming、SparkR和GraphX。本书总结了Spark 学习的关键点;提出了 Spark 快速学习路线图;提供配套的 Spark前置课程学习资源链接,包括虚拟机、Linux 和 Shell 免费高清视频、《零基础快速入门Scala》免费电子书等,帮助零基础读者迅速夯实Spark基础。 
    本书配以大量的示例、源代码和注释,可以帮助读者快速、全面而又深入地掌握Spark编程技能。 
    本书既可作为高等院校大数据、云计算和人工智能相关专业的教材,也可以作为Spark学习者和大数据研发人员的技术参考书。
  • 作者简介:
    文艾(艾叔):系统分析师,原解放军理工大学-奇虎360联合实验室技术负责人;具有多年大数据开发和运维经验,带领团队完成了与华为、中兴通讯和奇虎360等公司的多个大数据类项目;曾受邀为中兴通讯和奇虎360等公司做技术培训,其主讲的Spark课程长期排名51CTO学院大数据类(Spark分类)年销量前列;擅长帮助初学者快速掌握Spark大数据编程技能,近年来指导零基础本科生参加Spark类全国编程竞赛,战胜了多支985高校的研究生队,获得全国总决赛二等奖两次和三等奖一次;指导本科生完成的云计算和大数据类作品,参加科技创新竞赛,共获得全国特等奖一次,一等奖两次;通过“艾叔编程”公众号,以及在网易云课堂上开设的一系列免费视频课程,至今已帮助8万多名学习者入门编程,并获得好评。
  • 目录:
    目    录 
    前言 
      
    第1章  Spark与大数据 1 
    1.1  大数据开发基础 1 
    1.1.1  什么是大数据 1 
    1.1.2  大数据开发的通用步骤 2 
    1.1.3  大数据开发技术 4 
    1.2  初识Spark 10 
    1.2.1  Spark是什么 10 
    1.2.2  Spark的技术特点 11 
    1.3  Spark技术栈 12 
    1.4  Spark重要组件 13 
    1.4.1  Spark Core 13 
    1.4.2  Spark SQL 14 
    1.4.3  GraphX 15 
    1.4.4  流数据处理 16 
    1.4.5  SparkR 17 
    1.4.6  MLlib/ML 18 
    1.4.7  Spark交互工具 18 
    1.5  Spark和Scala 19 
    1.5.1  Scala语言简介 19 
    1.5.2  为什么用Scala开发Spark框架 20 
    1.5.3  为什么用Scala开发Spark程序 20 
    1.5.4  Scala开发Spark程序所涉及的技术 20 
    1.5.5  Scala语言基础 21 
    1.6  如何快速掌握Spark 21 
    1.6.1  Spark学习的痛点 21 
    1.6.2  Spark快速学习路线图 22 
    1.6.3  Spark学习中的关键点 23 
    1.6.4  利用本书相关资源高效学习Spark 23 
    1.6.5  本书所使用的软件和版本 25 
    1.7  练习 25 
    第2章  构建Spark运行环境 26 
    2.1  Spark程序运行时架构 26 
    2.2  构建Spark大数据运行环境 28 
    2.2.1  构建HDFS 28 
    2.2.2  构建Yarn 30 
    2.2.3  构建Spark集群 31 
    2.3  运行Spark程序(Local方式) 31 
    2.4  运行Spark程序(分布式方式) 32 
    2.4.1  Spark on Yarn 32 
    2.4.2  Spark on Standalone 36 
    2.5  Spark程序在spark-shell上运行 41 
    2.6  使用Web UI监控Spark程序运行 43 
    2.7  扩展集群节点 48 
    2.8  练习 49 
    第3章  开发第一个Spark程序 51 
    3.1  在命令行模式下开发Spark程序 51 
    3.1.1  构建Scala程序编译环境 51 
    3.1.2  使用Vim编写Spark程序 53 
    3.1.3  使用命令编译、打包Spark程序 54 
    3.1.4  运行Spark程序 56 
    3.1.5  使用java命令运行Spark程序 57 
    3.1.6  Spark程序编译、运行、部署的关键点 58 
    3.2  使用IDEA开发Spark程序 58 
    3.2.1  IDEA安装和基本使用 59 
    3.2.2  使用IDEA编辑Spark代码 60 
    3.2.3  IDEA编译、打包 62 
    3.2.4  IDEA远程提交Spark程序 63 
    3.3  练习 64 
    第4章  深入理解Spark程序代码 66 
    4.1  Spark程序代码结构 66 
    4.2  Spark程序代码的核心概念 68 
    4.2.1  RDD 68 
    4.2.2  Application 68 
    4.2.3  Job 69 
    4.2.4  DAG 70 
    4.2.5  Stage 72 
    4.2.6  Task 76 
    4.2.7  Application、Job、Stage和Task的并行粒度和并行条件 77 
    4.3  Spark程序代码执行过程 77 
    4.4  练习 85 
    第5章  RDD编程 86 
    5.1  RDD核心概念 86 
    5.1.1  Transformation的基本概念 87 
    5.1.2  Action的基本概念 88 
    5.1.3  Partition的基本概念 88 
    5.2  创建RDD 89 
    5.3  RDD Partition 93 
    5.4  Transformation操作 107 
    5.5  Action操作 130 
    5.6  RDD的cache/persist和checkpoint操作 136 
    5.7  练习 140 
    第6章  Spark SQL结构化数据处理 142 
    6.1  Spark SQL的核心概念 142 
    6.2  Spark SQL数据处理概述 147 
    6.3  构建Spark SQL运行环境 150 
    6.4  DataFrame/Dataset快速上手 157 
    6.5  DataFrame/Dataset与数据源的转换 165 
    6.6  DataFrame/Dataset常用API 198 
    6.7  SQL操作 223 
    6.8  练习 234 
    第7章  Spark Streaming 236 
    7.1  Spark Streaming基础 236 
    7.2  编写一个Spark Streaming程序 241 
    7.3  Spark Streaming Web UI的使用 244 
    7.4  多路流数据合并处理示例 250 
    7.5  DStream Transformation操作 255 
    7.6  DStream Output 操作 262 
    7.7  练习 264 
    第8章  Structured Streaming 265 
    8.1  Structured Streaming基础 265 
    8.2  Structured Streaming接入Text File数据源 268 
    8.3  Structured Streaming接入Rate数据源 273 
    8.4  使用Schema解析JSON格式数据源 274 
    8.5  使用DataFrame/Dataset处理流数据 277 
    8.6  Structured Streaming Window操作 282 
    8.7  Structured Streaming Watermarking操作 288 
    8.8  Structured Streaming JOIN操作 290 
    8.9  练习 304 
    第9章  SparkR 305 
    9.1  SparkR基础 305 
    9.2  构建SparkR程序开发和运行环境 307 
    9.3  SparkR代码的执行方式 308 
    9.4  SparkR的基本使用 314 
    9.5  SparkR机器学习算子 323 
    9.6  利用SparkR实现单词统计和图形输出 326 
    9.7  练习 329 
    第10章  GraphX 330 
    10.1  GraphX基础 330 
    10.2  GraphX的基本数据结构 335 
    10.3  GraphX实现最短路径算法――SGDSP 354 
    10.4  GraphX Pregel的原理及使用 361 
    10.5  GraphX Pregel实现最短路径算法――SGPSP 366 
    10.6  练习 370 
    参考文献 372 

查看详情
12
相关图书 / 更多
Spark大数据编程实用教程
Spark项目实战(大数据技术与应用丛书)
黑马程序员 著
Spark大数据编程实用教程
Spring Cloud开发实战
徐文聪
Spark大数据编程实用教程
Spring 5攻略
[美]马腾·代伊纳姆(Marten Deinum)丹尼尔·鲁比奥(Daniel
Spark大数据编程实用教程
Spring Boot技术实践
张子宪 著
Spark大数据编程实用教程
Sprinkler Irrigation Hydraulic Performance and Jet Characteristics(译名:喷灌水力性能与射流特性)
Yue Jiang
Spark大数据编程实用教程
SpringBoot应用开发实战
饶仕琪 著
Spark大数据编程实用教程
SparkNLP自然语言处理(影印版)
AlexThomas 著
Spark大数据编程实用教程
Spring与SpringBoot实战
丁振凡 著
Spark大数据编程实用教程
SpringBoot+SpringCloud+SpringCloudAlibaba微服务训练营
黄文毅 著
Spark大数据编程实用教程
Spring+SpringMVC+MyBatis从零开始学(视频教学版)(第2版)
吴为胜;杨章伟
Spark大数据编程实用教程
Spring Boot企业级项目开发——入门到精通
钟林森 罗剑
Spark大数据编程实用教程
SpringBoot+Vue开发实战(博文视点出品) 
朱建昕 著