Spark大数据分析技术(Scala版)

Spark大数据分析技术(Scala版)
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2021-01
版次: 1
ISBN: 9787512433854
定价: 39.00
装帧: 其他
开本: 16开
纸张: 胶版纸
  • 本书系统介绍了Spark大数据技术的相关知识,内容包括Spark概述、Scala基础编程、基于Scala的Spark编程、Windows环境下的Spark综合编程、Spark SQL结构化数据处理、Spark Streaming流计算、SparkGraphX图计算、Spark MLlib机器学习。本书还给出了Spark大数据相关技术的许多编程示例与详细注解。
      本书可作为高等院校计算机、软件工程、数据科学与大数据技术、智能科学与技术、人工智能等专业的大数据课程教材,也可供相关技术人员参考。 第1章 Spark概述 1

    1.1 认识Spark  1

    1.1.1 Spark的产生背景 1

    1.1.2 Spark的优点 2

    1.1.3 Spark应用场景 2

    1.1.4 Spark生态系统 3

    1.2 Spark运行机制 4

    1.2.1 Spark基本概念 4

    1.2.2 Spark运行架构 6

    1.2.3 Spark应用执行的基本流程 7

    1.3 Spark的安装及配置 8

    1.3.1 Spark安装的基础环境 8

    1.3.2 下载安装文件 8

    1.3.3 单机模式配置 9

    1.3.4 伪分布式模式配置 9

    1.4 Spark Scala编程 11

    1.4.1 启动Spark Shell  11

    1.4.2 退出Spark Shell  12

    1.5 Spark Python编程 12

    习 题 13

    第2章 Scala基础编程 14

    2.1 Scala特性 14

    2.2 Windows环境下的Scala安装 14

    2.2.1 jdk安装与环境变量配置 14

    2.2.2 Scala安装 15

    2.3 声明常量和变量 16

    2.3.1 声明常量 16

    2.3.2 声明变量 17

    2.4 字符串 18

    2.4.1 基本数据类型 18

    2.4.2 运算符 19

    2.4.3 字符串对象的常用方法 20

    2.5 Scala控制结构 23

    2.5.1 条件表达式 23

    2.5.2 ifelse选择结构 24

    2.5.3 编写Scala脚本 25

    2.5.4 循 环 25

    2.6 Scala数组 27

    2.6.1 数组的分类 27

    2.6.2 遍历数组 28

    2.6.3 数组转换 29

    2.6.4 数组对象的常用方法 30

    2.7 列 表 32

    2.7.1 不可变列表(List)创建 32

    2.7.2 不可变列表(List)操作 33

    2.7.3 可变列表ListBuffer 36

    2.8 集 合 37

    2.8.1 不可变集合 38

    2.8.2 可变集合 40

    2.9 映 射 40

    2.9.1 不可变映射 41

    2.9.2 可变映射 42

    2.10 元 组 44

    2.10.1 元组常用操作 45

    2.10.2 拉链操作 45

    2.11 Scala函数 46

    2.11.1 函数定义 46

    2.11.2 匿名函数 47

    2.11.3 高阶函数 47

    2.12 Scala模式匹配 48

    2.13 Scala类 50

    2.13.1 class类 50

    2.13.2 object对象 51

    2.14 Scala读写文件 53

    2.14.1 读取文件 53

    2.14.2 写入文件 54

    习 题 54

    第3章 基于Scala的Spark编程 56

    3.1 RDD创建 56

    3.1.1 使用程序中数据集创建RDD  57

    3.1.2 使用文本文件创建RDD  57

    3.1.3 使用JSON文件创建RDD  59

    3.1.4 使用CSV文件创建RDD  61

    3.2 RDD操作 62

    3.2.1 转换(Transformation)操作 62

    3.2.2 行动(Action)操作 69

    3.3 RDD属性 72

    3.4 RDD持久化 74

    3.5 使用Scala语言编写Spark应用程序 75

    3.5.1 安装sbt 75

    3.5.2 编写词频统计Scala应用程序 76

    3.5.3 用sbt打包Scala应用程序 77

    3.5.4 通过spark submit运行程序 77

    习 题 78

    第4章 Windows环境下的Spark综合编程 79

    4.1 Windows环境下Spark与Hadoop安装 79

    4.1.1 Windows环境下Spark安装 79

    4.1.2 Windows环境下Hadoop安装 79

    4.2 用Intellij IDEA 搭建Spark开发环境 80

    4.2.1 下载与安装Intellij IDEA  81

    4.2.2 Scala插件安装与使用 82

    4.2.3 全局JDK和SDK设置 87

    4.2.4 Maven安装与项目开发 89

    4.2.5 本地Spark应用开发 91

    4.3 数据分区 94

    4.3.1 HashPartitioner(哈希分区) 95

    4.3.2 RangePartitioner(范围分区)  95

    4.4 Spark编程实现学生考试信息分析 96

    习 题 98

    第5章 Spark SQL结构化数据处理 99

    5.1 Spark SQL概述 99

    5.2 DataFrame的创建 99

    5.2.1 使用parquet格式文件创建DataFrame  100

    5.2.2 使用JSON 格式文件创建DataFrame  101

    5.2.3 使用RDD创建DataFrame  102

    5.3 DataFrame的保存 103

    5.3.1 write()方法保存DataFrame 103

    5.3.2 write.format()方法保存DataFrame  103

    5.3.3 先转化成RDD再保存到文件中 103

    5.4 DataFrame的常用操作 104

    5.4.1 展示数据 104

    5.4.2 筛 选 107

    5.4.3 排 序 109

    5.4.4 汇总与聚合 110

    5.4.5 统 计 113

    5.4.6 合 并 113

    5.4.7 连 接 114

    5.5 Spark SQL实战———波士顿房价数据分析 116

    5.5.1 波士顿房价数据集 116

    5.5.2 数据集的数据结构分析 117

    5.5.3 相关性分析 119

    习 题 119

    第6章 Spark Streaming流计算 120

    6.1 流计算概述 120

    6.1.1 流数据概述 120

    6.1.2 批处理与流处理 120

    6.2 Spark Streaming运行原理 121

    6.2.1 Spark Streaming概述 121

    6.2.2 Spark Streaming运行原理 121

    6.3 Spark Streaming编程模型 122

    6.3.1 编写Spark Streaming程序的步骤 122

    6.3.2 创建StreamingContext对象 122

    6.4 定义DStream 的输入数据源 124

    6.4.1 定义DStream 的输入数据源为文件流 124

    6.4.2 定义DStream 的输入数据源为套接字流 125

    6.4.3 定义DStream 的输入数据源为RDD队列流 130

    6.5 操作DStream  131

    6.5.1 无状态转换操作 131

    6.5.2 有状态转换操作 134

    6.5.3 输出操作 135

    6.6 Spark Streaming的启动与停止 135

    习 题 136

    第7章 Spark GraphX 图计算 137

    7.1 图计算概述 137

    7.1.1 图结构 137

    7.1.2 图计算应用 137

    7.1.3 GraphX概述 138

    7.2 GraphX图计算模型 139

    7.2.1 属性图 139

    7.2.2 GraphX图存储模式 141

    7.2.3 GraphX图计算模型 143

    7.2.4 GraphX架构 144

    7.3 GraphX属性图的创建 145

    7.3.1 使用顶点RDD和边RDD构建图 145

    7.3.2 使用边的集合的RDD构建图 146

    7.3.3 使用边源点和目的点的元组集合RDD构建图 147

    7.4 属性图操作 148

    7.4.1 图的属性操作 149

    7.4.2 图的视图操作 150

    7.4.3 图的缓存操作 153

    7.4.4 图的顶点和边属性变换 153

    7.4.5 图的关联与聚合操作 155

    7.4.6 图的结构操作 156

    习 题 157

    第8章 Spark MLlib机器学习 158

    8.1 MLlib机器学习库概述 158

    8.1.1 机器学习简介 158

    8.1.2 MLlib概述 159

    8.2 MLlib基本数据类型 160

    8.2.1 本地向量 160

    8.2.2 带标签的点 161

    8.2.3 本地矩阵 162

    8.3 基本统计 163

    8.3.1 汇总统计 163

    8.3.2 相关性分析 164

    8.3.3 分层抽样 165

    8.3.4 假设检验 166

    8.3.5 随机数生成 169

    8.3.6 核密度估计 169

    8.4 特征提取和转换 170

    8.4.1 特征提取 170

    8.4.2 特征转换 172

    8.5 分类和回归算法 177

    8.5.1 分类原理 177

    8.5.2 朴素贝叶斯分类算法 178

    8.5.3 决策树分类算法 180

    8.5.4 逻辑回归算法 186

    8.6 聚类算法 189

    8.6.1 聚类概述 189

    8.6.2 K均值聚类算法 190

    8.7 协同过滤推荐算法 192

    8.7.1 协同过滤推荐原理 192

    8.7.2 ALS交替最小二乘协同过滤推荐 193

    习 题 195

    参考文献 196

     
  • 内容简介:
    本书系统介绍了Spark大数据技术的相关知识,内容包括Spark概述、Scala基础编程、基于Scala的Spark编程、Windows环境下的Spark综合编程、Spark SQL结构化数据处理、Spark Streaming流计算、SparkGraphX图计算、Spark MLlib机器学习。本书还给出了Spark大数据相关技术的许多编程示例与详细注解。
      本书可作为高等院校计算机、软件工程、数据科学与大数据技术、智能科学与技术、人工智能等专业的大数据课程教材,也可供相关技术人员参考。
  • 目录:
    第1章 Spark概述 1

    1.1 认识Spark  1

    1.1.1 Spark的产生背景 1

    1.1.2 Spark的优点 2

    1.1.3 Spark应用场景 2

    1.1.4 Spark生态系统 3

    1.2 Spark运行机制 4

    1.2.1 Spark基本概念 4

    1.2.2 Spark运行架构 6

    1.2.3 Spark应用执行的基本流程 7

    1.3 Spark的安装及配置 8

    1.3.1 Spark安装的基础环境 8

    1.3.2 下载安装文件 8

    1.3.3 单机模式配置 9

    1.3.4 伪分布式模式配置 9

    1.4 Spark Scala编程 11

    1.4.1 启动Spark Shell  11

    1.4.2 退出Spark Shell  12

    1.5 Spark Python编程 12

    习 题 13

    第2章 Scala基础编程 14

    2.1 Scala特性 14

    2.2 Windows环境下的Scala安装 14

    2.2.1 jdk安装与环境变量配置 14

    2.2.2 Scala安装 15

    2.3 声明常量和变量 16

    2.3.1 声明常量 16

    2.3.2 声明变量 17

    2.4 字符串 18

    2.4.1 基本数据类型 18

    2.4.2 运算符 19

    2.4.3 字符串对象的常用方法 20

    2.5 Scala控制结构 23

    2.5.1 条件表达式 23

    2.5.2 ifelse选择结构 24

    2.5.3 编写Scala脚本 25

    2.5.4 循 环 25

    2.6 Scala数组 27

    2.6.1 数组的分类 27

    2.6.2 遍历数组 28

    2.6.3 数组转换 29

    2.6.4 数组对象的常用方法 30

    2.7 列 表 32

    2.7.1 不可变列表(List)创建 32

    2.7.2 不可变列表(List)操作 33

    2.7.3 可变列表ListBuffer 36

    2.8 集 合 37

    2.8.1 不可变集合 38

    2.8.2 可变集合 40

    2.9 映 射 40

    2.9.1 不可变映射 41

    2.9.2 可变映射 42

    2.10 元 组 44

    2.10.1 元组常用操作 45

    2.10.2 拉链操作 45

    2.11 Scala函数 46

    2.11.1 函数定义 46

    2.11.2 匿名函数 47

    2.11.3 高阶函数 47

    2.12 Scala模式匹配 48

    2.13 Scala类 50

    2.13.1 class类 50

    2.13.2 object对象 51

    2.14 Scala读写文件 53

    2.14.1 读取文件 53

    2.14.2 写入文件 54

    习 题 54

    第3章 基于Scala的Spark编程 56

    3.1 RDD创建 56

    3.1.1 使用程序中数据集创建RDD  57

    3.1.2 使用文本文件创建RDD  57

    3.1.3 使用JSON文件创建RDD  59

    3.1.4 使用CSV文件创建RDD  61

    3.2 RDD操作 62

    3.2.1 转换(Transformation)操作 62

    3.2.2 行动(Action)操作 69

    3.3 RDD属性 72

    3.4 RDD持久化 74

    3.5 使用Scala语言编写Spark应用程序 75

    3.5.1 安装sbt 75

    3.5.2 编写词频统计Scala应用程序 76

    3.5.3 用sbt打包Scala应用程序 77

    3.5.4 通过spark submit运行程序 77

    习 题 78

    第4章 Windows环境下的Spark综合编程 79

    4.1 Windows环境下Spark与Hadoop安装 79

    4.1.1 Windows环境下Spark安装 79

    4.1.2 Windows环境下Hadoop安装 79

    4.2 用Intellij IDEA 搭建Spark开发环境 80

    4.2.1 下载与安装Intellij IDEA  81

    4.2.2 Scala插件安装与使用 82

    4.2.3 全局JDK和SDK设置 87

    4.2.4 Maven安装与项目开发 89

    4.2.5 本地Spark应用开发 91

    4.3 数据分区 94

    4.3.1 HashPartitioner(哈希分区) 95

    4.3.2 RangePartitioner(范围分区)  95

    4.4 Spark编程实现学生考试信息分析 96

    习 题 98

    第5章 Spark SQL结构化数据处理 99

    5.1 Spark SQL概述 99

    5.2 DataFrame的创建 99

    5.2.1 使用parquet格式文件创建DataFrame  100

    5.2.2 使用JSON 格式文件创建DataFrame  101

    5.2.3 使用RDD创建DataFrame  102

    5.3 DataFrame的保存 103

    5.3.1 write()方法保存DataFrame 103

    5.3.2 write.format()方法保存DataFrame  103

    5.3.3 先转化成RDD再保存到文件中 103

    5.4 DataFrame的常用操作 104

    5.4.1 展示数据 104

    5.4.2 筛 选 107

    5.4.3 排 序 109

    5.4.4 汇总与聚合 110

    5.4.5 统 计 113

    5.4.6 合 并 113

    5.4.7 连 接 114

    5.5 Spark SQL实战———波士顿房价数据分析 116

    5.5.1 波士顿房价数据集 116

    5.5.2 数据集的数据结构分析 117

    5.5.3 相关性分析 119

    习 题 119

    第6章 Spark Streaming流计算 120

    6.1 流计算概述 120

    6.1.1 流数据概述 120

    6.1.2 批处理与流处理 120

    6.2 Spark Streaming运行原理 121

    6.2.1 Spark Streaming概述 121

    6.2.2 Spark Streaming运行原理 121

    6.3 Spark Streaming编程模型 122

    6.3.1 编写Spark Streaming程序的步骤 122

    6.3.2 创建StreamingContext对象 122

    6.4 定义DStream 的输入数据源 124

    6.4.1 定义DStream 的输入数据源为文件流 124

    6.4.2 定义DStream 的输入数据源为套接字流 125

    6.4.3 定义DStream 的输入数据源为RDD队列流 130

    6.5 操作DStream  131

    6.5.1 无状态转换操作 131

    6.5.2 有状态转换操作 134

    6.5.3 输出操作 135

    6.6 Spark Streaming的启动与停止 135

    习 题 136

    第7章 Spark GraphX 图计算 137

    7.1 图计算概述 137

    7.1.1 图结构 137

    7.1.2 图计算应用 137

    7.1.3 GraphX概述 138

    7.2 GraphX图计算模型 139

    7.2.1 属性图 139

    7.2.2 GraphX图存储模式 141

    7.2.3 GraphX图计算模型 143

    7.2.4 GraphX架构 144

    7.3 GraphX属性图的创建 145

    7.3.1 使用顶点RDD和边RDD构建图 145

    7.3.2 使用边的集合的RDD构建图 146

    7.3.3 使用边源点和目的点的元组集合RDD构建图 147

    7.4 属性图操作 148

    7.4.1 图的属性操作 149

    7.4.2 图的视图操作 150

    7.4.3 图的缓存操作 153

    7.4.4 图的顶点和边属性变换 153

    7.4.5 图的关联与聚合操作 155

    7.4.6 图的结构操作 156

    习 题 157

    第8章 Spark MLlib机器学习 158

    8.1 MLlib机器学习库概述 158

    8.1.1 机器学习简介 158

    8.1.2 MLlib概述 159

    8.2 MLlib基本数据类型 160

    8.2.1 本地向量 160

    8.2.2 带标签的点 161

    8.2.3 本地矩阵 162

    8.3 基本统计 163

    8.3.1 汇总统计 163

    8.3.2 相关性分析 164

    8.3.3 分层抽样 165

    8.3.4 假设检验 166

    8.3.5 随机数生成 169

    8.3.6 核密度估计 169

    8.4 特征提取和转换 170

    8.4.1 特征提取 170

    8.4.2 特征转换 172

    8.5 分类和回归算法 177

    8.5.1 分类原理 177

    8.5.2 朴素贝叶斯分类算法 178

    8.5.3 决策树分类算法 180

    8.5.4 逻辑回归算法 186

    8.6 聚类算法 189

    8.6.1 聚类概述 189

    8.6.2 K均值聚类算法 190

    8.7 协同过滤推荐算法 192

    8.7.1 协同过滤推荐原理 192

    8.7.2 ALS交替最小二乘协同过滤推荐 193

    习 题 195

    参考文献 196

     
查看详情
相关图书 / 更多
Spark大数据分析技术(Scala版)
Spring Boot从入门到实战
解承凯
Spark大数据分析技术(Scala版)
Spark快速大数据分析 第2版
[美]朱尔斯·S. 达米吉 (美) 布鲁克·韦尼希 (印) 泰瑟加塔·达斯
Spark大数据分析技术(Scala版)
SparkSQL入门与数据分析实践
杨虹、谢显中、周前能、张安文 著
Spark大数据分析技术(Scala版)
Spring Boot+Vue.js+分布式组件全栈开发训练营(视频教学版)
曹宇;胡书敏
Spark大数据分析技术(Scala版)
Spring Cloud Alibaba微服务实战
周仲清
Spark大数据分析技术(Scala版)
SpringBoot从入门到实战
章为忠 著
Spark大数据分析技术(Scala版)
Spring Boot学习指南:构建云原生Java和Kotlin应用程序
[美]马克·赫克勒(Mark Heckler)
Spark大数据分析技术(Scala版)
Spring Cloud Alibaba微服务开发从入门到实战
李伟杰 刘雪松 刘自强 王超 编著;开课吧 组编
Spark大数据分析技术(Scala版)
SpringBoot企业级开发实战(视频教学版)
迟殿委、赵媛媛、郭德先、侯传杰 著
Spark大数据分析技术(Scala版)
Spring Data JPA:入门、实战与进阶
张振华
Spark大数据分析技术(Scala版)
SpringBoot整合开发实战
莫海 著
Spark大数据分析技术(Scala版)
Spinnaker实战:云原生多云环境的持续部署方案
王炜
您可能感兴趣 / 更多
Spark大数据分析技术(Scala版)
Python数据挖掘技术及应用(微课版)
曹洁 邓璐娟 著
Spark大数据分析技术(Scala版)
揭秘前列腺癌:患者需要知道的前列腺癌小知识
曹洁、陆小英、张玲娟 编
Spark大数据分析技术(Scala版)
北京·上海·深圳城市规划管理技术规定比较
曹洁、么春雨、张敏刚 著
Spark大数据分析技术(Scala版)
采薇/冰心散文奖获奖作家散文自选集
曹洁
Spark大数据分析技术(Scala版)
Python程序设计与应用
曹洁、张王卫、张世征、范乃梅 著
Spark大数据分析技术(Scala版)
大数据技术(微课版)
曹洁;孙玉胜
Spark大数据分析技术(Scala版)
Python数据分析
曹洁 ;崔霄
Spark大数据分析技术(Scala版)
Python语言程序设计(微课版)(高等院校信息技术规划教材)
曹洁、张志锋、孙玉胜、崔霄 著
Spark大数据分析技术(Scala版)
沟通与演讲
曹洁、封莉 编
Spark大数据分析技术(Scala版)
高晓声年谱
曹洁萍、毛定海 著
Spark大数据分析技术(Scala版)
泌尿外科护理英文情景对话
曹洁、陆小英、盛夏 编
Spark大数据分析技术(Scala版)
高职应用语文
曹洁萍 主编