未读消息消息

购物车

我的订单

个人中心

店铺

我的订单收藏

拍卖

拍卖交易我的竞拍收藏

我的好友资金账户

卖家中心

客服 |

帮助中心 9:00-20:30 在线留言

客服电话

010-89648155

服务时间

客服咨询 8:00-21:00

纠纷处理 9:00-21:00

图书审核 9:00-18:00

监督与建议

请选择

手机孔网

Apache Spark源码剖析

作者: 许鹏著

出版社: 电子工业出版社

出版时间: 2015-03

版次: 1

ISBN: 9787121254208

定价: 68.00

装帧: 平装

开本: 16开

纸张: 胶版纸

页数: 304页

字数: 432千字

正文语种: 简体中文

分类: 计算机与互联网

2 张插图图片

71人买过

　　《ApacheSpark源码剖析》以Spark1.02版本源码为切入点，着力于探寻Spark所要解决的主要问题及其解决办法，通过一系列精心设计的小实验来分析每一步背后的处理逻辑。
　　《ApacheSpark源码剖析》第3～5章详细介绍了SparkCore中作业的提交与执行，对容错处理也进行了详细分析，有助读者深刻把握Spark实现机理。第6～9章对SparkLib库进行了初步的探索。在对源码有了一定的分析之后，读者可尽快掌握Spark技术。　　许鹏，长期致力于电信领域和互联网的软件研发，在数据处理方面积累了大量经验，对系统的可扩展性、可靠性方面进行过深入学习和研究。因此，累积了大量的源码阅读和分析的技巧与方法。目前在杭州同盾科技担任大数据平台架构师一职。对于Linux内核，作者也曾进行过深入的分析。第一部分Spark概述
第1章初识Spark
1.1大数据和Spark
1.1.1大数据的由来
1.1.2大数据的分析
1.1.3Hadoop
1.1.4Spark简介
1.2与Spark的第一次亲密接触
1.2.1环境准备
1.2.2下载安装Spark
1.2.3Spark下的WordCount

第二部分Spark核心概念
第2章Spark整体框架
2.1编程模型
2.1.1RDD
2.1.2Operation
2.2运行框架
2.2.1作业提交
2.2.2集群的节点构成
2.2.3容错处理
2.2.4为什么是Scala
2.3源码阅读环境准备
2.3.1源码下载及编译
2.3.2源码目录结构
2.3.3源码阅读工具
2.3.4本章小结
第3章SparkContext初始化
3.1spark-shell
3.2SparkContext的初始化综述
3.3SparkRepl综述
3.3.1ScalaRepl执行过程
3.3.2SparkRepl
第4章Spark作业提交
4.1作业提交
4.2作业执行
4.2.1依赖性分析及Stage划分
4.2.2ActorModel和Akka
4.2.3任务的创建和分发
4.2.4任务执行
4.2.5Checkpoint和Cache
4.2.6WebUI和Metrics
4.3存储机制
4.3.1Shuffle结果的写入和读取
4.3.2MemoryStore
4.3.3存储子模块启动过程分析
4.3.4数据写入过程分析
4.3.5数据读取过程分析
4.3.6TachyonStore
第5章部署方式分析
5.1部署模型
5.2单机模式local
5.3伪集群部署local-cluster
5.4原生集群StandaloneCluster
5.4.1启动Master
5.4.2启动Worker
5.4.3运行spark-shell
5.4.4容错性分析
5.5SparkOnYARN
5.5.1YARN的编程模型
5.5.2YARN中的作业提交
5.5.3SparkOnYARN实现详解
5.5.4SparkPionYARN

第三部分SparkLib
第6章SparkStreaming
6.1SparkStreaming整体架构
6.1.1DStream
6.1.2编程接口
6.1.3StreamingWordCount
6.2SparkStreaming执行过程
6.2.1StreamingContext初始化过程
6.2.2数据接收
6.2.3数据处理
6.2.4BlockRDD
6.3窗口操作
6.4容错性分析
6.5SparkStreamingvs.Storm
6.5.1Storm简介
6.5.2Storm和SparkStreaming对比
6.6应用举例
6.6.1搭建KafkaCluster
6.6.2KafkaWordCount
第7章SQL
7.1SQL语句的通用执行过程分析
7.2SQLOnSpark的实现分析
7.2.1SqlParser
7.2.2Analyzer
7.2.3Optimizer
7.2.4SparkPlan
7.3Parquet文件和JSON数据集
7.4Hive简介
7.4.1Hive架构
7.4.2HiveQLOnMapReduce执行过程分析
7.5HiveQLOnSpark详解
7.5.1HiveOnSpark环境搭建
7.5.2编译支持Hadoop2.x的Spark
7.5.3运行HiveOnSpark测试用例
第8章GraphX
8.1GraphX简介
8.1.1主要特点
8.1.2版本演化
8.1.3应用场景
8.2分布式图计算处理技术介绍
8.2.1属性图
8.2.2图数据的存储与分割
8.3Pregel计算模型
8.3.1BSP
8.3.2像顶点一样思考
8.4GraphX图计算框架实现分析
8.4.1基本概念
8.4.2图的加载与构建
8.4.3图数据存储与分割
8.4.4操作接口
8.4.5Pregel在GraphX中的源码实现
8.5PageRank
8.5.1什么是PageRank
8.5.2PageRank核心思想
第9章MLLib
9.1线性回归
9.1.1数据和估计
9.1.2线性回归参数求解方法
9.1.3正则化
9.2线性回归的代码实现
9.2.1简单示例
9.2.2入口函数train
9.2.3最优化算法optimizer
9.2.4权重更新update
9.2.5结果预测predict
9.3分类算法
9.3.1逻辑回归
9.3.2支持向量机
9.4拟牛顿法
9.4.1数学原理
9.4.2代码实现
9.5MLLib与其他应用模块间的整合

第四部分附录
附录ASpark源码调试
附录B源码阅读技巧
内容简介:
　　《ApacheSpark源码剖析》以Spark1.02版本源码为切入点，着力于探寻Spark所要解决的主要问题及其解决办法，通过一系列精心设计的小实验来分析每一步背后的处理逻辑。
　　《ApacheSpark源码剖析》第3～5章详细介绍了SparkCore中作业的提交与执行，对容错处理也进行了详细分析，有助读者深刻把握Spark实现机理。第6～9章对SparkLib库进行了初步的探索。在对源码有了一定的分析之后，读者可尽快掌握Spark技术。
作者简介:
　　许鹏，长期致力于电信领域和互联网的软件研发，在数据处理方面积累了大量经验，对系统的可扩展性、可靠性方面进行过深入学习和研究。因此，累积了大量的源码阅读和分析的技巧与方法。目前在杭州同盾科技担任大数据平台架构师一职。对于Linux内核，作者也曾进行过深入的分析。
目录:
第一部分Spark概述
第1章初识Spark
1.1大数据和Spark
1.1.1大数据的由来
1.1.2大数据的分析
1.1.3Hadoop
1.1.4Spark简介
1.2与Spark的第一次亲密接触
1.2.1环境准备
1.2.2下载安装Spark
1.2.3Spark下的WordCount

第二部分Spark核心概念
第2章Spark整体框架
2.1编程模型
2.1.1RDD
2.1.2Operation
2.2运行框架
2.2.1作业提交
2.2.2集群的节点构成
2.2.3容错处理
2.2.4为什么是Scala
2.3源码阅读环境准备
2.3.1源码下载及编译
2.3.2源码目录结构
2.3.3源码阅读工具
2.3.4本章小结
第3章SparkContext初始化
3.1spark-shell
3.2SparkContext的初始化综述
3.3SparkRepl综述
3.3.1ScalaRepl执行过程
3.3.2SparkRepl
第4章Spark作业提交
4.1作业提交
4.2作业执行
4.2.1依赖性分析及Stage划分
4.2.2ActorModel和Akka
4.2.3任务的创建和分发
4.2.4任务执行
4.2.5Checkpoint和Cache
4.2.6WebUI和Metrics
4.3存储机制
4.3.1Shuffle结果的写入和读取
4.3.2MemoryStore
4.3.3存储子模块启动过程分析
4.3.4数据写入过程分析
4.3.5数据读取过程分析
4.3.6TachyonStore
第5章部署方式分析
5.1部署模型
5.2单机模式local
5.3伪集群部署local-cluster
5.4原生集群StandaloneCluster
5.4.1启动Master
5.4.2启动Worker
5.4.3运行spark-shell
5.4.4容错性分析
5.5SparkOnYARN
5.5.1YARN的编程模型
5.5.2YARN中的作业提交
5.5.3SparkOnYARN实现详解
5.5.4SparkPionYARN

第三部分SparkLib
第6章SparkStreaming
6.1SparkStreaming整体架构
6.1.1DStream
6.1.2编程接口
6.1.3StreamingWordCount
6.2SparkStreaming执行过程
6.2.1StreamingContext初始化过程
6.2.2数据接收
6.2.3数据处理
6.2.4BlockRDD
6.3窗口操作
6.4容错性分析
6.5SparkStreamingvs.Storm
6.5.1Storm简介
6.5.2Storm和SparkStreaming对比
6.6应用举例
6.6.1搭建KafkaCluster
6.6.2KafkaWordCount
第7章SQL
7.1SQL语句的通用执行过程分析
7.2SQLOnSpark的实现分析
7.2.1SqlParser
7.2.2Analyzer
7.2.3Optimizer
7.2.4SparkPlan
7.3Parquet文件和JSON数据集
7.4Hive简介
7.4.1Hive架构
7.4.2HiveQLOnMapReduce执行过程分析
7.5HiveQLOnSpark详解
7.5.1HiveOnSpark环境搭建
7.5.2编译支持Hadoop2.x的Spark
7.5.3运行HiveOnSpark测试用例
第8章GraphX
8.1GraphX简介
8.1.1主要特点
8.1.2版本演化
8.1.3应用场景
8.2分布式图计算处理技术介绍
8.2.1属性图
8.2.2图数据的存储与分割
8.3Pregel计算模型
8.3.1BSP
8.3.2像顶点一样思考
8.4GraphX图计算框架实现分析
8.4.1基本概念
8.4.2图的加载与构建
8.4.3图数据存储与分割
8.4.4操作接口
8.4.5Pregel在GraphX中的源码实现
8.5PageRank
8.5.1什么是PageRank
8.5.2PageRank核心思想
第9章MLLib
9.1线性回归
9.1.1数据和估计
9.1.2线性回归参数求解方法
9.1.3正则化
9.2线性回归的代码实现
9.2.1简单示例
9.2.2入口函数train
9.2.3最优化算法optimizer
9.2.4权重更新update
9.2.5结果预测predict
9.3分类算法
9.3.1逻辑回归
9.3.2支持向量机
9.4拟牛顿法
9.4.1数学原理
9.4.2代码实现
9.5MLLib与其他应用模块间的整合

第四部分附录
附录ASpark源码调试
附录B源码阅读技巧

查看详情

Apache Spark源码剖析

内容简介:

作者简介:

目录: