Apache Spark源码剖析

Apache Spark源码剖析
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2015-03
版次: 1
ISBN: 9787121254208
定价: 68.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 304页
字数: 432千字
正文语种: 简体中文
71人买过
  •   《ApacheSpark源码剖析》以Spark1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。
      《ApacheSpark源码剖析》第3~5章详细介绍了SparkCore中作业的提交与执行,对容错处理也进行了详细分析,有助读者深刻把握Spark实现机理。第6~9章对SparkLib库进行了初步的探索。在对源码有了一定的分析之后,读者可尽快掌握Spark技术。   许鹏,长期致力于电信领域和互联网的软件研发,在数据处理方面积累了大量经验,对系统的可扩展性、可靠性方面进行过深入学习和研究。因此,累积了大量的源码阅读和分析的技巧与方法。目前在杭州同盾科技担任大数据平台架构师一职。对于Linux内核,作者也曾进行过深入的分析。 第一部分Spark概述
    第1章初识Spark
    1.1大数据和Spark
    1.1.1大数据的由来
    1.1.2大数据的分析
    1.1.3Hadoop
    1.1.4Spark简介
    1.2与Spark的第一次亲密接触
    1.2.1环境准备
    1.2.2下载安装Spark
    1.2.3Spark下的WordCount

    第二部分Spark核心概念
    第2章Spark整体框架
    2.1编程模型
    2.1.1RDD
    2.1.2Operation
    2.2运行框架
    2.2.1作业提交
    2.2.2集群的节点构成
    2.2.3容错处理
    2.2.4为什么是Scala
    2.3源码阅读环境准备
    2.3.1源码下载及编译
    2.3.2源码目录结构
    2.3.3源码阅读工具
    2.3.4本章小结
    第3章SparkContext初始化
    3.1spark-shell
    3.2SparkContext的初始化综述
    3.3SparkRepl综述
    3.3.1ScalaRepl执行过程
    3.3.2SparkRepl
    第4章Spark作业提交
    4.1作业提交
    4.2作业执行
    4.2.1依赖性分析及Stage划分
    4.2.2ActorModel和Akka
    4.2.3任务的创建和分发
    4.2.4任务执行
    4.2.5Checkpoint和Cache
    4.2.6WebUI和Metrics
    4.3存储机制
    4.3.1Shuffle结果的写入和读取
    4.3.2MemoryStore
    4.3.3存储子模块启动过程分析
    4.3.4数据写入过程分析
    4.3.5数据读取过程分析
    4.3.6TachyonStore
    第5章部署方式分析
    5.1部署模型
    5.2单机模式local
    5.3伪集群部署local-cluster
    5.4原生集群StandaloneCluster
    5.4.1启动Master
    5.4.2启动Worker
    5.4.3运行spark-shell
    5.4.4容错性分析
    5.5SparkOnYARN
    5.5.1YARN的编程模型
    5.5.2YARN中的作业提交
    5.5.3SparkOnYARN实现详解
    5.5.4SparkPionYARN

    第三部分SparkLib
    第6章SparkStreaming
    6.1SparkStreaming整体架构
    6.1.1DStream
    6.1.2编程接口
    6.1.3StreamingWordCount
    6.2SparkStreaming执行过程
    6.2.1StreamingContext初始化过程
    6.2.2数据接收
    6.2.3数据处理
    6.2.4BlockRDD
    6.3窗口操作
    6.4容错性分析
    6.5SparkStreamingvs.Storm
    6.5.1Storm简介
    6.5.2Storm和SparkStreaming对比
    6.6应用举例
    6.6.1搭建KafkaCluster
    6.6.2KafkaWordCount
    第7章SQL
    7.1SQL语句的通用执行过程分析
    7.2SQLOnSpark的实现分析
    7.2.1SqlParser
    7.2.2Analyzer
    7.2.3Optimizer
    7.2.4SparkPlan
    7.3Parquet文件和JSON数据集
    7.4Hive简介
    7.4.1Hive架构
    7.4.2HiveQLOnMapReduce执行过程分析
    7.5HiveQLOnSpark详解
    7.5.1HiveOnSpark环境搭建
    7.5.2编译支持Hadoop2.x的Spark
    7.5.3运行HiveOnSpark测试用例
    第8章GraphX
    8.1GraphX简介
    8.1.1主要特点
    8.1.2版本演化
    8.1.3应用场景
    8.2分布式图计算处理技术介绍
    8.2.1属性图
    8.2.2图数据的存储与分割
    8.3Pregel计算模型
    8.3.1BSP
    8.3.2像顶点一样思考
    8.4GraphX图计算框架实现分析
    8.4.1基本概念
    8.4.2图的加载与构建
    8.4.3图数据存储与分割
    8.4.4操作接口
    8.4.5Pregel在GraphX中的源码实现
    8.5PageRank
    8.5.1什么是PageRank
    8.5.2PageRank核心思想
    第9章MLLib
    9.1线性回归
    9.1.1数据和估计
    9.1.2线性回归参数求解方法
    9.1.3正则化
    9.2线性回归的代码实现
    9.2.1简单示例
    9.2.2入口函数train
    9.2.3最优化算法optimizer
    9.2.4权重更新update
    9.2.5结果预测predict
    9.3分类算法
    9.3.1逻辑回归
    9.3.2支持向量机
    9.4拟牛顿法
    9.4.1数学原理
    9.4.2代码实现
    9.5MLLib与其他应用模块间的整合

    第四部分附录
    附录ASpark源码调试
    附录B源码阅读技巧
  • 内容简介:
      《ApacheSpark源码剖析》以Spark1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。
      《ApacheSpark源码剖析》第3~5章详细介绍了SparkCore中作业的提交与执行,对容错处理也进行了详细分析,有助读者深刻把握Spark实现机理。第6~9章对SparkLib库进行了初步的探索。在对源码有了一定的分析之后,读者可尽快掌握Spark技术。
  • 作者简介:
      许鹏,长期致力于电信领域和互联网的软件研发,在数据处理方面积累了大量经验,对系统的可扩展性、可靠性方面进行过深入学习和研究。因此,累积了大量的源码阅读和分析的技巧与方法。目前在杭州同盾科技担任大数据平台架构师一职。对于Linux内核,作者也曾进行过深入的分析。
  • 目录:
    第一部分Spark概述
    第1章初识Spark
    1.1大数据和Spark
    1.1.1大数据的由来
    1.1.2大数据的分析
    1.1.3Hadoop
    1.1.4Spark简介
    1.2与Spark的第一次亲密接触
    1.2.1环境准备
    1.2.2下载安装Spark
    1.2.3Spark下的WordCount

    第二部分Spark核心概念
    第2章Spark整体框架
    2.1编程模型
    2.1.1RDD
    2.1.2Operation
    2.2运行框架
    2.2.1作业提交
    2.2.2集群的节点构成
    2.2.3容错处理
    2.2.4为什么是Scala
    2.3源码阅读环境准备
    2.3.1源码下载及编译
    2.3.2源码目录结构
    2.3.3源码阅读工具
    2.3.4本章小结
    第3章SparkContext初始化
    3.1spark-shell
    3.2SparkContext的初始化综述
    3.3SparkRepl综述
    3.3.1ScalaRepl执行过程
    3.3.2SparkRepl
    第4章Spark作业提交
    4.1作业提交
    4.2作业执行
    4.2.1依赖性分析及Stage划分
    4.2.2ActorModel和Akka
    4.2.3任务的创建和分发
    4.2.4任务执行
    4.2.5Checkpoint和Cache
    4.2.6WebUI和Metrics
    4.3存储机制
    4.3.1Shuffle结果的写入和读取
    4.3.2MemoryStore
    4.3.3存储子模块启动过程分析
    4.3.4数据写入过程分析
    4.3.5数据读取过程分析
    4.3.6TachyonStore
    第5章部署方式分析
    5.1部署模型
    5.2单机模式local
    5.3伪集群部署local-cluster
    5.4原生集群StandaloneCluster
    5.4.1启动Master
    5.4.2启动Worker
    5.4.3运行spark-shell
    5.4.4容错性分析
    5.5SparkOnYARN
    5.5.1YARN的编程模型
    5.5.2YARN中的作业提交
    5.5.3SparkOnYARN实现详解
    5.5.4SparkPionYARN

    第三部分SparkLib
    第6章SparkStreaming
    6.1SparkStreaming整体架构
    6.1.1DStream
    6.1.2编程接口
    6.1.3StreamingWordCount
    6.2SparkStreaming执行过程
    6.2.1StreamingContext初始化过程
    6.2.2数据接收
    6.2.3数据处理
    6.2.4BlockRDD
    6.3窗口操作
    6.4容错性分析
    6.5SparkStreamingvs.Storm
    6.5.1Storm简介
    6.5.2Storm和SparkStreaming对比
    6.6应用举例
    6.6.1搭建KafkaCluster
    6.6.2KafkaWordCount
    第7章SQL
    7.1SQL语句的通用执行过程分析
    7.2SQLOnSpark的实现分析
    7.2.1SqlParser
    7.2.2Analyzer
    7.2.3Optimizer
    7.2.4SparkPlan
    7.3Parquet文件和JSON数据集
    7.4Hive简介
    7.4.1Hive架构
    7.4.2HiveQLOnMapReduce执行过程分析
    7.5HiveQLOnSpark详解
    7.5.1HiveOnSpark环境搭建
    7.5.2编译支持Hadoop2.x的Spark
    7.5.3运行HiveOnSpark测试用例
    第8章GraphX
    8.1GraphX简介
    8.1.1主要特点
    8.1.2版本演化
    8.1.3应用场景
    8.2分布式图计算处理技术介绍
    8.2.1属性图
    8.2.2图数据的存储与分割
    8.3Pregel计算模型
    8.3.1BSP
    8.3.2像顶点一样思考
    8.4GraphX图计算框架实现分析
    8.4.1基本概念
    8.4.2图的加载与构建
    8.4.3图数据存储与分割
    8.4.4操作接口
    8.4.5Pregel在GraphX中的源码实现
    8.5PageRank
    8.5.1什么是PageRank
    8.5.2PageRank核心思想
    第9章MLLib
    9.1线性回归
    9.1.1数据和估计
    9.1.2线性回归参数求解方法
    9.1.3正则化
    9.2线性回归的代码实现
    9.2.1简单示例
    9.2.2入口函数train
    9.2.3最优化算法optimizer
    9.2.4权重更新update
    9.2.5结果预测predict
    9.3分类算法
    9.3.1逻辑回归
    9.3.2支持向量机
    9.4拟牛顿法
    9.4.1数学原理
    9.4.2代码实现
    9.5MLLib与其他应用模块间的整合

    第四部分附录
    附录ASpark源码调试
    附录B源码阅读技巧
查看详情
相关图书 / 更多
Apache Spark源码剖析
Apache Pulsar实战
(美)戴维·克杰鲁姆加德(David Kjerrumgaard)
Apache Spark源码剖析
Apache APISIX实战
王院生 张晋涛 屠正松 朱欣欣 著
Apache Spark源码剖析
Apache Spark 深度学习实战
[爱尔兰]古列尔莫·伊奥齐亚(Guglielmo Iozzia)
Apache Spark源码剖析
ApplicationTheoryResearchofGob-SideEntryRe
YangHongyun、LiuYanbao、LinZhi 著
Apache Spark源码剖析
Apache Spark大数据分析 基于Azure Databricks云平台
[瑞典]罗伯特·伊利杰森(Robert Ilijason)
Apache Spark源码剖析
AppInventor开发实战
金从军、张路 著
Apache Spark源码剖析
AppInventor智能手机编程与开发
冯敬益 著
Apache Spark源码剖析
App Inventor移动应用开发标准教程 第2版
瞿绍军
Apache Spark源码剖析
Apache Airflow 数据编排实战
朱利安·德·瑞特(Julian de Ruiter)著 殷海英 译;[荷兰]巴斯·哈伦斯拉克(Bas Harenslak)
Apache Spark源码剖析
Apley & Solomon 实用骨科学教程(第10版)
迈克尔 · 怀特豪斯 原著;刘笑 主译;[英]阿什莉·布洛姆;大卫·沃里克;叶招明
Apache Spark源码剖析
App个人信息保护治理实践
中国信息通信研究院
Apache Spark源码剖析
Apache Pulsar原理解析与应用实践
杨国栋 著
您可能感兴趣 / 更多
Apache Spark源码剖析
单髁与全膝关节置换术关键康复
许鹏 李辉 译;[美]弗兰克·R. 诺伊斯(Frank R.Noyes) (美)苏·巴伯 - 威斯汀(Sue Barber-Westin)
Apache Spark源码剖析
广州蓝皮书:广州创新型城市发展报告(2021)
许鹏 编
Apache Spark源码剖析
国家示范性院校重点建设专业酒店管理专业系列教材--酒店管理信息系统教程实训手册
许鹏 著;许鹏、梁铮 编
Apache Spark源码剖析
建筑需求响应控制及应用技术
许鹏 、陈永保、李为林 编著
Apache Spark源码剖析
广州创新型城市发展报告(2019版)/广州蓝皮书
许鹏 编
Apache Spark源码剖析
广州蓝皮书:广州创新型城市发展报告(2018)
许鹏 张赛飞 著
Apache Spark源码剖析
Keynote 超越PPT的苹果商业幻灯片(第2版)
许鹏 著
Apache Spark源码剖析
Keynote:超越PPT的苹果商业幻灯片
许鹏 著
Apache Spark源码剖析
民间诙谐文化与中国当代文学
许鹏 著;曾军
Apache Spark源码剖析
新媒体节目策划论
许鹏 编
Apache Spark源码剖析
二十几岁要有的66种关键能力
许鹏 编
Apache Spark源码剖析
草地资源调查规划学(草业科学专业用)/全国高等农业院校教材
许鹏 编