大数据项目管理从规划到实现

大数据项目管理从规划到实现
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: (Jonathan Seidman) , [美] (Ted Malaska) ,
2020-01
版次: 1
ISBN: 9787115457363
定价: 59.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 139页
正文语种: 简体中文
33人买过
  • 本书提供了一个框架,从整体上介绍与大数据项目开发相关的基本概念,帮助读者评估大数据项目,理解成功的现代数据项目的基本要素。全书共8章,内容包括现代数据项目的主要类型、生命周期、风险管理、接口设计、分布式存储系统、元数据管理、数据处理等。本书旨在让读者厘清思路,顺利地从数据项目的规划阶段走到执行阶段,实现健壮、可维护的架构和解决方案。 特德·马拉斯卡(Ted Malaska),Capital One的企业架构主管,曾在暴雪娱乐公司担任全球视野工程总监,负责为《魔兽世界》《守望先锋》《炉石传说》等游戏提供支持。他为众多开源项目贡献过代码,并与塞德曼等人合著有《Hadoop应用架构》。

    乔纳森·塞德曼(Jonathan Seidman),Cloudera云计算团队的软件工程师。在加入Cloudera之前,他是Orbitz Worldwide大数据团队的技术负责人,负责为一个流量巨大的网站管理Hadoop集群。塞德曼与马拉斯卡等人合著有《Hadoop应用架构》。

    【译者介绍】

    薛命灯,InfoQ高级社区编辑,毕业于厦门大学软件学院,拥有十余年软件开发和架构经验,曾在多家大型软件公司任职,另译有《Kafka**指南》等技术图书。 前言 ix

    第 1章 数据项目的主要类型及考虑因素 1

    1.1 数据项目的主要类型 1

    1.2 数据管道和数据暂存 3

    1.2.1 主要考虑因素和风险管理 4

    1.2.2 数据管道和数据暂存团队的人员组成 13

    1.3 数据的处理和分析 14

    1.3.1 主要考虑因素和风险管理 14

    1.3.2 数据处理和分析团队的人员组成 17

    1.4 应用程序开发 17

    1.4.1 主要考虑因素和风险管理 18

    1.4.2 应用程序开发团队的人员组成 22

    1.5 小结 22

    第 2章 评估和选择数据管理解决方案 25

    2.1 开源项目的阶段 26

    2.1.1 孵化阶段 27

    2.1.2 发布阶段 27

    2.1.3 “治愈癌症”阶段 27

    2.1.4 打破承诺阶段 28

    2.1.5 强化阶段 29

    2.1.6 企业阶段 30

    2.1.7 终结阶段 30

    2.2 开源项目的常见生命周期 31

    2.2.1 使产品起死回生 32

    2.2.2 追随者 33

    2.3 评估基准测试 34

    2.4 技术选型的考虑因素 35

    2.4.1 了解构建块 36

    2.4.2 寻求建议 37

    2.4.3 从分析师那里获得见解 37

    2.4.4 研究市场趋势 37

    2.5 小结 39

    第3章 数据项目的风险管理 41

    3.1 风险类型 41

    3.1.1 技术风险 41

    3.1.2 团队风险 42

    3.1.3 需求风险 42

    3.2 风险管理 42

    3.2.1 对架构中的风险进行分类 42

    3.2.2 技术风险 45

    3.2.3 团队的优势 45

    3.2.4 外部团队风险 47

    3.2.5 需求风险 47

    3.2.6 融会贯通 47

    3.3 使用原型和PoC 50

    3.3.1 找到两三种方法 50

    3.3.2 进行PoC,然后丢弃 50

    3.3.3 部署的注意事项 50

    3.4 使用接口 51

    3.5 尽早开始构建 52

    3.6 频繁测试并保留记录 52

    3.7 监控和警报 53

    3.8 沟通风险 54

    3.8.1 合作并获得信任 54

    3.8.2 公开风险 54

    3.9 将风险作为谈判工具 55

    3.10 小结 55

    第4章 接口设计 57

    4.1 人体 57

    4.1.1 人体与数据架构 57

    4.1.2 解耦 61

    4.1.3 解耦的注意事项 63

    4.1.4 专门化 64

    4.2 什么造就了好的接口设计 64

    4.2.1 合约 64

    4.2.2 抽象 64

    4.2.3 版本控制 65

    4.2.4 防御 65

    4.2.5 接口的文档和命名 66

    4.3 非功能性考虑因素 67

    4.3.1 可用性 67

    4.3.2 响应时间 68

    4.3.3 负载容量 68

    4.3.4 使用测试来确定SLA 69

    4.4 通用接口示例 69

    4.4.1 发布–订阅 69

    4.4.2 异步请求–响应 71

    4.4.3 同步请求–响应 72

    4.5 小结 73

    第5章 分布式存储系统 75

    5.1 分布式存储系统的属性 75

    5.1.1 谱系 76

    5.1.2 分区 77

    5.1.3 处理数据变更 78

    5.1.4 读取路径 80

    5.1.5 可用性与一致性 84

    5.1.6 主要用例 85

    5.2 存储系统细分 85

    5.2.1 HDFS 86

    5.2.2 S3和对象存储系统 87

    5.2.3 Apache HBase 89

    5.2.4 Apache Cassandra 90

    5.2.5 Elasticsearch和Apache Solr 94

    5.2.6 新进者:Apache Kudu和CockroachDB 95

    5.2.7 内存存储系统 96

    5.3 小结 99

    第6章 企业元数据 101

    6.1 为什么要关注元数据 102

    6.1.1 数据可见性 102

    6.1.2 数据之间的关系 103

    6.1.3 数据监管 104

    6.2 数据架构中的元数据类型 105

    6.2.1 静态数据 106

    6.2.2 动态数据 107

    6.2.3 数据源的元数据 110

    6.2.4 有关数据处理的元数据 111

    6.2.5 报告和仪表盘 112

    6.3 元数据收集 112

    6.3.1 声明式元数据收集 113

    6.3.2 发现式元数据收集 114

    6.4 元数据管理实践 115

    6.5 小结 116

    第7章 确保数据完整性 117

    7.1 构建数据管道 118

    7.2 验证数据管道 123

    7.2.1 行数 123

    7.2.2 唯一计数 124

    7.2.3 全字节比较 124

    7.2.4 校验和比较 125

    7.3 小结 126

    第8章 数据处理 127

    8.1 处理引擎的属性 127

    8.1.1 DAG管理 128

    8.1.2 计算隔离 130

    8.1.3 性能 132

    8.1.4 容错 132

    8.1.5 交互模型 135

    8.1.6 批处理或流处理 135

    8.2 数据处理演变史 136

    8.3 小结 138

    关于作者 139

    关于封面 139
  • 内容简介:
    本书提供了一个框架,从整体上介绍与大数据项目开发相关的基本概念,帮助读者评估大数据项目,理解成功的现代数据项目的基本要素。全书共8章,内容包括现代数据项目的主要类型、生命周期、风险管理、接口设计、分布式存储系统、元数据管理、数据处理等。本书旨在让读者厘清思路,顺利地从数据项目的规划阶段走到执行阶段,实现健壮、可维护的架构和解决方案。
  • 作者简介:
    特德·马拉斯卡(Ted Malaska),Capital One的企业架构主管,曾在暴雪娱乐公司担任全球视野工程总监,负责为《魔兽世界》《守望先锋》《炉石传说》等游戏提供支持。他为众多开源项目贡献过代码,并与塞德曼等人合著有《Hadoop应用架构》。

    乔纳森·塞德曼(Jonathan Seidman),Cloudera云计算团队的软件工程师。在加入Cloudera之前,他是Orbitz Worldwide大数据团队的技术负责人,负责为一个流量巨大的网站管理Hadoop集群。塞德曼与马拉斯卡等人合著有《Hadoop应用架构》。

    【译者介绍】

    薛命灯,InfoQ高级社区编辑,毕业于厦门大学软件学院,拥有十余年软件开发和架构经验,曾在多家大型软件公司任职,另译有《Kafka**指南》等技术图书。
  • 目录:
    前言 ix

    第 1章 数据项目的主要类型及考虑因素 1

    1.1 数据项目的主要类型 1

    1.2 数据管道和数据暂存 3

    1.2.1 主要考虑因素和风险管理 4

    1.2.2 数据管道和数据暂存团队的人员组成 13

    1.3 数据的处理和分析 14

    1.3.1 主要考虑因素和风险管理 14

    1.3.2 数据处理和分析团队的人员组成 17

    1.4 应用程序开发 17

    1.4.1 主要考虑因素和风险管理 18

    1.4.2 应用程序开发团队的人员组成 22

    1.5 小结 22

    第 2章 评估和选择数据管理解决方案 25

    2.1 开源项目的阶段 26

    2.1.1 孵化阶段 27

    2.1.2 发布阶段 27

    2.1.3 “治愈癌症”阶段 27

    2.1.4 打破承诺阶段 28

    2.1.5 强化阶段 29

    2.1.6 企业阶段 30

    2.1.7 终结阶段 30

    2.2 开源项目的常见生命周期 31

    2.2.1 使产品起死回生 32

    2.2.2 追随者 33

    2.3 评估基准测试 34

    2.4 技术选型的考虑因素 35

    2.4.1 了解构建块 36

    2.4.2 寻求建议 37

    2.4.3 从分析师那里获得见解 37

    2.4.4 研究市场趋势 37

    2.5 小结 39

    第3章 数据项目的风险管理 41

    3.1 风险类型 41

    3.1.1 技术风险 41

    3.1.2 团队风险 42

    3.1.3 需求风险 42

    3.2 风险管理 42

    3.2.1 对架构中的风险进行分类 42

    3.2.2 技术风险 45

    3.2.3 团队的优势 45

    3.2.4 外部团队风险 47

    3.2.5 需求风险 47

    3.2.6 融会贯通 47

    3.3 使用原型和PoC 50

    3.3.1 找到两三种方法 50

    3.3.2 进行PoC,然后丢弃 50

    3.3.3 部署的注意事项 50

    3.4 使用接口 51

    3.5 尽早开始构建 52

    3.6 频繁测试并保留记录 52

    3.7 监控和警报 53

    3.8 沟通风险 54

    3.8.1 合作并获得信任 54

    3.8.2 公开风险 54

    3.9 将风险作为谈判工具 55

    3.10 小结 55

    第4章 接口设计 57

    4.1 人体 57

    4.1.1 人体与数据架构 57

    4.1.2 解耦 61

    4.1.3 解耦的注意事项 63

    4.1.4 专门化 64

    4.2 什么造就了好的接口设计 64

    4.2.1 合约 64

    4.2.2 抽象 64

    4.2.3 版本控制 65

    4.2.4 防御 65

    4.2.5 接口的文档和命名 66

    4.3 非功能性考虑因素 67

    4.3.1 可用性 67

    4.3.2 响应时间 68

    4.3.3 负载容量 68

    4.3.4 使用测试来确定SLA 69

    4.4 通用接口示例 69

    4.4.1 发布–订阅 69

    4.4.2 异步请求–响应 71

    4.4.3 同步请求–响应 72

    4.5 小结 73

    第5章 分布式存储系统 75

    5.1 分布式存储系统的属性 75

    5.1.1 谱系 76

    5.1.2 分区 77

    5.1.3 处理数据变更 78

    5.1.4 读取路径 80

    5.1.5 可用性与一致性 84

    5.1.6 主要用例 85

    5.2 存储系统细分 85

    5.2.1 HDFS 86

    5.2.2 S3和对象存储系统 87

    5.2.3 Apache HBase 89

    5.2.4 Apache Cassandra 90

    5.2.5 Elasticsearch和Apache Solr 94

    5.2.6 新进者:Apache Kudu和CockroachDB 95

    5.2.7 内存存储系统 96

    5.3 小结 99

    第6章 企业元数据 101

    6.1 为什么要关注元数据 102

    6.1.1 数据可见性 102

    6.1.2 数据之间的关系 103

    6.1.3 数据监管 104

    6.2 数据架构中的元数据类型 105

    6.2.1 静态数据 106

    6.2.2 动态数据 107

    6.2.3 数据源的元数据 110

    6.2.4 有关数据处理的元数据 111

    6.2.5 报告和仪表盘 112

    6.3 元数据收集 112

    6.3.1 声明式元数据收集 113

    6.3.2 发现式元数据收集 114

    6.4 元数据管理实践 115

    6.5 小结 116

    第7章 确保数据完整性 117

    7.1 构建数据管道 118

    7.2 验证数据管道 123

    7.2.1 行数 123

    7.2.2 唯一计数 124

    7.2.3 全字节比较 124

    7.2.4 校验和比较 125

    7.3 小结 126

    第8章 数据处理 127

    8.1 处理引擎的属性 127

    8.1.1 DAG管理 128

    8.1.2 计算隔离 130

    8.1.3 性能 132

    8.1.4 容错 132

    8.1.5 交互模型 135

    8.1.6 批处理或流处理 135

    8.2 数据处理演变史 136

    8.3 小结 138

    关于作者 139

    关于封面 139
查看详情
12
您可能感兴趣 / 更多
大数据项目管理从规划到实现
苏珊·桑塔格访谈录:我创造了我自己(如何像桑塔格那样去观看,去思考,去成就自我?我们时代睿智的文化偶像,为你揭示铸造自我的秘密!)
乔纳森·科特 苏珊·桑塔格 著;栾志超 译
大数据项目管理从规划到实现
教练的常识
乔纳森·帕斯莫尔(Jonathan Passmore) 特雷西·辛克莱(Tracy Sinclair)
大数据项目管理从规划到实现
原来我很了不起
乔纳森·孙 著;周高逸 译;磨铁文化 出品
大数据项目管理从规划到实现
罗伯特·弗兰克的《美国人》:纪实摄影的艺术
乔纳森·戴
大数据项目管理从规划到实现
世界最高处的小岛
乔纳森·奥克西尔 奥尔加·德米多娃
大数据项目管理从规划到实现
黑猫英语分级读物 中学D级 第1辑(盒装本)
乔纳森·斯威夫特
大数据项目管理从规划到实现
反垄断新范式:恢复竞争性经济
乔纳森·贝克尔
大数据项目管理从规划到实现
莎士比亚诗歌简论(百科通识文库)
乔纳森·F. S. 波斯特
大数据项目管理从规划到实现
重启未来
乔纳森·哈斯克尔(Jonathan Haskel) 斯蒂安·韦斯特莱克(Stian Westlake)
大数据项目管理从规划到实现
汉密尔顿悖论——美国的财政联邦制
乔纳森·A·罗登(Jonathan·A·Rodden)
大数据项目管理从规划到实现
通识文库--格列佛游记+契诃夫短篇小说选+我是猫【全3册】名著阅读旁批旁注 世界经典文学 1-6年级课外阅读绘画书 小学生课外阅读书籍世界经典儿童文学 少儿名著童话故事书 课外阅读故事书
乔纳森 斯威夫特
大数据项目管理从规划到实现
远东冰原上的猫头鹰(一位鸟类学家在俄罗斯远东的寻鸮之旅,一部堪比冒险小说的自然笔记,荣获《泰晤士报》年度自然之书,《纽约时报》年度瞩目之书等奖项)
乔纳森·斯拉特 著;任晴 译