大数据之路 阿里巴巴大数据实践

大数据之路 阿里巴巴大数据实践
7.9
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
出版社: 电子工业出版社
2017-07
版次: 1
ISBN: 9787121314384
定价: 79.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 336页
  •   在阿里巴巴集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“双11购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。  《大数据之路:阿里巴巴大数据实践》就是在此背景下完成的。《大数据之路:阿里巴巴大数据实践》中讲到的阿里巴巴大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。  《大数据之路:阿里巴巴大数据实践》由阿里巴巴数据技术及产品部组织并完成写作,是阿里巴巴分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信《大数据之路:阿里巴巴大数据实践》中的实践和思考对同行会有很大的启发和借鉴意义。   阿里巴巴数据技术及产品部,定位于阿里集团数据中台,为阿里生态内外的业务、用户、中小企业提供全链路、全渠道的数据服务。作为阿里大数据战略的核心践行者,致力于“让大数据赋能商业,创造价值”。经过多年的实践,数据技术及产品部已经构建了从底层的数据采集、数据处理,到挖掘算法、数据应用服务以及数据产品的全链路、标准化的大数据体系。通过这个体系,超过EB级别的海量数据能够高效融合,并以秒级的响应速度,服务并驱动阿里巴巴自身的业务和外部千万用户的发展。现在,阿里巴巴数据技术及产品部正通过技术和产品上的创新,探索全域数据的价值,将阿里在大数据上沉淀的能力对外分享,为各行各业的发展带来更多可能性。  第1篇  数据技术篇 
    第1章  总述1 
     
    第2章  日志采集 82.1  浏览器的页面日志采集 82.1.1  页面浏览日志采集流程 92.1.2  页面交互日志采集 142.1.3  页面日志的服务器端清洗和预处理 152.2  无线客户端的日志采集 162.2.1  页面事件 172.2.2  控件点击及其他事件 182.2.3  特殊场景 192.2.4  H5 & Native日志统一 202.2.5  设备标识 222.2.6  日志传输 232.3  日志采集的挑战 242.3.1  典型场景 242.3.2  大促保障 26 
    第3章  数据同步 293.1  数据同步基础 293.1.1  直连同步 303.1.2  数据文件同步 303.1.3  数据库日志解析同步 313.2  阿里数据仓库的同步方式 353.2.1  批量数据同步 353.2.2  实时数据同步 373.3  数据同步遇到的问题与解决方案 393.3.1  分库分表的处理 393.3.2  高效同步和批量同步 413.3.3  增量与全量同步的合并 423.3.4  同步性能的处理 433.3.5  数据漂移的处理 45 
    第4章  离线数据开发 484.1  数据开发平台 484.1.1  统一计算平台 494.1.2  统一开发平台 534.2  任务调度系统 584.2.1  背景 584.2.2  介绍 604.2.3  特点及应用 65 
    第5章  实时技术 685.1  简介 695.2  流式技术架构 715.2.1  数据采集 725.2.2  数据处理 745.2.3  数据存储 785.2.4  数据服务 805.3  流式数据模型 805.3.1  数据分层 805.3.2  多流关联 835.3.3  维表使用 845.4  大促挑战&保障 865.4.1  大促特征 865.4.2  大促保障 88 
    第6章  数据服务 916.1  服务架构演进 916.1.1  DWSOA 926.1.2  OpenAPI 936.1.3  SmartDQ 946.1.4  统一的数据服务层 966.2  技术架构 976.2.1  SmartDQ 976.2.2  iPush 1006.2.3  Lego 1016.2.4  uTiming 1026.3  最佳实践 1036.3.1  性能 1036.3.2  稳定性 111 
    第7章  数据挖掘 1167.1  数据挖掘概述 1167.2  数据挖掘算法平台 1177.3  数据挖掘中台体系 1197.3.1  挖掘数据中台 1207.3.2  挖掘算法中台 1227.4  数据挖掘案例 1237.4.1  用户画像 1237.4.2  互联网反作弊 125 
    第2篇  数据模型篇第8章  大数据领域建模综述 1308.1  为什么需要数据建模 1308.2  关系数据库系统和数据仓库 1318.3  从OLTP和OLAP系统的区别看模型方法论的选择 1328.4  典型的数据仓库建模方法论 1328.4.1  ER模型 1328.4.2  维度模型 1338.4.3  Data Vault模型 1348.4.4  Anchor模型 1358.5  阿里巴巴数据模型实践综述 136 
    第9章  阿里巴巴数据整合及管理体系 1389.1  概述 1389.1.1  定位及价值 1399.1.2  体系架构 1399.2  规范定义 1409.2.1  名词术语 1419.2.2  指标体系 1419.3  模型设计 1489.3.1  指导理论 1489.3.2  模型层次 1489.3.3  基本原则 1509.4  模型实施 1529.4.1  业界常用的模型实施过程 1529.4.2  OneData实施过程 154 
    第10章  维度设计 15910.1  维度设计基础 15910.1.1  维度的基本概念 15910.1.2  维度的基本设计方法 16010.1.3  维度的层次结构 16210.1.4  规范化和反规范化 16310.1.5  一致性维度和交叉探查 16510.2  维度设计高级主题 16610.2.1  维度整合 16610.2.2  水平拆分 16910.2.3  垂直拆分 17010.2.4  历史归档 17110.3  维度变化 17210.3.1  缓慢变化维 17210.3.2  快照维表 17410.3.3  极限存储 17510.3.4  微型维度 17810.4  特殊维度 18010.4.1  递归层次 18010.4.2  行为维度 18410.4.3  多值维度 18510.4.4  多值属性 18710.4.5  杂项维度 188 
    第11章  事实表设计 19011.1  事实表基础 19011.1.1  事实表特性 19011.1.2  事实表设计原则 19111.1.3  事实表设计方法 19311.2  事务事实表 19611.2.1  设计过程 19611.2.2  单事务事实表 20011.2.3  多事务事实表 20211.2.4  两种事实表对比 20611.2.5  父子事实的处理方式 20811.2.6  事实的设计准则 20911.3  周期快照事实表 21011.3.1  特性 21111.3.2  实例 21211.3.3  注意事项 21711.4  累积快照事实表 21811.4.1  设计过程 21811.4.2  特点 22111.4.3  特殊处理 22311.4.4  物理实现 22511.5  三种事实表的比较 22711.6  无事实的事实表 22811.7  聚集型事实表 22811.7.1  聚集的基本原则 22911.7.2  聚集的基本步骤 22911.7.3  阿里公共汇总层 23011.7.4  聚集补充说明 234 
    第3篇  数据管理篇第12章  元数据 23612.1  元数据概述 23612.1.1  元数据定义 23612.1.2  元数据价值 23712.1.3  统一元数据体系建设 23812.2  元数据应用 23912.2.1  Data Profile 23912.2.2  元数据门户 24112.2.3  应用链路分析 24112.2.4  数据建模 24212.2.5  驱动ETL开发 243 
    第13章  计算管理 24513.1  系统优化 24513.1.1  HBO 24613.1.2  CBO 24913.2  任务优化 25613.2.1  Map倾斜 25713.2.2  Join倾斜 261 
    13.2.3  Reduce倾斜 269 
     
    第14章  存储和成本管理 27514.1  数据压缩 27514.2  数据重分布 27614.3  存储治理项优化 27714.4  生命周期管理 27814.4.1  生命周期管理策略 27814.4.2  通用的生命周期管理矩阵 28014.5  数据成本计量 28314.6  数据使用计费 284 
    第15章  数据质量 28515.1  数据质量保障原则 28515.2  数据质量方法概述 28715.2.1  消费场景知晓 28915.2.2  数据加工过程卡点校验 29215.2.3  风险点监控 29515.2.4  质量衡量 299 
    第4篇  数据应用篇第16章  数据应用 30416.1  生意参谋 30516.1.1  背景概述 30516.1.2  功能架构与技术能力 30716.1.3  商家应用实践 31016.2  对内数据产品平台 31316.2.1  定位 31316.2.2  产品建设历程 31416.2.3  整体架构介绍 317 
    附录A  本书插图索引 320
  • 内容简介:
      在阿里巴巴集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“双11购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。  《大数据之路:阿里巴巴大数据实践》就是在此背景下完成的。《大数据之路:阿里巴巴大数据实践》中讲到的阿里巴巴大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。  《大数据之路:阿里巴巴大数据实践》由阿里巴巴数据技术及产品部组织并完成写作,是阿里巴巴分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信《大数据之路:阿里巴巴大数据实践》中的实践和思考对同行会有很大的启发和借鉴意义。
  • 作者简介:
      阿里巴巴数据技术及产品部,定位于阿里集团数据中台,为阿里生态内外的业务、用户、中小企业提供全链路、全渠道的数据服务。作为阿里大数据战略的核心践行者,致力于“让大数据赋能商业,创造价值”。经过多年的实践,数据技术及产品部已经构建了从底层的数据采集、数据处理,到挖掘算法、数据应用服务以及数据产品的全链路、标准化的大数据体系。通过这个体系,超过EB级别的海量数据能够高效融合,并以秒级的响应速度,服务并驱动阿里巴巴自身的业务和外部千万用户的发展。现在,阿里巴巴数据技术及产品部正通过技术和产品上的创新,探索全域数据的价值,将阿里在大数据上沉淀的能力对外分享,为各行各业的发展带来更多可能性。
  • 目录:
     第1篇  数据技术篇 
    第1章  总述1 
     
    第2章  日志采集 82.1  浏览器的页面日志采集 82.1.1  页面浏览日志采集流程 92.1.2  页面交互日志采集 142.1.3  页面日志的服务器端清洗和预处理 152.2  无线客户端的日志采集 162.2.1  页面事件 172.2.2  控件点击及其他事件 182.2.3  特殊场景 192.2.4  H5 & Native日志统一 202.2.5  设备标识 222.2.6  日志传输 232.3  日志采集的挑战 242.3.1  典型场景 242.3.2  大促保障 26 
    第3章  数据同步 293.1  数据同步基础 293.1.1  直连同步 303.1.2  数据文件同步 303.1.3  数据库日志解析同步 313.2  阿里数据仓库的同步方式 353.2.1  批量数据同步 353.2.2  实时数据同步 373.3  数据同步遇到的问题与解决方案 393.3.1  分库分表的处理 393.3.2  高效同步和批量同步 413.3.3  增量与全量同步的合并 423.3.4  同步性能的处理 433.3.5  数据漂移的处理 45 
    第4章  离线数据开发 484.1  数据开发平台 484.1.1  统一计算平台 494.1.2  统一开发平台 534.2  任务调度系统 584.2.1  背景 584.2.2  介绍 604.2.3  特点及应用 65 
    第5章  实时技术 685.1  简介 695.2  流式技术架构 715.2.1  数据采集 725.2.2  数据处理 745.2.3  数据存储 785.2.4  数据服务 805.3  流式数据模型 805.3.1  数据分层 805.3.2  多流关联 835.3.3  维表使用 845.4  大促挑战&保障 865.4.1  大促特征 865.4.2  大促保障 88 
    第6章  数据服务 916.1  服务架构演进 916.1.1  DWSOA 926.1.2  OpenAPI 936.1.3  SmartDQ 946.1.4  统一的数据服务层 966.2  技术架构 976.2.1  SmartDQ 976.2.2  iPush 1006.2.3  Lego 1016.2.4  uTiming 1026.3  最佳实践 1036.3.1  性能 1036.3.2  稳定性 111 
    第7章  数据挖掘 1167.1  数据挖掘概述 1167.2  数据挖掘算法平台 1177.3  数据挖掘中台体系 1197.3.1  挖掘数据中台 1207.3.2  挖掘算法中台 1227.4  数据挖掘案例 1237.4.1  用户画像 1237.4.2  互联网反作弊 125 
    第2篇  数据模型篇第8章  大数据领域建模综述 1308.1  为什么需要数据建模 1308.2  关系数据库系统和数据仓库 1318.3  从OLTP和OLAP系统的区别看模型方法论的选择 1328.4  典型的数据仓库建模方法论 1328.4.1  ER模型 1328.4.2  维度模型 1338.4.3  Data Vault模型 1348.4.4  Anchor模型 1358.5  阿里巴巴数据模型实践综述 136 
    第9章  阿里巴巴数据整合及管理体系 1389.1  概述 1389.1.1  定位及价值 1399.1.2  体系架构 1399.2  规范定义 1409.2.1  名词术语 1419.2.2  指标体系 1419.3  模型设计 1489.3.1  指导理论 1489.3.2  模型层次 1489.3.3  基本原则 1509.4  模型实施 1529.4.1  业界常用的模型实施过程 1529.4.2  OneData实施过程 154 
    第10章  维度设计 15910.1  维度设计基础 15910.1.1  维度的基本概念 15910.1.2  维度的基本设计方法 16010.1.3  维度的层次结构 16210.1.4  规范化和反规范化 16310.1.5  一致性维度和交叉探查 16510.2  维度设计高级主题 16610.2.1  维度整合 16610.2.2  水平拆分 16910.2.3  垂直拆分 17010.2.4  历史归档 17110.3  维度变化 17210.3.1  缓慢变化维 17210.3.2  快照维表 17410.3.3  极限存储 17510.3.4  微型维度 17810.4  特殊维度 18010.4.1  递归层次 18010.4.2  行为维度 18410.4.3  多值维度 18510.4.4  多值属性 18710.4.5  杂项维度 188 
    第11章  事实表设计 19011.1  事实表基础 19011.1.1  事实表特性 19011.1.2  事实表设计原则 19111.1.3  事实表设计方法 19311.2  事务事实表 19611.2.1  设计过程 19611.2.2  单事务事实表 20011.2.3  多事务事实表 20211.2.4  两种事实表对比 20611.2.5  父子事实的处理方式 20811.2.6  事实的设计准则 20911.3  周期快照事实表 21011.3.1  特性 21111.3.2  实例 21211.3.3  注意事项 21711.4  累积快照事实表 21811.4.1  设计过程 21811.4.2  特点 22111.4.3  特殊处理 22311.4.4  物理实现 22511.5  三种事实表的比较 22711.6  无事实的事实表 22811.7  聚集型事实表 22811.7.1  聚集的基本原则 22911.7.2  聚集的基本步骤 22911.7.3  阿里公共汇总层 23011.7.4  聚集补充说明 234 
    第3篇  数据管理篇第12章  元数据 23612.1  元数据概述 23612.1.1  元数据定义 23612.1.2  元数据价值 23712.1.3  统一元数据体系建设 23812.2  元数据应用 23912.2.1  Data Profile 23912.2.2  元数据门户 24112.2.3  应用链路分析 24112.2.4  数据建模 24212.2.5  驱动ETL开发 243 
    第13章  计算管理 24513.1  系统优化 24513.1.1  HBO 24613.1.2  CBO 24913.2  任务优化 25613.2.1  Map倾斜 25713.2.2  Join倾斜 261 
    13.2.3  Reduce倾斜 269 
     
    第14章  存储和成本管理 27514.1  数据压缩 27514.2  数据重分布 27614.3  存储治理项优化 27714.4  生命周期管理 27814.4.1  生命周期管理策略 27814.4.2  通用的生命周期管理矩阵 28014.5  数据成本计量 28314.6  数据使用计费 284 
    第15章  数据质量 28515.1  数据质量保障原则 28515.2  数据质量方法概述 28715.2.1  消费场景知晓 28915.2.2  数据加工过程卡点校验 29215.2.3  风险点监控 29515.2.4  质量衡量 299 
    第4篇  数据应用篇第16章  数据应用 30416.1  生意参谋 30516.1.1  背景概述 30516.1.2  功能架构与技术能力 30716.1.3  商家应用实践 31016.2  对内数据产品平台 31316.2.1  定位 31316.2.2  产品建设历程 31416.2.3  整体架构介绍 317 
    附录A  本书插图索引 320
查看详情
好书推荐 / 更多
大数据之路 阿里巴巴大数据实践
伊坂幸太郎:疾风号(新版)
[日]伊坂幸太郎 著;代珂 译
大数据之路 阿里巴巴大数据实践
鸟·凶宅·牧歌
普劳图斯 著;阿里斯托芬(Aristophanes)、杨宪益 译
大数据之路 阿里巴巴大数据实践
摄影哲学的思考(影像文丛系列丛书)
威廉;弗卢塞尔
大数据之路 阿里巴巴大数据实践
左传撷华
林纾 著;低音 出品
大数据之路 阿里巴巴大数据实践
明代宦官制度研究
胡丹 著
大数据之路 阿里巴巴大数据实践
鼠小兵:1152年冬
[美]大卫·彼得森 著;方堃 译
大数据之路 阿里巴巴大数据实践
276幅珍贵设计手稿:伟大建筑手稿
海伦·托马斯(Helen Thomas) 著;马尧、婷玉 译
大数据之路 阿里巴巴大数据实践
银幕形象创造:百年诞辰典藏纪念版
赵丹 著
大数据之路 阿里巴巴大数据实践
不同的音调:自闭症的故事
[美]约翰·唐文(John Donvan)、凯伦·祖克(Caren Zucker) 著
大数据之路 阿里巴巴大数据实践
真名实姓:弗诺·文奇的科幻世界与现代计算机网络的发展
[美]弗诺·文奇 著;李克勤 译
大数据之路 阿里巴巴大数据实践
甲骨文丛书·巴比伦:美索不达米亚和文明的诞生
保罗·克里瓦切克(Paul Kriwaczek) 著;陈沅 译
大数据之路 阿里巴巴大数据实践
艺术与观念04·澳大利亚土著艺术
[澳]霍华德·墨菲 著;苗纡 译