大数据湖最佳实践

大数据湖最佳实践
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: ,
2020-07
版次: 1
ISBN: 9787519845902
定价: 68.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 240页
19人买过
  •   
    l  数据仓库、大数据、数据科学的简单介绍。 
    l  了解企业建立数据湖的各种途径。 
    l  探索如何构建自助服务模型,以及如何让分析师便捷访问数据的最佳实践。 
    l  使用不同的方法来构建数据湖。 
    l  了解不同行业专家实现数据湖的方法。 
      

      
    Alex Gorelik是Waterline Data的首席技术官和创始人,也是三家初创公司的创始人。他曾经担任Informatica的数据质量部经理,负责管理公司的平台和数据集成技术。此外,他还曾是IBM杰出的工程师,也是Exeros和Acta Technology的联合创始人、首席技术官和工程副总裁。 

    前言 1 
    第1 章 数据湖概述 7 
    数据湖的成熟度 9 
    数据水洼  11 
    数据池  12 
    创建成功的数据湖  12 
    适合的平台 13 
    适合的数据 14 
    适合的界面 16 
    数据沼泽  18 
    成功实施数据湖的路线图  20 
    建立数据湖 20 
    规划数据湖 21 
    构建自助服务的数据湖  23 
    构建数据湖  28 
    云上数据湖 29 
    逻辑数据湖 29 
    小结  34 
    第2 章 历史背景 35 
    数据自助服务驱动――数据库的诞生  36 
    分析必要性驱动――数据仓库的诞生  39 
    数据仓库生态系统  40 
    存储和查询数据  41 
    加载数据――数据集成工具  47 
    组织和管理数据  51 
    消费数据  57 
    小结  58 
    第3 章 大数据和数据科学概述 59 
    Hadoop 引领大数据的历史性转变  60 
    Hadoop 文件系统  60 
    MapReduce 作业中计算和存储如何交互  61 
    Schema on Read  63 
    Hadoop 项目  64 
    数据科学  65 
    你的分析机构应该关注什么?  67 
    机器学习  71 
    可解释性  72 
    变更管理  73 
    小结  74 
    第4 章 建立数据湖 75 
    为什么是Hadoop 75 
    防止数据水洼扩散  78 
    利用大数据的优势  79 
    以数据科学为先导  80 
    策略1: 迁移已有功能  83 
    策略2: 为新项目建立数据湖  85 
    策略3: 建立数据治理中心  85 
    哪种策略最适合你?  86 
    小结  88 
    第5 章 从数据池/ 大数据仓库到数据湖 89 
    数据仓库的基本功能  90 
    用于分析的维度模型  91 
    整合不同源的数据  92 
    使用缓慢变化维保存历史记录  93 
    数据仓库作为历史库的局限性  93 
    迁移至数据池  94 
    数据池中保存历史数据  94 
    在数据池中使用缓慢变化维  96 
    数据池演化为数据湖――加载数据仓库中未包含的数据  98 
    原始数据  98 
    外部数据  99 
    IoT 与其他流式数据  102 
    实时数据湖  103 
    Lambda 架构  105 
    数据转换  106 
    目标系统  108 
    数据仓库  109 
    业务数据存储  109 
    实时应用和数据产品  110 
    小结  111 
    第6 章 自助服务优化  112 
    自助服务起源  113 
    业务分析师  115 
    发现和理解数据――企业数据归档  116 
    建立信任  119 
    数据预置  126 
    为分析准备数据  128 
    数据湖数据整理  129 
    用Hadoop 来准备数据  129 
    数据预处理的常见案例  130 
    分析和可视化  133 
    自助式商业智能的新世界  133 
    新的分析工作流  134 
    门卫向店主的角色转变  136 
    管理自助服务  137 
    小结  137 
    第7 章 数据湖架构  139 
    规划数据湖  139 
    原始区  141 
    产品区  142 
    工作区  144 
    敏感区  145 
    多数据湖  146 
    保持各数据湖独立的优势  147 
    合并多数据湖的优势  147 
    云上数据湖  148 
    虚拟数据湖  151 
    数据联邦  151 
    大数据虚拟化  152 
    消除冗余  154 
    小结  156 
    第8 章 数据湖元数据  157 
    组织数据  157 
    技术元数据 159 
    业务元数据 164 
    打标  166 
    自动编目  167 
    逻辑数据管理  169 
    敏感数据管理和访问控制  169 
    数据质量  170 
    连接分散的数据  172 
    建立血缘关系  174 
    数据预置  176 
    创建目录的工具  176 
    工具对比  177 
    数据洋  178 
    小结  179 
    第9 章 数据访问控制  180 
    授权与访问控制  181 
    基于标签的控制策略  182 
    数据脱敏  186 
    数据主权与法规  189 
    自助服务访问管理  191 
    预置数据  196 
    小结  204 
    第10 章 行业案例  205 
    金融服务大数据  206 
    消费者、数字化和数据正在改变我们所熟知的金融行业  206 
    拯救银行  208 
    新数据提供新机遇  212 
    使用数据湖的关键过程  215 
    数据湖为金融服务领域带来的价值  218 
    保险行业中的数据湖  220 
    智慧城市  222 
    医疗大数据  224 
    作者介绍  227 
    封面介绍  227 

  • 内容简介:
      
    l  数据仓库、大数据、数据科学的简单介绍。 
    l  了解企业建立数据湖的各种途径。 
    l  探索如何构建自助服务模型,以及如何让分析师便捷访问数据的最佳实践。 
    l  使用不同的方法来构建数据湖。 
    l  了解不同行业专家实现数据湖的方法。 
      

  • 作者简介:
      
    Alex Gorelik是Waterline Data的首席技术官和创始人,也是三家初创公司的创始人。他曾经担任Informatica的数据质量部经理,负责管理公司的平台和数据集成技术。此外,他还曾是IBM杰出的工程师,也是Exeros和Acta Technology的联合创始人、首席技术官和工程副总裁。 

  • 目录:
    前言 1 
    第1 章 数据湖概述 7 
    数据湖的成熟度 9 
    数据水洼  11 
    数据池  12 
    创建成功的数据湖  12 
    适合的平台 13 
    适合的数据 14 
    适合的界面 16 
    数据沼泽  18 
    成功实施数据湖的路线图  20 
    建立数据湖 20 
    规划数据湖 21 
    构建自助服务的数据湖  23 
    构建数据湖  28 
    云上数据湖 29 
    逻辑数据湖 29 
    小结  34 
    第2 章 历史背景 35 
    数据自助服务驱动――数据库的诞生  36 
    分析必要性驱动――数据仓库的诞生  39 
    数据仓库生态系统  40 
    存储和查询数据  41 
    加载数据――数据集成工具  47 
    组织和管理数据  51 
    消费数据  57 
    小结  58 
    第3 章 大数据和数据科学概述 59 
    Hadoop 引领大数据的历史性转变  60 
    Hadoop 文件系统  60 
    MapReduce 作业中计算和存储如何交互  61 
    Schema on Read  63 
    Hadoop 项目  64 
    数据科学  65 
    你的分析机构应该关注什么?  67 
    机器学习  71 
    可解释性  72 
    变更管理  73 
    小结  74 
    第4 章 建立数据湖 75 
    为什么是Hadoop 75 
    防止数据水洼扩散  78 
    利用大数据的优势  79 
    以数据科学为先导  80 
    策略1: 迁移已有功能  83 
    策略2: 为新项目建立数据湖  85 
    策略3: 建立数据治理中心  85 
    哪种策略最适合你?  86 
    小结  88 
    第5 章 从数据池/ 大数据仓库到数据湖 89 
    数据仓库的基本功能  90 
    用于分析的维度模型  91 
    整合不同源的数据  92 
    使用缓慢变化维保存历史记录  93 
    数据仓库作为历史库的局限性  93 
    迁移至数据池  94 
    数据池中保存历史数据  94 
    在数据池中使用缓慢变化维  96 
    数据池演化为数据湖――加载数据仓库中未包含的数据  98 
    原始数据  98 
    外部数据  99 
    IoT 与其他流式数据  102 
    实时数据湖  103 
    Lambda 架构  105 
    数据转换  106 
    目标系统  108 
    数据仓库  109 
    业务数据存储  109 
    实时应用和数据产品  110 
    小结  111 
    第6 章 自助服务优化  112 
    自助服务起源  113 
    业务分析师  115 
    发现和理解数据――企业数据归档  116 
    建立信任  119 
    数据预置  126 
    为分析准备数据  128 
    数据湖数据整理  129 
    用Hadoop 来准备数据  129 
    数据预处理的常见案例  130 
    分析和可视化  133 
    自助式商业智能的新世界  133 
    新的分析工作流  134 
    门卫向店主的角色转变  136 
    管理自助服务  137 
    小结  137 
    第7 章 数据湖架构  139 
    规划数据湖  139 
    原始区  141 
    产品区  142 
    工作区  144 
    敏感区  145 
    多数据湖  146 
    保持各数据湖独立的优势  147 
    合并多数据湖的优势  147 
    云上数据湖  148 
    虚拟数据湖  151 
    数据联邦  151 
    大数据虚拟化  152 
    消除冗余  154 
    小结  156 
    第8 章 数据湖元数据  157 
    组织数据  157 
    技术元数据 159 
    业务元数据 164 
    打标  166 
    自动编目  167 
    逻辑数据管理  169 
    敏感数据管理和访问控制  169 
    数据质量  170 
    连接分散的数据  172 
    建立血缘关系  174 
    数据预置  176 
    创建目录的工具  176 
    工具对比  177 
    数据洋  178 
    小结  179 
    第9 章 数据访问控制  180 
    授权与访问控制  181 
    基于标签的控制策略  182 
    数据脱敏  186 
    数据主权与法规  189 
    自助服务访问管理  191 
    预置数据  196 
    小结  204 
    第10 章 行业案例  205 
    金融服务大数据  206 
    消费者、数字化和数据正在改变我们所熟知的金融行业  206 
    拯救银行  208 
    新数据提供新机遇  212 
    使用数据湖的关键过程  215 
    数据湖为金融服务领域带来的价值  218 
    保险行业中的数据湖  220 
    智慧城市  222 
    医疗大数据  224 
    作者介绍  227 
    封面介绍  227 

查看详情
12
相关图书 / 更多
您可能感兴趣 / 更多
大数据湖最佳实践
TensorFlow机器学习实用指南
Alexia;Audevart
大数据湖最佳实践
Python技术手册 第4版(影印版)
Alex Martelli
大数据湖最佳实践
城市环境教育概论
Alex Russ Marianne 著
大数据湖最佳实践
牛津阅读手册
Alexander Pollatsek
大数据湖最佳实践
SparkNLP自然语言处理(影印版)
AlexThomas 著
大数据湖最佳实践
汗青堂丛书084·查理大帝
Alessandro、Barbero 著
大数据湖最佳实践
代数几何学原理III.凝聚层的上同调
Alexander、Grothe 著
大数据湖最佳实践
人工智能在网络安全中的应用
AlessandroParisi
大数据湖最佳实践
分子生物学(第四版导读版)
Alexander McLennan、Andy Bates、Phil Turner、Mike White 编
大数据湖最佳实践
Python编程基础(视频讲解版)
Alex、武沛齐、王战山 著
大数据湖最佳实践
外观设计保护:德国、欧盟、美国、日本、中国与韩国的法规与实践(原书第4版)
Alexander、Bulling、Angelika、Langöhrig 著
大数据湖最佳实践
代数几何学原理II.几类态射的整体性质
Alexander、Grothe 著