大数据与数据仓库:集成、架构与管理

大数据与数据仓库:集成、架构与管理
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [印] (Krish Krishnan) ,
2018-05
版次: 1
ISBN: 9787111594826
定价: 79.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 284页
20人买过
  • 数据仓库专家KrishKrishnan以清晰和简明的阐述,带领我们了解在大数据时代如何升级数据仓库并帮助企业做出智能决策。全书分为三部分:部分讨论大数据技术及其应用案例;第二部分讲解数据仓库技术,包括数据仓库的架构选择、工作负载和新兴技术;第三部分讨论大数据和数据仓库的集成,包括数据分析、数据可视化、信息生命周期管理、数据科学家的角色变迁等。本书适合从事数据架构、分析、挖掘等工作的技术人员和管理人员阅读,也适合学习相关专业的学生参考。 克里什·克里希南(Krish Krishnan) Sixth Sense Advisors公司创始人兼CEO,高性能数据仓库解决方案和非结构化数据方面的策略、架构和实现专家。作为富有远见的数据仓库思想领导者和实践者,他是该领域公认的顾问之一。 目  录 

    译者序 

    前言 

    致谢 

    作者简介 

    第一部分 大数据 

    第1章 大数据简介2 

    1.1 引言2 

    1.2 大数据2 

    1.3 大数据的定义4 

    1.4 为什么需要大数据?为什么是现在4 

    1.5 大数据示例5 

    1.5.1 社交媒体的文章5 

    1.5.2 调查数据分析6 

    1.5.3 调查数据7 

    1.5.4 气象数据8 

    1.5.5 Twitter数据8 

    1.5.6 集成和分析8 

    1.5.7 附加数据的类型10 

    1.6 总结11 

    延伸阅读11 

    第2章 使用大数据12 

    2.1 引言12 

    2.2 数据爆炸12 

    2.3 数据体量13 

    2.3.1 机器数据14 

    2.3.2 应用日志14 

    2.3.3 点击流日志14 

    2.3.4 外部或第三方数据15 

    2.3.5 电子邮件15 

    2.3.6 合同15 

    2.3.7 地理信息系统和地理空间数据16 

    2.3.8 示例:Funshots公司17 

    2.4 数据速度19 

    2.4.1 Amazon、Facebook、Yahoo和Google19 

    2.4.2 传感器数据19 

    2.4.3 移动网络20 

    2.4.4 社交媒体20 

    2.5 数据多样性21 

    2.6 总结22 

    第3章 大数据处理架构23 

    3.1 引言23 

    3.2 再论数据处理23 

    3.3 数据处理技术24 

    3.4 数据处理基础设施的挑战25 

    3.4.1 存储25 

    3.4.2 传输25 

    3.4.3 处理26 

    3.4.4 速度或吞吐量26 

    3.5 全共享架构与无共享架构的比较26 

    3.5.1 全共享架构27 

    3.5.2 无共享架构27 

    3.5.3 OLTP与数据仓库28 

    3.6 大数据处理28 

    3.6.1 基础设施方面31 

    3.6.2 数据处理方面32 

    3.7 电信大数据研究32 

    3.7.1 基础设施34 

    3.7.2 数据处理34 

    第4章 大数据技术简介35 

    4.1 引言35 

    4.2 分布式数据处理36 

    4.3 大数据处理需求38 

    4.4 大数据处理技术39 

    4.5 Hadoop42 

    4.5.1 Hadoop核心组件43 

    4.5.2 Hadoop总结69 

    4.6 NoSQL69 

    4.6.1 CAP定理69 

    4.6.2 键-值对:Voldemort70 

    4.6.3 列簇存储:Cassandra70 

    4.6.4 文档数据库:Riak76 

    4.6.5 图数据库77 

    4.6.6 NoSQL小结78 

    4.7 文本ETL处理78 

    延伸阅读79 

    第5章 大数据驱动的商业价值80 

    5.1 引言80 

    5.2 案例研究1:传感器数据81 

    5.2.1 摘要81 

    5.2.2 Vestas81 

    5.2.3 概述81 

    5.2.4 利用风力发电81 

    5.2.5 把气候变成资本82 

    5.2.6 跟踪大数据的挑战83 

    5.2.7 维持数据中心的能源效率83 

    5.3 案例研究2:流数据84 

    5.3.1 摘要84 

    5.3.2 监控和安全:TerraEchos84 

    5.3.3 需求84 

    5.3.4 解决方案84 

    5.3.5 效益84 

    5.3.6 先进的光纤网结合实时流数据85 

    5.3.7 解决方案组件85 

    5.3.8 扩展安全边界创建战略优势85 

    5.3.9 关联传感器数据使得假阳性率为零86 

    5.4 案例研究3:通过大数据分析改善患者预后86 

    5.4.1 摘要86 

    5.4.2 业务目标87 

    5.4.3 挑战87 

    5.4.4 概述:给从业人员新的洞察以指导患者护理87 

    5.4.5 挑战:将传统数据仓库生态系统与大数据融合87 

    5.4.6 解决方案:为大数据分析做好准备88 

    5.4.7 结果:消除“数据陷阱”88 

    5.4.8 为什么是aster88 

    5.4.9 关于Aurora89 

    5.5 案例研究4:安大略大学技术学院—利用关键数据,提供积极的患者护理89 

    5.5.1 摘要89 

    5.5.2 概述89 

    5.5.3 商业上的收益90 

    5.5.4 更好地利用数据资源90 

    5.5.5 智慧医疗保健91 

    5.5.6 解决方案组件91 

    5.5.7 融合人类知识与技术92 

    5.5.8 扩大Artemis的影响92 

    5.6 案例研究5:微软SQL Server客户解决方案93 

    5.6.1 客户画像93 

    5.6.2 解决方案的亮点93 

    5.6.3 业务需求93 

    5.6.4 解决方案94 

    5.6.5 好处94 

    5.7 案例研究6:以客户为中心的数据集成95 

    5.7.1 概述95 

    5.7.2 解决方案设计98 

    5.7.3 促成更好的交叉销售和追加销售的机会99 

    5.8 总结100 

    第二部分 数据仓库 

    第6章 再论数据仓库102 

    6.1 引言102 

    6.2 传统的数据仓库或DW 1.0103 

    6.2.1 数据架构103 

    6.2.2 基础设施104 

    6.2.3 数据仓库的陷阱106 

    6.2.4 建立数据仓库的架构方法111 

    6.3 DW 2.0113 

    6.3.1 Inmon的DW 2.0概述114 

    6.3.2 DSS 2.0概述115 

    6.4 总结116 

    延伸阅读116 

    第7章 数据仓库的再造118 

    7.1 引言118 

    7.2 企业数据仓库平台118 

    7.2.1 事务型系统119 

    7.2.2 运营数据存储区119 

    7.2.3 分段区120 

    7.2.4 数据仓库120 

    7.2.5 数据集市120 

    7.2.6 分析型数据库121 

    7.2.7 数据仓库的问题121 

    7.3 再造数据仓库的选择122 

    7.3.1 平台再造122 

    7.3.2 平台工程123 

    7.3.3 数据工程124 

    7.4 使数据仓库现代化125 

    7.5 使数据仓库现代化的案例研究127 

    7.5.1 当前状态分析127 

    7.5.2 推荐127 

    7.5.3 现代化的业务收益128 

    7.5.4 一体机的选择过程128 

    7.6 总结132 

    第8章 数据仓库中的工作负载管理133 

    8.1 引言133 

    8.2 当前状态133 

    8.3 工作负载的定义134 

    8.4 了解工作负载135 

    8.4.1 数据仓库输出136 

    8.4.2 数据仓库输入137 

    8.5 查询分类138 

    8.5.1 宽/宽138 

    8.5.2 宽/窄139 

    8.5.3 窄/宽139 

    8.5.4 窄/窄139 

    8.5.5 非结构化/半结构化数据140 

    8.6 ETL和CDC的工作负载140 

    8.7 度量141 

    8.8 当前系统设计的局限142 

    8.9 新工作负载和大数据143 

    8.10 技术选择144 

    8.11 总结144 

    第9章 应用到数据仓库的新技术145 

    9.1 引言145 

    9.2
  • 内容简介:
    数据仓库专家KrishKrishnan以清晰和简明的阐述,带领我们了解在大数据时代如何升级数据仓库并帮助企业做出智能决策。全书分为三部分:部分讨论大数据技术及其应用案例;第二部分讲解数据仓库技术,包括数据仓库的架构选择、工作负载和新兴技术;第三部分讨论大数据和数据仓库的集成,包括数据分析、数据可视化、信息生命周期管理、数据科学家的角色变迁等。本书适合从事数据架构、分析、挖掘等工作的技术人员和管理人员阅读,也适合学习相关专业的学生参考。
  • 作者简介:
    克里什·克里希南(Krish Krishnan) Sixth Sense Advisors公司创始人兼CEO,高性能数据仓库解决方案和非结构化数据方面的策略、架构和实现专家。作为富有远见的数据仓库思想领导者和实践者,他是该领域公认的顾问之一。
  • 目录:
    目  录 

    译者序 

    前言 

    致谢 

    作者简介 

    第一部分 大数据 

    第1章 大数据简介2 

    1.1 引言2 

    1.2 大数据2 

    1.3 大数据的定义4 

    1.4 为什么需要大数据?为什么是现在4 

    1.5 大数据示例5 

    1.5.1 社交媒体的文章5 

    1.5.2 调查数据分析6 

    1.5.3 调查数据7 

    1.5.4 气象数据8 

    1.5.5 Twitter数据8 

    1.5.6 集成和分析8 

    1.5.7 附加数据的类型10 

    1.6 总结11 

    延伸阅读11 

    第2章 使用大数据12 

    2.1 引言12 

    2.2 数据爆炸12 

    2.3 数据体量13 

    2.3.1 机器数据14 

    2.3.2 应用日志14 

    2.3.3 点击流日志14 

    2.3.4 外部或第三方数据15 

    2.3.5 电子邮件15 

    2.3.6 合同15 

    2.3.7 地理信息系统和地理空间数据16 

    2.3.8 示例:Funshots公司17 

    2.4 数据速度19 

    2.4.1 Amazon、Facebook、Yahoo和Google19 

    2.4.2 传感器数据19 

    2.4.3 移动网络20 

    2.4.4 社交媒体20 

    2.5 数据多样性21 

    2.6 总结22 

    第3章 大数据处理架构23 

    3.1 引言23 

    3.2 再论数据处理23 

    3.3 数据处理技术24 

    3.4 数据处理基础设施的挑战25 

    3.4.1 存储25 

    3.4.2 传输25 

    3.4.3 处理26 

    3.4.4 速度或吞吐量26 

    3.5 全共享架构与无共享架构的比较26 

    3.5.1 全共享架构27 

    3.5.2 无共享架构27 

    3.5.3 OLTP与数据仓库28 

    3.6 大数据处理28 

    3.6.1 基础设施方面31 

    3.6.2 数据处理方面32 

    3.7 电信大数据研究32 

    3.7.1 基础设施34 

    3.7.2 数据处理34 

    第4章 大数据技术简介35 

    4.1 引言35 

    4.2 分布式数据处理36 

    4.3 大数据处理需求38 

    4.4 大数据处理技术39 

    4.5 Hadoop42 

    4.5.1 Hadoop核心组件43 

    4.5.2 Hadoop总结69 

    4.6 NoSQL69 

    4.6.1 CAP定理69 

    4.6.2 键-值对:Voldemort70 

    4.6.3 列簇存储:Cassandra70 

    4.6.4 文档数据库:Riak76 

    4.6.5 图数据库77 

    4.6.6 NoSQL小结78 

    4.7 文本ETL处理78 

    延伸阅读79 

    第5章 大数据驱动的商业价值80 

    5.1 引言80 

    5.2 案例研究1:传感器数据81 

    5.2.1 摘要81 

    5.2.2 Vestas81 

    5.2.3 概述81 

    5.2.4 利用风力发电81 

    5.2.5 把气候变成资本82 

    5.2.6 跟踪大数据的挑战83 

    5.2.7 维持数据中心的能源效率83 

    5.3 案例研究2:流数据84 

    5.3.1 摘要84 

    5.3.2 监控和安全:TerraEchos84 

    5.3.3 需求84 

    5.3.4 解决方案84 

    5.3.5 效益84 

    5.3.6 先进的光纤网结合实时流数据85 

    5.3.7 解决方案组件85 

    5.3.8 扩展安全边界创建战略优势85 

    5.3.9 关联传感器数据使得假阳性率为零86 

    5.4 案例研究3:通过大数据分析改善患者预后86 

    5.4.1 摘要86 

    5.4.2 业务目标87 

    5.4.3 挑战87 

    5.4.4 概述:给从业人员新的洞察以指导患者护理87 

    5.4.5 挑战:将传统数据仓库生态系统与大数据融合87 

    5.4.6 解决方案:为大数据分析做好准备88 

    5.4.7 结果:消除“数据陷阱”88 

    5.4.8 为什么是aster88 

    5.4.9 关于Aurora89 

    5.5 案例研究4:安大略大学技术学院—利用关键数据,提供积极的患者护理89 

    5.5.1 摘要89 

    5.5.2 概述89 

    5.5.3 商业上的收益90 

    5.5.4 更好地利用数据资源90 

    5.5.5 智慧医疗保健91 

    5.5.6 解决方案组件91 

    5.5.7 融合人类知识与技术92 

    5.5.8 扩大Artemis的影响92 

    5.6 案例研究5:微软SQL Server客户解决方案93 

    5.6.1 客户画像93 

    5.6.2 解决方案的亮点93 

    5.6.3 业务需求93 

    5.6.4 解决方案94 

    5.6.5 好处94 

    5.7 案例研究6:以客户为中心的数据集成95 

    5.7.1 概述95 

    5.7.2 解决方案设计98 

    5.7.3 促成更好的交叉销售和追加销售的机会99 

    5.8 总结100 

    第二部分 数据仓库 

    第6章 再论数据仓库102 

    6.1 引言102 

    6.2 传统的数据仓库或DW 1.0103 

    6.2.1 数据架构103 

    6.2.2 基础设施104 

    6.2.3 数据仓库的陷阱106 

    6.2.4 建立数据仓库的架构方法111 

    6.3 DW 2.0113 

    6.3.1 Inmon的DW 2.0概述114 

    6.3.2 DSS 2.0概述115 

    6.4 总结116 

    延伸阅读116 

    第7章 数据仓库的再造118 

    7.1 引言118 

    7.2 企业数据仓库平台118 

    7.2.1 事务型系统119 

    7.2.2 运营数据存储区119 

    7.2.3 分段区120 

    7.2.4 数据仓库120 

    7.2.5 数据集市120 

    7.2.6 分析型数据库121 

    7.2.7 数据仓库的问题121 

    7.3 再造数据仓库的选择122 

    7.3.1 平台再造122 

    7.3.2 平台工程123 

    7.3.3 数据工程124 

    7.4 使数据仓库现代化125 

    7.5 使数据仓库现代化的案例研究127 

    7.5.1 当前状态分析127 

    7.5.2 推荐127 

    7.5.3 现代化的业务收益128 

    7.5.4 一体机的选择过程128 

    7.6 总结132 

    第8章 数据仓库中的工作负载管理133 

    8.1 引言133 

    8.2 当前状态133 

    8.3 工作负载的定义134 

    8.4 了解工作负载135 

    8.4.1 数据仓库输出136 

    8.4.2 数据仓库输入137 

    8.5 查询分类138 

    8.5.1 宽/宽138 

    8.5.2 宽/窄139 

    8.5.3 窄/宽139 

    8.5.4 窄/窄139 

    8.5.5 非结构化/半结构化数据140 

    8.6 ETL和CDC的工作负载140 

    8.7 度量141 

    8.8 当前系统设计的局限142 

    8.9 新工作负载和大数据143 

    8.10 技术选择144 

    8.11 总结144 

    第9章 应用到数据仓库的新技术145 

    9.1 引言145 

    9.2
查看详情
系列丛书 / 更多
大数据与数据仓库:集成、架构与管理
大数据导论
彭智勇 译
大数据与数据仓库:集成、架构与管理
统计学习导论 基于R应用
[美]加雷斯·詹姆斯、丹妮拉·威滕、特雷弗·哈斯帖 著;王星 译
大数据与数据仓库:集成、架构与管理
大数据分析原理与实践
王宏志 著
大数据与数据仓库:集成、架构与管理
Python机器学习
高明、徐莹、陶虎成 译
大数据与数据仓库:集成、架构与管理
机器学习与R语言(原书第2版)
李洪成、许金炜、李舰 译
大数据与数据仓库:集成、架构与管理
Python机器学习(原书第2版)
瓦希德·米 著;塞巴斯蒂安·拉施卡(Sebastian Raschka)、陈斌 译
大数据与数据仓库:集成、架构与管理
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
[德]西蒙·蒙策尔特 著;吴今朝 译
大数据与数据仓库:集成、架构与管理
机器学习与R语言
[美]Brett Lantz 著;李洪成、许金炜、李舰 译
大数据与数据仓库:集成、架构与管理
基于MPI的大数据高性能计算导论
弗兰克·尼尔森(Frank Nielsen) 著;张伟哲 译
大数据与数据仓库:集成、架构与管理
Python金融数据分析
Weiming 著;杰姆斯·马伟明(James、Ma、高明 译
大数据与数据仓库:集成、架构与管理
统计机器学习导论
[日]杉山将 著;谢宁 译
大数据与数据仓库:集成、架构与管理
Python文本分析
[印度]迪潘简·撒卡尔 著;闫龙川 高德荃 李君婷 译
相关图书 / 更多
大数据与数据仓库:集成、架构与管理
大数学家讲故事:李毓佩数学童话-数学小子杜鲁克
李毓佩
大数据与数据仓库:集成、架构与管理
大数据驱动的突发事件情报感知及快速响应研究
唐明伟,庄玉良
大数据与数据仓库:集成、架构与管理
大数据处理技术基础与应用(Hadoop+Spark)
许桂秋 孙海民 胡贵恒
大数据与数据仓库:集成、架构与管理
大数据警务的崛起
(美)安德鲁.格思里.弗格森
大数据与数据仓库:集成、架构与管理
大数据时代图书馆服务体系的创新与发展
程结晶
大数据与数据仓库:集成、架构与管理
大数据观下的国家情报工作制度研究
马海群 等
大数据与数据仓库:集成、架构与管理
大数据时代政府治理转型研究-(数字政府建设的江苏实践)
范炜烽等著
大数据与数据仓库:集成、架构与管理
大数据环境下数字图书馆创新发展
金济
大数据与数据仓库:集成、架构与管理
大数据背景下公众参与环境治理的程度评估与作用机制研究
史亚东
大数据与数据仓库:集成、架构与管理
大数据医疗:从即时检测设备进行解析
(英)波利亚·阿梅里安,(英)特鲁迪·朗,(英)弗朗索瓦·范·洛格伦伯格
大数据与数据仓库:集成、架构与管理
大数据可视化编程和应用
倪振松 胡煜华 朱家全 主编 谢岳富 陈建平 副主编
大数据与数据仓库:集成、架构与管理
大数据思想政治教育模式构建研究(国家社科基金丛书—其他)
林晶 著
您可能感兴趣 / 更多
大数据与数据仓库:集成、架构与管理
电磁场理论与应用
[印]艾哈迈德·沙希德·汗(Ahmad Shahid Khan);[印]绍拉夫·库马尔·慕克吉(Saurabh Kumar Mukerji)
大数据与数据仓库:集成、架构与管理
金融生态:金融如何助力可持续发展
[印]石天傑 著;郭栋 译
大数据与数据仓库:集成、架构与管理
诺奖作家给孩子的阅读课·品格修养(3-9年级,莫言余华的文学启蒙,垫高阅读起点,提升作文能力)
[印]泰戈尔等
大数据与数据仓库:集成、架构与管理
泰戈尔诗集:飞鸟集 新月集(中英双语 名家译本 精美手绘版)
[印]泰戈尔 著;郑振铎 译;姜兆艳 绘
大数据与数据仓库:集成、架构与管理
PyTorch计算机视觉实战:目标检测、图像处理与深度学习
[印]V·基肖尔·阿耶德瓦拉 (印)耶什万斯·雷迪
大数据与数据仓库:集成、架构与管理
超声引导下区域麻醉实用指南
[印]阿鲁南苏·查克拉博蒂
大数据与数据仓库:集成、架构与管理
Python机器学习实战:基于Scikit-learn与PyTorch的神经网络解决方案
[印]阿什温·帕扬卡 (Ashwin Pajankar) 阿迪亚·乔希 (Aditya Joshi)著 欧拉 译
大数据与数据仓库:集成、架构与管理
全栈测试
[印]加亚特里 默罕(Gayathri Mohan)
大数据与数据仓库:集成、架构与管理
MATLAB 图形学基础
[印]兰詹·帕雷克(Ranjan Parekh) 著;章毓晋 译
大数据与数据仓库:集成、架构与管理
古老智慧的现代实践:辨喜论吠檀多(瑜伽奥义丛书)
[印]斯瓦米·维韦卡南达(辨喜)
大数据与数据仓库:集成、架构与管理
从冥想到三摩地:辨喜论王瑜伽和《瑜伽经》(瑜伽奥义丛书)
[印]斯瓦米·维韦卡南达(辨喜)
大数据与数据仓库:集成、架构与管理
被设想的未来
[印]普立梵(Prem Poddar) 【英】安德鲁·瓦特(Andrew Watt)