大数据集成

大数据集成
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: ,
2017-05
版次: 1
ISBN: 9787111559863
定价: 79.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 186页
9人买过
  •    本书作者在多年研究传统数据集成的基础上,着重分析了大数据背景下的大数据集成。和传统的数据集成相比,大数据集成具有一些新的挑战,例如数据和数据源的海量性、数据的多样性和数据的动态性等。本书共分6章,包括大数据集成的挑战和机遇、模式对齐、记录链接、数据融合、出现的新问题和结论,系统地讨论了解决大数据集成中关键问题的一些重要研究成果和方法,对大数据集成的研究者和实践者都很有帮助。另外本书也可以作为学生学习该领域的入门读物。    Xin Luna Dong(董欣), 2013年加入谷歌公司担任高级研究员,研究兴趣包括数据集成、数据清洗和知识管理。在加入谷歌之前,她是AT&T实验室的研究员。董欣博士硕士毕业于北京大学,本科毕业于南开大学。 
       Divesh Srivastava AT&T实验室数据库领域首席科学家.
    丛书前言 
    译者序 
    前言 
    第1章 大数据集成的挑战和机遇1 
    1.1 传统数据集成2 
    1.1.1 航班示例:数据源2 
    1.1.2 航班示例:数据集成7 
    1.1.3 数据集成:体系结构和三个主要步骤10 
    1.2 大数据集成:挑战12 
    1.2.1 “V”维度13 
    1.2.2 案例研究:深网数据量15 
    1.2.3 案例研究:抽取的领域数据18 
    1.2.4 案例研究:深网数据的质量22 
    1.2.5 案例研究:浅网结构化数据25 
    1.2.6 案例研究:抽取的知识三元组28 
    1.3 大数据集成:机遇30 
    1.3.1 数据冗余性31 
    1.3.2 长数据32 
    1.3.3 大数据平台33 
    1.4 章节安排33 
    第2章 模式对齐34 
    2.1 传统模式对齐:快速导览35 
    2.1.1 中间模式35 
    2.1.2 属性匹配36 
    2.1.3 模式映射37 
    2.1.4 查询问答38 
    2.2 应对多样性和高速性的挑战39 
    2.2.1 概率模式对齐39 
    2.2.2 按需集成用户反馈52 
    2.3 应对多样性和海量性的挑战54 
    2.3.1 集成深网数据55 
    2.3.2 集成Web表格59 
    第3章 记录链接68 
    3.1 传统记录链接:快速导览69 
    3.1.1 两两匹配71 
    3.1.2 聚类72 
    3.1.3 分块74 
    3.2 应对海量性挑战76 
    3.2.1 使用MapReduce并行分块77 
    3.2.2 meta-blocking:修剪两两匹配83 
    3.3 应对高速性挑战88 
    3.4 应对多样性挑战95 
    3.5 应对真实性挑战100 
    3.5.1 时态记录链接100 
    3.5.2 具有唯一性约束的记录链接107 
    第4章 大数据集成:数据融合113 
    4.1 传统数据融合:快速导览114 
    4.2 应对真实性挑战116 
    4.2.1 数据源的准确度117 
    4.2.2 值为真的概率118 
    4.2.3 数据源之间的复制关系121 
    4.2.4 端到端的解决方案128 
    4.2.5 扩展性和适应性131 
    4.3 应对海量性挑战134 
    4.3.1 基于MapReduce框架做离线融合135 
    4.3.2 在线数据融合136 
    4.4 应对高速性挑战142 
    4.5 应对多样性挑战146 
    第5章 大数据集成:出现的新问题149 
    5.1 众包的角色149 
    5.1.1 利用传递关系150 
    5.1.2 众包端到端的工作流155 
    5.1.3 未来的工作158 
    5.2 数据源选择158 
    5.2.1 静态数据源160 
    5.2.2 动态数据源162 
    5.2.3 未来的工作166 
    5.3 数据源分析166 
    5.3.1 Bellman系统167 
    5.3.2 概述数据源170 
    5.3.3 未来的工作174 
    第6章 结论175 
    参考文献177 
    索引184
  • 内容简介:
       本书作者在多年研究传统数据集成的基础上,着重分析了大数据背景下的大数据集成。和传统的数据集成相比,大数据集成具有一些新的挑战,例如数据和数据源的海量性、数据的多样性和数据的动态性等。本书共分6章,包括大数据集成的挑战和机遇、模式对齐、记录链接、数据融合、出现的新问题和结论,系统地讨论了解决大数据集成中关键问题的一些重要研究成果和方法,对大数据集成的研究者和实践者都很有帮助。另外本书也可以作为学生学习该领域的入门读物。
  • 作者简介:
       Xin Luna Dong(董欣), 2013年加入谷歌公司担任高级研究员,研究兴趣包括数据集成、数据清洗和知识管理。在加入谷歌之前,她是AT&T实验室的研究员。董欣博士硕士毕业于北京大学,本科毕业于南开大学。 
       Divesh Srivastava AT&T实验室数据库领域首席科学家.
  • 目录:

    丛书前言 
    译者序 
    前言 
    第1章 大数据集成的挑战和机遇1 
    1.1 传统数据集成2 
    1.1.1 航班示例:数据源2 
    1.1.2 航班示例:数据集成7 
    1.1.3 数据集成:体系结构和三个主要步骤10 
    1.2 大数据集成:挑战12 
    1.2.1 “V”维度13 
    1.2.2 案例研究:深网数据量15 
    1.2.3 案例研究:抽取的领域数据18 
    1.2.4 案例研究:深网数据的质量22 
    1.2.5 案例研究:浅网结构化数据25 
    1.2.6 案例研究:抽取的知识三元组28 
    1.3 大数据集成:机遇30 
    1.3.1 数据冗余性31 
    1.3.2 长数据32 
    1.3.3 大数据平台33 
    1.4 章节安排33 
    第2章 模式对齐34 
    2.1 传统模式对齐:快速导览35 
    2.1.1 中间模式35 
    2.1.2 属性匹配36 
    2.1.3 模式映射37 
    2.1.4 查询问答38 
    2.2 应对多样性和高速性的挑战39 
    2.2.1 概率模式对齐39 
    2.2.2 按需集成用户反馈52 
    2.3 应对多样性和海量性的挑战54 
    2.3.1 集成深网数据55 
    2.3.2 集成Web表格59 
    第3章 记录链接68 
    3.1 传统记录链接:快速导览69 
    3.1.1 两两匹配71 
    3.1.2 聚类72 
    3.1.3 分块74 
    3.2 应对海量性挑战76 
    3.2.1 使用MapReduce并行分块77 
    3.2.2 meta-blocking:修剪两两匹配83 
    3.3 应对高速性挑战88 
    3.4 应对多样性挑战95 
    3.5 应对真实性挑战100 
    3.5.1 时态记录链接100 
    3.5.2 具有唯一性约束的记录链接107 
    第4章 大数据集成:数据融合113 
    4.1 传统数据融合:快速导览114 
    4.2 应对真实性挑战116 
    4.2.1 数据源的准确度117 
    4.2.2 值为真的概率118 
    4.2.3 数据源之间的复制关系121 
    4.2.4 端到端的解决方案128 
    4.2.5 扩展性和适应性131 
    4.3 应对海量性挑战134 
    4.3.1 基于MapReduce框架做离线融合135 
    4.3.2 在线数据融合136 
    4.4 应对高速性挑战142 
    4.5 应对多样性挑战146 
    第5章 大数据集成:出现的新问题149 
    5.1 众包的角色149 
    5.1.1 利用传递关系150 
    5.1.2 众包端到端的工作流155 
    5.1.3 未来的工作158 
    5.2 数据源选择158 
    5.2.1 静态数据源160 
    5.2.2 动态数据源162 
    5.2.3 未来的工作166 
    5.3 数据源分析166 
    5.3.1 Bellman系统167 
    5.3.2 概述数据源170 
    5.3.3 未来的工作174 
    第6章 结论175 
    参考文献177 
    索引184
查看详情
系列丛书 / 更多
大数据集成
大规模元搜索引擎技术
[美]孟卫一(Weiyi Meng) 著;朱亮 译
大数据集成
位置大数据隐私管理
潘晓、霍峥、孟小峰 著
大数据集成
移动数据挖掘
连德富 张富峥 王英子 袁 晶 谢 幸 著
大数据集成
大数据管理概论
孟小峰 著
大数据集成
云数据管理:挑战与机遇
马友忠 译
大数据集成
短文本数据理解
王仲远 著
大数据集成
异构信息网络挖掘:原理和方法
段磊 译
大数据集成
实体识别技术
申德荣、寇月、聂铁铮、于戈 著
大数据集成
大数据、小数据、无数据:网络世界的数据学术
孟小峰、张祎、赵尔平 译
大数据集成
个人数据管理
李玉坤 孟小峰 著
相关图书 / 更多
大数据集成
大数学家讲故事:李毓佩数学童话-数学小子杜鲁克
李毓佩
大数据集成
大数据驱动的突发事件情报感知及快速响应研究
唐明伟,庄玉良
大数据集成
大数据处理技术基础与应用(Hadoop+Spark)
许桂秋 孙海民 胡贵恒
大数据集成
大数据十讲 周烜 陈志广
周烜 陈志广
大数据集成
大数据财务分析
李峰
大数据集成
大数据警务的崛起
(美)安德鲁.格思里.弗格森
大数据集成
大数据观下的国家情报工作制度研究
马海群 等
大数据集成
大数据侦查法治化研究
彭俊磊
大数据集成
大数据环境下数字图书馆创新发展
金济
大数据集成
大数据背景下公众参与环境治理的程度评估与作用机制研究
史亚东
大数据集成
大数据医疗:从即时检测设备进行解析
(英)波利亚·阿梅里安,(英)特鲁迪·朗,(英)弗朗索瓦·范·洛格伦伯格
大数据集成
大数据可视化编程和应用
倪振松 胡煜华 朱家全 主编 谢岳富 陈建平 副主编