大数据集成
出版时间:
2017-05
版次:
1
ISBN:
9787111559863
定价:
79.00
装帧:
平装
开本:
16开
纸张:
胶版纸
页数:
186页
9人买过
-
本书作者在多年研究传统数据集成的基础上,着重分析了大数据背景下的大数据集成。和传统的数据集成相比,大数据集成具有一些新的挑战,例如数据和数据源的海量性、数据的多样性和数据的动态性等。本书共分6章,包括大数据集成的挑战和机遇、模式对齐、记录链接、数据融合、出现的新问题和结论,系统地讨论了解决大数据集成中关键问题的一些重要研究成果和方法,对大数据集成的研究者和实践者都很有帮助。另外本书也可以作为学生学习该领域的入门读物。 Xin Luna Dong(董欣), 2013年加入谷歌公司担任高级研究员,研究兴趣包括数据集成、数据清洗和知识管理。在加入谷歌之前,她是AT&T实验室的研究员。董欣博士硕士毕业于北京大学,本科毕业于南开大学。
Divesh Srivastava AT&T实验室数据库领域首席科学家.
丛书前言
译者序
前言
第1章 大数据集成的挑战和机遇1
1.1 传统数据集成2
1.1.1 航班示例:数据源2
1.1.2 航班示例:数据集成7
1.1.3 数据集成:体系结构和三个主要步骤10
1.2 大数据集成:挑战12
1.2.1 “V”维度13
1.2.2 案例研究:深网数据量15
1.2.3 案例研究:抽取的领域数据18
1.2.4 案例研究:深网数据的质量22
1.2.5 案例研究:浅网结构化数据25
1.2.6 案例研究:抽取的知识三元组28
1.3 大数据集成:机遇30
1.3.1 数据冗余性31
1.3.2 长数据32
1.3.3 大数据平台33
1.4 章节安排33
第2章 模式对齐34
2.1 传统模式对齐:快速导览35
2.1.1 中间模式35
2.1.2 属性匹配36
2.1.3 模式映射37
2.1.4 查询问答38
2.2 应对多样性和高速性的挑战39
2.2.1 概率模式对齐39
2.2.2 按需集成用户反馈52
2.3 应对多样性和海量性的挑战54
2.3.1 集成深网数据55
2.3.2 集成Web表格59
第3章 记录链接68
3.1 传统记录链接:快速导览69
3.1.1 两两匹配71
3.1.2 聚类72
3.1.3 分块74
3.2 应对海量性挑战76
3.2.1 使用MapReduce并行分块77
3.2.2 meta-blocking:修剪两两匹配83
3.3 应对高速性挑战88
3.4 应对多样性挑战95
3.5 应对真实性挑战100
3.5.1 时态记录链接100
3.5.2 具有唯一性约束的记录链接107
第4章 大数据集成:数据融合113
4.1 传统数据融合:快速导览114
4.2 应对真实性挑战116
4.2.1 数据源的准确度117
4.2.2 值为真的概率118
4.2.3 数据源之间的复制关系121
4.2.4 端到端的解决方案128
4.2.5 扩展性和适应性131
4.3 应对海量性挑战134
4.3.1 基于MapReduce框架做离线融合135
4.3.2 在线数据融合136
4.4 应对高速性挑战142
4.5 应对多样性挑战146
第5章 大数据集成:出现的新问题149
5.1 众包的角色149
5.1.1 利用传递关系150
5.1.2 众包端到端的工作流155
5.1.3 未来的工作158
5.2 数据源选择158
5.2.1 静态数据源160
5.2.2 动态数据源162
5.2.3 未来的工作166
5.3 数据源分析166
5.3.1 Bellman系统167
5.3.2 概述数据源170
5.3.3 未来的工作174
第6章 结论175
参考文献177
索引184
-
内容简介:
本书作者在多年研究传统数据集成的基础上,着重分析了大数据背景下的大数据集成。和传统的数据集成相比,大数据集成具有一些新的挑战,例如数据和数据源的海量性、数据的多样性和数据的动态性等。本书共分6章,包括大数据集成的挑战和机遇、模式对齐、记录链接、数据融合、出现的新问题和结论,系统地讨论了解决大数据集成中关键问题的一些重要研究成果和方法,对大数据集成的研究者和实践者都很有帮助。另外本书也可以作为学生学习该领域的入门读物。
-
作者简介:
Xin Luna Dong(董欣), 2013年加入谷歌公司担任高级研究员,研究兴趣包括数据集成、数据清洗和知识管理。在加入谷歌之前,她是AT&T实验室的研究员。董欣博士硕士毕业于北京大学,本科毕业于南开大学。
Divesh Srivastava AT&T实验室数据库领域首席科学家.
-
目录:
丛书前言
译者序
前言
第1章 大数据集成的挑战和机遇1
1.1 传统数据集成2
1.1.1 航班示例:数据源2
1.1.2 航班示例:数据集成7
1.1.3 数据集成:体系结构和三个主要步骤10
1.2 大数据集成:挑战12
1.2.1 “V”维度13
1.2.2 案例研究:深网数据量15
1.2.3 案例研究:抽取的领域数据18
1.2.4 案例研究:深网数据的质量22
1.2.5 案例研究:浅网结构化数据25
1.2.6 案例研究:抽取的知识三元组28
1.3 大数据集成:机遇30
1.3.1 数据冗余性31
1.3.2 长数据32
1.3.3 大数据平台33
1.4 章节安排33
第2章 模式对齐34
2.1 传统模式对齐:快速导览35
2.1.1 中间模式35
2.1.2 属性匹配36
2.1.3 模式映射37
2.1.4 查询问答38
2.2 应对多样性和高速性的挑战39
2.2.1 概率模式对齐39
2.2.2 按需集成用户反馈52
2.3 应对多样性和海量性的挑战54
2.3.1 集成深网数据55
2.3.2 集成Web表格59
第3章 记录链接68
3.1 传统记录链接:快速导览69
3.1.1 两两匹配71
3.1.2 聚类72
3.1.3 分块74
3.2 应对海量性挑战76
3.2.1 使用MapReduce并行分块77
3.2.2 meta-blocking:修剪两两匹配83
3.3 应对高速性挑战88
3.4 应对多样性挑战95
3.5 应对真实性挑战100
3.5.1 时态记录链接100
3.5.2 具有唯一性约束的记录链接107
第4章 大数据集成:数据融合113
4.1 传统数据融合:快速导览114
4.2 应对真实性挑战116
4.2.1 数据源的准确度117
4.2.2 值为真的概率118
4.2.3 数据源之间的复制关系121
4.2.4 端到端的解决方案128
4.2.5 扩展性和适应性131
4.3 应对海量性挑战134
4.3.1 基于MapReduce框架做离线融合135
4.3.2 在线数据融合136
4.4 应对高速性挑战142
4.5 应对多样性挑战146
第5章 大数据集成:出现的新问题149
5.1 众包的角色149
5.1.1 利用传递关系150
5.1.2 众包端到端的工作流155
5.1.3 未来的工作158
5.2 数据源选择158
5.2.1 静态数据源160
5.2.2 动态数据源162
5.2.3 未来的工作166
5.3 数据源分析166
5.3.1 Bellman系统167
5.3.2 概述数据源170
5.3.3 未来的工作174
第6章 结论175
参考文献177
索引184
查看详情
-
九五品
天津市宝坻区
平均发货15小时
成功完成率88.48%
-
大数据集成
正版现货,品相完整,套书只发一本,多版面书籍只对书名
九五品
河北省廊坊市
平均发货12小时
成功完成率92.51%
-
大数据集成
正版现货,套书只发一本,多版面书籍只对书名
九品
北京市海淀区
平均发货17小时
成功完成率91.03%
-
九品
天津市宝坻区
平均发货11小时
成功完成率95.32%
-
九五品
四川省成都市
平均发货11小时
成功完成率93.63%
-
4
八五品
安徽省蚌埠市
平均发货10小时
成功完成率96.29%
-
九五品
天津市宝坻区
平均发货14小时
成功完成率86.82%
-
九五品
天津市宝坻区
平均发货16小时
成功完成率85.46%
-
大数据集成
正版现货,品相完整,套书只发一本,多版面书籍只对书名
九品
北京市昌平区
平均发货19小时
成功完成率88.41%
-
8
八五品
重庆市沙坪坝区
平均发货8小时
成功完成率89.84%
-
八五品
重庆市沙坪坝区
平均发货8小时
成功完成率90.08%
-
6
八五品
陕西省西安市
平均发货8小时
成功完成率95.92%
-
大数据集成
正版二手书籍,有少量笔记,套装书先咨询客服再下单,无光盘,无册子
八五品
山东省枣庄市
平均发货9小时
成功完成率93.3%
-
2
全新
山东省泰安市
平均发货9小时
成功完成率94.81%
-
九品
河北省衡水市
平均发货11小时
成功完成率96.23%
-
3
2017-05 印刷
印次: 1
八五品
安徽省蚌埠市
平均发货11小时
成功完成率98.11%
-
全新
广东省广州市
平均发货10小时
成功完成率89.38%
-
大数据集成
【正版有货可开发票;库存情况请咨询,及标题与图片不一致时】
全新
广东省广州市
平均发货11小时
成功完成率90.3%
-
2
全新
河北省承德市
平均发货9小时
成功完成率95.37%
-
八五品
重庆市南岸区
平均发货19小时
成功完成率85.48%
-
4
2017年 印刷
全新
河南省开封市
平均发货12小时
成功完成率91.19%
-
3
2017-05 印刷
印次: 1
九品
河南省信阳市
平均发货8小时
成功完成率97.07%
-
全新
陕西省西安市
平均发货12小时
成功完成率92.5%
-
九品
天津市宝坻区
平均发货18小时
成功完成率90.68%
-
6
八五品
陕西省西安市
平均发货11小时
成功完成率95.52%
-
全新
广东省汕头市
平均发货10小时
成功完成率90.93%
-
2
九五品
陕西省西安市
平均发货12小时
成功完成率93.79%
-
九五品
河北省保定市
平均发货17小时
成功完成率82.48%
-
九五品
河北省廊坊市
平均发货19小时
成功完成率84.47%
-
九五品
江苏省南京市
平均发货23小时
成功完成率81.98%
-
九五品
河北省廊坊市
平均发货23小时
成功完成率76.99%
-
全新
河北省廊坊市
平均发货16小时
成功完成率84.65%
-
11
八五品
重庆市九龙坡区
平均发货3小时
成功完成率100%
-
全新
山东省济南市
平均发货10小时
成功完成率83.16%
-
5
八五品
湖南省株洲市
平均发货24小时
成功完成率100%
-
8
2017-05 印刷
印次: 1
九五品
吉林省长春市
平均发货6小时
成功完成率98.27%