大数据原理:复杂信息的准备、共享和分析

大数据原理:复杂信息的准备、共享和分析
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2017-08
版次: 1
ISBN: 9787111572169
定价: 79.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 202页
8人买过
  • 当大数据资源变得越发复杂时,仅靠更强大的计算机系统已无法解决问题。本书带我们重新审视数据准备环节,重点讨论了其中至关重要但又常常被忽略的主题——标识符、不变性、内省和数据索引。此外,书中也涵盖常见的与大数据设计、架构、操作和分析相关的内容,以及涉及法律、社会和伦理问题的非技术性章节。全书视角独特,涉猎广博,尤以医学大数据分析见长,强调基本原理,不关注编程细节和数学公式,适合企业决策者、技术专家以及计算机相关专业的学生阅读。 Jules J. Berman 本科毕业于麻省理工学院,在获得了该校的两个科学学士学位(数学、地球与行星科学)后,他又获得了天普大学的哲学博士学位以及迈阿密大学的医学博士学位。他的博士研究工作是在天普大学的费尔斯癌症研究所和位于纽约瓦尔哈拉的美国健康基金会完成的。Berman博士在美国国家健康研究院完成了他的博士后研究工作,并曾在华盛顿特区的乔治·华盛顿大学医学中心实习过一段时间。Berman博士曾在马里兰州巴尔的摩市退伍军人管理局医疗中心担任解剖病理学、外科病理学和细胞病理学的首席专家,在那里他被任命为马里兰大学医学中心和约翰·霍普金斯医学研究机构的主任。1998年,他在美国国家癌症研究所癌症诊断计划中任病理信息学项目主管,在那里他从事大数据项目工作。2006年,Berman博士成为病理信息学协会主席。2011年,他获得了病理信息学协会终身成就奖。他是数百部科学出版物的作者之一。如今,Berman博士是一名自由作家,专注于信息科学、计算机程序设计和病理学三个专业领域的书籍写作。 译者序 
    前言 
    作者简介 
    第0章 引言1 
    0.1 大数据的定义2 
    0.2 大数据VS小数据2 
    0.3 大数据在哪里4 
    0.4 大数据最常见的目的是产生小数据5 
    0.5 机会6 
    0.6 大数据成为信息宇宙的中心6 
    第1章 为非结构化数据提供结构8 
    1.1 背景8 
    1.2 机器翻译9 
    1.3 自动编码11 
    1.4 索引14 
    1.5 术语提取16 
    第2章 标识、去标识和重标识19 
    2.1 背景19 
    2.2 标识符系统的特征20 
    2.3 注册唯一对象标识符21 
    2.4 糟糕的标识方法24 
    2.5 在标识符中嵌入信息:不推荐25 
    2.6 单向哈希函数26 
    2.7 案例:医院登记27 
    2.8 去标识化28 
    2.9 数据清洗29 
    2.10 重标识30 
    2.11 经验教训31 
    第3章 本体论和语义学32 
    3.1 背景32 
    3.2 分类:最简单的本体32 
    3.3 本体:有多个父类的类34 
    3.4 分类模型选择35 
    3.5 资源描述框架模式简介38 
    3.6 本体开发的常见陷阱40 
    第4章 内省42 
    4.1 背景42 
    4.2 自我认知42 
    4.3 可扩展标记语言44 
    4.4 meaning简介45 
    4.5 命名空间与有意义的声明集合体46 
    4.6 资源描述框架三元组47 
    4.7 映射49 
    4.8 案例:可信时间戳50 
    4.9 总结50 
    第5章 数据集成和软件互操作性52 
    5.1 背景52 
    5.2 调查标准委员会53 
    5.3 标准轨迹53 
    5.4 规范与标准56 
    5.5 版本控制58 
    5.6 合规问题60 
    5.7 大数据资源接口60 
    第6章 不变性和永久性62 
    6.1 背景62 
    6.2 不变性和标识符63 
    6.3 数据对象64 
    6.4 遗留数据65 
    6.5 数据产生数据67 
    6.6 跨机构协调标识符67 
    6.7 零知识协调68 
    6.8 管理者的负担69 
    第7章 测量70 
    7.1 背景70 
    7.2 计数70 
    7.3 基因计数72 
    7.4 处理否定73 
    7.5 理解控制74 
    7.6 测量的实践意义75 
    7.7 强迫症:伟大数据管理员的标志76 
    第8章 简单有效的大数据技术77 
    8.1 背景77 
    8.2 观察数据78 
    8.3 数据范围85 
    8.4 分母87 
    8.5 频率分布89 
    8.6 均值和标准差92 
    8.7 估计分析94 
    8.8 案例:用谷歌Ngram发现数据趋势95 
    8.9 案例:预测观众的电影偏好97 
    第9章 分析99 
    9.1 背景99 
    9.2 分析任务99 
    9.3 聚类、分类、推荐和建模100 
    9.3.1 聚类算法100 
    9.3.2 分类算法101 
    9.3.3 推荐算法101 
    9.3.4 建模算法101 
    9.4 数据约简103 
    9.5 数据标准化和调整105 
    9.6 大数据软件:速度和可扩展性107 
    9.7 寻找关系而非相似之处108 
    第10章 大数据分析中的特殊注意事项111 
    10.1 背景111 
    10.2 数据搜索理论111 
    10.3 理论搜索中的数据112 
    10.4 过度拟合113 
    10.5 巨大的偏差113 
    10.6 数据太多116 
    10.7 数据修复116 
    10.8 大数据的数据子集:不可加和不传递117 
    10.9 其他大数据缺陷117 
    第11章 逐步走进大数据分析120 
    11.1 背景120 
    11.2 步骤1:制定一个问题120 
    11.3 步骤2:资源评价121 
    11.4 步骤3:重新制定一个问题121 
    11.5 步骤4:查询输出充分性122 
    11.6 步骤5:数据描述122 
    11.7 步骤6:数据约简123 
    11.8 步骤7:必要时选择算法123 
    11.9 步骤8:结果评估和结论断言124 
    11.10 步骤9:结论审查和验证125 
    第12章 失败127 
    12.1 背景127 
    12.2 失败很常见128 
    12.3 失败的标准128 
    12.4 复杂性131 
    12.5 复杂性何时起作用132 
    12.6 冗余失败的情况132 
    12.7 保护钱,不保护无害信息133 
    12.8 失败之后134 
    12.9 案例:癌症生物医学信息学网格—遥远的桥135 
    第13章 合法性140 
    13.1 背景140 
    13.2 对数据的准确性和合法性负责140 
    13.3 创建、使用和共享资源的权利141 
    13.4 因使用标准而招致的版权和专利侵权行为143 
    13.5 对个人的保护144 
    13.6 许可问题145 
    13.7 未经许可的数据148 
    13.8 好政策是有力保障150 
    13.9 案例:哈瓦苏派的故事151 
    第14章 社会问题153 
    14.1 背景153 
    14.2 大数据感知153 
    14.3 数据共享155 
    14.4 用大数据降低成本和提高生产效率158 
    14.5 公众的疑虑160 
    14.6 从自己做起161 
    14.7 傲慢和夸张162 
    第15章 未来164 
    15.1 背景164 
    15.1.1 大数据计算复杂,需要新一代超级计算机?165 
    15.1.2 大数据的复杂程度将超出我们完全理解或信任的能力范围?166 
    15.1.3 我们需要用超级计算中的最新技术训练出一支计算机科学家组成的团队吗?166 
    15.1.4 大数据会创建出那些目前没有训练程序的新型数据专业人员吗?166 
    15.1.5 是否有将数据表示方法通过统一的标准规范化,从而支持跨网络大数据资源的数据集成和软件互操作性的可能?169 
    15.1.6 大数据将向公众开放?169 
    15.1.7 大数据弊大于利?170 
    15.1.8 我们可以预测大数据灾难会破坏至关重要的服务、削弱国家经济、破坏世界政治的稳定吗?171 
    15.1.9 大数据可以回答那些其他办法不能解决的问题吗?171 
    15.2 后记171 
    术语表172 
    参考文献188 
    索引196
  • 内容简介:
    当大数据资源变得越发复杂时,仅靠更强大的计算机系统已无法解决问题。本书带我们重新审视数据准备环节,重点讨论了其中至关重要但又常常被忽略的主题——标识符、不变性、内省和数据索引。此外,书中也涵盖常见的与大数据设计、架构、操作和分析相关的内容,以及涉及法律、社会和伦理问题的非技术性章节。全书视角独特,涉猎广博,尤以医学大数据分析见长,强调基本原理,不关注编程细节和数学公式,适合企业决策者、技术专家以及计算机相关专业的学生阅读。
  • 作者简介:
    Jules J. Berman 本科毕业于麻省理工学院,在获得了该校的两个科学学士学位(数学、地球与行星科学)后,他又获得了天普大学的哲学博士学位以及迈阿密大学的医学博士学位。他的博士研究工作是在天普大学的费尔斯癌症研究所和位于纽约瓦尔哈拉的美国健康基金会完成的。Berman博士在美国国家健康研究院完成了他的博士后研究工作,并曾在华盛顿特区的乔治·华盛顿大学医学中心实习过一段时间。Berman博士曾在马里兰州巴尔的摩市退伍军人管理局医疗中心担任解剖病理学、外科病理学和细胞病理学的首席专家,在那里他被任命为马里兰大学医学中心和约翰·霍普金斯医学研究机构的主任。1998年,他在美国国家癌症研究所癌症诊断计划中任病理信息学项目主管,在那里他从事大数据项目工作。2006年,Berman博士成为病理信息学协会主席。2011年,他获得了病理信息学协会终身成就奖。他是数百部科学出版物的作者之一。如今,Berman博士是一名自由作家,专注于信息科学、计算机程序设计和病理学三个专业领域的书籍写作。
  • 目录:
    译者序 
    前言 
    作者简介 
    第0章 引言1 
    0.1 大数据的定义2 
    0.2 大数据VS小数据2 
    0.3 大数据在哪里4 
    0.4 大数据最常见的目的是产生小数据5 
    0.5 机会6 
    0.6 大数据成为信息宇宙的中心6 
    第1章 为非结构化数据提供结构8 
    1.1 背景8 
    1.2 机器翻译9 
    1.3 自动编码11 
    1.4 索引14 
    1.5 术语提取16 
    第2章 标识、去标识和重标识19 
    2.1 背景19 
    2.2 标识符系统的特征20 
    2.3 注册唯一对象标识符21 
    2.4 糟糕的标识方法24 
    2.5 在标识符中嵌入信息:不推荐25 
    2.6 单向哈希函数26 
    2.7 案例:医院登记27 
    2.8 去标识化28 
    2.9 数据清洗29 
    2.10 重标识30 
    2.11 经验教训31 
    第3章 本体论和语义学32 
    3.1 背景32 
    3.2 分类:最简单的本体32 
    3.3 本体:有多个父类的类34 
    3.4 分类模型选择35 
    3.5 资源描述框架模式简介38 
    3.6 本体开发的常见陷阱40 
    第4章 内省42 
    4.1 背景42 
    4.2 自我认知42 
    4.3 可扩展标记语言44 
    4.4 meaning简介45 
    4.5 命名空间与有意义的声明集合体46 
    4.6 资源描述框架三元组47 
    4.7 映射49 
    4.8 案例:可信时间戳50 
    4.9 总结50 
    第5章 数据集成和软件互操作性52 
    5.1 背景52 
    5.2 调查标准委员会53 
    5.3 标准轨迹53 
    5.4 规范与标准56 
    5.5 版本控制58 
    5.6 合规问题60 
    5.7 大数据资源接口60 
    第6章 不变性和永久性62 
    6.1 背景62 
    6.2 不变性和标识符63 
    6.3 数据对象64 
    6.4 遗留数据65 
    6.5 数据产生数据67 
    6.6 跨机构协调标识符67 
    6.7 零知识协调68 
    6.8 管理者的负担69 
    第7章 测量70 
    7.1 背景70 
    7.2 计数70 
    7.3 基因计数72 
    7.4 处理否定73 
    7.5 理解控制74 
    7.6 测量的实践意义75 
    7.7 强迫症:伟大数据管理员的标志76 
    第8章 简单有效的大数据技术77 
    8.1 背景77 
    8.2 观察数据78 
    8.3 数据范围85 
    8.4 分母87 
    8.5 频率分布89 
    8.6 均值和标准差92 
    8.7 估计分析94 
    8.8 案例:用谷歌Ngram发现数据趋势95 
    8.9 案例:预测观众的电影偏好97 
    第9章 分析99 
    9.1 背景99 
    9.2 分析任务99 
    9.3 聚类、分类、推荐和建模100 
    9.3.1 聚类算法100 
    9.3.2 分类算法101 
    9.3.3 推荐算法101 
    9.3.4 建模算法101 
    9.4 数据约简103 
    9.5 数据标准化和调整105 
    9.6 大数据软件:速度和可扩展性107 
    9.7 寻找关系而非相似之处108 
    第10章 大数据分析中的特殊注意事项111 
    10.1 背景111 
    10.2 数据搜索理论111 
    10.3 理论搜索中的数据112 
    10.4 过度拟合113 
    10.5 巨大的偏差113 
    10.6 数据太多116 
    10.7 数据修复116 
    10.8 大数据的数据子集:不可加和不传递117 
    10.9 其他大数据缺陷117 
    第11章 逐步走进大数据分析120 
    11.1 背景120 
    11.2 步骤1:制定一个问题120 
    11.3 步骤2:资源评价121 
    11.4 步骤3:重新制定一个问题121 
    11.5 步骤4:查询输出充分性122 
    11.6 步骤5:数据描述122 
    11.7 步骤6:数据约简123 
    11.8 步骤7:必要时选择算法123 
    11.9 步骤8:结果评估和结论断言124 
    11.10 步骤9:结论审查和验证125 
    第12章 失败127 
    12.1 背景127 
    12.2 失败很常见128 
    12.3 失败的标准128 
    12.4 复杂性131 
    12.5 复杂性何时起作用132 
    12.6 冗余失败的情况132 
    12.7 保护钱,不保护无害信息133 
    12.8 失败之后134 
    12.9 案例:癌症生物医学信息学网格—遥远的桥135 
    第13章 合法性140 
    13.1 背景140 
    13.2 对数据的准确性和合法性负责140 
    13.3 创建、使用和共享资源的权利141 
    13.4 因使用标准而招致的版权和专利侵权行为143 
    13.5 对个人的保护144 
    13.6 许可问题145 
    13.7 未经许可的数据148 
    13.8 好政策是有力保障150 
    13.9 案例:哈瓦苏派的故事151 
    第14章 社会问题153 
    14.1 背景153 
    14.2 大数据感知153 
    14.3 数据共享155 
    14.4 用大数据降低成本和提高生产效率158 
    14.5 公众的疑虑160 
    14.6 从自己做起161 
    14.7 傲慢和夸张162 
    第15章 未来164 
    15.1 背景164 
    15.1.1 大数据计算复杂,需要新一代超级计算机?165 
    15.1.2 大数据的复杂程度将超出我们完全理解或信任的能力范围?166 
    15.1.3 我们需要用超级计算中的最新技术训练出一支计算机科学家组成的团队吗?166 
    15.1.4 大数据会创建出那些目前没有训练程序的新型数据专业人员吗?166 
    15.1.5 是否有将数据表示方法通过统一的标准规范化,从而支持跨网络大数据资源的数据集成和软件互操作性的可能?169 
    15.1.6 大数据将向公众开放?169 
    15.1.7 大数据弊大于利?170 
    15.1.8 我们可以预测大数据灾难会破坏至关重要的服务、削弱国家经济、破坏世界政治的稳定吗?171 
    15.1.9 大数据可以回答那些其他办法不能解决的问题吗?171 
    15.2 后记171 
    术语表172 
    参考文献188 
    索引196
查看详情
系列丛书 / 更多
大数据原理:复杂信息的准备、共享和分析
大数据导论
彭智勇 译
大数据原理:复杂信息的准备、共享和分析
统计学习导论 基于R应用
[美]加雷斯·詹姆斯、丹妮拉·威滕、特雷弗·哈斯帖 著;王星 译
大数据原理:复杂信息的准备、共享和分析
大数据分析原理与实践
王宏志 著
大数据原理:复杂信息的准备、共享和分析
Python机器学习
高明、徐莹、陶虎成 译
大数据原理:复杂信息的准备、共享和分析
机器学习与R语言(原书第2版)
李洪成、许金炜、李舰 译
大数据原理:复杂信息的准备、共享和分析
Python金融数据分析
Weiming 著;杰姆斯·马伟明(James、Ma、高明 译
大数据原理:复杂信息的准备、共享和分析
Python机器学习(原书第2版)
瓦希德·米 著;塞巴斯蒂安·拉施卡(Sebastian Raschka)、陈斌 译
大数据原理:复杂信息的准备、共享和分析
机器学习与R语言
[美]Brett Lantz 著;李洪成、许金炜、李舰 译
大数据原理:复杂信息的准备、共享和分析
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
[德]西蒙·蒙策尔特 著;吴今朝 译
大数据原理:复杂信息的准备、共享和分析
基于MPI的大数据高性能计算导论
弗兰克·尼尔森(Frank Nielsen) 著;张伟哲 译
大数据原理:复杂信息的准备、共享和分析
统计机器学习导论
[日]杉山将 著;谢宁 译
大数据原理:复杂信息的准备、共享和分析
Python文本分析
[印度]迪潘简·撒卡尔 著;闫龙川 高德荃 李君婷 译
相关图书 / 更多
大数据原理:复杂信息的准备、共享和分析
大数据驱动的突发事件情报感知及快速响应研究
唐明伟,庄玉良
大数据原理:复杂信息的准备、共享和分析
大数据处理技术基础与应用(Hadoop+Spark)
许桂秋 孙海民 胡贵恒
大数据原理:复杂信息的准备、共享和分析
大数据十讲 周烜 陈志广
周烜 陈志广
大数据原理:复杂信息的准备、共享和分析
大数据财务分析
李峰
大数据原理:复杂信息的准备、共享和分析
大数据时代的营销管理创新研究
高芳 著
大数据原理:复杂信息的准备、共享和分析
大数据警务的崛起
(美)安德鲁.格思里.弗格森
大数据原理:复杂信息的准备、共享和分析
大数据侦查法治化研究
彭俊磊
大数据原理:复杂信息的准备、共享和分析
大数据时代思想政治教育创新发展研究
彭晓宽 著
大数据原理:复杂信息的准备、共享和分析
大数据背景下公众参与环境治理的程度评估与作用机制研究
史亚东
大数据原理:复杂信息的准备、共享和分析
大数据医疗:从即时检测设备进行解析
(英)波利亚·阿梅里安,(英)特鲁迪·朗,(英)弗朗索瓦·范·洛格伦伯格
大数据原理:复杂信息的准备、共享和分析
大数据可视化编程和应用
倪振松 胡煜华 朱家全 主编 谢岳富 陈建平 副主编
大数据原理:复杂信息的准备、共享和分析
大数据财务与会计应用
周忠宝 著;樊斌、樊斌、周忠宝 编
您可能感兴趣 / 更多
大数据原理:复杂信息的准备、共享和分析
中国区块链技术与产业发展报告(2017)
邢春晓、张桂刚 编