深入理解大数据:大数据处理与编程实践

深入理解大数据:大数据处理与编程实践
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: ,
2014-08
版次: 1
ISBN: 9787111473251
定价: 79.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 520页
正文语种: 简体中文
125人买过
  •   《深入理解大数据:大数据处理与编程实践》在总结多年来MapReduce并行处理技术课程教学经验和成果的基础上,与业界著名企业Intel公司的大数据技术和产品开发团队和资深工程师联合,以学术界的教学成果与业界高水平系统研发经验完美结合,在理论联系实际的基础上,在基础理论原理、实际算法设计方法以及业界深度技术三个层面上,精心组织材料编写而成。全书的主要内容包括:
    ■大数据处理技术与HadoopMapReduce简介
    ■Hadoop系统的安装和操作管理
    ■大数据分布式文件系统HDFS
    ■HadoopMapReduce并行编程模型、框架与编程接口
    ■分布式数据表HBase
    ■分布式数据仓库Hive
    ■IntelHadoop系统优化与功能增强
    ■MapReduce基础算法程序设计
    ■MapReduce高级程序设计技术
    ■MapReduce机器学习与数据挖掘基础算法
    ■大数据处理算法与应用编程案例  本书中算法设计章节的程序源码可在南京大学PASA大数据实验室(PASA:ParallelAlgorithms,Systems,andApplications)网站上下载:
    http://pasa-bigdata.nju.edu.cn/links.html   黄宜华博士,南京大学计算机科学与技术系教授、PASA大数据实验室学术带头人。中国计算机学会大数据专家委员会委员、副秘书长,江苏省计算机学会大数据专家委员会主任。于1983、1986和1997年获得南京大学计算机专业学士、硕士和博士学位。主要研究方向为大数据并行处理、云计算以及Web信息挖掘等,发表学术研究论文60多篇。2010年在Google公司资助下在本校创建并开设了“MapReduce大数据并行处理技术”课程,成为全国最早开设该课程的院校之一。因在该课程教学和人才培养方面的出色成绩获得2012年Google奖教金。目前正在开展系统化的大数据并行处理技术研究工作,主持国家和省部级科研项目以及与美国Intel公司等业界的合作研究项目多项。
      苗凯翔(KaiX.Miao)博士,英特尔中国大数据首席技术官,中国计算机学会大数据专家委员会委员。曾担任英特尔中国区系统集成部总监、信息技术研究部门亚洲地区总监、英特尔北美地区解决方案首席架构师。于2009荣获英特尔公司首席工程师职称。在加入英特尔以前,曾在美国Rutgers与DeVry大学任教。获得北方交通大学(北京)通信学士学位、美国辛辛那提大学电机工程硕士和博士学位。发表期刊和会议研究论文多篇,并拥有21项美国专利,在各种会议上发表过上百次主题演讲,曾参与IETF、ITU和MITCFP等工业标准的制定,并于2006年担任IEEE通信杂志的联合编辑。
    第一部分 Hadoop系统第1章 大数据处理技术简介1.1 并行计算技术简介1.1.1 并行计算的基本概念1.1.2 并行计算技术的分类1.1.3 并行计算的主要技术问题1.2 大数据处理技术简介1.2.1 大数据的发展背景和研究意义1.2.2 大数据的技术特点1.2.3 大数据研究的主要目标、基本原则和基本途径1.2.4 大数据计算模式和系统1.2.5 大数据计算模式的发展趋势1.2.6 大数据的主要技术层面和技术内容1.3 MapReduce并行计算技术简介1.3.1 MapReduce的基本概念和由来1.3.2 MapReduce的基本设计思想1.3.3 MapReduce的主要功能和技术特征1.4 Hadoop系统简介1.4.1 Hadoop的概述与发展历史1.4.2 Hadoop系统分布式存储与并行计算构架1.4.3 Hadoop平台的基本组成与生态系统1.4.4 Hadoop的应用现状和发展趋势第2章 Hadoop系统的安装与操作管理2.1 Hadoop系统安装方法简介2.2 单机和单机伪分布式Hadoop系统安装基本步骤2.2.1 安装和配置JDK2.2.2 创建Hadoop用户2.2.3 下载安装Hadoop2.2.4 配置SSH2.2.5 配置Hadoop环境2.2.6 Hadoop的运行2.2.7 运行测试程序2.2.8 查看集群状态2.3 集群分布式Hadoop系统安装基本步骤2.3.1 安装和配置JDK2.3.2 创建Hadoop用户2.3.3 下载安装Hadoop2.3.4 配置SSH2.3.5 配置Hadoop环境2.3.6 Hadoop的运行2.3.7 运行测试程序2.3.8 查看集群状态2.4 Hadoop;MapReduce程序开发过程2.5 集群远程作业提交与执行2.5.1 集群远程作业提交和执行过程2.5.2 查看作业执行结果和集群状态第3章 大数据存储--分布式文件系统HDFS3.1 HDFS的基本特征与构架3.1.1 HDFS的基本特征3.1.2 HDFS的基本框架与工作过程3.2 HDFS可靠性设计3.2.1 HDFS数据块多副本存储设计3.2.2 HDFS可靠性的设计实现3.3 HDFS文件存储组织与读写3.3.1 文件数据的存储组织3.3.2 数据的读写过程3.4 HDFS文件系统操作命令3.4.1 HDFS启动与关闭3.4.2 HDFS文件操作命令格式与注意事项3.4.3 HDFS文件操作命令3.4.4 高级操作命令和工具3.5 HDFS基本编程接口与示例3.5.1 HDFS编程基础知识3.5.2 HDFS基本文件操作API3.5.3 HDFS基本编程实例第4章 Hadoop;MapReduce并行编程框架4.1 MapReduce基本编程模型和框架4.1.1 MapReduce并行编程抽象模型4.1.2 MapReduce的完整编程模型和框架4.2 Hadoop;MapReduce基本构架与工作过程4.2.1 Hadoop系统构架和MapReduce程序执行过程4.2.2 Hadoop;MapReduce执行框架和作业执行流程4.2.3 Hadoop;MapReduce作业调度过程和调度方法4.2.4 MapReduce执行框架的组件和执行流程4.3 Hadoop;MapReduce主要组件与编程接口4.3.1 数据输入格式InputFormat4.3.2 输入数据分块InputSplit4.3.3 数据记录读入RecordReader4.3.4 Mapper类4.3.5 Combiner4.3.6 Partitioner4.3.7 Sort4.3.8 Reducer类4.3.9 数据输出格式OutputFormat4.3.10 数据记录输出RecordWriter第5章 分布式数据库HBase5.1 HBase简介5.1.1 为什么需要NoSQL数据库5.1.2 HBase的作用和功能特点5.2 HBase的数据模型5.2.1 HBase的基本数据模型5.2.2 HBase的查询模式5.2.3 HBase表设计5.3 HBase的基本构架与数据存储管理方法5.3.1 HBase在Hadoop生态中的位置和关系5.3.2 HBase的基本组成结构5.3.3 HBase;Region5.3.4 Region;Server5.3.5 HBase的总体组成结构5.3.6 HBase的寻址和定位5.3.7 HBase节点的上下线管理5.4 HBase安装与操作5.4.1 安装一个单机版的HBase5.4.2 HBase;Shell操作命令5.4.3 基于集群的HBase安装和配置5.5 HBase的编程接口和编程示例5.5.1 表创建编程接口与示例5.5.2 表数据更新编程接口与示例5.5.3 数据读取编程接口与示例5.5.4 HBase;MapReduce支持和编程示例5.6 HBase的读写操作和特性5.6.1 HBase的数据写入5.6.2 HBase的数据读取5.7 其他HBase功能5.7.1 Coprocessor5.7.2 批量数据导入Bulk;Load第6章 分布式数据仓库Hive6.1 Hive的作用与结构组成6.2 Hive的数据模型6.2.1 Hive的数据存储模型6.2.2 Hive的元数据存储管理6.2.3 Hive的数据类型6.3 Hive的安装6.3.1 下载Hive安装包6.3.2 配置环境变量6.3.3 创建Hive数据文件目录6.3.4 修改Hive配置文件6.4 Hive查询语言--HiveQL6.4.1 DDL语句6.4.2 DML语句6.4.3 SELECT查询语句6.4.4 数据表操作语句示例6.4.5 分区的使用6.4.6 桶的使用6.4.7 子查询6.4.8 Hive的优化和高级功能6.5 Hive;JDBC编程接口与程序设计第7章 Intel;Hadoop系统优化与功能增强7.1 Intel;Hadoop系统简介7.1.1 Intel;Hadoop系统的主要优化和增强功能7.1.2 Intel;Hadoop的系统构成与组件7.2 Intel;Hadoop系统的安装和管理7.3 Intel;Hadoop;HDFS的优化和功能扩展7.3.1 HDFS的高可用性7.3.2 Intel;Hadoop系统高可用性配置服务7.3.3 Intel;Hadoop系统高可用性配置服务操作7.3.4 自适应数据块副本调整策略7.4 Intel;Hadoop;HBase的功能扩展和编程示例7.4.1 HBase大对象存储(LOB)7.4.2 加盐表7.4.3 HBase跨数据中心大表7.5 Intel;Hadoop;Hive的功能扩展和编程示例7.5.1 开源Hive的不足7.5.2 Intel;Hadoop“Hive;over;HBase”优化设计7.5.3 Hive;over;HBase的架构第二部分 MapReduce的编程和算法设计第8章 MapReduce基础算法程序设计8.1 WordCount8.1.1 WordCount算法编程实现8.2 矩阵乘法8.2.1 矩阵乘法原理和实现思路8.2.2 矩阵乘法的MapReduce程序实现8.3 关系代数运算8.3.1 选择操作8.3.2 投影操作8.3.3 交运算8.3.4 差运算8.3.5 自然连接8.4 单词共现算法8.4.1 单词共现算法的基本设计8.4.2 单词共现算法的实现8.4.3 单词共现算法实现中的细节问题8.5 文档倒排索引8.5.1 简单的文档倒排索引8.5.2 带词频等属性的文档倒排索引8.6 PageRank网页排名算法8.6.1 PageRank的简化模型8.6.2 PageRank的随机浏览模型8.6.3 PageRank的MapReduce实现8.7 专利文献分析算法8.7.1 构建专利被引用列表8.7.2 专利被引用次数统计8.7.3 专利被引用次数直方图统计8.7.4 按照年份或国家统计专利数第9章 MapReduce高级程序设计技术9.1 简介9.2 复合键值对的使用9.2.1 把小的键值对合并成大的键值对9.2.2 巧用复合键让系统完成排序9.3 用户定制数据类型9.3.1 Hadoop内置的数据类型9.3.2 用户自定义数据类型的实现9.4 用户定制数据输入输出格式9.4.1 Hadoop内置的数据输入格式与RecordReader9.4.2 用户定制数据输入格式与RecordReader9.4.3 Hadoop内置的数据输出格式与RecordWriter9.4.4 用户定制数据输出格式与RecordWriter9.4.5 通过定制数据输出格式实现多集合文件输出9.5 用户定制Partitioner和Combiner9.5.1 用户定制Partitioner9.5.2 用户定制Combiner9.6 组合式MapReduce计算作业9.6.1 迭代MapReduce计算任务9.6.2 顺序组合式MapReduce作业的执行9.6.3 具有复杂依赖关系的组合式MapReduce作业的执行9.6.4 MapReduce前处理和后处理步骤的链式执行9.7 多数据源的连接9.7.1 基本问题数据示例9.7.2 用DataJoin类实现Reduce端连接9.7.3 用全局文件复制方法实现Map端连接9.7.4 带Map端过滤的Reduce端连接9.7.5 多数据源连接解决方法的限制9.8 全局参数/数据文件的传递与使用9.8.1 全局作业参数的传递9.8.2 查询全局的MapReduce作业属性9.8.3 全局数据文件的传递9.9 关系数据库的连接与访问9.9.1 从数据库中输入数据9.9.2 向数据库中输出计算结果第10章 MapReduce数据挖掘基础算法10.1 K-Means聚类算法10.1.1 K-Means聚类算法简介10.1.2 基于MapReduce的K-Means算法的设计实现10.2 KNN最近邻分类算法10.2.1 KNN最近邻分类算法简介10.2.2 基于MapReduce的KNN算法的设计实现10.3 朴素贝叶斯分类算法10.3.1 朴素贝叶斯分类算法简介10.3.2 朴素贝叶斯分类并行化算法的设计10.3.3 朴素贝叶斯分类并行化算法的实现10.4 决策树分类算法10.4.1 决策树分类算法简介10.4.2 决策树并行化算法的设计10.4.3 决策树并行化算法的实现10.5 频繁项集挖掘算法10.5.1 频繁项集挖掘问题描述10.5.2; Apriori频繁项集挖掘算法简介10.5.3 Apriori频繁项集挖掘并行化算法的设计10.5.4 Apriori频繁项集挖掘并行化算法的实现10.5.5 基于子集求取的频繁项集挖掘算法的设计10.5.6 基于子集求取的频繁项集挖掘并行化算法的实现10.6 隐马尔科夫模型和最大期望算法10.6.1 隐马尔科夫模型的基本描述10.6.2 隐马尔科夫模型问题的解决方法10.6.3 最大期望算法概述10.6.4 并行化隐马尔科夫算法设计10.6.5 隐马尔科夫算法的并行化实现第11章 大数据处理算法设计与应用编程案例11.1 基于MapReduce的搜索引擎算法11.1.1 搜索引擎工作原理简介11.1.2 基于MapReduce的文档预处理11.1.3 基于MapReduce的文档倒排索引构建11.1.4 建立Web信息查询服务11.2 基于MapReduce的大规模短文本多分类算法11.2.1 短文本多分类算法工作原理简介11.2.2 并行化分类训练算法设计实现11.2.3 并行化分类预测算法设计实现11.3 基于MapReduce的大规模基因序列比对算法11.3.1 基因序列比对算法简介11.3.2 并行化BLAST算法的设计与实现11.4 基于MapReduce的大规模城市路径规划算法11.4.1 问题背景和要求11.4.2 数据输入11.4.3 程序设计要求11.4.4 算法设计总体框架和处理过程11.4.5 并行化算法的设计与实现11.5 基于MapReduce的大规模重复文档检测算法11.5.1 重复文档检测问题描述11.5.2 重复文档检测方法和算法设计11.5.3 重复文档检测并行化算法设计实现11.6 基于内容的并行化图像检索算法与引擎11.6.1 基于内容的图像检索问题概述11.6.2 图像检索方法和算法设计思路11.6.3 并行化图像检索算法实现11.7 基于MapReduce的大规模微博传播分析11.7.1 微博分析问题背景与并行化处理过程11.7.2 并行化微博数据获取算法的设计实现11.7.3 并行化微博数据分析算法的设计实现11.8 基于关联规则挖掘的图书推荐算法11.8.1 图书推荐和关联规则挖掘简介11.8.2 图书频繁项集挖掘算法设计与数据获取11.8.3 图书关联规则挖掘并行化算法实现11.9 基于Hadoop的城市智能交通综合应用案例11.9.1 应用案例概述11.9.2 案例一:交通事件检测11.9.3 案例二:交通流统计分析功能11.9.4 案例三:道路旅行时间分析11.9.5 案例四:HBase实时查询11.9.6 案例五:HBase;Endpoint快速统计11.9.7 案例六:利用Hive高速统计附录附录A OpenMP并行程序设计简介附录B MPI并行程序设计简介附录C 英特尔Apache;Hadoop*系统安装手册参考文献
  • 内容简介:
      《深入理解大数据:大数据处理与编程实践》在总结多年来MapReduce并行处理技术课程教学经验和成果的基础上,与业界著名企业Intel公司的大数据技术和产品开发团队和资深工程师联合,以学术界的教学成果与业界高水平系统研发经验完美结合,在理论联系实际的基础上,在基础理论原理、实际算法设计方法以及业界深度技术三个层面上,精心组织材料编写而成。全书的主要内容包括:
    ■大数据处理技术与HadoopMapReduce简介
    ■Hadoop系统的安装和操作管理
    ■大数据分布式文件系统HDFS
    ■HadoopMapReduce并行编程模型、框架与编程接口
    ■分布式数据表HBase
    ■分布式数据仓库Hive
    ■IntelHadoop系统优化与功能增强
    ■MapReduce基础算法程序设计
    ■MapReduce高级程序设计技术
    ■MapReduce机器学习与数据挖掘基础算法
    ■大数据处理算法与应用编程案例  本书中算法设计章节的程序源码可在南京大学PASA大数据实验室(PASA:ParallelAlgorithms,Systems,andApplications)网站上下载:
    http://pasa-bigdata.nju.edu.cn/links.html
  • 作者简介:
      黄宜华博士,南京大学计算机科学与技术系教授、PASA大数据实验室学术带头人。中国计算机学会大数据专家委员会委员、副秘书长,江苏省计算机学会大数据专家委员会主任。于1983、1986和1997年获得南京大学计算机专业学士、硕士和博士学位。主要研究方向为大数据并行处理、云计算以及Web信息挖掘等,发表学术研究论文60多篇。2010年在Google公司资助下在本校创建并开设了“MapReduce大数据并行处理技术”课程,成为全国最早开设该课程的院校之一。因在该课程教学和人才培养方面的出色成绩获得2012年Google奖教金。目前正在开展系统化的大数据并行处理技术研究工作,主持国家和省部级科研项目以及与美国Intel公司等业界的合作研究项目多项。
      苗凯翔(KaiX.Miao)博士,英特尔中国大数据首席技术官,中国计算机学会大数据专家委员会委员。曾担任英特尔中国区系统集成部总监、信息技术研究部门亚洲地区总监、英特尔北美地区解决方案首席架构师。于2009荣获英特尔公司首席工程师职称。在加入英特尔以前,曾在美国Rutgers与DeVry大学任教。获得北方交通大学(北京)通信学士学位、美国辛辛那提大学电机工程硕士和博士学位。发表期刊和会议研究论文多篇,并拥有21项美国专利,在各种会议上发表过上百次主题演讲,曾参与IETF、ITU和MITCFP等工业标准的制定,并于2006年担任IEEE通信杂志的联合编辑。
  • 目录:
    第一部分 Hadoop系统第1章 大数据处理技术简介1.1 并行计算技术简介1.1.1 并行计算的基本概念1.1.2 并行计算技术的分类1.1.3 并行计算的主要技术问题1.2 大数据处理技术简介1.2.1 大数据的发展背景和研究意义1.2.2 大数据的技术特点1.2.3 大数据研究的主要目标、基本原则和基本途径1.2.4 大数据计算模式和系统1.2.5 大数据计算模式的发展趋势1.2.6 大数据的主要技术层面和技术内容1.3 MapReduce并行计算技术简介1.3.1 MapReduce的基本概念和由来1.3.2 MapReduce的基本设计思想1.3.3 MapReduce的主要功能和技术特征1.4 Hadoop系统简介1.4.1 Hadoop的概述与发展历史1.4.2 Hadoop系统分布式存储与并行计算构架1.4.3 Hadoop平台的基本组成与生态系统1.4.4 Hadoop的应用现状和发展趋势第2章 Hadoop系统的安装与操作管理2.1 Hadoop系统安装方法简介2.2 单机和单机伪分布式Hadoop系统安装基本步骤2.2.1 安装和配置JDK2.2.2 创建Hadoop用户2.2.3 下载安装Hadoop2.2.4 配置SSH2.2.5 配置Hadoop环境2.2.6 Hadoop的运行2.2.7 运行测试程序2.2.8 查看集群状态2.3 集群分布式Hadoop系统安装基本步骤2.3.1 安装和配置JDK2.3.2 创建Hadoop用户2.3.3 下载安装Hadoop2.3.4 配置SSH2.3.5 配置Hadoop环境2.3.6 Hadoop的运行2.3.7 运行测试程序2.3.8 查看集群状态2.4 Hadoop;MapReduce程序开发过程2.5 集群远程作业提交与执行2.5.1 集群远程作业提交和执行过程2.5.2 查看作业执行结果和集群状态第3章 大数据存储--分布式文件系统HDFS3.1 HDFS的基本特征与构架3.1.1 HDFS的基本特征3.1.2 HDFS的基本框架与工作过程3.2 HDFS可靠性设计3.2.1 HDFS数据块多副本存储设计3.2.2 HDFS可靠性的设计实现3.3 HDFS文件存储组织与读写3.3.1 文件数据的存储组织3.3.2 数据的读写过程3.4 HDFS文件系统操作命令3.4.1 HDFS启动与关闭3.4.2 HDFS文件操作命令格式与注意事项3.4.3 HDFS文件操作命令3.4.4 高级操作命令和工具3.5 HDFS基本编程接口与示例3.5.1 HDFS编程基础知识3.5.2 HDFS基本文件操作API3.5.3 HDFS基本编程实例第4章 Hadoop;MapReduce并行编程框架4.1 MapReduce基本编程模型和框架4.1.1 MapReduce并行编程抽象模型4.1.2 MapReduce的完整编程模型和框架4.2 Hadoop;MapReduce基本构架与工作过程4.2.1 Hadoop系统构架和MapReduce程序执行过程4.2.2 Hadoop;MapReduce执行框架和作业执行流程4.2.3 Hadoop;MapReduce作业调度过程和调度方法4.2.4 MapReduce执行框架的组件和执行流程4.3 Hadoop;MapReduce主要组件与编程接口4.3.1 数据输入格式InputFormat4.3.2 输入数据分块InputSplit4.3.3 数据记录读入RecordReader4.3.4 Mapper类4.3.5 Combiner4.3.6 Partitioner4.3.7 Sort4.3.8 Reducer类4.3.9 数据输出格式OutputFormat4.3.10 数据记录输出RecordWriter第5章 分布式数据库HBase5.1 HBase简介5.1.1 为什么需要NoSQL数据库5.1.2 HBase的作用和功能特点5.2 HBase的数据模型5.2.1 HBase的基本数据模型5.2.2 HBase的查询模式5.2.3 HBase表设计5.3 HBase的基本构架与数据存储管理方法5.3.1 HBase在Hadoop生态中的位置和关系5.3.2 HBase的基本组成结构5.3.3 HBase;Region5.3.4 Region;Server5.3.5 HBase的总体组成结构5.3.6 HBase的寻址和定位5.3.7 HBase节点的上下线管理5.4 HBase安装与操作5.4.1 安装一个单机版的HBase5.4.2 HBase;Shell操作命令5.4.3 基于集群的HBase安装和配置5.5 HBase的编程接口和编程示例5.5.1 表创建编程接口与示例5.5.2 表数据更新编程接口与示例5.5.3 数据读取编程接口与示例5.5.4 HBase;MapReduce支持和编程示例5.6 HBase的读写操作和特性5.6.1 HBase的数据写入5.6.2 HBase的数据读取5.7 其他HBase功能5.7.1 Coprocessor5.7.2 批量数据导入Bulk;Load第6章 分布式数据仓库Hive6.1 Hive的作用与结构组成6.2 Hive的数据模型6.2.1 Hive的数据存储模型6.2.2 Hive的元数据存储管理6.2.3 Hive的数据类型6.3 Hive的安装6.3.1 下载Hive安装包6.3.2 配置环境变量6.3.3 创建Hive数据文件目录6.3.4 修改Hive配置文件6.4 Hive查询语言--HiveQL6.4.1 DDL语句6.4.2 DML语句6.4.3 SELECT查询语句6.4.4 数据表操作语句示例6.4.5 分区的使用6.4.6 桶的使用6.4.7 子查询6.4.8 Hive的优化和高级功能6.5 Hive;JDBC编程接口与程序设计第7章 Intel;Hadoop系统优化与功能增强7.1 Intel;Hadoop系统简介7.1.1 Intel;Hadoop系统的主要优化和增强功能7.1.2 Intel;Hadoop的系统构成与组件7.2 Intel;Hadoop系统的安装和管理7.3 Intel;Hadoop;HDFS的优化和功能扩展7.3.1 HDFS的高可用性7.3.2 Intel;Hadoop系统高可用性配置服务7.3.3 Intel;Hadoop系统高可用性配置服务操作7.3.4 自适应数据块副本调整策略7.4 Intel;Hadoop;HBase的功能扩展和编程示例7.4.1 HBase大对象存储(LOB)7.4.2 加盐表7.4.3 HBase跨数据中心大表7.5 Intel;Hadoop;Hive的功能扩展和编程示例7.5.1 开源Hive的不足7.5.2 Intel;Hadoop“Hive;over;HBase”优化设计7.5.3 Hive;over;HBase的架构第二部分 MapReduce的编程和算法设计第8章 MapReduce基础算法程序设计8.1 WordCount8.1.1 WordCount算法编程实现8.2 矩阵乘法8.2.1 矩阵乘法原理和实现思路8.2.2 矩阵乘法的MapReduce程序实现8.3 关系代数运算8.3.1 选择操作8.3.2 投影操作8.3.3 交运算8.3.4 差运算8.3.5 自然连接8.4 单词共现算法8.4.1 单词共现算法的基本设计8.4.2 单词共现算法的实现8.4.3 单词共现算法实现中的细节问题8.5 文档倒排索引8.5.1 简单的文档倒排索引8.5.2 带词频等属性的文档倒排索引8.6 PageRank网页排名算法8.6.1 PageRank的简化模型8.6.2 PageRank的随机浏览模型8.6.3 PageRank的MapReduce实现8.7 专利文献分析算法8.7.1 构建专利被引用列表8.7.2 专利被引用次数统计8.7.3 专利被引用次数直方图统计8.7.4 按照年份或国家统计专利数第9章 MapReduce高级程序设计技术9.1 简介9.2 复合键值对的使用9.2.1 把小的键值对合并成大的键值对9.2.2 巧用复合键让系统完成排序9.3 用户定制数据类型9.3.1 Hadoop内置的数据类型9.3.2 用户自定义数据类型的实现9.4 用户定制数据输入输出格式9.4.1 Hadoop内置的数据输入格式与RecordReader9.4.2 用户定制数据输入格式与RecordReader9.4.3 Hadoop内置的数据输出格式与RecordWriter9.4.4 用户定制数据输出格式与RecordWriter9.4.5 通过定制数据输出格式实现多集合文件输出9.5 用户定制Partitioner和Combiner9.5.1 用户定制Partitioner9.5.2 用户定制Combiner9.6 组合式MapReduce计算作业9.6.1 迭代MapReduce计算任务9.6.2 顺序组合式MapReduce作业的执行9.6.3 具有复杂依赖关系的组合式MapReduce作业的执行9.6.4 MapReduce前处理和后处理步骤的链式执行9.7 多数据源的连接9.7.1 基本问题数据示例9.7.2 用DataJoin类实现Reduce端连接9.7.3 用全局文件复制方法实现Map端连接9.7.4 带Map端过滤的Reduce端连接9.7.5 多数据源连接解决方法的限制9.8 全局参数/数据文件的传递与使用9.8.1 全局作业参数的传递9.8.2 查询全局的MapReduce作业属性9.8.3 全局数据文件的传递9.9 关系数据库的连接与访问9.9.1 从数据库中输入数据9.9.2 向数据库中输出计算结果第10章 MapReduce数据挖掘基础算法10.1 K-Means聚类算法10.1.1 K-Means聚类算法简介10.1.2 基于MapReduce的K-Means算法的设计实现10.2 KNN最近邻分类算法10.2.1 KNN最近邻分类算法简介10.2.2 基于MapReduce的KNN算法的设计实现10.3 朴素贝叶斯分类算法10.3.1 朴素贝叶斯分类算法简介10.3.2 朴素贝叶斯分类并行化算法的设计10.3.3 朴素贝叶斯分类并行化算法的实现10.4 决策树分类算法10.4.1 决策树分类算法简介10.4.2 决策树并行化算法的设计10.4.3 决策树并行化算法的实现10.5 频繁项集挖掘算法10.5.1 频繁项集挖掘问题描述10.5.2; Apriori频繁项集挖掘算法简介10.5.3 Apriori频繁项集挖掘并行化算法的设计10.5.4 Apriori频繁项集挖掘并行化算法的实现10.5.5 基于子集求取的频繁项集挖掘算法的设计10.5.6 基于子集求取的频繁项集挖掘并行化算法的实现10.6 隐马尔科夫模型和最大期望算法10.6.1 隐马尔科夫模型的基本描述10.6.2 隐马尔科夫模型问题的解决方法10.6.3 最大期望算法概述10.6.4 并行化隐马尔科夫算法设计10.6.5 隐马尔科夫算法的并行化实现第11章 大数据处理算法设计与应用编程案例11.1 基于MapReduce的搜索引擎算法11.1.1 搜索引擎工作原理简介11.1.2 基于MapReduce的文档预处理11.1.3 基于MapReduce的文档倒排索引构建11.1.4 建立Web信息查询服务11.2 基于MapReduce的大规模短文本多分类算法11.2.1 短文本多分类算法工作原理简介11.2.2 并行化分类训练算法设计实现11.2.3 并行化分类预测算法设计实现11.3 基于MapReduce的大规模基因序列比对算法11.3.1 基因序列比对算法简介11.3.2 并行化BLAST算法的设计与实现11.4 基于MapReduce的大规模城市路径规划算法11.4.1 问题背景和要求11.4.2 数据输入11.4.3 程序设计要求11.4.4 算法设计总体框架和处理过程11.4.5 并行化算法的设计与实现11.5 基于MapReduce的大规模重复文档检测算法11.5.1 重复文档检测问题描述11.5.2 重复文档检测方法和算法设计11.5.3 重复文档检测并行化算法设计实现11.6 基于内容的并行化图像检索算法与引擎11.6.1 基于内容的图像检索问题概述11.6.2 图像检索方法和算法设计思路11.6.3 并行化图像检索算法实现11.7 基于MapReduce的大规模微博传播分析11.7.1 微博分析问题背景与并行化处理过程11.7.2 并行化微博数据获取算法的设计实现11.7.3 并行化微博数据分析算法的设计实现11.8 基于关联规则挖掘的图书推荐算法11.8.1 图书推荐和关联规则挖掘简介11.8.2 图书频繁项集挖掘算法设计与数据获取11.8.3 图书关联规则挖掘并行化算法实现11.9 基于Hadoop的城市智能交通综合应用案例11.9.1 应用案例概述11.9.2 案例一:交通事件检测11.9.3 案例二:交通流统计分析功能11.9.4 案例三:道路旅行时间分析11.9.5 案例四:HBase实时查询11.9.6 案例五:HBase;Endpoint快速统计11.9.7 案例六:利用Hive高速统计附录附录A OpenMP并行程序设计简介附录B MPI并行程序设计简介附录C 英特尔Apache;Hadoop*系统安装手册参考文献
查看详情
系列丛书 / 更多
深入理解大数据:大数据处理与编程实践
云安全原理与实践
陈兴蜀、葛龙 著
深入理解大数据:大数据处理与编程实践
计算机系统基础 第2版
袁春风 余子濠 著
深入理解大数据:大数据处理与编程实践
云计算原理与实践
过敏意 著
深入理解大数据:大数据处理与编程实践
计算机系统基础:计算机类专业系统能力培养系列教材
袁春风 著
深入理解大数据:大数据处理与编程实践
计算机体系结构基础 第2版
胡伟武 著
深入理解大数据:大数据处理与编程实践
计算机体系结构基础
胡伟武 著
深入理解大数据:大数据处理与编程实践
编译原理实践与指导教程
许畅、陈嘉、朱晓瑞 著
相关图书 / 更多
深入理解大数据:大数据处理与编程实践
深入理解移动互联网
吴功宜 吴英 编著
深入理解大数据:大数据处理与编程实践
深入实施“四个育人”,彰显本科人才培养特色——云南大学本科教育改革与创新优秀论文集
主编唐旭光
深入理解大数据:大数据处理与编程实践
深入浅出C语言程序设计(第3版·微课版)
李俊·c;强振平;荣剑;张晴晖;赵毅力;钟丽辉
深入理解大数据:大数据处理与编程实践
深入浅出C#(视频教学版)
赵云
深入理解大数据:大数据处理与编程实践
深入实践Kotlin元编程
霍丙乾 著
深入理解大数据:大数据处理与编程实践
深入北方的小路(布克奖震撼杰作。人生在世,行走于地狱屋顶,凝望花朵。余华力荐“了不起的小说”!)
[澳]理查德·弗兰纳根 著;新经典 出品
深入理解大数据:大数据处理与编程实践
深入学习习近平关于科技创新的重要论述
科学技术部编写组 著
深入理解大数据:大数据处理与编程实践
深入浅出IoT:完整项目通关实战
[英]吉姆·贝内特(Jim Bennett) 著;柴火创客空间 译;[美]珍·福克斯(Jen Fox);[美]珍·卢珀(Jen Looper)
深入理解大数据:大数据处理与编程实践
深入浅出SSD:固态存储核心技术、原理与实战 第2版
SSDFans 胡波 石亮 岑彪
深入理解大数据:大数据处理与编程实践
深入地心 少儿科普 新华正版
英国尤斯伯恩出版公司
深入理解大数据:大数据处理与编程实践
深入理解FFmpeg
刘歧 赵军 杜金房 赵文杰 宋韶颍
深入理解大数据:大数据处理与编程实践
深入人心:数字产品设计的底层逻辑
林婕