大数据挑战与NoSQL数据库技术

大数据挑战与NoSQL数据库技术
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2013-04
版次: 1
ISBN: 9787121196607
定价: 79.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 440页
字数: 446千字
正文语种: 简体中文
丛书: 大数据丛书
99人买过
  •   《大数据挑战与NoSQL数据库技术》共分为三部分。理论篇重点介绍大数据时代下数据处理的基本理论及相关处理技术,并引入NoSQL数据库;系统篇主要介绍了各种类型NoSQL数据库的基本知识;应用篇对国内外几家知名公司在利用NoSQL数据库处理海量数据方面的实践做了阐述。
      《大数据挑战与NoSQL数据库技术》对大数据时代面临的挑战,以及NoSQL数据库的基本知识做了清晰的阐述,有助于读者整理思路,了解需求,并更有针对性、有选择地深入学习相关知识。
      陆嘉恒,中国人民大学教授,博士生导师。2006年毕业于新加坡国立大学计算机科学系,获博士学位;2006-2008年在美国加利福尼亚大学尔湾分校(University of California, Irvine)进行博士后研究;2008年加入中国人民大学,2012年破格晋升为教授。主要研究领域包括数据库技术和云计算技术。先后在SIGMOD、VLDB、ICDE、WWW等国际重要会议和期刊上发表数据库方向的论文40多篇,主编多本云计算和大数据的教材和著作。 第1章 概论
    1.1 引子
    1.2 大数据挑战
    1.3 大数据的存储和管理
    1.3.1 并行数据库
    1.3.2 NoSQL数据管理系统
    1.3.3 NewSQL数据管理系统
    1.3.4 云数据管理
    1.4 大数据的处理和分析
    1.5 小结
    参考文献
    理 论 篇
    第2章 数据一致性理论
    2.1 CAP理论
    2.2 数据一致性模型
    2.3 ACID与BASE
    2.4 数据一致性实现技术
    2.4.1 Quorum系统NRW策略
    2.4.2 两阶段提交协议
    2.4.3 时间戳策略
    2.4.4 Paxos
    2.4.5 向量时钟
    2.5 小结
    参考文献
    第3章 数据存储模型
    3.1 总论
    3.2 键值存储
    3.2.1 Redis
    3.2.2 Dynamo
    3.3 列式存储
    3.3.1 Bigtable
    3.3.2 Cassandra与HBase
    3.4 文档存储
    3.4.1 MongoDB
    3.4.2 CouchDB
    3.5 图形存储
    3.5.1 Neo4j
    3.5.2 GraphDB
    3.6 本章小结
    参考文献
    第4章 数据分区与放置策略
    4.1 分区的意义
    4.1.1 为什么要分区
    4.1.2 分区的优点
    4.2 范围分区
    4.3 列表分区
    4.4 哈希分区
    4.5 三种分区的比较
    4.6 放置策略
    4.6.1 一致性哈希算法
    4.6.2 容错性与可扩展性分析
    4.6.3 虚拟节点
    4.7 小结
    参考文献
    第5章 海量数据处理方法
    5.1 MapReduce简介
    5.2 MapReduce数据流
    5.3 MapReduce数据处理
    5.3.1 提交作业
    5.3.2 初始化作业
    5.3.3 分配任务
    5.3.4 执行任务
    5.3.5 更新任务执行进度和状态
    5.3.6 完成作业
    5.4 Dryad简介
    5.4.1 DFS Cosmos介绍
    5.4.2 Dryad执行引擎
    5.4.3 DryadLINQ解释引擎
    5.4.4 DryadLINQ编程
    5.5 Dryad数据处理步骤
    5.6 MapReduce vs Dryad
    5.7 小结
    参考文献
    第6章 数据复制与容错技术
    6.1 海量数据复制的作用和代价
    6.2 海量数据复制的策略
    6.2.1 Dynamo的数据库复制策略
    6.2.2 CouchDB的复制策略
    6.2.3 PNUTS的复制策略
    6.3 海量数据的故障发现与处理
    6.3.1 Dynamo的数据库的故障发现与处理
    6.3.2 CouchDB的故障发现与处理
    6.3.3 PNUTS的故障发现与处理
    6.4 小结
    参考文献
    第7章 数据压缩技术
    7.1 数据压缩原理
    7.1.1 数据压缩的定义
    7.1.2 数据为什么可以压缩
    7.1.3 数据压缩分类
    7.2 传统压缩技术[1]
    7.2.1 霍夫曼编码
    7.2.2 LZ77算法
    7.3 海量数据带来的3V挑战
    7.4 Oracle混合列压缩
    7.4.1 仓库压缩
    7.4.2 存档压缩
    7.5 Google数据压缩技术
    7.5.1 寻找长的重复串
    7.5.2 压缩算法
    7.6 Hadoop压缩技术
    7.6.1 LZO简介
    7.6.2 LZO原理[5]
    7.7 小结
    参考文献
    第8章 缓存技术
    8.1 分布式缓存简介
    8.1.1 分布式缓存的产生
    8.1.2 分布式缓存的应用
    8.1.3 分布式缓存的性能
    8.1.4 衡量可用性的标准
    8.2 分布式缓存的内部机制
    8.2.1 生命期机制
    8.2.2 一致性机制
    8.2.3 直读与直写机制
    8.2.4 查询机制
    8.2.5 事件触发机制
    8.3 分布式缓存的拓扑结构
    8.3.1 复制式拓扑
    8.3.2 分割式拓扑
    8.3.3 客户端缓存拓扑
    8.4 小结
    参考文献
    系 统 篇
    第9章 key-value数据库
    9.1 key-value模型综述
    9.2 Redis
    9.2.1 Redis概述
    9.2.2 Redis下载与安装
    9.2.3 Redis入门操作
    9.2.4 Redis在业内的应用
    9.3 Voldemort
    9.3.1 Voldemort概述
    9.3.2 Voldemort下载与安装
    9.3.3 Voldemort配置
    9.3.4 Voldemort开发介绍[3]
    9.4 小结
    参考文献
    第10章 Column-Oriented数据库
    10.1 Column-Oriented数据库简介
    10.2 Bigtable数据库
    10.2.1 Bigtable数据库简介
    10.2.2 Bigtable数据模型
    10.2.3 Bigtable基础架构
    10.3 Hypertable数据库
    10.3.1 Hypertable简介
    10.3.2 Hypertable安装
    10.3.3 Hypertable架构
    10.3.4 基本概念和原理
    10.3.5 Hypertable的查询
    10.4 Cassandra数据库
    10.4.1 Cassandra简介
    10.4.2 Cassandra配置
    10.4.3 Cassandra数据库的连接
    10.4.4 Cassandra集群机制
    10.4.5 Cassandra的读/写机制
    10.5 小结
    参考文献
    第11章 文档数据库
    11.1 文档数据库简介
    11.2 CouchDB数据库
    11.2.1 CouchDB简介
    11.2.2 CouchDB安装
    11.2.3 CouchDB入门
    11.2.4 CouchDB查询
    11.2.5 CouchDB的存储结构
    11.2.6 SQL和CouchDB
    11.2.7 分布式环境中的CouchDB
    11.3 MongoDB数据库
    11.3.1 MongoDB简介
    11.3.2 MongoDB的安装
    11.3.3 MongoDB入门
    11.3.4 MongoDB索引
    11.3.5 SQL与MongoDB
    11.3.6 MapReduce与MongoDB
    11.3.7 MongoDB与CouchDB对比
    11.4 小结
    参考文献
    第12章 图存数据库
    12.1 图存数据库的由来及基本概念
    12.1.1 图存数据库的由来
    12.1.2 图存数据库的基本概念
    12.2 Neo4j图存数据库
    12.2.1 Neo4j简介
    12.2.2 Neo4j使用教程
    12.2.3 分布式Neo4j--Neo4j HA
    12.2.4 Neo4j工作机制及优缺点浅析
    12.3 GraphDB
    12.3.1 GraphDB简介
    12.3.2 GraphDB的整体架构
    12.3.3 GraphDB的数据模型
    12.3.4 GraphDB的安装
    12.3.5 GraphDB的使用
    12.4 OrientDB
    12.4.1 背景
    12.4.2 OrientDB是什么
    12.4.3 OrientDB的原理及相关技术
    12.4.4 Windows下OrientDB的安装与使用
    12.4.5 相关Web应用
    12.5 三种图存数据库的比较
    12.5.1 特征矩阵
    12.5.2 分布式模式及应用比较
    12.6 小结
    参考文献
    第13章 基于Hadoop的数据管理系统
    13.1 Hadoop简介
    13.2 HBase
    13.2.1 HBase体系结构
    13.2.2 HBase数据模型
    13.2.3 HBase的安装和使用
    13.2.4 HBase与RDBMS
    13.3 Pig
    13.3.1 Pigr的安装和使用
    13.3.2 Pig Latin语言
    13.3.3 Pig实例
    13.4 Hive
    13.4.1 Hive的数据存储
    13.4.2 Hive的元数据存储
    13.4.3 安装Hive
    13.4.4 HiveQL简介
    13.4.5 Hive的网络接口(WebUI)
    13.4.6 Hive的JDBC接口
    13.5 小结
    参考文献
    第14章 NewSQL数据库
    14.1 NewSQL数据库简介
    14.2 MySQL Cluster
    14.2.1 概述
    14.2.2 MySQL Cluster的层次结构
    14.2.3 MySQL Cluster的优势和应用
    14.2.4 海量数据处理中的sharding技术
    14.2.5 单机环境下MySQL Cluster的安装
    14.2.6 MySQL Cluster的分布式安装与配置指导
    14.3 VoltDB
    14.3.1 传统关系数据库与VoltDB
    14.3.2 VoltDB的安装与配置
    14.3.3 VoltDB组件
    14.3.4 Hello World
    14.3.5 使用Generate脚本
    14.3.6 Eclipse集成开发
    14.4 小结
    参考文献
    第15章 分布式缓存系统
    15.1 Memcached缓存技术
    15.1.1 背景介绍
    15.1.2 Memcached缓存技术的特点
    15.1.3 Memcached安装[3]
    15.1.4 Memcached中的数据操作
    15.1.5 Memcached的使用
    15.2 Microsoft Velocity分布式缓存系统
    15.2.1 Microsoft Velocity简介
    15.2.2 数据分类
    15.2.3 Velocity核心概念
    15.2.4 Velocity安装
    15.2.5 一个简单的Velocity客户端应用
    15.2.6 扩展型和可用性
    15.3 小结
    参考文献
    应 用 篇
    第16章 企业应用
    16.1 Instagram
    16.1.1 Instagram如何应对数据的急剧增长
    16.1.2 Instagram的数据分片策略
    16.2 Facebook对Hadoop以及HBase的应用
    16.2.1 工作负载类型
    16.2.2 为什么采用Apache Hadoop和HBase
    16.2.3 实时HDFS
    16.2.4 Hadoop HBase的实现
    16.3 淘宝大数据解决之道
    16.3.1 淘宝数据分析
    16.3.2 淘宝大数据挑战
    16.3.3 淘宝OceanBase数据库
    16.3.4 淘宝将来的工作
    16.4 小结
    参考文献
  • 内容简介:
      《大数据挑战与NoSQL数据库技术》共分为三部分。理论篇重点介绍大数据时代下数据处理的基本理论及相关处理技术,并引入NoSQL数据库;系统篇主要介绍了各种类型NoSQL数据库的基本知识;应用篇对国内外几家知名公司在利用NoSQL数据库处理海量数据方面的实践做了阐述。
      《大数据挑战与NoSQL数据库技术》对大数据时代面临的挑战,以及NoSQL数据库的基本知识做了清晰的阐述,有助于读者整理思路,了解需求,并更有针对性、有选择地深入学习相关知识。
  • 作者简介:
      陆嘉恒,中国人民大学教授,博士生导师。2006年毕业于新加坡国立大学计算机科学系,获博士学位;2006-2008年在美国加利福尼亚大学尔湾分校(University of California, Irvine)进行博士后研究;2008年加入中国人民大学,2012年破格晋升为教授。主要研究领域包括数据库技术和云计算技术。先后在SIGMOD、VLDB、ICDE、WWW等国际重要会议和期刊上发表数据库方向的论文40多篇,主编多本云计算和大数据的教材和著作。
  • 目录:
    第1章 概论
    1.1 引子
    1.2 大数据挑战
    1.3 大数据的存储和管理
    1.3.1 并行数据库
    1.3.2 NoSQL数据管理系统
    1.3.3 NewSQL数据管理系统
    1.3.4 云数据管理
    1.4 大数据的处理和分析
    1.5 小结
    参考文献
    理 论 篇
    第2章 数据一致性理论
    2.1 CAP理论
    2.2 数据一致性模型
    2.3 ACID与BASE
    2.4 数据一致性实现技术
    2.4.1 Quorum系统NRW策略
    2.4.2 两阶段提交协议
    2.4.3 时间戳策略
    2.4.4 Paxos
    2.4.5 向量时钟
    2.5 小结
    参考文献
    第3章 数据存储模型
    3.1 总论
    3.2 键值存储
    3.2.1 Redis
    3.2.2 Dynamo
    3.3 列式存储
    3.3.1 Bigtable
    3.3.2 Cassandra与HBase
    3.4 文档存储
    3.4.1 MongoDB
    3.4.2 CouchDB
    3.5 图形存储
    3.5.1 Neo4j
    3.5.2 GraphDB
    3.6 本章小结
    参考文献
    第4章 数据分区与放置策略
    4.1 分区的意义
    4.1.1 为什么要分区
    4.1.2 分区的优点
    4.2 范围分区
    4.3 列表分区
    4.4 哈希分区
    4.5 三种分区的比较
    4.6 放置策略
    4.6.1 一致性哈希算法
    4.6.2 容错性与可扩展性分析
    4.6.3 虚拟节点
    4.7 小结
    参考文献
    第5章 海量数据处理方法
    5.1 MapReduce简介
    5.2 MapReduce数据流
    5.3 MapReduce数据处理
    5.3.1 提交作业
    5.3.2 初始化作业
    5.3.3 分配任务
    5.3.4 执行任务
    5.3.5 更新任务执行进度和状态
    5.3.6 完成作业
    5.4 Dryad简介
    5.4.1 DFS Cosmos介绍
    5.4.2 Dryad执行引擎
    5.4.3 DryadLINQ解释引擎
    5.4.4 DryadLINQ编程
    5.5 Dryad数据处理步骤
    5.6 MapReduce vs Dryad
    5.7 小结
    参考文献
    第6章 数据复制与容错技术
    6.1 海量数据复制的作用和代价
    6.2 海量数据复制的策略
    6.2.1 Dynamo的数据库复制策略
    6.2.2 CouchDB的复制策略
    6.2.3 PNUTS的复制策略
    6.3 海量数据的故障发现与处理
    6.3.1 Dynamo的数据库的故障发现与处理
    6.3.2 CouchDB的故障发现与处理
    6.3.3 PNUTS的故障发现与处理
    6.4 小结
    参考文献
    第7章 数据压缩技术
    7.1 数据压缩原理
    7.1.1 数据压缩的定义
    7.1.2 数据为什么可以压缩
    7.1.3 数据压缩分类
    7.2 传统压缩技术[1]
    7.2.1 霍夫曼编码
    7.2.2 LZ77算法
    7.3 海量数据带来的3V挑战
    7.4 Oracle混合列压缩
    7.4.1 仓库压缩
    7.4.2 存档压缩
    7.5 Google数据压缩技术
    7.5.1 寻找长的重复串
    7.5.2 压缩算法
    7.6 Hadoop压缩技术
    7.6.1 LZO简介
    7.6.2 LZO原理[5]
    7.7 小结
    参考文献
    第8章 缓存技术
    8.1 分布式缓存简介
    8.1.1 分布式缓存的产生
    8.1.2 分布式缓存的应用
    8.1.3 分布式缓存的性能
    8.1.4 衡量可用性的标准
    8.2 分布式缓存的内部机制
    8.2.1 生命期机制
    8.2.2 一致性机制
    8.2.3 直读与直写机制
    8.2.4 查询机制
    8.2.5 事件触发机制
    8.3 分布式缓存的拓扑结构
    8.3.1 复制式拓扑
    8.3.2 分割式拓扑
    8.3.3 客户端缓存拓扑
    8.4 小结
    参考文献
    系 统 篇
    第9章 key-value数据库
    9.1 key-value模型综述
    9.2 Redis
    9.2.1 Redis概述
    9.2.2 Redis下载与安装
    9.2.3 Redis入门操作
    9.2.4 Redis在业内的应用
    9.3 Voldemort
    9.3.1 Voldemort概述
    9.3.2 Voldemort下载与安装
    9.3.3 Voldemort配置
    9.3.4 Voldemort开发介绍[3]
    9.4 小结
    参考文献
    第10章 Column-Oriented数据库
    10.1 Column-Oriented数据库简介
    10.2 Bigtable数据库
    10.2.1 Bigtable数据库简介
    10.2.2 Bigtable数据模型
    10.2.3 Bigtable基础架构
    10.3 Hypertable数据库
    10.3.1 Hypertable简介
    10.3.2 Hypertable安装
    10.3.3 Hypertable架构
    10.3.4 基本概念和原理
    10.3.5 Hypertable的查询
    10.4 Cassandra数据库
    10.4.1 Cassandra简介
    10.4.2 Cassandra配置
    10.4.3 Cassandra数据库的连接
    10.4.4 Cassandra集群机制
    10.4.5 Cassandra的读/写机制
    10.5 小结
    参考文献
    第11章 文档数据库
    11.1 文档数据库简介
    11.2 CouchDB数据库
    11.2.1 CouchDB简介
    11.2.2 CouchDB安装
    11.2.3 CouchDB入门
    11.2.4 CouchDB查询
    11.2.5 CouchDB的存储结构
    11.2.6 SQL和CouchDB
    11.2.7 分布式环境中的CouchDB
    11.3 MongoDB数据库
    11.3.1 MongoDB简介
    11.3.2 MongoDB的安装
    11.3.3 MongoDB入门
    11.3.4 MongoDB索引
    11.3.5 SQL与MongoDB
    11.3.6 MapReduce与MongoDB
    11.3.7 MongoDB与CouchDB对比
    11.4 小结
    参考文献
    第12章 图存数据库
    12.1 图存数据库的由来及基本概念
    12.1.1 图存数据库的由来
    12.1.2 图存数据库的基本概念
    12.2 Neo4j图存数据库
    12.2.1 Neo4j简介
    12.2.2 Neo4j使用教程
    12.2.3 分布式Neo4j--Neo4j HA
    12.2.4 Neo4j工作机制及优缺点浅析
    12.3 GraphDB
    12.3.1 GraphDB简介
    12.3.2 GraphDB的整体架构
    12.3.3 GraphDB的数据模型
    12.3.4 GraphDB的安装
    12.3.5 GraphDB的使用
    12.4 OrientDB
    12.4.1 背景
    12.4.2 OrientDB是什么
    12.4.3 OrientDB的原理及相关技术
    12.4.4 Windows下OrientDB的安装与使用
    12.4.5 相关Web应用
    12.5 三种图存数据库的比较
    12.5.1 特征矩阵
    12.5.2 分布式模式及应用比较
    12.6 小结
    参考文献
    第13章 基于Hadoop的数据管理系统
    13.1 Hadoop简介
    13.2 HBase
    13.2.1 HBase体系结构
    13.2.2 HBase数据模型
    13.2.3 HBase的安装和使用
    13.2.4 HBase与RDBMS
    13.3 Pig
    13.3.1 Pigr的安装和使用
    13.3.2 Pig Latin语言
    13.3.3 Pig实例
    13.4 Hive
    13.4.1 Hive的数据存储
    13.4.2 Hive的元数据存储
    13.4.3 安装Hive
    13.4.4 HiveQL简介
    13.4.5 Hive的网络接口(WebUI)
    13.4.6 Hive的JDBC接口
    13.5 小结
    参考文献
    第14章 NewSQL数据库
    14.1 NewSQL数据库简介
    14.2 MySQL Cluster
    14.2.1 概述
    14.2.2 MySQL Cluster的层次结构
    14.2.3 MySQL Cluster的优势和应用
    14.2.4 海量数据处理中的sharding技术
    14.2.5 单机环境下MySQL Cluster的安装
    14.2.6 MySQL Cluster的分布式安装与配置指导
    14.3 VoltDB
    14.3.1 传统关系数据库与VoltDB
    14.3.2 VoltDB的安装与配置
    14.3.3 VoltDB组件
    14.3.4 Hello World
    14.3.5 使用Generate脚本
    14.3.6 Eclipse集成开发
    14.4 小结
    参考文献
    第15章 分布式缓存系统
    15.1 Memcached缓存技术
    15.1.1 背景介绍
    15.1.2 Memcached缓存技术的特点
    15.1.3 Memcached安装[3]
    15.1.4 Memcached中的数据操作
    15.1.5 Memcached的使用
    15.2 Microsoft Velocity分布式缓存系统
    15.2.1 Microsoft Velocity简介
    15.2.2 数据分类
    15.2.3 Velocity核心概念
    15.2.4 Velocity安装
    15.2.5 一个简单的Velocity客户端应用
    15.2.6 扩展型和可用性
    15.3 小结
    参考文献
    应 用 篇
    第16章 企业应用
    16.1 Instagram
    16.1.1 Instagram如何应对数据的急剧增长
    16.1.2 Instagram的数据分片策略
    16.2 Facebook对Hadoop以及HBase的应用
    16.2.1 工作负载类型
    16.2.2 为什么采用Apache Hadoop和HBase
    16.2.3 实时HDFS
    16.2.4 Hadoop HBase的实现
    16.3 淘宝大数据解决之道
    16.3.1 淘宝数据分析
    16.3.2 淘宝大数据挑战
    16.3.3 淘宝OceanBase数据库
    16.3.4 淘宝将来的工作
    16.4 小结
    参考文献
查看详情
12
系列丛书 / 更多
大数据挑战与NoSQL数据库技术
数据可视化
陈为、沈则潜 著;陶煜波 编著
大数据挑战与NoSQL数据库技术
文本挖掘
Kogan 著;Michael、W.Berry、Jacob、文卫东 译
大数据挑战与NoSQL数据库技术
发现数据之美:数据分析原理与实践:全面梳理数据分析思路、方法、技巧,挖出大数据价值,精准定位业务方向,让数据成为真正的资产。基于SPSS的大数据分析与应用实践的指南!资深数据分析师带你发现数据之美
彭鸿涛、聂磊 著
大数据挑战与NoSQL数据库技术
金融大数据:战略规划与实践指南
陈利强、梁如见、张新宇 著
大数据挑战与NoSQL数据库技术
大数据处理之道
何金池 著
大数据挑战与NoSQL数据库技术
互联网金融与大数据分析
庞引明 著
大数据挑战与NoSQL数据库技术
模式识别与分类导论
[美]杰夫·多尔蒂(Geoff Dougherty) 著;殷娟娟、答凯艳、程国建 译
您可能感兴趣 / 更多