数据馆员的Hadoop简明手册

数据馆员的Hadoop简明手册
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: ,
2017-10
版次: 1
ISBN: 9787518930135
定价: 28.00
装帧: 平装
开本: 32开
纸张: 胶版纸
页数: 82页
正文语种: 简体中文
  •   《数据馆员的Hadoop简明手册》旨在协助初级数据馆员们能够迅速了解Hadoop的知识、用途及整体概貌,作为进一步实践操作之前的入门基础读物。
      本手册力求简单、通俗、易懂,既不泛泛之谈,也不过早深入细节,而是力求把握重点。事实上,唯有实践才能真正理解Hadoop的有趣之处和局限之处,但在实践之前,或者考虑选择架构之前,如果有这么一本手册,会容易理解、沟通及评估。
      《数据馆员的Hadoop简明手册》包括5个部分。第1章概述分布式大数据的基本概念,以及开源软件Hadoop的历史、生态体系及主要版本的变化。第2章概述核心架构中的计算资源分配、列式计算的工具及索引。第3章概述分布式计算的MapReduce方案,这也是*为通用的一种方案,能满足海量数据的处理。第4章概述如何优化Hadoop的案例。*后,附录介绍Hado叩家族产品。   顾立平(Alan Ku),博士、教授。在中国科学院文献情报中心从事开放获取、著作权、数据权益的政策研究与建议;在中国科学院大学经济与管理学院讲授信息用户与服务研究。学术理念和工作信念是:好做事(态度)、做好事(方向)、做事好(目标)。 第1章 Hadoop概念
    1.1 Hadoop简介
    1.1.1 Hadoop是什么
    1.1.2 Hadoop形成的历史
    1.1.3 Hadoop在云计算和大数据中的地位
    1.1.4 Hadoop与Google FS的关系
    1.1.5 小结
    1.2 Hadoop生态系统
    1.2.1 Hadoop组成
    1.2.2 HDFS
    1.2.3 MapReduce
    1.3 Hadoop不同版本的变化
    1.3.1 Hadoop版本的变化
    1.3.2 HDFS→HDFS2
    1.3.3 MapReduce 1.0→MapReduce 2.0

    第2章 Hadoop的YARN、HBase、Hive组件
    2.1 YARN
    2.1.1 YARN的基本组成结构
    2.1.2 YARN的工作流程
    2.2 HBase
    2.2.1 NoSQL数据库
    2.2.2 HBase分布式数据库
    2.3 Hive数据仓库系统
    2.3.1 Hive的定义
    2.3.2 Hive和数据库的异同
    2.3.3 部分查询逻辑实现举例

    第3章 MapReduce入门
    3.1 MapReduce初析
    3.2 MapReduce运行机制
    3.3 Map函数和Reduce函数
    3.4 Mapper和Reducer抽象类
    3.5 Maplkeduce的最小驱动类
    3.6 MapReduce的输入与输出
    3.6.1 MapReduce的输入InputFormat
    3.6.2 MapReduce的输出OutputFormat
    3.7 自定义Writable和WritableComparable
    3.8 技术详解
    3.8.1 Combiner详解
    3.8.2 Partitioner详解
    3.8.3 Distributed FileSystem详解
    3.9 Hadoop工具介绍
    3.10 Counter-计数器和自定义Counter计数器

    第4章 基于Hadoop二次开发实战
    4.1 MapReduce的优化
    4.2 Hadoop小文件优化
    4.3 任务调度
    附录 Hadoop家族产品
  • 内容简介:
      《数据馆员的Hadoop简明手册》旨在协助初级数据馆员们能够迅速了解Hadoop的知识、用途及整体概貌,作为进一步实践操作之前的入门基础读物。
      本手册力求简单、通俗、易懂,既不泛泛之谈,也不过早深入细节,而是力求把握重点。事实上,唯有实践才能真正理解Hadoop的有趣之处和局限之处,但在实践之前,或者考虑选择架构之前,如果有这么一本手册,会容易理解、沟通及评估。
      《数据馆员的Hadoop简明手册》包括5个部分。第1章概述分布式大数据的基本概念,以及开源软件Hadoop的历史、生态体系及主要版本的变化。第2章概述核心架构中的计算资源分配、列式计算的工具及索引。第3章概述分布式计算的MapReduce方案,这也是*为通用的一种方案,能满足海量数据的处理。第4章概述如何优化Hadoop的案例。*后,附录介绍Hado叩家族产品。
  • 作者简介:
      顾立平(Alan Ku),博士、教授。在中国科学院文献情报中心从事开放获取、著作权、数据权益的政策研究与建议;在中国科学院大学经济与管理学院讲授信息用户与服务研究。学术理念和工作信念是:好做事(态度)、做好事(方向)、做事好(目标)。
  • 目录:
    第1章 Hadoop概念
    1.1 Hadoop简介
    1.1.1 Hadoop是什么
    1.1.2 Hadoop形成的历史
    1.1.3 Hadoop在云计算和大数据中的地位
    1.1.4 Hadoop与Google FS的关系
    1.1.5 小结
    1.2 Hadoop生态系统
    1.2.1 Hadoop组成
    1.2.2 HDFS
    1.2.3 MapReduce
    1.3 Hadoop不同版本的变化
    1.3.1 Hadoop版本的变化
    1.3.2 HDFS→HDFS2
    1.3.3 MapReduce 1.0→MapReduce 2.0

    第2章 Hadoop的YARN、HBase、Hive组件
    2.1 YARN
    2.1.1 YARN的基本组成结构
    2.1.2 YARN的工作流程
    2.2 HBase
    2.2.1 NoSQL数据库
    2.2.2 HBase分布式数据库
    2.3 Hive数据仓库系统
    2.3.1 Hive的定义
    2.3.2 Hive和数据库的异同
    2.3.3 部分查询逻辑实现举例

    第3章 MapReduce入门
    3.1 MapReduce初析
    3.2 MapReduce运行机制
    3.3 Map函数和Reduce函数
    3.4 Mapper和Reducer抽象类
    3.5 Maplkeduce的最小驱动类
    3.6 MapReduce的输入与输出
    3.6.1 MapReduce的输入InputFormat
    3.6.2 MapReduce的输出OutputFormat
    3.7 自定义Writable和WritableComparable
    3.8 技术详解
    3.8.1 Combiner详解
    3.8.2 Partitioner详解
    3.8.3 Distributed FileSystem详解
    3.9 Hadoop工具介绍
    3.10 Counter-计数器和自定义Counter计数器

    第4章 基于Hadoop二次开发实战
    4.1 MapReduce的优化
    4.2 Hadoop小文件优化
    4.3 任务调度
    附录 Hadoop家族产品
查看详情
相关图书 / 更多
数据馆员的Hadoop简明手册
数据治理实践者手记
苏振中
数据馆员的Hadoop简明手册
数据要素化治理
陆志鹏、孟庆国、王钺
数据馆员的Hadoop简明手册
数据经济学(第二版)
汤珂、熊巧琴、李金璞、屈阳
数据馆员的Hadoop简明手册
数据中台:让数据用起来 第2版 付登坡 等
付登坡 江敏 赵东辉 等
数据馆员的Hadoop简明手册
数据资源管理 陈忆金 奉国和
陈忆金 奉国和
数据馆员的Hadoop简明手册
数据工程之道:设计和构建健壮的数据系统 [美]乔·里斯 [美]马特·豪斯利
[美]乔·里斯(Joe Reis),[美]马特·豪斯利(Matt Housley)
数据馆员的Hadoop简明手册
数据合规实务指引 法律实务 朱晓娟主编 新华正版
朱晓娟主编
数据馆员的Hadoop简明手册
数据法学前沿
武长海
数据馆员的Hadoop简明手册
数据加密与PKI应用(微课版)
王秀英
数据馆员的Hadoop简明手册
数据库及其应用(2023年版) 全国高等教育自学考试指导委员会
全国高等教育自学考试指导委员会
数据馆员的Hadoop简明手册
数据科学技术:文本分析和知识图谱
苏海波、刘译璟、易显维、苏萌
数据馆员的Hadoop简明手册
数据治理驱动的数字化转型 王建峰 辛华
王建峰 辛华
您可能感兴趣 / 更多