数据馆员的Hadoop简明手册

数据馆员的Hadoop简明手册
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: ,
2017-10
版次: 1
ISBN: 9787518930135
定价: 28.00
装帧: 平装
开本: 32开
纸张: 胶版纸
页数: 82页
正文语种: 简体中文
  •   《数据馆员的Hadoop简明手册》旨在协助初级数据馆员们能够迅速了解Hadoop的知识、用途及整体概貌,作为进一步实践操作之前的入门基础读物。
      本手册力求简单、通俗、易懂,既不泛泛之谈,也不过早深入细节,而是力求把握重点。事实上,唯有实践才能真正理解Hadoop的有趣之处和局限之处,但在实践之前,或者考虑选择架构之前,如果有这么一本手册,会容易理解、沟通及评估。
      《数据馆员的Hadoop简明手册》包括5个部分。第1章概述分布式大数据的基本概念,以及开源软件Hadoop的历史、生态体系及主要版本的变化。第2章概述核心架构中的计算资源分配、列式计算的工具及索引。第3章概述分布式计算的MapReduce方案,这也是*为通用的一种方案,能满足海量数据的处理。第4章概述如何优化Hadoop的案例。*后,附录介绍Hado叩家族产品。   顾立平(Alan Ku),博士、教授。在中国科学院文献情报中心从事开放获取、著作权、数据权益的政策研究与建议;在中国科学院大学经济与管理学院讲授信息用户与服务研究。学术理念和工作信念是:好做事(态度)、做好事(方向)、做事好(目标)。 第1章 Hadoop概念
    1.1 Hadoop简介
    1.1.1 Hadoop是什么
    1.1.2 Hadoop形成的历史
    1.1.3 Hadoop在云计算和大数据中的地位
    1.1.4 Hadoop与Google FS的关系
    1.1.5 小结
    1.2 Hadoop生态系统
    1.2.1 Hadoop组成
    1.2.2 HDFS
    1.2.3 MapReduce
    1.3 Hadoop不同版本的变化
    1.3.1 Hadoop版本的变化
    1.3.2 HDFS→HDFS2
    1.3.3 MapReduce 1.0→MapReduce 2.0

    第2章 Hadoop的YARN、HBase、Hive组件
    2.1 YARN
    2.1.1 YARN的基本组成结构
    2.1.2 YARN的工作流程
    2.2 HBase
    2.2.1 NoSQL数据库
    2.2.2 HBase分布式数据库
    2.3 Hive数据仓库系统
    2.3.1 Hive的定义
    2.3.2 Hive和数据库的异同
    2.3.3 部分查询逻辑实现举例

    第3章 MapReduce入门
    3.1 MapReduce初析
    3.2 MapReduce运行机制
    3.3 Map函数和Reduce函数
    3.4 Mapper和Reducer抽象类
    3.5 Maplkeduce的最小驱动类
    3.6 MapReduce的输入与输出
    3.6.1 MapReduce的输入InputFormat
    3.6.2 MapReduce的输出OutputFormat
    3.7 自定义Writable和WritableComparable
    3.8 技术详解
    3.8.1 Combiner详解
    3.8.2 Partitioner详解
    3.8.3 Distributed FileSystem详解
    3.9 Hadoop工具介绍
    3.10 Counter-计数器和自定义Counter计数器

    第4章 基于Hadoop二次开发实战
    4.1 MapReduce的优化
    4.2 Hadoop小文件优化
    4.3 任务调度
    附录 Hadoop家族产品
  • 内容简介:
      《数据馆员的Hadoop简明手册》旨在协助初级数据馆员们能够迅速了解Hadoop的知识、用途及整体概貌,作为进一步实践操作之前的入门基础读物。
      本手册力求简单、通俗、易懂,既不泛泛之谈,也不过早深入细节,而是力求把握重点。事实上,唯有实践才能真正理解Hadoop的有趣之处和局限之处,但在实践之前,或者考虑选择架构之前,如果有这么一本手册,会容易理解、沟通及评估。
      《数据馆员的Hadoop简明手册》包括5个部分。第1章概述分布式大数据的基本概念,以及开源软件Hadoop的历史、生态体系及主要版本的变化。第2章概述核心架构中的计算资源分配、列式计算的工具及索引。第3章概述分布式计算的MapReduce方案,这也是*为通用的一种方案,能满足海量数据的处理。第4章概述如何优化Hadoop的案例。*后,附录介绍Hado叩家族产品。
  • 作者简介:
      顾立平(Alan Ku),博士、教授。在中国科学院文献情报中心从事开放获取、著作权、数据权益的政策研究与建议;在中国科学院大学经济与管理学院讲授信息用户与服务研究。学术理念和工作信念是:好做事(态度)、做好事(方向)、做事好(目标)。
  • 目录:
    第1章 Hadoop概念
    1.1 Hadoop简介
    1.1.1 Hadoop是什么
    1.1.2 Hadoop形成的历史
    1.1.3 Hadoop在云计算和大数据中的地位
    1.1.4 Hadoop与Google FS的关系
    1.1.5 小结
    1.2 Hadoop生态系统
    1.2.1 Hadoop组成
    1.2.2 HDFS
    1.2.3 MapReduce
    1.3 Hadoop不同版本的变化
    1.3.1 Hadoop版本的变化
    1.3.2 HDFS→HDFS2
    1.3.3 MapReduce 1.0→MapReduce 2.0

    第2章 Hadoop的YARN、HBase、Hive组件
    2.1 YARN
    2.1.1 YARN的基本组成结构
    2.1.2 YARN的工作流程
    2.2 HBase
    2.2.1 NoSQL数据库
    2.2.2 HBase分布式数据库
    2.3 Hive数据仓库系统
    2.3.1 Hive的定义
    2.3.2 Hive和数据库的异同
    2.3.3 部分查询逻辑实现举例

    第3章 MapReduce入门
    3.1 MapReduce初析
    3.2 MapReduce运行机制
    3.3 Map函数和Reduce函数
    3.4 Mapper和Reducer抽象类
    3.5 Maplkeduce的最小驱动类
    3.6 MapReduce的输入与输出
    3.6.1 MapReduce的输入InputFormat
    3.6.2 MapReduce的输出OutputFormat
    3.7 自定义Writable和WritableComparable
    3.8 技术详解
    3.8.1 Combiner详解
    3.8.2 Partitioner详解
    3.8.3 Distributed FileSystem详解
    3.9 Hadoop工具介绍
    3.10 Counter-计数器和自定义Counter计数器

    第4章 基于Hadoop二次开发实战
    4.1 MapReduce的优化
    4.2 Hadoop小文件优化
    4.3 任务调度
    附录 Hadoop家族产品
查看详情
相关图书 / 更多
数据馆员的Hadoop简明手册
数据新闻与信息可视化
周葆华;徐笛;崔迪
数据馆员的Hadoop简明手册
数据合规师概论
郑少华、商建刚
数据馆员的Hadoop简明手册
数据思维——从数据分析到商业价值(第2版)
王汉生
数据馆员的Hadoop简明手册
数据科学优化方法
孙怡帆
数据馆员的Hadoop简明手册
数据处理技术与方法研究
付雯
数据馆员的Hadoop简明手册
数据治理 工业企业数字化转型之道 第2版
祝守宇
数据馆员的Hadoop简明手册
数据可视化Pyecharts探秘实践教程/新工科大数据专业群实践丛书
余先昊、袁华 编
数据馆员的Hadoop简明手册
数据标注工程——语言知识与应用
于东
数据馆员的Hadoop简明手册
数据可视化基础与应用
刘佳 许桂秋 李静雯
数据馆员的Hadoop简明手册
数据要素的产权分析与治理机制
王凯军 著
数据馆员的Hadoop简明手册
数据权利保护的模式与机制
余圣琪
数据馆员的Hadoop简明手册
数据科学伦理:概念、技术和警世故事
[比利时]大卫·马滕斯(David;Martens
您可能感兴趣 / 更多