Hadoop大数据处理技术基础与实践

Hadoop大数据处理技术基础与实践
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: , ,
2015-12
版次: 01
ISBN: 9787115400741
定价: 45.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 291页
正文语种: 简体中文
36人买过
  • 全书共有12章,从Hadoop起源开始,介绍了Hadoop的安装和配置,并对Hadoop的组件分别进行了介绍,包括HDFS分布式存储系统,MapReduce计算框架,海量数据库HBase,Hive数据仓库,Pig、ZooKeeper管理系统等知识,最后对Hadoop实时数据处理技术作了简单介绍,旨在让读者了解当前的其它的大数据处理技术。本书除了对Hadoop的理论进行说明之外,还对如何使用各组件进行了介绍,但介绍的只是基础的使用,没有涉及到底层的高级内容,所以本书只是起一个引导作用,旨在让读者了解Hadoop并能够使用Hadoop的基本功能,并不是学习Hadoop的完全手册。
    本书适用于高等院校的学生;是云计算专业、物联网专业及云计算与大数据专业的核心基础课程,也是计算机相关专业的一门新增专业课或选修课;适合于零售及云计算与大数据技术相关的培训班等使用。  安俊秀,女,教授,西安交通大学攻读计算机科学与技术专业,获工学硕士学位。中国计算机学会高级会员;中国电子学会高级会员;成都市科技攻关计划评审专家;成都军区项目评审专家;汕尾市科技顾问团首席顾问。

      在科研工作方面,一直从事云计算与大数据、信息智能搜索与计算社会方面的研究工作。近五年来就此发表论文40余篇,其中**作者20余篇,核心期刊以上占15余篇。主编或参与完成专著3部、教材4部,6部由***出版社出版。获得国家发明专利2项(2014授权),实用新型专利授权12项。获得软件著作权13项。科研项目20项,其中作为项目负责人承担省部级项目3项;作为主研人员参与***项目6项、省级项目6项。 Hadoop基础与实践
    第1章Hadoop概述
    1.1 Hadoop来源和动机
    1.2 Hadoop体系架构
    1.3 Hadoop与分布式开发
    1.4 Hadoop行业应用案例分析
    1.4.1 Hadoop在门户网站的应用
    1.4.2 Hadoop在搜索引擎中的应用
    1.4.3 Hadoop在电商平台中的应用
    1.5小结
    第2章Hadoop安装与配置管理
    2.1 实验准备
    2.2 配置一个单节点环境
    2.2.1 运行一个虚拟系统CentOS
    2.2.2 配置网络
    2.2.3创建新的用户组和用户
    2.2.4上传文件到CentOS并配置Java、Hadoop环境
    2.2.5 修改Hadoop2.2配置文件
    2.2.6修改CentOS主机名
    2.2.7绑定hostname与IP
    2.2.8关闭防火墙
    2.3节点之间的免密码通信
    2.3.1什么是SSH
    2.3.2 拷贝虚拟机节点
    2.3.3 配置SSH免密码登录
    2.4 Hadoop的启动和测试
    2.4.1 格式化文件系统
    2.4.2启动HDFS
    2.4.3 启动Yarn
    2.4.4 管理JobHistory Server
    2.4.5 集群验证
    2.4.6 需要了解的默认配置
    2.5动态管理节点
    2.5.1 动态增加和删除datanode
    2.5.2 动态修改TaskTracker
    2.6小结
    第3章HDFS技术
    3.1HDFS的特点
    3.2HDFS架构
    3.2.1数据块
    3.2.2元数据节点与数据节点
    3.2.3辅助元数据节点
    3.2.4安全模式
    3.2.5负载均衡
    3.2.6垃圾回收
    3.3HDFS Shell命令
    3.3.1文件处理命令
    3.3.2dfsadmin命令
    3.3.3namenode命令
    3.3.4fsck命令
    3.3.5pipes命令
    3.3.6job命令
    3.4HDFS中Java API的使用
    3.4.1上传文件
    3.4.2新建文件
    3.4.3查看文件详细信息
    3.4.4下载文件
    3.5RPC通信
    3.5.1反射机制
    3.5.2代理模式与动态代理
    3.5.3Hadoop RPC机制与源码分析
    3.6小结
    第4章Map/Reduce技术
    4.1 什么是Map/Reduce
    4.2 Map/Reduce编程模型
    4.2.1 MapReduce编程模型简介
    4.2.2 Map/Reduce简单模型
    4.2.3 Map/Reduce复杂模型
    4.2.4 Map/Reduce编程实例–WordCount
    4.3 Map/Reduce数据流
    4.3.1分片、格式化数据源(InputFormat)
    4.3.2 Map过程
    4.3.3 Shuffle过程
    4.3.4 Reduce过程
    4.3.5文件写入(OutputFormat)
    4.4 Map/Reduce任务流程
    4.4.1 MRv2基本组成
    4.4.2 Yarn基本组成
    4.4.3 任务流程
    4.5 Map/Reduce的Streaming和Pipe
    4.5.1 Hadoop Streaming
    4.5.2 Hadoop Pipe
    4.6 Map/Reduce性能调优
    4.7Map/Reduce实战
    4.7.1 快速入门
    4.7.2简单使用Eclipse插件
    4.8小结
    第5章Hadoop I/O操作
    5.1HDFS数据完整性
    5.1.1校验和
    5.1.2DataBlockScanner
    5.2基于文件的数据结构
    5.2.1SequenceFile存储
    5.2.2MapFile
    5.2.3SequenceFile转换为MapFile
    5.3压缩
    5.3.1Codec
    5.3.2本地库
    5.3.3如何选择压缩格式
    5.4序列化
    5.4.1Writable接口
    5.4.2WritableComparable
    5.4.3Hadoop writable基本类型
    5.4.4自定义writable类型
    5.5小结
    第6章海量数据库HBase技术
    6.1 初识HBase
    6.2 HBase表视图
    6.2.1概念视图
    6.2.2物理视图
    6.3HBase物理存储模型
    6.4安装HBase
    6.4.1HBase单节点安装
    6.4.2HBase伪分布式安装
    6.4.3HBase完全分布式安装
    6.5HBaseShell
    6.5.1general一般操作
    6.5.2ddl操作
    6.5.3dml操作
    6.5.4小结
    6.6小结
    第7章ZooKeeper技术
    7.1 分布式协调技术
    7.2 实现者
    7.3 角色
    7.4 ZooKeeper数据模型
    7.4.1Znode
    7.4.2ZooKeeper中的时间
    7.4.3ZooKeeper节点属性
    7.4.4watch触发器
    7.5 ZooKeeper集群安装
    7.6 ZooKeeper主要Shell操作
    7.7 典型运用场景
    7.7.1数据发布与订阅
    7.7.2统一命名服务(Name Service)
    7.7.3分布通知/协调(Distribution of notification/coordination)
    7.8小结
    第8章分布式数据仓库技术Hive
    8.1 Hive出现原因
    8.2 Hive服务组成
    8.3 Hive安装
    8.3.1 Hive基本安装
    8.3.2 MySQL安装
    8.3.3 Hive配置
    8.4 Hive Shell介绍
    8.5HiveQL详解
    8.5.1 Hive管理数据方式
    8.5.2 Hive表DDL操作
    8.5.3 Hive表DML操作
    8.6小结
    第9章分布式数据分析工具Pig
    9.1 Pig的安装和配置
    9.2 Pig基本概念
    9.3 Pig保留关键字
    9.4使用Pig
    9.4.1 Pig命令行选项
    9.4.2 Pig的两种运行模式
    9.4.3 Pig相关Shell命令详解
    9.4.4Pig程序运行方式
    9.4.5 Pig输入与输出
    9.5模式(Schemas)
    9.6 Pig相关函数详解
    9.7小结
    第10章 Hadoop与RDBMS数据迁移工具Sqoop
    10.1 Sqoop基本安装
    10.2 Sqoop配置
    10.3 Sqoop相关功能
    10.4 Hive、Pig和Sqoop三者之间的关系
    10.5小结
    第11章Hadoop1.x与Hadoop2.x的比较
    11.1 Hadoop发展历程
    11.2 Hadoop1.x与Hadoop2.x之间的差异
    11.2.1 Hadoop1与Hadoop2体系结构对比
    11.2.2 Hadoop1与Hadoop2之间配置差异
    11.2.3 Hadoop2的Yarn框架
    11.2.4 HDFS联邦机制(Federation)
    11.3小结
    第12章Hadoop实时数据处理技术
    12.1 Storm-Yarn
    12.1.1 Apache Storm组成结构
    12.1.2 Storm数据流
    12.1.3 Storm-Yarn产生背景
    12.1.4 Storm-Yarn功能介绍
    12.2 Apache Spark
    12.2.1 Apache Spark组成结构
    12.2.2 Apache Spark扩展功能
    12.3 Storm与Spark的比较
    12.4小结
    附录一:使用Eclipse提交Hadoop任务相关错误解决
    附录二:常用Pig内置函数简介
  • 内容简介:
    全书共有12章,从Hadoop起源开始,介绍了Hadoop的安装和配置,并对Hadoop的组件分别进行了介绍,包括HDFS分布式存储系统,MapReduce计算框架,海量数据库HBase,Hive数据仓库,Pig、ZooKeeper管理系统等知识,最后对Hadoop实时数据处理技术作了简单介绍,旨在让读者了解当前的其它的大数据处理技术。本书除了对Hadoop的理论进行说明之外,还对如何使用各组件进行了介绍,但介绍的只是基础的使用,没有涉及到底层的高级内容,所以本书只是起一个引导作用,旨在让读者了解Hadoop并能够使用Hadoop的基本功能,并不是学习Hadoop的完全手册。
    本书适用于高等院校的学生;是云计算专业、物联网专业及云计算与大数据专业的核心基础课程,也是计算机相关专业的一门新增专业课或选修课;适合于零售及云计算与大数据技术相关的培训班等使用。
  • 作者简介:
     安俊秀,女,教授,西安交通大学攻读计算机科学与技术专业,获工学硕士学位。中国计算机学会高级会员;中国电子学会高级会员;成都市科技攻关计划评审专家;成都军区项目评审专家;汕尾市科技顾问团首席顾问。

      在科研工作方面,一直从事云计算与大数据、信息智能搜索与计算社会方面的研究工作。近五年来就此发表论文40余篇,其中**作者20余篇,核心期刊以上占15余篇。主编或参与完成专著3部、教材4部,6部由***出版社出版。获得国家发明专利2项(2014授权),实用新型专利授权12项。获得软件著作权13项。科研项目20项,其中作为项目负责人承担省部级项目3项;作为主研人员参与***项目6项、省级项目6项。
  • 目录:
    Hadoop基础与实践
    第1章Hadoop概述
    1.1 Hadoop来源和动机
    1.2 Hadoop体系架构
    1.3 Hadoop与分布式开发
    1.4 Hadoop行业应用案例分析
    1.4.1 Hadoop在门户网站的应用
    1.4.2 Hadoop在搜索引擎中的应用
    1.4.3 Hadoop在电商平台中的应用
    1.5小结
    第2章Hadoop安装与配置管理
    2.1 实验准备
    2.2 配置一个单节点环境
    2.2.1 运行一个虚拟系统CentOS
    2.2.2 配置网络
    2.2.3创建新的用户组和用户
    2.2.4上传文件到CentOS并配置Java、Hadoop环境
    2.2.5 修改Hadoop2.2配置文件
    2.2.6修改CentOS主机名
    2.2.7绑定hostname与IP
    2.2.8关闭防火墙
    2.3节点之间的免密码通信
    2.3.1什么是SSH
    2.3.2 拷贝虚拟机节点
    2.3.3 配置SSH免密码登录
    2.4 Hadoop的启动和测试
    2.4.1 格式化文件系统
    2.4.2启动HDFS
    2.4.3 启动Yarn
    2.4.4 管理JobHistory Server
    2.4.5 集群验证
    2.4.6 需要了解的默认配置
    2.5动态管理节点
    2.5.1 动态增加和删除datanode
    2.5.2 动态修改TaskTracker
    2.6小结
    第3章HDFS技术
    3.1HDFS的特点
    3.2HDFS架构
    3.2.1数据块
    3.2.2元数据节点与数据节点
    3.2.3辅助元数据节点
    3.2.4安全模式
    3.2.5负载均衡
    3.2.6垃圾回收
    3.3HDFS Shell命令
    3.3.1文件处理命令
    3.3.2dfsadmin命令
    3.3.3namenode命令
    3.3.4fsck命令
    3.3.5pipes命令
    3.3.6job命令
    3.4HDFS中Java API的使用
    3.4.1上传文件
    3.4.2新建文件
    3.4.3查看文件详细信息
    3.4.4下载文件
    3.5RPC通信
    3.5.1反射机制
    3.5.2代理模式与动态代理
    3.5.3Hadoop RPC机制与源码分析
    3.6小结
    第4章Map/Reduce技术
    4.1 什么是Map/Reduce
    4.2 Map/Reduce编程模型
    4.2.1 MapReduce编程模型简介
    4.2.2 Map/Reduce简单模型
    4.2.3 Map/Reduce复杂模型
    4.2.4 Map/Reduce编程实例–WordCount
    4.3 Map/Reduce数据流
    4.3.1分片、格式化数据源(InputFormat)
    4.3.2 Map过程
    4.3.3 Shuffle过程
    4.3.4 Reduce过程
    4.3.5文件写入(OutputFormat)
    4.4 Map/Reduce任务流程
    4.4.1 MRv2基本组成
    4.4.2 Yarn基本组成
    4.4.3 任务流程
    4.5 Map/Reduce的Streaming和Pipe
    4.5.1 Hadoop Streaming
    4.5.2 Hadoop Pipe
    4.6 Map/Reduce性能调优
    4.7Map/Reduce实战
    4.7.1 快速入门
    4.7.2简单使用Eclipse插件
    4.8小结
    第5章Hadoop I/O操作
    5.1HDFS数据完整性
    5.1.1校验和
    5.1.2DataBlockScanner
    5.2基于文件的数据结构
    5.2.1SequenceFile存储
    5.2.2MapFile
    5.2.3SequenceFile转换为MapFile
    5.3压缩
    5.3.1Codec
    5.3.2本地库
    5.3.3如何选择压缩格式
    5.4序列化
    5.4.1Writable接口
    5.4.2WritableComparable
    5.4.3Hadoop writable基本类型
    5.4.4自定义writable类型
    5.5小结
    第6章海量数据库HBase技术
    6.1 初识HBase
    6.2 HBase表视图
    6.2.1概念视图
    6.2.2物理视图
    6.3HBase物理存储模型
    6.4安装HBase
    6.4.1HBase单节点安装
    6.4.2HBase伪分布式安装
    6.4.3HBase完全分布式安装
    6.5HBaseShell
    6.5.1general一般操作
    6.5.2ddl操作
    6.5.3dml操作
    6.5.4小结
    6.6小结
    第7章ZooKeeper技术
    7.1 分布式协调技术
    7.2 实现者
    7.3 角色
    7.4 ZooKeeper数据模型
    7.4.1Znode
    7.4.2ZooKeeper中的时间
    7.4.3ZooKeeper节点属性
    7.4.4watch触发器
    7.5 ZooKeeper集群安装
    7.6 ZooKeeper主要Shell操作
    7.7 典型运用场景
    7.7.1数据发布与订阅
    7.7.2统一命名服务(Name Service)
    7.7.3分布通知/协调(Distribution of notification/coordination)
    7.8小结
    第8章分布式数据仓库技术Hive
    8.1 Hive出现原因
    8.2 Hive服务组成
    8.3 Hive安装
    8.3.1 Hive基本安装
    8.3.2 MySQL安装
    8.3.3 Hive配置
    8.4 Hive Shell介绍
    8.5HiveQL详解
    8.5.1 Hive管理数据方式
    8.5.2 Hive表DDL操作
    8.5.3 Hive表DML操作
    8.6小结
    第9章分布式数据分析工具Pig
    9.1 Pig的安装和配置
    9.2 Pig基本概念
    9.3 Pig保留关键字
    9.4使用Pig
    9.4.1 Pig命令行选项
    9.4.2 Pig的两种运行模式
    9.4.3 Pig相关Shell命令详解
    9.4.4Pig程序运行方式
    9.4.5 Pig输入与输出
    9.5模式(Schemas)
    9.6 Pig相关函数详解
    9.7小结
    第10章 Hadoop与RDBMS数据迁移工具Sqoop
    10.1 Sqoop基本安装
    10.2 Sqoop配置
    10.3 Sqoop相关功能
    10.4 Hive、Pig和Sqoop三者之间的关系
    10.5小结
    第11章Hadoop1.x与Hadoop2.x的比较
    11.1 Hadoop发展历程
    11.2 Hadoop1.x与Hadoop2.x之间的差异
    11.2.1 Hadoop1与Hadoop2体系结构对比
    11.2.2 Hadoop1与Hadoop2之间配置差异
    11.2.3 Hadoop2的Yarn框架
    11.2.4 HDFS联邦机制(Federation)
    11.3小结
    第12章Hadoop实时数据处理技术
    12.1 Storm-Yarn
    12.1.1 Apache Storm组成结构
    12.1.2 Storm数据流
    12.1.3 Storm-Yarn产生背景
    12.1.4 Storm-Yarn功能介绍
    12.2 Apache Spark
    12.2.1 Apache Spark组成结构
    12.2.2 Apache Spark扩展功能
    12.3 Storm与Spark的比较
    12.4小结
    附录一:使用Eclipse提交Hadoop任务相关错误解决
    附录二:常用Pig内置函数简介
查看详情
系列丛书 / 更多
Hadoop大数据处理技术基础与实践
云计算虚拟化技术与应用
王培麟 著
Hadoop大数据处理技术基础与实践
云计算和大数据技术:概念 应用与实战(第2版)
王鹏、李俊杰、谢志明、石慧、黄焱 著
Hadoop大数据处理技术基础与实践
云计算导论:概念 架构与应用
武志学 著
Hadoop大数据处理技术基础与实践
大数据技术与应用基础项目教程
李俊杰、谢志明 著
Hadoop大数据处理技术基础与实践
云计算和大数据技术实战
李俊杰、石慧、谢志明、谢高辉、唐华 著
Hadoop大数据处理技术基础与实践
大数据技术与应用基础
陈志德、曾燕清、李翔宇 著
相关图书 / 更多
Hadoop大数据处理技术基础与实践
Hadoop技术与应用()
徐鲁辉
Hadoop大数据处理技术基础与实践
Hadoop生态案例详解与项目实战
王盟 王新强
Hadoop大数据处理技术基础与实践
HarmonyOS移动应用开发(ArkTS版)
刘安战;余雨萍;陈争艳
Hadoop大数据处理技术基础与实践
Hadoop大数据分布式计算框架--原理与应用
杨成伟;祝翠玲;刘位龙
Hadoop大数据处理技术基础与实践
Hadoop大数据平台搭建与应用(工作手册式)(微课版)
时东晓
Hadoop大数据处理技术基础与实践
Hadoop大数据平台构建与应用(第2版)
米洪 陈永
Hadoop大数据处理技术基础与实践
Hadoop大数据技术与项目实战
王小洁
Hadoop大数据处理技术基础与实践
HarmonyOS应用程序开发与实战(Java版)
姚信威
Hadoop大数据处理技术基础与实践
Hadoop简明教程
刘科峰
Hadoop大数据处理技术基础与实践
Harper儿童皮肤病学(上下卷),第4版(翻译版)
马琳;王华;姚志荣;徐子刚
Hadoop大数据处理技术基础与实践
Hadoop大数据技术原理与应用(第2版)
黑马程序员
Hadoop大数据处理技术基础与实践
Hadoop生态系统及开发
深圳市讯方技术股份有限公司
您可能感兴趣 / 更多
Hadoop大数据处理技术基础与实践
云计算技术
安俊秀
Hadoop大数据处理技术基础与实践
数据采集与预处理技术应用
安俊秀 唐聃 柳源
Hadoop大数据处理技术基础与实践
云计算与大数据技术应用 第2版
安俊秀 靳思安 黄萍 编著
Hadoop大数据处理技术基础与实践
人工智能原理、技术及应用
安俊秀 叶剑 陈宏松 编著
Hadoop大数据处理技术基础与实践
Python 3从入门到精通
安俊秀 侯海洋 靳宇倡
Hadoop大数据处理技术基础与实践
Python大数据处理与分析
安俊秀 唐聃 靳宇倡
Hadoop大数据处理技术基础与实践
Hadoop大数据处理技术基础与实践(第2版)(微课版)
安俊秀、靳宇倡、郭英 著
Hadoop大数据处理技术基础与实践
大数据导论
安俊秀、靳宇倡 著
Hadoop大数据处理技术基础与实践
云计算与大数据技术应用
安俊秀、靳宇昌 著
Hadoop大数据处理技术基础与实践
Linux操作系统基础教程
安俊秀
Hadoop大数据处理技术基础与实践
C语言程序设计(第2版)
安俊秀 主编
Hadoop大数据处理技术基础与实践
C程序设计
安俊秀 主编