Hadoop大数据平台技术与应用

Hadoop大数据平台技术与应用
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2021-06
版次: 1
ISBN: 9787121413650
定价: 59.00
装帧: 平装
开本: 16开
页数: 292页
分类: 工程技术
  • 本书以案例为驱动,系统介绍Hadoop大数据平台技术及其应用,Hadoop生态圈组件的工作机制、管理与开发,以及基于Hadoop大数据平台的大数据业务解决方案。全书共10章,包括Hadoop分布式集群、伪分布式集群的安装与配置,Hadoop平台开发工具的安装与配置,大数据存储与管理技术(分布式文件系统、分布式数据库HBase)、大数据分析技术(MapReduce计算框架、数据仓库Hive)、大数据迁移工具(Sqoop)、大数据采集工具(Flume),并利用Hadoop生态圈组件构建一个网站日志分析项目的解决方案,完成整个大数据业务处理流程。本书适合作为高等院校大数据相关专业的教材,也适合作为Hadoop大数据平台技术的初学者,以及初、中级Hadoop大数据平台管理与开发人员的培训教材。 孙风栋,大连东软信息学院教授,主讲Oracle数据库管理与开发、数据库原理与应用、大数据技术等课程,研究方向是数据库系统及其应用、数据挖掘、大数据应用等。 第1章  大数据技术与Hadoop概述
    1.1  大数据技术概述
    1.1.1  大数据技术发展
    1.1.2  大数据基本特征
    1.1.3  大数据关键技术
    1.1.4  大数据技术应用
    1.2  Hadoop概述
    1.2.1  Hadoop简介
    1.2.2  Hadoop核心组件
    1.2.3  Hadoop生态圈组件
    1.2.4  Hadoop架构
    本章小结
    思考题与习题
    第2章  Hadoop平台和开发环境的安装与配置
    2.1  Hadoop平台安装准备
    2.1.1  VMware安装与配置
    2.1.2  Ubuntu安装与配置
    2.1.3  网络配置
    2.2  Hadoop伪分布式集群安装与配置
    2.2.1  创建用户hadoop
    2.2.2  修改主机名与域名映射
    2.2.3  SSH免密码登录设置
    2.2.4  安装Java环境
    2.2.5  伪分布式集群安装与配置
    2.3  Eclipse开发环境安装与配置
    2.3.1  Maven安装与配置
    2.3.2  Eclipse安装与配置
    2.3.3  Eclipse中Maven设置
    本章小结
    思考题与习题
    第3章  分布式文件系统
    3.1  HDFS概述
    3.1.1  HDFS架构
    3.1.2  HDFS设计目标
    3.1.3  HDFS高可用架构
    3.1.4  HDFS架构的优劣性
    3.2  HDFS工作机制
    3.2.1  HDFS数据存储策略
    3.2.2  HDFS数据读取策略
    3.2.3  HDFS数据错误与恢复
    3.2.4  HDFS数据读写过程
    3.3  HDFS Shell管理
    3.3.1  HDFS文件操作命令
    3.3.2  HDFS系统管理命令
    3.3.3  HDFS Shell操作实例
    3.4  HDFS Java开发
    3.4.1  HDFS Java程序设计基础
    3.4.2  HDFS程序设计流程
    3.4.3  常用HDFS Java API
    3.4.4  HDFS开发实例
    本章小结
    思考题与习题
    第4章  MapReduce
    4.1  MapReduce概述
    4.1.1  MapReduce简介
    4.1.2  MapReduce计算模型
    4.1.3  MapReduce编程模型
    4.2  MapReduce架构
    4.2.1  MapReduce V1架构
    4.2.2  MapReduce V2架构
    4.3  MapReduce编程组件
    4.3.1  MapReduce编程流程
    4.3.2  InputFormat
    4.3.3  InputSplit
    4.3.4  RecordReader
    4.3.5  Mapper
    4.3.6  Shuffle
    4.3.7  Reducer
    4.3.8  OutputFormat
    4.3.9  序列化与反序列化
    4.4  WordCount程序设计实例
    4.4.1  准备输入文件
    4.4.2  创建Maven工程
    4.4.3  配置Maven工程
    4.4.4  程序设计
    4.4.5  工程打包、部署与运行
    4.4.6  定制WordCount程序设计
    4.5  MapReduce开发典型案例
    4.5.1  数据去重
    4.5.2  数据排序
    4.5.3  计算平均值
    4.6  网站浏览量统计分析
    本章小结
    思考题与习题
    第5章  分布式数据库HBase
    5.1  HBase概述
    5.1.1  HBase简介
    5.1.2  HBase特性
    5.1.3  HBase适用场景
    5.2  HBase数据模型
    5.2.1  HBase基本概念
    5.2.2  概念视图
    5.2.3  物理视图
    5.3  HBase体系结构
    5.4  HBase安装与配置
    5.4.1  HBase运行模式
    5.4.2  HBase安装准备
    5.4.3  HBase伪分布式集群安装与配置
    5.5  HBase Shell
    5.5.1  HBase Shell简介
    5.5.2  General命令组
    5.5.3  DDL命令组
    5.5.4  DML命令组
    5.5.5  查询过滤器
    5.6  HBase程序设计
    5.6.1  HBase Java API简介
    5.6.2  Hbase表管理程序设计
    5.6.3  HBase数据操作程序设计
    5.6.4  HBase Filter API
    5.7  HBase与MapReduce融合
    5.7.1  HBase与MapReduce融合概述
    5.7.2  HBase MapReduce Java API
    5.7.3  HBase MapReduce程序设计
    5.8  HBase学生成绩分析
    5.8.1  任务描述
    5.8.2  导入原始数据到HBase
    5.8.3  统计学生平均成绩
    本章小结
    思考题与习题
    第6章  数据仓库Hive
    6.1  Hive基础
    6.1.1  Hive简介
    6.1.2  Hive系统架构
    6.1.3  Hive工作原理
    6.1.4  Hive数据存储模型
    6.1.5  Hive数据类型
    6.1.6  Hive数据存储格式
    6.2  Hive安装与配置
    6.2.1  安装MySQL
    6.2.2  Hive安装与配置过程
    6.3  Beeline
    6.3.1  Beeline简介
    6.3.2  Beeline基本操作
    6.4  Hive DDL操作
    6.4.1  Hive数据库管理
    6.4.2  Hive表管理
    6.4.3  视图管理
    6.5  Hive DML操作
    6.6  Hive数据查询
    6.6.1  Hive SELECT基本语法
    6.6.2  无条件查询
    6.6.3  有条件查询
    6.6.4  查询统计
    6.6.5  分组查询
    6.6.6  子查询
    6.6.7  连接查询
    6.6.8  排序
    6.6.9  合并操作
    6.6.10  复合类型数据查询
    6.7  Hive内置函数
    6.7.1  数学函数
    6.7.2  集合函数
    6.7.3  类型转换函数
    6.7.4  日期函数
    6.7.5  条件函数
    6.7.6  字符串函数
    6.7.7  内置聚合函数
    6.7.8  内置表生成函数
    6.7.9  窗口函数
    6.7.10  其他函数
    6.7.11  词频统计实例
    6.8  Hive高级应用
    6.8.1  用户自定义函数
    6.8.2  Hive与HBase整合
    6.9  Hive程序设计
    本章小结
    思考题与习题
    第7章  数据迁移工具Sqoop
    7.1  Sqoop概述
    7.2  Sqoop安装与配置
    7.3  Sqoop常用命令
    7.4  Sqoop数据导入
    7.4.1  Sqoop命令参数
    7.4.2  数据从MySQL导入HDFS
    7.4.3  数据从MySQL导入Hive
    7.4.4  数据从MySQL导入HBase
    7.5  Sqoop数据导出
    7.5.1  Sqoop export命令参数
    7.5.2  从HDFS导出数据到MySQL
    7.5.3  从Hive导出数据到MySQL
    7.5.4  中文乱码问题
    本章小结
    思考题与习题
    第8章  数据采集工具Flume
    8.1  Flume概述
    8.1.1  Flume简介
    8.1.2  Flume架构
    8.2  Flume安装与配置
    8.3  Flume组件
    8.3.1  Source组件
    8.3.2  Channel组件
    8.3.3  Sink组件
    8.3.4  Interceptor组件
    8.3.5  Selector组件
    8.3.6  Sink Processor
    8.4  Flume数据采集案例与实施
    8.4.1  实时采集本地文件到HDFS
    8.4.2  多源与多目的地数据采集
    本章小结
    思考题与习题
    第9章  网站日志分析
    9.1  需求分析
    9.1.1  网站日志分析的必要性
    9.1.2  网站日志数据说明
    9.1.3  网站日志分析KPI指标
    9.2  方案设计
    9.3  数据采集
    9.4  数据预处理
    9.5  数据分析
    9.6  数据分析结果导出及可视化
    本章小结 
    思考题与习题
    第10章  Hadoop与HBase分布式集群安装与配置
    10.1  Hadoop分布式集群安装与配置
    10.2  HBase分布式集群安装与配置
    本章小结
    思考题与习题
    参考文献
  • 内容简介:
    本书以案例为驱动,系统介绍Hadoop大数据平台技术及其应用,Hadoop生态圈组件的工作机制、管理与开发,以及基于Hadoop大数据平台的大数据业务解决方案。全书共10章,包括Hadoop分布式集群、伪分布式集群的安装与配置,Hadoop平台开发工具的安装与配置,大数据存储与管理技术(分布式文件系统、分布式数据库HBase)、大数据分析技术(MapReduce计算框架、数据仓库Hive)、大数据迁移工具(Sqoop)、大数据采集工具(Flume),并利用Hadoop生态圈组件构建一个网站日志分析项目的解决方案,完成整个大数据业务处理流程。本书适合作为高等院校大数据相关专业的教材,也适合作为Hadoop大数据平台技术的初学者,以及初、中级Hadoop大数据平台管理与开发人员的培训教材。
  • 作者简介:
    孙风栋,大连东软信息学院教授,主讲Oracle数据库管理与开发、数据库原理与应用、大数据技术等课程,研究方向是数据库系统及其应用、数据挖掘、大数据应用等。
  • 目录:
    第1章  大数据技术与Hadoop概述
    1.1  大数据技术概述
    1.1.1  大数据技术发展
    1.1.2  大数据基本特征
    1.1.3  大数据关键技术
    1.1.4  大数据技术应用
    1.2  Hadoop概述
    1.2.1  Hadoop简介
    1.2.2  Hadoop核心组件
    1.2.3  Hadoop生态圈组件
    1.2.4  Hadoop架构
    本章小结
    思考题与习题
    第2章  Hadoop平台和开发环境的安装与配置
    2.1  Hadoop平台安装准备
    2.1.1  VMware安装与配置
    2.1.2  Ubuntu安装与配置
    2.1.3  网络配置
    2.2  Hadoop伪分布式集群安装与配置
    2.2.1  创建用户hadoop
    2.2.2  修改主机名与域名映射
    2.2.3  SSH免密码登录设置
    2.2.4  安装Java环境
    2.2.5  伪分布式集群安装与配置
    2.3  Eclipse开发环境安装与配置
    2.3.1  Maven安装与配置
    2.3.2  Eclipse安装与配置
    2.3.3  Eclipse中Maven设置
    本章小结
    思考题与习题
    第3章  分布式文件系统
    3.1  HDFS概述
    3.1.1  HDFS架构
    3.1.2  HDFS设计目标
    3.1.3  HDFS高可用架构
    3.1.4  HDFS架构的优劣性
    3.2  HDFS工作机制
    3.2.1  HDFS数据存储策略
    3.2.2  HDFS数据读取策略
    3.2.3  HDFS数据错误与恢复
    3.2.4  HDFS数据读写过程
    3.3  HDFS Shell管理
    3.3.1  HDFS文件操作命令
    3.3.2  HDFS系统管理命令
    3.3.3  HDFS Shell操作实例
    3.4  HDFS Java开发
    3.4.1  HDFS Java程序设计基础
    3.4.2  HDFS程序设计流程
    3.4.3  常用HDFS Java API
    3.4.4  HDFS开发实例
    本章小结
    思考题与习题
    第4章  MapReduce
    4.1  MapReduce概述
    4.1.1  MapReduce简介
    4.1.2  MapReduce计算模型
    4.1.3  MapReduce编程模型
    4.2  MapReduce架构
    4.2.1  MapReduce V1架构
    4.2.2  MapReduce V2架构
    4.3  MapReduce编程组件
    4.3.1  MapReduce编程流程
    4.3.2  InputFormat
    4.3.3  InputSplit
    4.3.4  RecordReader
    4.3.5  Mapper
    4.3.6  Shuffle
    4.3.7  Reducer
    4.3.8  OutputFormat
    4.3.9  序列化与反序列化
    4.4  WordCount程序设计实例
    4.4.1  准备输入文件
    4.4.2  创建Maven工程
    4.4.3  配置Maven工程
    4.4.4  程序设计
    4.4.5  工程打包、部署与运行
    4.4.6  定制WordCount程序设计
    4.5  MapReduce开发典型案例
    4.5.1  数据去重
    4.5.2  数据排序
    4.5.3  计算平均值
    4.6  网站浏览量统计分析
    本章小结
    思考题与习题
    第5章  分布式数据库HBase
    5.1  HBase概述
    5.1.1  HBase简介
    5.1.2  HBase特性
    5.1.3  HBase适用场景
    5.2  HBase数据模型
    5.2.1  HBase基本概念
    5.2.2  概念视图
    5.2.3  物理视图
    5.3  HBase体系结构
    5.4  HBase安装与配置
    5.4.1  HBase运行模式
    5.4.2  HBase安装准备
    5.4.3  HBase伪分布式集群安装与配置
    5.5  HBase Shell
    5.5.1  HBase Shell简介
    5.5.2  General命令组
    5.5.3  DDL命令组
    5.5.4  DML命令组
    5.5.5  查询过滤器
    5.6  HBase程序设计
    5.6.1  HBase Java API简介
    5.6.2  Hbase表管理程序设计
    5.6.3  HBase数据操作程序设计
    5.6.4  HBase Filter API
    5.7  HBase与MapReduce融合
    5.7.1  HBase与MapReduce融合概述
    5.7.2  HBase MapReduce Java API
    5.7.3  HBase MapReduce程序设计
    5.8  HBase学生成绩分析
    5.8.1  任务描述
    5.8.2  导入原始数据到HBase
    5.8.3  统计学生平均成绩
    本章小结
    思考题与习题
    第6章  数据仓库Hive
    6.1  Hive基础
    6.1.1  Hive简介
    6.1.2  Hive系统架构
    6.1.3  Hive工作原理
    6.1.4  Hive数据存储模型
    6.1.5  Hive数据类型
    6.1.6  Hive数据存储格式
    6.2  Hive安装与配置
    6.2.1  安装MySQL
    6.2.2  Hive安装与配置过程
    6.3  Beeline
    6.3.1  Beeline简介
    6.3.2  Beeline基本操作
    6.4  Hive DDL操作
    6.4.1  Hive数据库管理
    6.4.2  Hive表管理
    6.4.3  视图管理
    6.5  Hive DML操作
    6.6  Hive数据查询
    6.6.1  Hive SELECT基本语法
    6.6.2  无条件查询
    6.6.3  有条件查询
    6.6.4  查询统计
    6.6.5  分组查询
    6.6.6  子查询
    6.6.7  连接查询
    6.6.8  排序
    6.6.9  合并操作
    6.6.10  复合类型数据查询
    6.7  Hive内置函数
    6.7.1  数学函数
    6.7.2  集合函数
    6.7.3  类型转换函数
    6.7.4  日期函数
    6.7.5  条件函数
    6.7.6  字符串函数
    6.7.7  内置聚合函数
    6.7.8  内置表生成函数
    6.7.9  窗口函数
    6.7.10  其他函数
    6.7.11  词频统计实例
    6.8  Hive高级应用
    6.8.1  用户自定义函数
    6.8.2  Hive与HBase整合
    6.9  Hive程序设计
    本章小结
    思考题与习题
    第7章  数据迁移工具Sqoop
    7.1  Sqoop概述
    7.2  Sqoop安装与配置
    7.3  Sqoop常用命令
    7.4  Sqoop数据导入
    7.4.1  Sqoop命令参数
    7.4.2  数据从MySQL导入HDFS
    7.4.3  数据从MySQL导入Hive
    7.4.4  数据从MySQL导入HBase
    7.5  Sqoop数据导出
    7.5.1  Sqoop export命令参数
    7.5.2  从HDFS导出数据到MySQL
    7.5.3  从Hive导出数据到MySQL
    7.5.4  中文乱码问题
    本章小结
    思考题与习题
    第8章  数据采集工具Flume
    8.1  Flume概述
    8.1.1  Flume简介
    8.1.2  Flume架构
    8.2  Flume安装与配置
    8.3  Flume组件
    8.3.1  Source组件
    8.3.2  Channel组件
    8.3.3  Sink组件
    8.3.4  Interceptor组件
    8.3.5  Selector组件
    8.3.6  Sink Processor
    8.4  Flume数据采集案例与实施
    8.4.1  实时采集本地文件到HDFS
    8.4.2  多源与多目的地数据采集
    本章小结
    思考题与习题
    第9章  网站日志分析
    9.1  需求分析
    9.1.1  网站日志分析的必要性
    9.1.2  网站日志数据说明
    9.1.3  网站日志分析KPI指标
    9.2  方案设计
    9.3  数据采集
    9.4  数据预处理
    9.5  数据分析
    9.6  数据分析结果导出及可视化
    本章小结 
    思考题与习题
    第10章  Hadoop与HBase分布式集群安装与配置
    10.1  Hadoop分布式集群安装与配置
    10.2  HBase分布式集群安装与配置
    本章小结
    思考题与习题
    参考文献
查看详情
相关图书 / 更多
Hadoop大数据平台技术与应用
Hadoop 3大数据技术快速入门
牛搞
Hadoop大数据平台技术与应用
Hardy-Landau圆内整点问题(精)/现代数学中的著名定理纵横谈丛书
王梓坤 著;刘培杰数学工作室 编
Hadoop大数据平台技术与应用
Hadoop+Spark+Python大数据处理从算法到实战
朱春旭
Hadoop大数据平台技术与应用
HarmonyOS IoT设备开发实战(鸿蒙操作系统开发)
江苏润和软件股份有限公司
Hadoop大数据平台技术与应用
Hadoop技术与应用(高职)
魏迎
Hadoop大数据平台技术与应用
Hadoop大数据开发技术
申时全;陈强;杨胜利;黎学军;姜荣正;邱林润
Hadoop大数据平台技术与应用
Hadoop大数据开发基础项目化教程(陈秀玲)
陈井霞 主编;陈秀玲;王德选
Hadoop大数据平台技术与应用
Hadoop应用开发与案例实战(慕课版)
穆建平、王建、商程 著
Hadoop大数据平台技术与应用
Hadoop大数据技术与应用
智酷道捷内容与产品中心
Hadoop大数据平台技术与应用
Hadoop/Spark大数据机器学习
翟俊海;张素芳
Hadoop大数据平台技术与应用
Hadoop大数据处理与分析教程(慕课版)
王秀友 丁小娜 刘运
Hadoop大数据平台技术与应用
Hadoop 3实战指南
孙志伟
您可能感兴趣 / 更多