Hadoop大数据平台搭建与应用(工作手册式)(微课版)

Hadoop大数据平台搭建与应用(工作手册式)(微课版)
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2023-08
版次: 1
ISBN: 9787121461446
定价: 55.00
装帧: 其他
页数: 272页
1人买过
  • 本书为高等职业教育计算机类新形态——工作手册式教材,内容包括基础环境的搭建与配置,Hadoop完全分布式集群的搭建与运行,Hadoop 核心组件的应用案例,Hive 组件的安装、配置与应用,ZooKeeper的安装、配置与应用,HBase 的安装、配置与应用,Sqoop 组件的安装、配置与应用,Flume 组件的安装、配置与应用,Kafka 的安装、配置与应用,Spark 的安装、配置与应用,广电大数据用户画像。本书采用项目式设计,以项目学习目标、任务描述、任务分析和任务实施作为立体化工作指南。本书由校企联合开发,融合了大数据平台运维的“1+X”技能考证、大数据运维工程师岗位证书考试等内容,从实用出发,通俗易懂,难度适宜,便于开展理论实践一体化、岗课赛证融通教学。本书配有电子教学课件、微课视频、项目素材(代码和数据等)和考试题库等数字资源。 时东晓,男,1967年3月出生,中共党员,1987年7月毕业于西安电子科技大学计算机工程专业,获工学学士学位,武汉大学软件工程硕士。1998年6月评聘为高级工程师,工信部认证CIO,信息安全工程师(高级),具有丰富的行业企业实践经验和职业教育教学经验。 项目1  基础环境的搭建与配置1

    任务1.1  搭建虚拟机2

    1.1.1  安装虚拟机软件2

    1.1.2  安装master节点虚拟机4

    1.1.3  配置master节点的网络7

    1.1.4  克隆slave节点10

    任务1.2  配置连接工具13

    1.2.1  测试Windows操作系统连接虚拟机14

    1.2.2  使用Xshell工具15

    1.2.3  使用Xftp工具18

    任务1.3  配置Hadoop平台基础环境20

    1.3.1  设置服务器的主机名20

    1.3.2  关闭并禁用防火墙21

    1.3.3  修改主机IP地址映射文件23

    1.3.4  配置SSH免密登录24

    1.3.5  设置集群时间同步29

    1.3.6  安装Java环境32

    项目总结35

    项目2  Hadoop完全分布式的搭建与运行36

    任务2.1  搭建Hadoop完全分布式集群37

    任务2.2  运行Hadoop集群46

    2.2.1  格式化NameNode46

    2.2.2  启动和关闭Hadoop集群47

    2.2.3  使用浏览器查看节点状态49

    项目总结50

    项目3  Hadoop核心组件的应用案例51

    任务3.1  Hadoop Java API读取序列化日志文件51

    3.1.1  配置开发环境52

    3.1.2  创建Maven工程55

    3.1.3  读取序列化文件57

    任务3.2  预测M电影网站用户性别60

    3.2.1  获取数据61

    3.2.2  数据变换62

    3.2.3  数据清洗77

    3.2.4  划分数据集79

    3.2.5  实现用户性别聚类83

    项目总结91

    项目4  Hive组件的安装、配置与应用92

    任务4.1  安装与配置MySQL数据库93

    4.1.1  安装MySQL数据库93

    4.1.2  配置MySQL数据库96

    任务4.2  安装与配置Hive组件99

    4.2.1  安装Hive组件99

    4.2.2  配置Hive环境101

    4.2.3  初始化Hive数据库103

    任务4.3  Hive Shell的基本操作104

    4.3.1  启动Hive105

    4.3.2  操作Hive数据库105

    4.3.3  操作Hive内部表106

    任务4.4  统计分析餐饮数据110

    4.4.1  数据说明110

    4.4.2  创建表并导入数据111

    4.4.3  统计分析任务实现112

    项目总结117

    项目5  ZooKeeper的安装、配置与应用118

    任务5.1  分布式搭建部署与管理ZooKeeper119

    5.1.1  在master节点上安装ZooKeeper组件119

    5.1.2  在master节点上配置ZooKeeper组件121

    5.1.3  在slave节点上安装与配置ZooKeeper组件122

    5.1.4  管理ZooKeeper服务123

    任务5.2  监控服务器上下线动态124

    5.2.1  创建Maven工程并连接ZooKeeper集群125

    5.2.2  任务实现125

    项目总结128

    项目6  HBase的安装、配置与应用129

    任务6.1  安装与配置HBase130

    6.1.1  在master节点上安装HBase组件130

    6.1.2  在master节点上修改配置文件132

    6.1.3  在slave节点上安装HBase组件134

    6.1.4  启动HBase集群134

    任务6.2  HBase Shell的基本操作136

    6.2.1  应用HBase Shell136

    6.2.2  操作HBase表138

    6.2.3  操作HBase数据139

    任务6.3  设计手游信息的数据存储141

    6.3.1  设计表结构142

    6.3.2  创建表结构142

    6.3.3  设计业务逻辑147

    项目总结156

    项目7  Sqoop组件的安装、配置与应用157

    任务7.1  安装与配置Sqoop组件158

    7.1.1  安装Sqoop组件158

    7.1.2  修改Sqoop组件配置文件160

    7.1.3  测试Sqoop组件的安装情况161

    任务7.2  Sqoop组件的导入与导出应用操作162

    7.2.1  准备MySQL数据库数据162

    7.2.2  在Hive中准备表163

    7.2.3  将MySQL数据库中的数据导入Hive164

    7.2.4  将MySQL数据库中的数据导入HDFS165

    7.2.5  从Hive中导出数据至MySQL数据库168

    任务7.3  查询与传输用户日志数据170

    7.3.1  查询MySQL数据库的用户日志数据表中的记录数170

    7.3.2  增量导入MySQL数据库中的用户日志数据至Hive171

    7.3.3  导出Hive中的浏览信息筛选结果至MySQL数据库172

    项目总结173

    项目8  Flume组件的安装、配置与应用174

    任务8.1  安装与配置Flume组件175

    8.1.1  安装Flume组件175

    8.1.2  配置Flume组件177

    8.1.3  创建代理配置文件178

    8.1.4  启动Flume并传输数据179

    8.1.5  查看Flume传输的文件数据179

    任务8.2  广告日志数据采集系统180

    8.2.1  采集系统日志数据182

    8.2.2  采集广告曝光日志数据183

    项目总结186

    项目9  Kafka的安装、配置与应用187

    任务9.1  安装与配置Kafka188

    9.1.1  在master节点上安装与配置Kafka组件188

    9.1.2  在slave节点上安装Kafka组件190

    9.1.3  管理Kafka服务191

    9.1.4  演示Kafka分布式发布订阅消息192

    任务9.2  实时传输广告日志数据194

    9.2.1  创建脚本文件194

    9.2.2  创建Kafka主题196

    9.2.3  Flume采集日志196

    项目总结198

    项目10  Spark的安装、配置与应用199

    任务10.1  安装与配置Scala200

    10.1.1  在master节点上安装Scala200

    10.1.2  在slave节点上安装Scala202

    10.1.3  测试Scala的安装情况202

    任务10.2  安装与配置Spark组件203

    10.2.1  在master节点上安装Spark组件203

    10.2.2  修改Spark配置文件205

    10.2.3  在slave节点上安装Spark组件206

    10.2.4  运行Spark集群206

    任务10.3  应用举例spark-shell208

    10.3.1  上传数据文件208

    10.3.2  运行spark-shell单词统计程序209

    任务10.4  聚类分析超市客户212

    10.4.1  安装Scala插件212

    10.4.2  配置Spark运行环境214

    10.4.3  探索数据与构建特征217

    10.4.4  保存数据至Hive221

    10.4.5  构建K-means聚类模型221

    项目总结224

    项目11  广电大数据用户画像225

    任务11.1  说明与存储数据225

    任务11.2  数据探索与数据预处理231

    11.2.1  总体概述232

    11.2.2  探索异常数据234

    11.2.3  探索主要业务数据236

    11.2.4  探索标签阈值239

    11.2.5  数据预处理245

    任务11.3  构建SVM预测模型与用户画像250

    11.3.1  构建特征列和标签列数据250

    11.3.2  构建SVM模型、评价模型效果并预测用户是否挽留253

    11.3.3  构建用户画像255

    项目总结261

    附录A  选用组件版本列表262
  • 内容简介:
    本书为高等职业教育计算机类新形态——工作手册式教材,内容包括基础环境的搭建与配置,Hadoop完全分布式集群的搭建与运行,Hadoop 核心组件的应用案例,Hive 组件的安装、配置与应用,ZooKeeper的安装、配置与应用,HBase 的安装、配置与应用,Sqoop 组件的安装、配置与应用,Flume 组件的安装、配置与应用,Kafka 的安装、配置与应用,Spark 的安装、配置与应用,广电大数据用户画像。本书采用项目式设计,以项目学习目标、任务描述、任务分析和任务实施作为立体化工作指南。本书由校企联合开发,融合了大数据平台运维的“1+X”技能考证、大数据运维工程师岗位证书考试等内容,从实用出发,通俗易懂,难度适宜,便于开展理论实践一体化、岗课赛证融通教学。本书配有电子教学课件、微课视频、项目素材(代码和数据等)和考试题库等数字资源。
  • 作者简介:
    时东晓,男,1967年3月出生,中共党员,1987年7月毕业于西安电子科技大学计算机工程专业,获工学学士学位,武汉大学软件工程硕士。1998年6月评聘为高级工程师,工信部认证CIO,信息安全工程师(高级),具有丰富的行业企业实践经验和职业教育教学经验。
  • 目录:
    项目1  基础环境的搭建与配置1

    任务1.1  搭建虚拟机2

    1.1.1  安装虚拟机软件2

    1.1.2  安装master节点虚拟机4

    1.1.3  配置master节点的网络7

    1.1.4  克隆slave节点10

    任务1.2  配置连接工具13

    1.2.1  测试Windows操作系统连接虚拟机14

    1.2.2  使用Xshell工具15

    1.2.3  使用Xftp工具18

    任务1.3  配置Hadoop平台基础环境20

    1.3.1  设置服务器的主机名20

    1.3.2  关闭并禁用防火墙21

    1.3.3  修改主机IP地址映射文件23

    1.3.4  配置SSH免密登录24

    1.3.5  设置集群时间同步29

    1.3.6  安装Java环境32

    项目总结35

    项目2  Hadoop完全分布式的搭建与运行36

    任务2.1  搭建Hadoop完全分布式集群37

    任务2.2  运行Hadoop集群46

    2.2.1  格式化NameNode46

    2.2.2  启动和关闭Hadoop集群47

    2.2.3  使用浏览器查看节点状态49

    项目总结50

    项目3  Hadoop核心组件的应用案例51

    任务3.1  Hadoop Java API读取序列化日志文件51

    3.1.1  配置开发环境52

    3.1.2  创建Maven工程55

    3.1.3  读取序列化文件57

    任务3.2  预测M电影网站用户性别60

    3.2.1  获取数据61

    3.2.2  数据变换62

    3.2.3  数据清洗77

    3.2.4  划分数据集79

    3.2.5  实现用户性别聚类83

    项目总结91

    项目4  Hive组件的安装、配置与应用92

    任务4.1  安装与配置MySQL数据库93

    4.1.1  安装MySQL数据库93

    4.1.2  配置MySQL数据库96

    任务4.2  安装与配置Hive组件99

    4.2.1  安装Hive组件99

    4.2.2  配置Hive环境101

    4.2.3  初始化Hive数据库103

    任务4.3  Hive Shell的基本操作104

    4.3.1  启动Hive105

    4.3.2  操作Hive数据库105

    4.3.3  操作Hive内部表106

    任务4.4  统计分析餐饮数据110

    4.4.1  数据说明110

    4.4.2  创建表并导入数据111

    4.4.3  统计分析任务实现112

    项目总结117

    项目5  ZooKeeper的安装、配置与应用118

    任务5.1  分布式搭建部署与管理ZooKeeper119

    5.1.1  在master节点上安装ZooKeeper组件119

    5.1.2  在master节点上配置ZooKeeper组件121

    5.1.3  在slave节点上安装与配置ZooKeeper组件122

    5.1.4  管理ZooKeeper服务123

    任务5.2  监控服务器上下线动态124

    5.2.1  创建Maven工程并连接ZooKeeper集群125

    5.2.2  任务实现125

    项目总结128

    项目6  HBase的安装、配置与应用129

    任务6.1  安装与配置HBase130

    6.1.1  在master节点上安装HBase组件130

    6.1.2  在master节点上修改配置文件132

    6.1.3  在slave节点上安装HBase组件134

    6.1.4  启动HBase集群134

    任务6.2  HBase Shell的基本操作136

    6.2.1  应用HBase Shell136

    6.2.2  操作HBase表138

    6.2.3  操作HBase数据139

    任务6.3  设计手游信息的数据存储141

    6.3.1  设计表结构142

    6.3.2  创建表结构142

    6.3.3  设计业务逻辑147

    项目总结156

    项目7  Sqoop组件的安装、配置与应用157

    任务7.1  安装与配置Sqoop组件158

    7.1.1  安装Sqoop组件158

    7.1.2  修改Sqoop组件配置文件160

    7.1.3  测试Sqoop组件的安装情况161

    任务7.2  Sqoop组件的导入与导出应用操作162

    7.2.1  准备MySQL数据库数据162

    7.2.2  在Hive中准备表163

    7.2.3  将MySQL数据库中的数据导入Hive164

    7.2.4  将MySQL数据库中的数据导入HDFS165

    7.2.5  从Hive中导出数据至MySQL数据库168

    任务7.3  查询与传输用户日志数据170

    7.3.1  查询MySQL数据库的用户日志数据表中的记录数170

    7.3.2  增量导入MySQL数据库中的用户日志数据至Hive171

    7.3.3  导出Hive中的浏览信息筛选结果至MySQL数据库172

    项目总结173

    项目8  Flume组件的安装、配置与应用174

    任务8.1  安装与配置Flume组件175

    8.1.1  安装Flume组件175

    8.1.2  配置Flume组件177

    8.1.3  创建代理配置文件178

    8.1.4  启动Flume并传输数据179

    8.1.5  查看Flume传输的文件数据179

    任务8.2  广告日志数据采集系统180

    8.2.1  采集系统日志数据182

    8.2.2  采集广告曝光日志数据183

    项目总结186

    项目9  Kafka的安装、配置与应用187

    任务9.1  安装与配置Kafka188

    9.1.1  在master节点上安装与配置Kafka组件188

    9.1.2  在slave节点上安装Kafka组件190

    9.1.3  管理Kafka服务191

    9.1.4  演示Kafka分布式发布订阅消息192

    任务9.2  实时传输广告日志数据194

    9.2.1  创建脚本文件194

    9.2.2  创建Kafka主题196

    9.2.3  Flume采集日志196

    项目总结198

    项目10  Spark的安装、配置与应用199

    任务10.1  安装与配置Scala200

    10.1.1  在master节点上安装Scala200

    10.1.2  在slave节点上安装Scala202

    10.1.3  测试Scala的安装情况202

    任务10.2  安装与配置Spark组件203

    10.2.1  在master节点上安装Spark组件203

    10.2.2  修改Spark配置文件205

    10.2.3  在slave节点上安装Spark组件206

    10.2.4  运行Spark集群206

    任务10.3  应用举例spark-shell208

    10.3.1  上传数据文件208

    10.3.2  运行spark-shell单词统计程序209

    任务10.4  聚类分析超市客户212

    10.4.1  安装Scala插件212

    10.4.2  配置Spark运行环境214

    10.4.3  探索数据与构建特征217

    10.4.4  保存数据至Hive221

    10.4.5  构建K-means聚类模型221

    项目总结224

    项目11  广电大数据用户画像225

    任务11.1  说明与存储数据225

    任务11.2  数据探索与数据预处理231

    11.2.1  总体概述232

    11.2.2  探索异常数据234

    11.2.3  探索主要业务数据236

    11.2.4  探索标签阈值239

    11.2.5  数据预处理245

    任务11.3  构建SVM预测模型与用户画像250

    11.3.1  构建特征列和标签列数据250

    11.3.2  构建SVM模型、评价模型效果并预测用户是否挽留253

    11.3.3  构建用户画像255

    项目总结261

    附录A  选用组件版本列表262
查看详情
12
相关图书 / 更多
Hadoop大数据平台搭建与应用(工作手册式)(微课版)
Hadoop技术与应用()
徐鲁辉
Hadoop大数据平台搭建与应用(工作手册式)(微课版)
Hadoop生态案例详解与项目实战
王盟 王新强
Hadoop大数据平台搭建与应用(工作手册式)(微课版)
HarmonyOS移动应用开发(ArkTS版)
刘安战;余雨萍;陈争艳
Hadoop大数据平台搭建与应用(工作手册式)(微课版)
Hadoop大数据分布式计算框架--原理与应用
杨成伟;祝翠玲;刘位龙
Hadoop大数据平台搭建与应用(工作手册式)(微课版)
HarmonyOS物联网开发基础
葛非
Hadoop大数据平台搭建与应用(工作手册式)(微课版)
Hadoop大数据平台构建与应用(第2版)
米洪 陈永
Hadoop大数据平台搭建与应用(工作手册式)(微课版)
Hadoop大数据技术与项目实战
王小洁
Hadoop大数据平台搭建与应用(工作手册式)(微课版)
HarmonyOS应用程序开发与实战(Java版)
姚信威
Hadoop大数据平台搭建与应用(工作手册式)(微课版)
Hadoop简明教程
刘科峰
Hadoop大数据平台搭建与应用(工作手册式)(微课版)
Harper儿童皮肤病学(上下卷),第4版(翻译版)
马琳;王华;姚志荣;徐子刚
Hadoop大数据平台搭建与应用(工作手册式)(微课版)
Hadoop大数据技术原理与应用(第2版)
黑马程序员
Hadoop大数据平台搭建与应用(工作手册式)(微课版)
Hadoop生态系统及开发
深圳市讯方技术股份有限公司