Hadoop大数据开发基础项目化教程(陈秀玲)

Hadoop大数据开发基础项目化教程(陈秀玲)
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: 主编 , ,
2021-06
版次: 1
ISBN: 9787122387110
定价: 48.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 237页
字数: 380千字
13人买过
  • Hadoop是当前热门的大数据处理与分析平台。《Hadoop大数据开发基础项目化教程》将大数据平台相关内容划分为8个项目,分别是大数据时代、Hadoop基础环境、Hadoop环境搭建、分布式存储HDFS、MapReduce分布式编程、Hadoop数据仓库Hive、Hadoop数据库HBas、协调系统Zookeeper,每个项目按照知识点拆解分为相关的多个任务,每个任务都有详细的操作步骤实现,由浅入深、将理论和实践相融合,循序渐进地介绍Hadoop集群的相关知识点,使读者能够学以致用,融会贯通,快速理解和掌握。
      本书可作为高职高专院校大数据技术及应用等计算机相关专业的教材使用,也适用于应用型本科院校数据科学与大数据、大数据管理与应用等专业的师生使用,还可供大数据零基础的初学者入门和进阶、大数据相关领域的广大程序设计人员参考。 陈秀玲,计算机专业教授,1999年7月毕业于哈尔滨理工大学,同年就职于黑龙江职业学院,从事计算机相关专业的教学工作至2019年8月。由2019年8月至今在重庆化工职业学院从事大数据应用相关专业的教学工作。近十年共计完成课题20项(其中主持省教育厅、省科技处课题2项、院级重点课题1项,参与各类课题各4项,主持或参与职教学会、高教学会、院级一般课题13项),并且全部结题。将研究成果和教学经验整理发表论文十余篇、主编或编写教材共计16部,申请实用新型专利2项,参与专利5项。主讲《C语言》、《C  》、《Java语言》、《Python》、《MySQL》、《VB程序设计》、《SQL Server数据库》、《软件工程》、《软件测试》、《操作系统》、《IT项目经理》、《VFP数据库》等多门课程。 项目1  大数据时代 1

    任务1  认识大数据 1

    1.1.1  大数据定义 2

    1.1.2  大数据核心特征 2

    1.1.3  大数据体系架构 3

    任务2   大数据关键技术 4

    1.2.1  大数据技术分类 4

    1.2.2  大数据存储基础 5

    1.2.3  大数据与云计算、物联网 6

    任务3   大数据的应用 6

    1.3.1  大数据典型应用—— 霍廷 6

    1.3.2  大数据典型应用——亚马逊 7

    1.3.3  大数据典型应用——城管通 7

    1.3.4  大数据典型应用——智能公交站牌 7

    1.3.5  大数据典型应用——金融分析 7

    1.3.6  大数据典型应用——医疗决策 7

    1.3.7  大数据典型应用——农业防稻瘟 8

    1.3.8  大数据典型应用——社会治理 8

    1.3.9  大数据典型应用——疫情阻击 8

    习题 8

    项目2  Hadoop基础环境                                  10

    任务1   熟悉Linux 10

    2.1.1  Linux简介 11

    2.1.2  Linux发行版 11

    2.1.3  Linux文件 11

    2.1.4  Linux常用命令应用 12

    任务2   认识Hadoop 15

    2.2.1  Hadoop简介 15

    2.2.2  Hadoop发展史 16

    2.2.3  Hadoop发行版本 16

    2.2.4  Hadoop基本概念 17

    2.2.5  Hadoop的优点 18

    2.2.6  Hadoop基本使用 19

    任务3   准备Linux环境 20

    2.3.1  虚拟机简介 20

    2.3.2  VMware虚拟机 20

    2.3.3  安装虚拟机 20

    任务4   Hadoop基础环境搭建 21

    2.4.1  Hadoop核心知识 21

    2.4.2  Hadoop生态社区 22

    2.4.3  安装主机master 24

    2.4.4  拍快照保留历史数据 28

    2.4.5  更改主机名称 29

    2.4.6  设置共享文件夹 32

    2.4.7  安装Java并配置环境 35

    任务5   Notepad  实现共享编辑 37

    2.5.1  Notepad  简介 37

    2.5.2  下载并编辑Notepad   37

    2.5.3  实现远程连接Linux 39

    习题 43

    项目3  Hadoop环境搭建                                   45

    任务1   Hadoop单节点环境搭建 45

    3.1.1  单节点基础 46

    3.1.2  单节点安装 46

    3.1.3  单节点配置环境及检验 47

    任务2   Hadoop伪分布式环境搭建 49

    3.2.1  伪分布式环境基础 49

    3.2.2  伪分布式环境安装 51

    3.2.3  伪分布式环境配置及测试 53

    任务3   Hadoop完全分布式环境搭建 60

    3.3.1  完全分布式环境基础 61

    3.3.2  完全分布式环境安装 62

    3.3.3  完全分布式环境配置 72

    任务4   使用Xshell远程终端模拟器 78

    3.4.1  Xshell简介 78

    3.4.2  Xshell特点 78

    3.4.3  Xshell下载和安装 78

    3.4.4  Xshell远程连接虚拟机 79

    任务5   使用MobaXterm终端软件 83

    3.5.1  MobaXterm简介 83

    3.5.2  MobaXterm特点 84

    3.5.3  MobaXterm下载并安装 84

    3.5.4  使用MobaXterm连接虚拟机 85

    习题 88

    项目4  分布式存储HDFS                                   90

    任务1   HDFS的组成与工作机制 90

    4.1.1  HDFS简介 91

    4.1.2  机架感知与副本冗余存储策略 91

    4.1.3  HDFS体系结构 92

    4.1.4  NameNode工作原理 93

    4.1.5  查看NameNode格式化后的数据文件 94

    任务2   HDFS数据操作 96

    4.2.1  HDFS shell简介 96

    4.2.2  HDFS用户命令 97

    4.2.3  启动并查看HDFS进程 97

    4.2.4  借助浏览器查看 98

    4.2.5  HDFS管理员命令 99

    4.2.6  HDFS完成数据文件的简单操作 100

    4.2.7  使用HDFS管理员命令完成相关服务操作 102

    任务3   创建HDFS项目 103

    4.3.1  IDEA开发工具使用 103

    4.3.2  IDEA安装 104

    4.3.3  借助IDEA创建Maven项目 107

    任务4   HDFS的文件读写 109

    4.4.1  HDFS文件读写流程 110

    4.4.2  启动Hadoop进程 111

    4.4.3  客户端向HDFS写文件 112

    4.4.4  客户端向HDFS读文件 114

    习题 115

    项目5  MapReduce分布式编程                           117

    任务1   认识MapReduce 117

    5.1.1  MapReduce介绍 117

    5.1.2  Wordcount程序体验 118

    任务2   MapReduce编程模型 124

    5.2.1  MapReduce 设计构思和框架结构 124

    5.2.2  MapReduce 编程规范 126

    5.2.3  编写自己的单词统计程序 126

    任务3   MapReduce案例实战—— 去重 137

    5.3.1  数据去重思想 137

    5.3.2  MapReduce数据去重程序编写 138

    任务4   MapReduce案例实战—— 排序 145

    5.4.1  MapReduce数据排序 145

    5.4.2  Shuffle工作原理 146

    任务5   MapReduce案例实战—— Map端join 153

    5.5.1  Map端join的使用场景 154

    5.5.2  Map端join的执行流程 154

    任务6   MapReduce优化 162

    5.6.1  资源相关参数 162

    5.6.2  容错相关参数 163

    5.6.3  效率与稳定性参数 163

    习题 163

    项目6  Hadoop数据仓库Hive                           165

    任务1   Hive环境搭建 165

    6.1.1  Hive简介 166

    6.1.2  Hive优点 166

    6.1.3  安装Mysql 166

    6.1.4  Mysql基本应用 167

    6.1.5  安装Hive 173

    6.1.6  配置Hive环境 174

    6.1.7  启动Hive 177

    任务2   Hive数据库基本操作 178

    6.2.1  数据库相关知识 179

    6.2.2  数据库操作 179

    任务3   Hive表基本操作 181

    6.3.1  表的相关知识 181

    6.3.2  Hive内置函数 182

    6.3.3  Hive元数据存储 182

    6.3.4  表操作 184

    习题 189

    项目7  Hadoop数据库HBase                            190

    任务1   HBase安装配置基础 190

    7.1.1  HBase简介 191

    7.1.2  HBase发展历史 191

    7.1.3  HBase基本概念 191

    7.1.4  HBase特点 192

    7.1.5  HBase安装前的准备 193

    任务2   HBase多种模式安装 195

    7.2.1  HBase安装模式 195

    7.2.2  HBase常用命令 195

    7.2.3  HBase伪分布式安装及配置 196

    7.2.4  HBase完全分布式安装及配置 201

    任务3   HBase创建用户表 205

    7.3.1  HBase数据模型 205

    7.3.2  HBase存储机制 206

    7.3.3  HBase存储架构 206

    7.3.4  HBase表的基本命令 207

    7.3.5  创建用户表 207

    任务4   操作表信息 209

    7.4.1  对表的操作命令 209

    7.4.2  增加表记录 209

    7.4.3  查看表信息 210

    7.4.4  修改表结构 211

    7.4.5  更新表记录 213

    7.4.6  删除记录/表 214

    习题 215

    项目8  协调系统Zookeeper                              216

    任务1   Zookeeper基础知识 216

    8.1.1  Zookeeper概述 217

    8.1.2  Zookeeper基本概念 217

    8.1.3  Zookeeper应用场景 218

    任务2   Zookeeper安装基础 218

    8.2.1  Zookeeper安装模式 218

    8.2.2  Zookeeper角色 219

    8.2.3  Zookeeper常用命令 219

    8.2.4  Zookeeper安装前准备 220

    任务3   Zookeeper多种模式安装 222

    8.3.1  Zookeeper配置中的参数 222

    8.3.2  单节点模式安装及配置 222

    8.3.3  伪集群模式安装及配置 227

    8.3.4  完全分布式模式安装及配置 232

    习题 235

    参考文献      237

     
  • 内容简介:
    Hadoop是当前热门的大数据处理与分析平台。《Hadoop大数据开发基础项目化教程》将大数据平台相关内容划分为8个项目,分别是大数据时代、Hadoop基础环境、Hadoop环境搭建、分布式存储HDFS、MapReduce分布式编程、Hadoop数据仓库Hive、Hadoop数据库HBas、协调系统Zookeeper,每个项目按照知识点拆解分为相关的多个任务,每个任务都有详细的操作步骤实现,由浅入深、将理论和实践相融合,循序渐进地介绍Hadoop集群的相关知识点,使读者能够学以致用,融会贯通,快速理解和掌握。
      本书可作为高职高专院校大数据技术及应用等计算机相关专业的教材使用,也适用于应用型本科院校数据科学与大数据、大数据管理与应用等专业的师生使用,还可供大数据零基础的初学者入门和进阶、大数据相关领域的广大程序设计人员参考。
  • 作者简介:
    陈秀玲,计算机专业教授,1999年7月毕业于哈尔滨理工大学,同年就职于黑龙江职业学院,从事计算机相关专业的教学工作至2019年8月。由2019年8月至今在重庆化工职业学院从事大数据应用相关专业的教学工作。近十年共计完成课题20项(其中主持省教育厅、省科技处课题2项、院级重点课题1项,参与各类课题各4项,主持或参与职教学会、高教学会、院级一般课题13项),并且全部结题。将研究成果和教学经验整理发表论文十余篇、主编或编写教材共计16部,申请实用新型专利2项,参与专利5项。主讲《C语言》、《C  》、《Java语言》、《Python》、《MySQL》、《VB程序设计》、《SQL Server数据库》、《软件工程》、《软件测试》、《操作系统》、《IT项目经理》、《VFP数据库》等多门课程。
  • 目录:
    项目1  大数据时代 1

    任务1  认识大数据 1

    1.1.1  大数据定义 2

    1.1.2  大数据核心特征 2

    1.1.3  大数据体系架构 3

    任务2   大数据关键技术 4

    1.2.1  大数据技术分类 4

    1.2.2  大数据存储基础 5

    1.2.3  大数据与云计算、物联网 6

    任务3   大数据的应用 6

    1.3.1  大数据典型应用—— 霍廷 6

    1.3.2  大数据典型应用——亚马逊 7

    1.3.3  大数据典型应用——城管通 7

    1.3.4  大数据典型应用——智能公交站牌 7

    1.3.5  大数据典型应用——金融分析 7

    1.3.6  大数据典型应用——医疗决策 7

    1.3.7  大数据典型应用——农业防稻瘟 8

    1.3.8  大数据典型应用——社会治理 8

    1.3.9  大数据典型应用——疫情阻击 8

    习题 8

    项目2  Hadoop基础环境                                  10

    任务1   熟悉Linux 10

    2.1.1  Linux简介 11

    2.1.2  Linux发行版 11

    2.1.3  Linux文件 11

    2.1.4  Linux常用命令应用 12

    任务2   认识Hadoop 15

    2.2.1  Hadoop简介 15

    2.2.2  Hadoop发展史 16

    2.2.3  Hadoop发行版本 16

    2.2.4  Hadoop基本概念 17

    2.2.5  Hadoop的优点 18

    2.2.6  Hadoop基本使用 19

    任务3   准备Linux环境 20

    2.3.1  虚拟机简介 20

    2.3.2  VMware虚拟机 20

    2.3.3  安装虚拟机 20

    任务4   Hadoop基础环境搭建 21

    2.4.1  Hadoop核心知识 21

    2.4.2  Hadoop生态社区 22

    2.4.3  安装主机master 24

    2.4.4  拍快照保留历史数据 28

    2.4.5  更改主机名称 29

    2.4.6  设置共享文件夹 32

    2.4.7  安装Java并配置环境 35

    任务5   Notepad  实现共享编辑 37

    2.5.1  Notepad  简介 37

    2.5.2  下载并编辑Notepad   37

    2.5.3  实现远程连接Linux 39

    习题 43

    项目3  Hadoop环境搭建                                   45

    任务1   Hadoop单节点环境搭建 45

    3.1.1  单节点基础 46

    3.1.2  单节点安装 46

    3.1.3  单节点配置环境及检验 47

    任务2   Hadoop伪分布式环境搭建 49

    3.2.1  伪分布式环境基础 49

    3.2.2  伪分布式环境安装 51

    3.2.3  伪分布式环境配置及测试 53

    任务3   Hadoop完全分布式环境搭建 60

    3.3.1  完全分布式环境基础 61

    3.3.2  完全分布式环境安装 62

    3.3.3  完全分布式环境配置 72

    任务4   使用Xshell远程终端模拟器 78

    3.4.1  Xshell简介 78

    3.4.2  Xshell特点 78

    3.4.3  Xshell下载和安装 78

    3.4.4  Xshell远程连接虚拟机 79

    任务5   使用MobaXterm终端软件 83

    3.5.1  MobaXterm简介 83

    3.5.2  MobaXterm特点 84

    3.5.3  MobaXterm下载并安装 84

    3.5.4  使用MobaXterm连接虚拟机 85

    习题 88

    项目4  分布式存储HDFS                                   90

    任务1   HDFS的组成与工作机制 90

    4.1.1  HDFS简介 91

    4.1.2  机架感知与副本冗余存储策略 91

    4.1.3  HDFS体系结构 92

    4.1.4  NameNode工作原理 93

    4.1.5  查看NameNode格式化后的数据文件 94

    任务2   HDFS数据操作 96

    4.2.1  HDFS shell简介 96

    4.2.2  HDFS用户命令 97

    4.2.3  启动并查看HDFS进程 97

    4.2.4  借助浏览器查看 98

    4.2.5  HDFS管理员命令 99

    4.2.6  HDFS完成数据文件的简单操作 100

    4.2.7  使用HDFS管理员命令完成相关服务操作 102

    任务3   创建HDFS项目 103

    4.3.1  IDEA开发工具使用 103

    4.3.2  IDEA安装 104

    4.3.3  借助IDEA创建Maven项目 107

    任务4   HDFS的文件读写 109

    4.4.1  HDFS文件读写流程 110

    4.4.2  启动Hadoop进程 111

    4.4.3  客户端向HDFS写文件 112

    4.4.4  客户端向HDFS读文件 114

    习题 115

    项目5  MapReduce分布式编程                           117

    任务1   认识MapReduce 117

    5.1.1  MapReduce介绍 117

    5.1.2  Wordcount程序体验 118

    任务2   MapReduce编程模型 124

    5.2.1  MapReduce 设计构思和框架结构 124

    5.2.2  MapReduce 编程规范 126

    5.2.3  编写自己的单词统计程序 126

    任务3   MapReduce案例实战—— 去重 137

    5.3.1  数据去重思想 137

    5.3.2  MapReduce数据去重程序编写 138

    任务4   MapReduce案例实战—— 排序 145

    5.4.1  MapReduce数据排序 145

    5.4.2  Shuffle工作原理 146

    任务5   MapReduce案例实战—— Map端join 153

    5.5.1  Map端join的使用场景 154

    5.5.2  Map端join的执行流程 154

    任务6   MapReduce优化 162

    5.6.1  资源相关参数 162

    5.6.2  容错相关参数 163

    5.6.3  效率与稳定性参数 163

    习题 163

    项目6  Hadoop数据仓库Hive                           165

    任务1   Hive环境搭建 165

    6.1.1  Hive简介 166

    6.1.2  Hive优点 166

    6.1.3  安装Mysql 166

    6.1.4  Mysql基本应用 167

    6.1.5  安装Hive 173

    6.1.6  配置Hive环境 174

    6.1.7  启动Hive 177

    任务2   Hive数据库基本操作 178

    6.2.1  数据库相关知识 179

    6.2.2  数据库操作 179

    任务3   Hive表基本操作 181

    6.3.1  表的相关知识 181

    6.3.2  Hive内置函数 182

    6.3.3  Hive元数据存储 182

    6.3.4  表操作 184

    习题 189

    项目7  Hadoop数据库HBase                            190

    任务1   HBase安装配置基础 190

    7.1.1  HBase简介 191

    7.1.2  HBase发展历史 191

    7.1.3  HBase基本概念 191

    7.1.4  HBase特点 192

    7.1.5  HBase安装前的准备 193

    任务2   HBase多种模式安装 195

    7.2.1  HBase安装模式 195

    7.2.2  HBase常用命令 195

    7.2.3  HBase伪分布式安装及配置 196

    7.2.4  HBase完全分布式安装及配置 201

    任务3   HBase创建用户表 205

    7.3.1  HBase数据模型 205

    7.3.2  HBase存储机制 206

    7.3.3  HBase存储架构 206

    7.3.4  HBase表的基本命令 207

    7.3.5  创建用户表 207

    任务4   操作表信息 209

    7.4.1  对表的操作命令 209

    7.4.2  增加表记录 209

    7.4.3  查看表信息 210

    7.4.4  修改表结构 211

    7.4.5  更新表记录 213

    7.4.6  删除记录/表 214

    习题 215

    项目8  协调系统Zookeeper                              216

    任务1   Zookeeper基础知识 216

    8.1.1  Zookeeper概述 217

    8.1.2  Zookeeper基本概念 217

    8.1.3  Zookeeper应用场景 218

    任务2   Zookeeper安装基础 218

    8.2.1  Zookeeper安装模式 218

    8.2.2  Zookeeper角色 219

    8.2.3  Zookeeper常用命令 219

    8.2.4  Zookeeper安装前准备 220

    任务3   Zookeeper多种模式安装 222

    8.3.1  Zookeeper配置中的参数 222

    8.3.2  单节点模式安装及配置 222

    8.3.3  伪集群模式安装及配置 227

    8.3.4  完全分布式模式安装及配置 232

    习题 235

    参考文献      237

     
查看详情
12
相关图书 / 更多
Hadoop大数据开发基础项目化教程(陈秀玲)
Hadoop技术与应用()
徐鲁辉
Hadoop大数据开发基础项目化教程(陈秀玲)
Hadoop生态案例详解与项目实战
王盟 王新强
Hadoop大数据开发基础项目化教程(陈秀玲)
HarmonyOS移动应用开发(ArkTS版)
刘安战;余雨萍;陈争艳
Hadoop大数据开发基础项目化教程(陈秀玲)
Hadoop大数据分布式计算框架--原理与应用
杨成伟;祝翠玲;刘位龙
Hadoop大数据开发基础项目化教程(陈秀玲)
Hadoop大数据平台搭建与应用(工作手册式)(微课版)
时东晓
Hadoop大数据开发基础项目化教程(陈秀玲)
Hadoop大数据平台构建与应用(第2版)
米洪 陈永
Hadoop大数据开发基础项目化教程(陈秀玲)
Hadoop大数据技术与项目实战
王小洁
Hadoop大数据开发基础项目化教程(陈秀玲)
HarmonyOS应用程序开发与实战(Java版)
姚信威
Hadoop大数据开发基础项目化教程(陈秀玲)
Hadoop简明教程
刘科峰
Hadoop大数据开发基础项目化教程(陈秀玲)
Harper儿童皮肤病学(上下卷),第4版(翻译版)
马琳;王华;姚志荣;徐子刚
Hadoop大数据开发基础项目化教程(陈秀玲)
Hadoop大数据技术原理与应用(第2版)
黑马程序员
Hadoop大数据开发基础项目化教程(陈秀玲)
Hadoop生态系统及开发
深圳市讯方技术股份有限公司