Hadoop大数据开发实战(慕课版)

Hadoop大数据开发实战(慕课版)
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
2020-08
版次: 1
ISBN: 9787115519245
定价: 59.80
装帧: 平装
开本: 16开
页数: 268页
  • 共分11章,第1章对大数据及Hadoop进行总体介绍,第2章讲解了如何搭建Hadoop集群。第3-5章讲解了HDFS分布式文件系统、MapReduce分布式计算框架以及Zookeeper分布式协调服务。第6章讲解Hadoop2.0的新特性。第7-10章主要讲解了Hadoop生态圈中的相关辅助系统,包括Hive、HBase分布式存储系统、Flume、Saoop。第11章讲解了综合项目:电商精准营销。 千锋教育 1.千锋教育采用全程面授高品质、高成本培养模式,教学大纲紧跟企业需求,拥有全国一体化就业保障服务,成为学员信赖的IT职业教育品牌。 2.获得荣誉包括:中关村移动互联网产业联盟副理事长单位、中国软件协会教育培训委员会认证一级培训机构、中关村国际孵化软件协会授权中关村移动互联网学院、教育部教育管理信息中心指定移动互联网实训基地等。 第1章 初识Hadoop 1
    1.1 大数据简介 1
    1.1.1 大数据的五大特征 1
    1.1.2 大数据的六大发展趋势 3
    1.1.3 大数据在电商行业的应用 4
    1.1.4 大数据在交通行业的应用 5
    1.1.5 大数据在医疗行业的应用 5
    1.2 大数据技术的核心需求 5
    1.3 Hadoop简介 6
    1.3.1 什么是Hadoop 6
    1.3.2 Hadoop的产生和发展 6
    1.3.3 Hadoop的优缺点 7
    1.3.4 Hadoop版本介绍 7
    1.3.5 Hadoop生态圈的相关组件 7
    1.3.6 Hadoop应用介绍 8
    1.3.7 国内Hadoop的就业情况分析 9
    1.3.8 分布式系统概述 10
    1.4 离线数据分析流程介绍 10
    1.4.1 项目需求描述 11
    1.4.2 数据来源 11
    1.4.3 数据处理流程 11
    1.4.4 项目最终效果 12
    1.5 大数据学习流程 12
    1.6 本章小结 13
    1.7 习题 14
    第2章 搭建Hadoop集群 15
    2.1 安装准备 15
    2.1.1 虚拟机安装 15
    2.1.2 虚拟机克隆 21
    2.1.3 Linux系统网络配置 23
    2.1.4 SSH服务配置 26
    2.2 Linux基本命令 28
    2.2.1 系统工作命令 29
    2.2.2 磁盘操作命令 30
    2.2.3 目录与文件操作命令 30
    2.2.4 权限操作命令 31
    2.3 Hadoop集群搭建 32
    2.3.1 Hadoop集群部署模式 32
    2.3.2 安装JDK 32
    2.3.3 安装Hadoop 33
    2.3.4 Hadoop集群配置 34
    2.4 Hadoop 集群测试 37
    2.4.1 格式化文件系统 37
    2.4.2 启动和关闭Hadoop进程命令 37
    2.4.3 启动和查看Hadoop进程 38
    2.4.4 查看Web界面 38
    2.5 使用Hadoop集群 39
    2.6 本章小结 40
    2.7 习题 40
    第3章 HDFS分布式文件系统 41
    3.1 HDFS简介 41
    3.1.1 HDFS的概念 41
    3.1.2 HDFS数据的存储和读取方式 42
    3.1.3 HDFS的特点 42
    3.2 HDFS存储架构和数据读写流程 43
    3.2.1 HDFS的存储架构 43
    3.2.2 HDFS的数据读写流程 44
    3.3 HDFS的Shell命令 46
    3.4 Java程序操作HDFS 47
    3.4.1 HDFS Java API概述 47
    3.4.2 使用Java API操作HDFS 47
    3.5 Hadoop序列化 55
    3.5.1 Hadoop序列化简介 55
    3.5.2 常用实现Writable接口的类 56
    3.5.3 自定义实现Writable接口的类 58
    3.6 Hadoop小文件处理 59
    3.6.1 压缩小文件 59
    3.6.2 创建序列文件 60
    3.7 通信机制RPC 63
    3.7.1 RPC简介 63
    3.7.2 Hadoop的RPC架构 63
    3.8 本章小结 64
    3.9 习题 64
    第4章 MapReduce分布式计算框架 65
    4.1 认识MapReduce 65
    4.1.1 MapReduce核心思想 65
    4.1.2 MapReduce编程模型 65
    4.1.3 MapReduce编程案例――WordCount 67
    4.2 MapReduce编程组件 72
    4.2.1 InputFormat组件 72
    4.2.2 OutputFormat组件 73
    4.2.3 RecordReader组件和
    RecordWriter组件 76
    4.2.4 Partitioner组件 76
    4.2.5 Combiner组件 78
    4.3 MapReduce作业解析 82
    4.3.1 MapReduce作业简介 82
    4.3.2 MapReduce作业运行时的资源调度 82
    4.3.3 MapReduce作业运行流程 83
    4.4 MapReduce工作原理 83
    4.4.1 Map任务工作原理 83
    4.4.2 Reduce任务工作原理 83
    4.5 Shuffle阶段 83
    4.5.1 Shuffle的概念 83
    4.5.2 Map端的Shuffle 84
    4.5.3 Reduce端的Shuffle 85
    4.6 优化――数据倾斜 85
    4.7 MapReduce典型案例――排序 86
    4.7.1 部分排序 86
    4.7.2 全排序 87
    4.8 MapReduce典型案例――倒排索引 91
    4.8.1 准备模拟数据 91
    4.8.2 输出数据解析 92
    4.8.3 编写MapReduce程序 92
    4.9 MapReduce典型案例――连接 94
    4.9.1 准备模拟数据 94
    4.9.2 输出数据解析 94
    4.9.3 编写MapReduce程序 94
    4.10 MapReduce典型案例――平均分以及百分比 97
    4.10.1 准备模拟数据 97
    4.10.2 输出数据解析 97
    4.10.3 编写MapReduce程序 97
    4.11 MapReduce典型案例――过滤敏感词汇 100
    4.11.1 准备模拟数据 100
    4.11.2 创建敏感词库 101
    4.11.3 编写MapReduce程序 101
    4.12 本章小结 103
    4.13 习题 103
    第5章 ZooKeeper分布式协调服务 105
    5.1 认识ZooKeeper 105
    5.1.1 ZooKeeper简介 105
    5.1.2 ZooKeeper的设计目的 105
    5.1.3 ZooKeeper的系统模型 106
    5.1.4 ZooKeeper中的角色 106
    5.1.5 ZooKeeper的工作原理 107
    5.2 ZooKeeper安装和常用命令 108
    5.2.1 ZooKeeper单机模式 108
    5.2.2 ZooKeeper全分布式 109
    5.2.3 ZooKeeper服务器常用脚本 111
    5.2.4 ZooKeeper客户端节点和命令 111
    5.3 ZooKeeper客户端编程 113
    5.3.1 配置开发环境 113
    5.3.2 Java程序操作ZooKeeper客户端 114
    5.4 ZooKeeper典型应用场景 115
    5.4.1 数据发布与订阅 115
    5.4.2 命名服务 115
    5.4.3 分布式锁 116
    5.5 本章小结 116
    5.6 习题 116
    第6章 Hadoop 2.0新特性 118
    6.1 Hadoop 2.0的改进 118
    6.1.1 HDFS存在的问题 118
    6.1.2 MapReduce存在的问题 118
    6.1.3 HDFS 2.0解决HDFS 1.0中的问题 119
    6.2 YARN资源管理框架 119
    6.2.1 YARN简介 119
    6.2.2 YARN架构 119
    6.2.3 YARN的优势 120
    6.3 Hadoop的HA模式 120
    6.3.1 HA模式简介 120
    6.3.2 HDFS的HA模式 121
    6.3.3 YARN的HA模式 127
    6.3.4 启动和关闭Hadoop的HA模式 131
    6.4 本章小结 132
    6.5 习题 132
    第7章 Hive 133
    7.1 数据仓库简介 133
    7.1.1 数据仓库概述 133
    7.1.2 数据仓库的使用 133
    7.1.3 数据仓库的特点 134
    7.1.4 主流的数据仓库 134
    7.2 认识Hive 134
    7.2.1 Hive简介 134
    7.2.2 Hive架构 135
    7.2.3 Hive和关系型数据库比较 136
    7.3 Hive安装 136
    7.4 Hive数据类型 140
    7.4.1 Hive基本数据类型 140
    7.4.2 Hive复杂数据类型 141
    7.5 Hive数据库操作 142
    7.6 Hive表 143
    7.6.1 内部表和外部表 143
    7.6.2 对表进行分区 149
    7.6.3 对表或分区进行桶操作 153
    7.7 Hive表的查询 156
    7.7.1 select查询语句 156
    7.7.2 视图 161
    7.7.3 Join 162
    7.8 Hive函数 165
    7.8.1 Hive内置函数 165
    7.8.2 通过JDBC驱动程序使用Hiveserver2服务 167
    7.8.3 Hive用户自定义函数 169
    7.9 Hive性能优化 171
    7.10 Hive案例分析 173
    7.11 本章小结 174
    7.12 习题 174
    第8章 HBase分布式存储系统 175
    8.1 认识HBase 175
    8.1.1 HBase简介 175
    8.1.2 HBase的数据模型 176
    8.1.3 HBase架构 176
    8.1.4 HBase文件存储格式 178
    8.1.5 HBase存储流程 179
    8.1.6 HBase和HDFS 179
    8.2 HBase表设计 179
    8.2.1 列簇设计 179
    8.2.2 行键设计 180
    8.3 HBase安装 180
    8.3.1 HBase的单机模式 180
    8.3.2 HBase的HA模式 182
    8.4 HBase Shell常用操作 184
    8.5 HBase编程 190
    8.5.1 配置开发环境 190
    8.5.2 使用Java API操作HBase 191
    8.5.3 使用HBase实现WordCount 193
    8.6 HBase过滤器和比较器 195
    8.6.1 过滤器 195
    8.6.2 比较器 196
    8.6.3 编程实例 196
    8.7 HBase与Hive结合 201
    8.7.1 HBase与Hive结合的原因 201
    8.7.2 Hive关联HBase 201
    8.8 HBase性能优化 202
    8.9 本章小结 204
    8.10 习题 204
    第9章 Flume 205
    9.1 认识Flume 205
    9.1.1 Flume简介 205
    9.1.2 Flume的特点 205
    9.2 Flume基本组件 206
    9.2.1 Event 206
    9.2.2 Agent 206
    9.3 Flume安装 207
    9.4 Flume数据流模型 208
    9.5 Flume的可靠性保证 210
    9.5.1 负载均衡 210
    9.5.2 故障转移 211
    9.6 Flume拦截器 212
    9.7 采集案例 214
    9.7.1 采集目录到HDFS 214
    9.7.2 采集文件到HDFS 215
    9.8 本章小结 216
    9.9 习题 216
    第10章 Sqoop 217
    10.1 认识Sqoop 217
    10.1.1 Sqoop简介 217
    10.1.2 Sqoop原理 218
    10.1.3 Sqoop架构 218
    10.2 Sqoop安装 218
    10.3 Sqoop命令 220
    10.3.1 Sqoop数据库连接参数 221
    10.3.2 Sqoop export参数 221
    10.3.3 Sqoop import参数 221
    10.3.4 Sqoop import命令的基本操作 221
    10.4 Sqoop数据导入 222
    10.4.1 将MySQL的数据导入HDFS 222
    10.4.2 将MySQL的数据导入Hive 223
    10.4.3 将MySQL的数据导入HBase 226
    10.4.4 增量导入 227
    10.4.5 按需导入 229
    10.5 Sqoop数据导出 230
    10.5.1 将HDFS的数据导出到MySQL 230
    10.5.2 将Hive的数据导出到MySQL 231
    10.5.3 将HBase的数据导出到MySQL 231
    10.6 Sqoop job 233
    10.7 本章小结 233
    10.8 习题 234
    第11章 综合项目――电商精准营销 235
    11.1 项目概述 235
    11.1.1 项目背景介绍 235
    11.1.2 项目架构设计 235
    11.2 项目详细介绍 237
    11.2.1 项目核心关注点 237
    11.2.2 重要概念 237
    11.2.3 维度 238
    11.3 项目模块分析 239
    11.3.1 用户基本信息分析模块 239
    11.3.2 浏览器分析模块 239
    11.3.3 地域分析模块 239
    11.3.4 外链分析模块 239
    11.4 数据采集 240
    11.4.1 日志采集系统概述 240
    11.4.2 JS SDK收集数据 240
    11.4.3 Java SDK收集数据 242
    11.4.4 使用Flume搭建日志采集系统 243
    11.4.5 日志信息说明 244
    11.5 数据清洗 245
    11.5.1 分析需要清洗的数据 245
    11.5.2 解析数据格式转换 245
    11.5.3 利用MapReduce清洗数据 245
    11.6 使用数据仓库进行数据分析 253
    11.6.1 事件板块数据分析 253
    11.6.2 订单板块数据分析 257
    11.6.3 时间板块数据分析 262
    11.7 可视化 264
    11.7.1 ECharts简介 264
    11.7.2 ECharts的优点 265
    11.7.3 操作流程 265
    11.8 本章小结 267
    11.9 习题 267
    附录 268
  • 内容简介:
    共分11章,第1章对大数据及Hadoop进行总体介绍,第2章讲解了如何搭建Hadoop集群。第3-5章讲解了HDFS分布式文件系统、MapReduce分布式计算框架以及Zookeeper分布式协调服务。第6章讲解Hadoop2.0的新特性。第7-10章主要讲解了Hadoop生态圈中的相关辅助系统,包括Hive、HBase分布式存储系统、Flume、Saoop。第11章讲解了综合项目:电商精准营销。
  • 作者简介:
    千锋教育 1.千锋教育采用全程面授高品质、高成本培养模式,教学大纲紧跟企业需求,拥有全国一体化就业保障服务,成为学员信赖的IT职业教育品牌。 2.获得荣誉包括:中关村移动互联网产业联盟副理事长单位、中国软件协会教育培训委员会认证一级培训机构、中关村国际孵化软件协会授权中关村移动互联网学院、教育部教育管理信息中心指定移动互联网实训基地等。
  • 目录:
    第1章 初识Hadoop 1
    1.1 大数据简介 1
    1.1.1 大数据的五大特征 1
    1.1.2 大数据的六大发展趋势 3
    1.1.3 大数据在电商行业的应用 4
    1.1.4 大数据在交通行业的应用 5
    1.1.5 大数据在医疗行业的应用 5
    1.2 大数据技术的核心需求 5
    1.3 Hadoop简介 6
    1.3.1 什么是Hadoop 6
    1.3.2 Hadoop的产生和发展 6
    1.3.3 Hadoop的优缺点 7
    1.3.4 Hadoop版本介绍 7
    1.3.5 Hadoop生态圈的相关组件 7
    1.3.6 Hadoop应用介绍 8
    1.3.7 国内Hadoop的就业情况分析 9
    1.3.8 分布式系统概述 10
    1.4 离线数据分析流程介绍 10
    1.4.1 项目需求描述 11
    1.4.2 数据来源 11
    1.4.3 数据处理流程 11
    1.4.4 项目最终效果 12
    1.5 大数据学习流程 12
    1.6 本章小结 13
    1.7 习题 14
    第2章 搭建Hadoop集群 15
    2.1 安装准备 15
    2.1.1 虚拟机安装 15
    2.1.2 虚拟机克隆 21
    2.1.3 Linux系统网络配置 23
    2.1.4 SSH服务配置 26
    2.2 Linux基本命令 28
    2.2.1 系统工作命令 29
    2.2.2 磁盘操作命令 30
    2.2.3 目录与文件操作命令 30
    2.2.4 权限操作命令 31
    2.3 Hadoop集群搭建 32
    2.3.1 Hadoop集群部署模式 32
    2.3.2 安装JDK 32
    2.3.3 安装Hadoop 33
    2.3.4 Hadoop集群配置 34
    2.4 Hadoop 集群测试 37
    2.4.1 格式化文件系统 37
    2.4.2 启动和关闭Hadoop进程命令 37
    2.4.3 启动和查看Hadoop进程 38
    2.4.4 查看Web界面 38
    2.5 使用Hadoop集群 39
    2.6 本章小结 40
    2.7 习题 40
    第3章 HDFS分布式文件系统 41
    3.1 HDFS简介 41
    3.1.1 HDFS的概念 41
    3.1.2 HDFS数据的存储和读取方式 42
    3.1.3 HDFS的特点 42
    3.2 HDFS存储架构和数据读写流程 43
    3.2.1 HDFS的存储架构 43
    3.2.2 HDFS的数据读写流程 44
    3.3 HDFS的Shell命令 46
    3.4 Java程序操作HDFS 47
    3.4.1 HDFS Java API概述 47
    3.4.2 使用Java API操作HDFS 47
    3.5 Hadoop序列化 55
    3.5.1 Hadoop序列化简介 55
    3.5.2 常用实现Writable接口的类 56
    3.5.3 自定义实现Writable接口的类 58
    3.6 Hadoop小文件处理 59
    3.6.1 压缩小文件 59
    3.6.2 创建序列文件 60
    3.7 通信机制RPC 63
    3.7.1 RPC简介 63
    3.7.2 Hadoop的RPC架构 63
    3.8 本章小结 64
    3.9 习题 64
    第4章 MapReduce分布式计算框架 65
    4.1 认识MapReduce 65
    4.1.1 MapReduce核心思想 65
    4.1.2 MapReduce编程模型 65
    4.1.3 MapReduce编程案例――WordCount 67
    4.2 MapReduce编程组件 72
    4.2.1 InputFormat组件 72
    4.2.2 OutputFormat组件 73
    4.2.3 RecordReader组件和
    RecordWriter组件 76
    4.2.4 Partitioner组件 76
    4.2.5 Combiner组件 78
    4.3 MapReduce作业解析 82
    4.3.1 MapReduce作业简介 82
    4.3.2 MapReduce作业运行时的资源调度 82
    4.3.3 MapReduce作业运行流程 83
    4.4 MapReduce工作原理 83
    4.4.1 Map任务工作原理 83
    4.4.2 Reduce任务工作原理 83
    4.5 Shuffle阶段 83
    4.5.1 Shuffle的概念 83
    4.5.2 Map端的Shuffle 84
    4.5.3 Reduce端的Shuffle 85
    4.6 优化――数据倾斜 85
    4.7 MapReduce典型案例――排序 86
    4.7.1 部分排序 86
    4.7.2 全排序 87
    4.8 MapReduce典型案例――倒排索引 91
    4.8.1 准备模拟数据 91
    4.8.2 输出数据解析 92
    4.8.3 编写MapReduce程序 92
    4.9 MapReduce典型案例――连接 94
    4.9.1 准备模拟数据 94
    4.9.2 输出数据解析 94
    4.9.3 编写MapReduce程序 94
    4.10 MapReduce典型案例――平均分以及百分比 97
    4.10.1 准备模拟数据 97
    4.10.2 输出数据解析 97
    4.10.3 编写MapReduce程序 97
    4.11 MapReduce典型案例――过滤敏感词汇 100
    4.11.1 准备模拟数据 100
    4.11.2 创建敏感词库 101
    4.11.3 编写MapReduce程序 101
    4.12 本章小结 103
    4.13 习题 103
    第5章 ZooKeeper分布式协调服务 105
    5.1 认识ZooKeeper 105
    5.1.1 ZooKeeper简介 105
    5.1.2 ZooKeeper的设计目的 105
    5.1.3 ZooKeeper的系统模型 106
    5.1.4 ZooKeeper中的角色 106
    5.1.5 ZooKeeper的工作原理 107
    5.2 ZooKeeper安装和常用命令 108
    5.2.1 ZooKeeper单机模式 108
    5.2.2 ZooKeeper全分布式 109
    5.2.3 ZooKeeper服务器常用脚本 111
    5.2.4 ZooKeeper客户端节点和命令 111
    5.3 ZooKeeper客户端编程 113
    5.3.1 配置开发环境 113
    5.3.2 Java程序操作ZooKeeper客户端 114
    5.4 ZooKeeper典型应用场景 115
    5.4.1 数据发布与订阅 115
    5.4.2 命名服务 115
    5.4.3 分布式锁 116
    5.5 本章小结 116
    5.6 习题 116
    第6章 Hadoop 2.0新特性 118
    6.1 Hadoop 2.0的改进 118
    6.1.1 HDFS存在的问题 118
    6.1.2 MapReduce存在的问题 118
    6.1.3 HDFS 2.0解决HDFS 1.0中的问题 119
    6.2 YARN资源管理框架 119
    6.2.1 YARN简介 119
    6.2.2 YARN架构 119
    6.2.3 YARN的优势 120
    6.3 Hadoop的HA模式 120
    6.3.1 HA模式简介 120
    6.3.2 HDFS的HA模式 121
    6.3.3 YARN的HA模式 127
    6.3.4 启动和关闭Hadoop的HA模式 131
    6.4 本章小结 132
    6.5 习题 132
    第7章 Hive 133
    7.1 数据仓库简介 133
    7.1.1 数据仓库概述 133
    7.1.2 数据仓库的使用 133
    7.1.3 数据仓库的特点 134
    7.1.4 主流的数据仓库 134
    7.2 认识Hive 134
    7.2.1 Hive简介 134
    7.2.2 Hive架构 135
    7.2.3 Hive和关系型数据库比较 136
    7.3 Hive安装 136
    7.4 Hive数据类型 140
    7.4.1 Hive基本数据类型 140
    7.4.2 Hive复杂数据类型 141
    7.5 Hive数据库操作 142
    7.6 Hive表 143
    7.6.1 内部表和外部表 143
    7.6.2 对表进行分区 149
    7.6.3 对表或分区进行桶操作 153
    7.7 Hive表的查询 156
    7.7.1 select查询语句 156
    7.7.2 视图 161
    7.7.3 Join 162
    7.8 Hive函数 165
    7.8.1 Hive内置函数 165
    7.8.2 通过JDBC驱动程序使用Hiveserver2服务 167
    7.8.3 Hive用户自定义函数 169
    7.9 Hive性能优化 171
    7.10 Hive案例分析 173
    7.11 本章小结 174
    7.12 习题 174
    第8章 HBase分布式存储系统 175
    8.1 认识HBase 175
    8.1.1 HBase简介 175
    8.1.2 HBase的数据模型 176
    8.1.3 HBase架构 176
    8.1.4 HBase文件存储格式 178
    8.1.5 HBase存储流程 179
    8.1.6 HBase和HDFS 179
    8.2 HBase表设计 179
    8.2.1 列簇设计 179
    8.2.2 行键设计 180
    8.3 HBase安装 180
    8.3.1 HBase的单机模式 180
    8.3.2 HBase的HA模式 182
    8.4 HBase Shell常用操作 184
    8.5 HBase编程 190
    8.5.1 配置开发环境 190
    8.5.2 使用Java API操作HBase 191
    8.5.3 使用HBase实现WordCount 193
    8.6 HBase过滤器和比较器 195
    8.6.1 过滤器 195
    8.6.2 比较器 196
    8.6.3 编程实例 196
    8.7 HBase与Hive结合 201
    8.7.1 HBase与Hive结合的原因 201
    8.7.2 Hive关联HBase 201
    8.8 HBase性能优化 202
    8.9 本章小结 204
    8.10 习题 204
    第9章 Flume 205
    9.1 认识Flume 205
    9.1.1 Flume简介 205
    9.1.2 Flume的特点 205
    9.2 Flume基本组件 206
    9.2.1 Event 206
    9.2.2 Agent 206
    9.3 Flume安装 207
    9.4 Flume数据流模型 208
    9.5 Flume的可靠性保证 210
    9.5.1 负载均衡 210
    9.5.2 故障转移 211
    9.6 Flume拦截器 212
    9.7 采集案例 214
    9.7.1 采集目录到HDFS 214
    9.7.2 采集文件到HDFS 215
    9.8 本章小结 216
    9.9 习题 216
    第10章 Sqoop 217
    10.1 认识Sqoop 217
    10.1.1 Sqoop简介 217
    10.1.2 Sqoop原理 218
    10.1.3 Sqoop架构 218
    10.2 Sqoop安装 218
    10.3 Sqoop命令 220
    10.3.1 Sqoop数据库连接参数 221
    10.3.2 Sqoop export参数 221
    10.3.3 Sqoop import参数 221
    10.3.4 Sqoop import命令的基本操作 221
    10.4 Sqoop数据导入 222
    10.4.1 将MySQL的数据导入HDFS 222
    10.4.2 将MySQL的数据导入Hive 223
    10.4.3 将MySQL的数据导入HBase 226
    10.4.4 增量导入 227
    10.4.5 按需导入 229
    10.5 Sqoop数据导出 230
    10.5.1 将HDFS的数据导出到MySQL 230
    10.5.2 将Hive的数据导出到MySQL 231
    10.5.3 将HBase的数据导出到MySQL 231
    10.6 Sqoop job 233
    10.7 本章小结 233
    10.8 习题 234
    第11章 综合项目――电商精准营销 235
    11.1 项目概述 235
    11.1.1 项目背景介绍 235
    11.1.2 项目架构设计 235
    11.2 项目详细介绍 237
    11.2.1 项目核心关注点 237
    11.2.2 重要概念 237
    11.2.3 维度 238
    11.3 项目模块分析 239
    11.3.1 用户基本信息分析模块 239
    11.3.2 浏览器分析模块 239
    11.3.3 地域分析模块 239
    11.3.4 外链分析模块 239
    11.4 数据采集 240
    11.4.1 日志采集系统概述 240
    11.4.2 JS SDK收集数据 240
    11.4.3 Java SDK收集数据 242
    11.4.4 使用Flume搭建日志采集系统 243
    11.4.5 日志信息说明 244
    11.5 数据清洗 245
    11.5.1 分析需要清洗的数据 245
    11.5.2 解析数据格式转换 245
    11.5.3 利用MapReduce清洗数据 245
    11.6 使用数据仓库进行数据分析 253
    11.6.1 事件板块数据分析 253
    11.6.2 订单板块数据分析 257
    11.6.3 时间板块数据分析 262
    11.7 可视化 264
    11.7.1 ECharts简介 264
    11.7.2 ECharts的优点 265
    11.7.3 操作流程 265
    11.8 本章小结 267
    11.9 习题 267
    附录 268
查看详情
12
相关图书 / 更多
Hadoop大数据开发实战(慕课版)
Hardy-Landau圆内整点问题(精)/现代数学中的著名定理纵横谈丛书
王梓坤 著;刘培杰数学工作室 编
Hadoop大数据开发实战(慕课版)
Hadoop大数据平台技术与应用
孙风栋 著
Hadoop大数据开发实战(慕课版)
Hadoop+Spark+Python大数据处理从算法到实战
朱春旭
Hadoop大数据开发实战(慕课版)
HarmonyOS IoT设备开发实战(鸿蒙操作系统开发)
江苏润和软件股份有限公司
Hadoop大数据开发实战(慕课版)
Hadoop技术与应用(高职)
魏迎
Hadoop大数据开发实战(慕课版)
Hadoop理论与实践
北京百里半网络技术有限公司;李平
Hadoop大数据开发实战(慕课版)
Hadoop应用开发与案例实战(慕课版)
穆建平、王建、商程 著
Hadoop大数据开发实战(慕课版)
Hadoop大数据处理技术基础与实践(第2版)(微课版)
安俊秀、靳宇倡、郭英 著
Hadoop大数据开发实战(慕课版)
Hadoop/Spark大数据机器学习
翟俊海;张素芳
Hadoop大数据开发实战(慕课版)
Hadoop大数据处理与分析教程(慕课版)
王秀友 丁小娜 刘运
Hadoop大数据开发实战(慕课版)
Harvard哈佛商业评论(2020年增刊)——中国式管理探索2019年获奖案例集
《哈弗商业评论》 著
Hadoop大数据开发实战(慕课版)
Hadoop 3实战指南
孙志伟
您可能感兴趣 / 更多
Hadoop大数据开发实战(慕课版)
Python青少年趣味编程
千锋教育 编著
Hadoop大数据开发实战(慕课版)
Python快乐编程——数据分析与实战
千锋教育高教产品研发部
Hadoop大数据开发实战(慕课版)
Python快乐编程:人工智能深度学习基础/“好程序员成长”丛书
千锋教育高教产品研发部 编
Hadoop大数据开发实战(慕课版)
jQuery开发实战(慕课版)
千锋教育高教产品研发部 著
Hadoop大数据开发实战(慕课版)
Java语言程序设计(第2版)()
千锋教育高教产品研发部 著
Hadoop大数据开发实战(慕课版)
SEO搜索引擎优化基础+案例+实战(慕课版)
千锋教育高教产品研发部 著
Hadoop大数据开发实战(慕课版)
Python快乐编程——Web开发
千锋教育高教产品研发部
Hadoop大数据开发实战(慕课版)
Linux Shell自动化运维(慕课版)
千锋教育高教产品研发部
Hadoop大数据开发实战(慕课版)
Linux系统编程(慕课版)
千锋教育高教产品研发部
Hadoop大数据开发实战(慕课版)
Java微服务分布式架构企业实战(“好程序员成长”丛书)
千锋教育高教产品研发部
Hadoop大数据开发实战(慕课版)
HTML5从入门到精通
千锋教育高教产品研发部 著
Hadoop大数据开发实战(慕课版)
MySQL数据库从入门到精通(21世纪高等学校计算机专业实用规划教材)
千锋教育高教产品研发部 著