Hadoop+Spark+Python大数据处理从算法到实战

Hadoop+Spark+Python大数据处理从算法到实战
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2021-06
版次: 1
ISBN: 9787301321447
定价: 99.00
装帧: 其他
开本: 16开
纸张: 胶版纸
页数: 448页
  • 本书围绕新基建的云计算、大数据及人工智能进行介绍,分为以下五个部分。
      部分介绍大数据的概念与特点,以及典型的产业应用场景;第二部分介绍目前云计算中的一个重要的研究与应用领域—容器云,包含应用容器引擎Docker与容器编排工具Kubernetes;第三部分是大数据分析的基础,也是大数据分析技术的重点,包含Hadoop、HBase、Hive、Spark的环境搭建及开发流程;第四部分是机器学习相关算法的应用,包含scikit-learn、SparkML、TensorFlow工具的使用;第五部分,以实例介绍如何使用Spark机器学习库中的协同过滤算法,来实现一个基于Web的推荐系,以及介绍如何使用OpenCV与TensorFlow构建卷积神经网络来实现基于Web的人脸识别。
      本书轻理论,重实践,适合有一定编程基础,且对云计算、大数据、机器学习、人工智能感兴趣,希望投身到新基建这一伟大事业的读者学习。同时,本书还可作为广大院校相关专业的教材和培训参考用书。 朱春旭,高级软件工程师,长期为软件开发公司、政府机构培训大数据开发与应用课程,提供大数据技术咨询与问题解决方案,对Python、大数据分析相关领域有深入研究。著有《Python编程完全自学教程》《Python数据分析与大数据处理从入门到精通》,培训学员10000 。 第1篇 入门篇 

    第 1 章 初识大数据 002 

    1.2 如何处理与分析大数据 004 

    1.3 大数据的产业应用 008 

    第2篇 准备篇 

    第 2 章 万丈高楼平地起,使用 Docker 作地基 011 

    2.1 初识 Docker 011 

    2.2 搭建 Docker 运行环境 016 

    2.3 Docker 操作镜像 029

    2.4 Docker 操作容器 036

    2.5 Docker 私有仓库 045

    2.6 Docker Compose 编排容器046

    2.7 Portainer 可视化工具 053

    2.8 实训:构建 Nginx 镜像并创建容器 055

    第 3 章  团队合作好,使用 Kubernetes 来协调 057

    3.1 初识 Kubernetes057

    3.2 搭建集群 063

    3.4 Kubernetes Dashboard 管理工具 079

    3.5 实训:在集群中部署 Nginx 服务器集群 084

    第3篇 技法篇

    第 4 章  筑高楼,需利器,使用 Hadoop 做核心 088

    4.1 Hadoop 简介 088

    4.2 HDFS 分布式文件系统 092

    4.3 任务调度与资源管理器 YARN 097

    4.4 MapReduce 分布式计算框架104

    4.5 Hadoop 环境搭建 113

    4.6 Hadoop 常用操作命令 127

    4.7 实训:在容器中部署 Hadoop集群 130

    第 5 章  空间要灵活,使用 HBase 来管理 136

    5.1 初识 HBase 136

    5.2 HBase 环境搭建144

    5.3 HBase Shell 操作 152

    5.4 HBase Thrift 编程接口 160

    5.5 Region 的拆分与合并 162

    5.6 实训:构建订单管理表 165

    第 6 章  数据需要规划,使用 Hive 建仓库169

    6.1 初识 Hive 169

    6.2 Hive 环境搭建 171

    6.3 Hive 数据库与表 176

    6.4 表的类型 183

    6.5 分桶查询与排序 188

    6.6 Sqoop 数据的导入导出 190

    6.7 Hive Thrift 编程接口192

    6.8 实训:构建订单分析数据仓库 193

    第 7 章  处理要够快,使用 Spark 196

    7.1 Spark 概述 196

    7.2 Spark 核心原理 199

    7.3 Spark 环境搭建 202

    7.4 提交 Spark 应用 206

    7.5 实训:在容器中部署 Spark集群 209

    第 8 章  数据无结构,使用 RDD 212

    8.1 RDD 设计原理 212

    8.2 RDD 编程 216

    8.3 键值对 RDD 224

    8.4 读写文件 230

    8.5 集成 HBase 232

    8.6 编程进阶 234

    8.7 实训:分析商品销售情况 240

    第 9 章  数据有结构,使用 SQL 语句 245

    9.1 Spark SQL 概述 245

    9.2 创建 DataFrame 对象 249

    9.3 DataFrame 常用的 API 254

    9.4 保存 DataFrame 262

    9.5 实训:分析公司销售业绩 264

    第 10 章  Spark 流式计算编程 268

    10.1 流计算简介 268

    10.2 Discretized Stream 271

    10.3 Structured Streaming 278

    10.4 实训:实时统计贷款金额 293

    第4篇 算法篇

    第 11 章  发掘数据价值,使用机器学习技术297

    11.1 什么是机器学习 297

    11.2 scikit-learn 机器学习库303

    11.3 Spark 机器学习库 308

    11.4 实训:简单的情感分析 310

    第 12 章  处理分类问题313

    12.1 分类问题概述 313

    12.2 决策树 .315

    12.3 随机森林 320

    12.4 Logistic 回归 325

    12.5 支持向量机 329

    12.6 贝叶斯 334

    12.7 实训:判断用户是否购买该商品 337

    第 13 章  处理回归问题 340

    13.1 回归问题概述 340

    13.2 线性回归与多项式回归 342

    13.3 决策树回归 347

    13.4 实训:预测房价 352

    第 14 章  处理聚类问题 355

    14.1 聚类问题概述 355

    14.2 基于划分聚类 356

    14.3 基于模型聚类 359

    14.4 实训:对客户进行聚类 363

    第 15 章  关联规则与协同过滤 365

    15.1 关联规则数据挖掘 365

    15.2 协同过滤 368

    15.3 实训:使用 Spark ALS 推荐菜单 371

    第 16 章  建立智能应用 374

    16.1 构建简单模型 374

    16.2 自定义模型和自定义层 384

    16.3 回调 386

    16.4 保存与恢复模型 388

    16.5 识别手写字 391

    16.6 实训:猫狗识别 394

    第5篇 实战篇

    第 17 章  综合实战:猜你喜欢401

    17.1 项目背景与解决方案介绍 401 

    17.2 数据库设计 403

    17.3 推荐模型 404

    17.4 前端网站 406

    第 18 章  综合实战:人脸识别416

    18.1 项目背景与解决方案介绍 416

    18.2 图像采集 418

    18.3 训练模型与识别人脸 422
  • 内容简介:
    本书围绕新基建的云计算、大数据及人工智能进行介绍,分为以下五个部分。
      部分介绍大数据的概念与特点,以及典型的产业应用场景;第二部分介绍目前云计算中的一个重要的研究与应用领域—容器云,包含应用容器引擎Docker与容器编排工具Kubernetes;第三部分是大数据分析的基础,也是大数据分析技术的重点,包含Hadoop、HBase、Hive、Spark的环境搭建及开发流程;第四部分是机器学习相关算法的应用,包含scikit-learn、SparkML、TensorFlow工具的使用;第五部分,以实例介绍如何使用Spark机器学习库中的协同过滤算法,来实现一个基于Web的推荐系,以及介绍如何使用OpenCV与TensorFlow构建卷积神经网络来实现基于Web的人脸识别。
      本书轻理论,重实践,适合有一定编程基础,且对云计算、大数据、机器学习、人工智能感兴趣,希望投身到新基建这一伟大事业的读者学习。同时,本书还可作为广大院校相关专业的教材和培训参考用书。
  • 作者简介:
    朱春旭,高级软件工程师,长期为软件开发公司、政府机构培训大数据开发与应用课程,提供大数据技术咨询与问题解决方案,对Python、大数据分析相关领域有深入研究。著有《Python编程完全自学教程》《Python数据分析与大数据处理从入门到精通》,培训学员10000 。
  • 目录:
    第1篇 入门篇 

    第 1 章 初识大数据 002 

    1.2 如何处理与分析大数据 004 

    1.3 大数据的产业应用 008 

    第2篇 准备篇 

    第 2 章 万丈高楼平地起,使用 Docker 作地基 011 

    2.1 初识 Docker 011 

    2.2 搭建 Docker 运行环境 016 

    2.3 Docker 操作镜像 029

    2.4 Docker 操作容器 036

    2.5 Docker 私有仓库 045

    2.6 Docker Compose 编排容器046

    2.7 Portainer 可视化工具 053

    2.8 实训:构建 Nginx 镜像并创建容器 055

    第 3 章  团队合作好,使用 Kubernetes 来协调 057

    3.1 初识 Kubernetes057

    3.2 搭建集群 063

    3.4 Kubernetes Dashboard 管理工具 079

    3.5 实训:在集群中部署 Nginx 服务器集群 084

    第3篇 技法篇

    第 4 章  筑高楼,需利器,使用 Hadoop 做核心 088

    4.1 Hadoop 简介 088

    4.2 HDFS 分布式文件系统 092

    4.3 任务调度与资源管理器 YARN 097

    4.4 MapReduce 分布式计算框架104

    4.5 Hadoop 环境搭建 113

    4.6 Hadoop 常用操作命令 127

    4.7 实训:在容器中部署 Hadoop集群 130

    第 5 章  空间要灵活,使用 HBase 来管理 136

    5.1 初识 HBase 136

    5.2 HBase 环境搭建144

    5.3 HBase Shell 操作 152

    5.4 HBase Thrift 编程接口 160

    5.5 Region 的拆分与合并 162

    5.6 实训:构建订单管理表 165

    第 6 章  数据需要规划,使用 Hive 建仓库169

    6.1 初识 Hive 169

    6.2 Hive 环境搭建 171

    6.3 Hive 数据库与表 176

    6.4 表的类型 183

    6.5 分桶查询与排序 188

    6.6 Sqoop 数据的导入导出 190

    6.7 Hive Thrift 编程接口192

    6.8 实训:构建订单分析数据仓库 193

    第 7 章  处理要够快,使用 Spark 196

    7.1 Spark 概述 196

    7.2 Spark 核心原理 199

    7.3 Spark 环境搭建 202

    7.4 提交 Spark 应用 206

    7.5 实训:在容器中部署 Spark集群 209

    第 8 章  数据无结构,使用 RDD 212

    8.1 RDD 设计原理 212

    8.2 RDD 编程 216

    8.3 键值对 RDD 224

    8.4 读写文件 230

    8.5 集成 HBase 232

    8.6 编程进阶 234

    8.7 实训:分析商品销售情况 240

    第 9 章  数据有结构,使用 SQL 语句 245

    9.1 Spark SQL 概述 245

    9.2 创建 DataFrame 对象 249

    9.3 DataFrame 常用的 API 254

    9.4 保存 DataFrame 262

    9.5 实训:分析公司销售业绩 264

    第 10 章  Spark 流式计算编程 268

    10.1 流计算简介 268

    10.2 Discretized Stream 271

    10.3 Structured Streaming 278

    10.4 实训:实时统计贷款金额 293

    第4篇 算法篇

    第 11 章  发掘数据价值,使用机器学习技术297

    11.1 什么是机器学习 297

    11.2 scikit-learn 机器学习库303

    11.3 Spark 机器学习库 308

    11.4 实训:简单的情感分析 310

    第 12 章  处理分类问题313

    12.1 分类问题概述 313

    12.2 决策树 .315

    12.3 随机森林 320

    12.4 Logistic 回归 325

    12.5 支持向量机 329

    12.6 贝叶斯 334

    12.7 实训:判断用户是否购买该商品 337

    第 13 章  处理回归问题 340

    13.1 回归问题概述 340

    13.2 线性回归与多项式回归 342

    13.3 决策树回归 347

    13.4 实训:预测房价 352

    第 14 章  处理聚类问题 355

    14.1 聚类问题概述 355

    14.2 基于划分聚类 356

    14.3 基于模型聚类 359

    14.4 实训:对客户进行聚类 363

    第 15 章  关联规则与协同过滤 365

    15.1 关联规则数据挖掘 365

    15.2 协同过滤 368

    15.3 实训:使用 Spark ALS 推荐菜单 371

    第 16 章  建立智能应用 374

    16.1 构建简单模型 374

    16.2 自定义模型和自定义层 384

    16.3 回调 386

    16.4 保存与恢复模型 388

    16.5 识别手写字 391

    16.6 实训:猫狗识别 394

    第5篇 实战篇

    第 17 章  综合实战:猜你喜欢401

    17.1 项目背景与解决方案介绍 401 

    17.2 数据库设计 403

    17.3 推荐模型 404

    17.4 前端网站 406

    第 18 章  综合实战:人脸识别416

    18.1 项目背景与解决方案介绍 416

    18.2 图像采集 418

    18.3 训练模型与识别人脸 422
查看详情
12
相关图书 / 更多
Hadoop+Spark+Python大数据处理从算法到实战
Hadoop 3大数据技术快速入门
牛搞
Hadoop+Spark+Python大数据处理从算法到实战
Hardy-Landau圆内整点问题(精)/现代数学中的著名定理纵横谈丛书
王梓坤 著;刘培杰数学工作室 编
Hadoop+Spark+Python大数据处理从算法到实战
Hadoop大数据平台技术与应用
孙风栋 著
Hadoop+Spark+Python大数据处理从算法到实战
HarmonyOS IoT设备开发实战(鸿蒙操作系统开发)
江苏润和软件股份有限公司
Hadoop+Spark+Python大数据处理从算法到实战
Hadoop技术与应用(高职)
魏迎
Hadoop+Spark+Python大数据处理从算法到实战
Hadoop大数据开发技术
申时全;陈强;杨胜利;黎学军;姜荣正;邱林润
Hadoop+Spark+Python大数据处理从算法到实战
HarmonyOS应用开发:快速入门与项目实战
夏德旺;谢立
Hadoop+Spark+Python大数据处理从算法到实战
Hadoop大数据开发基础项目化教程(陈秀玲)
陈井霞 主编;陈秀玲;王德选
Hadoop+Spark+Python大数据处理从算法到实战
Hadoop应用开发与案例实战(慕课版)
穆建平、王建、商程 著
Hadoop+Spark+Python大数据处理从算法到实战
Hadoop大数据技术与应用
智酷道捷内容与产品中心
Hadoop+Spark+Python大数据处理从算法到实战
Hadoop/Spark大数据机器学习
翟俊海;张素芳
Hadoop+Spark+Python大数据处理从算法到实战
Hadoop 3实战指南
孙志伟
您可能感兴趣 / 更多