大数据技术入门——Hadoop+Spark(大数据与人工智能技术丛书)

大数据技术入门——Hadoop+Spark(大数据与人工智能技术丛书)
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: , , ,
2021-12
版次: 1
ISBN: 9787302591818
定价: 49.90
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 208页
12人买过
  • 本书基础理论、应用开发以及实际案例相结合,围绕Hadoop、Spark生态圈循序渐进地介绍关于大数据技术领域中的基础知识、应用开发技术和基于Spark的常见机器学习算法,最后以两个实战案例全面、系统地应用了本书介绍的基础知识和应用开发方法。全书共14章,分别为大数据概述、Hadoop简介及安装部署、HDFS、MapReduce计算框架、Hive数据仓库、HBase分布式数据库、Spark基础、Spark RDD弹性分布式数据集、Spark SQL、Spark Streaming实时计算框架、Spark Streaming与Flume、Kafka的整合、Spark MLlib 机器学习、实战案例――分布式优惠券后台应用系统和实战案例――新闻话题实时统计分析系统,书中的每个知识点都有相应的实现代码和实例。 
    本书主要面向广大从事大数据分析、应用开发、机器学习、数据挖掘的专业人员以及从事高校信息技术专业的教师和高等院校的在读学生及相关领域的广大科研人员。 

    于海浩,男,1974年1月生,高级工程师,黑龙江工程学院计算机学院教师,主讲大数据实践和人工智能课程,研究方向为大数据处理与挖掘,深度学习。主持或参与国家、省部级、厅局级项目6项。以第一作者发表论文10余篇,作为高级项目经理和企业管理者组织了黑龙江省电力营销系统、地下管廊运维监管平台、智慧城管、城镇职工医疗系统的项目管理工作,有任企业技术总监的职务经历。
     

     

     

     
    目录 
    第1章大数据概述 

     
    1.1大数据的研究背景 

     
    1.2大数据的定义及其技术特点 

     
    1.2.1大数据的定义 

     
    1.2.2大数据的基本特点 

     
    1.2.3典型的大数据处理需求与计算特征 

     
    1.3大数据处理的主要技术特点与难点 

     
    1.4研究大数据的意义 

     
    1.5本章小结 

     
    第2章Hadoop简介及安装部署 

     
    2.1Hadoop简介及生态体系 

     
    2.2Hadoop集群架构 

     
    2.3Hadoop集群运行环境搭建 

     
    2.3.1Hadoop安装配置过程 

     
    2.3.2验证Hadoop的安装 

     
    2.4本章小结 

     
    第3章HDFS 

     
    3.1相关基本概念 

     
    3.2HDFS存储架构 

     
    3.2.1HDFS写入流程 

     
    3.2.2HDFS读取流程 

     
    3.3HDFS的优点与缺点 

     
    3.3.1HDFS的优点 

     
    3.3.2HDFS的缺点 

     
    3.4HDFS Shell常用命令 

     
    3.5HDFS的Java API 

     
    3.6本章小结 

     
    第4章MapReduce计算框架 

     
    4.1MapReduce核心思想 

     
    4.2MapReduce的工作原理 

     
    4.3MapReduce的运行机制 

     
    4.4MapReduce数据本地化 

     
    4.5MapReduce编程 

     
    4.5.1MapReduce运行模式 

     
    4.5.2MapReduce编程组件与数据类型 

     
    4.6MapReduce编程示例 

     
    4.6.1单词计数 

     
    4.6.2倒排索引 

     
    4.7本章小结 

     

     

     

     

     

     
    第5章Hive数据仓库 

     
    5.1Hive概述 

     
    5.1.1Hive简介 

     
    5.1.2Hive的架构 

     
    5.1.3Hive的优缺点 

     
    5.2Hive的安装 

     
    5.2.1安装MySQL 

     
    5.2.2安装Hive 

     
    5.3Hive数据库相关操作 

     
    5.3.1Hive的数据类型 

     
    5.3.2Hive基础SQL语法 

     
    5.4本章小结 

     
    第6章HBase分布式数据库 

     
    6.1HBase概述 

     
    6.1.1HBase的架构 

     
    6.1.2HBase的特点 

     
    6.1.3HBase数据存储方式 

     
    6.1.4HBase寻址机制 

     
    6.2HBase的安装 

     
    6.3HBase数据模型 

     
    6.4HBase的Shell操作 

     
    6.5HBase常用的Java API及示例程序 

     
    6.5.1HBase常用的Java API 

     
    6.5.2程序示例 

     
    6.6本章小结 

     
    第7章Spark基础 

     
    7.1Spark概述 

     
    7.1.1Spark的主要特点 

     
    7.1.2Spark生态系统 

     
    7.1.3Spark相对于Hadoop MapReduce的优势 

     
    7.2Spark的安装 

     
    7.2.1Spark的部署方式 

     
    7.2.2Spark的安装 

     
    7.3Spark运行架构与原理 

     
    7.4Spark运行流程 

     
    7.5本章小结 

     
    第8章Spark RDD弹性分布式数据集 

     
    8.1RDD的设计与运行原理 

     
    8.1.1RDD的概念 

     
    8.1.2RDD的分区 

     
    8.1.3RDD的依赖关系 

     
    8.1.4RDD在Spark中的运行流程 

     
    8.1.5RDD容错机制 

     
    8.2RDD API编程 

     
    8.2.1RDD的创建 

     
    8.2.2RDD的操作 

     
    8.3程序示例: 倒排索引 

     
    8.4本章小结 

     
    第9章Spark SQL 

     
    9.1Spark SQL概述 

     
    9.1.1Spark SQL简介 

     
    9.1.2Spark SQL的架构  

     
    9.2DataFrame 

     
    9.2.1DataFrame简介 

     
    9.2.2DataFrame的创建 

     
    9.2.3DataFrame的常用操作 

     
    9.3Dataset 

     
    9.4Spark SQL编程 

     
    9.4.1DataFrame操作 

     
    9.4.2Spark SQL 读写MySQL数据库 

     
    9.4.3Spark SQL 读写Hive 

     
    9.5本章小结 

     
    第10章 Spark Streaming实时计算框架 

     
    10.1Spark Streaming概述 

     
    10.1.1流数据和流计算 

     
    10.1.2Spark Streaming简介 

     
    10.1.3DStream简介 

     
    10.2DStream编程 

     
    10.2.1DStream转换操作 

     
    10.2.2DStream输出操作相关的方法 

     
    10.3DStream编程示例 

     
    10.3.1DStream编程基本步骤――文件流 

     
    10.3.2无状态转换操作 

     
    10.3.3有状态转换操作 

     
    10.3.4输出操作 

     
    10.4本章小结 

     
    第11章Spark Streaming与Flume、Kafka的整合 

     
    11.1Flume简介及安装 

     
    11.1.1Flume简介 

     
    11.1.2Flume的安装 

     
    11.2Kafka简介及安装 

     
    11.2.1Kafka简介 

     
    11.2.2Kafka的安装 

     
    11.3Flume与Kafka的区别和侧重点 

     
    11.4Spark Streaming与Flume、Kafka的整合与开发 

     
    11.5本章小结 

     
    第12章Spark MLlib机器学习 

     
    12.1机器学习的概念 

     
    12.1.1机器学习的定义 

     
    12.1.2机器学习的分类 

     
    12.2MLlib简介 

     
    12.3Spark MLlib的数据类型 

     
    12.3.1本地向量 

     
    12.3.2标注点 

     
    12.3.3本地矩阵 

     
    12.4Spark MLlib机器学习示例 

     
    12.4.1特征抽取――TFIDF 

     
    12.4.2分类与回归――线性回归 

     
    12.4.3分类与回归――逻辑回归 

     
    12.4.4协同过滤――电影推荐 

     
    12.5本章小结 

     
    第13章实战案例――分布式优惠券后台应用系统  

     
    13.1系统简介 

     
    13.2整体架构 

     
    13.3表结构设计 

     
    13.4系统实现 

     
    13.4.1商户投放子系统 

     
    13.4.2用户消费子系统 

     
    13.5系统运行测试 

     
    13.5.1启动系统 

     
    13.5.2商户投放子系统测试 

     
    13.5.3用户消费子系统测试 

     
    13.6本章小结 

     
    第14章实战案例――新闻话题实时统计分析系统 

     
    14.1系统简介 

     
    14.2系统总体架构 

     
    14.3表结构设计 

     
    14.4系统实现 

     
    14.4.1模拟日志生成程序 

     
    14.4.2Flume配置 

     
    14.4.3配置Kafka 

     
    14.4.4Spark Streaming开发 

     
    14.4.5WebSocket和前端界面开发 

     
    14.5系统运行测试 

     
    14.6本章小结 

     
    参考文献 

  • 内容简介:
    本书基础理论、应用开发以及实际案例相结合,围绕Hadoop、Spark生态圈循序渐进地介绍关于大数据技术领域中的基础知识、应用开发技术和基于Spark的常见机器学习算法,最后以两个实战案例全面、系统地应用了本书介绍的基础知识和应用开发方法。全书共14章,分别为大数据概述、Hadoop简介及安装部署、HDFS、MapReduce计算框架、Hive数据仓库、HBase分布式数据库、Spark基础、Spark RDD弹性分布式数据集、Spark SQL、Spark Streaming实时计算框架、Spark Streaming与Flume、Kafka的整合、Spark MLlib 机器学习、实战案例――分布式优惠券后台应用系统和实战案例――新闻话题实时统计分析系统,书中的每个知识点都有相应的实现代码和实例。 
    本书主要面向广大从事大数据分析、应用开发、机器学习、数据挖掘的专业人员以及从事高校信息技术专业的教师和高等院校的在读学生及相关领域的广大科研人员。 

  • 作者简介:
    于海浩,男,1974年1月生,高级工程师,黑龙江工程学院计算机学院教师,主讲大数据实践和人工智能课程,研究方向为大数据处理与挖掘,深度学习。主持或参与国家、省部级、厅局级项目6项。以第一作者发表论文10余篇,作为高级项目经理和企业管理者组织了黑龙江省电力营销系统、地下管廊运维监管平台、智慧城管、城镇职工医疗系统的项目管理工作,有任企业技术总监的职务经历。
  • 目录:

     

     

     

     
    目录 
    第1章大数据概述 

     
    1.1大数据的研究背景 

     
    1.2大数据的定义及其技术特点 

     
    1.2.1大数据的定义 

     
    1.2.2大数据的基本特点 

     
    1.2.3典型的大数据处理需求与计算特征 

     
    1.3大数据处理的主要技术特点与难点 

     
    1.4研究大数据的意义 

     
    1.5本章小结 

     
    第2章Hadoop简介及安装部署 

     
    2.1Hadoop简介及生态体系 

     
    2.2Hadoop集群架构 

     
    2.3Hadoop集群运行环境搭建 

     
    2.3.1Hadoop安装配置过程 

     
    2.3.2验证Hadoop的安装 

     
    2.4本章小结 

     
    第3章HDFS 

     
    3.1相关基本概念 

     
    3.2HDFS存储架构 

     
    3.2.1HDFS写入流程 

     
    3.2.2HDFS读取流程 

     
    3.3HDFS的优点与缺点 

     
    3.3.1HDFS的优点 

     
    3.3.2HDFS的缺点 

     
    3.4HDFS Shell常用命令 

     
    3.5HDFS的Java API 

     
    3.6本章小结 

     
    第4章MapReduce计算框架 

     
    4.1MapReduce核心思想 

     
    4.2MapReduce的工作原理 

     
    4.3MapReduce的运行机制 

     
    4.4MapReduce数据本地化 

     
    4.5MapReduce编程 

     
    4.5.1MapReduce运行模式 

     
    4.5.2MapReduce编程组件与数据类型 

     
    4.6MapReduce编程示例 

     
    4.6.1单词计数 

     
    4.6.2倒排索引 

     
    4.7本章小结 

     

     

     

     

     

     
    第5章Hive数据仓库 

     
    5.1Hive概述 

     
    5.1.1Hive简介 

     
    5.1.2Hive的架构 

     
    5.1.3Hive的优缺点 

     
    5.2Hive的安装 

     
    5.2.1安装MySQL 

     
    5.2.2安装Hive 

     
    5.3Hive数据库相关操作 

     
    5.3.1Hive的数据类型 

     
    5.3.2Hive基础SQL语法 

     
    5.4本章小结 

     
    第6章HBase分布式数据库 

     
    6.1HBase概述 

     
    6.1.1HBase的架构 

     
    6.1.2HBase的特点 

     
    6.1.3HBase数据存储方式 

     
    6.1.4HBase寻址机制 

     
    6.2HBase的安装 

     
    6.3HBase数据模型 

     
    6.4HBase的Shell操作 

     
    6.5HBase常用的Java API及示例程序 

     
    6.5.1HBase常用的Java API 

     
    6.5.2程序示例 

     
    6.6本章小结 

     
    第7章Spark基础 

     
    7.1Spark概述 

     
    7.1.1Spark的主要特点 

     
    7.1.2Spark生态系统 

     
    7.1.3Spark相对于Hadoop MapReduce的优势 

     
    7.2Spark的安装 

     
    7.2.1Spark的部署方式 

     
    7.2.2Spark的安装 

     
    7.3Spark运行架构与原理 

     
    7.4Spark运行流程 

     
    7.5本章小结 

     
    第8章Spark RDD弹性分布式数据集 

     
    8.1RDD的设计与运行原理 

     
    8.1.1RDD的概念 

     
    8.1.2RDD的分区 

     
    8.1.3RDD的依赖关系 

     
    8.1.4RDD在Spark中的运行流程 

     
    8.1.5RDD容错机制 

     
    8.2RDD API编程 

     
    8.2.1RDD的创建 

     
    8.2.2RDD的操作 

     
    8.3程序示例: 倒排索引 

     
    8.4本章小结 

     
    第9章Spark SQL 

     
    9.1Spark SQL概述 

     
    9.1.1Spark SQL简介 

     
    9.1.2Spark SQL的架构  

     
    9.2DataFrame 

     
    9.2.1DataFrame简介 

     
    9.2.2DataFrame的创建 

     
    9.2.3DataFrame的常用操作 

     
    9.3Dataset 

     
    9.4Spark SQL编程 

     
    9.4.1DataFrame操作 

     
    9.4.2Spark SQL 读写MySQL数据库 

     
    9.4.3Spark SQL 读写Hive 

     
    9.5本章小结 

     
    第10章 Spark Streaming实时计算框架 

     
    10.1Spark Streaming概述 

     
    10.1.1流数据和流计算 

     
    10.1.2Spark Streaming简介 

     
    10.1.3DStream简介 

     
    10.2DStream编程 

     
    10.2.1DStream转换操作 

     
    10.2.2DStream输出操作相关的方法 

     
    10.3DStream编程示例 

     
    10.3.1DStream编程基本步骤――文件流 

     
    10.3.2无状态转换操作 

     
    10.3.3有状态转换操作 

     
    10.3.4输出操作 

     
    10.4本章小结 

     
    第11章Spark Streaming与Flume、Kafka的整合 

     
    11.1Flume简介及安装 

     
    11.1.1Flume简介 

     
    11.1.2Flume的安装 

     
    11.2Kafka简介及安装 

     
    11.2.1Kafka简介 

     
    11.2.2Kafka的安装 

     
    11.3Flume与Kafka的区别和侧重点 

     
    11.4Spark Streaming与Flume、Kafka的整合与开发 

     
    11.5本章小结 

     
    第12章Spark MLlib机器学习 

     
    12.1机器学习的概念 

     
    12.1.1机器学习的定义 

     
    12.1.2机器学习的分类 

     
    12.2MLlib简介 

     
    12.3Spark MLlib的数据类型 

     
    12.3.1本地向量 

     
    12.3.2标注点 

     
    12.3.3本地矩阵 

     
    12.4Spark MLlib机器学习示例 

     
    12.4.1特征抽取――TFIDF 

     
    12.4.2分类与回归――线性回归 

     
    12.4.3分类与回归――逻辑回归 

     
    12.4.4协同过滤――电影推荐 

     
    12.5本章小结 

     
    第13章实战案例――分布式优惠券后台应用系统  

     
    13.1系统简介 

     
    13.2整体架构 

     
    13.3表结构设计 

     
    13.4系统实现 

     
    13.4.1商户投放子系统 

     
    13.4.2用户消费子系统 

     
    13.5系统运行测试 

     
    13.5.1启动系统 

     
    13.5.2商户投放子系统测试 

     
    13.5.3用户消费子系统测试 

     
    13.6本章小结 

     
    第14章实战案例――新闻话题实时统计分析系统 

     
    14.1系统简介 

     
    14.2系统总体架构 

     
    14.3表结构设计 

     
    14.4系统实现 

     
    14.4.1模拟日志生成程序 

     
    14.4.2Flume配置 

     
    14.4.3配置Kafka 

     
    14.4.4Spark Streaming开发 

     
    14.4.5WebSocket和前端界面开发 

     
    14.5系统运行测试 

     
    14.6本章小结 

     
    参考文献 

查看详情
相关图书 / 更多
大数据技术入门——Hadoop+Spark(大数据与人工智能技术丛书)
大数学家讲故事:李毓佩数学童话-数学小子杜鲁克
李毓佩
大数据技术入门——Hadoop+Spark(大数据与人工智能技术丛书)
大数据驱动的突发事件情报感知及快速响应研究
唐明伟,庄玉良
大数据技术入门——Hadoop+Spark(大数据与人工智能技术丛书)
大数据处理技术基础与应用(Hadoop+Spark)
许桂秋 孙海民 胡贵恒
大数据技术入门——Hadoop+Spark(大数据与人工智能技术丛书)
大数据十讲 周烜 陈志广
周烜 陈志广
大数据技术入门——Hadoop+Spark(大数据与人工智能技术丛书)
大数据财务分析
李峰
大数据技术入门——Hadoop+Spark(大数据与人工智能技术丛书)
大数据警务的崛起
(美)安德鲁.格思里.弗格森
大数据技术入门——Hadoop+Spark(大数据与人工智能技术丛书)
大数据观下的国家情报工作制度研究
马海群 等
大数据技术入门——Hadoop+Spark(大数据与人工智能技术丛书)
大数据侦查法治化研究
彭俊磊
大数据技术入门——Hadoop+Spark(大数据与人工智能技术丛书)
大数据环境下数字图书馆创新发展
金济
大数据技术入门——Hadoop+Spark(大数据与人工智能技术丛书)
大数据背景下公众参与环境治理的程度评估与作用机制研究
史亚东
大数据技术入门——Hadoop+Spark(大数据与人工智能技术丛书)
大数据医疗:从即时检测设备进行解析
(英)波利亚·阿梅里安,(英)特鲁迪·朗,(英)弗朗索瓦·范·洛格伦伯格
大数据技术入门——Hadoop+Spark(大数据与人工智能技术丛书)
大数据可视化编程和应用
倪振松 胡煜华 朱家全 主编 谢岳富 陈建平 副主编