大数据技术与机器学习Python实战

大数据技术与机器学习Python实战
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2021-08
版次: 1
ISBN: 9787302581321
定价: 48.00
装帧: 其他
开本: 16开
纸张: 胶版纸
字数: 384.000千字
8人买过
  • 本书基于计算机类专业对大数据平台技术和大规模数据处理的实战需求,在阐述数据科学、Hadoop和Spark配置要点和大数据处理周期的基础上,重点阐述大数据采集与存储、预处理、特征工程、数据可视化分析、机器学习基础等大数据处理技术及其Python实现,以及基于Hadoop和Spark平台的Python接口调用和机器学习编程实例分析。本书既强调了大数据处理周期的基本原理和关键技术,又突出机器学习算法及其在分布式系统中的应用编程方法。 本书可作为高等院校计算机、大数据、人工智能、软件工程等专业的教材,也可作为大数据技术研发人员和研究生的学习参考用书。 张晓明,男,教授,博士,北京市教学名师,北京市中青年骨干教师,北京高校继续教育高水平教学团队带头人,计算机和大数据专业负责人。CCF分布式计算与系统专委会委员,全国高校计算机教育研究会理事,北京市高校计算机教育研究会常务理事。主讲《计算机网络》、《大数据技术及应用开发》等课程。出版《计算机网络教程(第2版)》、《C#网络通信程序设计》、《软件系统设计与体系结构》等教材7部,专著1部。荣获2018年北京市高等教育教学成果一等奖。从事网络计算与系统安全、大数据技术分析等研究,发表论文60余篇。 第1章绪论00

    1.1大数据技术概述00

    1.1.1大数据的特点00

    1.1.2大数据与数据科学的关系00

    1.1.3大数据的关键技术00

    1.1.4大数据的计算模式00

    1.2基于Hadoop系统的大数据平台00

    1.2.1Hadoop的特点00

    1.2.2Hadoop的生态系统00

    1.3基于Spark系统的大数据平台00

    1.3.1Spark的生态系统00

    1.3.2Spark与Hadoop的比较00

    1.4面向实时计算的大数据平台0

    1.4.1Storm介绍0

    1.4.2Storm的核心组件0

    1.4.3Storm的特性0

    1.5大数据技术的发展趋势0

    1.6Windows 10下Spark Hadoop Hive Pyspark配置0

    第2章Hadoop系统应用开发基础0

    2.1Hadoop YARN应用基础0

    2.1.1YARN的设计目标0

    2.1.2YARN的组件及架构0

    2.1.3YARN的运行流程0

    2.2HDFS文件系统及其应用0

    2.2.1HDFS体系结构0

    2.2.2HDFS的存储原理0

    2.2.3HDFS的数据读写过程0

    2.2.4HDFS的常用命令0

    2.3MapReduce计算模型及其应用0

    2.3.1MapReduce编程原理0

    2.3.2MapReduce模型的应用0

     

    2.4HBase大数据存储与访问0

    2.4.1HBase的体系结构0

    2.4.2Region的分区与列族0

    2.4.3HBase的数据模型0

    2.5基于Hadoop Streaming的应用编程技术0

    2.5.1Hadoop Streaming说明0

    2.5.2Hadoop Streaming应用入门0

    2.6Linux系统下Hadoop集群部署0

    2.6.1分布式集群配置思路0

    2.6.2Linux系统基础配置0

    2.6.3Hadoop平台配置0

    2.7Hadoop集群实例测试0

    2.7.1实例说明0

    2.7.2PI实例的运行0

    2.7.3WordCount实例的运行0

    第3章Spark应用开发基础0

    3.1Spark的Python编程环境设置0

    3.2Spark的工作机制0

    3.3弹性分布式数据集RDD基础0

    3.4RDD的Python程序设计0

    3.5Spark SQL0

    3.5.1Spark SQL的特点0

    3.5.2RDD、DataFrame和DataSet比较0

    3.5.3Spark SQL的核心 API0

    3.5.4Spark SQL编程示例0

    3.5.5部分Spark SQL编程要点0

    3.6Spark Streaming的应用编程技术0

    3.6.1Spark Streaming的工作原理0

    3.6.2Spark Streaming的编程示例0

    第4章大数据采集与存储技术0

    4.1网络爬虫0

    4.1.1网络爬虫的基本结构及工作流程0

    4.1.2网络爬虫分类0

    4.1.3抓取策略0

    4.1.4网络爬虫的分析算法0

    4.2大数据采集平台与工具0

    4.2.1Apache Flume0

    4.2.2Sqoop0

    4.2.3常用网络爬虫工具0

    4.3网络爬虫程序设计0

    4.3.1Python爬虫基本流程0

    4.3.2Requests库入门0

    4.3.3Requests库用于网络爬虫设计示例0

    4.3.4Beautiful Soup库的应用0

    4.3.5Selenium的应用技术0

    4.4大数据存储与管理技术

    4.4.1大数据存储与管理类型

    4.4.2三种数据库比较

    4.4.3NewSQL、NoSQL与OldSQL混合部署应用方案

    第5章大数据预处理技术

    5.1数据预处理概述

    5.2数据清洗

    5.2.1缺失值处理

    5.2.2重复值处理

    5.2.3异常值处理

    5.3文本数据清洗

    5.3.1纯文本的正则处理方法

    5.3.2HTML网页数据的正则处理方法

    5.3.3其他方法

    5.4数据规范化处理

    5.4.1数据规范化的常见方法

    5.4.2零均值规范化示例

    5.4.3特征归一化示例

    5.4.4小规范化示例

    5.4.5特征二值化示例

    5.5数据平滑化处理

    5.5.1移动平均法

    5.5.2指数平滑法

    5.5.3分箱法

    5.6基于PCA的数据规约技术

    5.6.1主成分分析技术

    5.6.2在OpenCV中实现主成分分析

    第6章数据表示与特征工程

    6.1特征工程概述

    6.1.1特征的概念与分类

    6.1.2特征工程的含义和作用

    6.1.3特征工程的组成

    6.2类别变量表示

    6.2.1OneHotEncoder

    6.2.2DictVectorizer

    6.3文本特征工程

    6.3.1文本特征表示方法

    6.3.2文本特征的计算

    6.4图像特征表示

    6.4.1OpenCV介绍

    6.4.2图像特征点提取

    6.4.3ORB

    6.5音频特征表示

    6.5.1PyAudio库的应用

    6.5.2Librosa

    第7章数据可视化技术及应用

    7.1可视化技术概述

    7.1.1数据可视化的概念

    7.1.2数据可视化的重要应用示例

    7.2ECharts应用入门

    7.2.1ECharts的应用方法

    7.2.2ECharts的简单应用

    7.3pyecharts应用基础

    7.3.1pyecharts的图表说明

    7.3.2pyecharts的安装和使用方法

    7.4文本可视化

    7.4.1文本内容可视化

    7.4.2文本关系可视化

    7.4.3主题模型的可视化分析

    7.4.4主题演变的文本可视化

    7.5基于pyecharts实现多维数据可视化

    7.5.1基于时间轴的数据可视化

    7.5.2基于日历图的数据可视化

    7.5.3三维空间的数据可视化

    7.6大规模数据可视化的编程技术实例

    第8章机器学习基础及应用技术

    8.1机器学习概述

    8.1.1机器学习的分类

    8.1.2机器学习的基本流程

    8.1.3机器学习的评估度量标准

    8.1.4机器学习的距离计算方法

    8.2K近邻算法

    8.2.1K近邻算法概述

    8.2.2KNN的应用方法

    8.2.3sklearn中KNN算法实现

    8.2.4利用sklearn中KNN算法实现鸢尾花分类

    8.2.5K近邻算法的K值分析

    8.3KMeans算法原理及应用

    8.3.1KMeans算法描述

    8.3.2KMeans算法的参数设计

    8.3.3KMeans算法的应用

    8.4LightGBM算法及应用技术

    8.4.1LightGBM介绍

    8.4.2LightGBM算法介绍

    8.4.3LightGBM的基本应用

    8.4.4LightGBM参数说明与调参

    8.4.5回归模型及其预测 

    第9章基于Spark机器学习库的大数据推荐技术

    9.1Spark机器学习库介绍

    9.1.1Spark的mllib模块库

    9.1.2mllib的算法库示例说明

    9.1.3Spark的ml模块库

    9.2大数据推荐技术

    9.2.1推荐系统概述

    9.2.2基于内容的推荐算法

    9.2.3基于用户的协同过滤推荐

    9.2.4基于物品的协同过滤推荐

    9.2.5基于模型的推荐

    9.3基于Spark的ALS推荐算法

    9.3.1ALS算法解析

    9.3.2Spark的推荐算法说明

    9.4基于Spark的电影推荐模型设计与实现

    9.4.1Netflix Prize评分预测竞赛

    9.4.2数据分析

    9.4.3模型设计

    9.4.4Python电影推荐模型设计

    参考文献
  • 内容简介:
    本书基于计算机类专业对大数据平台技术和大规模数据处理的实战需求,在阐述数据科学、Hadoop和Spark配置要点和大数据处理周期的基础上,重点阐述大数据采集与存储、预处理、特征工程、数据可视化分析、机器学习基础等大数据处理技术及其Python实现,以及基于Hadoop和Spark平台的Python接口调用和机器学习编程实例分析。本书既强调了大数据处理周期的基本原理和关键技术,又突出机器学习算法及其在分布式系统中的应用编程方法。 本书可作为高等院校计算机、大数据、人工智能、软件工程等专业的教材,也可作为大数据技术研发人员和研究生的学习参考用书。
  • 作者简介:
    张晓明,男,教授,博士,北京市教学名师,北京市中青年骨干教师,北京高校继续教育高水平教学团队带头人,计算机和大数据专业负责人。CCF分布式计算与系统专委会委员,全国高校计算机教育研究会理事,北京市高校计算机教育研究会常务理事。主讲《计算机网络》、《大数据技术及应用开发》等课程。出版《计算机网络教程(第2版)》、《C#网络通信程序设计》、《软件系统设计与体系结构》等教材7部,专著1部。荣获2018年北京市高等教育教学成果一等奖。从事网络计算与系统安全、大数据技术分析等研究,发表论文60余篇。
  • 目录:
    第1章绪论00

    1.1大数据技术概述00

    1.1.1大数据的特点00

    1.1.2大数据与数据科学的关系00

    1.1.3大数据的关键技术00

    1.1.4大数据的计算模式00

    1.2基于Hadoop系统的大数据平台00

    1.2.1Hadoop的特点00

    1.2.2Hadoop的生态系统00

    1.3基于Spark系统的大数据平台00

    1.3.1Spark的生态系统00

    1.3.2Spark与Hadoop的比较00

    1.4面向实时计算的大数据平台0

    1.4.1Storm介绍0

    1.4.2Storm的核心组件0

    1.4.3Storm的特性0

    1.5大数据技术的发展趋势0

    1.6Windows 10下Spark Hadoop Hive Pyspark配置0

    第2章Hadoop系统应用开发基础0

    2.1Hadoop YARN应用基础0

    2.1.1YARN的设计目标0

    2.1.2YARN的组件及架构0

    2.1.3YARN的运行流程0

    2.2HDFS文件系统及其应用0

    2.2.1HDFS体系结构0

    2.2.2HDFS的存储原理0

    2.2.3HDFS的数据读写过程0

    2.2.4HDFS的常用命令0

    2.3MapReduce计算模型及其应用0

    2.3.1MapReduce编程原理0

    2.3.2MapReduce模型的应用0

     

    2.4HBase大数据存储与访问0

    2.4.1HBase的体系结构0

    2.4.2Region的分区与列族0

    2.4.3HBase的数据模型0

    2.5基于Hadoop Streaming的应用编程技术0

    2.5.1Hadoop Streaming说明0

    2.5.2Hadoop Streaming应用入门0

    2.6Linux系统下Hadoop集群部署0

    2.6.1分布式集群配置思路0

    2.6.2Linux系统基础配置0

    2.6.3Hadoop平台配置0

    2.7Hadoop集群实例测试0

    2.7.1实例说明0

    2.7.2PI实例的运行0

    2.7.3WordCount实例的运行0

    第3章Spark应用开发基础0

    3.1Spark的Python编程环境设置0

    3.2Spark的工作机制0

    3.3弹性分布式数据集RDD基础0

    3.4RDD的Python程序设计0

    3.5Spark SQL0

    3.5.1Spark SQL的特点0

    3.5.2RDD、DataFrame和DataSet比较0

    3.5.3Spark SQL的核心 API0

    3.5.4Spark SQL编程示例0

    3.5.5部分Spark SQL编程要点0

    3.6Spark Streaming的应用编程技术0

    3.6.1Spark Streaming的工作原理0

    3.6.2Spark Streaming的编程示例0

    第4章大数据采集与存储技术0

    4.1网络爬虫0

    4.1.1网络爬虫的基本结构及工作流程0

    4.1.2网络爬虫分类0

    4.1.3抓取策略0

    4.1.4网络爬虫的分析算法0

    4.2大数据采集平台与工具0

    4.2.1Apache Flume0

    4.2.2Sqoop0

    4.2.3常用网络爬虫工具0

    4.3网络爬虫程序设计0

    4.3.1Python爬虫基本流程0

    4.3.2Requests库入门0

    4.3.3Requests库用于网络爬虫设计示例0

    4.3.4Beautiful Soup库的应用0

    4.3.5Selenium的应用技术0

    4.4大数据存储与管理技术

    4.4.1大数据存储与管理类型

    4.4.2三种数据库比较

    4.4.3NewSQL、NoSQL与OldSQL混合部署应用方案

    第5章大数据预处理技术

    5.1数据预处理概述

    5.2数据清洗

    5.2.1缺失值处理

    5.2.2重复值处理

    5.2.3异常值处理

    5.3文本数据清洗

    5.3.1纯文本的正则处理方法

    5.3.2HTML网页数据的正则处理方法

    5.3.3其他方法

    5.4数据规范化处理

    5.4.1数据规范化的常见方法

    5.4.2零均值规范化示例

    5.4.3特征归一化示例

    5.4.4小规范化示例

    5.4.5特征二值化示例

    5.5数据平滑化处理

    5.5.1移动平均法

    5.5.2指数平滑法

    5.5.3分箱法

    5.6基于PCA的数据规约技术

    5.6.1主成分分析技术

    5.6.2在OpenCV中实现主成分分析

    第6章数据表示与特征工程

    6.1特征工程概述

    6.1.1特征的概念与分类

    6.1.2特征工程的含义和作用

    6.1.3特征工程的组成

    6.2类别变量表示

    6.2.1OneHotEncoder

    6.2.2DictVectorizer

    6.3文本特征工程

    6.3.1文本特征表示方法

    6.3.2文本特征的计算

    6.4图像特征表示

    6.4.1OpenCV介绍

    6.4.2图像特征点提取

    6.4.3ORB

    6.5音频特征表示

    6.5.1PyAudio库的应用

    6.5.2Librosa

    第7章数据可视化技术及应用

    7.1可视化技术概述

    7.1.1数据可视化的概念

    7.1.2数据可视化的重要应用示例

    7.2ECharts应用入门

    7.2.1ECharts的应用方法

    7.2.2ECharts的简单应用

    7.3pyecharts应用基础

    7.3.1pyecharts的图表说明

    7.3.2pyecharts的安装和使用方法

    7.4文本可视化

    7.4.1文本内容可视化

    7.4.2文本关系可视化

    7.4.3主题模型的可视化分析

    7.4.4主题演变的文本可视化

    7.5基于pyecharts实现多维数据可视化

    7.5.1基于时间轴的数据可视化

    7.5.2基于日历图的数据可视化

    7.5.3三维空间的数据可视化

    7.6大规模数据可视化的编程技术实例

    第8章机器学习基础及应用技术

    8.1机器学习概述

    8.1.1机器学习的分类

    8.1.2机器学习的基本流程

    8.1.3机器学习的评估度量标准

    8.1.4机器学习的距离计算方法

    8.2K近邻算法

    8.2.1K近邻算法概述

    8.2.2KNN的应用方法

    8.2.3sklearn中KNN算法实现

    8.2.4利用sklearn中KNN算法实现鸢尾花分类

    8.2.5K近邻算法的K值分析

    8.3KMeans算法原理及应用

    8.3.1KMeans算法描述

    8.3.2KMeans算法的参数设计

    8.3.3KMeans算法的应用

    8.4LightGBM算法及应用技术

    8.4.1LightGBM介绍

    8.4.2LightGBM算法介绍

    8.4.3LightGBM的基本应用

    8.4.4LightGBM参数说明与调参

    8.4.5回归模型及其预测 

    第9章基于Spark机器学习库的大数据推荐技术

    9.1Spark机器学习库介绍

    9.1.1Spark的mllib模块库

    9.1.2mllib的算法库示例说明

    9.1.3Spark的ml模块库

    9.2大数据推荐技术

    9.2.1推荐系统概述

    9.2.2基于内容的推荐算法

    9.2.3基于用户的协同过滤推荐

    9.2.4基于物品的协同过滤推荐

    9.2.5基于模型的推荐

    9.3基于Spark的ALS推荐算法

    9.3.1ALS算法解析

    9.3.2Spark的推荐算法说明

    9.4基于Spark的电影推荐模型设计与实现

    9.4.1Netflix Prize评分预测竞赛

    9.4.2数据分析

    9.4.3模型设计

    9.4.4Python电影推荐模型设计

    参考文献
查看详情
您可能感兴趣 / 更多
大数据技术与机器学习Python实战
金融风险管理
张晓明;陈芬菲
大数据技术与机器学习Python实战
水土保持(中国水利水电科普视听读丛书)
张晓明
大数据技术与机器学习Python实战
民航旅客运输(第6版)
张晓明 著
大数据技术与机器学习Python实战
C#网络通信程序设计(第2版)
张晓明
大数据技术与机器学习Python实战
国际贸易实务(第3版)
张晓明;汪荣
大数据技术与机器学习Python实战
中国会展业发展趋势研究:动态与前景
张晓明
大数据技术与机器学习Python实战
玩出来的逻辑思维:思维导图启蒙游戏书(年龄6-16·益智游戏系列)
张晓明
大数据技术与机器学习Python实战
计算机网络教程(第3版)
张晓明
大数据技术与机器学习Python实战
红色基因代代传
张晓明
大数据技术与机器学习Python实战
商业银行经营管理(第2版)
张晓明
大数据技术与机器学习Python实战
高家诗存(全四卷)
张晓明 编;重庆市璧山区档案馆 整理
大数据技术与机器学习Python实战
软件系统设计与体系结构
张晓明