数据科学与大数据技术导论

数据科学与大数据技术导论
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2019-10
版次: 1
ISBN: 9787568052207
定价: 41.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 254页
22人买过
  • 本书根据新工科建设及应用型本科院校人才培养对数据科学与大数据技术教学方面的需求,力求简单易懂,以Python为主线,按照学习者的知识逻辑展开,呈现数据科学与大数据技术的基本知识、基本概念、基本方法。本书内容主要包括:什么是大数据、Python基础知识、数据分析与可视化、数据挖掘、机器学习、大数据处理等。本书可作为普通高等院校计算机、大数据、人工智能等相关学科专业的教材用书。其他理工科专业的同学或有兴趣的广大读者,也可以作为学习数据科学、大数据技术、数据管理及应用等方面基础知识的自学教材或参考用书。 第1章 什么是大数据 1 

    1.1 数据、大数据及数据挖掘 1 

    1.1.1 数据 1 

    1.1.2 大数据 2 

    1.1.3 数据挖掘 3 

    1.1.4 数据挖掘的技术基础 4 

    1.2 大数据与统计学 6 

    1.3 机器学习与人工智能 7 

    1.3.1 机器学习与人工智能 7 

    1.3.2 机器学习的定义 8 

    1.4 相关领域应用 9 

    1.4.1 数据挖掘的相关案例 9 

    1.4.2 大数据应用领域 12 

    1.5 小结 15 

    1.6 习题 16 

    第2章 Python基础知识 17 

    2.1 Python概述 17 

    2.1.1 Python简介 17 

    2.1.2 Python的特点 18 

    2.1.3 Python集成开发环境的搭建 19 

    2.2 Python数据类型 22 

    2.2.1 数字 22 

    2.2.2 字符串 27 

    2.2.3 索引与分片 33 

    2.2.4 列表 35 

    2.2.5 元组 41 

    2.2.6 可变与不可变类型 44 

    2.2.7 字典 46 

    2.2.8 集合与不可变集合 50 

    2.3 判断与循环 56 

    2.3.1 判断语句 56 

    2.3.2 循环语句 62 

    2.3.3 一些简单实例 69 

    2.4 函数与模块 72 

    2.4.1. Python函数 72 

    2.4.2 内置函数 77 

    2.4.3 模块 81 

    2.4.4 阶段案例—学生管理系统 86 

    2.5 文件读写 91 

    2.5.1 读文件 91 

    2.5.2 写文件 92 

    2.5.3 中文文件的读写 94 

    2.6 异常与警告 95 

    2.6.1 异常 95 

    2.6.2 警告 103 

    2.7 本章小结 104 

    2.8 习题 105 

    第3章 数据分析与可视化 107 

    3.1 Python数据分析包 107 

    3.1.1 Pandas 107 

    3.1.2 Numpy 108 

    3.1.3 SciPy 108 

    3.1.4 Matplotlib 109 

    3.2 数据准备 110 

    3.2.1 数据类型 110 

    3.2.2 数据结构 110 

    3.2.3 数据导入 119 

    3.2.4 数据导出 122 

    3.3 数据处理 125 

    3.3.1 数据清洗 125 

    3.3.2 数据抽取 130 

    3.3.3 排名索引 141 

    3.3.4 数据合并 145 

    3.3.5 数据计算 150 

    3.3.6 数据分组 151 

    3.3.7 日期处理 153 

    3.4 数据分析 159 

    3.4.1 基本统计 159 

    3.4.2 分组分析 161 

    3.4.3 分布分析 162 

    3.4.4 交叉分析 165 

    3.4.5 结构分析 167 

    3.4.6 相关分析 169 

    3.5 数据可视化 171 

    3.5.1 饼图 171 

    3.5.2 散点图 172 

    3.5.3 折线图 174 

    3.5.4 柱形图 179 

    3.5.5 直方图 182 

    3.6 本章小结 183 

    3.7 习题 184 

    第4章 数据挖掘(SQL/Python) 186 

    4.1 数据挖掘绪论 186 

    4.1.1 数据挖掘定义 186 

    4.1.2 数据挖掘源起 187 

    4.1.3 数据挖掘研究目标 188 

    4.1.4 数据挖掘开源工具 190 

    4.2数据存储 194 

    4.2.1 数据库数据 194 

    4.2.2 数据仓库 195 

    4.2.3 数据仓库建模和实现 197 

    4.2.4 非关系型数据库 201 

    4.2.5 实时流数据与框架 203 

    4.3 数据挖掘技术 204 

    4.3.1 分类与预测 204 

    4.3.2 聚类分析 207 

    4.3.3 关联规则 212 

    4.3.4 离群点检测 215 

    4.3.5 时间序列分析 218 

    4.4 数据挖掘应用 220 

    4.4.1 系统日志和时间挖掘 220 

    4.4.2 社交媒体挖掘 222 

    4.4.3 文本挖掘 225 

    4.4.4 推荐系统 227 

    4.4.5 数据挖掘与智慧城市 228 

    4.5 习题 232 

    第5章 机器学习 241 

    5.1机器学习概述 241 

    5.1.1 机器学习的概念 241 

    5.1.2 机器学习的历史 242 

    5.1.3 机器学习的发展 243 

    5.2 回归分析 243 

    5.2.1 线性回归介绍 243 

    5.2.2 线性回归相关性 247 

    5.2.3 多项式回归数据拟合 250 

    5.2.4 非线性回归 250 

    5.3 分类算法 251 

    5.3.1 k近邻算法 251 

    5.3.2 决策树算法 253 

    5.3.3 支持向量机算法 255 

    5.3.4 朴素贝叶斯算法 256 

    5.4 聚类算法 259 

    5.4.1 k-means算法 259 

    5.4.2 层次聚类算法 262 

    5.5 深度学习 263 

    5.5.1 人工神经网络 263 

    5.5.2 感知机和深度神经网络 264 

    5.5.3 循环网络 265 

    5.5.4 卷积神经网络 266 

    5.5.5 自编码器 267 

    5.6 机器学习的应用 268 

    5.7 本章小结 270 

    5.8 习题 271 

    第6章 大数据处理 273 

    6.1 Hadoop概述 273 

    6.1.1 Hadoop简介 273 

    6.1.2 Hadoop的特性 274 

    6.1.3 Hadoop的发展 274 

    6.2 Hadoop生态系统 275 

    6.2.1 HDFS 276 

    6.2.2 MapReduce 276 

    6.2.3 HBase 277 

    6.2.4 Hive 277 

    6.2.5 Pig 277 

    6.2.6 Zookeeper 277 

    6.2.7 Mahout 277 

    6.2.8 Sqoop 277 

    6.2.9 Flume 278 

    6.2.10 Ambari 278 

    6.3 Hadoop集群的安装与配置 278 

    6.3.1 操作系统CentOS的安装 279 

    6.3.2 创建Hadoop用户与系统设置 279 

    6.3.3 安装Java 280 

    6.3.4 安装Hadoop 281 

    6.3.5 克隆虚拟机与网络设置 284 

    6.3.6 SSH无密码登录设置 285 

    6.3.7 启停和验证集群 286 

    6.4 分布式文件系统HDFS 288 

    6.4.1 HDFS相关概念 288 

    6.4.2 HDFS体系结构 289 

    6.4.3 HDFS的数据读写过程 290 

    6.4.4 HDFS文件访问与控制 293 

    6.4.5 编程实践:HDFS文件上传、下载与读写 294 

    6.5 MapReduce编程模型 295 

    6.5.1 MapReduce基本原理 295 

    6.5.2 MapReduce的工作机制 297 

    6.5.3 编程实践:统计日志 299 

    6.6 资源管理调度框架YARN 303 

    6.6.1 YARN设计思路 303 

    6.6.2 YARN体系结构 304 

    6.6.3 YARN工作流程 306 

    6.6.4 编程实践:在YARN上运行WordCount程序 307 

    6.7 Spark 310 

    6.7.1 Spark简介 310 

    6.7.2 Spark生态系统 311 

    6.7.3 Spark运行架构 312 

    6.7.4 Spark的部署和应用架构 316 

    6.7.5 Spark集群的安装与配置 317 

    6.7.6 Pyspark安装与配置 321 

    6.7.7 编程实践:统计素数数量 326 

    6.8 本章小结 328 

    6.9 习题 329
  • 内容简介:
    本书根据新工科建设及应用型本科院校人才培养对数据科学与大数据技术教学方面的需求,力求简单易懂,以Python为主线,按照学习者的知识逻辑展开,呈现数据科学与大数据技术的基本知识、基本概念、基本方法。本书内容主要包括:什么是大数据、Python基础知识、数据分析与可视化、数据挖掘、机器学习、大数据处理等。本书可作为普通高等院校计算机、大数据、人工智能等相关学科专业的教材用书。其他理工科专业的同学或有兴趣的广大读者,也可以作为学习数据科学、大数据技术、数据管理及应用等方面基础知识的自学教材或参考用书。
  • 目录:
    第1章 什么是大数据 1 

    1.1 数据、大数据及数据挖掘 1 

    1.1.1 数据 1 

    1.1.2 大数据 2 

    1.1.3 数据挖掘 3 

    1.1.4 数据挖掘的技术基础 4 

    1.2 大数据与统计学 6 

    1.3 机器学习与人工智能 7 

    1.3.1 机器学习与人工智能 7 

    1.3.2 机器学习的定义 8 

    1.4 相关领域应用 9 

    1.4.1 数据挖掘的相关案例 9 

    1.4.2 大数据应用领域 12 

    1.5 小结 15 

    1.6 习题 16 

    第2章 Python基础知识 17 

    2.1 Python概述 17 

    2.1.1 Python简介 17 

    2.1.2 Python的特点 18 

    2.1.3 Python集成开发环境的搭建 19 

    2.2 Python数据类型 22 

    2.2.1 数字 22 

    2.2.2 字符串 27 

    2.2.3 索引与分片 33 

    2.2.4 列表 35 

    2.2.5 元组 41 

    2.2.6 可变与不可变类型 44 

    2.2.7 字典 46 

    2.2.8 集合与不可变集合 50 

    2.3 判断与循环 56 

    2.3.1 判断语句 56 

    2.3.2 循环语句 62 

    2.3.3 一些简单实例 69 

    2.4 函数与模块 72 

    2.4.1. Python函数 72 

    2.4.2 内置函数 77 

    2.4.3 模块 81 

    2.4.4 阶段案例—学生管理系统 86 

    2.5 文件读写 91 

    2.5.1 读文件 91 

    2.5.2 写文件 92 

    2.5.3 中文文件的读写 94 

    2.6 异常与警告 95 

    2.6.1 异常 95 

    2.6.2 警告 103 

    2.7 本章小结 104 

    2.8 习题 105 

    第3章 数据分析与可视化 107 

    3.1 Python数据分析包 107 

    3.1.1 Pandas 107 

    3.1.2 Numpy 108 

    3.1.3 SciPy 108 

    3.1.4 Matplotlib 109 

    3.2 数据准备 110 

    3.2.1 数据类型 110 

    3.2.2 数据结构 110 

    3.2.3 数据导入 119 

    3.2.4 数据导出 122 

    3.3 数据处理 125 

    3.3.1 数据清洗 125 

    3.3.2 数据抽取 130 

    3.3.3 排名索引 141 

    3.3.4 数据合并 145 

    3.3.5 数据计算 150 

    3.3.6 数据分组 151 

    3.3.7 日期处理 153 

    3.4 数据分析 159 

    3.4.1 基本统计 159 

    3.4.2 分组分析 161 

    3.4.3 分布分析 162 

    3.4.4 交叉分析 165 

    3.4.5 结构分析 167 

    3.4.6 相关分析 169 

    3.5 数据可视化 171 

    3.5.1 饼图 171 

    3.5.2 散点图 172 

    3.5.3 折线图 174 

    3.5.4 柱形图 179 

    3.5.5 直方图 182 

    3.6 本章小结 183 

    3.7 习题 184 

    第4章 数据挖掘(SQL/Python) 186 

    4.1 数据挖掘绪论 186 

    4.1.1 数据挖掘定义 186 

    4.1.2 数据挖掘源起 187 

    4.1.3 数据挖掘研究目标 188 

    4.1.4 数据挖掘开源工具 190 

    4.2数据存储 194 

    4.2.1 数据库数据 194 

    4.2.2 数据仓库 195 

    4.2.3 数据仓库建模和实现 197 

    4.2.4 非关系型数据库 201 

    4.2.5 实时流数据与框架 203 

    4.3 数据挖掘技术 204 

    4.3.1 分类与预测 204 

    4.3.2 聚类分析 207 

    4.3.3 关联规则 212 

    4.3.4 离群点检测 215 

    4.3.5 时间序列分析 218 

    4.4 数据挖掘应用 220 

    4.4.1 系统日志和时间挖掘 220 

    4.4.2 社交媒体挖掘 222 

    4.4.3 文本挖掘 225 

    4.4.4 推荐系统 227 

    4.4.5 数据挖掘与智慧城市 228 

    4.5 习题 232 

    第5章 机器学习 241 

    5.1机器学习概述 241 

    5.1.1 机器学习的概念 241 

    5.1.2 机器学习的历史 242 

    5.1.3 机器学习的发展 243 

    5.2 回归分析 243 

    5.2.1 线性回归介绍 243 

    5.2.2 线性回归相关性 247 

    5.2.3 多项式回归数据拟合 250 

    5.2.4 非线性回归 250 

    5.3 分类算法 251 

    5.3.1 k近邻算法 251 

    5.3.2 决策树算法 253 

    5.3.3 支持向量机算法 255 

    5.3.4 朴素贝叶斯算法 256 

    5.4 聚类算法 259 

    5.4.1 k-means算法 259 

    5.4.2 层次聚类算法 262 

    5.5 深度学习 263 

    5.5.1 人工神经网络 263 

    5.5.2 感知机和深度神经网络 264 

    5.5.3 循环网络 265 

    5.5.4 卷积神经网络 266 

    5.5.5 自编码器 267 

    5.6 机器学习的应用 268 

    5.7 本章小结 270 

    5.8 习题 271 

    第6章 大数据处理 273 

    6.1 Hadoop概述 273 

    6.1.1 Hadoop简介 273 

    6.1.2 Hadoop的特性 274 

    6.1.3 Hadoop的发展 274 

    6.2 Hadoop生态系统 275 

    6.2.1 HDFS 276 

    6.2.2 MapReduce 276 

    6.2.3 HBase 277 

    6.2.4 Hive 277 

    6.2.5 Pig 277 

    6.2.6 Zookeeper 277 

    6.2.7 Mahout 277 

    6.2.8 Sqoop 277 

    6.2.9 Flume 278 

    6.2.10 Ambari 278 

    6.3 Hadoop集群的安装与配置 278 

    6.3.1 操作系统CentOS的安装 279 

    6.3.2 创建Hadoop用户与系统设置 279 

    6.3.3 安装Java 280 

    6.3.4 安装Hadoop 281 

    6.3.5 克隆虚拟机与网络设置 284 

    6.3.6 SSH无密码登录设置 285 

    6.3.7 启停和验证集群 286 

    6.4 分布式文件系统HDFS 288 

    6.4.1 HDFS相关概念 288 

    6.4.2 HDFS体系结构 289 

    6.4.3 HDFS的数据读写过程 290 

    6.4.4 HDFS文件访问与控制 293 

    6.4.5 编程实践:HDFS文件上传、下载与读写 294 

    6.5 MapReduce编程模型 295 

    6.5.1 MapReduce基本原理 295 

    6.5.2 MapReduce的工作机制 297 

    6.5.3 编程实践:统计日志 299 

    6.6 资源管理调度框架YARN 303 

    6.6.1 YARN设计思路 303 

    6.6.2 YARN体系结构 304 

    6.6.3 YARN工作流程 306 

    6.6.4 编程实践:在YARN上运行WordCount程序 307 

    6.7 Spark 310 

    6.7.1 Spark简介 310 

    6.7.2 Spark生态系统 311 

    6.7.3 Spark运行架构 312 

    6.7.4 Spark的部署和应用架构 316 

    6.7.5 Spark集群的安装与配置 317 

    6.7.6 Pyspark安装与配置 321 

    6.7.7 编程实践:统计素数数量 326 

    6.8 本章小结 328 

    6.9 习题 329
查看详情
12
相关图书 / 更多
数据科学与大数据技术导论
数据中心经营之道 唐汝林 等
唐汝林 等
数据科学与大数据技术导论
数据管理十讲 袁野 崔斌 李战怀 等
袁野 崔斌 李战怀 等
数据科学与大数据技术导论
数据要素教程
杨东 白银 著
数据科学与大数据技术导论
数据驱动式教学:如何科学、有效、系统地提高学生成绩(深度剖析教学数据,助力教学决策,实时洞察学习动态,精准教学)
(美)罗伯特·J. 马扎诺,菲利普·B. 沃里克,卡梅伦·L. 雷恩斯 ,理查德·杜富尔著,张庆彬译; 中青文 出品
数据科学与大数据技术导论
数据确权的理论基础探索
彭诚信、史晓宇 著
数据科学与大数据技术导论
数据经济学
赵昌文,戎珂
数据科学与大数据技术导论
数据库原理与实践(MySQL版)()
杨俊杰,刘忠艳主编
数据科学与大数据技术导论
数据挖掘竞赛实战:方法与案例
许可乐
数据科学与大数据技术导论
数据要素估值
刘赛红、吕颖毅、王连军
数据科学与大数据技术导论
数据驱动的物流选址与调度模型及其实践
木仁 徐志强
数据科学与大数据技术导论
数据与人工智能驱动型公司:用数据和人工智能升级企业
(西) 理查德·本杰明(Richard Benjamins)
数据科学与大数据技术导论
数据库管理系统原理与实现
杜小勇、陈红、卢卫
您可能感兴趣 / 更多
数据科学与大数据技术导论
TensorFlow应用案例教程
方志军、高永彬、吴晨谋 著
数据科学与大数据技术导论
R语言大数据技术应用实践
方志军 李媛媛 郑洪宾 主编;罗章涛 林民 王小英 丁伟杰 副主编
数据科学与大数据技术导论
计算机导论(第三版)
方志军 著
数据科学与大数据技术导论
现代健身健美教程
方志军、付春明 编
数据科学与大数据技术导论
校园体育:刀术剑术
方志军、田云平 编
数据科学与大数据技术导论
足球
方志军 编
数据科学与大数据技术导论
剑术
方志军 编
数据科学与大数据技术导论
刀术
方志军 编