Python数据分析与大数据处理从入门到精通

Python数据分析与大数据处理从入门到精通
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
出版社: 北京大学出版社
2019-10
版次: 1
ISBN: 9787301307656
定价: 89.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 464页
 •  《Python数据分析与大数据处理从入门到精通》主要讲解数据分析与大数据处理所需的技术、基础设施、核心概念、实施流程。从编程语言准备、数据采集与清洗、数据分析与可视化,到大型数据的分布式存储与分布式计算,贯穿了整个大数据项目开发流程。本书轻理论、重实践,目的是让读者快速上手。1篇首先介绍了Python的基本语法、面向对象开发、模块化设计等,掌握Python的编程方式。然后介绍了多线程、多进程及其相互间的通信,让读者对分布式程序有个基本的认识。第2篇介绍了网络数据采集、数据清洗、数据存储等技术。第3篇介绍了Python常用的数据分析工具,扩展了更多的数据清洗、插值方法,为最终的数据可视化奠定基础。第4篇是大数据分析的重点。首先介绍了Hadoop的框架原理、调度原理,MapReduce原理与编程模型、环境搭建,接着介绍了Spark框架原理、环境搭建方式,以及如何与Hive等第三方工具进行交互,还介绍了新的结构化流式处理技术。第5篇通过三个项目实例,综合介绍了如何分析网页、如何搭建分布式爬虫、如何应对常见的反爬虫、如何设计数据模型、如何设计架构模型、如何在实践中综合运用前四篇涉及的技术。本书既适合非计算机专业的编程“小白”,也适合刚毕业或即将毕业走向工作岗位的广大毕业生,以及已经有编程经验,但想转行做大数据分析的专业人士。同时,还可以作为广大职业院校、电脑培训班的教学参考用书。  朱春旭,高级软件工程师,长期对企业、软件开发公司、政府机构培训大数据开发与应用课程,对Python大数据处理与分析相关应用有深入研究,并编写有《极客内参-大数据开发实战》教程45篇,总共30000+字。 第1篇 Python程序设计 
   第1章 Python入门 3 
  1.1 Python概述 4 
  1.2 搭建Python开发环境 6 
  1.3 Python开发工具介绍 11 
  1.4 Python软件包的管理 13 
  1.5 实训:编写“Hello World” 15 
  本章小结 16 
  第2章 Python基础 17 
  2.1 变量 18 
  2.2 标识符 24 
  2.3 代码组织 26 
  2.4 输入与输出 28 
  2.5 运算符与优先级 30 
  2.6 新手问答 30 
  2.7 实训:设计一个简易计算器 31 
  本章小结 31 
  第3章 数据类型与流程控制 32 
  3.1 数字类型 33 
  3.2 字符串类型 37 
  3.3 集合类型 40 
  3.4 流程控制语句 45 
  3.5 新手问答 47 
  3.6 实训:设计算法,输出乘法表 49 
  本章小结 50 
  第4章 函数、模块、包 51 
  4.1 自定义函数 52 
  4.2 函数参数 55 
  4.3 函数式编程 58 
  4.4 模块与包 63 
  4.5 新手问答 65 
  4.6 实训:设计算法,对列表进行排序 67 
  本章小结 68 
  第5章 面向对象的程序设计 69 
  5.1 面向对象 70 
  5.2 自定义类 71 
  5.3 属性 73 
  5.4 方法 79 
  5.5 类的继承 83 
  5.6 可调用对象 86 
  5.7 不可变对象 87 
  5.8 新手问答 88 
  5.9 实训:设计算法,构造一棵二叉树 90 
  本章小结 92 
  第6章 高级主题 93 
  6.1 生成器 94 
  6.2 迭代器 96 
  6.3 异步处理 97 
  6.4 错误、调试 103 
  6.5 新手问答 108 
  6.6 实训:使用多进程技术统计数据并汇总 109 
  本章小结 110 
  第2篇 数据采集与数据清洗 
  第7章 网络数据采集 113 
  7.1 HTTP请求概述 114 
  7.2 XPath网页解析 114 
  7.3 Scrapy数据采集入门 119 
  7.4 Scrapy应对反爬虫程序 126 
  7.5 CrawlSpider类 131 
  7.6 分布式爬虫 132 
  7.7 新手问答 136 
  7.8 实训:构建百度云音乐爬虫 136 
  本章小结 139 
  第8章 数据清洗 140 
  8.1 数据清洗的意义 141 
  8.2 数据清洗的内容 141 
  8.3 数据格式与存储类型 142 
  8.4 数据清洗的步骤 145 
  8.5 数据清洗的工具 147 
  8.6 新手问答 151 
  8.7 实训:清洗百度云音乐数据并储存到CSV  151 
  本章小结 152 
  第3篇 数据分析与可视化 
  第9章 NumPy数值计算 155 
  9.1 NumPy基础 156 
  9.2 形状操作 164 
  9.3 副本、浅拷贝和深拷贝 166 
  9.4 高级索引 168 
  9.5 排序统计 171 
  9.6 新手问答 173 
  9.7 实训:销售额统计  174 
  本章小结 175 
  第10章 Matplotlib可视化 176 
  10.1 图形的基本要素 177 
  10.2 绘图基础 177 
  10.3 设置样式 186 
  10.4 图形样例 189 
  10.5 新手问答 198 
  10.6 实训:营业数据可视化 199 
  本章小结 201 
  第11章 Pandas统计分析 202 
  11.1 Pandas数据结构 203 
  11.2 基础功能 210 
  11.3 统计分析 217 
  11.4 时间数据 229 
  11.5 数据整理 231 
  11.6 高级功能 234 
  11.7 读写MySQL数据库 236 
  11.8 新手问答 237 
  11.9 实训:成绩分析 237 
  本章小结 239 
  第12章 Seaborn可视化 240 
  12.1 Seaborn概述 241 
  12.2 可视化数据关系 242 
  12.3 根据数据分类绘图 246 
  12.4 单变量与双变量 251 
  12.5 线性关系 256 
  12.6 新手问答 258 
  12.7 实训:成绩分析可视化 258 
  本章小结 260 
  第4篇 大数据存储与快速分析篇 
  第13章 Hadoop数据存储与基本操作 263 
  13.1 Hadoop概述 264 
  13.2 Hadoop数据存储与任务调度原理 268 
  13.3 Hadoop基础环境搭建 273 
  13.4 Hadoop部署模式 294 
  13.5 Hadoop常用操作命令 298 
  13.6 新手问答 300 
  13.7 实训:动手搭建Hadoop集群环境 301 
  本章小结 309 
  第14章 Spark入门 310 
  14.1 Spark概述 311 
  14.2 Spark核心原理 312 
  14.3 Spark基础环境搭建 315 
  14.4 Spark运行模式 317 
  14.5 新手问答 321 
  14.6 实训:动手搭建Spark集群 322 
  本章小结 323 
  第15章 Spark RDD编程 324 
  15.1 RDD设计原理 325 
  15.2 RDD编程 328 
  15.3 键值对RDD 335 
  15.4 文件读写 340 
  15.5 编程进阶 342 
  15.6 新手问答 347 
  15.7 实训:统计海鲜销售情况 348 
  本章小结 350 
  第16章 Spark SQL编程 351 
  16.1 Spark SQL概述 352 
  16.2 创建DataFrame对象 360 
  16.3 DataFrame常用API 364 
  16.4 保存DataFrame 370 
  16.5 新手问答 372 
  16.6 实训:统计手机销售情况 373 
  本章小结 375 
  第17章 Spark流式计算编程 376 
  17.1 流计算简介 377 
  17.2 Discretized Stream 379 
  17.3 Structured Streaming 385 
  17.4 新手问答 397 
  17.5 实训:实时统计贷款金额 397 
  本章小结 398 
  第5篇 项目实战篇 
  第18章 分析电商网站销售数据 401 
  18.1 目标分析 402 
  18.2 数据采集 405 
  18.3 数据分析 411 
  本章小结 416 
  第19章 分析旅游网站数据 417 
  19.1 目标分析 418 
  19.2 数据采集 420 
  19.3 数据分析 425 
  本章小结 429 
  第20章 分析在售二手房数据 430 
  20.1 目标分析 431 
  20.2 数据采集 434 
  20.3 数据分析 440 
  本章小结 446 
  附录:Python常见面试题精选 447 
  主要参考文献 450
 • 内容简介:
   《Python数据分析与大数据处理从入门到精通》主要讲解数据分析与大数据处理所需的技术、基础设施、核心概念、实施流程。从编程语言准备、数据采集与清洗、数据分析与可视化,到大型数据的分布式存储与分布式计算,贯穿了整个大数据项目开发流程。本书轻理论、重实践,目的是让读者快速上手。1篇首先介绍了Python的基本语法、面向对象开发、模块化设计等,掌握Python的编程方式。然后介绍了多线程、多进程及其相互间的通信,让读者对分布式程序有个基本的认识。第2篇介绍了网络数据采集、数据清洗、数据存储等技术。第3篇介绍了Python常用的数据分析工具,扩展了更多的数据清洗、插值方法,为最终的数据可视化奠定基础。第4篇是大数据分析的重点。首先介绍了Hadoop的框架原理、调度原理,MapReduce原理与编程模型、环境搭建,接着介绍了Spark框架原理、环境搭建方式,以及如何与Hive等第三方工具进行交互,还介绍了新的结构化流式处理技术。第5篇通过三个项目实例,综合介绍了如何分析网页、如何搭建分布式爬虫、如何应对常见的反爬虫、如何设计数据模型、如何设计架构模型、如何在实践中综合运用前四篇涉及的技术。本书既适合非计算机专业的编程“小白”,也适合刚毕业或即将毕业走向工作岗位的广大毕业生,以及已经有编程经验,但想转行做大数据分析的专业人士。同时,还可以作为广大职业院校、电脑培训班的教学参考用书。
 • 作者简介:
   朱春旭,高级软件工程师,长期对企业、软件开发公司、政府机构培训大数据开发与应用课程,对Python大数据处理与分析相关应用有深入研究,并编写有《极客内参-大数据开发实战》教程45篇,总共30000+字。
 • 目录:
  第1篇 Python程序设计 
   第1章 Python入门 3 
  1.1 Python概述 4 
  1.2 搭建Python开发环境 6 
  1.3 Python开发工具介绍 11 
  1.4 Python软件包的管理 13 
  1.5 实训:编写“Hello World” 15 
  本章小结 16 
  第2章 Python基础 17 
  2.1 变量 18 
  2.2 标识符 24 
  2.3 代码组织 26 
  2.4 输入与输出 28 
  2.5 运算符与优先级 30 
  2.6 新手问答 30 
  2.7 实训:设计一个简易计算器 31 
  本章小结 31 
  第3章 数据类型与流程控制 32 
  3.1 数字类型 33 
  3.2 字符串类型 37 
  3.3 集合类型 40 
  3.4 流程控制语句 45 
  3.5 新手问答 47 
  3.6 实训:设计算法,输出乘法表 49 
  本章小结 50 
  第4章 函数、模块、包 51 
  4.1 自定义函数 52 
  4.2 函数参数 55 
  4.3 函数式编程 58 
  4.4 模块与包 63 
  4.5 新手问答 65 
  4.6 实训:设计算法,对列表进行排序 67 
  本章小结 68 
  第5章 面向对象的程序设计 69 
  5.1 面向对象 70 
  5.2 自定义类 71 
  5.3 属性 73 
  5.4 方法 79 
  5.5 类的继承 83 
  5.6 可调用对象 86 
  5.7 不可变对象 87 
  5.8 新手问答 88 
  5.9 实训:设计算法,构造一棵二叉树 90 
  本章小结 92 
  第6章 高级主题 93 
  6.1 生成器 94 
  6.2 迭代器 96 
  6.3 异步处理 97 
  6.4 错误、调试 103 
  6.5 新手问答 108 
  6.6 实训:使用多进程技术统计数据并汇总 109 
  本章小结 110 
  第2篇 数据采集与数据清洗 
  第7章 网络数据采集 113 
  7.1 HTTP请求概述 114 
  7.2 XPath网页解析 114 
  7.3 Scrapy数据采集入门 119 
  7.4 Scrapy应对反爬虫程序 126 
  7.5 CrawlSpider类 131 
  7.6 分布式爬虫 132 
  7.7 新手问答 136 
  7.8 实训:构建百度云音乐爬虫 136 
  本章小结 139 
  第8章 数据清洗 140 
  8.1 数据清洗的意义 141 
  8.2 数据清洗的内容 141 
  8.3 数据格式与存储类型 142 
  8.4 数据清洗的步骤 145 
  8.5 数据清洗的工具 147 
  8.6 新手问答 151 
  8.7 实训:清洗百度云音乐数据并储存到CSV  151 
  本章小结 152 
  第3篇 数据分析与可视化 
  第9章 NumPy数值计算 155 
  9.1 NumPy基础 156 
  9.2 形状操作 164 
  9.3 副本、浅拷贝和深拷贝 166 
  9.4 高级索引 168 
  9.5 排序统计 171 
  9.6 新手问答 173 
  9.7 实训:销售额统计  174 
  本章小结 175 
  第10章 Matplotlib可视化 176 
  10.1 图形的基本要素 177 
  10.2 绘图基础 177 
  10.3 设置样式 186 
  10.4 图形样例 189 
  10.5 新手问答 198 
  10.6 实训:营业数据可视化 199 
  本章小结 201 
  第11章 Pandas统计分析 202 
  11.1 Pandas数据结构 203 
  11.2 基础功能 210 
  11.3 统计分析 217 
  11.4 时间数据 229 
  11.5 数据整理 231 
  11.6 高级功能 234 
  11.7 读写MySQL数据库 236 
  11.8 新手问答 237 
  11.9 实训:成绩分析 237 
  本章小结 239 
  第12章 Seaborn可视化 240 
  12.1 Seaborn概述 241 
  12.2 可视化数据关系 242 
  12.3 根据数据分类绘图 246 
  12.4 单变量与双变量 251 
  12.5 线性关系 256 
  12.6 新手问答 258 
  12.7 实训:成绩分析可视化 258 
  本章小结 260 
  第4篇 大数据存储与快速分析篇 
  第13章 Hadoop数据存储与基本操作 263 
  13.1 Hadoop概述 264 
  13.2 Hadoop数据存储与任务调度原理 268 
  13.3 Hadoop基础环境搭建 273 
  13.4 Hadoop部署模式 294 
  13.5 Hadoop常用操作命令 298 
  13.6 新手问答 300 
  13.7 实训:动手搭建Hadoop集群环境 301 
  本章小结 309 
  第14章 Spark入门 310 
  14.1 Spark概述 311 
  14.2 Spark核心原理 312 
  14.3 Spark基础环境搭建 315 
  14.4 Spark运行模式 317 
  14.5 新手问答 321 
  14.6 实训:动手搭建Spark集群 322 
  本章小结 323 
  第15章 Spark RDD编程 324 
  15.1 RDD设计原理 325 
  15.2 RDD编程 328 
  15.3 键值对RDD 335 
  15.4 文件读写 340 
  15.5 编程进阶 342 
  15.6 新手问答 347 
  15.7 实训:统计海鲜销售情况 348 
  本章小结 350 
  第16章 Spark SQL编程 351 
  16.1 Spark SQL概述 352 
  16.2 创建DataFrame对象 360 
  16.3 DataFrame常用API 364 
  16.4 保存DataFrame 370 
  16.5 新手问答 372 
  16.6 实训:统计手机销售情况 373 
  本章小结 375 
  第17章 Spark流式计算编程 376 
  17.1 流计算简介 377 
  17.2 Discretized Stream 379 
  17.3 Structured Streaming 385 
  17.4 新手问答 397 
  17.5 实训:实时统计贷款金额 397 
  本章小结 398 
  第5篇 项目实战篇 
  第18章 分析电商网站销售数据 401 
  18.1 目标分析 402 
  18.2 数据采集 405 
  18.3 数据分析 411 
  本章小结 416 
  第19章 分析旅游网站数据 417 
  19.1 目标分析 418 
  19.2 数据采集 420 
  19.3 数据分析 425 
  本章小结 429 
  第20章 分析在售二手房数据 430 
  20.1 目标分析 431 
  20.2 数据采集 434 
  20.3 数据分析 440 
  本章小结 446 
  附录:Python常见面试题精选 447 
  主要参考文献 450
查看详情
12
好书推荐 / 更多
Python数据分析与大数据处理从入门到精通
大合流:信息技术和新全球化
理查德·鲍德温 著;李志远 刘晓捷 罗长远 译
Python数据分析与大数据处理从入门到精通
日本经济奇迹的终结(日本经济类经典著作,复盘日本经济发展路径,思索中国经济发展走向)
[日]都留重人 著;李雯雯 译;于杰 校译
Python数据分析与大数据处理从入门到精通
李鸿章·袁世凯
[日]冈本隆司 著
Python数据分析与大数据处理从入门到精通
龙猫的家(宫崎骏首度讲述创作的原点、灵感的源头!吉卜力审定认证全书印刷装帧!)
[日]宫崎骏 著;新经典 出品
Python数据分析与大数据处理从入门到精通
萨缪尔森自述
[美]保罗·A.萨缪尔森 著;吕吉尔 译;赖建诚 校
Python数据分析与大数据处理从入门到精通
陆上行舟——一个中国记者的拉美毒品调查(央视记者刘骁骞用一段段生死旅途汇成深度调查实战手册。)
刘骁骞
Python数据分析与大数据处理从入门到精通
大地上的居所
[智利]巴勃罗·聂鲁达 著;新经典 出品
Python数据分析与大数据处理从入门到精通
果麦经典:王尔德奇异故事集
鲁冬旭 译者;果麦文化 出品;[英]奥斯卡·王尔德
Python数据分析与大数据处理从入门到精通
在别处
袁凌
Python数据分析与大数据处理从入门到精通
阅读过去:考古学阐释的当代取向
[英]伊恩·霍德、[美]斯科特·赫特森 著;徐坚 译
Python数据分析与大数据处理从入门到精通
她世界 一部独特的女性心灵成长图鉴
[法]伊丽莎白·卡多赫 (法)安娜·德·蒙塔尔洛
Python数据分析与大数据处理从入门到精通
险路漫漫:早期美洲征服史
[美]托尼·霍维茨 著;巢骏至、丁宇岚 译