用Python写网络爬虫 第2版

用Python写网络爬虫 第2版
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [德] (Katharine Jarmul) , [澳]
2018-08
版次: 1
ISBN: 9787115479679
定价: 49.00
装帧: 其他
开本: 16开
纸张: 胶版纸
99人买过
  • 《用Python写网络爬虫(第 2版》讲解了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介,从页面中抓取数据的3种方法,提取缓存中的数据,使用多个线程和进程进行并发抓取,抓取动态页面中的内容,与表单进行交互,处理页面中的验证码问题,以及使用Scarpy和Portia进行数据抓取,并在*后介绍了使用本书讲解的数据抓取技术对几个真实的网站进行抓取的实例,旨在帮助读者活学活用书中介绍的技术。
      《用Python写网络爬虫(第 2版》适合有一定Python编程经验而且对爬虫技术感兴趣的读者阅读。 Katharine Jarmul是德国柏林的一位数据科学家和Python支持者。她经营了一家数据科学咨询公司——Kjamistan,为不同规模的企业提供诸如数据抽取、采集以及建模的服务。她从2008年开始使用Python进行编程,从2010年开始使用Python抓取网站,并且在使用网络爬虫进行数据分析和机器学习的不同规模的初创企业中工作过。读者可以通过Twitter(@kjam)关注她的想法以及动态。

    Richard Lawson来自澳大利亚,毕业于墨尔本大学计算机科学专业。毕业后,他创办了一家专注于网络爬虫的公司,为超过50个国家的业务提供远程工作。他精通世界语,可以使用汉语和韩语对话,并且积极投身于开源软件事业。他目前正在牛津大学攻读研究生学位,并利用业余时间研发自主无人机。

    译者介绍

    李斌,毕业于北京科技大学计算机科学与技术专业,获得硕士学位。曾任职于阿里巴巴,当前供职于凡普金科,负责应用安全工作。热爱Python编程和Web安全,希望以更加智能和自动化的方式提升网络安全。博客地址为pythoner.com。 第 1章 网络爬虫简介1

    1.1 网络爬虫何时有用 1

    1.2 网络爬虫是否合法 2

    1.3 Python 3 3

    1.4 背景调研 4

    1.4.1 检查robots.txt 4

    1.4.2 检查网站地图 5

    1.4.3 估算网站大小 6

    1.4.4 识别网站所用技术 7

    1.4.5 寻找网站所有者 9

    1.5 编写第 一个网络爬虫 11

    1.5.1 抓取与爬取的对比 11

    1.5.2 下载网页 12

    1.5.3 网站地图爬虫 15

    1.5.4 ID遍历爬虫 17

    1.5.5 链接爬虫 19

    1.5.6 使用requests库 28

    1.6 本章小结 30

    第 2章 数据抓取 31

    2.1 分析网页 32

    2.2 3种网页抓取方法 34

    2.2.1 正则表达式 35

    2.2.2 Beautiful Soup 37

    2.2.3 Lxml 39

    2.3 CSS选择器和浏览器控制台 41

    2.4 XPath选择器 43

    2.5 LXML和家族树 46

    2.6 性能对比 47

    2.7 抓取结果 49

    2.7.1 抓取总结 50

    2.7.2 为链接爬虫添加抓取回调 51

    2.8 本章小结 55

    第3章 下载缓存 56

    3.1 何时使用缓存 57

    3.2 为链接爬虫添加缓存支持 57

    3.3 磁盘缓存 60

    3.3.1 实现磁盘缓存 62

    3.3.2 缓存测试 64

    3.3.3 节省磁盘空间 65

    3.3.4 清理过期数据 66

    3.3.5 磁盘缓存缺点 68

    3.4 键值对存储缓存 69

    3.4.1 键值对存储是什么 69

    3.4.2 安装Redis 70

    3.4.3 Redis概述 71

    3.4.4 Redis缓存实现 72

    3.4.5 压缩 74

    3.4.6 测试缓存 75

    3.4.7 探索requests-cache 76

    3.5 本章小结 78

    第4章 并发下载 79

    4.1 100万个网页 79

    4.2 串行爬虫 82

    4.3 多线程爬虫 83

    4.4 线程和进程如何工作 83

    4.4.1 实现多线程爬虫 84

    4.4.2 多进程爬虫 87

    4.5 性能 91

    4.6 本章小结 94

    第5章 动态内容 95

    5.1 动态网页示例 95

    5.2 对动态网页进行逆向工程 98

    5.3 渲染动态网页 104

    5.3.1 PyQt还是PySide 105

    5.3.2 执行JavaScript 106

    5.3.3 使用WebKit与网站交互 108

    5.4 渲染类 111

    5.5 本章小结 117

    第6章 表单交互 119

    6.1 登录表单 120

    6.2 支持内容更新的登录脚本扩展 128

    6.3 使用Selenium实现自动化表单处理 132

    6.4 本章小结 135

    第7章 验证码处理 136

    7.1 注册账号 137

    7.2 光学字符识别 140

    7.3 处理复杂验证码 144

    7.4 使用验证码处理服务 144

    7.4.1 9kw入门 145

    7.4.2 报告错误 150

    7.4.3 与注册功能集成 151

    7.5 验证码与机器学习 153

    7.6 本章小结 153

    第8章 Scrapy 154

    8.1 安装Scrapy 154

    8.2 启动项目 155

    8.2.1 定义模型 156

    8.2.2 创建爬虫 157

    8.3 不同的爬虫类型 162

    8.4 使用shell命令抓取 163

    8.4.1 检查结果 165

    8.4.2 中断与恢复爬虫 167

    8.5 使用Portia编写可视化爬虫 170

    8.5.1 安装 170

    8.5.2 标注 172

    8.5.3 运行爬虫 176

    8.5.4 检查结果 176

    8.6 使用Scrapely实现自动化抓取 177

    8.7 本章小结 178

    第9章 综合应用 179

    9.1 Google搜索引擎 179

    9.2 Facebook 184

    9.2.1 网站 184

    9.2.2 Facebook API 186

    9.3 Gap 188

    9.4 宝马 192

    9.5 本章小结 196
  • 内容简介:
    《用Python写网络爬虫(第 2版》讲解了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介,从页面中抓取数据的3种方法,提取缓存中的数据,使用多个线程和进程进行并发抓取,抓取动态页面中的内容,与表单进行交互,处理页面中的验证码问题,以及使用Scarpy和Portia进行数据抓取,并在*后介绍了使用本书讲解的数据抓取技术对几个真实的网站进行抓取的实例,旨在帮助读者活学活用书中介绍的技术。
      《用Python写网络爬虫(第 2版》适合有一定Python编程经验而且对爬虫技术感兴趣的读者阅读。
  • 作者简介:
    Katharine Jarmul是德国柏林的一位数据科学家和Python支持者。她经营了一家数据科学咨询公司——Kjamistan,为不同规模的企业提供诸如数据抽取、采集以及建模的服务。她从2008年开始使用Python进行编程,从2010年开始使用Python抓取网站,并且在使用网络爬虫进行数据分析和机器学习的不同规模的初创企业中工作过。读者可以通过Twitter(@kjam)关注她的想法以及动态。

    Richard Lawson来自澳大利亚,毕业于墨尔本大学计算机科学专业。毕业后,他创办了一家专注于网络爬虫的公司,为超过50个国家的业务提供远程工作。他精通世界语,可以使用汉语和韩语对话,并且积极投身于开源软件事业。他目前正在牛津大学攻读研究生学位,并利用业余时间研发自主无人机。

    译者介绍

    李斌,毕业于北京科技大学计算机科学与技术专业,获得硕士学位。曾任职于阿里巴巴,当前供职于凡普金科,负责应用安全工作。热爱Python编程和Web安全,希望以更加智能和自动化的方式提升网络安全。博客地址为pythoner.com。
  • 目录:
    第 1章 网络爬虫简介1

    1.1 网络爬虫何时有用 1

    1.2 网络爬虫是否合法 2

    1.3 Python 3 3

    1.4 背景调研 4

    1.4.1 检查robots.txt 4

    1.4.2 检查网站地图 5

    1.4.3 估算网站大小 6

    1.4.4 识别网站所用技术 7

    1.4.5 寻找网站所有者 9

    1.5 编写第 一个网络爬虫 11

    1.5.1 抓取与爬取的对比 11

    1.5.2 下载网页 12

    1.5.3 网站地图爬虫 15

    1.5.4 ID遍历爬虫 17

    1.5.5 链接爬虫 19

    1.5.6 使用requests库 28

    1.6 本章小结 30

    第 2章 数据抓取 31

    2.1 分析网页 32

    2.2 3种网页抓取方法 34

    2.2.1 正则表达式 35

    2.2.2 Beautiful Soup 37

    2.2.3 Lxml 39

    2.3 CSS选择器和浏览器控制台 41

    2.4 XPath选择器 43

    2.5 LXML和家族树 46

    2.6 性能对比 47

    2.7 抓取结果 49

    2.7.1 抓取总结 50

    2.7.2 为链接爬虫添加抓取回调 51

    2.8 本章小结 55

    第3章 下载缓存 56

    3.1 何时使用缓存 57

    3.2 为链接爬虫添加缓存支持 57

    3.3 磁盘缓存 60

    3.3.1 实现磁盘缓存 62

    3.3.2 缓存测试 64

    3.3.3 节省磁盘空间 65

    3.3.4 清理过期数据 66

    3.3.5 磁盘缓存缺点 68

    3.4 键值对存储缓存 69

    3.4.1 键值对存储是什么 69

    3.4.2 安装Redis 70

    3.4.3 Redis概述 71

    3.4.4 Redis缓存实现 72

    3.4.5 压缩 74

    3.4.6 测试缓存 75

    3.4.7 探索requests-cache 76

    3.5 本章小结 78

    第4章 并发下载 79

    4.1 100万个网页 79

    4.2 串行爬虫 82

    4.3 多线程爬虫 83

    4.4 线程和进程如何工作 83

    4.4.1 实现多线程爬虫 84

    4.4.2 多进程爬虫 87

    4.5 性能 91

    4.6 本章小结 94

    第5章 动态内容 95

    5.1 动态网页示例 95

    5.2 对动态网页进行逆向工程 98

    5.3 渲染动态网页 104

    5.3.1 PyQt还是PySide 105

    5.3.2 执行JavaScript 106

    5.3.3 使用WebKit与网站交互 108

    5.4 渲染类 111

    5.5 本章小结 117

    第6章 表单交互 119

    6.1 登录表单 120

    6.2 支持内容更新的登录脚本扩展 128

    6.3 使用Selenium实现自动化表单处理 132

    6.4 本章小结 135

    第7章 验证码处理 136

    7.1 注册账号 137

    7.2 光学字符识别 140

    7.3 处理复杂验证码 144

    7.4 使用验证码处理服务 144

    7.4.1 9kw入门 145

    7.4.2 报告错误 150

    7.4.3 与注册功能集成 151

    7.5 验证码与机器学习 153

    7.6 本章小结 153

    第8章 Scrapy 154

    8.1 安装Scrapy 154

    8.2 启动项目 155

    8.2.1 定义模型 156

    8.2.2 创建爬虫 157

    8.3 不同的爬虫类型 162

    8.4 使用shell命令抓取 163

    8.4.1 检查结果 165

    8.4.2 中断与恢复爬虫 167

    8.5 使用Portia编写可视化爬虫 170

    8.5.1 安装 170

    8.5.2 标注 172

    8.5.3 运行爬虫 176

    8.5.4 检查结果 176

    8.6 使用Scrapely实现自动化抓取 177

    8.7 本章小结 178

    第9章 综合应用 179

    9.1 Google搜索引擎 179

    9.2 Facebook 184

    9.2.1 网站 184

    9.2.2 Facebook API 186

    9.3 Gap 188

    9.4 宝马 192

    9.5 本章小结 196
查看详情
相关图书 / 更多
用Python写网络爬虫 第2版
用Python编程和实践!深度学习教科书
[日]石川聪彦 著;陈欢 译
用Python写网络爬虫 第2版
用Python高效操作Excel很简单
张善春 著;颉腾文化 出品
用Python写网络爬虫 第2版
用Python动手学机器学习
[日]伊藤真
用Python写网络爬虫 第2版
用Python动手学强化学习(全彩印刷)
[日]久保隆宏 著;梁垿、程引 译
用Python写网络爬虫 第2版
用Python学数学
[美]彼得·法雷尔(Peter Farrell)
用Python写网络爬虫 第2版
用Python编程和实践!数学教科书
[日]我妻 幸长 著
用Python写网络爬虫 第2版
用Python轻松处理Excel数据
阳光灿烂
用Python写网络爬虫 第2版
用Python编程和实践!算法入门
增井 敏克(日)
用Python写网络爬虫 第2版
用Python轻松设计控制系统
[日]南裕树(Yuki Minami) 著;施佳贤 译
用Python写网络爬虫 第2版
用Python动手学统计学
[日]马场真哉
用Python写网络爬虫 第2版
用Python让办公快速实现自动化
王红明
用Python写网络爬虫 第2版
用Python编程和实践!区块链教科书
[日]FLOC 著
您可能感兴趣 / 更多
用Python写网络爬虫 第2版
MBTI:潜能开发和人性攻略
[德]斯蒂芬妮·斯塔尔 著;磨铁文化 出品
用Python写网络爬虫 第2版
叙事本能:大脑为什么爱编故事
[德]维尔纳·西费尔/著 李寒笑 译
用Python写网络爬虫 第2版
英国文学的命运共同体表征与审美研究 文献卷:文学中的共同体——文学-政治介入的现实性
[德]玛戈·布林克;[德]西尔维亚·普里奇
用Python写网络爬虫 第2版
后英雄时代:一幅时代画卷 德国弗莱堡大学社会学教授乌尔里希 布吕克林力作呈现
[德]乌尔里希·布吕克林(Ulrich Br.ckling) 著;张文奕 译
用Python写网络爬虫 第2版
韩国流行音乐(西方韩国研究丛书)
[德]迈克尔·富尔(MichaelFuhr) 著;王丹丹 译
用Python写网络爬虫 第2版
吹牛大王历险记 彩图注音版 一二三四年级5-6-7-8-9岁小学生课外阅读经典 儿童文学无障碍有声伴读世界名著童话故事
[德]埃·拉斯伯;[德]戈·毕尔格
用Python写网络爬虫 第2版
法学中的体系思维与体系概念:以德国私法为例(第2版)法律人进阶译丛 经典阅读系列
[德]克劳斯-威廉·卡纳里斯(Claus-Wilhelm Canaris) 著;陈大创 译
用Python写网络爬虫 第2版
为什么只见树木不见森林:从简单现象到复杂系统
[德]迪尔克·布罗克曼(Dirk Brockmann) 著
用Python写网络爬虫 第2版
悉达多(诺贝尔文学奖得主赫尔曼·黑塞的代表作,一部关于人生信仰的救赎之作)
[德]赫尔曼·黑塞 著;周苇 译
用Python写网络爬虫 第2版
在轮下(诺奖得主黑塞自传性作品,写给每一个不甘被世俗牵绊的年轻人)
[德]赫尔曼·黑塞 著;王秀莉 译
用Python写网络爬虫 第2版
德米安:彷徨少年时《黑暗荣耀》推荐, 诺贝尔文学奖得主黑塞代表作
[德]赫尔曼·黑塞 著;周苇 译
用Python写网络爬虫 第2版
荒原狼(诺贝尔文学奖得主黑塞代表作,一剂反击命运的良方,治愈一个社恐内心的焦虑)
[德]赫尔曼·黑塞 著;周苇 译