未读消息消息

购物车

我的订单

个人中心

店铺

我的订单收藏

拍卖

拍卖交易我的竞拍收藏

我的好友资金账户

卖家中心

客服 |

帮助中心 9:00-20:30 在线留言

客服电话

010-89648155

服务时间

客服咨询 8:00-21:00

纠纷处理 9:00-21:00

图书审核 9:00-18:00

监督与建议

请选择

手机孔网

用Python写网络爬虫

作者: [澳] 理查德·劳森（Richard Lawson）著 , 李斌译

出版社: 人民邮电出版社

出版时间: 2016-08

版次: 1

ISBN: 9787115431790

定价: 45.00

装帧: 平装

开本: 16开

纸张: 胶版纸

页数: 157页

正文语种: 简体中文

原版书名: web scraping with python

分类: 计算机与互联网

378人买过

《用Python写网络爬虫》讲解了如何使用Python来编写网络爬虫程序，内容包括网络爬虫简介，从页面中抓取数据的三种方法，提取缓存中的数据，使用多个线程和进程来进行并发抓取，如何抓取动态页面中的内容，与表单进行交互，处理页面中的验证码问题，以及使用Scarpy和Portia来进行数据抓取，使用本书介绍的数据抓取技术对几个真实的网站进行了抓取，旨在帮助读者活学活用书中介绍的技术。
《用Python写网络爬虫》适合有一定Python编程经验，而且对爬虫技术感兴趣的读者阅读。 RichardLawson来自澳大利亚，毕业于墨尔本大学计算机科学专业。毕业后，他创办了一家专注于网络爬虫的公司，为超过50个国家的业务提供远程工作。他精通于世界语，可以使用汉语和韩语对话，并且积极投身于开源软件。他目前在牛津大学攻读研究生学位，并利用业余时间研发自主无人机。第1章网络爬虫简介 1
1．1　网络爬虫何时有用　1
1．2　网络爬虫是否合法　2
1．3　背景调研　3
1．3．1　检查robots．txt　3
1．3．2　检查网站地图　4
1．3．3　估算网站大小　5
1．3．4　识别网站所用技术　7
1．3．5　寻找网站所有者　7
1．4　编写第一个网络爬虫　8
1．4．1　下载网页　9
1．4．2　网站地图爬虫　12
1．4．3　ID遍历爬虫　13
1．4．4　链接爬虫　15
1．5　本章小结　22

第2章　数据抓取　23
2．1　分析网页　23
2．2　三种网页抓取方法　26
2．2．1　正则表达式　26
2．2．2　BeautifulSoup　28
2．2．3　Lxml　30
2．2．4　性能对比　32
2．2．5　结论　35
2．2．6　为链接爬虫添加抓取回调　35
2．3　本章小结　38

第3章　下载缓存　39
3．1　为链接爬虫添加缓存支持　39
3．2　磁盘缓存　42
3．2．1　实现　44
3．2．2　缓存测试　46
3．2．3　节省磁盘空间　46
3．2．4　清理过期数据　47
3．2．5　缺点　48
3．3　数据库缓存　49
3．3．1　NoSQL是什么　50
3．3．2　安装MongoDB　50
3．3．3　MongoDB概述　50
3．3．4　MongoDB缓存实现　52
3．3．5　压缩　54
3．3．6　缓存测试　54
3．4　本章小结　55

第4章　并发下载　57
4．1　100万个网页　57
4．2　串行爬虫　60
4．3　多线程爬虫　60
4．3．1　线程和进程如何工作　61
4．3．2　实现　61
4．3．3　多进程爬虫　63
4．4　性能　67
4．5　本章小结　68

第5章　动态内容　69
5．1　动态网页示例　69
5．2　对动态网页进行逆向工程　72
5．3　渲染动态网页　77
5．3．1　PyQt还是PySide　78
5．3．2　执行JavaScript　78
5．3．3　使用WebKit与网站交互　80
5．3．4　Selenium　85
5．4　本章小结　88

第6章　表单交互　89
6．1　登录表单　90
6．2　支持内容更新的登录脚本扩展　97
6．3　使用Mechanize模块实现自动化表单处理　100
6．4　本章小结　102

第7章　验证码处理　103
7．1　注册账号　103
7．2　光学字符识别　106
7．3　处理复杂验证码　111
7．3．1　使用验证码处理服务　112
7．3．2　9kw入门　112
7．3．3　与注册功能集成　119
7．4　本章小结　120

第8章　Scrapy　121
8．1　安装　121
8．2　启动项目　122
8．2．1　定义模型　123
8．2．2　创建爬虫　124
8．2．3　使用shell命令抓取　128
8．2．4　检查结果　129
8．2．5　中断与恢复爬虫　132
8．3　使用Portia编写可视化爬虫　133
8．3．1　安装　133
8．3．2　标注　136
8．3．3　优化爬虫　138
8．3．4　检查结果　140
8．4　使用Scrapely实现自动化抓取　141
8．5　本章小结　142

第9章　总结　143
9．1　Google搜索引擎　143
9．2　Facebook　148
9．2．1　网站　148
9．2．2　API　150
9．3　Gap　151
9．4　宝马　153
9．5　本章小结　157
内容简介:
《用Python写网络爬虫》讲解了如何使用Python来编写网络爬虫程序，内容包括网络爬虫简介，从页面中抓取数据的三种方法，提取缓存中的数据，使用多个线程和进程来进行并发抓取，如何抓取动态页面中的内容，与表单进行交互，处理页面中的验证码问题，以及使用Scarpy和Portia来进行数据抓取，使用本书介绍的数据抓取技术对几个真实的网站进行了抓取，旨在帮助读者活学活用书中介绍的技术。
《用Python写网络爬虫》适合有一定Python编程经验，而且对爬虫技术感兴趣的读者阅读。
作者简介:
RichardLawson来自澳大利亚，毕业于墨尔本大学计算机科学专业。毕业后，他创办了一家专注于网络爬虫的公司，为超过50个国家的业务提供远程工作。他精通于世界语，可以使用汉语和韩语对话，并且积极投身于开源软件。他目前在牛津大学攻读研究生学位，并利用业余时间研发自主无人机。
目录:
第1章网络爬虫简介 1
1．1　网络爬虫何时有用　1
1．2　网络爬虫是否合法　2
1．3　背景调研　3
1．3．1　检查robots．txt　3
1．3．2　检查网站地图　4
1．3．3　估算网站大小　5
1．3．4　识别网站所用技术　7
1．3．5　寻找网站所有者　7
1．4　编写第一个网络爬虫　8
1．4．1　下载网页　9
1．4．2　网站地图爬虫　12
1．4．3　ID遍历爬虫　13
1．4．4　链接爬虫　15
1．5　本章小结　22

第2章　数据抓取　23
2．1　分析网页　23
2．2　三种网页抓取方法　26
2．2．1　正则表达式　26
2．2．2　BeautifulSoup　28
2．2．3　Lxml　30
2．2．4　性能对比　32
2．2．5　结论　35
2．2．6　为链接爬虫添加抓取回调　35
2．3　本章小结　38

第3章　下载缓存　39
3．1　为链接爬虫添加缓存支持　39
3．2　磁盘缓存　42
3．2．1　实现　44
3．2．2　缓存测试　46
3．2．3　节省磁盘空间　46
3．2．4　清理过期数据　47
3．2．5　缺点　48
3．3　数据库缓存　49
3．3．1　NoSQL是什么　50
3．3．2　安装MongoDB　50
3．3．3　MongoDB概述　50
3．3．4　MongoDB缓存实现　52
3．3．5　压缩　54
3．3．6　缓存测试　54
3．4　本章小结　55

第4章　并发下载　57
4．1　100万个网页　57
4．2　串行爬虫　60
4．3　多线程爬虫　60
4．3．1　线程和进程如何工作　61
4．3．2　实现　61
4．3．3　多进程爬虫　63
4．4　性能　67
4．5　本章小结　68

第5章　动态内容　69
5．1　动态网页示例　69
5．2　对动态网页进行逆向工程　72
5．3　渲染动态网页　77
5．3．1　PyQt还是PySide　78
5．3．2　执行JavaScript　78
5．3．3　使用WebKit与网站交互　80
5．3．4　Selenium　85
5．4　本章小结　88

第6章　表单交互　89
6．1　登录表单　90
6．2　支持内容更新的登录脚本扩展　97
6．3　使用Mechanize模块实现自动化表单处理　100
6．4　本章小结　102

第7章　验证码处理　103
7．1　注册账号　103
7．2　光学字符识别　106
7．3　处理复杂验证码　111
7．3．1　使用验证码处理服务　112
7．3．2　9kw入门　112
7．3．3　与注册功能集成　119
7．4　本章小结　120

第8章　Scrapy　121
8．1　安装　121
8．2　启动项目　122
8．2．1　定义模型　123
8．2．2　创建爬虫　124
8．2．3　使用shell命令抓取　128
8．2．4　检查结果　129
8．2．5　中断与恢复爬虫　132
8．3　使用Portia编写可视化爬虫　133
8．3．1　安装　133
8．3．2　标注　136
8．3．3　优化爬虫　138
8．3．4　检查结果　140
8．4　使用Scrapely实现自动化抓取　141
8．5　本章小结　142

第9章　总结　143
9．1　Google搜索引擎　143
9．2　Facebook　148
9．2．1　网站　148
9．2．2　API　150
9．3　Gap　151
9．4　宝马　153
9．5　本章小结　157

查看详情

相关分类

计算机理论编程与开发操作系统大数据与云计算图形图像/多媒体网站设计与网页开发网络与通讯硬件、嵌入式开发办公软件信息安全辅助设计与工程计算软件工程/开发项目管理

用Python写网络爬虫正版

全新

默明书店

广东省深圳市

平均发货12小时成功完成率94.95%

￥1.00

券

100减20

立即购买加入购物车
用Python写网络爬虫正版现货全新塑封

全新

永恒书局

福建省福州市

平均发货16小时成功完成率95.11%

￥3.00

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

顾海卡的书摊

北京市海淀区

平均发货24小时成功完成率100%

￥4.00

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

星泉书苑

山东省枣庄市

平均发货22小时成功完成率88.62%

￥5.00

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

佳琪书店

河南省周口市

平均发货10小时成功完成率97.55%

￥5.00

券

100减20

立即购买加入购物车
用Python写网络爬虫（全新未开封）

2016-08 印刷

全新

百惠书房

北京市昌平区

平均发货29小时成功完成率89.77%

￥5.00

券

100减20

立即购买加入购物车
用Python写网络爬虫【全新】正版书现货实物图片当天发货

全新

昊琳书店

北京市朝阳区

平均发货9小时成功完成率95.65%

￥5.00

券

100减20

立即购买加入购物车
用Python写网络爬虫正版全新未开封

全新

知识无价旧书屋

北京市昌平区

平均发货34小时成功完成率93.08%

￥7.00

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

店小二书店

河北省保定市

平均发货22小时成功完成率80.36%

￥9.00

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

南京香海轩书店

江苏省南京市

平均发货19小时成功完成率91.11%

￥9.00

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

豪弟书店的书店

河北省保定市

平均发货31小时成功完成率72.69%

￥9.45

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

书鼎圣泰图书

河北省保定市

平均发货5天内成功完成率66.85%

￥9.90

券

100减20

立即购买加入购物车
用Python写网络爬虫正版现货全新未拆封

全新

昊琳书店

北京市朝阳区

平均发货9小时成功完成率95.65%

￥10.00

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

兆发书局

上海市黄浦区

平均发货15小时成功完成率96.84%

￥10.00

券

100减20

立即购买加入购物车
用Python写网络爬虫正版书现货实物图片当天发货全新未拆封

全新

昊琳书店

北京市朝阳区

平均发货9小时成功完成率95.65%

￥10.00

券

100减20

立即购买加入购物车
用Python写网络爬虫用Python写网络爬虫

全新

爱学习的猫猫

辽宁省大连市

平均发货14小时

￥10.00

券

100减20

立即购买加入购物车
用Python写网络爬虫正版书现货实物图片当天发货无笔记画线内容干净全新未拆封

全新

昊琳书店

北京市朝阳区

平均发货9小时成功完成率95.65%

￥10.00

券

100减20

立即购买加入购物车
用Python写网络爬虫正版书现货实物图片当天发货全新未拆封

全新

昊琳书店

北京市朝阳区

平均发货9小时成功完成率95.65%

￥10.00

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

燕园学海书社

河北省沧州市

平均发货15小时成功完成率93.94%

￥10.00

券

100减20

立即购买加入购物车
用Python写网络爬虫正版书现货实物图片当天发货全新未拆封

全新

昊琳书店

北京市朝阳区

平均发货9小时成功完成率95.65%

￥10.10

券

100减20

立即购买加入购物车
用Python写网络爬虫网上默认图片与不一致的以书名为准,此书为批量上架，如是【套装书籍】请联系店铺客服确认商品后再下单

全新

腾辉书店的书店

河北省保定市

平均发货13小时成功完成率68.29%

￥10.35

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

尚贤文化济南分店

河北省保定市

平均发货27小时成功完成率88.58%

￥10.40

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

鄢陵县羽轩诚信书店

河北省保定市

平均发货39小时成功完成率79.25%

￥10.87

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

书友译文书店

河北省保定市

平均发货18小时成功完成率81.33%

￥11.70

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

文才图书批发城的书店

河北省保定市

平均发货31小时成功完成率74.43%

￥11.81

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

尚贤文化河北分店的书店

河北省保定市

平均发货29小时成功完成率86.37%

￥11.90

券

100减20

立即购买加入购物车
用Python写网络爬虫【正版书籍可开发票】120万个品种，一件代发，有需要联系哦，很多书籍没有上架

全新

百科正版图书

河北省保定市

平均发货21小时成功完成率83.83%

￥11.90

券

100减20

立即购买加入购物车
用Python写网络爬虫正版图书，可开发票。120万品种，一件代发，欢迎咨询。

全新

人龙正版图书批发

河北省保定市

平均发货14小时成功完成率82.8%

￥11.90

券

100减20

立即购买加入购物车
正版书用Python写网络爬虫 150万书目一件代发，需要的私信联系~很多书籍没上架

全新

轩逸正版图书

河北省保定市

平均发货17小时成功完成率82.84%

￥11.90

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

郑尘苑星

北京市海淀区

平均发货24小时成功完成率82.22%

￥12.00

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

书香翰林

北京市通州区

平均发货9小时成功完成率91.99%

￥14.40

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

运气书屋

河北省保定市

平均发货8小时成功完成率82.32%

￥14.85

券

100减20

立即购买加入购物车
全新正版用Python写网络爬虫9787115431790 正版书籍，放心下单。绝大部分是新书，个别品相折痕的，我们会主动联系哦

全新

画间正版图书旗舰店的书店

河北省保定市

平均发货11小时成功完成率84.91%

￥14.95

券

100减20

立即购买加入购物车
用Python写网络爬虫正版书籍，放心下单。绝大部分是新书，个别品相折痕的，我们会主动联系哦

全新

博轩一书籍

北京市东城区

平均发货8小时成功完成率82.55%

￥14.95

券

100减20

立即购买加入购物车
用Python写网络爬虫正版书现货实物图片当天发货全新未拆封

全新

昊琳书店

北京市朝阳区

平均发货9小时成功完成率95.65%

￥15.00

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

摩西先知2020

北京市昌平区

平均发货2小时成功完成率90%

￥15.00

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

慧鑫图书

河北省保定市

平均发货34小时成功完成率72.18%

￥15.59

券

100减20

立即购买加入购物车
用Python写网络爬虫本店所有图书均为正版一手库存书，无笔记，未翻阅。欢迎选购！，图片标题不一致时，请以标题即商品名称为准！配货发货只核对书号和商品名称，谢谢

全新

视野图书

河北省保定市

平均发货24小时成功完成率76.65%

￥15.80

券

100减20

立即购买加入购物车
用Python写网络爬虫

全新

尚贤文化东营分店

河北省保定市

平均发货28小时成功完成率87.56%

￥17.10

券

100减20

立即购买加入购物车
用Python写网络爬虫正版

全新

小晓特价书店

北京市朝阳区

平均发货14小时成功完成率84.76%

￥22.50

券

100减20

立即购买加入购物车
用Python写网络爬虫（全新未开封）【正版有货可开发票；库存情况请咨询，及标题与图片不一致时】

全新

书香静谧书店

广东省广州市

平均发货8小时成功完成率89.96%

￥25.00

券

100减20

立即购买加入购物车
用Python写网络爬虫。全新正版未拆封

全新

顺航书社

天津市蓟县

平均发货7天内

￥25.00

券

100减20

立即购买加入购物车
用Python写网络爬虫【正版图书可开发票】【支持7天无理由退回】{以标题为准，详情可咨询客服}

全新

赏乐阅书社

湖南省长沙市

平均发货9小时成功完成率92.38%

￥30.00

券

100减20

立即购买加入购物车
用Python写网络爬虫【标题与图片不一致时,请质询，正版有货可开发票】

全新

雅逸阁书店

海南省海口市

平均发货14小时成功完成率82.62%

￥32.00

券

100减20

立即购买加入购物车
用Python写网络爬虫【正版有货可开发票；标题与图片不一致时,请质询】

全新

一叶知秋语的书店

广东省广州市

平均发货7小时成功完成率88.64%

￥33.00

券

100减20

立即购买加入购物车
用Python写网络爬虫【标题与图片不一致时,请质询，正版有货可开发票】

全新

跋涉者书店

海南省海口市

平均发货9小时成功完成率81.11%

￥35.00

券

100减20

立即购买加入购物车
用Python写网络爬虫【标题与图片不一致时,请质询，正版有货可开发票】

全新

雅逸阁书店

海南省海口市

平均发货14小时成功完成率82.62%

￥35.00

券

100减20

立即购买加入购物车
用Python写网络爬虫【标题与图片不一致时,请质询，正版有货可开发票】

全新

博雅书库

北京市东城区

平均发货11小时成功完成率81.55%

￥35.50

券

100减20

立即购买加入购物车

用Python写网络爬虫

内容简介:

作者简介:

目录: