Python 3.x网络爬虫从零基础到项目实战

作者: 史卫亚

出版社: 北京大学出版社

出版时间: 2020-05

版次: 1

ISBN: 9787301312827

定价: 108.00

装帧: 其他

开本: 16开

纸张: 胶版纸

页数: 612页

字数: 889千字

分类: 计算机与互联网

4 张插图图片

31人买过

《Python 3.x网络爬虫从零基础到项目实战》介绍了如何使用Python来编写网络爬虫程序，内容包括网络爬虫简介、发送请求、提取数据、使用多个线程和进程进行并发抓取、抓取动态页面中的内容、与表单进行交互、处理页面中的验证码问题及使用Scrapy和分布式进行数据抓取，并在*后介绍了使用本书讲解的数据抓取技术对几个真实的网站进行抓取的实例，旨在帮助读者活学活用书中介绍的技术。
本书提供了与图书内容全程同步的教学录像。此外，还赠送了大量相关学习资料，以便读者扩展学习。
本书适合任何想学习Python爬虫的读者，无论您是否从事计算机相关专业，是否接触过Python，均可以通过学习本书快速掌握Python爬虫的开发方法和技巧。史卫亚，博士，副教授，IEEE会员，CCF会员，INNS会员。2009年获得复旦大学计算机应用专业博士学位。2015—2016年在美国北卡罗来纳大学做访问学者，对机器学习、大数据检索、数据库、图像和视频处理、人工智能和模式识别等有深入研究。目录

第1章　爬虫基础 1

1.1 认识爬虫 2

1.2 Python环境 4

1.3 Python语法 11

1.4 网页结构 62

1.5 HTTP协议 68

1.6 本章小结 84

1.7 实战练习 84

第2章　开始爬虫 85

2.1 urllib模块 86

2.2 requests模块 88

2.3 re模块 110

2.4 项目案例：爬百度贴吧 122

2.5 本章小结 128

2.6 实战练习 128

第3章　更多数据提取的方式 129

3.1 XPath和LXml 130

3.2 BeautifulSoup4 137

3.3 JsonPath 143

3.4 性能和选择 148

3.5 项目案例：爬腾讯招聘网 148

3.6 本章小结 154

3.7 实战练习 154

第4章　并发 155

4.1 100万个网页 156

4.2 进程 161

4.3 线程 181

4.4 锁 191

4.5 协程 202

4.6 线程、进程、协程对比 206

4.7 并发爬虫 207

4.8 本章小结 216

4.9 实战练习 216

第5章　数据存储 217

5.1 文件存储 218

5.2 关系型数据库存储 221

5.3 非关系型数据库存储 231

5.4 项目案例：爬豆瓣电影 266

5.5 本章小结 270

5.6 实战练习 270

第6章　Ajax数据爬取 271

6.1 Ajax的概念 272

6.2 实现Ajax 272

6.3 项目案例：爬斗鱼直播 282

6.4 本章小结 286

6.5 实战练习 286

第7章　动态渲染页面爬取 287

7.1 Selenium 288

7.2 项目案例：爬**商品 306

7.3 本章小结 311

7.4 实战练习 312

第8章　图形验证码识别 313

8.1 使用pytesseract 314

8.2 使用打码平台 317

8.3 项目案例：识别验证码完成登录 323

8.4 本章小结 326

8.5 实战练习 326

第9章　模拟登录 327

9.1 Cookie 328

9.2 Session 330

9.3 Cookie池的搭建 332

9.4 项目案例：登录GitHub 335

9.5 本章小结 340

9.6 实战练习 340

第10章　代理IP的使用 341

10.1 代理IP 342

10.2 代理IP池 348

10.3 付费代理的使用 351

10.4 项目案例：使用代理IP爬微信公众号 358

10.5 本章小结 368

10.6 实战练习 368

第11章　Scrapy框架 369

11.1 认识Scrapy 370

11.2 编写Scrapy的**个案例 373

11.3 Spider详情 384

11.4 操作数据 403

11.5 模拟登录 432

11.6 中间件 446

11.7 分布式 458

11.8 项目案例：爬新浪新闻 500

11.9 本章小结 510

11.10 实战练习 510

第12章　项目案例：爬校花网信息 511

12.1 分析网站 512

12.2 开始爬取 515

第13章　项目案例：爬北京地区短租房信息 523

13.1 分析网站 524

13.2 开始爬取 525

第14章　项目案例：爬简书专题信息 531

14.1 分析网站 532

14.2 开始爬取 535

第15章　项目案例：爬QQ音乐歌曲 539

15.1 分析网站 540

15.2 开始爬取 542

第16章　项目案例：爬百度翻译 545

16.1 分析网站 546

16.2 开始爬取 550

第17章　项目案例：爬百度地图API 555

17.1 分析网站 556

17.2 开始爬取 560

第18章　项目案例：爬360图片 571

18.1 分析网站 572

18.2 开始爬取 573

第19章　项目案例：爬当当网 577

19.1 分析网站 578

19.2 开始爬取 580

第20章　项目案例：爬唯品会 585

20.1 分析网站 586

20.2 开始爬取 589

第21章　项目案例：爬智联招聘 593

21.1 分析网站 594

21.2 开始爬取 597
内容简介:
《Python 3.x网络爬虫从零基础到项目实战》介绍了如何使用Python来编写网络爬虫程序，内容包括网络爬虫简介、发送请求、提取数据、使用多个线程和进程进行并发抓取、抓取动态页面中的内容、与表单进行交互、处理页面中的验证码问题及使用Scrapy和分布式进行数据抓取，并在*后介绍了使用本书讲解的数据抓取技术对几个真实的网站进行抓取的实例，旨在帮助读者活学活用书中介绍的技术。
本书提供了与图书内容全程同步的教学录像。此外，还赠送了大量相关学习资料，以便读者扩展学习。
本书适合任何想学习Python爬虫的读者，无论您是否从事计算机相关专业，是否接触过Python，均可以通过学习本书快速掌握Python爬虫的开发方法和技巧。
作者简介:
史卫亚，博士，副教授，IEEE会员，CCF会员，INNS会员。2009年获得复旦大学计算机应用专业博士学位。2015—2016年在美国北卡罗来纳大学做访问学者，对机器学习、大数据检索、数据库、图像和视频处理、人工智能和模式识别等有深入研究。
目录:
目录

第1章　爬虫基础 1

1.1 认识爬虫 2

1.2 Python环境 4

1.3 Python语法 11

1.4 网页结构 62

1.5 HTTP协议 68

1.6 本章小结 84

1.7 实战练习 84

第2章　开始爬虫 85

2.1 urllib模块 86

2.2 requests模块 88

2.3 re模块 110

2.4 项目案例：爬百度贴吧 122

2.5 本章小结 128

2.6 实战练习 128

第3章　更多数据提取的方式 129

3.1 XPath和LXml 130

3.2 BeautifulSoup4 137

3.3 JsonPath 143

3.4 性能和选择 148

3.5 项目案例：爬腾讯招聘网 148

3.6 本章小结 154

3.7 实战练习 154

第4章　并发 155

4.1 100万个网页 156

4.2 进程 161

4.3 线程 181

4.4 锁 191

4.5 协程 202

4.6 线程、进程、协程对比 206

4.7 并发爬虫 207

4.8 本章小结 216

4.9 实战练习 216

第5章　数据存储 217

5.1 文件存储 218

5.2 关系型数据库存储 221

5.3 非关系型数据库存储 231

5.4 项目案例：爬豆瓣电影 266

5.5 本章小结 270

5.6 实战练习 270

第6章　Ajax数据爬取 271

6.1 Ajax的概念 272

6.2 实现Ajax 272

6.3 项目案例：爬斗鱼直播 282

6.4 本章小结 286

6.5 实战练习 286

第7章　动态渲染页面爬取 287

7.1 Selenium 288

7.2 项目案例：爬**商品 306

7.3 本章小结 311

7.4 实战练习 312

第8章　图形验证码识别 313

8.1 使用pytesseract 314

8.2 使用打码平台 317

8.3 项目案例：识别验证码完成登录 323

8.4 本章小结 326

8.5 实战练习 326

第9章　模拟登录 327

9.1 Cookie 328

9.2 Session 330

9.3 Cookie池的搭建 332

9.4 项目案例：登录GitHub 335

9.5 本章小结 340

9.6 实战练习 340

第10章　代理IP的使用 341

10.1 代理IP 342

10.2 代理IP池 348

10.3 付费代理的使用 351

10.4 项目案例：使用代理IP爬微信公众号 358

10.5 本章小结 368

10.6 实战练习 368

第11章　Scrapy框架 369

11.1 认识Scrapy 370

11.2 编写Scrapy的**个案例 373

11.3 Spider详情 384

11.4 操作数据 403

11.5 模拟登录 432

11.6 中间件 446

11.7 分布式 458

11.8 项目案例：爬新浪新闻 500

11.9 本章小结 510

11.10 实战练习 510

第12章　项目案例：爬校花网信息 511

12.1 分析网站 512

12.2 开始爬取 515

第13章　项目案例：爬北京地区短租房信息 523

13.1 分析网站 524

13.2 开始爬取 525

第14章　项目案例：爬简书专题信息 531

14.1 分析网站 532

14.2 开始爬取 535

第15章　项目案例：爬QQ音乐歌曲 539

15.1 分析网站 540

15.2 开始爬取 542

第16章　项目案例：爬百度翻译 545

16.1 分析网站 546

16.2 开始爬取 550

第17章　项目案例：爬百度地图API 555

17.1 分析网站 556

17.2 开始爬取 560

第18章　项目案例：爬360图片 571

18.1 分析网站 572

18.2 开始爬取 573

第19章　项目案例：爬当当网 577

19.1 分析网站 578

19.2 开始爬取 580

第20章　项目案例：爬唯品会 585

20.1 分析网站 586

20.2 开始爬取 589

第21章　项目案例：爬智联招聘 593

21.1 分析网站 594

21.2 开始爬取 597

查看详情

进店看看

相关分类

计算机理论编程与开发操作系统大数据与云计算图形图像/多媒体网站设计与网页开发网络与通讯硬件、嵌入式开发办公软件信息安全辅助设计与工程计算软件工程/开发项目管理

11

Python 3.x网络爬虫从零基础到项目实战实拍现货，无笔记划线

九品

悦欣书轩

北京市昌平区

平均发货4小时成功完成率97.05%

￥20.00

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战 9787301312827 正版书【未翻阅】内页干净

九五品

温馨正品图书

河北省保定市

平均发货24小时成功完成率87.23%

￥49.70

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战

全新

尚贤文化保定分店的书店

河北省保定市

平均发货31小时成功完成率88.45%

￥49.70

券

100减20

立即购买加入购物车
5

python 3.x网络爬虫从零基础到项目实战网页制作作者新华书店全新正版书籍支持7天无理由

全新

智胜图书专营店

北京市丰台区

平均发货29小时成功完成率86.07%

￥44.30

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战

全新

尚贤文化江苏分店

河北省保定市

平均发货33小时成功完成率88.18%

￥49.70

券

100减20

立即购买加入购物车
Python 正版新书新华官方库房直发可开电子发票

全新

文源文化

江苏省南京市

平均发货6小时成功完成率96.58%

￥72.37

券

100减20

立即购买加入购物车不属于本条目
Python3.x网络爬虫从零基础到项目实战正版图书，可开发票，请放心购买。

全新

淘书宝店

广东省广州市

平均发货7小时成功完成率94.25%

￥82.16

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战正版库存书，套装书先咨询客服再下单

全新

心愿语书店

天津市东丽区

平均发货20小时成功完成率91.52%

￥57.24

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战全新正版未拆封

全新

天吾之青豆的书店

山东省济宁市

平均发货55小时成功完成率83.12%

￥40.61

券

100减20

立即购买加入购物车
Python3.x网络爬虫从零基础到项目实战 9787301312827 全新正版可开票支持7天无理由，不清楚的请咨询客服。

全新

倒爷图书专营店

浙江省嘉兴市

平均发货13小时成功完成率95.01%

￥75.07

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战 9787301312827正版书【未翻阅】内页干净

九五品

田田正版图书

河北省保定市

平均发货25小时成功完成率80.08%

￥49.80

券

100减20

立即购买加入购物车不属于本条目
Python3.x网络爬虫从零基础到项目实战全新正版全新未开封新华集团直接发

全新

江苏读客文化

江苏省南京市

平均发货14小时成功完成率84.18%

￥79.92

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战 9787301312827 全新正版 _可开发票_极速发货

全新

果然是好书店

天津市西青区

平均发货15小时成功完成率91.09%

￥65.88

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战

全新

默燃图书

北京市通州区

平均发货17小时成功完成率89.68%

￥34.56

券

100减20

立即购买加入购物车不属于本条目
特价现货！Python3.x网络爬虫从零基础到项目实战史卫亚9787301312827北京大学出版社买书，就上二手书海旗舰店，清仓处理，真实库存，特价正版，收藏店铺，优先发货! ps：下午三点之前的订单当天发货，之后明天发货，特殊情况除外。

八五品

书嗨图书旗舰店

河南省鹤壁市

平均发货9小时成功完成率96.48%

￥26.41

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战买书，就上二手书海官方企业店，清仓处理，真实库存，特价正版，收藏店铺，优先发货! ps：下午三点之前的订单当天发货，之后明天发货，特殊情况除外。

八五品

二手书海官方企业店

河南省鹤壁市

平均发货10小时成功完成率96.28%

￥32.19

券

100减20

立即购买加入购物车
Python 正版新书新华官方库房直发可开电子发票

全新

问典书店

江苏省南京市

平均发货5小时成功完成率98.35%

￥72.37

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战正常发货

全新

书昀书店

北京市房山区

平均发货14小时成功完成率88.55%

￥49.68

券

100减20

立即购买加入购物车
Python 3.x网络爬虫从零基础到项目实战

全新

丽涵图书

河北省保定市

平均发货17小时成功完成率93.79%

￥68.04

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战正版二手，均有笔记不影响使用，无赠品、光盘、MP7668等。如需购买套装书，请联系客服核实，批量上传数据有误差，套装书售后运费自理，还请见谅！

八五品

必过书城

山东省枣庄市

平均发货8小时成功完成率89.22%

￥42.00

券

100减20

立即购买加入购物车
【正版书】Python 3.x网络爬虫从零基础到项目实战 9787301312827【未翻阅】内页干净

九五品

宁静书海

河北省保定市

平均发货21小时成功完成率84.74%

￥49.78

券

100减20

立即购买加入购物车不属于本条目
正版书 Python 3.x网络爬虫从零基础到项目实战 9787301312827【未翻阅】内页干净

九五品

京藏书阁

江苏省无锡市

平均发货21小时成功完成率84.47%

￥49.90

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战正版全新，绝无盗版，可开发票

全新

石坪图书专营店

湖北省武汉市

平均发货16小时成功完成率91.71%

￥58.80

券

100减20

立即购买加入购物车
【正版新书】Python3.x网络爬虫从零基础到项目实战【正版书籍可开发票】

全新

百科正版图书

河北省保定市

平均发货27小时成功完成率83.78%

￥53.00

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战正版

全新

金银图图书店

河北省保定市

平均发货18小时成功完成率91.89%

￥68.04

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战

全新

尚同书屋

北京市房山区

平均发货35小时成功完成率83.02%

￥49.68

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战9787301312827

全新

名科图书

河北省保定市

平均发货25小时成功完成率83.68%

￥48.60

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战下午5点前订单，当日发货！超时赔付

九五品

才华有限

四川省成都市

平均发货10小时成功完成率94.53%

￥17.95

券

100减20

立即购买加入购物车
Python 3.x网络爬虫从零基础到项目实战

全新

品雅轩正版折扣书店

河北省保定市

平均发货28小时成功完成率89.56%

￥51.84

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战书籍均为精品二手图书品相85品以上，出库会经过高温消毒，书籍上架都会检测可保证正版!!

九品

粤读二手书店

天津市宝坻区

平均发货14小时成功完成率95.96%

￥21.90

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战本店所售图书，保证正版新书，有个别图片和实书封面不一样，以实书封面为准，有需要确定的可以联系客服。我店不能开发票。当天下单第二天发货。

全新

蓝天阳光书店

四川省成都市

平均发货34小时成功完成率83.06%

￥65.79

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战

全新

杞人图书专营店

河北省保定市

平均发货33小时成功完成率86.83%

￥74.52

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战

全新

聚合博文书店

四川省成都市

平均发货7小时成功完成率98.77%

￥68.70

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战 Python 3.x网络爬虫从零基础到项目实战

全新

迪川书店

北京市房山区

平均发货34小时成功完成率80.3%

￥48.60

券

100减20

立即购买加入购物车
Python 3.x网络爬虫从零基础到项目实战史卫亚北京大学出版社新华系统图书，正版特价新书！天津，河北，无锡，成都四大仓库发货，70%城市次达！

全新

轻舟飘远书店

北京市顺义区

平均发货10小时成功完成率94.21%

￥65.20

券

100减20

立即购买加入购物车不属于本条目
保正版！Python 3.x网络爬虫从零基础到项目实战9787301312827北京大学出版社史卫亚 1.7天无理由退换货，2.当日16点前订单基本当日发出，最迟隔天，3.天津仓、成都仓、无锡仓、北京仓、广东仓、泰安仓、杭州仓、武汉仓就近发货。4.韵达、中国邮政、圆通、中通随机安排！无法指定快递敬请谅解！5.开票联系客服.

全新

博文明智书店

天津市河东区

平均发货25小时成功完成率88.73%

￥65.81

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战全新正版假一赔十可开发票

全新

轻阅书店

北京市海淀区

平均发货9小时成功完成率97.81%

￥67.71

券

100减20

立即购买加入购物车不属于本条目
新华正版 Python 3.x网络爬虫从零基础到项目实战史卫亚 9787301312827 北京大学出版社 2020-05-01 新华书店直发全新正版急速发货开票联系客服

全新

建德书局的书店

北京市西城区

平均发货12小时成功完成率94.09%

￥64.57

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战全新正版极速发货

全新

曲奇书店

广东省广州市

平均发货17小时成功完成率94.2%

￥60.38

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战下午5点前订单，当日发货！超时赔付

八五品

才华有限

四川省成都市

平均发货10小时成功完成率94.53%

￥17.90

券

100减20

立即购买加入购物车
Python 3.x网络爬虫从零基础到项目实战按标题名购买，批量下载图片有时不对应，多本图片为其中一本，有问题请联系客服。

全新

小布丁书店

河北省保定市

平均发货28小时成功完成率89.13%

￥69.94

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战

全新

武汉灿润文化传播

河北省保定市

平均发货28小时成功完成率85.16%

￥46.44

券

100减20

立即购买加入购物车不属于本条目
【正版新书】Python3.x网络爬虫从零基础到项目实战正版图书，可开发票。

全新

三言正版图书

河北省保定市

平均发货22小时成功完成率82.85%

￥54.20

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战正版库存书，系统上架，如图片与书名不一致，请以书名为准！！！

全新

希雅图书店

北京市房山区

平均发货19小时成功完成率89.28%

￥55.08

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战正常发货

全新

纪昀坊图书

河北省保定市

平均发货26小时成功完成率80.22%

￥50.76

券

100减20

立即购买加入购物车
Python 3.x网络爬虫从零基础到项目实战正版新书，下单以书名为准

全新

品诺图书专营店

河北省保定市

平均发货29小时成功完成率90.77%

￥54.00

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战【正版有货可开发票；标题与图片不一致时,请质询】

全新

一叶知秋语的书店

广东省广州市

平均发货9小时成功完成率90.27%

￥62.00

券

100减20

立即购买加入购物车不属于本条目
Python3.x网络爬虫从零基础到项目实战

全新

墨缘轩图书旗舰店

河北省保定市

平均发货30小时成功完成率88.98%

￥48.60

券

100减20

立即购买加入购物车不属于本条目
全新正版 Python3.x网络爬虫从零基础到项目实战编者:史卫亚|责编:吴晓月//王继伟 9787301312827 北京大学本店所售图书，保证正版新书，有个别图片和实书封面不一样，以实书封面为准，最快当天，一般隔天发货。支持7天无理由退换货.开票联系客服

全新

剡溪书局

北京市西城区

平均发货16小时成功完成率91.91%

￥75.62

券

100减20

立即购买加入购物车不属于本条目
Python 3.x网络爬虫从零基础到项目实战正版图书

全新

武汉灿润文化传播

河北省保定市

平均发货28小时成功完成率85.16%

￥46.43

券

100减20

立即购买加入购物车不属于本条目

Python 3.x网络爬虫从零基础到项目实战

内容简介:

作者简介:

目录: