Python爬虫与反爬虫开发从入门到精通

Python爬虫与反爬虫开发从入门到精通
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2021-08
版次: 1
ISBN: 9787301322697
定价: 99.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 388页
12人买过
  •   随着网络技术的迅速发展,如何有效地提取并利用信息,以及如何有效地防止信息被爬取,已成为一个巨大的挑战。《Python爬虫与反爬虫开发从入门到精通》从零开始系统地介绍了Python网络爬虫与反爬虫的开发与实战技能,全书共分为4篇,具体内容安排如下。
      第1篇:基础篇(第1~3章)。系统地讲解了Python爬虫与反爬虫开发环境的搭建、爬虫与反爬虫通用基础知识、Python编程基础。
      第2篇:爬虫篇(第4~8章)。这部分讲解了网络爬虫的相关知识与技能,主要包括网络爬虫快速入门、XPath匹配网页数据、re正则匹配数据、WebSocket数据抓取、Scrapy爬虫框架应用与开发等。
      第3篇:反爬虫篇(第9~16章)。这部分讲解了网络反爬虫的相关知识与技能,主要包括爬虫与反爬虫的区别与认识、反爬—Header信息校验、反爬—IP限制、反爬—动态渲染页面、反爬—文本混淆、反爬—特征识别、反爬—验证码识别、反爬—APP数据抓取等。
      第4篇:实战篇(第17章)。本篇主要列举了4个案例,综合讲解Python爬虫与反爬虫项目的实战应用。
      《Python爬虫与反爬虫开发从入门到精通》从零基础开始讲解,系统全面,案例丰富,注重实战,既适合Python程序员和爬虫爱好者阅读学习,也可以作为广大职业院校相关专业的教材或参考用书。 刘延林,云镜团队创始人,拥有多年网络爬虫开发经验,著有《Python网络爬虫开发从入门到精通》,擅长Python网络爬虫、Web、数据挖掘与分析、网络安全、产品研发等领域。 第1篇  基础篇

    第1章  爬虫与反爬虫开发环境搭建 /2

    1.1 Python 3环境搭建 /3

    1.2 PyCharm的安装与基本使用 /7

    1.3 Tesseract-OCR /16

    1.4 mitmproxy /18

    1.5 JDK 1.8 /22

    本章小结 /24

    第2章 爬虫与反爬虫通用基础知识 /25

    2.1 网页基础 /26

    2.2 网络传输协议 /28

    2.3 Session和Cookies /31

    2.4 Nginx服务器 /34

    2.5 代理IP /36

    2.6 HTTP接口概念 /40

    2.7 新手问答 /40

    本章小结 /41

    第3章 Python编程基础 /42

    3.1 Python的基础语法 /43

    3.2 基本数据类型 /49

    3.3 流程控制 /55

    3.4 函数 /60

    3.5 文件操作 /61

    3.6 面向对象 /64

    3.7 多线程 /68

    3.8 新手实训 /70

    3.9 新手问答 /71

    本章小结 /72

    第2篇 爬虫篇

    第4章 网络爬虫快速入门 /74

    4.1 爬虫的基本结构及工作流程 /75

    4.2 urllib网络请求库 /75

    4.3 requests网络请求库 /82

    4.4 urllib3网络请求库 /86

    4.5 Postman接口测试工具 /90

    4.6 新手实训 /95

    4.7 新手问答 /95

    本章小结 /96

    第5章 XPath匹配网页数据 /97

    5.1 安装XPath /98

    5.2 XPath的基础语法 /98

    5.3 在Python中使用XPath匹配数据 /99

    5.4 XPath表达式技巧 /103

    5.5 扩展补充知识点 /105

    5.6 新手实训 /107

    5.7 新手问答 /109

    本章小结 /109

    第6章 re正则匹配数据 /110

    6.1 re.compile函数 /111

    6.2 re.match函数 /111

    6.3 re.search函数 /113

    6.4 re.match与re.search的区别 /114

    6.5 检索和替换 /114

    6.6 findall函数 /115

    6.7 常见正则表达式写法 /116

    6.8 新手实训 /117

    6.9 新手问答 /119

    本章小结 /120

    第7章 WebSocket数据抓取 /121

    7.1 WebSocket通信原理 /122

    7.2 使用aioWebSocket获取数据 /122

    7.3 新手实训 /129

    7.4 新手问答 /131

    本章小结 /131

    第8章 Scrapy爬虫框架应用与开发 /132

    8.1 Scrapy框架的基本架构 /133

    8.2 安装Scrapy /134

    8.3 创建项目 /135

    8.4 定义Item /135

    8.5 编写个Spider /136

    8.6 运行爬虫 /137

    8.7 提取Item /137

    8.8 在Shell中尝试Selector选择器 /138

    8.9 提取数据 /139

    8.10 使用Item /140

    8.11 Item Pipeline /141

    8.12 将Item写入JSON文件 /142

    8.13 新手实训 /143

    8.14 新手问答 /146

    本章小结 /146

    第3篇 反爬虫篇

    第9章 爬虫与反爬虫 /148

    9.1 爬虫知识的回顾与总结 /149

    9.2 反爬虫的概念与定义 /154

    本章小结 /155

    第10章 反爬—Header信息校验 /156

    10.1 User-Agent /157

    10.2 Cookie校验 /162

    10.3 Referer校验 /165

    10.4 签名校验 /166

    10.5 新手实训 /170

    10.6 新手问答 /176

    本章小结 /176

    第11章 反爬—IP限制 /177

    11.1 代理设置 /178

    11.2 代理池构建 /179

    11.3 搭建自己的代理服务器 /183

    11.4 使用Nginx实现封禁IP /194

    11.5 新手问答 /195

    本章小结 /196

    第12章 反爬—动态渲染页面 /197

    12.1 动态渲染案例介绍 /198

    12.2 常见应对动态渲染页面的解决办法 /201

    12.3 使用Selenium爬取动态渲染页面 /201

    12.4 获取浏览器Network请求和响应 /218

    12.5 新手实训 /222

    12.6 新手问答 /224

    本章小结 /225

    第13章 反爬—文本混淆 /226

    13.1 图片伪装反爬 /227

    13.2 CSS偏移反爬 /231

    13.3 编码映射反爬 /238

    13.4 字体反爬 /242

    13.5 新手实训 /248

    13.6 新手问答 /252

    本章小结 /252

    第14章 反爬—特征识别 /253

    14.1 浏览器指纹 /254

    14.2 WebDriver驱动识别 /255

    14.3 使用mitmproxy /262

    14.4 网页精灵 /269

    14.5 新手实训 /275

    14.6 新手问答 /277

    本章小结 /277

    第15章 反爬—验证码识别 /278

    15.1 普通图形验证码 /279

    15.2 滑动验证码 /281

    15.3 滑动拼图验证码 /285

    15.4 新手实训 /292

    15.5 新手问答 /294

    本章小结 /295

    第16章 反爬—APP数据抓取 /296

    16.1 APP的抓包分析 /297

    16.2 Appium自动化 /310

    16.3 APK安装包反编译 /324

    16.4 APK反编译知识补充 /327

    16.5 新手实训 /327

    16.6 新手问答 /332

    本章小结 /332

    第4篇 实战篇

    第17章 项目实战 /334

    17.1 土地市场网——地块公示 /335

    17.2 纽约工商数据采集 /348

    17.3 携程旅行火车票票价数据采集 /356

    17.4 智联招聘数据采集 /361

    附录A 爬虫法律法规 /368

    附录B 实验环境的搭建方法及说明 /371

    附录C Python常见面试题精选 /375
  • 内容简介:
      随着网络技术的迅速发展,如何有效地提取并利用信息,以及如何有效地防止信息被爬取,已成为一个巨大的挑战。《Python爬虫与反爬虫开发从入门到精通》从零开始系统地介绍了Python网络爬虫与反爬虫的开发与实战技能,全书共分为4篇,具体内容安排如下。
      第1篇:基础篇(第1~3章)。系统地讲解了Python爬虫与反爬虫开发环境的搭建、爬虫与反爬虫通用基础知识、Python编程基础。
      第2篇:爬虫篇(第4~8章)。这部分讲解了网络爬虫的相关知识与技能,主要包括网络爬虫快速入门、XPath匹配网页数据、re正则匹配数据、WebSocket数据抓取、Scrapy爬虫框架应用与开发等。
      第3篇:反爬虫篇(第9~16章)。这部分讲解了网络反爬虫的相关知识与技能,主要包括爬虫与反爬虫的区别与认识、反爬—Header信息校验、反爬—IP限制、反爬—动态渲染页面、反爬—文本混淆、反爬—特征识别、反爬—验证码识别、反爬—APP数据抓取等。
      第4篇:实战篇(第17章)。本篇主要列举了4个案例,综合讲解Python爬虫与反爬虫项目的实战应用。
      《Python爬虫与反爬虫开发从入门到精通》从零基础开始讲解,系统全面,案例丰富,注重实战,既适合Python程序员和爬虫爱好者阅读学习,也可以作为广大职业院校相关专业的教材或参考用书。
  • 作者简介:
    刘延林,云镜团队创始人,拥有多年网络爬虫开发经验,著有《Python网络爬虫开发从入门到精通》,擅长Python网络爬虫、Web、数据挖掘与分析、网络安全、产品研发等领域。
  • 目录:
    第1篇  基础篇

    第1章  爬虫与反爬虫开发环境搭建 /2

    1.1 Python 3环境搭建 /3

    1.2 PyCharm的安装与基本使用 /7

    1.3 Tesseract-OCR /16

    1.4 mitmproxy /18

    1.5 JDK 1.8 /22

    本章小结 /24

    第2章 爬虫与反爬虫通用基础知识 /25

    2.1 网页基础 /26

    2.2 网络传输协议 /28

    2.3 Session和Cookies /31

    2.4 Nginx服务器 /34

    2.5 代理IP /36

    2.6 HTTP接口概念 /40

    2.7 新手问答 /40

    本章小结 /41

    第3章 Python编程基础 /42

    3.1 Python的基础语法 /43

    3.2 基本数据类型 /49

    3.3 流程控制 /55

    3.4 函数 /60

    3.5 文件操作 /61

    3.6 面向对象 /64

    3.7 多线程 /68

    3.8 新手实训 /70

    3.9 新手问答 /71

    本章小结 /72

    第2篇 爬虫篇

    第4章 网络爬虫快速入门 /74

    4.1 爬虫的基本结构及工作流程 /75

    4.2 urllib网络请求库 /75

    4.3 requests网络请求库 /82

    4.4 urllib3网络请求库 /86

    4.5 Postman接口测试工具 /90

    4.6 新手实训 /95

    4.7 新手问答 /95

    本章小结 /96

    第5章 XPath匹配网页数据 /97

    5.1 安装XPath /98

    5.2 XPath的基础语法 /98

    5.3 在Python中使用XPath匹配数据 /99

    5.4 XPath表达式技巧 /103

    5.5 扩展补充知识点 /105

    5.6 新手实训 /107

    5.7 新手问答 /109

    本章小结 /109

    第6章 re正则匹配数据 /110

    6.1 re.compile函数 /111

    6.2 re.match函数 /111

    6.3 re.search函数 /113

    6.4 re.match与re.search的区别 /114

    6.5 检索和替换 /114

    6.6 findall函数 /115

    6.7 常见正则表达式写法 /116

    6.8 新手实训 /117

    6.9 新手问答 /119

    本章小结 /120

    第7章 WebSocket数据抓取 /121

    7.1 WebSocket通信原理 /122

    7.2 使用aioWebSocket获取数据 /122

    7.3 新手实训 /129

    7.4 新手问答 /131

    本章小结 /131

    第8章 Scrapy爬虫框架应用与开发 /132

    8.1 Scrapy框架的基本架构 /133

    8.2 安装Scrapy /134

    8.3 创建项目 /135

    8.4 定义Item /135

    8.5 编写个Spider /136

    8.6 运行爬虫 /137

    8.7 提取Item /137

    8.8 在Shell中尝试Selector选择器 /138

    8.9 提取数据 /139

    8.10 使用Item /140

    8.11 Item Pipeline /141

    8.12 将Item写入JSON文件 /142

    8.13 新手实训 /143

    8.14 新手问答 /146

    本章小结 /146

    第3篇 反爬虫篇

    第9章 爬虫与反爬虫 /148

    9.1 爬虫知识的回顾与总结 /149

    9.2 反爬虫的概念与定义 /154

    本章小结 /155

    第10章 反爬—Header信息校验 /156

    10.1 User-Agent /157

    10.2 Cookie校验 /162

    10.3 Referer校验 /165

    10.4 签名校验 /166

    10.5 新手实训 /170

    10.6 新手问答 /176

    本章小结 /176

    第11章 反爬—IP限制 /177

    11.1 代理设置 /178

    11.2 代理池构建 /179

    11.3 搭建自己的代理服务器 /183

    11.4 使用Nginx实现封禁IP /194

    11.5 新手问答 /195

    本章小结 /196

    第12章 反爬—动态渲染页面 /197

    12.1 动态渲染案例介绍 /198

    12.2 常见应对动态渲染页面的解决办法 /201

    12.3 使用Selenium爬取动态渲染页面 /201

    12.4 获取浏览器Network请求和响应 /218

    12.5 新手实训 /222

    12.6 新手问答 /224

    本章小结 /225

    第13章 反爬—文本混淆 /226

    13.1 图片伪装反爬 /227

    13.2 CSS偏移反爬 /231

    13.3 编码映射反爬 /238

    13.4 字体反爬 /242

    13.5 新手实训 /248

    13.6 新手问答 /252

    本章小结 /252

    第14章 反爬—特征识别 /253

    14.1 浏览器指纹 /254

    14.2 WebDriver驱动识别 /255

    14.3 使用mitmproxy /262

    14.4 网页精灵 /269

    14.5 新手实训 /275

    14.6 新手问答 /277

    本章小结 /277

    第15章 反爬—验证码识别 /278

    15.1 普通图形验证码 /279

    15.2 滑动验证码 /281

    15.3 滑动拼图验证码 /285

    15.4 新手实训 /292

    15.5 新手问答 /294

    本章小结 /295

    第16章 反爬—APP数据抓取 /296

    16.1 APP的抓包分析 /297

    16.2 Appium自动化 /310

    16.3 APK安装包反编译 /324

    16.4 APK反编译知识补充 /327

    16.5 新手实训 /327

    16.6 新手问答 /332

    本章小结 /332

    第4篇 实战篇

    第17章 项目实战 /334

    17.1 土地市场网——地块公示 /335

    17.2 纽约工商数据采集 /348

    17.3 携程旅行火车票票价数据采集 /356

    17.4 智联招聘数据采集 /361

    附录A 爬虫法律法规 /368

    附录B 实验环境的搭建方法及说明 /371

    附录C Python常见面试题精选 /375
查看详情
12
您可能感兴趣 / 更多
Python爬虫与反爬虫开发从入门到精通
Python网络爬虫开发从入门到精通
刘延林 著
Python爬虫与反爬虫开发从入门到精通
是真之悟(新时代大学生思想政治教育的思考)
刘延林 著
Python爬虫与反爬虫开发从入门到精通
笔尖上的教育
刘延林 著
Python爬虫与反爬虫开发从入门到精通
28岁成为亿万富豪(第2版)
刘延林 著
Python爬虫与反爬虫开发从入门到精通
28岁成为亿万富豪
刘延林 著
Python爬虫与反爬虫开发从入门到精通
性制造自动化概论
刘延林 著