Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂

Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2020-01
版次: 1
ISBN: 9787302535683
定价: 89.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 488页
62人买过
  •   《Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂》从实战角度系统讲解Python爬虫的核心知识点,并通过大量的真实项目让读者熟练掌握Python爬虫技术。
      《Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂》用20多个实战案例,完美演绎了使用各种技术编写Python爬虫的方式,读者可以任意组合这些技术,完成非常复杂的爬虫应用。
      《Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂》共20章,分为5篇。第1篇基础知识(第1、2章),主要包括Python运行环境的搭建、HTTP基础、网页基础(HTML、CSS、JavaScript等)、爬虫的基本原理、Session与Cookie。第2篇网络库(第3~6章),主要包括网络库urllib、urllib3、requests和Twisted的核心使用方法,如发送HTTP请求、处理超时、设置HTTP请求头、搭建和使用代理、解析链接、Robots协议等。第3篇解析库(第7~10章),主要包括3个常用解析库(lxml、BeautifulSoup和pyquery)的使用方法,同时介绍多种用于分析HTML代码的技术,如正则表达式、XPath、CSS选择器、方法选择器等。第4篇数据存储(第11、12章),主要包括Python中数据存储的解决方案,如文件存储和数据库存储,其中数据库存储包括多种数据库,如本地数据库SQLite、网络数据库MySQL以及文档数据库MongoDB。第5篇爬虫高级应用(第13~20章),主要包括Python爬虫的一些高级技术,如抓取异步数据、Selenium、Splash、抓取移动App数据、Appium、多线程爬虫、爬虫框架Scrapy,最后给出一个综合的实战案例,综合了Python爬虫、数据存储、PyQt5、多线程、数据可视化、Web等多种技术实现一个可视化爬虫。
      《Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂》可以作为广大计算机软件技术开发者、互联网技术研究人员学习“爬虫技术”的参考用书。也可以作为高等院校计算机科学与技术、软件工程、人工智能等专业的教学参考用书。   李宁,欧瑞科技创始人/CEO,宁哥教育创始人,东北大学计算机专业硕士。曾任国内某大型软件公司项目经理、宁哥教育教学总监、腾讯课堂特约讲师、51CTO学院讲师、CSDN特级讲师。从事软件研究和开发超过15年,一直从事Python、人工智能、区块链、JavaScript、Node.js、Java以及跨平台技术的研究和技术指导工作,对国内外相关领域的技术、理论和实践有很深的理解和研究。 前言
    第1篇 基础知识
    第1章 开发环境配置
    1.1 安装官方的Python运行环境
    1.2 配置PATH环境变量
    1.3 安装AnacondaPython开发环境
    1.4 安装PyCharm
    1.5 配置PyCharm
    1.6 小结
    第2章 爬虫基础
    2.1 HTTP基础
    2.1.1 URI和URL
    2.1.2 超文本
    2.1.3 HTTP与HTTPS
    2.1.4 HTTP的请求过程
    2.1.5 请求
    2.1.6 响应
    2.2 网页基础
    2.2.1 HTML
    2.2.2 CSS
    2.2.3 CSS选择器
    2.2.4 JavaScript
    2.3 爬虫的基本原理
    2.3.1 爬虫的分类
    2.3.2 爬虫抓取数据的方式和手段
    2.4 Session与Cookie
    2.4.1 静态页面和动态页面
    2.4.2 无状态HTTP与Cookie
    2.4.3 利用Session和Cookie保持状态
    2.4.4 查看网站的Cookie
    2.4.5 HTTP状态何时会失效
    2.5 实战案例:抓取所有的网络资源
    2.6 实战案例:抓取博客文章列表
    2.7 小结

    第2篇 网络库
    第3章 网络库urllib
    3.1 urllib简介
    3.2 发送请求与获得响应
    3.2.1 用urlopen函数发送HTTPGET请求
    3.2.2 用urlopen函数发送HTTPPOST请求
    3.2.3 请求超时
    3.2.4 设置HTTP请求头
    3.2.5 设置中文HTTP请求头
    3.2.6 请求基础验证页面
    3.2.7 搭建代理与使用代理
    3.2.8 读取和设置Cookie
    3.3 异常处理
    3.3.1 URLError
    3.3.2 HTTPError
    3.4 解析链接
    3.4.1 拆分与合并URL(urlparse与urlunparse)
    3.4.2 另一种拆分与合并URL的方式(urlsplit与urlunsplit)
    3.4.3 连接URL(urljoin)
    3.4.4 URL编码(urlencode)
    3.4.5 编码与解码(quote与unquote)
    3.4.6 参数转换(parse_qs与parse_qsl)
    3.5 Robots协议
    3.5.1 Robots协议简介
    3.5.2 分析Robots协议
    3.6 小结
    第4章 网络库u川ib3
    4.1 urllib3简介
    4.2 urllib3模块
    4.3 发送HTTPGET请求
    4.4 发送HTTPPOST请求
    4.5 HTTP请求头
    4.6 HTTP响应Z头
    4.7 上传文件
    4.8 超时
    4.9 小结
    第5章 网络库requests
    5.1 基本用法
    5.1.1 requests的HelIoWorld
    5.1.2 GET请求
    5.1.3 添加HTTP请求头
    5.1.4 抓取二进制数据
    5.1.5 POST请求
    5.1.6 响应数据
    5.2 高级用法
    5.2.1 上传文件
    5.2.2 处理Cookie
    5.2.3 使用同一个会话(Session)
    5.2.4 SSL证书验证
    5.2.5 使用代理
    5.2.6 超时
    5.2.7 身份验证
    5.2.8 将请求打包
    5.3 小结
    第6章 Twisted网络框架
    ……

    第3篇 解析库
    第4篇 数据存储
    第5篇 爬虫高级应用
  • 内容简介:
      《Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂》从实战角度系统讲解Python爬虫的核心知识点,并通过大量的真实项目让读者熟练掌握Python爬虫技术。
      《Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂》用20多个实战案例,完美演绎了使用各种技术编写Python爬虫的方式,读者可以任意组合这些技术,完成非常复杂的爬虫应用。
      《Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂》共20章,分为5篇。第1篇基础知识(第1、2章),主要包括Python运行环境的搭建、HTTP基础、网页基础(HTML、CSS、JavaScript等)、爬虫的基本原理、Session与Cookie。第2篇网络库(第3~6章),主要包括网络库urllib、urllib3、requests和Twisted的核心使用方法,如发送HTTP请求、处理超时、设置HTTP请求头、搭建和使用代理、解析链接、Robots协议等。第3篇解析库(第7~10章),主要包括3个常用解析库(lxml、BeautifulSoup和pyquery)的使用方法,同时介绍多种用于分析HTML代码的技术,如正则表达式、XPath、CSS选择器、方法选择器等。第4篇数据存储(第11、12章),主要包括Python中数据存储的解决方案,如文件存储和数据库存储,其中数据库存储包括多种数据库,如本地数据库SQLite、网络数据库MySQL以及文档数据库MongoDB。第5篇爬虫高级应用(第13~20章),主要包括Python爬虫的一些高级技术,如抓取异步数据、Selenium、Splash、抓取移动App数据、Appium、多线程爬虫、爬虫框架Scrapy,最后给出一个综合的实战案例,综合了Python爬虫、数据存储、PyQt5、多线程、数据可视化、Web等多种技术实现一个可视化爬虫。
      《Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂》可以作为广大计算机软件技术开发者、互联网技术研究人员学习“爬虫技术”的参考用书。也可以作为高等院校计算机科学与技术、软件工程、人工智能等专业的教学参考用书。
  • 作者简介:
      李宁,欧瑞科技创始人/CEO,宁哥教育创始人,东北大学计算机专业硕士。曾任国内某大型软件公司项目经理、宁哥教育教学总监、腾讯课堂特约讲师、51CTO学院讲师、CSDN特级讲师。从事软件研究和开发超过15年,一直从事Python、人工智能、区块链、JavaScript、Node.js、Java以及跨平台技术的研究和技术指导工作,对国内外相关领域的技术、理论和实践有很深的理解和研究。
  • 目录:
    前言
    第1篇 基础知识
    第1章 开发环境配置
    1.1 安装官方的Python运行环境
    1.2 配置PATH环境变量
    1.3 安装AnacondaPython开发环境
    1.4 安装PyCharm
    1.5 配置PyCharm
    1.6 小结
    第2章 爬虫基础
    2.1 HTTP基础
    2.1.1 URI和URL
    2.1.2 超文本
    2.1.3 HTTP与HTTPS
    2.1.4 HTTP的请求过程
    2.1.5 请求
    2.1.6 响应
    2.2 网页基础
    2.2.1 HTML
    2.2.2 CSS
    2.2.3 CSS选择器
    2.2.4 JavaScript
    2.3 爬虫的基本原理
    2.3.1 爬虫的分类
    2.3.2 爬虫抓取数据的方式和手段
    2.4 Session与Cookie
    2.4.1 静态页面和动态页面
    2.4.2 无状态HTTP与Cookie
    2.4.3 利用Session和Cookie保持状态
    2.4.4 查看网站的Cookie
    2.4.5 HTTP状态何时会失效
    2.5 实战案例:抓取所有的网络资源
    2.6 实战案例:抓取博客文章列表
    2.7 小结

    第2篇 网络库
    第3章 网络库urllib
    3.1 urllib简介
    3.2 发送请求与获得响应
    3.2.1 用urlopen函数发送HTTPGET请求
    3.2.2 用urlopen函数发送HTTPPOST请求
    3.2.3 请求超时
    3.2.4 设置HTTP请求头
    3.2.5 设置中文HTTP请求头
    3.2.6 请求基础验证页面
    3.2.7 搭建代理与使用代理
    3.2.8 读取和设置Cookie
    3.3 异常处理
    3.3.1 URLError
    3.3.2 HTTPError
    3.4 解析链接
    3.4.1 拆分与合并URL(urlparse与urlunparse)
    3.4.2 另一种拆分与合并URL的方式(urlsplit与urlunsplit)
    3.4.3 连接URL(urljoin)
    3.4.4 URL编码(urlencode)
    3.4.5 编码与解码(quote与unquote)
    3.4.6 参数转换(parse_qs与parse_qsl)
    3.5 Robots协议
    3.5.1 Robots协议简介
    3.5.2 分析Robots协议
    3.6 小结
    第4章 网络库u川ib3
    4.1 urllib3简介
    4.2 urllib3模块
    4.3 发送HTTPGET请求
    4.4 发送HTTPPOST请求
    4.5 HTTP请求头
    4.6 HTTP响应Z头
    4.7 上传文件
    4.8 超时
    4.9 小结
    第5章 网络库requests
    5.1 基本用法
    5.1.1 requests的HelIoWorld
    5.1.2 GET请求
    5.1.3 添加HTTP请求头
    5.1.4 抓取二进制数据
    5.1.5 POST请求
    5.1.6 响应数据
    5.2 高级用法
    5.2.1 上传文件
    5.2.2 处理Cookie
    5.2.3 使用同一个会话(Session)
    5.2.4 SSL证书验证
    5.2.5 使用代理
    5.2.6 超时
    5.2.7 身份验证
    5.2.8 将请求打包
    5.3 小结
    第6章 Twisted网络框架
    ……

    第3篇 解析库
    第4篇 数据存储
    第5篇 爬虫高级应用
查看详情
相关图书 / 更多
Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂
Python和PySpark数据分析
(加)乔纳森·里乌
Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂
Python机器学习入门与实践 从深度学习到生成对抗网络GAN 深入浅出GAN生成对抗网络 实战gan TensorFlow与Keras 人工智能技术书籍
(日)大关真之
Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂
Python程序设计基础实践教程
任志考;孙劲飞;叶臣
Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂
Python语言程序设计
王刚
Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂
Python代码编程 学科项目式编程(六年级)
冯建刚
Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂
Python机器学习 : 核心技术与开发实战 周志华西瓜书机器学习实战伴侣书
[美]普拉提克·乔希 著;李现伟 译者;颉腾文化 出品;阿尔伯托·阿尔塔桑切斯(美);曾小健
Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂
Python数据分析从入门到精通(第2版)
明日科技
Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂
Python数据分析与挖掘
齐福利
Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂
Python基础与应用(互联网+教育新形态一体化系列教材)
李喆时、谢家立、赵丽 编
Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂
Python数据分析与可视化项目实战
王振丽
Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂
Python爬虫从菜鸟到高手
李宁
Python爬虫技术:深入理解原理、技术与开发/宁哥大讲堂
Python程序设计基础教程
\"孙海龙 王济军\