Python网络数据采集

Python网络数据采集

分享

作者: [美] 米切尔（Ryan Mitchell）著 , 陶俊杰译 , 陈小莉译

出版社: 人民邮电出版社

出版时间: 2016-03

版次: 1

ISBN: 9787115416292

定价: 59.00

装帧: 平装

开本: 16开

纸张: 胶版纸

页数: 200页

字数: 280千字

正文语种: 简体中文

原版书名: Web Scraping with Python Collecting Date From The Modern Web

丛书: 图灵程序设计丛书

分类: 计算机与互联网

778人买过

　　本书采用简洁强大的Python语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。第1部分重点介绍网络数据采集的基本原理：如何用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。　　Ryan Mitchell，数据科学家、软件工程师，目前在波士顿LinkeDrive公司负责开发公司的API和数据分析工具。此前，曾在Abine公司构建网络爬虫和网络机器人。她经常做网络数据采集项目的咨询工作，主要面向金融和零售业。另著有Instant Web Scraping with Java。译者序   ix
前言   xi
第一部分　创建爬虫
第1章　初见网络爬虫   2
1．1　网络连接   2
1．2　BeautifulSoup简介   4
1．2．1　安装BeautifulSoup   5
1．2．2　运行BeautifulSoup   7
1．2．3　可靠的网络连接   8
第2章　复杂HTML解析   11
2．1　不是一直都要用锤子   11
2．2　再端一碗BeautifulSoup   12
2．2．1　BeautifulSoup的find()和findAll()   13
2．2．2　其他BeautifulSoup对象   15
2．2．3　导航树   16
2．3　正则表达式   19
2．4　正则表达式和BeautifulSoup   23
2．5　获取属性   24
2．6　Lambda表达式   24
2．7　超越BeautifulSoup   25
第3 章　开始采集   26
3．1　遍历单个域名   26
3．2　采集整个网站   30
3．3　通过互联网采集   34
3．4　用Scrapy 采集   38
第4 章　使用API   42
4．1　API 概述   43
4．2　API 通用规则   43
4．2．1　方法   44
4．2．2　验证   44
4．3　服务器响应   45
4．4　Echo Nest   46
4．5　Twitter API   48
4．5．1　开始   48
4．5．2　几个示例   50
4．6　Google API   52
4．6．1　开始   52
4．6．2　几个示例   53
4．7　解析JSON 数据   55
4．8　回到主题   56
4．9　再说一点API   60
第5 章　存储数据   61
5．1　媒体文件   61
5．2　把数据存储到CSV   64
5．3　MySQL   65
5．3．1　安装MySQL   66
5．3．2　基本命令   68
5．3．3　与Python 整合   71
5．3．4　数据库技术与最佳实践   74
5．3．5　MySQL 里的“六度空间游戏”   75
5．4　Email   77
第6 章　读取文档   80
6．1　文档编码   80
6．2　纯文本   81
6．3　CSV   85
6．4　PDF  87
6．5　微软Word 和．docx   88
第二部分　高级数据采集
第7 章　数据清洗   94
7．1　编写代码清洗数据   94
7．2　数据存储后再清洗   98
第8 章　自然语言处理   103
8．1　概括数据   104
8．2　马尔可夫模型   106
8．3　自然语言工具包   112
8．3．1　安装与设置   112
8．3．2　用NLTK 做统计分析   113
8．3．3　用NLTK 做词性分析   115
8．4　其他资源   119
第9 章　穿越网页表单与登录窗口进行采集   120
9．1　Python Requests 库   120
9．2　提交一个基本表单   121
9．3　单选按钮、复选框和其他输入   123
9．4　提交文件和图像   124
9．5　处理登录和cookie   125
9．6　其他表单问题   127
第10 章　采集JavaScript   128
10．1　JavaScript 简介   128
10．2　Ajax 和动态HTML   131
10．3　处理重定向   137
第11 章　图像识别与文字处理   139
11．1　OCR 库概述   140
11．1．1　Pillow   140
11．1．2　Tesseract   140
11．1．3　NumPy   141
11．2　处理格式规范的文字   142
11．3　读取验证码与训练Tesseract   146
11．4　获取验证码提交答案   151
第12 章　避开采集陷阱   154
12．1　道德规范   154
12．2　让网络机器人看起来像人类用户   155
12．2．1　修改请求头   155
12．2．2　处理cookie   157
12．2．3　时间就是一切   159
12．3　常见表单安全措施   159
12．3．1　隐含输入字段值   159
12．3．2　避免蜜罐   160
12．4　问题检查表   162
第13 章　用爬虫测试网站   164
13．1　测试简介   164
13．2　Python 单元测试  165
13．3　Selenium 单元测试   168
13．4　Python 单元测试与Selenium 单元测试的选择   172
第14 章　远程采集   174
14．1　为什么要用远程服务器   174
14．1．1　避免IP 地址被封杀   174
14．1．2　移植性与扩展性   175
14．2　Tor 代理服务器   176
14．3　远程主机   177
14．3．1　从网站主机运行   178
14．3．2　从云主机运行   178
14．4　其他资源   179
14．5　勇往直前   180
附录A　Python 简介   181
附录B　互联网简介   184
附录C　网络数据采集的法律与道德约束   188
作者简介   200
封面介绍   200
内容简介:
　　本书采用简洁强大的Python语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。第1部分重点介绍网络数据采集的基本原理：如何用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。
作者简介:
　　Ryan Mitchell，数据科学家、软件工程师，目前在波士顿LinkeDrive公司负责开发公司的API和数据分析工具。此前，曾在Abine公司构建网络爬虫和网络机器人。她经常做网络数据采集项目的咨询工作，主要面向金融和零售业。另著有Instant Web Scraping with Java。
目录:
译者序   ix
前言   xi
第一部分　创建爬虫
第1章　初见网络爬虫   2
1．1　网络连接   2
1．2　BeautifulSoup简介   4
1．2．1　安装BeautifulSoup   5
1．2．2　运行BeautifulSoup   7
1．2．3　可靠的网络连接   8
第2章　复杂HTML解析   11
2．1　不是一直都要用锤子   11
2．2　再端一碗BeautifulSoup   12
2．2．1　BeautifulSoup的find()和findAll()   13
2．2．2　其他BeautifulSoup对象   15
2．2．3　导航树   16
2．3　正则表达式   19
2．4　正则表达式和BeautifulSoup   23
2．5　获取属性   24
2．6　Lambda表达式   24
2．7　超越BeautifulSoup   25
第3 章　开始采集   26
3．1　遍历单个域名   26
3．2　采集整个网站   30
3．3　通过互联网采集   34
3．4　用Scrapy 采集   38
第4 章　使用API   42
4．1　API 概述   43
4．2　API 通用规则   43
4．2．1　方法   44
4．2．2　验证   44
4．3　服务器响应   45
4．4　Echo Nest   46
4．5　Twitter API   48
4．5．1　开始   48
4．5．2　几个示例   50
4．6　Google API   52
4．6．1　开始   52
4．6．2　几个示例   53
4．7　解析JSON 数据   55
4．8　回到主题   56
4．9　再说一点API   60
第5 章　存储数据   61
5．1　媒体文件   61
5．2　把数据存储到CSV   64
5．3　MySQL   65
5．3．1　安装MySQL   66
5．3．2　基本命令   68
5．3．3　与Python 整合   71
5．3．4　数据库技术与最佳实践   74
5．3．5　MySQL 里的“六度空间游戏”   75
5．4　Email   77
第6 章　读取文档   80
6．1　文档编码   80
6．2　纯文本   81
6．3　CSV   85
6．4　PDF  87
6．5　微软Word 和．docx   88
第二部分　高级数据采集
第7 章　数据清洗   94
7．1　编写代码清洗数据   94
7．2　数据存储后再清洗   98
第8 章　自然语言处理   103
8．1　概括数据   104
8．2　马尔可夫模型   106
8．3　自然语言工具包   112
8．3．1　安装与设置   112
8．3．2　用NLTK 做统计分析   113
8．3．3　用NLTK 做词性分析   115
8．4　其他资源   119
第9 章　穿越网页表单与登录窗口进行采集   120
9．1　Python Requests 库   120
9．2　提交一个基本表单   121
9．3　单选按钮、复选框和其他输入   123
9．4　提交文件和图像   124
9．5　处理登录和cookie   125
9．6　其他表单问题   127
第10 章　采集JavaScript   128
10．1　JavaScript 简介   128
10．2　Ajax 和动态HTML   131
10．3　处理重定向   137
第11 章　图像识别与文字处理   139
11．1　OCR 库概述   140
11．1．1　Pillow   140
11．1．2　Tesseract   140
11．1．3　NumPy   141
11．2　处理格式规范的文字   142
11．3　读取验证码与训练Tesseract   146
11．4　获取验证码提交答案   151
第12 章　避开采集陷阱   154
12．1　道德规范   154
12．2　让网络机器人看起来像人类用户   155
12．2．1　修改请求头   155
12．2．2　处理cookie   157
12．2．3　时间就是一切   159
12．3　常见表单安全措施   159
12．3．1　隐含输入字段值   159
12．3．2　避免蜜罐   160
12．4　问题检查表   162
第13 章　用爬虫测试网站   164
13．1　测试简介   164
13．2　Python 单元测试  165
13．3　Selenium 单元测试   168
13．4　Python 单元测试与Selenium 单元测试的选择   172
第14 章　远程采集   174
14．1　为什么要用远程服务器   174
14．1．1　避免IP 地址被封杀   174
14．1．2　移植性与扩展性   175
14．2　Tor 代理服务器   176
14．3　远程主机   177
14．3．1　从网站主机运行   178
14．3．2　从云主机运行   178
14．4　其他资源   179
14．5　勇往直前   180
附录A　Python 简介   181
附录B　互联网简介   184
附录C　网络数据采集的法律与道德约束   188
作者简介   200
封面介绍   200

查看详情

相关分类

计算机理论编程与开发操作系统大数据与云计算图形图像/多媒体网站设计与网页开发网络与通讯硬件、嵌入式开发办公软件信息安全辅助设计与工程计算软件工程/开发项目管理

Python网络数据采集

九品

山东威海学而书店

山东省威海市

平均发货1小时成功完成率96.64%

￥0.01

券

100减20

立即购买加入购物车
5

Python网络数据采集

九品

四路书屋

北京市西城区

平均发货12小时成功完成率95.71%

￥1.99

券

100减20

立即购买加入购物车
7

Python网络数据采集

八五品

再来一本书店

北京市朝阳区

平均发货9小时成功完成率97.68%

￥2.00

券

100减20

立即购买加入购物车
Python网络数据采集现货秒发所有图书均为单本，图片显示多本勿拍，不保证有赠品附件

八五品

悦淘好书

河北省廊坊市

平均发货10小时成功完成率24%

￥2.50

券

100减20

立即购买加入购物车不属于本条目
Python网络数据采集现货秒发所有图书均为单本，图片显示多本勿拍，不保证有赠品附件

八五品

艺淘老书

河北省廊坊市

平均发货10小时成功完成率47.06%

￥2.50

券

100减20

立即购买加入购物车不属于本条目
Python网络数据采集 [美]米切尔人民邮电出版社 2016-03 9787115416292 现货秒发所有图书均为单本，图片显示多本勿拍，不保证有赠品附件

八五品

品悦轩旧书店

河北省廊坊市

平均发货8小时成功完成率88.53%

￥2.50

券

100减20

立即购买加入购物车不属于本条目
Python网络数据采集

八五品

三锦书院

山东省枣庄市

平均发货11小时成功完成率94.55%

￥2.78

券

100减20

立即购买加入购物车
Python网络数据采集

八五品

三锦书院

山东省枣庄市

平均发货11小时成功完成率94.55%

￥2.79

券

100减20

立即购买加入购物车
3

Python网络数据采集

九品

阿峻的店

山东省泰安市

平均发货9小时成功完成率87.8%

￥3.00

券

100减20

立即购买加入购物车不属于本条目
3

Python网络数据采集

八五品

文熙书院

河北省廊坊市

平均发货6小时成功完成率97.67%

￥3.00

券

100减20

立即购买加入购物车
5

Python网络数据采集

2016-03 印刷
印次: 1

八五品

满溢书斋

河南省濮阳市

平均发货5小时成功完成率97.9%

￥3.00

券

100减20

立即购买加入购物车不属于本条目
6

Python网络数据采集书脊破损，书侧有印痕

九品

未曾描述的梦境

北京市海淀区

平均发货6小时成功完成率98.11%

￥3.00

券

100减20

立即购买加入购物车不属于本条目
4

Python网络数据采集(注意书籍为印刷版，介意勿拍)

八五品

新知图书店

陕西省西安市

平均发货12小时成功完成率94.9%

￥3.00

券

100减20

立即购买加入购物车
3

Python网络数据采集

2016-03 印刷
印次: 1

八五品

满溢书斋

河南省濮阳市

平均发货5小时成功完成率97.9%

￥4.00

券

100减20

立即购买加入购物车不属于本条目
3

Python网络数据采集

八五品

雷山书社

广东省汕头市

平均发货7小时成功完成率97.27%

￥4.00

券

100减20

立即购买加入购物车不属于本条目
Python网络数据采集 18-03-29

八五品

满分书院

广东省东莞市

平均发货6小时成功完成率96.8%

￥4.00

券

100减20

立即购买加入购物车
Python网络数据采集 18-05-14

八五品

满分书院

广东省东莞市

平均发货6小时成功完成率96.8%

￥4.00

券

100减20

立即购买加入购物车
9

Python网络数据采集

八五品

小伟书店

北京市海淀区

平均发货16小时成功完成率95.28%

￥4.00

券

100减20

立即购买加入购物车
7

Python网络数据采集

八五品

闲豆书店

北京市昌平区

平均发货13小时成功完成率95.52%

￥4.00

券

100减20

立即购买加入购物车
Python网络数据采集

九品

晴天的图书店

河北省保定市

平均发货9小时成功完成率91.8%

￥4.73

券

100减20

立即购买加入购物车
Python网络数据采集

九品

志悦淋图书店

天津市宝坻区

平均发货9小时成功完成率91.87%

￥4.73

券

100减20

立即购买加入购物车
6

Python网络数据采集

九品

年华书社

北京市昌平区

平均发货10小时成功完成率94.16%

￥4.80

券

100减20

立即购买加入购物车
11

Python网络数据采集

九品

趣蜂图书

北京市东城区

平均发货6小时成功完成率100%

￥5.00

券

100减20

立即购买加入购物车不属于本条目
8

Python网络数据采集书脊有标签正版现货内页干净

九品

木槿书馆的书店

北京市昌平区

平均发货12小时成功完成率96.5%

￥5.00

券

100减20

立即购买加入购物车
3

Python网络数据采集

九品

高升书屋

北京市海淀区

平均发货12小时成功完成率95.06%

￥5.00

券

100减20

立即购买加入购物车不属于本条目
6

Python网络数据采集

八五品

八方书店

河北省沧州市

平均发货10小时成功完成率95.37%

￥5.00

券

100减20

立即购买加入购物车
10

Python网络数据采集有十来页划线

九品

书坊书店

北京市昌平区

平均发货9小时成功完成率94.33%

￥5.00

券

100减20

立即购买加入购物车
4

Python网络数据采集正版现货实拍内页干净扉页开胶

八五品

逸萌书屋@

北京市昌平区

平均发货10小时成功完成率97.57%

￥5.00

券

100减20

立即购买加入购物车
4

Python网络数据采集详情看图。

九品

保龙书店

北京市海淀区

平均发货12小时成功完成率97.23%

￥5.00

券

100减20

立即购买加入购物车
3

Python网络数据采集

九五品

魏公子落书斋的书摊

广东省深圳市

￥5.00

券

100减20

立即购买加入购物车
7

Python网络数据采集

九品

书香悦读

四川省成都市

平均发货8小时成功完成率97.31%

￥5.00

券

100减20

立即购买加入购物车
Python网络数据采集急速发货，有事可咨询店铺客服，紧急可拨打电话:13794916575

八品

往事书局

广东省汕头市

平均发货7小时成功完成率95.83%

￥5.19

券

100减20

立即购买加入购物车不属于本条目
4

Python网络数据采集

八五品

执中书斋

安徽省蚌埠市

平均发货11小时成功完成率93.33%

￥5.66

券

100减20

立即购买加入购物车不属于本条目
4

Python网络数据采集

八五品

岁暮轩

上海市奉贤区

平均发货8小时成功完成率96.77%

￥5.66

券

100减20

立即购买加入购物车
7

Python网络数据采集正版书，内页完好无损。

2017年印刷

九品

成华区蜀雅轩书店

四川省成都市

平均发货12小时成功完成率93.81%

￥5.90

券

100减20

立即购买加入购物车
7

Python网络数据采集

八五品

文化堂书店

北京市昌平区

平均发货6小时成功完成率97.64%

￥6.00

券

100减20

立即购买加入购物车不属于本条目
7

Python网络数据采集

九品

瑶瑶760215书店

北京市朝阳区

平均发货16小时成功完成率80.11%

￥6.00

券

100减20

立即购买加入购物车
3

Python网络数据采集二手现货，实物拍摄，品相如图

九品

朋骋书店

河南省平顶山市

平均发货5小时成功完成率94.32%

￥6.00

券

100减20

立即购买加入购物车
3

Python网络数据采集二手现货，实物拍摄，品相如图

九品

尚鑫书店

河南省平顶山市

平均发货5小时成功完成率93.56%

￥6.00

券

100减20

立即购买加入购物车
2

Python网络数据采集

九品

玉碧书店

四川省成都市

平均发货11小时成功完成率88.85%

￥7.00

券

100减20

立即购买加入购物车
6

Python网络数据采集

九品

鼎峰书社

广东省东莞市

平均发货4小时成功完成率97.48%

￥7.00

券

100减20

立即购买加入购物车
2

Python网络数据采集

八五品

一米露书店

河南省商丘市

平均发货8小时成功完成率96.3%

￥7.00

券

100减20

立即购买加入购物车
2

Python网络数据采集

九品

和平书社

北京市海淀区

平均发货11小时成功完成率95.16%

￥7.00

券

100减20

立即购买加入购物车
3

Python网络数据采集

八五品

听雨草堂

河南省新乡市

平均发货8小时成功完成率97.59%

￥7.60

券

100减20

立即购买加入购物车
8

Python网络数据采集二手书籍，正版现货，发货迅速，包装结实

八五品

传媒书店

四川省成都市

平均发货7小时成功完成率97.1%

￥7.80

券

100减20

立即购买加入购物车不属于本条目
6

Python网络数据采集

九品

书香之韵

北京市海淀区

平均发货6小时成功完成率98.63%

￥7.80

券

100减20

立即购买加入购物车不属于本条目
3

Python网络数据采集

九品

京津冀书店

河北省衡水市

平均发货6小时成功完成率97.4%

￥8.00

券

100减20

立即购买加入购物车
Python网络数据采集

九品

知明旧书店分店

北京市海淀区

平均发货6小时成功完成率92.02%

￥8.00

券

100减20

立即购买加入购物车不属于本条目
4

Python网络数据采集

2017-11 印刷
印次: 10

八五品

墨香聚书阁

安徽省蚌埠市

平均发货11小时成功完成率98.34%

￥8.00

券

100减20

立即购买加入购物车不属于本条目
5

Python网络数据采集

九品

华夏淘宝书屋

北京市东城区

平均发货7小时成功完成率96.83%

￥8.00

券

100减20

立即购买加入购物车