Python数据处理

Python数据处理
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: 译者 , (Jacqueline Kazil) , (Katharine Jarmul)
2017-07
版次: 1
ISBN: 9787115459190
定价: 99.00
装帧: 平装
开本: 其他
页数: 378页
正文语种: 简体中文
原版书名: Data Wrangling with Python
分类: 工程技术
226人买过
  • 本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和API中提取数据。
                                     作者:[美] 杰奎琳·凯泽尔(Jacqueline Kazil)凯瑟琳?贾缪尔(Katharine Jarmul) 译者:张亮 吕家明
    Jacqueline Kazil,数据科学家,zi深软件开发者。活跃于Python软件基金会、PyLadies等社区。曾参与美国总统创新伙伴项目,是美国政府技术组织18F的联合创始人。曾担任《华盛顿邮报》数据记者。

    Katharine Jarmul,zi深Python开发者,PyLadies联合创始人。喜欢数据分析和获取、网页抓取、教人学习Python以及Unix,期望通过教育和培训来促进Python和其他开源语言的多元化。
                                     前言xiii
    第1 章Python简介 1
    1.1 为什么选择Python 4
    1.2 开始使用Python 4
    1.2.1 Python版本选择 5
    1.2.2 安装Python 6
    1.2.3 测试Python 9
    1.2.4 安装pip 11
    1.2.5 安装代码编辑器 12
    1.2.6 安装IPython(可选) 13
    1.3 小结 13
    第2 章Python基础 14
    2.1 基本数据类型 15
    2.1.1 字符串 15
    2.1.2 整数和浮点数 15
    2.2 数据容器 18
    2.2.1 变量 18
    2.2.2 列表 21
    2.2.3 字典 22
    2.3 各种数据类型的用途 23
    2.3.1 字符串方法:字符串能做什么 24
    2.3.2 数值方法:数字能做什么 25
    2.3.3 列表方法:列表能做什么 26
    2.3.4 字典方法:字典能做什么 27
    2.4 有用的工具:type、dir和help 28
    2.4.1 type 28
    2.4.2 dir 28
    2.4.3 help 30
    2.5 综合运用 31
    2.6 代码的含义 32
    2.7 小结 33
    第3 章供机器读取的数据 34
    3.1 CSV数据 35
    3.1.1 如何导入CSV数据 36
    3.1.2 将代码保存到文件中并在命令行中运行 39
    3.2 JSON数据 41
    3.3 XML数据 44
    3.4 小结 56
    第4 章处理Excel文件 58
    4.1 安装Python包 58
    4.2 解析Excel文件 59
    4.3 开始解析 60
    4.4 小结 71
    第5 章处理PDF文件,以及用Python解决问题 73
    5.1 尽量不要用PDF 73
    5.2 解析PDF的编程方法 74
    5.2.1 利用slate库打开并读取PDF 75
    5.2.2 将PDF转换成文本 77
    5.3 利用pdfminer解析PDF 78
    5.4 学习解决问题的方法 92
    5.4.1 练习:使用表格提取,换用另一个库 94
    5.4.2 练习:手动清洗数据 98
    5.4.3 练习:试用另一种工具 98
    5.5 不常见的文件类型 101
    5.6 小结 101
    第6 章数据获取与存储 103
    6.1 并非所有数据生而平等 103
    6.2 真实性核查 104
    6.3 数据可读性、数据清洁度和数据寿命 105
    6.4 寻找数据 105
    6.4.1 打电话 105
    6.4.2 美国政府数据 106
    6.4.3 全球政府和城市开放数据 107
    6.4.4 组织数据和非政府组织数据 109
    6.4.5 教育数据和大学数据 109
    6.4.6 医学数据和科学数据 109
    6.4.7 众包数据和API 110
    6.5 案例研究:数据调查实例 111
    6.5.1 埃博拉病毒危机 111
    6.5.2 列车安全 111
    6.5.3 足球运动员的薪水 112
    6.5.4 童工 112
    6.6 数据存储 113
    6.7 数据库简介 113
    6.7.1 关系型数据库:MySQL和PostgreSQL 114
    6.7.2 非关系型数据库:NoSQL 116
    6.7.3 用Python创建本地数据库 117
    6.8 使用简单文件 118
    6.8.1 云存储和Python 118
    6.8.2 本地存储和Python 119
    6.9 其他数据存储方式 119
    6.10 小结 119
    第7 章数据清洗:研究、匹配与格式化 121
    7.1 为什么要清洗数据 121
    7.2 数据清洗基础知识 122
    7.2.1 找出需要清洗的数据 123
    7.2.2 数据格式化 131
    7.2.3 找出离群值和不良数据 135
    7.2.4 找出重复值 140
    7.2.5 模糊匹配 143
    7.2.6 正则表达式匹配 146
    7.2.7 如何处理重复记录 150
    7.3 小结 151
    第8 章数据清洗:标准化和脚本化 153
    8.1 数据归一化和标准化 153
    8.2 数据存储 154
    8.3 找到适合项目的数据清洗方法 156
    8.4 数据清洗脚本化 157
    8.5 用新数据测试 170
    8.6 小结 172
    第9 章数据探索和分析 173
    9.1 探索数据 173
    9.1.1 导入数据 174
    9.1.2 探索表函数 179
    9.1.3 联结多个数据集 182
    9.1.4 识别相关性 186
    9.1.5 找出离群值 187
    9.1.6 创建分组 189
    9.1.7 深入探索 192
    9.2 分析数据 193
    9.2.1 分离和聚焦数据 194
    9.2.2 你的数据在讲什么 196
    9.2.3 描述结论 196
    9.2.4 将结论写成文档 197
    9.3 小结 197
    第10 章展示数据 199
    10.1 避免讲故事陷阱 199
    10.1.1 怎样讲故事 200
    10.1.2 了解听众 200
    10.2 可视化数据 201
    10.2.1 图表 201
    10.2.2 时间相关数据 207
    10.2.3 地图 208
    10.2.4 交互式元素 211
    10.2.5 文字 212
    10.2.6 图片、视频和插画 212
    10.3 展示工具 213
    10.4 发布数据 213
    10.4.1 使用可用站点 213
    10.4.2 开源平台:创建一个新网站 215
    10.4.3 Jupyter(曾名IPythonnotebook) 216
    10.5 小结 219
    第11 章网页抓取:获取并存储网络数据 221
    11.1 抓取什么和如何抓取 221
    11.2 分析网页 223
    11.2.1 检视:标记结构 224
    11.2.2 网络/时间线:页面是如何加载的 230
    11.2.3 控制台:同JavaScript交互 232
    11.2.4 页面的深入分析 236
    11.3 得到页面:如何通过互联网发出请求 237
    11.4 使用BeautifulSoup读取网页 238
    11.5 使用lxml读取网页 241
    11.6 小结 249
    ……
    第12 章高级网页抓取:屏幕抓取器与爬虫 251
    第13 章应用编程接口 286
    第14 章自动化和规模化 298
    第15 章结论 330
    附录A 编程语言对比 334
    附录B 初学者的Python学习资源 336
    附录C 学习命令行 338
    附录D 高级Python设置 349
    附录E Python陷阱 361
    附录F IPython指南 370
    附录G 使用亚马逊网络服务 374
    关于作者 378
    关于封面 378
  • 内容简介:
    本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和API中提取数据。
  • 作者简介:

                                     作者:[美] 杰奎琳·凯泽尔(Jacqueline Kazil)凯瑟琳?贾缪尔(Katharine Jarmul) 译者:张亮 吕家明
    Jacqueline Kazil,数据科学家,zi深软件开发者。活跃于Python软件基金会、PyLadies等社区。曾参与美国总统创新伙伴项目,是美国政府技术组织18F的联合创始人。曾担任《华盛顿邮报》数据记者。

    Katharine Jarmul,zi深Python开发者,PyLadies联合创始人。喜欢数据分析和获取、网页抓取、教人学习Python以及Unix,期望通过教育和培训来促进Python和其他开源语言的多元化。
  • 目录:

                                     前言xiii
    第1 章Python简介 1
    1.1 为什么选择Python 4
    1.2 开始使用Python 4
    1.2.1 Python版本选择 5
    1.2.2 安装Python 6
    1.2.3 测试Python 9
    1.2.4 安装pip 11
    1.2.5 安装代码编辑器 12
    1.2.6 安装IPython(可选) 13
    1.3 小结 13
    第2 章Python基础 14
    2.1 基本数据类型 15
    2.1.1 字符串 15
    2.1.2 整数和浮点数 15
    2.2 数据容器 18
    2.2.1 变量 18
    2.2.2 列表 21
    2.2.3 字典 22
    2.3 各种数据类型的用途 23
    2.3.1 字符串方法:字符串能做什么 24
    2.3.2 数值方法:数字能做什么 25
    2.3.3 列表方法:列表能做什么 26
    2.3.4 字典方法:字典能做什么 27
    2.4 有用的工具:type、dir和help 28
    2.4.1 type 28
    2.4.2 dir 28
    2.4.3 help 30
    2.5 综合运用 31
    2.6 代码的含义 32
    2.7 小结 33
    第3 章供机器读取的数据 34
    3.1 CSV数据 35
    3.1.1 如何导入CSV数据 36
    3.1.2 将代码保存到文件中并在命令行中运行 39
    3.2 JSON数据 41
    3.3 XML数据 44
    3.4 小结 56
    第4 章处理Excel文件 58
    4.1 安装Python包 58
    4.2 解析Excel文件 59
    4.3 开始解析 60
    4.4 小结 71
    第5 章处理PDF文件,以及用Python解决问题 73
    5.1 尽量不要用PDF 73
    5.2 解析PDF的编程方法 74
    5.2.1 利用slate库打开并读取PDF 75
    5.2.2 将PDF转换成文本 77
    5.3 利用pdfminer解析PDF 78
    5.4 学习解决问题的方法 92
    5.4.1 练习:使用表格提取,换用另一个库 94
    5.4.2 练习:手动清洗数据 98
    5.4.3 练习:试用另一种工具 98
    5.5 不常见的文件类型 101
    5.6 小结 101
    第6 章数据获取与存储 103
    6.1 并非所有数据生而平等 103
    6.2 真实性核查 104
    6.3 数据可读性、数据清洁度和数据寿命 105
    6.4 寻找数据 105
    6.4.1 打电话 105
    6.4.2 美国政府数据 106
    6.4.3 全球政府和城市开放数据 107
    6.4.4 组织数据和非政府组织数据 109
    6.4.5 教育数据和大学数据 109
    6.4.6 医学数据和科学数据 109
    6.4.7 众包数据和API 110
    6.5 案例研究:数据调查实例 111
    6.5.1 埃博拉病毒危机 111
    6.5.2 列车安全 111
    6.5.3 足球运动员的薪水 112
    6.5.4 童工 112
    6.6 数据存储 113
    6.7 数据库简介 113
    6.7.1 关系型数据库:MySQL和PostgreSQL 114
    6.7.2 非关系型数据库:NoSQL 116
    6.7.3 用Python创建本地数据库 117
    6.8 使用简单文件 118
    6.8.1 云存储和Python 118
    6.8.2 本地存储和Python 119
    6.9 其他数据存储方式 119
    6.10 小结 119
    第7 章数据清洗:研究、匹配与格式化 121
    7.1 为什么要清洗数据 121
    7.2 数据清洗基础知识 122
    7.2.1 找出需要清洗的数据 123
    7.2.2 数据格式化 131
    7.2.3 找出离群值和不良数据 135
    7.2.4 找出重复值 140
    7.2.5 模糊匹配 143
    7.2.6 正则表达式匹配 146
    7.2.7 如何处理重复记录 150
    7.3 小结 151
    第8 章数据清洗:标准化和脚本化 153
    8.1 数据归一化和标准化 153
    8.2 数据存储 154
    8.3 找到适合项目的数据清洗方法 156
    8.4 数据清洗脚本化 157
    8.5 用新数据测试 170
    8.6 小结 172
    第9 章数据探索和分析 173
    9.1 探索数据 173
    9.1.1 导入数据 174
    9.1.2 探索表函数 179
    9.1.3 联结多个数据集 182
    9.1.4 识别相关性 186
    9.1.5 找出离群值 187
    9.1.6 创建分组 189
    9.1.7 深入探索 192
    9.2 分析数据 193
    9.2.1 分离和聚焦数据 194
    9.2.2 你的数据在讲什么 196
    9.2.3 描述结论 196
    9.2.4 将结论写成文档 197
    9.3 小结 197
    第10 章展示数据 199
    10.1 避免讲故事陷阱 199
    10.1.1 怎样讲故事 200
    10.1.2 了解听众 200
    10.2 可视化数据 201
    10.2.1 图表 201
    10.2.2 时间相关数据 207
    10.2.3 地图 208
    10.2.4 交互式元素 211
    10.2.5 文字 212
    10.2.6 图片、视频和插画 212
    10.3 展示工具 213
    10.4 发布数据 213
    10.4.1 使用可用站点 213
    10.4.2 开源平台:创建一个新网站 215
    10.4.3 Jupyter(曾名IPythonnotebook) 216
    10.5 小结 219
    第11 章网页抓取:获取并存储网络数据 221
    11.1 抓取什么和如何抓取 221
    11.2 分析网页 223
    11.2.1 检视:标记结构 224
    11.2.2 网络/时间线:页面是如何加载的 230
    11.2.3 控制台:同JavaScript交互 232
    11.2.4 页面的深入分析 236
    11.3 得到页面:如何通过互联网发出请求 237
    11.4 使用BeautifulSoup读取网页 238
    11.5 使用lxml读取网页 241
    11.6 小结 249
    ……
    第12 章高级网页抓取:屏幕抓取器与爬虫 251
    第13 章应用编程接口 286
    第14 章自动化和规模化 298
    第15 章结论 330
    附录A 编程语言对比 334
    附录B 初学者的Python学习资源 336
    附录C 学习命令行 338
    附录D 高级Python设置 349
    附录E Python陷阱 361
    附录F IPython指南 370
    附录G 使用亚马逊网络服务 374
    关于作者 378
    关于封面 378
查看详情
系列丛书 / 更多
Python数据处理
机器学习实战
[美]Peter Harrington 著;李锐、李鹏、曲亚东 译
Python数据处理
图灵程序设计丛书:Python基础教程
[挪威]Magnus Lie Hetland 著;司维、曾军崴、谭颖华 译
Python数据处理
JavaScript高级程序设计(第3版)
[美]Nicholas C.Zakas 著;李松峰、曹力 译
Python数据处理
Python编程:从入门到实践
[美]埃里克·马瑟斯(Eric Matthes) 著;袁国忠 译
Python数据处理
R语言实战(第2版)
[美]卡巴科弗(Robert I. Kabacoff) 著;王小宁、刘撷芯、黄俊文 译
Python数据处理
算法(第4版)
[美]Robert、[美]Kevin Wayne 著;谢路云 译
Python数据处理
大数据:互联网大规模数据挖掘与分布式处理
[美]Anand、[美]Jeffrey David Ullman 著;王斌 译
Python数据处理
Spark快速大数据分析
[美]卡劳(Holden Karau)、[美]肯维尼斯科(Andy Konwinski)、[美]温德尔(Patrick Wendell)、[加拿大]扎哈里亚(Matei Zaharia) 著;王道远 译
Python数据处理
图解HTTP
[日]上野·宣 著;于均良 译
Python数据处理
MySQL必知必会
[英]福塔(Ben Forta) 著;刘晓霞、钟鸣 译
Python数据处理
Objective-C基础教程 第2版
[美]Scott、[美]Waqar、[美]Mark Dalrymple 著;周庆成 译
Python数据处理
算法图解
袁国忠 译
相关图书 / 更多
Python数据处理
Python游戏开发从入门到进阶实战
明日科技 编著
Python数据处理
Python数值分析算法实践
王娟
Python数据处理
PyTorch深度学习指南:计算机视觉 卷II 王兆宇
(巴西)丹尼尔·沃格特·戈多伊
Python数据处理
PyTorch深度学习指南:序列与自然语言处理 卷III
(巴西)丹尼尔·沃格特·戈多伊(Daniel Voigt Godoy)
Python数据处理
PyTorch深度学习与企业级项目实战
宋立桓 宋立林
Python数据处理
PyTorch深度学习指南:编程基础 卷I
(巴西)丹尼尔·沃格特·戈多伊
Python数据处理
Python数据分析快速上手
王靖、商艳红、张洪波、卢军
Python数据处理
Python在结构动力计算中的应用
龙晓鸿 等
Python数据处理
Python量子计算实践:基于Qiskit和IBM Quantum Experience平台
(美)哈西·诺伦(Hassi Norlén)
Python数据处理
Python Streamlit从入门到实战——快速构建机器学习和数据科学Web应用(微课视频版)
王鑫
Python数据处理
Python服务端测试开发实战
无涯
Python数据处理
Python语言科研绘图与学术图表绘制从入门到精通 科技绘图与科学可视化专业教程
关东升 编著
您可能感兴趣 / 更多
Python数据处理
超解费曼学习法(实践版):学霸是这样炼成的
张亮 著;天河世纪图书 出品
Python数据处理
“有X”的历时演变与共时功能研究
张亮 著
Python数据处理
增材制造金属的腐蚀行为与机理
张亮 编著;董超芳;孔德成
Python数据处理
运营升阶笔记
张亮 著
Python数据处理
中华优秀传统文化
张亮 薛茂云
Python数据处理
巴菲特 : 一生的财富之道
张亮 著;天河世纪图书 出品
Python数据处理
复杂性视角下银行体系风险传染的计算实验研究
张亮 著
Python数据处理
纪昌学射/绘本里的中国
张亮 著
Python数据处理
中台落地手记业务服务化与数据资产化
张亮 著
Python数据处理
职务犯罪调查实务教程
张亮 著
Python数据处理
马克思主义哲学前沿问题导引(第2版)
张亮 孙乐强 主编
Python数据处理
奇思妙想:小学生看图作文
张亮 编