Jupyter数据科学实战

Jupyter数据科学实战
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [印] (Prateek Gupta) ,
2020-11
版次: 1
ISBN: 9787115544391
定价: 79.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 254页
4人买过
  • 本书旨在成为读者进入数据科学领域的指南。全书共20章,涵盖了数据科学及其应用的各个方面,引入经典数据集将理论与实践相结合,采用Jupyter等工具,以Python语言由浅入深地介绍了数据科学及相关学科的基本概念、数据预处理、机器学习及时间序列等内容,并提供了不同的案例研究,以达到学以致用的效果。通过阅读本书,读者将获得成为一名数据科学家所需的基本知识和技能。

    本书适合有Python或其他编程语言基础,并对数据科学感兴趣的人员阅读。 普拉泰克·古普塔(Prateek Gupta)是一位有着超过6年工作经验的数据科学专业人士,曾在HCL、Zensar和Sapient等多家跨国IT巨头就职,其专业领域主要是寻找模式、运用先进统计方法和算法揭示隐藏的规律,力争最大限度地提高企业收入和盈利能力,并确保高效的运营管理。

    他是一位具有主观能动性并且在电子商务领域颇有建树的忠实数据爱好者,还凭借自己在商品自动分类、情感分析、客户细分和推荐引擎方面的机器学习专业知识帮助了NTUC Singapore和Times Group India等多个客户。他秉持着这一理念:“当天才放弃努力时,勤奋将超越天赋”。

    他感兴趣的是有关机器学习和自然语言处理在各个行业的应用的前沿研究领域。闲暇时,他喜欢通过自己的博客分享知识,并激励年轻人进入令人兴奋的数据科学世界。 第 1章 数据科学基本概念 1

    1.1 数据的概念 2

    1.1.1 结构化数据 2

    1.1.2 非结构化数据 2

    1.1.3 半结构化数据 3

    1.2 数据科学的定义 3

    1.3 数据科学家的工作 4

    1.4 数据科学应用实例 5

    1.5 为何Python适合数据科学 6

    1.6 小结 7

    第 2章 软件安装与配置 8

    2.1 系统要求 9

    2.2 下载Anaconda 9

    2.3 在Windows系统上安装Anaconda 10

    2.4 在Linux系统上安装Anaconda 11

    2.5 如何在Anaconda中安装新的Python库 13

    2.6 打开笔记本―Jupyter 14

    2.7 了解笔记本 15

    2.8 小结 19

    第3章 列表与字典 20

    3.1 什么是列表 21

    3.2 如何创建列表 21

    3.3 列表的不同操作 22

    3.4 列表与数组的差异 25

    3.5 什么是字典 26

    3.6 如何创建字典 26

    3.7 字典的相关操作 26

    3.8 小结 28

    第4章 函数与包 29

    4.1 Python的Help()函数 30

    4.2 如何导入Python包 30

    4.3 如何创建并调用函数 31

    4.4 在函数中传递参数 31

    4.5 函数的默认参数 32

    4.6 如何在函数中使用未知参数 32

    4.7 函数的全局与本地变量 33

    4.8 Lambda函数 35

    4.9 了解Python中的main方法 35

    4.10 小结 38

    第5章 NumPy基本概念 39

    5.1 导入NumPy包 39

    5.2 为何NumPy数组优于列表 40

    5.3 NumPy数组属性 41

    5.4 创建NumPy数组 41

    5.5 访问NumPy数组中的元素 43

    5.6 NumPy数组的切片 44

    5.7 数组连接 46

    5.8 小结 47

    第6章 Pandas和数据帧 48

    6.1 导入Pandas 48

    6.2 Pandas数据结构 49

    6.3 .loc[]和.iloc[] 54

    6.4 一些有用的数据帧函数 55

    6.5 处理数据帧中的缺失值 57

    6.6 小结 60

    第7章 与数据库交互 61

    7.1 SQLAlchemy 62

    7.2 安装SQLAlchemy包 62

    7.3 如何使用SQLAlchemy 63

    7.4 SQLAlchemy引擎配置 64

    7.5 在数据库中新建表 65

    7.6 在表中插入数据 66

    7.7 更新记录 67

    7.8 如何合并表格 68

    7.8.1 内连接 68

    7.8.2 左连接 69

    7.8.3 右连接 70

    7.9 小结 70

    第8章 数据科学中的统计思维 71

    8.1 数据科学中的统计学 72

    8.2 统计数据/变量的类型 72

    8.3 平均数、中位数和众数 73

    8.4 概率的基本概念 74

    8.5 统计分布 75

    8.6 Pearson相关系数 77

    8.7 概率密度函数 78

    8.8 真实案例 79

    8.9 统计推断与假设检验 79

    8.10 小结 86

    第9章 如何在Python中导入数据 87

    9.1 导入TXT数据 88

    9.2 导入CSV数据 89

    9.3 导入Excel数据 90

    9.4 导入JSON数据 90

    9.5 导入腌制数据 91

    9.6 导入压缩数据 91

    9.7 小结 92

    第 10章 清洗导入的数据 93

    10.1 了解数据 94

    10.2 分析缺失值 95

    10.3 丢弃缺失值 97

    10.4 自动填充缺失值 98

    10.5 如何缩放和归一化数据 99

    10.6 如何解析日期 102

    10.7 如何应用字符编码 104

    10.8 清洗不一致的数据 105

    10.9 小结 106

    第 11章 数据可视化 107

    11.1 条形图 108

    11.2 折线图 109

    11.3 直方图 110

    11.4 散点图 111

    11.5 堆积图 111

    11.6 箱线图 113

    11.7 小结 115

    第 12章 数据预处理 116

    12.1 关于案例研究 116

    12.2 导入数据集 117

    12.3 探索性数据分析 118

    12.4 数据清洗与预处理 122

    12.5 特征工程 124

    12.6 小结 129

    第 13章 监督式机器学习 130

    13.1 常见的机器学习术语 131

    13.2 机器学习导论 132

    13.3 常用机器学习算法列述 133

    13.4 监督式机器学习基础 134

    13.5 解决分类机器学习问题 136

    13.6 为何要进行训练/测试拆分和交叉验证 140

    13.7 解决回归机器学习问题 144

    13.8 如何调整机器学习模型 152

    13.9 如何处理sklearn中的分类变量 154

    13.10 处理缺失数据的高级技术 155

    13.11 小结 158

    第 14章 无监督式机器学习 159

    14.1 为何选择无监督式机器学习 160

    14.2 无监督式机器学习技术 160

    14.2.1 聚类 161

    14.2.2 主成分分析 169

    14.3 案例研究 172

    14.4 验证无监督式机器学习 178

    14.5 小结 179

    第 15章 处理时间序列数据 180

    15.1 为何时间序列重要 181

    15.2 如何处理日期和时间 181

    15.3 转换时间序列数据 184

    15.4 操作时间序列数据 187

    15.5 比较时间序列的增长率 189

    15.6 如何改变时间序列频率 192

    15.7 小结 198

    第 16章 时间序列法 199

    16.1 时间序列预测的定义 200

    16.2 预测的基本步骤 200

    16.3 时间序列预测的技术 201

    16.3.1 自回归 201

    16.3.2 移动平均 202

    16.3.3 自回归移动平均 203

    16.3.4 自回归积分移动平均 203

    16.3.5 季节性自回归积分移动平均 204

    16.3.6 季节性自回归积分移动平均与外生回归因子 205

    16.3.7 向量自回归移动平均 205

    16.3.8 Holt-Winters指数平滑 206

    16.4 预测网页的未来流量 207

    16.5 小结 214

    第 17章 案例研究1 215

    第 18章 案例研究2 230

    第 19章 案例研究3 239

    第 20章 案例研究4 247
  • 内容简介:
    本书旨在成为读者进入数据科学领域的指南。全书共20章,涵盖了数据科学及其应用的各个方面,引入经典数据集将理论与实践相结合,采用Jupyter等工具,以Python语言由浅入深地介绍了数据科学及相关学科的基本概念、数据预处理、机器学习及时间序列等内容,并提供了不同的案例研究,以达到学以致用的效果。通过阅读本书,读者将获得成为一名数据科学家所需的基本知识和技能。

    本书适合有Python或其他编程语言基础,并对数据科学感兴趣的人员阅读。
  • 作者简介:
    普拉泰克·古普塔(Prateek Gupta)是一位有着超过6年工作经验的数据科学专业人士,曾在HCL、Zensar和Sapient等多家跨国IT巨头就职,其专业领域主要是寻找模式、运用先进统计方法和算法揭示隐藏的规律,力争最大限度地提高企业收入和盈利能力,并确保高效的运营管理。

    他是一位具有主观能动性并且在电子商务领域颇有建树的忠实数据爱好者,还凭借自己在商品自动分类、情感分析、客户细分和推荐引擎方面的机器学习专业知识帮助了NTUC Singapore和Times Group India等多个客户。他秉持着这一理念:“当天才放弃努力时,勤奋将超越天赋”。

    他感兴趣的是有关机器学习和自然语言处理在各个行业的应用的前沿研究领域。闲暇时,他喜欢通过自己的博客分享知识,并激励年轻人进入令人兴奋的数据科学世界。
  • 目录:
    第 1章 数据科学基本概念 1

    1.1 数据的概念 2

    1.1.1 结构化数据 2

    1.1.2 非结构化数据 2

    1.1.3 半结构化数据 3

    1.2 数据科学的定义 3

    1.3 数据科学家的工作 4

    1.4 数据科学应用实例 5

    1.5 为何Python适合数据科学 6

    1.6 小结 7

    第 2章 软件安装与配置 8

    2.1 系统要求 9

    2.2 下载Anaconda 9

    2.3 在Windows系统上安装Anaconda 10

    2.4 在Linux系统上安装Anaconda 11

    2.5 如何在Anaconda中安装新的Python库 13

    2.6 打开笔记本―Jupyter 14

    2.7 了解笔记本 15

    2.8 小结 19

    第3章 列表与字典 20

    3.1 什么是列表 21

    3.2 如何创建列表 21

    3.3 列表的不同操作 22

    3.4 列表与数组的差异 25

    3.5 什么是字典 26

    3.6 如何创建字典 26

    3.7 字典的相关操作 26

    3.8 小结 28

    第4章 函数与包 29

    4.1 Python的Help()函数 30

    4.2 如何导入Python包 30

    4.3 如何创建并调用函数 31

    4.4 在函数中传递参数 31

    4.5 函数的默认参数 32

    4.6 如何在函数中使用未知参数 32

    4.7 函数的全局与本地变量 33

    4.8 Lambda函数 35

    4.9 了解Python中的main方法 35

    4.10 小结 38

    第5章 NumPy基本概念 39

    5.1 导入NumPy包 39

    5.2 为何NumPy数组优于列表 40

    5.3 NumPy数组属性 41

    5.4 创建NumPy数组 41

    5.5 访问NumPy数组中的元素 43

    5.6 NumPy数组的切片 44

    5.7 数组连接 46

    5.8 小结 47

    第6章 Pandas和数据帧 48

    6.1 导入Pandas 48

    6.2 Pandas数据结构 49

    6.3 .loc[]和.iloc[] 54

    6.4 一些有用的数据帧函数 55

    6.5 处理数据帧中的缺失值 57

    6.6 小结 60

    第7章 与数据库交互 61

    7.1 SQLAlchemy 62

    7.2 安装SQLAlchemy包 62

    7.3 如何使用SQLAlchemy 63

    7.4 SQLAlchemy引擎配置 64

    7.5 在数据库中新建表 65

    7.6 在表中插入数据 66

    7.7 更新记录 67

    7.8 如何合并表格 68

    7.8.1 内连接 68

    7.8.2 左连接 69

    7.8.3 右连接 70

    7.9 小结 70

    第8章 数据科学中的统计思维 71

    8.1 数据科学中的统计学 72

    8.2 统计数据/变量的类型 72

    8.3 平均数、中位数和众数 73

    8.4 概率的基本概念 74

    8.5 统计分布 75

    8.6 Pearson相关系数 77

    8.7 概率密度函数 78

    8.8 真实案例 79

    8.9 统计推断与假设检验 79

    8.10 小结 86

    第9章 如何在Python中导入数据 87

    9.1 导入TXT数据 88

    9.2 导入CSV数据 89

    9.3 导入Excel数据 90

    9.4 导入JSON数据 90

    9.5 导入腌制数据 91

    9.6 导入压缩数据 91

    9.7 小结 92

    第 10章 清洗导入的数据 93

    10.1 了解数据 94

    10.2 分析缺失值 95

    10.3 丢弃缺失值 97

    10.4 自动填充缺失值 98

    10.5 如何缩放和归一化数据 99

    10.6 如何解析日期 102

    10.7 如何应用字符编码 104

    10.8 清洗不一致的数据 105

    10.9 小结 106

    第 11章 数据可视化 107

    11.1 条形图 108

    11.2 折线图 109

    11.3 直方图 110

    11.4 散点图 111

    11.5 堆积图 111

    11.6 箱线图 113

    11.7 小结 115

    第 12章 数据预处理 116

    12.1 关于案例研究 116

    12.2 导入数据集 117

    12.3 探索性数据分析 118

    12.4 数据清洗与预处理 122

    12.5 特征工程 124

    12.6 小结 129

    第 13章 监督式机器学习 130

    13.1 常见的机器学习术语 131

    13.2 机器学习导论 132

    13.3 常用机器学习算法列述 133

    13.4 监督式机器学习基础 134

    13.5 解决分类机器学习问题 136

    13.6 为何要进行训练/测试拆分和交叉验证 140

    13.7 解决回归机器学习问题 144

    13.8 如何调整机器学习模型 152

    13.9 如何处理sklearn中的分类变量 154

    13.10 处理缺失数据的高级技术 155

    13.11 小结 158

    第 14章 无监督式机器学习 159

    14.1 为何选择无监督式机器学习 160

    14.2 无监督式机器学习技术 160

    14.2.1 聚类 161

    14.2.2 主成分分析 169

    14.3 案例研究 172

    14.4 验证无监督式机器学习 178

    14.5 小结 179

    第 15章 处理时间序列数据 180

    15.1 为何时间序列重要 181

    15.2 如何处理日期和时间 181

    15.3 转换时间序列数据 184

    15.4 操作时间序列数据 187

    15.5 比较时间序列的增长率 189

    15.6 如何改变时间序列频率 192

    15.7 小结 198

    第 16章 时间序列法 199

    16.1 时间序列预测的定义 200

    16.2 预测的基本步骤 200

    16.3 时间序列预测的技术 201

    16.3.1 自回归 201

    16.3.2 移动平均 202

    16.3.3 自回归移动平均 203

    16.3.4 自回归积分移动平均 203

    16.3.5 季节性自回归积分移动平均 204

    16.3.6 季节性自回归积分移动平均与外生回归因子 205

    16.3.7 向量自回归移动平均 205

    16.3.8 Holt-Winters指数平滑 206

    16.4 预测网页的未来流量 207

    16.5 小结 214

    第 17章 案例研究1 215

    第 18章 案例研究2 230

    第 19章 案例研究3 239

    第 20章 案例研究4 247
查看详情
12
相关图书 / 更多
Jupyter数据科学实战
Julia编程基础(图灵出品)
郝林 著
Jupyter数据科学实战
JupyterNotebook数据分析入门与实战
都利来 著;[日]池内孝启、片柳薫子、岩尾遥、郭海娇 译
Jupyter数据科学实战
Jupyter金融应用从入门到实践
傅玉峰、孙惠平、陈钟 著
Jupyter数据科学实战
Julia高性能科学计算(第2版)
Changhyun Kwon(权昌贤) 著;徐国栋 、李琦 译
Jupyter数据科学实战
Judgment of Paris: Judgment of Paris
Taber, George M
Jupyter数据科学实战
Jupyter入门与实战
冯立超
Jupyter数据科学实战
JustinTime,AbrahamLincoln
Patricia Polacco 著
Jupyter数据科学实战
Jung on Active Imagination
Jung, C.,Chodorow, Joan
Jupyter数据科学实战
Julia设计模式
[美]汤姆·邝(Tom Kwong) 著;方明 译
Jupyter数据科学实战
Julien精神药理学(第14版)
[美]克莱尔·爱沃卡(Claire D.Advokat) 著
Jupyter数据科学实战
Julia语言编程入门
[美]本拉瓦(Ben Lauwens);[美]艾伦B.唐尼(Allen B.Downey)
Jupyter数据科学实战
Julia机器学习核心编程:人人可用的高性能科学计算
朱红庆 著
您可能感兴趣 / 更多
Jupyter数据科学实战
Python数据分析(第3版)
[印]阿维纳什·纳夫拉尼(Avinash Navlani)
Jupyter数据科学实战
PyTorch计算机视觉实战:目标检测、图像处理与深度学习
[印]V·基肖尔·阿耶德瓦拉 (印)耶什万斯·雷迪
Jupyter数据科学实战
超声引导下区域麻醉实用指南
[印]阿鲁南苏·查克拉博蒂
Jupyter数据科学实战
Python机器学习实战:基于Scikit-learn与PyTorch的神经网络解决方案
[印]阿什温·帕扬卡 (Ashwin Pajankar) 阿迪亚·乔希 (Aditya Joshi)著 欧拉 译
Jupyter数据科学实战
全栈测试
[印]加亚特里 默罕(Gayathri Mohan)
Jupyter数据科学实战
数字设计技术与解析
[印]瓦伊巴夫·塔拉特 著;慕意豪 译
Jupyter数据科学实战
泰戈尔诗选(成长读书课:名家公开课美绘版)
[印]泰戈尔 著;郑振铎 译
Jupyter数据科学实战
密码学与网络安全(第4版)
[印]阿图尔·卡哈特(Atul Kahate)著 葛秀慧 金名 译
Jupyter数据科学实战
MATLAB 图形学基础
[印]兰詹·帕雷克(Ranjan Parekh) 著;章毓晋 译
Jupyter数据科学实战
古老智慧的现代实践:辨喜论吠檀多(瑜伽奥义丛书)
[印]斯瓦米·维韦卡南达(辨喜)
Jupyter数据科学实战
从冥想到三摩地:辨喜论王瑜伽和《瑜伽经》(瑜伽奥义丛书)
[印]斯瓦米·维韦卡南达(辨喜)
Jupyter数据科学实战
被设想的未来
[印]普立梵(Prem Poddar) 【英】安德鲁·瓦特(Andrew Watt)