数据科学导论:Python语言实现

数据科学导论:Python语言实现
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [意] ,
2016-08
版次: 1
ISBN: 9787111544340
定价: 49.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 180页
字数: 300千字
正文语种: 简体中文
原版书名: 阿尔贝托·博斯凯蒂
33人买过
  • 本书由两位资深数据科学家撰写,融合其多年从事数据科学相关的教学和科研工作经验,借助现有的Python语法和结构知识,全面而系统地讲解进行数据科学分析和开发的相关工具、技术和*佳实践,包含清晰的代码和简化的示例。通过阅读本书,你将深入理解Python核心概念,成为高效数据科学实践者。
    本书共6章,系统介绍了进行数据科学分析和开发所涉及的关键要素。书中首先介绍Python软件及相关工具包的安装和使用;接着不仅讲解数据加载、运算和改写等基本数据准备过程,还详细介绍特征选择、维数约简等高级数据操作方法;并且建立了由训练、验证、测试等过程组成的数据科学流程,结合具体示例深入浅出地讲解了多种机器学习算法;然后介绍了基于图模型的社会网络创建、分析和处理方法;最后讲解数据分析结果的可视化及相关工具的使用方法。 Alberto Boschetti 数据科学家、信号处理和统计学方面的专家。他拥有通信工程专业博士学位,现在伦敦居住和工作。基于所从事的项目,他每天都要面对包括自然语言处理、机器学习和概率图模型等方面的挑战。他对工作充满激情,经常参加学术聚会、研讨会等学术活动,紧跟数据科学技术发展的前沿。
    Luca Massaron 数据科学家、市场研究总监,是多元统计分析、机器学习和客户洞察方面的专家,有十年以上解决实际问题的经验,使用推理、统计、数据挖掘和算法为利益相关者创造了巨大的价值。他是意大利网络受众分析的先锋,并在Kaggler上获得排名前十的佳绩,随后一直热心参与一切与数据分析相关的活动,积极给新手和专业人员讲解数据驱动知识发现的潜力。他崇尚大道至简,坚信理解数据科学的本质能带来巨大收获。 译者序
    前言
    第1章 新手上路1
    1.1 数据科学与Python简介1
    1.2 Python的安装2
    1.2.1 Python 2还是Python 33
    1.2.2 分步安装3
    1.2.3 Python核心工具包一瞥4
    1.2.4 工具包的安装7
    1.2.5 工具包升级9
    1.3 科学计算发行版9
    1.3.1 Anaconda10
    1.3.2 Enthought Canopy10
    1.3.3 PythonXY10
    1.3.4 WinPython10
    1.4 IPython简介10
    1.4.1 IPython Notebook12
    1.4.2 本书使用的数据集和代码18
    1.5 小结25
    第2章 数据改写26
    2.1 数据科学过程26
    2.2 使用pandas进行数据加载与预处理27
    2.2.1 数据快捷加载27
    2.2.2 处理问题数据30
    2.2.3 处理大数据集32
    2.2.4 访问其他数据格式36
    2.2.5 数据预处理37
    2.2.6 数据选择39
    2.3 使用分类数据和文本数据41
    2.4 使用NumPy进行数据处理49
    2.4.1 NumPy中的N维数组49
    2.4.2 NumPy ndarray对象基础50
    2.5 创建NumPy数组50
    2.5.1 从列表到一维数组50
    2.5.2 控制内存大小51
    2.5.3 异构列表52
    2.5.4 从列表到多维数组53
    2.5.5 改变数组大小54
    2.5.6 利用NumPy函数生成数组56
    2.5.7 直接从文件中获得数组57
    2.5.8 从pandas提取数据57
    2.6 NumPy快速操作和计算58
    2.6.1 矩阵运算60
    2.6.2 NumPy数组切片和索引61
    2.6.3 NumPy数组堆叠63
    2.7 小结65
    第3章 数据科学流程66
    3.1 EDA简介66
    3.2 特征创建70
    3.3 维数约简72
    3.3.1 协方差矩阵72
    3.3.2 主成分分析73
    3.3.3 一种用于大数据的PCA变型—Randomized PCA76
    3.3.4 潜在因素分析77
    3.3.5 线性判别分析77
    3.3.6 潜在语义分析78
    3.3.7 独立成分分析78
    3.3.8 核主成分分析78
    3.3.9 受限玻耳兹曼机80
    3.4 异常检测和处理81
    3.4.1 单变量异常检测82
    3.4.2 EllipticEnvelope83
    3.4.3 OneClassSVM87
    3.5 评分函数90
    3.5.1 多标号分类90
    3.5.2 二值分类92
    3.5.3 回归93
    3.6 测试和验证93
    3.7 交叉验证97
    3.7.1 使用交叉验证迭代器99
    3.7.2 采样和自举方法100
    3.8 超参数优化102
    3.8.1 建立自定义评分函数104
    3.8.2 减少网格搜索时间106
    3.9 特征选择108
    3.9.1 单变量选择108
    3.9.2 递归消除110
    3.9.3 稳定性选择与基于L1的选择111
    3.10 小结112
    第4章 机器学习113
    4.1 线性和逻辑回归113
    4.2 朴素贝叶斯116
    4.3 K近邻118
    4.4 高级非线性算法119
    4.4.1 基于SVM的分类算法120
    4.4.2 基于SVM的回归算法122
    4.4.3 调整SVM123
    4.5 组合策略124
    4.5.1 基于随机样本的粘合策略125
    4.5.2 基于弱组合的分袋策略125
    4.5.3 随机子空间和随机分片126
    4.5.4 模型序列—AdaBoost127
    4.5.5 梯度树提升128
    4.5.6 处理大数据129
    4.6 自然语言处理一瞥136
    4.6.1 词语分词136
    4.6.2 词干提取137
    4.6.3 词性标注137
    4.6.4 命名实体识别138
    4.6.5 停止词139
    4.6.6 一个完整的数据科学示例—文本分类140
    4.7 无监督学习概述141
    4.8 小结146
    第5章 社会网络分析147
    5.1 图论简介147
    5.2 图的算法152
    5.3 图的加载、输出和采样157
    5.4 小结160
    第6章 可视化161
    6.1 matplotlib基础介绍161
    6.1.1 曲线绘图162
    6.1.2 绘制分块图163
    6.1.3 散点图164
    6.1.4 直方图165
    6.1.5 柱状图166
    6.1.6 图像可视化167
    6.2 pandas的几个图形示例169
    6.2.1 箱线图与直方图170
    6.2.2 散点图171
    6.2.3 平行坐标173
    6.3 高级数据学习表示174
    6.3.1 学习曲线174
    6.3.2 验证曲线176
    6.3.3 特征重要性177
    6.3.4 GBT部分依赖关系图179
    6.4 小结180
  • 内容简介:
    本书由两位资深数据科学家撰写,融合其多年从事数据科学相关的教学和科研工作经验,借助现有的Python语法和结构知识,全面而系统地讲解进行数据科学分析和开发的相关工具、技术和*佳实践,包含清晰的代码和简化的示例。通过阅读本书,你将深入理解Python核心概念,成为高效数据科学实践者。
    本书共6章,系统介绍了进行数据科学分析和开发所涉及的关键要素。书中首先介绍Python软件及相关工具包的安装和使用;接着不仅讲解数据加载、运算和改写等基本数据准备过程,还详细介绍特征选择、维数约简等高级数据操作方法;并且建立了由训练、验证、测试等过程组成的数据科学流程,结合具体示例深入浅出地讲解了多种机器学习算法;然后介绍了基于图模型的社会网络创建、分析和处理方法;最后讲解数据分析结果的可视化及相关工具的使用方法。
  • 作者简介:
    Alberto Boschetti 数据科学家、信号处理和统计学方面的专家。他拥有通信工程专业博士学位,现在伦敦居住和工作。基于所从事的项目,他每天都要面对包括自然语言处理、机器学习和概率图模型等方面的挑战。他对工作充满激情,经常参加学术聚会、研讨会等学术活动,紧跟数据科学技术发展的前沿。
    Luca Massaron 数据科学家、市场研究总监,是多元统计分析、机器学习和客户洞察方面的专家,有十年以上解决实际问题的经验,使用推理、统计、数据挖掘和算法为利益相关者创造了巨大的价值。他是意大利网络受众分析的先锋,并在Kaggler上获得排名前十的佳绩,随后一直热心参与一切与数据分析相关的活动,积极给新手和专业人员讲解数据驱动知识发现的潜力。他崇尚大道至简,坚信理解数据科学的本质能带来巨大收获。
  • 目录:
    译者序
    前言
    第1章 新手上路1
    1.1 数据科学与Python简介1
    1.2 Python的安装2
    1.2.1 Python 2还是Python 33
    1.2.2 分步安装3
    1.2.3 Python核心工具包一瞥4
    1.2.4 工具包的安装7
    1.2.5 工具包升级9
    1.3 科学计算发行版9
    1.3.1 Anaconda10
    1.3.2 Enthought Canopy10
    1.3.3 PythonXY10
    1.3.4 WinPython10
    1.4 IPython简介10
    1.4.1 IPython Notebook12
    1.4.2 本书使用的数据集和代码18
    1.5 小结25
    第2章 数据改写26
    2.1 数据科学过程26
    2.2 使用pandas进行数据加载与预处理27
    2.2.1 数据快捷加载27
    2.2.2 处理问题数据30
    2.2.3 处理大数据集32
    2.2.4 访问其他数据格式36
    2.2.5 数据预处理37
    2.2.6 数据选择39
    2.3 使用分类数据和文本数据41
    2.4 使用NumPy进行数据处理49
    2.4.1 NumPy中的N维数组49
    2.4.2 NumPy ndarray对象基础50
    2.5 创建NumPy数组50
    2.5.1 从列表到一维数组50
    2.5.2 控制内存大小51
    2.5.3 异构列表52
    2.5.4 从列表到多维数组53
    2.5.5 改变数组大小54
    2.5.6 利用NumPy函数生成数组56
    2.5.7 直接从文件中获得数组57
    2.5.8 从pandas提取数据57
    2.6 NumPy快速操作和计算58
    2.6.1 矩阵运算60
    2.6.2 NumPy数组切片和索引61
    2.6.3 NumPy数组堆叠63
    2.7 小结65
    第3章 数据科学流程66
    3.1 EDA简介66
    3.2 特征创建70
    3.3 维数约简72
    3.3.1 协方差矩阵72
    3.3.2 主成分分析73
    3.3.3 一种用于大数据的PCA变型—Randomized PCA76
    3.3.4 潜在因素分析77
    3.3.5 线性判别分析77
    3.3.6 潜在语义分析78
    3.3.7 独立成分分析78
    3.3.8 核主成分分析78
    3.3.9 受限玻耳兹曼机80
    3.4 异常检测和处理81
    3.4.1 单变量异常检测82
    3.4.2 EllipticEnvelope83
    3.4.3 OneClassSVM87
    3.5 评分函数90
    3.5.1 多标号分类90
    3.5.2 二值分类92
    3.5.3 回归93
    3.6 测试和验证93
    3.7 交叉验证97
    3.7.1 使用交叉验证迭代器99
    3.7.2 采样和自举方法100
    3.8 超参数优化102
    3.8.1 建立自定义评分函数104
    3.8.2 减少网格搜索时间106
    3.9 特征选择108
    3.9.1 单变量选择108
    3.9.2 递归消除110
    3.9.3 稳定性选择与基于L1的选择111
    3.10 小结112
    第4章 机器学习113
    4.1 线性和逻辑回归113
    4.2 朴素贝叶斯116
    4.3 K近邻118
    4.4 高级非线性算法119
    4.4.1 基于SVM的分类算法120
    4.4.2 基于SVM的回归算法122
    4.4.3 调整SVM123
    4.5 组合策略124
    4.5.1 基于随机样本的粘合策略125
    4.5.2 基于弱组合的分袋策略125
    4.5.3 随机子空间和随机分片126
    4.5.4 模型序列—AdaBoost127
    4.5.5 梯度树提升128
    4.5.6 处理大数据129
    4.6 自然语言处理一瞥136
    4.6.1 词语分词136
    4.6.2 词干提取137
    4.6.3 词性标注137
    4.6.4 命名实体识别138
    4.6.5 停止词139
    4.6.6 一个完整的数据科学示例—文本分类140
    4.7 无监督学习概述141
    4.8 小结146
    第5章 社会网络分析147
    5.1 图论简介147
    5.2 图的算法152
    5.3 图的加载、输出和采样157
    5.4 小结160
    第6章 可视化161
    6.1 matplotlib基础介绍161
    6.1.1 曲线绘图162
    6.1.2 绘制分块图163
    6.1.3 散点图164
    6.1.4 直方图165
    6.1.5 柱状图166
    6.1.6 图像可视化167
    6.2 pandas的几个图形示例169
    6.2.1 箱线图与直方图170
    6.2.2 散点图171
    6.2.3 平行坐标173
    6.3 高级数据学习表示174
    6.3.1 学习曲线174
    6.3.2 验证曲线176
    6.3.3 特征重要性177
    6.3.4 GBT部分依赖关系图179
    6.4 小结180
查看详情
12
系列丛书 / 更多
数据科学导论:Python语言实现
统计学习导论 基于R应用
[美]加雷斯·詹姆斯、丹妮拉·威滕、特雷弗·哈斯帖 著;王星 译
数据科学导论:Python语言实现
大数据导论
彭智勇 译
数据科学导论:Python语言实现
大数据分析原理与实践
王宏志 著
数据科学导论:Python语言实现
Python机器学习
高明、徐莹、陶虎成 译
数据科学导论:Python语言实现
机器学习与R语言(原书第2版)
李洪成、许金炜、李舰 译
数据科学导论:Python语言实现
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
[德]西蒙·蒙策尔特 著;吴今朝 译
数据科学导论:Python语言实现
Python文本分析
[印度]迪潘简·撒卡尔 著;闫龙川 高德荃 李君婷 译
数据科学导论:Python语言实现
机器学习与R语言
[美]Brett Lantz 著;李洪成、许金炜、李舰 译
数据科学导论:Python语言实现
Python机器学习(原书第2版)
瓦希德·米 著;塞巴斯蒂安·拉施卡(Sebastian Raschka)、陈斌 译
数据科学导论:Python语言实现
基于MPI的大数据高性能计算导论
弗兰克·尼尔森(Frank Nielsen) 著;张伟哲 译
数据科学导论:Python语言实现
图分析与可视化:在关联数据中发现商业机会
[美]理查德·布莱斯(Richard Brath)、[美]David Jonker 著;赵利通 译
数据科学导论:Python语言实现
社交媒体数据挖掘与分析
[美]加博尔·萨博(Gabor Szabo) 著;李凯、吕天阳 译
您可能感兴趣 / 更多
数据科学导论:Python语言实现
软件架构指标:度量软件系统的性能和架构质量
[意]克里斯蒂安·西塞里
数据科学导论:Python语言实现
君主论:英文
[意]马基亚维利(Machiavelli) 著;[意]马里奥特(W.K.Marriott) 译著
数据科学导论:Python语言实现
如果没有金属:穿越时空的化学之旅-【意】贝特拉·保利
[意]贝特拉·保利著许盈盈译马可·桑德莱斯基 绘
数据科学导论:Python语言实现
写给未来的自己
[意]孔琴塔·德·格雷戈里奥
数据科学导论:Python语言实现
伟大的博物馆:热那亚新街博物馆
[意]皮耶罗·波卡尔多
数据科学导论:Python语言实现
神曲绘本:汉英对照(精装绘本)
[意]但丁
数据科学导论:Python语言实现
世间绝美国家公园(57个国家公园的详解全书,足不出户游遍世界!)
[意]埃莱娜·比安基
数据科学导论:Python语言实现
匹诺曹绘本(中英双语、老少皆宜,北外资深教授原版直译优美译本,艺术与童话系列。随书附赠精美画卡1张)
[意]卡洛·科洛迪
数据科学导论:Python语言实现
进化
[意]弗朗西斯科·托马西内利
数据科学导论:Python语言实现
汗青堂丛书144·决战地中海
[意]亚历桑德罗·巴尔巴罗alessandrobarbero
数据科学导论:Python语言实现
木偶奇遇记 世界经典文学少儿名著童话故事书
[意]卡洛·科洛迪 著
数据科学导论:Python语言实现
伟大的博物馆:巴黎卢浮宫
[意]亚历山德拉·弗雷格兰特