数据科学:理论、方法与R语言实践

数据科学:理论、方法与R语言实践
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [美] (NinaZumel) ,
2016-03
版次: 1
ISBN: 9787111529262
定价: 69.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 321页
字数: 400千字
正文语种: 简体中文
原版书名: Practical Data Science with R
79人买过
  •   本书从实用的角度较为全面地展现了数据科学的主要内容,并结合大量的实际项目案例,利用R语言详细地讲解了数据项目的开发过程和关键技术。本书包括三个部分共11章的内容,主要介绍了数据科学项目的处理过程、选择合适的建模方法,也讨论了bagging算法、随机森林、广义加性模型、核和支持向量机等高级建模方法。此外,还讨论了文档编制和结果部署,以及如何向组织内不同的受众展现项目结果。本书适合作为高等院校高年级本科生和研究生及从事数据管理与分析工程技术人员的主要参考书。 作者:(美国)尼娜·朱梅尔(Nina Zumel) 约翰·芒特(John Mount) 译者:于戈 鲍玉斌 王大玲 … 译者序

    序言

    前言

    第一部分 数据科学引论

    第1章 数据科学处理过程2

    1.1 数据科学项目中的角色2

    1.2 数据科学项目的阶段4

    1.2.1 制定目标5

    1.2.2 收集和管理数据5

    1.2.3 建立模型7

    1.2.4 模型评价和批判8

    1.2.5 展现和编制文档9

    1.2.6 模型部署和维护10

    1.3 设定预期11

    1.4 小结12

    第2章 向R加载数据14

    2.1 运用文件中的数据14

    2.1.1 在源自文件或URL的良结构数据上使用R15

    2.1.2 在欠结构数据上使用R17

    2.2 在关系数据库上使用R19

    2.2.1 一个生产规模的示例20

    2.2.2 从数据库向R系统加载数据23

    2.2.3 处理PUMS数据25

    2.3 小结28

    第3章 探索数据29

    3.1 使用概要统计方法发现问题30

    3.2 用图形和可视化方法发现问题34

    3.2.1 可视化检测单变量的分布35

    3.2.2 可视化检测两个变量间的关系42

    3.3 小结51

    第4章 管理数据52

    4.1 清洗数据52

    4.1.1 处理缺失值52

    4.1.2 数据转换56

    4.2 为建模和验证采样61

    4.2.1 测试集和训练集的划分61

    4.2.2 创建一个样本组列62

    4.2.3 记录分组63

    4.2.4 数据溯源63

    4.3 小结63

    第二部分 建模方法

    第5章 选择和评价模型66

    5.1 将业务问题映射到机器学习任务67

    5.1.1 解决分类问题67

    5.1.2 解决打分问题68

    5.1.3 目标未知情况下的处理69

    5.1.4 问题到方法的映射71

    5.2 模型评价71

    5.2.1 分类模型的评价72

    5.2.2 打分模型的评价76

    5.2.3 概率模型的评价78

    5.2.4 排名模型的评价82

    5.2.5 聚类模型的评价82

    5.3 模型验证84

    5.3.1 常见的模型问题的识别 84

    5.3.2 模型可靠性的量化85

    5.3.3 模型质量的保证86

    5.4 小结88

    第6章 记忆化方法89

    6.1 KDD和KDD Cup 200989

    6.2 构建单变量模型91

    6.2.1 使用类别型特征92

    6.2.2 使用数值型特征94

    6.2.3 使用交叉验证估计过拟合的影响96

    6.3 构建多变量模型97

    6.3.1 变量选择97

    6.3.2 使用决策树99

    6.3.3 使用最近邻方法102

    6.3.4 使用朴素贝叶斯105

    6.4 小结108

    第7章 线性回归与逻辑斯谛回归110

    7.1 使用线性回归110

    7.1.1 理解线性回归110

    7.1.2 构建线性回归模型113

    7.1.3 预测114

    7.1.4 发现关系并抽取建议117

    7.1.5 解读模型概要并刻画系数质量118

    7.1.6 线性回归要点122

    7.2 使用逻辑斯谛回归123

    7.2.1 理解逻辑斯谛回归123

    7.2.2 构建逻辑斯谛回归模型124

    7.2.3 预测125

    7.2.4 从逻辑斯谛回归模型中发现关系并抽取建议129

    7.2.5 解读模型概要并刻画系数130

    7.2.6 逻辑斯谛回归要点136

    7.3 小结137

    第8章 无监督方法138

    8.1 聚类分析138

    8.1.1 距离139

    8.1.2 准备数据 140

    8.1.3 使用hclust()进行层次聚类142

    8.1.4 k-均值算法150

    8.1.5 分派新的点到簇154

    8.1.6 聚类要点156

    8.2 关联规则156

    8.2.1 关联规则概述156

    8.2.2 问题举例157

    8.2.3 使用arules程序包挖掘关联规则158

    8.2.4 关联规则要点165

    8.3 小结165

    第9章 高级方法探索166

    9.1 使用bagging和随机森林方法减少训练方差167

    9.1.1 使用bagging方法改进预测167

    9.1.2 使用随机森林方法进一步改进预测170

    9.1.3 bagging和随机森林方法要点173

    9.2 使用广义加性模型学习非单调关系173

    9.2.1 理解GAM174

    9.2.2 一维回归示例174

    9.2.3 提取非线性关系178

    9.2.4 在真实数据上使用GAM179

    9.2.5 使用GAM实现逻辑斯谛回归182

    9.2.6 GAM要点183

    9.3 使用核方法提高数据可分性183

    9.3.1 理解核函数184

    9.3.2 在问题中使用显式核函数187

    9.3.3 核方法要点190

    9.4 使用SVM对复杂的决策边界建模190

    9.4.1 理解支持向量机190

    9.4.2 在人工示例数据中使用SVM192

    9.4.3 在真实数据中使用SVM195

    9.4.4 支持向量机要点197

    9.5 小结197

    第三部分 结果交付

    第10章 文档编制和部署200

    10.1 buzz数据集200

    10.2 使用knitr产生里程碑文档202

    10.2.1 knitr是什么202

    10.2.2 knitr 技术详解204

    10.2.3 使用knitr编写buzz数据文档205

    10.3 在运行时文档编制中使用注释和版本控制208

    10.3.1 编写有效注释208

    10.3.2 使用版本控制记录历史209

    10.3.3 使用版本控制探索项目213

    10.3.4 使用版本控制分享工作217

    10.4 模型部署220

    10.4.1 将模型部署为R HTTP服务220

    10.4.2 按照输出部署模型222

    10.4.3 要点223

    10.5 小结224

    第11章 有效的结果展现226

    11.1 将结果展现给项目出资方227

    11.1.1 概述项目目标228

    11.1.2 陈述项目结果229

    11.1.3 补充细节230

    11.1.4 提出建议并讨论未来工作231

    11.1.5 向项目出资方展现的要点232

    11.2 向最终用户展现模型232

    11.2.1 概述项目目标232

    11.2.2 展现模型如何融入用户的工作流程233

    11.2.3 展现如何使用模型235

    11.2.4 向最终用户展现的要点236

    11.3 向其他数据科学家展现你的工作236

    11.3.1 介绍问题236

    11.3.2 讨论相关工作237

    11.3.3 讨论你的方法238

    11.3.4 讨论结果和未来工作239

    11.3.5 向其他数据科学家展现的要点240

    11.4 小结240

    附录A 使用R和其他工具241

    附录B 重要的统计学概念263

    附录C 更多的工具和值得探索的思路292

    参考文献297

    索引299
  • 内容简介:
      本书从实用的角度较为全面地展现了数据科学的主要内容,并结合大量的实际项目案例,利用R语言详细地讲解了数据项目的开发过程和关键技术。本书包括三个部分共11章的内容,主要介绍了数据科学项目的处理过程、选择合适的建模方法,也讨论了bagging算法、随机森林、广义加性模型、核和支持向量机等高级建模方法。此外,还讨论了文档编制和结果部署,以及如何向组织内不同的受众展现项目结果。本书适合作为高等院校高年级本科生和研究生及从事数据管理与分析工程技术人员的主要参考书。
  • 作者简介:
    作者:(美国)尼娜·朱梅尔(Nina Zumel) 约翰·芒特(John Mount) 译者:于戈 鲍玉斌 王大玲 …
  • 目录:
    译者序

    序言

    前言

    第一部分 数据科学引论

    第1章 数据科学处理过程2

    1.1 数据科学项目中的角色2

    1.2 数据科学项目的阶段4

    1.2.1 制定目标5

    1.2.2 收集和管理数据5

    1.2.3 建立模型7

    1.2.4 模型评价和批判8

    1.2.5 展现和编制文档9

    1.2.6 模型部署和维护10

    1.3 设定预期11

    1.4 小结12

    第2章 向R加载数据14

    2.1 运用文件中的数据14

    2.1.1 在源自文件或URL的良结构数据上使用R15

    2.1.2 在欠结构数据上使用R17

    2.2 在关系数据库上使用R19

    2.2.1 一个生产规模的示例20

    2.2.2 从数据库向R系统加载数据23

    2.2.3 处理PUMS数据25

    2.3 小结28

    第3章 探索数据29

    3.1 使用概要统计方法发现问题30

    3.2 用图形和可视化方法发现问题34

    3.2.1 可视化检测单变量的分布35

    3.2.2 可视化检测两个变量间的关系42

    3.3 小结51

    第4章 管理数据52

    4.1 清洗数据52

    4.1.1 处理缺失值52

    4.1.2 数据转换56

    4.2 为建模和验证采样61

    4.2.1 测试集和训练集的划分61

    4.2.2 创建一个样本组列62

    4.2.3 记录分组63

    4.2.4 数据溯源63

    4.3 小结63

    第二部分 建模方法

    第5章 选择和评价模型66

    5.1 将业务问题映射到机器学习任务67

    5.1.1 解决分类问题67

    5.1.2 解决打分问题68

    5.1.3 目标未知情况下的处理69

    5.1.4 问题到方法的映射71

    5.2 模型评价71

    5.2.1 分类模型的评价72

    5.2.2 打分模型的评价76

    5.2.3 概率模型的评价78

    5.2.4 排名模型的评价82

    5.2.5 聚类模型的评价82

    5.3 模型验证84

    5.3.1 常见的模型问题的识别 84

    5.3.2 模型可靠性的量化85

    5.3.3 模型质量的保证86

    5.4 小结88

    第6章 记忆化方法89

    6.1 KDD和KDD Cup 200989

    6.2 构建单变量模型91

    6.2.1 使用类别型特征92

    6.2.2 使用数值型特征94

    6.2.3 使用交叉验证估计过拟合的影响96

    6.3 构建多变量模型97

    6.3.1 变量选择97

    6.3.2 使用决策树99

    6.3.3 使用最近邻方法102

    6.3.4 使用朴素贝叶斯105

    6.4 小结108

    第7章 线性回归与逻辑斯谛回归110

    7.1 使用线性回归110

    7.1.1 理解线性回归110

    7.1.2 构建线性回归模型113

    7.1.3 预测114

    7.1.4 发现关系并抽取建议117

    7.1.5 解读模型概要并刻画系数质量118

    7.1.6 线性回归要点122

    7.2 使用逻辑斯谛回归123

    7.2.1 理解逻辑斯谛回归123

    7.2.2 构建逻辑斯谛回归模型124

    7.2.3 预测125

    7.2.4 从逻辑斯谛回归模型中发现关系并抽取建议129

    7.2.5 解读模型概要并刻画系数130

    7.2.6 逻辑斯谛回归要点136

    7.3 小结137

    第8章 无监督方法138

    8.1 聚类分析138

    8.1.1 距离139

    8.1.2 准备数据 140

    8.1.3 使用hclust()进行层次聚类142

    8.1.4 k-均值算法150

    8.1.5 分派新的点到簇154

    8.1.6 聚类要点156

    8.2 关联规则156

    8.2.1 关联规则概述156

    8.2.2 问题举例157

    8.2.3 使用arules程序包挖掘关联规则158

    8.2.4 关联规则要点165

    8.3 小结165

    第9章 高级方法探索166

    9.1 使用bagging和随机森林方法减少训练方差167

    9.1.1 使用bagging方法改进预测167

    9.1.2 使用随机森林方法进一步改进预测170

    9.1.3 bagging和随机森林方法要点173

    9.2 使用广义加性模型学习非单调关系173

    9.2.1 理解GAM174

    9.2.2 一维回归示例174

    9.2.3 提取非线性关系178

    9.2.4 在真实数据上使用GAM179

    9.2.5 使用GAM实现逻辑斯谛回归182

    9.2.6 GAM要点183

    9.3 使用核方法提高数据可分性183

    9.3.1 理解核函数184

    9.3.2 在问题中使用显式核函数187

    9.3.3 核方法要点190

    9.4 使用SVM对复杂的决策边界建模190

    9.4.1 理解支持向量机190

    9.4.2 在人工示例数据中使用SVM192

    9.4.3 在真实数据中使用SVM195

    9.4.4 支持向量机要点197

    9.5 小结197

    第三部分 结果交付

    第10章 文档编制和部署200

    10.1 buzz数据集200

    10.2 使用knitr产生里程碑文档202

    10.2.1 knitr是什么202

    10.2.2 knitr 技术详解204

    10.2.3 使用knitr编写buzz数据文档205

    10.3 在运行时文档编制中使用注释和版本控制208

    10.3.1 编写有效注释208

    10.3.2 使用版本控制记录历史209

    10.3.3 使用版本控制探索项目213

    10.3.4 使用版本控制分享工作217

    10.4 模型部署220

    10.4.1 将模型部署为R HTTP服务220

    10.4.2 按照输出部署模型222

    10.4.3 要点223

    10.5 小结224

    第11章 有效的结果展现226

    11.1 将结果展现给项目出资方227

    11.1.1 概述项目目标228

    11.1.2 陈述项目结果229

    11.1.3 补充细节230

    11.1.4 提出建议并讨论未来工作231

    11.1.5 向项目出资方展现的要点232

    11.2 向最终用户展现模型232

    11.2.1 概述项目目标232

    11.2.2 展现模型如何融入用户的工作流程233

    11.2.3 展现如何使用模型235

    11.2.4 向最终用户展现的要点236

    11.3 向其他数据科学家展现你的工作236

    11.3.1 介绍问题236

    11.3.2 讨论相关工作237

    11.3.3 讨论你的方法238

    11.3.4 讨论结果和未来工作239

    11.3.5 向其他数据科学家展现的要点240

    11.4 小结240

    附录A 使用R和其他工具241

    附录B 重要的统计学概念263

    附录C 更多的工具和值得探索的思路292

    参考文献297

    索引299
查看详情
系列丛书 / 更多
数据科学:理论、方法与R语言实践
大数据导论
彭智勇 译
数据科学:理论、方法与R语言实践
统计学习导论 基于R应用
[美]加雷斯·詹姆斯、丹妮拉·威滕、特雷弗·哈斯帖 著;王星 译
数据科学:理论、方法与R语言实践
大数据分析原理与实践
王宏志 著
数据科学:理论、方法与R语言实践
Python机器学习
高明、徐莹、陶虎成 译
数据科学:理论、方法与R语言实践
机器学习与R语言(原书第2版)
李洪成、许金炜、李舰 译
数据科学:理论、方法与R语言实践
Python机器学习(原书第2版)
瓦希德·米 著;塞巴斯蒂安·拉施卡(Sebastian Raschka)、陈斌 译
数据科学:理论、方法与R语言实践
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
[德]西蒙·蒙策尔特 著;吴今朝 译
数据科学:理论、方法与R语言实践
机器学习与R语言
[美]Brett Lantz 著;李洪成、许金炜、李舰 译
数据科学:理论、方法与R语言实践
基于MPI的大数据高性能计算导论
弗兰克·尼尔森(Frank Nielsen) 著;张伟哲 译
数据科学:理论、方法与R语言实践
Python金融数据分析
Weiming 著;杰姆斯·马伟明(James、Ma、高明 译
数据科学:理论、方法与R语言实践
统计机器学习导论
[日]杉山将 著;谢宁 译
数据科学:理论、方法与R语言实践
Python文本分析
[印度]迪潘简·撒卡尔 著;闫龙川 高德荃 李君婷 译
相关图书 / 更多
数据科学:理论、方法与R语言实践
数据中心经营之道 唐汝林 等
唐汝林 等
数据科学:理论、方法与R语言实践
数据管理十讲 袁野 崔斌 李战怀 等
袁野 崔斌 李战怀 等
数据科学:理论、方法与R语言实践
数据要素教程
杨东 白银 著
数据科学:理论、方法与R语言实践
数据驱动式教学:如何科学、有效、系统地提高学生成绩(深度剖析教学数据,助力教学决策,实时洞察学习动态,精准教学)
(美)罗伯特·J. 马扎诺,菲利普·B. 沃里克,卡梅伦·L. 雷恩斯 ,理查德·杜富尔著,张庆彬译; 中青文 出品
数据科学:理论、方法与R语言实践
数据确权的理论基础探索
彭诚信、史晓宇 著
数据科学:理论、方法与R语言实践
数据经济学
赵昌文,戎珂
数据科学:理论、方法与R语言实践
数据库原理与实践(MySQL版)()
杨俊杰,刘忠艳主编
数据科学:理论、方法与R语言实践
数据挖掘竞赛实战:方法与案例
许可乐
数据科学:理论、方法与R语言实践
数据要素估值
刘赛红、吕颖毅、王连军
数据科学:理论、方法与R语言实践
数据驱动的物流选址与调度模型及其实践
木仁 徐志强
数据科学:理论、方法与R语言实践
数据与人工智能驱动型公司:用数据和人工智能升级企业
(西) 理查德·本杰明(Richard Benjamins)
数据科学:理论、方法与R语言实践
数据库管理系统原理与实现
杜小勇、陈红、卢卫
您可能感兴趣 / 更多
数据科学:理论、方法与R语言实践
归属感:如何通过社群获得商业竞争优势
[美]大卫·斯平克斯(David Spinks) 著;颉腾文化 出品
数据科学:理论、方法与R语言实践
《世界上最大的肚子》2024百班千人暑期书目学前中班名师推荐全新正版现货速发
[美]雷米·查利普(美)柏顿·萨普瑞
数据科学:理论、方法与R语言实践
经济学通义
[美]阿门·A.阿尔钦 (美)威廉·R.艾伦 著;[美]杰里·L.乔丹 编
数据科学:理论、方法与R语言实践
数字化领导力 数字化转型锦囊,领导力精进指南 一本书掌握数字化转型领导力之道
[美]艾萨克·萨科里克 著;王磊 译;颉腾文化 出品;邓斌
数据科学:理论、方法与R语言实践
法哲学基本原理
[美]马克·C.墨菲
数据科学:理论、方法与R语言实践
雪花的故事(用照片展示雪花的秘密,为你揭开冬日奇景的奥秘)
[美]马克·卡西诺[美]乔恩·尼尔森
数据科学:理论、方法与R语言实践
杜甫传
[美]弗洛伦斯.艾思柯
数据科学:理论、方法与R语言实践
神奇的数字零:从数字0开始的极简数学史和人类发展史
[美]查尔斯·塞弗(Charles Seife)著 杨杨立汝 译
数据科学:理论、方法与R语言实践
美利坚在燃烧:20世纪60年代以来的警察暴力与黑人反抗
[美]伊丽莎白·欣顿 著 胡位钧 译
数据科学:理论、方法与R语言实践
温柔亲启
[美]艾米莉·狄金森 著;[美]艾伦·路易斯·哈特、[美]玛莎·内尔·史密斯 编
数据科学:理论、方法与R语言实践
儒教中国及其现代命运(三部曲)
[美]列文森 作者;[中]季剑青 译者
数据科学:理论、方法与R语言实践
逃家小兔成长绘本系列
[美]玛格丽特.怀兹.布朗