数据挖掘与应用：以SAS和R为工具（第二版）

作者: 张俊妮著

出版社: 北京大学出版社

出版时间: 2018-10

版次: 2

ISBN: 9787301299098

定价: 58.00

装帧: 平装

开本: 16开

纸张: 胶版纸

页数: 356页

字数: 528千字

丛书: 光华思想力书系·教材领航

分类: 工程技术

31人买过

　　《数据挖掘与应用：以SAS和R为工具（第二版）》是数据挖掘领域的经典教材，基于北京大学光华管理学院“数据挖掘与应用”课程。书中系统、全面地介绍了数据挖掘领域的理论、技术工具以及实践方法。主要内容包括：数据挖掘方法论、数据理解和数据准备、缺失数据、关联规则挖掘、多元统计降维、聚类分析、线性回归和广义线性回归、回归模型规则化、神经网络、决策树、支持向量机、模型评估、模型组合、协同过滤等。

　　书中在每种数据挖掘技术后，均辅以大量医疗、金融、营销、保险、政府部门等应用案例，并均配有相关应用的SAS和R语言代码，以及视频课程二维码。

　　第二版更新：第二版在头一版的基础上，增加了缺失数据、回归模型中的规则化和变量选择、卷积神经网络、支持向量机、协同过滤这5章内容。在已有各章内，本书亦增加了新的内容和示例。近些年来，R因为其自由、免费、开源，已经发展为数据分析领域强大的软件之一。因此，本书除了继续展示SAS程序，还增加了R程序。　　张俊妮：美国哈佛大学统计学博士，北京大学光华管理学院商务统计及经济计量系副教授。研究领域包括：贝叶斯分析、因果推断、数据挖掘及文本挖掘。在Journal of American Statistical Association、Statistica Sinica、等期刊上发表二十余篇论文，出版英文专著。曾获北京大学教学优秀奖、光华管理学院优秀课程奖。前言

第 1 章数据挖掘概述 01

1.1 什么是数据挖掘 02

1.2 统计思想在数据挖掘中的重要性 02

1.3 数据挖掘的应用案例 07

1.4 CRISP-DM 数据挖掘方法论 14

1.5 SEMMA 数据挖掘方法论 15

第 2 章数据理解和数据准备 17

2.1 数据理解 19

2.2 数据准备 22

2.3 数据理解和数据准备示例： FNBA 信用卡数据 35

第 3 章缺失数据 51

3.1 缺失数据模式和缺失数据机制 52

3.2 缺失数据机制对数据分析的影响 53

3.3 缺失值插补 62

3.4 缺失数据插补及分析示例：纽约空气质量 64

第 4 章关联规则挖掘 73

4.1 关联规则的实际意义 74

4.2 关联规则的基本概念及 Apriori 算法 74

4.3 序列关联规则 80

4.4 关联规则挖掘示例 81

4.5 关联规则挖掘的其他讨论 85

第 5 章多元统计中的降维方法 88

5.1 主成分分析 89

5.2 探索性因子分析 97

5.3 多维标度分析 104

第 6 章聚类分析 111

6.1 距离与相似度的度量 113

6.2 k 均值聚类算法 117

6.3 层次聚类法 122

第 7 章预测性建模的一些基本方法 130

7.1 判别分析 131

7.2 朴素贝叶斯分类算法 134

7.3 k 近邻法 137

7.4 线性回归 141

7.5 广义线性模型 149

第 8 章回归模型中的规则化和变量选择 168

8.1 线性回归中的规则化和变量选择 169

8.2 广义线性模型中的规则化和变量选择 181

第 9 章神经网络的基本方法 184

9.1 神经网络架构及基本组成 185

9.2 误差函数 190

9.3 神经网络训练算法 193

9.4 提高神经网络模型的可推广性 198

9.5 数据预处理 200

9.6 神经网络建模示例 201

9.7 自组织图 222

第 10 章卷积神经网络 230

10.1 深度神经网络 231

10.2 卷积神经网络架构 232

10.3 卷积神经网络示例： Fashion-MNIST 数据 239

第 11 章决策树方法 245

11.1 决策树简介 246

11.2 决策树的生长与修剪 248

11.3 对缺失数据的处理 155

11.4 变量选择 256

11.5 决策树的优缺点 257

第 12 章支持向量机 274

12.1 支持向量机用于二分类问题 275

12.2 支持向量机用于多分类问题 284

12.3 支持向量机用于回归问题 285

第 13 章模型评估 290

13.1 因变量为二分变量的情形 291

13.2 因变量为多分变量的情形 301

13.3 因变量为连续变量的情形 303

13.4 模型评估示例：德国信用数据的模型评估 304

第 14 章模型组合与两阶段模型 312

14.1 模型组合 313

14.2 随机森林 321

14.3 两阶段模型 324

第 15 章协同过滤 326

15.1 基于用户（User-based）的协同过滤 327

15.2 基于物品（Item-based）的协同过滤 328

15.3 基于 SVD 的协同过滤 328

15.4 基于 Funk SVD 的协同过滤 329

15.5 协同过滤示例：动漫片推荐 331

参考文献 337
内容简介:
　　《数据挖掘与应用：以SAS和R为工具（第二版）》是数据挖掘领域的经典教材，基于北京大学光华管理学院“数据挖掘与应用”课程。书中系统、全面地介绍了数据挖掘领域的理论、技术工具以及实践方法。主要内容包括：数据挖掘方法论、数据理解和数据准备、缺失数据、关联规则挖掘、多元统计降维、聚类分析、线性回归和广义线性回归、回归模型规则化、神经网络、决策树、支持向量机、模型评估、模型组合、协同过滤等。

　　书中在每种数据挖掘技术后，均辅以大量医疗、金融、营销、保险、政府部门等应用案例，并均配有相关应用的SAS和R语言代码，以及视频课程二维码。

　　第二版更新：第二版在头一版的基础上，增加了缺失数据、回归模型中的规则化和变量选择、卷积神经网络、支持向量机、协同过滤这5章内容。在已有各章内，本书亦增加了新的内容和示例。近些年来，R因为其自由、免费、开源，已经发展为数据分析领域强大的软件之一。因此，本书除了继续展示SAS程序，还增加了R程序。
作者简介:
　　张俊妮：美国哈佛大学统计学博士，北京大学光华管理学院商务统计及经济计量系副教授。研究领域包括：贝叶斯分析、因果推断、数据挖掘及文本挖掘。在Journal of American Statistical Association、Statistica Sinica、等期刊上发表二十余篇论文，出版英文专著。曾获北京大学教学优秀奖、光华管理学院优秀课程奖。
目录:
前言

第 1 章数据挖掘概述 01

1.1 什么是数据挖掘 02

1.2 统计思想在数据挖掘中的重要性 02

1.3 数据挖掘的应用案例 07

1.4 CRISP-DM 数据挖掘方法论 14

1.5 SEMMA 数据挖掘方法论 15

第 2 章数据理解和数据准备 17

2.1 数据理解 19

2.2 数据准备 22

2.3 数据理解和数据准备示例： FNBA 信用卡数据 35

第 3 章缺失数据 51

3.1 缺失数据模式和缺失数据机制 52

3.2 缺失数据机制对数据分析的影响 53

3.3 缺失值插补 62

3.4 缺失数据插补及分析示例：纽约空气质量 64

第 4 章关联规则挖掘 73

4.1 关联规则的实际意义 74

4.2 关联规则的基本概念及 Apriori 算法 74

4.3 序列关联规则 80

4.4 关联规则挖掘示例 81

4.5 关联规则挖掘的其他讨论 85

第 5 章多元统计中的降维方法 88

5.1 主成分分析 89

5.2 探索性因子分析 97

5.3 多维标度分析 104

第 6 章聚类分析 111

6.1 距离与相似度的度量 113

6.2 k 均值聚类算法 117

6.3 层次聚类法 122

第 7 章预测性建模的一些基本方法 130

7.1 判别分析 131

7.2 朴素贝叶斯分类算法 134

7.3 k 近邻法 137

7.4 线性回归 141

7.5 广义线性模型 149

第 8 章回归模型中的规则化和变量选择 168

8.1 线性回归中的规则化和变量选择 169

8.2 广义线性模型中的规则化和变量选择 181

第 9 章神经网络的基本方法 184

9.1 神经网络架构及基本组成 185

9.2 误差函数 190

9.3 神经网络训练算法 193

9.4 提高神经网络模型的可推广性 198

9.5 数据预处理 200

9.6 神经网络建模示例 201

9.7 自组织图 222

第 10 章卷积神经网络 230

10.1 深度神经网络 231

10.2 卷积神经网络架构 232

10.3 卷积神经网络示例： Fashion-MNIST 数据 239

第 11 章决策树方法 245

11.1 决策树简介 246

11.2 决策树的生长与修剪 248

11.3 对缺失数据的处理 155

11.4 变量选择 256

11.5 决策树的优缺点 257

第 12 章支持向量机 274

12.1 支持向量机用于二分类问题 275

12.2 支持向量机用于多分类问题 284

12.3 支持向量机用于回归问题 285

第 13 章模型评估 290

13.1 因变量为二分变量的情形 291

13.2 因变量为多分变量的情形 301

13.3 因变量为连续变量的情形 303

13.4 模型评估示例：德国信用数据的模型评估 304

第 14 章模型组合与两阶段模型 312

14.1 模型组合 313

14.2 随机森林 321

14.3 两阶段模型 324

第 15 章协同过滤 326

15.1 基于用户（User-based）的协同过滤 327

15.2 基于物品（Item-based）的协同过滤 328

15.3 基于 SVD 的协同过滤 328

15.4 基于 Funk SVD 的协同过滤 329

15.5 协同过滤示例：动漫片推荐 331

参考文献 337