数据挖掘与分析 概念与算法

数据挖掘与分析 概念与算法
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2017-09
版次: 1
ISBN: 9787115458421
定价: 129.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 505页
正文语种: 简体中文
123人买过
  • 本书是专注于数据挖掘与分析的基本算法的入门图书,内容分为数据分析基础、频繁模式挖掘、聚类和分类四个部分,每一部分的各个章节兼顾基础知识和前沿话题,例如核方法、高维数据分析、复杂图和网络等。每一章最后均附有参考书目和习题。 Mohammed J. Zaki,伦斯勒理工学院计算机科学系教授,ACM杰出科学家,IEEE会士,目前致力于研究新数据挖掘技术。曾获得谷歌教职研究奖等诸多奖项。

    Wagner Meira Jr.,巴西米纳斯联邦大学计算机科学系教授,数据库专家。

    吴诚堃,博士,2014年毕业于英国曼彻斯特大学,博士论文题为《应用大规模文本挖掘实现疾病分子机理重构》。现担任国防科技大学计算机学院助理研究员,从事高性能计算应用研究。 第1章  数据挖掘与分析  1
    1.1  数据矩阵  1
    1.2  属性  2
    1.3  数据的几何和代数描述  3
    1.3.1  距离和角度  5
    1.3.2  均值与总方差  8
    1.3.3  正交投影  9
    1.3.4  线性无关与维数  10
    1.4  数据:概率观点  12
    1.4.1  二元随机变量  17
    1.4.2  多元随机变量  20
    1.4.3  随机抽样和统计量  21
    1.5  数据挖掘  22
    1.5.1  探索性数据分析  23
    1.5.2  频繁模式挖掘  24
    1.5.3  聚类  24
    1.5.4  分类  25
    1.6  补充阅读 26 
    1.7  习题  26
    第一部分  数据分析基础
    第2章  数值属性  28
    2.1  一元变量分析  28
    2.1.1  数据居中度度量  29
    2.1.2  数据离散度度量  32
    2.2  二元变量分析  35
    2.2.1  位置和离散度的度量  36
    2.2.2  相关性度量  37
    2.3  多元变量分析  40
    2.4  数据规范化  44
    2.5  正态分布  46
    2.5.1  一元正态分布  46
    2.5.2  多元正态分布  47
    2.6  补充阅读  50
    2.7  习题  51
    第3章  类别型属性  53
    3.1  一元分析  53
    3.1.1  伯努利变量(Bernoulli variable)  53
    3.1.2  多元伯努利变量  55
    3.2  二元分析  61
    3.3  多元分析  69
    3.4  距离和角度  74
    3.5  离散化  75
    3.6  补充阅读  77
    3.7  习题  78
    第4章  图数据  79
    4.1  图的概念  79
    4.2  拓扑属性  83
    4.3  中心度分析  86
    4.3.1  基本中心度  86
    4.3.2  Web中心度  88
    4.4  图的模型  96
    4.4.1  Erd s-Rényi随机图模型  98
    4.4.2  Watts-Strogatz小世界图模型  101
    4.4.3  Barabási-Albert无标度模型  104
    4.5  补充阅读  111
    4.6  习题  112
    第5章  核方法  114
    5.1  核矩阵  117
    5.1.1  再生核映射  118
    5.1.2  Mercer核映射  120
    5.2  向量核  122
    5.3  特征空间中的基本核操作  126
    5.4  复杂对象的核  132
    5.4.1  字符串的谱核  132
    5.4.2  图节点的扩散核  133
    5.5  补充阅读  137
    5.6  习题  137
    第6章  高维数据  139
    6.1  高维对象  139
    6.2  高维体积  141
    6.3  超立方体的内接超球面  143
    6.4  薄超球面壳的体积  144
    6.5  超空间的对角线  145
    6.6  多元正态的密度  146
    6.7  附录:球面体积的推导  149
    6.8  补充阅读  153
    6.9  习题  153
    第7章  降维  156
    7.1  背景知识  156
    7.2  主成分分析  160
    7.2.1  最优线近似  160
    7.2.2  最优二维近似  163
    7.2.3  最优r维近似  167
    7.2.4  主成分分析的几何意义  170
    7.3  核主成分分析  172
    7.4  奇异值分解  178
    7.4.1  奇异值分解的几何意义  179
    7.4.2  奇异值分解和主成分分析之间的联系  180
    7.5  补充阅读  182
    7.6  习题  182
    第二部分  频繁模式挖掘
    第8章  项集挖掘  186
    8.1  频繁项集和关联规则  186
    8.2  频繁项集挖掘算法  189
    8.2.1  逐层的方法:Apriori算法  191
    8.2.2  事务标识符集的交集方法:Eclat算法  193
    8.2.3  频繁模式树方法:FPGrowth算法  197
    8.3  生成关联规则  201
    8.4  补充阅读  203
    8.5  习题  203
    第9章  项集概述  208
    9.1  最大频繁项集和闭频繁项集  208
    9.2  挖掘最大频繁项集:GenMax算法  211
    9.3  挖掘闭频繁项集:Charm算法  213
    9.4  非可导项集  215
    9.5  补充阅读  220
    9.6  习题  221
    第10章  序列挖掘  223
    10.1  频繁序列  223
    10.2  挖掘频繁序列  224
    10.2.1  逐层挖掘:GSP  225
    10.2.2  垂直序列挖掘:Spade  226
    10.2.3  基于投影的序列挖掘:PrefixSpan  228
    10.3  基于后缀树的子串挖掘  230
    10.3.1  后缀树  230
    10.3.2  Ukkonen线性时间算法  233
    10.4  补充阅读  238
    10.5  习题  239
    第11章  图模式挖掘  242
    11.1  同形和支撑  242
    11.2  候选生成  245
    11.3  gSpan算法  249
    11.3.1  扩展和支撑计算  250
    11.3.2  权威性测试  255
    11.4  补充阅读  256
    11.5  习题  257
    第12章  模式与规则评估  260
    12.1  规则和模式评估的度量  260
    12.1.1  规则评估度量  260
    12.1.2  模式评估度量  268
    12.1.3  比较多条规则和模式  270
    12.2  显著性检验和置信区间  273
    12.2.1  产生式规则的费希尔精确检验  273
    12.2.2  显著性的置换检验  277
    12.2.3  置信区间内的自助抽样  282
    12.3  补充阅读  284
    12.4  习题  285
    第三部分  聚类
    第13章  基于代表的聚类  288
    13.1  K-means 算法  288
    13.2  核K-means  292
    13.3  期望最大聚类  295
    13.3.1  一维中的EM  297
    13.3.2  d维中的EM  300
    13.3.3  极大似然估计  305
    13.3.4  EM方法  309
    13.4  补充阅读  311
    13.5  习题  312
    第14章  层次式聚类  315
    14.1  预备知识  315
    14.2  聚合型层次式聚类  317
    14.2.1  簇间距离  317
    14.2.2  更新距离矩阵  321
    14.2.3  计算复杂度  322
    14.3  补充阅读  322
    14.4  习题  323
    第15章  基于密度的聚类  325
    15.1  DBSCAN 算法  325
    15.2  核密度估计  328
    15.2.1  一元密度估计  328
    15.2.2  多元密度估计  331
    15.2.3  最近邻密度估计  333
    15.3  基于密度的聚类:DENCLUE  333
    15.4  补充阅读  338
    15.5  习题  339
    第16章  谱聚类和图聚类  341
    16.1  图和矩阵  341
    16.2  基于图的割的聚类  347
    16.2.1  聚类目标函数:比例割与归—割  349
    16.2.2  谱聚类算法  351
    16.2.3  最大化目标:平均割与模块度  354
    16.3  马尔可夫聚类  360
    16.4  补充阅读  366
    16.5  习题  367
    第17章  聚类的验证  368
    17.1  外部验证度量  368
    17.1.1  基于匹配的度量  369
    17.1.2  基于熵的度量  372
    17.1.3  成对度量  375
    17.1.4  关联度量  378
    17.2  内部度量  381
    17.3  相对度量  388
    17.3.1  分簇稳定性  394
    17.3.2  聚类趋向性  396
    17.4  补充阅读  400
    17.5  习题  401
    第四部分  分类
    第18章  基于概率的分类  404
    18.1  贝叶斯分类器  404
    18.1.1  估计先验概率  404
    18.1.2  估计似然  405
    18.2  朴素贝叶斯分类器  409
    18.3  K最近邻分类器  412
    18.4  补充阅读  414
    18.5  习题  415
    第19章  决策树分类器  416
    19.1  决策树  417
    19.2  决策树算法  419
    19.2.1  分割点评估度量  420 
    19.2.2  评估分割点  422
    19.3  补充阅读  429
    19.4  习题  429
    第20章  线性判别分析  431
    20.1  最优线性判别  431
    20.2  核判别分析  437
    20.3  补充阅读  443
    20.4  习题  443
    第21章  支持向量机  445
    21.1  支持向量和间隔  445
    21.2  SVM:线性可分的情况  450
    21.3  软间隔SVM:线性不可分的情况  454
    21.3.1  铰链误损  455
    21.3.2  二次误损  458
    21.4  核SVM:非线性情况  459
    21.5  SVM训练算法  462
    21.5.1  对偶解法:随机梯度上升  463
    21.5.2  原始问题解:牛顿优化  467
    21.6  补充阅读  473
    21.7  习题  473
    第22章  分类的评估  475
    22.1  分类性能度量  475
    22.1.1  基于列联表的度量  476
    22.1.2  二值分类:正类和负类  479
    22.1.3  ROC分析  482
    22.2  分类器评估  487
    22.2.1  K折交叉验证  487
    22.2.2  自助抽样  488
    22.2.3  置信区间  489
    22.2.4  分类器比较:配对t检验  493
    22.3  偏置-方差分解  495
    22.4  补充阅读  503
    22.5  习题  504
  • 内容简介:
    本书是专注于数据挖掘与分析的基本算法的入门图书,内容分为数据分析基础、频繁模式挖掘、聚类和分类四个部分,每一部分的各个章节兼顾基础知识和前沿话题,例如核方法、高维数据分析、复杂图和网络等。每一章最后均附有参考书目和习题。
  • 作者简介:
    Mohammed J. Zaki,伦斯勒理工学院计算机科学系教授,ACM杰出科学家,IEEE会士,目前致力于研究新数据挖掘技术。曾获得谷歌教职研究奖等诸多奖项。

    Wagner Meira Jr.,巴西米纳斯联邦大学计算机科学系教授,数据库专家。

    吴诚堃,博士,2014年毕业于英国曼彻斯特大学,博士论文题为《应用大规模文本挖掘实现疾病分子机理重构》。现担任国防科技大学计算机学院助理研究员,从事高性能计算应用研究。
  • 目录:
    第1章  数据挖掘与分析  1
    1.1  数据矩阵  1
    1.2  属性  2
    1.3  数据的几何和代数描述  3
    1.3.1  距离和角度  5
    1.3.2  均值与总方差  8
    1.3.3  正交投影  9
    1.3.4  线性无关与维数  10
    1.4  数据:概率观点  12
    1.4.1  二元随机变量  17
    1.4.2  多元随机变量  20
    1.4.3  随机抽样和统计量  21
    1.5  数据挖掘  22
    1.5.1  探索性数据分析  23
    1.5.2  频繁模式挖掘  24
    1.5.3  聚类  24
    1.5.4  分类  25
    1.6  补充阅读 26 
    1.7  习题  26
    第一部分  数据分析基础
    第2章  数值属性  28
    2.1  一元变量分析  28
    2.1.1  数据居中度度量  29
    2.1.2  数据离散度度量  32
    2.2  二元变量分析  35
    2.2.1  位置和离散度的度量  36
    2.2.2  相关性度量  37
    2.3  多元变量分析  40
    2.4  数据规范化  44
    2.5  正态分布  46
    2.5.1  一元正态分布  46
    2.5.2  多元正态分布  47
    2.6  补充阅读  50
    2.7  习题  51
    第3章  类别型属性  53
    3.1  一元分析  53
    3.1.1  伯努利变量(Bernoulli variable)  53
    3.1.2  多元伯努利变量  55
    3.2  二元分析  61
    3.3  多元分析  69
    3.4  距离和角度  74
    3.5  离散化  75
    3.6  补充阅读  77
    3.7  习题  78
    第4章  图数据  79
    4.1  图的概念  79
    4.2  拓扑属性  83
    4.3  中心度分析  86
    4.3.1  基本中心度  86
    4.3.2  Web中心度  88
    4.4  图的模型  96
    4.4.1  Erd s-Rényi随机图模型  98
    4.4.2  Watts-Strogatz小世界图模型  101
    4.4.3  Barabási-Albert无标度模型  104
    4.5  补充阅读  111
    4.6  习题  112
    第5章  核方法  114
    5.1  核矩阵  117
    5.1.1  再生核映射  118
    5.1.2  Mercer核映射  120
    5.2  向量核  122
    5.3  特征空间中的基本核操作  126
    5.4  复杂对象的核  132
    5.4.1  字符串的谱核  132
    5.4.2  图节点的扩散核  133
    5.5  补充阅读  137
    5.6  习题  137
    第6章  高维数据  139
    6.1  高维对象  139
    6.2  高维体积  141
    6.3  超立方体的内接超球面  143
    6.4  薄超球面壳的体积  144
    6.5  超空间的对角线  145
    6.6  多元正态的密度  146
    6.7  附录:球面体积的推导  149
    6.8  补充阅读  153
    6.9  习题  153
    第7章  降维  156
    7.1  背景知识  156
    7.2  主成分分析  160
    7.2.1  最优线近似  160
    7.2.2  最优二维近似  163
    7.2.3  最优r维近似  167
    7.2.4  主成分分析的几何意义  170
    7.3  核主成分分析  172
    7.4  奇异值分解  178
    7.4.1  奇异值分解的几何意义  179
    7.4.2  奇异值分解和主成分分析之间的联系  180
    7.5  补充阅读  182
    7.6  习题  182
    第二部分  频繁模式挖掘
    第8章  项集挖掘  186
    8.1  频繁项集和关联规则  186
    8.2  频繁项集挖掘算法  189
    8.2.1  逐层的方法:Apriori算法  191
    8.2.2  事务标识符集的交集方法:Eclat算法  193
    8.2.3  频繁模式树方法:FPGrowth算法  197
    8.3  生成关联规则  201
    8.4  补充阅读  203
    8.5  习题  203
    第9章  项集概述  208
    9.1  最大频繁项集和闭频繁项集  208
    9.2  挖掘最大频繁项集:GenMax算法  211
    9.3  挖掘闭频繁项集:Charm算法  213
    9.4  非可导项集  215
    9.5  补充阅读  220
    9.6  习题  221
    第10章  序列挖掘  223
    10.1  频繁序列  223
    10.2  挖掘频繁序列  224
    10.2.1  逐层挖掘:GSP  225
    10.2.2  垂直序列挖掘:Spade  226
    10.2.3  基于投影的序列挖掘:PrefixSpan  228
    10.3  基于后缀树的子串挖掘  230
    10.3.1  后缀树  230
    10.3.2  Ukkonen线性时间算法  233
    10.4  补充阅读  238
    10.5  习题  239
    第11章  图模式挖掘  242
    11.1  同形和支撑  242
    11.2  候选生成  245
    11.3  gSpan算法  249
    11.3.1  扩展和支撑计算  250
    11.3.2  权威性测试  255
    11.4  补充阅读  256
    11.5  习题  257
    第12章  模式与规则评估  260
    12.1  规则和模式评估的度量  260
    12.1.1  规则评估度量  260
    12.1.2  模式评估度量  268
    12.1.3  比较多条规则和模式  270
    12.2  显著性检验和置信区间  273
    12.2.1  产生式规则的费希尔精确检验  273
    12.2.2  显著性的置换检验  277
    12.2.3  置信区间内的自助抽样  282
    12.3  补充阅读  284
    12.4  习题  285
    第三部分  聚类
    第13章  基于代表的聚类  288
    13.1  K-means 算法  288
    13.2  核K-means  292
    13.3  期望最大聚类  295
    13.3.1  一维中的EM  297
    13.3.2  d维中的EM  300
    13.3.3  极大似然估计  305
    13.3.4  EM方法  309
    13.4  补充阅读  311
    13.5  习题  312
    第14章  层次式聚类  315
    14.1  预备知识  315
    14.2  聚合型层次式聚类  317
    14.2.1  簇间距离  317
    14.2.2  更新距离矩阵  321
    14.2.3  计算复杂度  322
    14.3  补充阅读  322
    14.4  习题  323
    第15章  基于密度的聚类  325
    15.1  DBSCAN 算法  325
    15.2  核密度估计  328
    15.2.1  一元密度估计  328
    15.2.2  多元密度估计  331
    15.2.3  最近邻密度估计  333
    15.3  基于密度的聚类:DENCLUE  333
    15.4  补充阅读  338
    15.5  习题  339
    第16章  谱聚类和图聚类  341
    16.1  图和矩阵  341
    16.2  基于图的割的聚类  347
    16.2.1  聚类目标函数:比例割与归—割  349
    16.2.2  谱聚类算法  351
    16.2.3  最大化目标:平均割与模块度  354
    16.3  马尔可夫聚类  360
    16.4  补充阅读  366
    16.5  习题  367
    第17章  聚类的验证  368
    17.1  外部验证度量  368
    17.1.1  基于匹配的度量  369
    17.1.2  基于熵的度量  372
    17.1.3  成对度量  375
    17.1.4  关联度量  378
    17.2  内部度量  381
    17.3  相对度量  388
    17.3.1  分簇稳定性  394
    17.3.2  聚类趋向性  396
    17.4  补充阅读  400
    17.5  习题  401
    第四部分  分类
    第18章  基于概率的分类  404
    18.1  贝叶斯分类器  404
    18.1.1  估计先验概率  404
    18.1.2  估计似然  405
    18.2  朴素贝叶斯分类器  409
    18.3  K最近邻分类器  412
    18.4  补充阅读  414
    18.5  习题  415
    第19章  决策树分类器  416
    19.1  决策树  417
    19.2  决策树算法  419
    19.2.1  分割点评估度量  420 
    19.2.2  评估分割点  422
    19.3  补充阅读  429
    19.4  习题  429
    第20章  线性判别分析  431
    20.1  最优线性判别  431
    20.2  核判别分析  437
    20.3  补充阅读  443
    20.4  习题  443
    第21章  支持向量机  445
    21.1  支持向量和间隔  445
    21.2  SVM:线性可分的情况  450
    21.3  软间隔SVM:线性不可分的情况  454
    21.3.1  铰链误损  455
    21.3.2  二次误损  458
    21.4  核SVM:非线性情况  459
    21.5  SVM训练算法  462
    21.5.1  对偶解法:随机梯度上升  463
    21.5.2  原始问题解:牛顿优化  467
    21.6  补充阅读  473
    21.7  习题  473
    第22章  分类的评估  475
    22.1  分类性能度量  475
    22.1.1  基于列联表的度量  476
    22.1.2  二值分类:正类和负类  479
    22.1.3  ROC分析  482
    22.2  分类器评估  487
    22.2.1  K折交叉验证  487
    22.2.2  自助抽样  488
    22.2.3  置信区间  489
    22.2.4  分类器比较:配对t检验  493
    22.3  偏置-方差分解  495
    22.4  补充阅读  503
    22.5  习题  504
查看详情
12
系列丛书 / 更多
数据挖掘与分析 概念与算法
数据挖掘导论
陈封能、斯坦巴赫、库玛尔 著;范明、范宏建 译
数据挖掘与分析 概念与算法
UNIX环境高级编程(第2版)
[美]史蒂文斯、拉戈 著;尤晋元、张亚英、戚正伟 译
数据挖掘与分析 概念与算法
计算机科学概论(第11版)
[美]J. Glenn Brookshear 著;刘艺 译
数据挖掘与分析 概念与算法
计算机程序设计艺术:卷1:基本算法(第3版)
[美]高德纳(Donald E. Knuth) 著;李伯民、范明、蒋爱军 译
数据挖掘与分析 概念与算法
具体数学:计算机科学基础(第2版)
[美]葛立恒、[美]高德纳、[美]帕塔许尼克 著;张明尧、张凡 译
数据挖掘与分析 概念与算法
计算机程序设计艺术・卷2:半数值算法(第3版)
[美]高德纳(Donald E.Knuth) 著;巫斌、范明 译
数据挖掘与分析 概念与算法
计算机程序设计艺术 卷3 排序与查找(第2版)
高德纳(Donald、E.、Knuth 著;贾洪峰 译
数据挖掘与分析 概念与算法
UNIX网络编程 : 第2版. 第2卷, 进程间通信(中文版)
[美]史蒂文斯 著
数据挖掘与分析 概念与算法
UNIX网络编程 卷1:套接字联网API(第3版)
[美]史蒂文斯 著
数据挖掘与分析 概念与算法
电子商务:从愿景到实现(第3版)
[美]阿瓦德 著;干红华、蔡晓平 译
数据挖掘与分析 概念与算法
UML面向对象建模与设计:第2版
[美]巴拉赫、[美]兰宝 著;车皓阳、杨眉 译
数据挖掘与分析 概念与算法
社会媒体挖掘
[美]扎法拉尼(Reza Zafarani)、[美]阿巴西(Mohammad Ali Abbasi)、[美]刘(Huan Liu) 著;刘挺、秦兵、赵妍妍 译
相关图书 / 更多
数据挖掘与分析 概念与算法
数据新闻与信息可视化
周葆华;徐笛;崔迪
数据挖掘与分析 概念与算法
数据合规师概论
郑少华、商建刚
数据挖掘与分析 概念与算法
数据思维——从数据分析到商业价值(第2版)
王汉生
数据挖掘与分析 概念与算法
数据科学优化方法
孙怡帆
数据挖掘与分析 概念与算法
数据资产入表:理论与实务
赵治纲
数据挖掘与分析 概念与算法
数据处理技术与方法研究
付雯
数据挖掘与分析 概念与算法
数据治理 工业企业数字化转型之道 第2版
祝守宇
数据挖掘与分析 概念与算法
数据可视化Pyecharts探秘实践教程/新工科大数据专业群实践丛书
余先昊、袁华 编
数据挖掘与分析 概念与算法
数据标注工程——语言知识与应用
于东
数据挖掘与分析 概念与算法
数据可视化基础与应用
刘佳 许桂秋 李静雯
数据挖掘与分析 概念与算法
数据权利保护的模式与机制
余圣琪
数据挖掘与分析 概念与算法
数据科学伦理:概念、技术和警世故事
[比利时]大卫·马滕斯(David;Martens