大话数据科学——大数据与机器学习实战(基于R语言)

大话数据科学——大数据与机器学习实战(基于R语言)
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2020-07
版次: 1
ISBN: 9787302551300
装帧: 其他
开本: 16开
纸张: 胶版纸
9人买过
  • 本书以独特的方式讲解数据科学,不仅让读者可以轻松学习数据科学理论,又可以动手(手算和机算)进行数据科学实战。本书特色:全彩印刷,图形、表格、思维导图丰富;避免深奥的数学证明,采用简单的数学说明;用各种学习图将本书内容贯穿起来;实战计算,包含小型数据的演算和大型数据的实战程序。 本书共13章,内容涵盖丰富的数据科学模型,包含关联分析、聚类分析、贝叶斯分类、近邻法、决策树、降维分析、回归模型等算法。利用小数据例题介绍计算步骤,同时用R语言验证计算结果。另外,也有大数据的案例数据,例如:推荐系统、支持向量机、集成学习等。另外,本书只有大数据的案例数据用R语言计算。 本书适合各个专业领域(包含金融、电商、保险、互联网等行业)想掌握数据科学的读者,也可以作为高校、社会培训机构教材。由于内容比较多,教师可自行选择教学内容。 陈文贤,美国加州大学伯克利分校工业工程博士,历任:台大信息管理系教授兼系主任、美国雪城Syracuse大学客座教授、澳大利亚悉尼科技大学UTS客座教授、台北德明财经科技大学信息管理系特聘教授。  第一篇  基础篇

    第1章 大数据概述  3

    1.1  大数据与相关学科的定义  4

    1.1.1  大数据的定义  4

    1.1.2  数据挖掘  6

    1.1.3  数据挖掘标准过程  7

    1.1.4  机器学习  9

    1.1.5  知识管理  12

    1.1.6  数据科学  14

    1.1.7  商业智能  15

    1.1.8  人工智能  17

    1.1.9  统计学与大数据比较  19

    1.1.10  数据名词的定义  21

    1.2  系统与模型概念  22

    1.2.1  系统定义与成分  22

    1.2.2  输入,处理,输出与黑箱  23

    1.2.3  环境  24

    1.2.4  反馈  25

    1.2.5  效率与效果  25

    1.2.6  模型与建模  26

    1.2.7  模型的假定与参数  27

    1.2.8  敏感,稳健或鲁棒  28

    1.2.9  模型的过拟合  28 

    1.3  大数据分析模型的分类  30 

    1.3.1  后设模型  30 

    1.3.2  关系与因果  31 

    1.3.3  基于因果关系的统计学分类  32 

    1.3.4  基于因果关系的大数据分类  32 

    1.3.5  基于数据类型的分类  34 

    1.3.6  基于测量的分类  35 

    1.3.7  数据科学模型的其他分类  36 

    1.4  大数据的江湖传奇  36 

    1.5  R语言“词云图”代码  40 

    1.6  本章思维导图  42 

    第2  章 大数据与R  语言  43 

    2.1  大数据进位  44 

    2.2  R语言介绍  45 

    2.2.1  安装  R  语言软件  45 

    2.2.2  下载R语言程序包  45 

    2.3  R数据对象的属性与结构  46 

    2.3.1  数值  47 

    2.3.2  整数  47 

    2.3.3  字符串  47 

    2.3.4  逻辑  47 

    2.3.5  向量  48 

    2.3.6  因子  49 

    2.3.7  矩阵  50 

    2.3.8  数据框  52 

    2.3.9  数组  52 

    2.3.10  列表  53 

    2.3.11  时间序列  54 

    2.3.12  访问数据类型和结构  54 

    2.3.13  遗失值  55 

    2.3.14  读入Excel  CSV数据  55 

    2.3.15  编辑数据  55 

    2.3.16  保存Excel  CSV数据  55 

    2.3.17  数据输入窗口  56 

    2.3.18  R  的数据结构和函数表  56 

    2.4  R的函数包  56 

    2.5  R的数据绘图  59 

    2.6  本章思维导图  64 

    第二篇  非监督式学习

    第3  章 关联分析  67 

    3.1  关联分析介绍  68 

    3.1.1  事务与项目的定义  68 

    3.1.2  项集的关联规则  69 

    3.2  关联规则数据格式  71 

    3.3  关联规则的算法  72 

    3.3.1  Apriori算法  73 

    3.3.2  关联规则其他测度值  74 

    3.3.3  负关联规则  75 

    3.4  关联规则的优点和缺点  76 

    3.4.1  Apriori算法的优点  76 

    3.4.2  Apriori算法的缺点  76 

    3.4.3  关联规则的评估  76 

    3.5  关联规则的实例计算  77 

    3.5.1  尿布与啤酒  77 

    3.5.2  豆浆、烧饼与饭团  79 

    3.5.3  评估与应用  82 

    3.6  R语言实战  82 

    3.6.1  泰坦尼克号  82 

    3.6.2  商店数据  86 

    3.6.3  食品杂货数据  90 

    3.6.4  人口收入数据  92 

    3.6.5  鸢尾花数据  93 

    3.7  本章思维导图  96 

    第4  章 聚类分析  97 

    4.1  聚类分析介绍  98 

    4.2  距离与相似度衡量  99 

    4.2.1  数值数据距离  99 

    4.2.2  标准化与归一化  100 

    4.2.3  0-1数据距离和相似度  100 

    4.2.4  混合数据的距离  102 

    4.2.5  顾客数据的距离  102 

    4.2.6  距离和相似度的转换  104 

    4.2.7  计算距离的R函数  104 

    4.3  层次聚类分析  106 

    4.3.1  两类连接  106 

    4.3.2  顾客数据的聚类  107 

    4.3.3  层次聚类的优点和缺点  110 

    4.4  非层次聚类分析  110 

    4.4.1  K-mean聚类  110 

    4.4.2  PAM  聚类  112 

    4.4.3  K-mean聚类的优点和缺点  113 

    4.5  聚类分析的评价  113 

    4.6  R语言实战  115 

    4.6.1  欧洲语言的聚类  115 

    4.6.2  美国电力公司数据  118 

    4.6.3  欧州人蛋白质数据  120 

    4.6.4  红酒数据  124 

    4.6.5  汽车数据  126 

    4.7  本章思维导图  128 

    第5  章 降维分析  129 

    5.1  降维分析介绍  130 

    5.2  主成分分析  131 

    5.2.1  主成分分析的计算理论  132 

    5.2.2  主成分分析的计算步骤  134 

    5.2.3  主成分分析的优点和缺点  134 

    5.3  R语言程序  135 

    5.4  R语言实战  138 

    5.4.1  鸢尾花数据  138 

    5.4.2  美国罪犯数据  138 

    5.4.3  美国法官数据  145 

    5.4.4  国家冰球联盟资料  146 

    5.4.5  美国职业棒球数据  149 

    5.4.6  早餐麦片数据  151 

    5.4.7  红酒数据  151 

    5.4.8  心理学数据  152 

    5.5  本章思维导图  154 

    第三篇  监督式学习

    第6  章 模型选择与评价  157 

    6.1  模型选择与评价步骤  158 

    6.2  大数据的抽样方法  159 

    6.2.1  保留方法抽样  160 

    6.2.2  自助抽样法  162 

    6.2.3  632自助法  163 

    6.2.4  过采样  164 

    6.3  交叉验证  165 

    6.3.1  k-折交叉验证  165 

    6.3.2  留一交叉验证  166 

    6.4  模型选择  167 

    6.4.1  参数和非参数学习  168 

    6.4.2  偏差和方差  169 

    6.4.3  模型的复杂度  170 

    6.4.4  正则化  171 

    6.4.5  认真学习和懒惰学习  171 

    6.5  模型评价  172 

    6.5.1  二元0-1分类器的评价——混淆矩阵  172 

    6.5.2  混淆矩阵的举例说明  174 

    6.5.3  二元分类器的成本计算  176 

    6.5.4  二元分类器例题数据R语言  176 

    6.5.5  多标签分类器的评价  179 

    6.5.6  多标签分类器评价R  语言  181 

    6.5.7  交叉验证分类的评价  183 

    6.5.8  分类学习的ROC曲线  183 

    6.5.9  连续型目标变量回归模型的评价  187 

    6.6  R语言实战  189 

    6.6.1  R语言自动调模与调参  189 

    6.6.2  汽车数据  190 

    6.6.3  乳腺癌诊断数据  190 

    6.7  本章思维导图  192 

    第7  章 回归分析  193 

    7.1  多元线性回归  194 

    7.1.1  多元线性回归模型  194 

    7.1.2  参数估计  195 

    7.1.3  适合性检验  196 

    7.1.4  实例计算  197 

    7.1.5  R语言的实例计算  199 

    7.2  变量(特征)选择  200 

    7.2.1  偏相关系数  200 

    7.2.2  逐步回归  203 

    7.2.3  部分子集回归  204 

    7.2.4  压缩方法  205 

    7.3  Logistic逻辑回归  207 

    7.4  R语言实战  209 

    7.4.1  股票数据  209 

    7.4.2  乳腺癌病理数据  210 

    7.4.3  医疗保险数据  213 

    7.4.4  棒球数据  215 

    7.4.5  波士顿房价数据  218 

    7.4.6  皮玛数据  221 

    7.5  本章思维导图  224 

    第8  章 近邻法  225 

    8.1  学习器  226 

    8.1.1  认真学习器和懒惰学习器  226 

    8.1.2  基于实例学习器  227 

    8.1.3  参数学习器和非参数学习器  228 

    8.2  近邻法介绍  229 

    8.2.1  k-近邻法算法步骤  229 

    8.2.2  k-近邻法分类器  230 

    8.2.3  k-近邻法回归  231 

    8.2.4  自变量是分类变量  232 

    8.3  近邻法的优点和缺点  232 

    8.4  R语言实战  233 

    8.4.1  食材数据  233 

    8.4.2  鸢尾花数据  234 

    8.4.3  乳癌检查数据  236 

    8.4.4  美国总统候选人数据  238 

    8.4.5  玻璃数据  240 

    8.4.6  波士顿房价数据  241 

    8.4.7  皮玛数据  242 

    8.5  本章思维导图  244 

    第9  章 贝叶斯分类  245 

    9.1  贝叶斯公式  246 

    9.2  贝叶斯分类  247 

    9.2.1  朴素贝叶斯分类  247 

    9.2.2  特征值是连续变量  248 

    9.2.3  朴素贝叶斯分类的优点和缺点  249 

    9.3  贝叶斯分类的实例计算  249 

    9.3.1  天气和打网球  249 

    9.3.2  验前概率与似然概率  251 

    9.3.3  拉普拉斯校准  251 

    9.3.4  R  语言实例计算  252 

    9.4  R语言实战  255 

    9.4.1  泰坦尼克号数据  255 

    9.4.2  鸢尾花数据  256 

    9.4.3  垃圾邮件数据  258 

    9.4.4  皮玛数据  261 

    9.5  本章思维导图  262 

    第10  章 决策树  263 

    10.1  决策树概述  264 

    10.1.1  图形表示  264 

    10.1.2  逻辑表示  265 

    10.1.3  规则表示  265 

    10.1.4  数学公式表示  265 

    10.2  决策树的信息计算  266 

    10.2.1  信息计算  266 

    10.2.2  熵与信息  267 

    10.2.3  信息增益  267 

    10.2.4  信息增益比  268 

    10.2.5  基尼系数与基尼增益  268 

    10.2.6  卡方统计量  269 

    10.2.7  分枝法则的选择  269 

    10.2.8  回归树  269 

    10.3  决策树的实例计算  270 

    10.4  决策树的剪枝  277 

    10.4.1  贪婪算法  277 

    10.4.2  决策树剪枝  278 

    10.5  决策树的优点和缺点  279 

    10.6  R语言实战  280 

    10.6.1  决策树R语言包  280 

    10.6.2  打网球数据  280 

    10.6.3  泰坦尼克号数据  283 

    10.6.4  鸢尾花数据  284 

    10.6.5  皮玛数据  289 

    10.6.6  汽车座椅销售数据  292 

    10.6.7  波士顿房价数据  295 

    10.6.8  猫数据  297 

    10.6.9  驼背数据  300 

    10.6.10  美国总统选举投票数据  301 

    10.6.11  员工离职数据  302 

    10.7  本章思维导图  306 

    第11  章 支持向量机  307 

    11.1  支持向量机概述  308 

    11.2  最大间隔分类(硬间隔)  310 

    11.3  支持向量分类(软间隔)  311 

    11.4  支持向量机(核函数)  313 

    11.4.1  支持向量机的核函数  313 

    11.4.2  多元分类支持向量机  315 

    11.5  支持向量机的优点和缺点  315 

    11.6  支持向量机R语言应用  316 

    11.6.1  随机正态分布数据线性核函数  317 

    11.6.2  随机正态分布数据径向基核函数  318 

    11.6.3  三分类数据径向基核函数  321 

    11.7  R语言实战  322 

    11.7.1  基因表达数据  322 

    11.7.2  鸢尾花数据  322 

    11.7.3  猫数据  323 

    11.7.4  皮玛数据  325 

    11.7.5  字符数据  328 

    11.7.6  玻璃数据  329 

    11.8  本章思维导图  332 

    第12  章 集成学习  333 

    12.1  集成学习介绍  334 

    12.2  个别分类方法评价  335 

    12.3  Bagging学习  337 

    12.4  随机森林  338 

    12.4.1  随机森林介绍  338 

    12.4.2  随机森林算法步骤  339 

    12.4.3  R  语言  339 

    12.4.4  随机森林的优点和缺点  340 

    12.4.5  非监督式学习-鸢尾花数据  340 

    12.4.6  美国大学数据  341 

    12.5  Boosting学习  342 

    12.6  Stacking学习  343 

    12.6.1  皮玛数据  343 

    12.6.2  员工离职数据  344 

    12.7  R语言实战  345 

    12.7.1  红酒数据  345 

    12.7.2  信用数据  347 

    12.7.3  皮玛数据  348 

    12.7.4  波士顿房价数据  349 

    12.7.5  汽车座椅数据  352 

    12.7.6  顾客流失数据  353 

    12.8  本章思维导图  356 

    第13  章 推荐系统  357 

    13.1  推荐系统概述  358 

    13.2  过滤推荐  359 

    13.2.1  相似度  360 

    13.2.2  基于用户的协同过滤  360 

    13.2.3  基于项目的协同过滤  361 

    13.2.4  协同过滤的评价  362 

    13.2.5  协同过滤的优点和缺点  363 

    13.2.6  混合的推荐机制  364 

    13.3  R语言应用  365 

    13.3.1  推荐系统R语言包  365 

    13.3.2  recommenderlab  函数程序  366 

    13.3.3  模拟数据  367 

    13.4  R语言实战  369 

    13.4.1  电影数据  369 

    13.4.2  笑话数据  373 

    13.5  本章思维导图  378 

    结语  379 

    参考文献  381
  • 内容简介:
    本书以独特的方式讲解数据科学,不仅让读者可以轻松学习数据科学理论,又可以动手(手算和机算)进行数据科学实战。本书特色:全彩印刷,图形、表格、思维导图丰富;避免深奥的数学证明,采用简单的数学说明;用各种学习图将本书内容贯穿起来;实战计算,包含小型数据的演算和大型数据的实战程序。 本书共13章,内容涵盖丰富的数据科学模型,包含关联分析、聚类分析、贝叶斯分类、近邻法、决策树、降维分析、回归模型等算法。利用小数据例题介绍计算步骤,同时用R语言验证计算结果。另外,也有大数据的案例数据,例如:推荐系统、支持向量机、集成学习等。另外,本书只有大数据的案例数据用R语言计算。 本书适合各个专业领域(包含金融、电商、保险、互联网等行业)想掌握数据科学的读者,也可以作为高校、社会培训机构教材。由于内容比较多,教师可自行选择教学内容。
  • 作者简介:
    陈文贤,美国加州大学伯克利分校工业工程博士,历任:台大信息管理系教授兼系主任、美国雪城Syracuse大学客座教授、澳大利亚悉尼科技大学UTS客座教授、台北德明财经科技大学信息管理系特聘教授。 
  • 目录:
    第一篇  基础篇

    第1章 大数据概述  3

    1.1  大数据与相关学科的定义  4

    1.1.1  大数据的定义  4

    1.1.2  数据挖掘  6

    1.1.3  数据挖掘标准过程  7

    1.1.4  机器学习  9

    1.1.5  知识管理  12

    1.1.6  数据科学  14

    1.1.7  商业智能  15

    1.1.8  人工智能  17

    1.1.9  统计学与大数据比较  19

    1.1.10  数据名词的定义  21

    1.2  系统与模型概念  22

    1.2.1  系统定义与成分  22

    1.2.2  输入,处理,输出与黑箱  23

    1.2.3  环境  24

    1.2.4  反馈  25

    1.2.5  效率与效果  25

    1.2.6  模型与建模  26

    1.2.7  模型的假定与参数  27

    1.2.8  敏感,稳健或鲁棒  28

    1.2.9  模型的过拟合  28 

    1.3  大数据分析模型的分类  30 

    1.3.1  后设模型  30 

    1.3.2  关系与因果  31 

    1.3.3  基于因果关系的统计学分类  32 

    1.3.4  基于因果关系的大数据分类  32 

    1.3.5  基于数据类型的分类  34 

    1.3.6  基于测量的分类  35 

    1.3.7  数据科学模型的其他分类  36 

    1.4  大数据的江湖传奇  36 

    1.5  R语言“词云图”代码  40 

    1.6  本章思维导图  42 

    第2  章 大数据与R  语言  43 

    2.1  大数据进位  44 

    2.2  R语言介绍  45 

    2.2.1  安装  R  语言软件  45 

    2.2.2  下载R语言程序包  45 

    2.3  R数据对象的属性与结构  46 

    2.3.1  数值  47 

    2.3.2  整数  47 

    2.3.3  字符串  47 

    2.3.4  逻辑  47 

    2.3.5  向量  48 

    2.3.6  因子  49 

    2.3.7  矩阵  50 

    2.3.8  数据框  52 

    2.3.9  数组  52 

    2.3.10  列表  53 

    2.3.11  时间序列  54 

    2.3.12  访问数据类型和结构  54 

    2.3.13  遗失值  55 

    2.3.14  读入Excel  CSV数据  55 

    2.3.15  编辑数据  55 

    2.3.16  保存Excel  CSV数据  55 

    2.3.17  数据输入窗口  56 

    2.3.18  R  的数据结构和函数表  56 

    2.4  R的函数包  56 

    2.5  R的数据绘图  59 

    2.6  本章思维导图  64 

    第二篇  非监督式学习

    第3  章 关联分析  67 

    3.1  关联分析介绍  68 

    3.1.1  事务与项目的定义  68 

    3.1.2  项集的关联规则  69 

    3.2  关联规则数据格式  71 

    3.3  关联规则的算法  72 

    3.3.1  Apriori算法  73 

    3.3.2  关联规则其他测度值  74 

    3.3.3  负关联规则  75 

    3.4  关联规则的优点和缺点  76 

    3.4.1  Apriori算法的优点  76 

    3.4.2  Apriori算法的缺点  76 

    3.4.3  关联规则的评估  76 

    3.5  关联规则的实例计算  77 

    3.5.1  尿布与啤酒  77 

    3.5.2  豆浆、烧饼与饭团  79 

    3.5.3  评估与应用  82 

    3.6  R语言实战  82 

    3.6.1  泰坦尼克号  82 

    3.6.2  商店数据  86 

    3.6.3  食品杂货数据  90 

    3.6.4  人口收入数据  92 

    3.6.5  鸢尾花数据  93 

    3.7  本章思维导图  96 

    第4  章 聚类分析  97 

    4.1  聚类分析介绍  98 

    4.2  距离与相似度衡量  99 

    4.2.1  数值数据距离  99 

    4.2.2  标准化与归一化  100 

    4.2.3  0-1数据距离和相似度  100 

    4.2.4  混合数据的距离  102 

    4.2.5  顾客数据的距离  102 

    4.2.6  距离和相似度的转换  104 

    4.2.7  计算距离的R函数  104 

    4.3  层次聚类分析  106 

    4.3.1  两类连接  106 

    4.3.2  顾客数据的聚类  107 

    4.3.3  层次聚类的优点和缺点  110 

    4.4  非层次聚类分析  110 

    4.4.1  K-mean聚类  110 

    4.4.2  PAM  聚类  112 

    4.4.3  K-mean聚类的优点和缺点  113 

    4.5  聚类分析的评价  113 

    4.6  R语言实战  115 

    4.6.1  欧洲语言的聚类  115 

    4.6.2  美国电力公司数据  118 

    4.6.3  欧州人蛋白质数据  120 

    4.6.4  红酒数据  124 

    4.6.5  汽车数据  126 

    4.7  本章思维导图  128 

    第5  章 降维分析  129 

    5.1  降维分析介绍  130 

    5.2  主成分分析  131 

    5.2.1  主成分分析的计算理论  132 

    5.2.2  主成分分析的计算步骤  134 

    5.2.3  主成分分析的优点和缺点  134 

    5.3  R语言程序  135 

    5.4  R语言实战  138 

    5.4.1  鸢尾花数据  138 

    5.4.2  美国罪犯数据  138 

    5.4.3  美国法官数据  145 

    5.4.4  国家冰球联盟资料  146 

    5.4.5  美国职业棒球数据  149 

    5.4.6  早餐麦片数据  151 

    5.4.7  红酒数据  151 

    5.4.8  心理学数据  152 

    5.5  本章思维导图  154 

    第三篇  监督式学习

    第6  章 模型选择与评价  157 

    6.1  模型选择与评价步骤  158 

    6.2  大数据的抽样方法  159 

    6.2.1  保留方法抽样  160 

    6.2.2  自助抽样法  162 

    6.2.3  632自助法  163 

    6.2.4  过采样  164 

    6.3  交叉验证  165 

    6.3.1  k-折交叉验证  165 

    6.3.2  留一交叉验证  166 

    6.4  模型选择  167 

    6.4.1  参数和非参数学习  168 

    6.4.2  偏差和方差  169 

    6.4.3  模型的复杂度  170 

    6.4.4  正则化  171 

    6.4.5  认真学习和懒惰学习  171 

    6.5  模型评价  172 

    6.5.1  二元0-1分类器的评价——混淆矩阵  172 

    6.5.2  混淆矩阵的举例说明  174 

    6.5.3  二元分类器的成本计算  176 

    6.5.4  二元分类器例题数据R语言  176 

    6.5.5  多标签分类器的评价  179 

    6.5.6  多标签分类器评价R  语言  181 

    6.5.7  交叉验证分类的评价  183 

    6.5.8  分类学习的ROC曲线  183 

    6.5.9  连续型目标变量回归模型的评价  187 

    6.6  R语言实战  189 

    6.6.1  R语言自动调模与调参  189 

    6.6.2  汽车数据  190 

    6.6.3  乳腺癌诊断数据  190 

    6.7  本章思维导图  192 

    第7  章 回归分析  193 

    7.1  多元线性回归  194 

    7.1.1  多元线性回归模型  194 

    7.1.2  参数估计  195 

    7.1.3  适合性检验  196 

    7.1.4  实例计算  197 

    7.1.5  R语言的实例计算  199 

    7.2  变量(特征)选择  200 

    7.2.1  偏相关系数  200 

    7.2.2  逐步回归  203 

    7.2.3  部分子集回归  204 

    7.2.4  压缩方法  205 

    7.3  Logistic逻辑回归  207 

    7.4  R语言实战  209 

    7.4.1  股票数据  209 

    7.4.2  乳腺癌病理数据  210 

    7.4.3  医疗保险数据  213 

    7.4.4  棒球数据  215 

    7.4.5  波士顿房价数据  218 

    7.4.6  皮玛数据  221 

    7.5  本章思维导图  224 

    第8  章 近邻法  225 

    8.1  学习器  226 

    8.1.1  认真学习器和懒惰学习器  226 

    8.1.2  基于实例学习器  227 

    8.1.3  参数学习器和非参数学习器  228 

    8.2  近邻法介绍  229 

    8.2.1  k-近邻法算法步骤  229 

    8.2.2  k-近邻法分类器  230 

    8.2.3  k-近邻法回归  231 

    8.2.4  自变量是分类变量  232 

    8.3  近邻法的优点和缺点  232 

    8.4  R语言实战  233 

    8.4.1  食材数据  233 

    8.4.2  鸢尾花数据  234 

    8.4.3  乳癌检查数据  236 

    8.4.4  美国总统候选人数据  238 

    8.4.5  玻璃数据  240 

    8.4.6  波士顿房价数据  241 

    8.4.7  皮玛数据  242 

    8.5  本章思维导图  244 

    第9  章 贝叶斯分类  245 

    9.1  贝叶斯公式  246 

    9.2  贝叶斯分类  247 

    9.2.1  朴素贝叶斯分类  247 

    9.2.2  特征值是连续变量  248 

    9.2.3  朴素贝叶斯分类的优点和缺点  249 

    9.3  贝叶斯分类的实例计算  249 

    9.3.1  天气和打网球  249 

    9.3.2  验前概率与似然概率  251 

    9.3.3  拉普拉斯校准  251 

    9.3.4  R  语言实例计算  252 

    9.4  R语言实战  255 

    9.4.1  泰坦尼克号数据  255 

    9.4.2  鸢尾花数据  256 

    9.4.3  垃圾邮件数据  258 

    9.4.4  皮玛数据  261 

    9.5  本章思维导图  262 

    第10  章 决策树  263 

    10.1  决策树概述  264 

    10.1.1  图形表示  264 

    10.1.2  逻辑表示  265 

    10.1.3  规则表示  265 

    10.1.4  数学公式表示  265 

    10.2  决策树的信息计算  266 

    10.2.1  信息计算  266 

    10.2.2  熵与信息  267 

    10.2.3  信息增益  267 

    10.2.4  信息增益比  268 

    10.2.5  基尼系数与基尼增益  268 

    10.2.6  卡方统计量  269 

    10.2.7  分枝法则的选择  269 

    10.2.8  回归树  269 

    10.3  决策树的实例计算  270 

    10.4  决策树的剪枝  277 

    10.4.1  贪婪算法  277 

    10.4.2  决策树剪枝  278 

    10.5  决策树的优点和缺点  279 

    10.6  R语言实战  280 

    10.6.1  决策树R语言包  280 

    10.6.2  打网球数据  280 

    10.6.3  泰坦尼克号数据  283 

    10.6.4  鸢尾花数据  284 

    10.6.5  皮玛数据  289 

    10.6.6  汽车座椅销售数据  292 

    10.6.7  波士顿房价数据  295 

    10.6.8  猫数据  297 

    10.6.9  驼背数据  300 

    10.6.10  美国总统选举投票数据  301 

    10.6.11  员工离职数据  302 

    10.7  本章思维导图  306 

    第11  章 支持向量机  307 

    11.1  支持向量机概述  308 

    11.2  最大间隔分类(硬间隔)  310 

    11.3  支持向量分类(软间隔)  311 

    11.4  支持向量机(核函数)  313 

    11.4.1  支持向量机的核函数  313 

    11.4.2  多元分类支持向量机  315 

    11.5  支持向量机的优点和缺点  315 

    11.6  支持向量机R语言应用  316 

    11.6.1  随机正态分布数据线性核函数  317 

    11.6.2  随机正态分布数据径向基核函数  318 

    11.6.3  三分类数据径向基核函数  321 

    11.7  R语言实战  322 

    11.7.1  基因表达数据  322 

    11.7.2  鸢尾花数据  322 

    11.7.3  猫数据  323 

    11.7.4  皮玛数据  325 

    11.7.5  字符数据  328 

    11.7.6  玻璃数据  329 

    11.8  本章思维导图  332 

    第12  章 集成学习  333 

    12.1  集成学习介绍  334 

    12.2  个别分类方法评价  335 

    12.3  Bagging学习  337 

    12.4  随机森林  338 

    12.4.1  随机森林介绍  338 

    12.4.2  随机森林算法步骤  339 

    12.4.3  R  语言  339 

    12.4.4  随机森林的优点和缺点  340 

    12.4.5  非监督式学习-鸢尾花数据  340 

    12.4.6  美国大学数据  341 

    12.5  Boosting学习  342 

    12.6  Stacking学习  343 

    12.6.1  皮玛数据  343 

    12.6.2  员工离职数据  344 

    12.7  R语言实战  345 

    12.7.1  红酒数据  345 

    12.7.2  信用数据  347 

    12.7.3  皮玛数据  348 

    12.7.4  波士顿房价数据  349 

    12.7.5  汽车座椅数据  352 

    12.7.6  顾客流失数据  353 

    12.8  本章思维导图  356 

    第13  章 推荐系统  357 

    13.1  推荐系统概述  358 

    13.2  过滤推荐  359 

    13.2.1  相似度  360 

    13.2.2  基于用户的协同过滤  360 

    13.2.3  基于项目的协同过滤  361 

    13.2.4  协同过滤的评价  362 

    13.2.5  协同过滤的优点和缺点  363 

    13.2.6  混合的推荐机制  364 

    13.3  R语言应用  365 

    13.3.1  推荐系统R语言包  365 

    13.3.2  recommenderlab  函数程序  366 

    13.3.3  模拟数据  367 

    13.4  R语言实战  369 

    13.4.1  电影数据  369 

    13.4.2  笑话数据  373 

    13.5  本章思维导图  378 

    结语  379 

    参考文献  381
查看详情
您可能感兴趣 / 更多