大话机器学习——原理|算法|建模|代码30讲

大话机器学习——原理|算法|建模|代码30讲
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2023-06
版次: 1
ISBN: 9787302628620
定价: 119.00
装帧: 其他
开本: 16开
纸张: 胶版纸
2人买过
  • 本书是作者多年在数据智能领域中利用机器学习实战经验的理解、归纳和总结。出于“回归事物本质,规律性、系统性地思考问题”“理论为实践服务并且反过来充实理论,为更多人服务”的想法和初心,本书系统地阐述了机器学习理论和工程方法论,并结合实际商业场景落地。 全书分为3部分。第1部分是机器学习的数学理论理解,这部分不是对于机器学习数学理论的严谨推导和证明,更多是对于理论背后的“到底是什么,为什么要这样做”的通俗理解。尽可能通过对应到日常生活中的现象来进行讲述。第2部分是机器学习模型、方法及本质,这一部分针对机器学习的方法论及具体的处理过程进行阐述。涉及数据准备、异常值的检测和处理、特征的处理、典型模型的介绍、代价函数、激活函数及模型性能评价等,是本书的核心内容。我们学习知识的主要目的是解决问题,特别是对于企业的从业人员,对在商业实战环境中出现的问题,希望通过机器学习的方式来更好地解决。第3部分是机器学习实例展示。 本书内容系统、选材全面、知识讲述详细、易学易用,兼具实战性和理论性,适合机器学习的初学者与进阶者学习使用。 第1部分机器学习的数学理论理解

    第1讲这个不确定的世界如何描述

    1.1概率、几率及期望

    1.1.1概念及定义

    1.1.2概率和几率的关系

    1.1.3期望值

    1.2概率函数、概率分布函数和概率密度函数

    1.2.1随机变量和普通变量的区别

    1.2.2离散型随机变量和连续型随机变量

    1.2.3离散型随机变量概率函数

    1.2.4离散型随机变量概率分布

    1.2.5离散型随机变量概率分布函数

    1.2.6连续型随机变量的概率函数和分布函数

    1.3条件概率、联合概率以及贝叶斯公式

    1.3.1计算条件概率和联合概率

    1.3.2贝叶斯公式的历史和现实含义

    1.4本讲小结

    第2讲数据的形态描述

    2.1正态分布

    2.2混合高斯分布

    2.3伯努利分布及二项分布

    2.4泊松分布

    2.5指数分布

    2.6幂律分布

    2.7以上分布的总结和联系

    2.8本讲小结

    第3讲信息的数学表达

    3.1自信息

    3.2信息熵

    3.3信息增益

    3.4相对熵

    3.5交叉熵

    3.6基尼指数(不纯度)

    3.7本讲小结

    第4讲随机变量的相关性和重要性

    4.1数值型变量之间的相关性

    4.1.1协方差

    4.1.2皮尔逊相关系数

    4.2类别型变量之间的相关性

    4.2.1互信息

    4.2.2卡方值

    4.3证据权重和信息值

    4.3.1证据权重

    4.3.2信息值

    4.4本讲小结

    第5讲抓住主要矛盾——降维技术理论

    5.1主成分分析

    5.2线性判别分析

    5.3奇异值分解

    5.4自编码器

    5.5PCA、SVD和 AE 是亲戚

    5.6傅里叶变换

    5.7本讲小结

    第6讲采样方法

    6.1拒绝采样

    6.2马尔可夫链蒙特卡罗采样

    6.3MetropolisHastings采样

    6.4吉布斯采样

    6.5汤普森采样

    6.6上采样人工合成数据策略

    6.7本讲小结

    第7讲抬头看路低头拉车的迭代方法

    7.1迭代求解

    7.2梯度下降法

    7.3牛顿法及其改进算法

    7.3.1泰勒展开式

    7.3.2牛顿法

    7.4Adam(Adaptive Moment Estimation)方法

    7.4.1动量法(Momentum)

    7.4.2RMSProp 方法

    7.4.3终方法

    7.5本讲小结

    第8讲经典化问题求解方法

    8.1小二乘估计

    8.2似然估计

    8.3后验概率

    8.4期望化方法

    8.5熵模型

    8.6本讲小结

    第2部分机器学习模型、方法及本质

    第9讲机器学习的方法论

    9.1总体方法论

    9.1.1业务理解建模

    9.1.2建立假设模型

    9.1.3数据收集

    9.1.4数据准备

    9.1.5建模分析

    9.1.6解释和模型评估

    9.2建模分析的一般步骤

    9.3模型和算法

    9.3.1按学习方法区分

    9.3.2按任务维度区分

    9.3.3按模型的类型分

    9.3.4模型算法和维度的对应

    9.4本讲小结

    第10讲数据准备

    10.1厘清数据来源

    10.1.1先有模型还是先有数据

    10.1.2数据来源的类型

    10.2数据的探索性分析

    10.2.1主要工作内容

    10.2.2主要步骤

    10.3本讲小结

    第11讲异常检测和处理

    11.1什么是异常值

    11.2异常检测面临的挑战

    11.3异常的种类

    11.4异常检测的应用领域

    11.5异常检测的方法

    11.5.1基于统计模型的异常检测

    11.5.2基于深度学习的异常检测

    11.6本讲小结

    第12讲特征数据的预处理

    12.1特征标准化

    12.2连续变量离散化

    12.2.1为什么要离散化

    12.2.2如何进行离散化

    12.3离散型特征处理

    12.3.1数值化处理

    12.3.2哑编码

    12.3.3时间序列处理

    12.4本讲小结

    第13讲特征的选择、提取和构造

    13.1为什么要进行特征的选择、提取和构造

    13.1.1特征数量和模型性能的关系

    13.1.2特征选择、提取和构造的主要原因

    13.1.3其他非技术因素

    13.2特征的选择

    13.2.1过滤策略

    13.2.2包裹策略

    13.2.3嵌入策略

    13.2.4三种策略的总结

    13.3特征的提取和构造

    13.3.1特征投影(降维)

    13.3.2特征组合

    13.4本讲小结

    第14讲机器学习模型——逻辑回归和梯度提升决策树

    14.1逻辑回归

    14.1.1Logit的引入

    14.1.2参数的求解过程

    14.1.3模型的使用

    14.1.4模型的本质

    14.2梯度提升决策树

    14.2.1梯度提升决策树的含义

    14.2.2梯度提升决策树的实现过程

    14.2.3梯度提升决策树例子及分析

    14.2.4XGBoost

    第15讲机器学习模型——概率图模型

    15.1概述

    15.2概率图模型族谱及特征

    15.2.1特征一: 有向和无向

    15.2.2特征二: 马尔可夫性质

    15.2.3特征三: 判别式和生成式

    15.2.4特征四: 序列型模型

    15.2.5核心概念小结

    15.3两个典型的概率图模型

    15.3.1隐马尔可夫模型

    15.3.2条件随机场(CRF)

    第16讲机器学习模型——强化学习

    16.1ε贪婪算法

    16.2置信区间上界算法

    16.3汤普森采样

    16.3.1贝塔分布

    16.3.2贝塔分布与二项式分布的共轭先验性质

    16.3.3汤普森采样的具体过程

    16.4共性问题

    第17讲探索式学习

    17.1概述

    17.2模拟退火算法

    17.3遗传算法

    17.4蚁群算法

    第18讲机器学习模型——人工神经网络

    18.1神经网络的起源

    18.2神经网络的开端

    18.2.1简单的神经网络结构——感知机

    18.2.2多层感知机

    18.3神经网络的崛起——反向传播神经网络

    18.4神经网络的突破——深度学习

    18.4.1图像识别的过程展示

    18.4.2深度学习成功的关键

    18.4.3深度学习的缺陷

    18.5神经网络的实质——通用逼近定理

    第19讲基于机器学习的推荐技术

    19.1推荐的作用

    19.2推荐采用的方法

    19.2.1基于邻域的推荐方法

    19.2.2隐语义模型推荐方法

    19.2.3利用标签的推荐方法

    19.2.4利用上下文信息推荐方法

    19.2.5深度学习推荐方法

    19.3推荐效果评测指标和维度

    第20讲激活函数

    20.1激活函数的作用

    20.2激活函数的要求

    20.3常用激活函数介绍

    20.3.1Sigmoid函数

    20.3.2tanh函数

    20.3.3ReLU函数

    20.3.4LeakyReLU函数

    20.3.5ELU函数

    20.3.6softmax函数

    20.3.7常用激活函数的选择建议

    20.3.8高斯函数

    第21讲代价函数

    21.1损失函数、代价函数和目标函数

    21.2经验风险、期望风险和结构风险

    21.3正则化的本质

    21.4常用损失函数

    21.4.1平均误差和均方误差

    21.4.2Huber损失

    21.4.3对数损失

    21.4.4对比损失/三元组损失(Triplet Loss)

    21.5本讲小结

    第22讲模型效果的衡量方法

    22.1分类问题的模型效果衡量方法

    22.1.1混淆矩阵

    22.1.2FScore

    22.1.3ROC及AUC

    22.1.4KS值

    22.2回归模型中的效果衡量方法

    22.3模型的选择要素——偏差和方差

    22.4交叉验证

    22.5本讲小结

    第23讲机器学习和人工智能展望

    23.1当前人工智能技术本质的认识

    23.1.1人工智能和机器学习的关系

    23.1.2信息技术产业链条

    23.2第三代人工智能的发展方向

    23.2.1代和第二代人工智能的历史

    23.2.2第三代人工智能要求

    23.3人工智能的小数据、大任务范式

    23.3.1一只乌鸦给我们的启示

    23.3.2小数据、大任务范式

    第3部分机器学习实例展示

    第24讲垃圾邮件判断(朴素贝叶斯分类)

    24.1问题描述

    24.2算法详述

    24.3代码详述

    第25讲客户流失预测(高斯贝叶斯分类)

    25.1问题描述

    25.2算法详述

    25.3代码详述

    第26讲两个特殊硬币的投掷概率(期望化方法)

    26.1问题描述

    26.2算法详述

    26.3代码详述

    第27讲信用卡申请评分卡模型(WOE/IV逻辑回归)

    27.1问题描述

    27.2算法详述

    27.3代码详述

    第28讲用户忠诚度变化轨迹预测(隐马尔可夫模型)

    28.1问题描述

    28.2算法详述

    28.3代码详述

    第29讲产品的价格设定(强化学习)

    29.1问题描述

    29.2算法详述

    29.3代码详述

    第30讲数据智能平台

    30.1数据智能包含哪些内容

    30.1.1基础平台

    30.1.2融合平台

    30.1.3治理系统

    30.1.4质量保证

    30.1.5安全计算

    30.1.6分析挖掘

    30.1.7数据可视化

    30.2产品化的数智平台

    30.3本讲小结

     
  • 内容简介:
    本书是作者多年在数据智能领域中利用机器学习实战经验的理解、归纳和总结。出于“回归事物本质,规律性、系统性地思考问题”“理论为实践服务并且反过来充实理论,为更多人服务”的想法和初心,本书系统地阐述了机器学习理论和工程方法论,并结合实际商业场景落地。 全书分为3部分。第1部分是机器学习的数学理论理解,这部分不是对于机器学习数学理论的严谨推导和证明,更多是对于理论背后的“到底是什么,为什么要这样做”的通俗理解。尽可能通过对应到日常生活中的现象来进行讲述。第2部分是机器学习模型、方法及本质,这一部分针对机器学习的方法论及具体的处理过程进行阐述。涉及数据准备、异常值的检测和处理、特征的处理、典型模型的介绍、代价函数、激活函数及模型性能评价等,是本书的核心内容。我们学习知识的主要目的是解决问题,特别是对于企业的从业人员,对在商业实战环境中出现的问题,希望通过机器学习的方式来更好地解决。第3部分是机器学习实例展示。 本书内容系统、选材全面、知识讲述详细、易学易用,兼具实战性和理论性,适合机器学习的初学者与进阶者学习使用。
  • 目录:
    第1部分机器学习的数学理论理解

    第1讲这个不确定的世界如何描述

    1.1概率、几率及期望

    1.1.1概念及定义

    1.1.2概率和几率的关系

    1.1.3期望值

    1.2概率函数、概率分布函数和概率密度函数

    1.2.1随机变量和普通变量的区别

    1.2.2离散型随机变量和连续型随机变量

    1.2.3离散型随机变量概率函数

    1.2.4离散型随机变量概率分布

    1.2.5离散型随机变量概率分布函数

    1.2.6连续型随机变量的概率函数和分布函数

    1.3条件概率、联合概率以及贝叶斯公式

    1.3.1计算条件概率和联合概率

    1.3.2贝叶斯公式的历史和现实含义

    1.4本讲小结

    第2讲数据的形态描述

    2.1正态分布

    2.2混合高斯分布

    2.3伯努利分布及二项分布

    2.4泊松分布

    2.5指数分布

    2.6幂律分布

    2.7以上分布的总结和联系

    2.8本讲小结

    第3讲信息的数学表达

    3.1自信息

    3.2信息熵

    3.3信息增益

    3.4相对熵

    3.5交叉熵

    3.6基尼指数(不纯度)

    3.7本讲小结

    第4讲随机变量的相关性和重要性

    4.1数值型变量之间的相关性

    4.1.1协方差

    4.1.2皮尔逊相关系数

    4.2类别型变量之间的相关性

    4.2.1互信息

    4.2.2卡方值

    4.3证据权重和信息值

    4.3.1证据权重

    4.3.2信息值

    4.4本讲小结

    第5讲抓住主要矛盾——降维技术理论

    5.1主成分分析

    5.2线性判别分析

    5.3奇异值分解

    5.4自编码器

    5.5PCA、SVD和 AE 是亲戚

    5.6傅里叶变换

    5.7本讲小结

    第6讲采样方法

    6.1拒绝采样

    6.2马尔可夫链蒙特卡罗采样

    6.3MetropolisHastings采样

    6.4吉布斯采样

    6.5汤普森采样

    6.6上采样人工合成数据策略

    6.7本讲小结

    第7讲抬头看路低头拉车的迭代方法

    7.1迭代求解

    7.2梯度下降法

    7.3牛顿法及其改进算法

    7.3.1泰勒展开式

    7.3.2牛顿法

    7.4Adam(Adaptive Moment Estimation)方法

    7.4.1动量法(Momentum)

    7.4.2RMSProp 方法

    7.4.3终方法

    7.5本讲小结

    第8讲经典化问题求解方法

    8.1小二乘估计

    8.2似然估计

    8.3后验概率

    8.4期望化方法

    8.5熵模型

    8.6本讲小结

    第2部分机器学习模型、方法及本质

    第9讲机器学习的方法论

    9.1总体方法论

    9.1.1业务理解建模

    9.1.2建立假设模型

    9.1.3数据收集

    9.1.4数据准备

    9.1.5建模分析

    9.1.6解释和模型评估

    9.2建模分析的一般步骤

    9.3模型和算法

    9.3.1按学习方法区分

    9.3.2按任务维度区分

    9.3.3按模型的类型分

    9.3.4模型算法和维度的对应

    9.4本讲小结

    第10讲数据准备

    10.1厘清数据来源

    10.1.1先有模型还是先有数据

    10.1.2数据来源的类型

    10.2数据的探索性分析

    10.2.1主要工作内容

    10.2.2主要步骤

    10.3本讲小结

    第11讲异常检测和处理

    11.1什么是异常值

    11.2异常检测面临的挑战

    11.3异常的种类

    11.4异常检测的应用领域

    11.5异常检测的方法

    11.5.1基于统计模型的异常检测

    11.5.2基于深度学习的异常检测

    11.6本讲小结

    第12讲特征数据的预处理

    12.1特征标准化

    12.2连续变量离散化

    12.2.1为什么要离散化

    12.2.2如何进行离散化

    12.3离散型特征处理

    12.3.1数值化处理

    12.3.2哑编码

    12.3.3时间序列处理

    12.4本讲小结

    第13讲特征的选择、提取和构造

    13.1为什么要进行特征的选择、提取和构造

    13.1.1特征数量和模型性能的关系

    13.1.2特征选择、提取和构造的主要原因

    13.1.3其他非技术因素

    13.2特征的选择

    13.2.1过滤策略

    13.2.2包裹策略

    13.2.3嵌入策略

    13.2.4三种策略的总结

    13.3特征的提取和构造

    13.3.1特征投影(降维)

    13.3.2特征组合

    13.4本讲小结

    第14讲机器学习模型——逻辑回归和梯度提升决策树

    14.1逻辑回归

    14.1.1Logit的引入

    14.1.2参数的求解过程

    14.1.3模型的使用

    14.1.4模型的本质

    14.2梯度提升决策树

    14.2.1梯度提升决策树的含义

    14.2.2梯度提升决策树的实现过程

    14.2.3梯度提升决策树例子及分析

    14.2.4XGBoost

    第15讲机器学习模型——概率图模型

    15.1概述

    15.2概率图模型族谱及特征

    15.2.1特征一: 有向和无向

    15.2.2特征二: 马尔可夫性质

    15.2.3特征三: 判别式和生成式

    15.2.4特征四: 序列型模型

    15.2.5核心概念小结

    15.3两个典型的概率图模型

    15.3.1隐马尔可夫模型

    15.3.2条件随机场(CRF)

    第16讲机器学习模型——强化学习

    16.1ε贪婪算法

    16.2置信区间上界算法

    16.3汤普森采样

    16.3.1贝塔分布

    16.3.2贝塔分布与二项式分布的共轭先验性质

    16.3.3汤普森采样的具体过程

    16.4共性问题

    第17讲探索式学习

    17.1概述

    17.2模拟退火算法

    17.3遗传算法

    17.4蚁群算法

    第18讲机器学习模型——人工神经网络

    18.1神经网络的起源

    18.2神经网络的开端

    18.2.1简单的神经网络结构——感知机

    18.2.2多层感知机

    18.3神经网络的崛起——反向传播神经网络

    18.4神经网络的突破——深度学习

    18.4.1图像识别的过程展示

    18.4.2深度学习成功的关键

    18.4.3深度学习的缺陷

    18.5神经网络的实质——通用逼近定理

    第19讲基于机器学习的推荐技术

    19.1推荐的作用

    19.2推荐采用的方法

    19.2.1基于邻域的推荐方法

    19.2.2隐语义模型推荐方法

    19.2.3利用标签的推荐方法

    19.2.4利用上下文信息推荐方法

    19.2.5深度学习推荐方法

    19.3推荐效果评测指标和维度

    第20讲激活函数

    20.1激活函数的作用

    20.2激活函数的要求

    20.3常用激活函数介绍

    20.3.1Sigmoid函数

    20.3.2tanh函数

    20.3.3ReLU函数

    20.3.4LeakyReLU函数

    20.3.5ELU函数

    20.3.6softmax函数

    20.3.7常用激活函数的选择建议

    20.3.8高斯函数

    第21讲代价函数

    21.1损失函数、代价函数和目标函数

    21.2经验风险、期望风险和结构风险

    21.3正则化的本质

    21.4常用损失函数

    21.4.1平均误差和均方误差

    21.4.2Huber损失

    21.4.3对数损失

    21.4.4对比损失/三元组损失(Triplet Loss)

    21.5本讲小结

    第22讲模型效果的衡量方法

    22.1分类问题的模型效果衡量方法

    22.1.1混淆矩阵

    22.1.2FScore

    22.1.3ROC及AUC

    22.1.4KS值

    22.2回归模型中的效果衡量方法

    22.3模型的选择要素——偏差和方差

    22.4交叉验证

    22.5本讲小结

    第23讲机器学习和人工智能展望

    23.1当前人工智能技术本质的认识

    23.1.1人工智能和机器学习的关系

    23.1.2信息技术产业链条

    23.2第三代人工智能的发展方向

    23.2.1代和第二代人工智能的历史

    23.2.2第三代人工智能要求

    23.3人工智能的小数据、大任务范式

    23.3.1一只乌鸦给我们的启示

    23.3.2小数据、大任务范式

    第3部分机器学习实例展示

    第24讲垃圾邮件判断(朴素贝叶斯分类)

    24.1问题描述

    24.2算法详述

    24.3代码详述

    第25讲客户流失预测(高斯贝叶斯分类)

    25.1问题描述

    25.2算法详述

    25.3代码详述

    第26讲两个特殊硬币的投掷概率(期望化方法)

    26.1问题描述

    26.2算法详述

    26.3代码详述

    第27讲信用卡申请评分卡模型(WOE/IV逻辑回归)

    27.1问题描述

    27.2算法详述

    27.3代码详述

    第28讲用户忠诚度变化轨迹预测(隐马尔可夫模型)

    28.1问题描述

    28.2算法详述

    28.3代码详述

    第29讲产品的价格设定(强化学习)

    29.1问题描述

    29.2算法详述

    29.3代码详述

    第30讲数据智能平台

    30.1数据智能包含哪些内容

    30.1.1基础平台

    30.1.2融合平台

    30.1.3治理系统

    30.1.4质量保证

    30.1.5安全计算

    30.1.6分析挖掘

    30.1.7数据可视化

    30.2产品化的数智平台

    30.3本讲小结

     
查看详情
相关图书 / 更多
大话机器学习——原理|算法|建模|代码30讲
大话设计模式【Java溢彩加强版】
程杰
大话机器学习——原理|算法|建模|代码30讲
大话诗词学堂 跟着特级教师妙学诗词
陈琴
大话机器学习——原理|算法|建模|代码30讲
大话自动驾驶
11号线人
大话机器学习——原理|算法|建模|代码30讲
大话统计学 基于R语言+中文统计工具 溢彩实训版
陈文贤
大话机器学习——原理|算法|建模|代码30讲
大话元宇宙:虚拟世界重构未来生活
苏文涛
大话机器学习——原理|算法|建模|代码30讲
大话成语学堂 跟着特级教师巧学成语
陈琴
大话机器学习——原理|算法|建模|代码30讲
大话粤语·广府童谣
大话国
大话机器学习——原理|算法|建模|代码30讲
大话数字化转型:迎接全行业的数字未来
刘通
大话机器学习——原理|算法|建模|代码30讲
大话GIS
王丽娜 著;李响;费腾
大话机器学习——原理|算法|建模|代码30讲
大话山西(“走读山西”系列丛书)
张石山
大话机器学习——原理|算法|建模|代码30讲
大话中国艺术史
读客文化 出品;意公子
大话机器学习——原理|算法|建模|代码30讲
大话广府 (下册)
大话国