数据挖掘算法实践与案例详解 数据库

数据挖掘算法实践与案例详解 数据库
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
2025-01
版次: 1
ISBN: 9787111760696
定价: 59.00
装帧: 其他
开本: 其他
页数: 184页
字数: 290千字


  • 数据挖掘算法为大数据与人工智能的核心,掌握数据挖掘各算法的编程实现,有助于提升大数据的实践运用能力。本书详细阐述了数据挖掘常用算法与编程实现,同时,本书以多个经典的数据挖掘赛题为案例,详细论述了数据预处理、特征选择、可视化、算法选择等全流程数据挖掘过程的编程实现,有助于提升读者面对实际数据问题时灵活运用各类算法能力。
    丁兆云,国防科技大学博士毕业后留校任教至今,长期教授数据挖掘课程,负责国防科技大学系统工程学院“数据挖掘”专业方向考博命题工作,主持湖南省教改课题1项、国防科技大学教改课题1项、发表教学论文3篇,获得国防科技大学研究生教学优秀奖。<br/>


    目  录<br />前言<br />第1章 绪论  1<br />1.1 数据挖掘技术的由来  1<br />1.2 数据挖掘的分类  2<br />1.2.1 关联规则挖掘  2<br />1.2.2 监督式机器学习  3<br />1.2.3 非监督式机器学习  4<br />1.3 Python的安装步骤  5<br />1.3.1 Python环境的配置  5<br />1.3.2 PyCharm的安装  7<br />1.4 常见的数据集  10<br />1.4.1 鸢尾花数据集  10<br />1.4.2 员工离职预测数据集  11<br />1.4.3 泰坦尼克号灾难预测数据集  12<br />1.4.4 PM2.5空气质量预测数据集  13<br />1.5 本章小结  13<br />第2章 分类  14<br />2.1 分类的概念  14<br />2.2 分类中的训练集与测试集  14<br />2.3 分类的过程及验证方法  15<br />2.3.1 准确率  15<br />2.3.2 k折交叉验证  16<br />2.4 贝叶斯分类的编程实践  17<br />2.4.1 鸢尾花数据集的贝叶斯分类  17<br />2.4.2 基于贝叶斯分类的员工离职<br />预测  17<br />2.5 本章小结  19<br />第3章 数据的特征选择  20<br />3.1 直方图  20<br />3.1.1 直方图可视化  20<br />3.1.2 直方图特征选择  23<br />3.2 直方图与柱状图的差异  24<br />3.3 特征选择实践  26<br />3.4 本章小结  29<br />第4章 数据预处理之数据清洗  30<br />4.1 案例概述  30<br />4.2 缺失值处理  31<br />4.2.1 缺失值处理概述  31<br />4.2.2 缺失值处理实例  32<br />4.3 噪声数据处理  32<br />4.3.1 正态分布噪声数据检测  32<br />4.3.2 用箱线图检测噪声数据  34<br />4.4 数据预处理案例实践  35<br />4.4.1 问题  35<br />4.4.2 解决方法  35<br />4.4.3 实践结论  37<br />4.5 本章小结  38<br />第5章 数据预处理之转换  39<br />5.1 数据的数值化处理  39<br />5.1.1 顺序编码  39<br />5.1.2 二进制编码  40<br />5.2 数据规范化  42<br />5.2.1 最小–最大规范化  42<br />5.2.2 z分数规范化  43<br />5.2.3 小数定标规范化  43<br />5.3 本章小结  43<br />第6章 数据预处理之数据降维  44<br />6.1 散点图可视化分析  44<br />6.2 主成分分析  46<br />6.3 本章小结  49<br />第7章 不平衡数据分类  50<br />7.1 不平衡数据分类问题的特征  50<br />7.1.1 数据稀缺问题  50<br />7.1.2 噪声问题  51<br />7.1.3 决策面偏移问题  51<br />7.1.4 评价标准问题  51<br />7.2 重采样方法  51<br />7.2.1 上采样  52<br />7.2.2 对上采样方法的改进  53<br />7.2.3 下采样  58<br />7.2.4 对下采样方法的改进  60<br />7.2.5 不平衡问题的其他处理方式  65<br />7.3 不平衡数据分类实践  65<br />7.4 本章小结  66<br />第8章 回归分析  67<br />8.1 线性回归  67<br />8.1.1 一元线性回归  67<br />8.1.2 多元线性回归  69<br />8.2 回归分析检测  71<br />8.2.1 正态分布可能性检测  71<br />8.2.2 线性分布可能性检测  72<br />8.2.3 log转换后的分布  73<br />8.3 回归预测案例实践  74<br />8.3.1 案例背景  74<br />8.3.2 代码实现  74<br />8.4 本章小结  82<br />第9章 聚类分析  83<br />9.1 k均值聚类  83<br />9.1.1 算法的步骤  83<br />9.1.2 代码实现  83<br />9.2 层次聚类  84<br />9.2.1 算法的步骤  84<br />9.2.2 代码实现  85<br />9.3 密度聚类  85<br />9.3.1 算法的步骤  85<br />9.3.2 代码实现  86<br />9.4 本章小结  88<br />第10章 关联分析  90<br />10.1 Apriori算法  90<br />10.2 关联分析案例实践  92<br />10.2.1 案例背景  92<br />10.2.2 案例的数据集  93<br />10.2.3 代码实现  93<br />10.2.4 运行结果  93<br />10.3 提升Apriori算法性能的方法  95<br />10.4 本章小结  95<br />第11章 KNN分类  96<br />11.1 KNN算法的步骤  96<br />11.2 KNeighborsClassifier函数  97<br />11.3 KNN的代码实现  98<br />11.4 结果分析  98<br />11.5 KNN案例实践  99<br />11.5.1 案例分析  99<br />11.5.2 案例实现  100<br />11.5.3 运行结果  103<br />11.6 本章小结  104<br />第12章 支持向量机  105<br />12.1 支持向量机的可视化分析  105<br />12.2 SVM的代码实现  108<br />12.2.1 鸢尾花数据分类  108<br />12.2.2 新闻文本数据分类  110<br />12.3 本章小结  111<br />第13章 神经网络分类  112<br />13.1 多层人工神经网络  112<br />13.2 多层人工神经网络的代码实现  113<br />13.3 神经网络分类案例实践  114<br />13.3.1 案例背景  114<br />13.3.2 数据说明  114<br />13.3.3 代码实现  115<br />13.4 本章小结  120<br />第14章 集成学习  121<br />14.1 Bagging方法  121<br />14.2 随机森林  123<br />14.3 Adaboost  125<br />14.4 GBDT  127<br />14.4.1 GradientBoostingClassifier<br />函数  130<br />14.4.2 GradientBoostingRegressor<br />函数  130<br />14.5 XGBoost  131<br />14.5.1 XGBClassifier函数  131<br />14.5.2 XGBRegressor函数  131<br />14.6 房价预测案例实践  132<br />14.7 点击欺骗预测案例实践  136<br />14.7.1 案例背景  136<br />14.7.2 数据分析  136<br />14.7.3 模型优化  141<br />14.8 本章小结  142<br />第15章 综合案例实践  143<br />15.1 员工离职预测综合案例  143<br />15.1.1 数据总览  143<br />15.1.2 数据预处理  144<br />15.1.3 模型构建与比较  147<br />15.2 二手车交易价格预测综合<br />案例  148<br />15.2.1 数据集简介  148<br />15.2.2 数据总览  149<br />15.2.3 数据预处理  150<br />15.2.4 查看变量分布  151<br />15.2.5 查看变量间的关系  154<br />15.2.6 查看变量间的分布关系  157<br />15.2.7 分析汽车注册月份与价格的<br />关系  157<br />15.2.8 特征工程  158<br />15.2.9 模型构建与训练  160<br />15.3 信息抽取综合案例  161<br />15.3.1 案例背景  161<br />15.3.2 数据集简介  165<br />15.3.3 模型的构建与训练  165<br />15.3.4 模型评价  168<br />15.4 学术网络节点分类  169<br />15.4.1 数据集简介  169<br />15.4.2 数据总览  170<br />15.4.3 模型构建  171<br />15.4.4 配置参数  172<br />15.4.5 训练数据  173<br />15.4.6 模型评价  174

    内容摘要
    数据挖掘算法为大数据与人工智能的核心,掌握数据挖掘各算法的编程实现,有助于提升大数据的实践运用能力。本书详细阐述了数据挖掘常用算法与编程实现,同时,本书以多个经典的数据挖掘赛题为案例,详细论述了数据预处理、特征选择、可视化、算法选择等全流程数据挖掘过程的编程实现,有助于提升读者面对实际数据问题时灵活运用各类算法能力。

  • 内容简介:


    数据挖掘算法为大数据与人工智能的核心,掌握数据挖掘各算法的编程实现,有助于提升大数据的实践运用能力。本书详细阐述了数据挖掘常用算法与编程实现,同时,本书以多个经典的数据挖掘赛题为案例,详细论述了数据预处理、特征选择、可视化、算法选择等全流程数据挖掘过程的编程实现,有助于提升读者面对实际数据问题时灵活运用各类算法能力。
  • 作者简介:

    丁兆云,国防科技大学博士毕业后留校任教至今,长期教授数据挖掘课程,负责国防科技大学系统工程学院“数据挖掘”专业方向考博命题工作,主持湖南省教改课题1项、国防科技大学教改课题1项、发表教学论文3篇,获得国防科技大学研究生教学优秀奖。<br/>

  • 目录:

    目  录<br />前言<br />第1章 绪论  1<br />1.1 数据挖掘技术的由来  1<br />1.2 数据挖掘的分类  2<br />1.2.1 关联规则挖掘  2<br />1.2.2 监督式机器学习  3<br />1.2.3 非监督式机器学习  4<br />1.3 Python的安装步骤  5<br />1.3.1 Python环境的配置  5<br />1.3.2 PyCharm的安装  7<br />1.4 常见的数据集  10<br />1.4.1 鸢尾花数据集  10<br />1.4.2 员工离职预测数据集  11<br />1.4.3 泰坦尼克号灾难预测数据集  12<br />1.4.4 PM2.5空气质量预测数据集  13<br />1.5 本章小结  13<br />第2章 分类  14<br />2.1 分类的概念  14<br />2.2 分类中的训练集与测试集  14<br />2.3 分类的过程及验证方法  15<br />2.3.1 准确率  15<br />2.3.2 k折交叉验证  16<br />2.4 贝叶斯分类的编程实践  17<br />2.4.1 鸢尾花数据集的贝叶斯分类  17<br />2.4.2 基于贝叶斯分类的员工离职<br />预测  17<br />2.5 本章小结  19<br />第3章 数据的特征选择  20<br />3.1 直方图  20<br />3.1.1 直方图可视化  20<br />3.1.2 直方图特征选择  23<br />3.2 直方图与柱状图的差异  24<br />3.3 特征选择实践  26<br />3.4 本章小结  29<br />第4章 数据预处理之数据清洗  30<br />4.1 案例概述  30<br />4.2 缺失值处理  31<br />4.2.1 缺失值处理概述  31<br />4.2.2 缺失值处理实例  32<br />4.3 噪声数据处理  32<br />4.3.1 正态分布噪声数据检测  32<br />4.3.2 用箱线图检测噪声数据  34<br />4.4 数据预处理案例实践  35<br />4.4.1 问题  35<br />4.4.2 解决方法  35<br />4.4.3 实践结论  37<br />4.5 本章小结  38<br />第5章 数据预处理之转换  39<br />5.1 数据的数值化处理  39<br />5.1.1 顺序编码  39<br />5.1.2 二进制编码  40<br />5.2 数据规范化  42<br />5.2.1 最小–最大规范化  42<br />5.2.2 z分数规范化  43<br />5.2.3 小数定标规范化  43<br />5.3 本章小结  43<br />第6章 数据预处理之数据降维  44<br />6.1 散点图可视化分析  44<br />6.2 主成分分析  46<br />6.3 本章小结  49<br />第7章 不平衡数据分类  50<br />7.1 不平衡数据分类问题的特征  50<br />7.1.1 数据稀缺问题  50<br />7.1.2 噪声问题  51<br />7.1.3 决策面偏移问题  51<br />7.1.4 评价标准问题  51<br />7.2 重采样方法  51<br />7.2.1 上采样  52<br />7.2.2 对上采样方法的改进  53<br />7.2.3 下采样  58<br />7.2.4 对下采样方法的改进  60<br />7.2.5 不平衡问题的其他处理方式  65<br />7.3 不平衡数据分类实践  65<br />7.4 本章小结  66<br />第8章 回归分析  67<br />8.1 线性回归  67<br />8.1.1 一元线性回归  67<br />8.1.2 多元线性回归  69<br />8.2 回归分析检测  71<br />8.2.1 正态分布可能性检测  71<br />8.2.2 线性分布可能性检测  72<br />8.2.3 log转换后的分布  73<br />8.3 回归预测案例实践  74<br />8.3.1 案例背景  74<br />8.3.2 代码实现  74<br />8.4 本章小结  82<br />第9章 聚类分析  83<br />9.1 k均值聚类  83<br />9.1.1 算法的步骤  83<br />9.1.2 代码实现  83<br />9.2 层次聚类  84<br />9.2.1 算法的步骤  84<br />9.2.2 代码实现  85<br />9.3 密度聚类  85<br />9.3.1 算法的步骤  85<br />9.3.2 代码实现  86<br />9.4 本章小结  88<br />第10章 关联分析  90<br />10.1 Apriori算法  90<br />10.2 关联分析案例实践  92<br />10.2.1 案例背景  92<br />10.2.2 案例的数据集  93<br />10.2.3 代码实现  93<br />10.2.4 运行结果  93<br />10.3 提升Apriori算法性能的方法  95<br />10.4 本章小结  95<br />第11章 KNN分类  96<br />11.1 KNN算法的步骤  96<br />11.2 KNeighborsClassifier函数  97<br />11.3 KNN的代码实现  98<br />11.4 结果分析  98<br />11.5 KNN案例实践  99<br />11.5.1 案例分析  99<br />11.5.2 案例实现  100<br />11.5.3 运行结果  103<br />11.6 本章小结  104<br />第12章 支持向量机  105<br />12.1 支持向量机的可视化分析  105<br />12.2 SVM的代码实现  108<br />12.2.1 鸢尾花数据分类  108<br />12.2.2 新闻文本数据分类  110<br />12.3 本章小结  111<br />第13章 神经网络分类  112<br />13.1 多层人工神经网络  112<br />13.2 多层人工神经网络的代码实现  113<br />13.3 神经网络分类案例实践  114<br />13.3.1 案例背景  114<br />13.3.2 数据说明  114<br />13.3.3 代码实现  115<br />13.4 本章小结  120<br />第14章 集成学习  121<br />14.1 Bagging方法  121<br />14.2 随机森林  123<br />14.3 Adaboost  125<br />14.4 GBDT  127<br />14.4.1 GradientBoostingClassifier<br />函数  130<br />14.4.2 GradientBoostingRegressor<br />函数  130<br />14.5 XGBoost  131<br />14.5.1 XGBClassifier函数  131<br />14.5.2 XGBRegressor函数  131<br />14.6 房价预测案例实践  132<br />14.7 点击欺骗预测案例实践  136<br />14.7.1 案例背景  136<br />14.7.2 数据分析  136<br />14.7.3 模型优化  141<br />14.8 本章小结  142<br />第15章 综合案例实践  143<br />15.1 员工离职预测综合案例  143<br />15.1.1 数据总览  143<br />15.1.2 数据预处理  144<br />15.1.3 模型构建与比较  147<br />15.2 二手车交易价格预测综合<br />案例  148<br />15.2.1 数据集简介  148<br />15.2.2 数据总览  149<br />15.2.3 数据预处理  150<br />15.2.4 查看变量分布  151<br />15.2.5 查看变量间的关系  154<br />15.2.6 查看变量间的分布关系  157<br />15.2.7 分析汽车注册月份与价格的<br />关系  157<br />15.2.8 特征工程  158<br />15.2.9 模型构建与训练  160<br />15.3 信息抽取综合案例  161<br />15.3.1 案例背景  161<br />15.3.2 数据集简介  165<br />15.3.3 模型的构建与训练  165<br />15.3.4 模型评价  168<br />15.4 学术网络节点分类  169<br />15.4.1 数据集简介  169<br />15.4.2 数据总览  170<br />15.4.3 模型构建  171<br />15.4.4 配置参数  172<br />15.4.5 训练数据  173<br />15.4.6 模型评价  174

    内容摘要
    数据挖掘算法为大数据与人工智能的核心,掌握数据挖掘各算法的编程实现,有助于提升大数据的实践运用能力。本书详细阐述了数据挖掘常用算法与编程实现,同时,本书以多个经典的数据挖掘赛题为案例,详细论述了数据预处理、特征选择、可视化、算法选择等全流程数据挖掘过程的编程实现,有助于提升读者面对实际数据问题时灵活运用各类算法能力。

查看详情
您可能感兴趣 / 更多
数据挖掘算法实践与案例详解 数据库
观察判断决策行动全环节开源数据分析(精)
丁兆云、沈大勇、李俊、左晓亮 编
数据挖掘算法实践与案例详解 数据库
数据挖掘:原理与应用
丁兆云;周鋆;杜振国