数据挖掘算法实践与案例详解 数据库
出版时间:
2025-01
版次:
1
ISBN:
9787111760696
定价:
59.00
装帧:
其他
开本:
其他
页数:
184页
字数:
290千字
-
数据挖掘算法为大数据与人工智能的核心,掌握数据挖掘各算法的编程实现,有助于提升大数据的实践运用能力。本书详细阐述了数据挖掘常用算法与编程实现,同时,本书以多个经典的数据挖掘赛题为案例,详细论述了数据预处理、特征选择、可视化、算法选择等全流程数据挖掘过程的编程实现,有助于提升读者面对实际数据问题时灵活运用各类算法能力。
丁兆云,国防科技大学博士毕业后留校任教至今,长期教授数据挖掘课程,负责国防科技大学系统工程学院“数据挖掘”专业方向考博命题工作,主持湖南省教改课题1项、国防科技大学教改课题1项、发表教学论文3篇,获得国防科技大学研究生教学优秀奖。<br/>
目 录<br />前言<br />第1章 绪论 1<br />1.1 数据挖掘技术的由来 1<br />1.2 数据挖掘的分类 2<br />1.2.1 关联规则挖掘 2<br />1.2.2 监督式机器学习 3<br />1.2.3 非监督式机器学习 4<br />1.3 Python的安装步骤 5<br />1.3.1 Python环境的配置 5<br />1.3.2 PyCharm的安装 7<br />1.4 常见的数据集 10<br />1.4.1 鸢尾花数据集 10<br />1.4.2 员工离职预测数据集 11<br />1.4.3 泰坦尼克号灾难预测数据集 12<br />1.4.4 PM2.5空气质量预测数据集 13<br />1.5 本章小结 13<br />第2章 分类 14<br />2.1 分类的概念 14<br />2.2 分类中的训练集与测试集 14<br />2.3 分类的过程及验证方法 15<br />2.3.1 准确率 15<br />2.3.2 k折交叉验证 16<br />2.4 贝叶斯分类的编程实践 17<br />2.4.1 鸢尾花数据集的贝叶斯分类 17<br />2.4.2 基于贝叶斯分类的员工离职<br />预测 17<br />2.5 本章小结 19<br />第3章 数据的特征选择 20<br />3.1 直方图 20<br />3.1.1 直方图可视化 20<br />3.1.2 直方图特征选择 23<br />3.2 直方图与柱状图的差异 24<br />3.3 特征选择实践 26<br />3.4 本章小结 29<br />第4章 数据预处理之数据清洗 30<br />4.1 案例概述 30<br />4.2 缺失值处理 31<br />4.2.1 缺失值处理概述 31<br />4.2.2 缺失值处理实例 32<br />4.3 噪声数据处理 32<br />4.3.1 正态分布噪声数据检测 32<br />4.3.2 用箱线图检测噪声数据 34<br />4.4 数据预处理案例实践 35<br />4.4.1 问题 35<br />4.4.2 解决方法 35<br />4.4.3 实践结论 37<br />4.5 本章小结 38<br />第5章 数据预处理之转换 39<br />5.1 数据的数值化处理 39<br />5.1.1 顺序编码 39<br />5.1.2 二进制编码 40<br />5.2 数据规范化 42<br />5.2.1 最小–最大规范化 42<br />5.2.2 z分数规范化 43<br />5.2.3 小数定标规范化 43<br />5.3 本章小结 43<br />第6章 数据预处理之数据降维 44<br />6.1 散点图可视化分析 44<br />6.2 主成分分析 46<br />6.3 本章小结 49<br />第7章 不平衡数据分类 50<br />7.1 不平衡数据分类问题的特征 50<br />7.1.1 数据稀缺问题 50<br />7.1.2 噪声问题 51<br />7.1.3 决策面偏移问题 51<br />7.1.4 评价标准问题 51<br />7.2 重采样方法 51<br />7.2.1 上采样 52<br />7.2.2 对上采样方法的改进 53<br />7.2.3 下采样 58<br />7.2.4 对下采样方法的改进 60<br />7.2.5 不平衡问题的其他处理方式 65<br />7.3 不平衡数据分类实践 65<br />7.4 本章小结 66<br />第8章 回归分析 67<br />8.1 线性回归 67<br />8.1.1 一元线性回归 67<br />8.1.2 多元线性回归 69<br />8.2 回归分析检测 71<br />8.2.1 正态分布可能性检测 71<br />8.2.2 线性分布可能性检测 72<br />8.2.3 log转换后的分布 73<br />8.3 回归预测案例实践 74<br />8.3.1 案例背景 74<br />8.3.2 代码实现 74<br />8.4 本章小结 82<br />第9章 聚类分析 83<br />9.1 k均值聚类 83<br />9.1.1 算法的步骤 83<br />9.1.2 代码实现 83<br />9.2 层次聚类 84<br />9.2.1 算法的步骤 84<br />9.2.2 代码实现 85<br />9.3 密度聚类 85<br />9.3.1 算法的步骤 85<br />9.3.2 代码实现 86<br />9.4 本章小结 88<br />第10章 关联分析 90<br />10.1 Apriori算法 90<br />10.2 关联分析案例实践 92<br />10.2.1 案例背景 92<br />10.2.2 案例的数据集 93<br />10.2.3 代码实现 93<br />10.2.4 运行结果 93<br />10.3 提升Apriori算法性能的方法 95<br />10.4 本章小结 95<br />第11章 KNN分类 96<br />11.1 KNN算法的步骤 96<br />11.2 KNeighborsClassifier函数 97<br />11.3 KNN的代码实现 98<br />11.4 结果分析 98<br />11.5 KNN案例实践 99<br />11.5.1 案例分析 99<br />11.5.2 案例实现 100<br />11.5.3 运行结果 103<br />11.6 本章小结 104<br />第12章 支持向量机 105<br />12.1 支持向量机的可视化分析 105<br />12.2 SVM的代码实现 108<br />12.2.1 鸢尾花数据分类 108<br />12.2.2 新闻文本数据分类 110<br />12.3 本章小结 111<br />第13章 神经网络分类 112<br />13.1 多层人工神经网络 112<br />13.2 多层人工神经网络的代码实现 113<br />13.3 神经网络分类案例实践 114<br />13.3.1 案例背景 114<br />13.3.2 数据说明 114<br />13.3.3 代码实现 115<br />13.4 本章小结 120<br />第14章 集成学习 121<br />14.1 Bagging方法 121<br />14.2 随机森林 123<br />14.3 Adaboost 125<br />14.4 GBDT 127<br />14.4.1 GradientBoostingClassifier<br />函数 130<br />14.4.2 GradientBoostingRegressor<br />函数 130<br />14.5 XGBoost 131<br />14.5.1 XGBClassifier函数 131<br />14.5.2 XGBRegressor函数 131<br />14.6 房价预测案例实践 132<br />14.7 点击欺骗预测案例实践 136<br />14.7.1 案例背景 136<br />14.7.2 数据分析 136<br />14.7.3 模型优化 141<br />14.8 本章小结 142<br />第15章 综合案例实践 143<br />15.1 员工离职预测综合案例 143<br />15.1.1 数据总览 143<br />15.1.2 数据预处理 144<br />15.1.3 模型构建与比较 147<br />15.2 二手车交易价格预测综合<br />案例 148<br />15.2.1 数据集简介 148<br />15.2.2 数据总览 149<br />15.2.3 数据预处理 150<br />15.2.4 查看变量分布 151<br />15.2.5 查看变量间的关系 154<br />15.2.6 查看变量间的分布关系 157<br />15.2.7 分析汽车注册月份与价格的<br />关系 157<br />15.2.8 特征工程 158<br />15.2.9 模型构建与训练 160<br />15.3 信息抽取综合案例 161<br />15.3.1 案例背景 161<br />15.3.2 数据集简介 165<br />15.3.3 模型的构建与训练 165<br />15.3.4 模型评价 168<br />15.4 学术网络节点分类 169<br />15.4.1 数据集简介 169<br />15.4.2 数据总览 170<br />15.4.3 模型构建 171<br />15.4.4 配置参数 172<br />15.4.5 训练数据 173<br />15.4.6 模型评价 174
内容摘要
数据挖掘算法为大数据与人工智能的核心,掌握数据挖掘各算法的编程实现,有助于提升大数据的实践运用能力。本书详细阐述了数据挖掘常用算法与编程实现,同时,本书以多个经典的数据挖掘赛题为案例,详细论述了数据预处理、特征选择、可视化、算法选择等全流程数据挖掘过程的编程实现,有助于提升读者面对实际数据问题时灵活运用各类算法能力。
-
内容简介:
数据挖掘算法为大数据与人工智能的核心,掌握数据挖掘各算法的编程实现,有助于提升大数据的实践运用能力。本书详细阐述了数据挖掘常用算法与编程实现,同时,本书以多个经典的数据挖掘赛题为案例,详细论述了数据预处理、特征选择、可视化、算法选择等全流程数据挖掘过程的编程实现,有助于提升读者面对实际数据问题时灵活运用各类算法能力。
-
作者简介:
丁兆云,国防科技大学博士毕业后留校任教至今,长期教授数据挖掘课程,负责国防科技大学系统工程学院“数据挖掘”专业方向考博命题工作,主持湖南省教改课题1项、国防科技大学教改课题1项、发表教学论文3篇,获得国防科技大学研究生教学优秀奖。<br/>
-
目录:
目 录<br />前言<br />第1章 绪论 1<br />1.1 数据挖掘技术的由来 1<br />1.2 数据挖掘的分类 2<br />1.2.1 关联规则挖掘 2<br />1.2.2 监督式机器学习 3<br />1.2.3 非监督式机器学习 4<br />1.3 Python的安装步骤 5<br />1.3.1 Python环境的配置 5<br />1.3.2 PyCharm的安装 7<br />1.4 常见的数据集 10<br />1.4.1 鸢尾花数据集 10<br />1.4.2 员工离职预测数据集 11<br />1.4.3 泰坦尼克号灾难预测数据集 12<br />1.4.4 PM2.5空气质量预测数据集 13<br />1.5 本章小结 13<br />第2章 分类 14<br />2.1 分类的概念 14<br />2.2 分类中的训练集与测试集 14<br />2.3 分类的过程及验证方法 15<br />2.3.1 准确率 15<br />2.3.2 k折交叉验证 16<br />2.4 贝叶斯分类的编程实践 17<br />2.4.1 鸢尾花数据集的贝叶斯分类 17<br />2.4.2 基于贝叶斯分类的员工离职<br />预测 17<br />2.5 本章小结 19<br />第3章 数据的特征选择 20<br />3.1 直方图 20<br />3.1.1 直方图可视化 20<br />3.1.2 直方图特征选择 23<br />3.2 直方图与柱状图的差异 24<br />3.3 特征选择实践 26<br />3.4 本章小结 29<br />第4章 数据预处理之数据清洗 30<br />4.1 案例概述 30<br />4.2 缺失值处理 31<br />4.2.1 缺失值处理概述 31<br />4.2.2 缺失值处理实例 32<br />4.3 噪声数据处理 32<br />4.3.1 正态分布噪声数据检测 32<br />4.3.2 用箱线图检测噪声数据 34<br />4.4 数据预处理案例实践 35<br />4.4.1 问题 35<br />4.4.2 解决方法 35<br />4.4.3 实践结论 37<br />4.5 本章小结 38<br />第5章 数据预处理之转换 39<br />5.1 数据的数值化处理 39<br />5.1.1 顺序编码 39<br />5.1.2 二进制编码 40<br />5.2 数据规范化 42<br />5.2.1 最小–最大规范化 42<br />5.2.2 z分数规范化 43<br />5.2.3 小数定标规范化 43<br />5.3 本章小结 43<br />第6章 数据预处理之数据降维 44<br />6.1 散点图可视化分析 44<br />6.2 主成分分析 46<br />6.3 本章小结 49<br />第7章 不平衡数据分类 50<br />7.1 不平衡数据分类问题的特征 50<br />7.1.1 数据稀缺问题 50<br />7.1.2 噪声问题 51<br />7.1.3 决策面偏移问题 51<br />7.1.4 评价标准问题 51<br />7.2 重采样方法 51<br />7.2.1 上采样 52<br />7.2.2 对上采样方法的改进 53<br />7.2.3 下采样 58<br />7.2.4 对下采样方法的改进 60<br />7.2.5 不平衡问题的其他处理方式 65<br />7.3 不平衡数据分类实践 65<br />7.4 本章小结 66<br />第8章 回归分析 67<br />8.1 线性回归 67<br />8.1.1 一元线性回归 67<br />8.1.2 多元线性回归 69<br />8.2 回归分析检测 71<br />8.2.1 正态分布可能性检测 71<br />8.2.2 线性分布可能性检测 72<br />8.2.3 log转换后的分布 73<br />8.3 回归预测案例实践 74<br />8.3.1 案例背景 74<br />8.3.2 代码实现 74<br />8.4 本章小结 82<br />第9章 聚类分析 83<br />9.1 k均值聚类 83<br />9.1.1 算法的步骤 83<br />9.1.2 代码实现 83<br />9.2 层次聚类 84<br />9.2.1 算法的步骤 84<br />9.2.2 代码实现 85<br />9.3 密度聚类 85<br />9.3.1 算法的步骤 85<br />9.3.2 代码实现 86<br />9.4 本章小结 88<br />第10章 关联分析 90<br />10.1 Apriori算法 90<br />10.2 关联分析案例实践 92<br />10.2.1 案例背景 92<br />10.2.2 案例的数据集 93<br />10.2.3 代码实现 93<br />10.2.4 运行结果 93<br />10.3 提升Apriori算法性能的方法 95<br />10.4 本章小结 95<br />第11章 KNN分类 96<br />11.1 KNN算法的步骤 96<br />11.2 KNeighborsClassifier函数 97<br />11.3 KNN的代码实现 98<br />11.4 结果分析 98<br />11.5 KNN案例实践 99<br />11.5.1 案例分析 99<br />11.5.2 案例实现 100<br />11.5.3 运行结果 103<br />11.6 本章小结 104<br />第12章 支持向量机 105<br />12.1 支持向量机的可视化分析 105<br />12.2 SVM的代码实现 108<br />12.2.1 鸢尾花数据分类 108<br />12.2.2 新闻文本数据分类 110<br />12.3 本章小结 111<br />第13章 神经网络分类 112<br />13.1 多层人工神经网络 112<br />13.2 多层人工神经网络的代码实现 113<br />13.3 神经网络分类案例实践 114<br />13.3.1 案例背景 114<br />13.3.2 数据说明 114<br />13.3.3 代码实现 115<br />13.4 本章小结 120<br />第14章 集成学习 121<br />14.1 Bagging方法 121<br />14.2 随机森林 123<br />14.3 Adaboost 125<br />14.4 GBDT 127<br />14.4.1 GradientBoostingClassifier<br />函数 130<br />14.4.2 GradientBoostingRegressor<br />函数 130<br />14.5 XGBoost 131<br />14.5.1 XGBClassifier函数 131<br />14.5.2 XGBRegressor函数 131<br />14.6 房价预测案例实践 132<br />14.7 点击欺骗预测案例实践 136<br />14.7.1 案例背景 136<br />14.7.2 数据分析 136<br />14.7.3 模型优化 141<br />14.8 本章小结 142<br />第15章 综合案例实践 143<br />15.1 员工离职预测综合案例 143<br />15.1.1 数据总览 143<br />15.1.2 数据预处理 144<br />15.1.3 模型构建与比较 147<br />15.2 二手车交易价格预测综合<br />案例 148<br />15.2.1 数据集简介 148<br />15.2.2 数据总览 149<br />15.2.3 数据预处理 150<br />15.2.4 查看变量分布 151<br />15.2.5 查看变量间的关系 154<br />15.2.6 查看变量间的分布关系 157<br />15.2.7 分析汽车注册月份与价格的<br />关系 157<br />15.2.8 特征工程 158<br />15.2.9 模型构建与训练 160<br />15.3 信息抽取综合案例 161<br />15.3.1 案例背景 161<br />15.3.2 数据集简介 165<br />15.3.3 模型的构建与训练 165<br />15.3.4 模型评价 168<br />15.4 学术网络节点分类 169<br />15.4.1 数据集简介 169<br />15.4.2 数据总览 170<br />15.4.3 模型构建 171<br />15.4.4 配置参数 172<br />15.4.5 训练数据 173<br />15.4.6 模型评价 174
内容摘要
数据挖掘算法为大数据与人工智能的核心,掌握数据挖掘各算法的编程实现,有助于提升大数据的实践运用能力。本书详细阐述了数据挖掘常用算法与编程实现,同时,本书以多个经典的数据挖掘赛题为案例,详细论述了数据预处理、特征选择、可视化、算法选择等全流程数据挖掘过程的编程实现,有助于提升读者面对实际数据问题时灵活运用各类算法能力。
查看详情
-
全新
河北省保定市
平均发货30小时
成功完成率81.5%
-
全新
北京市房山区
平均发货26小时
成功完成率83.91%
-
全新
北京市通州区
平均发货10小时
成功完成率83.89%
-
全新
北京市朝阳区
平均发货17小时
成功完成率93.93%
-
4
全新
北京市丰台区
平均发货25小时
成功完成率87.03%
-
全新
北京市朝阳区
平均发货18小时
成功完成率93.67%
-
2
数据挖掘算法实践与案例详解
①全新正版,现货速发,7天无理由退换货②天津、成都、无锡、广东等多仓就近发货,订单最迟48小时内发出③无法指定快递④可开电子发票,不清楚的请咨询客服。
全新
浙江省嘉兴市
平均发货18小时
成功完成率92.31%
-
全新
河北省保定市
平均发货15小时
成功完成率93.03%
-
全新
河北省保定市
平均发货25小时
成功完成率83.84%
-
2
全新
北京市丰台区
平均发货9小时
成功完成率87.85%
-
2
全新
广东省广州市
平均发货8小时
成功完成率90.92%
-
全新
河北省保定市
平均发货9小时
成功完成率97.67%
-
全新
广东省广州市
平均发货9小时
成功完成率86.68%
-
全新
-
全新
河北省保定市
平均发货22小时
成功完成率88.37%
-
全新
上海市浦东新区
平均发货16小时
成功完成率86.52%