Python数据挖掘:概念、方法与实践

Python数据挖掘:概念、方法与实践
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [美] ,
2017-05
版次: 1
ISBN: 9787111565482
定价: 59.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 194页
24人买过
  •    在本书中,你将深入许多数据挖掘中常被忽视的领域,包括关联规则挖掘、实体匹配、网络挖掘、情绪分析、命名实体识别、文本摘要、主题建模和异常检测。对于每种数据挖掘技术,我们将在比较解决每种问题所用的各种策略之前,研究目前新的佳实践。然后,将用来自软件工程领域的实际数据,实现示例解决方案,并学习理解和解读所得结果的方法。
    译者序 
    关于审稿人 
    前言 
    第1章 扩展你的数据挖掘工具箱1 
    1.1 什么是数据挖掘2 
    1.2 如何进行数据挖掘4 
    1.2.1 Fayyad等人的KDD过程4 
    1.2.2 韩家炜等人的KDD过程4 
    1.2.3 CRISP-DM过程5 
    1.2.4 六步过程6 
    1.2.5 哪一种数据挖掘方法最好6 
    1.3 在数据挖掘中使用哪些技术7 
    1.4 如何建立数据挖掘工作环境9 
    1.5 小结14 
    第2章 关联规则挖掘16 
    2.1 什么是频繁项集16 
    2.1.1 都市传奇“尿布与啤酒”17 
    2.1.2 频繁项集挖掘基础知识18 
    2.2 迈向关联规则19 
    2.2.1 支持度20 
    2.2.2 置信度20 
    2.2.3 关联规则21 
    2.2.4 包含数据的示例21 
    2.2.5 附加值—修复计划中的漏洞22 
    2.2.6 寻找频繁项集的方法24 
    2.3 项目—发现软件项目标签中的关联规则25 
    2.4 小结38 
    第3章 实体匹配39 
    3.1 什么是实体匹配40 
    3.1.1 数据合并42 
    3.1.2 匹配技术45 
    3.1.3 基于属性的相似度匹配45 
    3.1.4 属性匹配方法46 
    3.1.5 利用不相交数据集48 
    3.1.6 基于上下文的相似度匹配48 
    3.1.7 基于机器学习的实体匹配49 
    3.1.8 实体匹配技术的评估50 
    3.2 实体匹配项目53 
    3.2.1 软件项目匹配的难度53 
    3.2.2 两个例子53 
    3.2.3 根据项目名称匹配55 
    3.2.4 根据人名匹配55 
    3.2.5 根据URL匹配55 
    3.2.6 按照主题和描述关键词匹配56 
    3.2.7 数据集57 
    3.2.8 代码58 
    3.2.9 结果63 
    3.3 小结66 
    第4章 网络分析68 
    4.1 什么是网络68 
    4.2 网络计量71 
    4.2.1 网络的度数71 
    4.2.2 网络直径72 
    4.2.3 网络中的通路、路径和迹72 
    4.2.4 网络的成分73 
    4.2.5 图的中心性73 
    4.3 图数据的表示76 
    4.3.1 邻接矩阵76 
    4.3.2 边表和邻接表77 
    4.3.3 图数据结构之间的差别77 
    4.3.4 将数据导入图结构中78 
    4.4 真实项目84 
    4.4.1 探索数据84 
    4.4.2 生成网络文件89 
    4.4.3 以网络的形式理解数据91 
    4.5 小结107 
    第5章 文本情绪分析109 
    5.1 什么是情绪分析110 
    5.2 情绪分析基础知识111 
    5.2.1 观点的结构111 
    5.2.2 文档级和句子级分析112 
    5.2.3 观点的重要特征113 
    5.3 情绪分析算法114 
    5.4 情绪挖掘应用116 
    5.4.1 项目动机117 
    5.4.2 数据准备117 
    5.4.3 聊天消息的数据分析120 
    5.4.4 电子邮件消息的数据分析124 
    5.5 小结130 
    第6章 文本中的命名实体识别131 
    6.1 为什么寻找命名实体?131 
    6.2 命名实体识别技术134 
    6.3 NER系统的构建与评估137 
    6.3.1 NER和部分匹配137 
    6.3.2 处理部分匹配138 
    6.4 命名实体识别项目140 
    6.5 小结149 
    第7章 自动化文本摘要150 
    7.1 什么是自动化文本摘要151 
    7.2 文本摘要工具151 
    7.2.1 使用NTLK的简单文本摘要152 
    7.2.2 使用Gensim的文本摘要155 
    7.2.3 使用Sumy的文本摘要157 
    7.3 小结163 
    第8章 文本中的主题建模164 
    8.1 什么是主题建模164 
    8.2 潜在狄利克雷分配166 
    8.3 Gensim主题建模167 
    8.3.1 理解Gensim LDA主题169 
    8.3.2 理解Gensim LDA的遍数170 
    8.3.3 对新文档应用Gensim LDA模型172 
    8.3.4 序列化Gensim LDA对象172 
    8.4 用于更大项目的Gensim LDA174 
    8.5 小结176 
    第9章 挖掘数据异常178 
    9.1 什么是数据异常178 
    9.1.1 缺失数据179 
    9.1.2 修复缺失数据181 
    9.1.3 数据错误184 
    9.1.4 离群值186 
    9.2 小结194
  • 内容简介:
       在本书中,你将深入许多数据挖掘中常被忽视的领域,包括关联规则挖掘、实体匹配、网络挖掘、情绪分析、命名实体识别、文本摘要、主题建模和异常检测。对于每种数据挖掘技术,我们将在比较解决每种问题所用的各种策略之前,研究目前新的佳实践。然后,将用来自软件工程领域的实际数据,实现示例解决方案,并学习理解和解读所得结果的方法。
  • 目录:

    译者序 
    关于审稿人 
    前言 
    第1章 扩展你的数据挖掘工具箱1 
    1.1 什么是数据挖掘2 
    1.2 如何进行数据挖掘4 
    1.2.1 Fayyad等人的KDD过程4 
    1.2.2 韩家炜等人的KDD过程4 
    1.2.3 CRISP-DM过程5 
    1.2.4 六步过程6 
    1.2.5 哪一种数据挖掘方法最好6 
    1.3 在数据挖掘中使用哪些技术7 
    1.4 如何建立数据挖掘工作环境9 
    1.5 小结14 
    第2章 关联规则挖掘16 
    2.1 什么是频繁项集16 
    2.1.1 都市传奇“尿布与啤酒”17 
    2.1.2 频繁项集挖掘基础知识18 
    2.2 迈向关联规则19 
    2.2.1 支持度20 
    2.2.2 置信度20 
    2.2.3 关联规则21 
    2.2.4 包含数据的示例21 
    2.2.5 附加值—修复计划中的漏洞22 
    2.2.6 寻找频繁项集的方法24 
    2.3 项目—发现软件项目标签中的关联规则25 
    2.4 小结38 
    第3章 实体匹配39 
    3.1 什么是实体匹配40 
    3.1.1 数据合并42 
    3.1.2 匹配技术45 
    3.1.3 基于属性的相似度匹配45 
    3.1.4 属性匹配方法46 
    3.1.5 利用不相交数据集48 
    3.1.6 基于上下文的相似度匹配48 
    3.1.7 基于机器学习的实体匹配49 
    3.1.8 实体匹配技术的评估50 
    3.2 实体匹配项目53 
    3.2.1 软件项目匹配的难度53 
    3.2.2 两个例子53 
    3.2.3 根据项目名称匹配55 
    3.2.4 根据人名匹配55 
    3.2.5 根据URL匹配55 
    3.2.6 按照主题和描述关键词匹配56 
    3.2.7 数据集57 
    3.2.8 代码58 
    3.2.9 结果63 
    3.3 小结66 
    第4章 网络分析68 
    4.1 什么是网络68 
    4.2 网络计量71 
    4.2.1 网络的度数71 
    4.2.2 网络直径72 
    4.2.3 网络中的通路、路径和迹72 
    4.2.4 网络的成分73 
    4.2.5 图的中心性73 
    4.3 图数据的表示76 
    4.3.1 邻接矩阵76 
    4.3.2 边表和邻接表77 
    4.3.3 图数据结构之间的差别77 
    4.3.4 将数据导入图结构中78 
    4.4 真实项目84 
    4.4.1 探索数据84 
    4.4.2 生成网络文件89 
    4.4.3 以网络的形式理解数据91 
    4.5 小结107 
    第5章 文本情绪分析109 
    5.1 什么是情绪分析110 
    5.2 情绪分析基础知识111 
    5.2.1 观点的结构111 
    5.2.2 文档级和句子级分析112 
    5.2.3 观点的重要特征113 
    5.3 情绪分析算法114 
    5.4 情绪挖掘应用116 
    5.4.1 项目动机117 
    5.4.2 数据准备117 
    5.4.3 聊天消息的数据分析120 
    5.4.4 电子邮件消息的数据分析124 
    5.5 小结130 
    第6章 文本中的命名实体识别131 
    6.1 为什么寻找命名实体?131 
    6.2 命名实体识别技术134 
    6.3 NER系统的构建与评估137 
    6.3.1 NER和部分匹配137 
    6.3.2 处理部分匹配138 
    6.4 命名实体识别项目140 
    6.5 小结149 
    第7章 自动化文本摘要150 
    7.1 什么是自动化文本摘要151 
    7.2 文本摘要工具151 
    7.2.1 使用NTLK的简单文本摘要152 
    7.2.2 使用Gensim的文本摘要155 
    7.2.3 使用Sumy的文本摘要157 
    7.3 小结163 
    第8章 文本中的主题建模164 
    8.1 什么是主题建模164 
    8.2 潜在狄利克雷分配166 
    8.3 Gensim主题建模167 
    8.3.1 理解Gensim LDA主题169 
    8.3.2 理解Gensim LDA的遍数170 
    8.3.3 对新文档应用Gensim LDA模型172 
    8.3.4 序列化Gensim LDA对象172 
    8.4 用于更大项目的Gensim LDA174 
    8.5 小结176 
    第9章 挖掘数据异常178 
    9.1 什么是数据异常178 
    9.1.1 缺失数据179 
    9.1.2 修复缺失数据181 
    9.1.3 数据错误184 
    9.1.4 离群值186 
    9.2 小结194
查看详情
系列丛书 / 更多
Python数据挖掘:概念、方法与实践
Python数据分析与挖掘实战
张良均、王路、谭立云、苏剑林 著
Python数据挖掘:概念、方法与实践
游戏数据分析的艺术
于洋、余敏雄、吴娜、师胜柱 著
Python数据挖掘:概念、方法与实践
Elasticsearch技术解析与实战
朱林 著
Python数据挖掘:概念、方法与实践
Python数据分析与数据化运营
宋天龙 著
Python数据挖掘:概念、方法与实践
R语言游戏数据分析与挖掘
谢佳标 著
Python数据挖掘:概念、方法与实践
Python数据可视化
程豪 译
Python数据挖掘:概念、方法与实践
ELK Stack权威指南(第2版)
饶琛琳 著
Python数据挖掘:概念、方法与实践
ELKstack权威指南
饶琛琳 著
Python数据挖掘:概念、方法与实践
数据挖掘核心技术揭秘
贾双成、王奇 著
Python数据挖掘:概念、方法与实践
机器学习与R语言实战
丘祐玮 著;潘怡 译
Python数据挖掘:概念、方法与实践
R语言数据分析
[美]哥格利·达罗克兹 著;潘怡 译
Python数据挖掘:概念、方法与实践
R语言数据挖掘:实用项目解析
黄芸 译
相关图书 / 更多
Python数据挖掘:概念、方法与实践
Python和PySpark数据分析
(加)乔纳森·里乌
Python数据挖掘:概念、方法与实践
Python机器学习入门与实践 从深度学习到生成对抗网络GAN 深入浅出GAN生成对抗网络 实战gan TensorFlow与Keras 人工智能技术书籍
(日)大关真之
Python数据挖掘:概念、方法与实践
Python语言程序设计
王刚
Python数据挖掘:概念、方法与实践
Python代码编程 学科项目式编程(六年级)
冯建刚
Python数据挖掘:概念、方法与实践
Python机器学习 : 核心技术与开发实战 周志华西瓜书机器学习实战伴侣书
[美]普拉提克·乔希 著;李现伟 译者;颉腾文化 出品;阿尔伯托·阿尔塔桑切斯(美);曾小健
Python数据挖掘:概念、方法与实践
Python语言程序设计(微课版)
宁爱军 何志永
Python数据挖掘:概念、方法与实践
Python数据分析从入门到精通(第2版)
明日科技
Python数据挖掘:概念、方法与实践
Python数据分析与挖掘
齐福利
Python数据挖掘:概念、方法与实践
Python基础与应用(互联网+教育新形态一体化系列教材)
李喆时、谢家立、赵丽 编
Python数据挖掘:概念、方法与实践
Python数据分析与可视化项目实战
王振丽
Python数据挖掘:概念、方法与实践
Python爬虫从菜鸟到高手
李宁
Python数据挖掘:概念、方法与实践
Python程序设计基础教程
\"孙海龙 王济军\
您可能感兴趣 / 更多
Python数据挖掘:概念、方法与实践
无辜者的谎言(相信我!看到结局你一定会头皮发麻;全美读者推荐的悬疑神作,GOODREADS高分作品)
[美]A.R.托雷 著;梁颂宇 译;星文文化 出品
Python数据挖掘:概念、方法与实践
孩子,把你的手给我1:怎么说孩子才爱听,怎么教孩子才肯学?帮助每一位3-12岁孩子的父母结束与孩子的所有冲突!
[美]海姆·G.吉诺特
Python数据挖掘:概念、方法与实践
哲学、历史与僭政——重审施特劳斯与科耶夫之争
[美]弗罗斯特(Bryan-Paul Frost) 编;[美]伯恩斯(Timothy W. Burns)
Python数据挖掘:概念、方法与实践
怎样做成大事
[美]丹·加德纳(Dan Gardner) 著;贾拥民 译;湛庐文化 出品;[丹麦]傅以斌(Bent Flyvbjerg)
Python数据挖掘:概念、方法与实践
力量训练的科学基础与实践应用(第三版)
[美]弗拉基米尔· M.扎齐奥尔斯基;[美]威廉·J.克雷默;[美]安德鲁· C.弗赖伊
Python数据挖掘:概念、方法与实践
1200年希腊罗马神话
[美]伊迪丝·汉密尔顿
Python数据挖掘:概念、方法与实践
爱情心理学(新编本)
[美]罗伯特·J. 斯腾伯格 (美)凯琳·斯腾伯格 倪爱萍 译
Python数据挖掘:概念、方法与实践
黄金圈法则
[美]西蒙·斯涅克 著;磨铁文化 出品
Python数据挖掘:概念、方法与实践
最后一章
[美]厄尼·派尔
Python数据挖掘:概念、方法与实践
汤姆·索亚历险记 彩图注音版 一二三四年级5-6-7-8-9岁小学生课外阅读经典 儿童文学无障碍有声伴读世界名著童话故事
[美]马克 吐温
Python数据挖掘:概念、方法与实践
富兰克林自传 名家全译本 改变无数人命运的励志传奇 埃隆马斯克反复推荐 赠富兰克林签名照及精美插图
[美]本杰明·富兰克林 著;李自修 译
Python数据挖掘:概念、方法与实践
国际大奖图画书系列 共11册(小老鼠的恐惧的大书,大灰狼,红豆与菲比,别烦我,下雪了 ,穿靴子的猫 ,先有蛋,绿 ,特别快递,如果你想看鲸鱼 ,一个部落的孩子 ) 麦克米伦世纪
[美]莱恩·史密斯 (英)埃米莉·格雷维特 (美)劳拉·瓦卡罗·等/文 (英)埃米莉·格雷维特 等/图 彭懿 杨玲玲 阿甲 孙慧阳 白薇 译