海量文本数据的多维挖掘

作者: [美] 张超（Chao Zhang）著 , 黄琰译 , 陈健译

出版社: 机械工业出版社

出版时间: 2020-07

版次: 1

ISBN: 9787111659907

定价: 79.00

装帧: 平装

开本: 16开

纸张: 胶版纸

页数: 184页

分类: 计算机与互联网

9人买过

本书由国际数据挖掘领域泰斗、UIUC韩家玮教授和其学生张超博士（现为佐治亚理工学院助理教授）合著。介绍了将非结构化文本数据转换为多维知识的数据挖掘技术，并讲解了他们开发的文本多维数据集框架的原理和使用方法。译者序

作者简介

译者简介

第1章引言 1

11 概述 1

12 主要部分 3

121 第一部分：立方体构造 3

122 第二部分：立方体开发 5

123 示例应用 5

13 技术路线 6

131 任务1：分类器生成 7

132 任务2：文档分配 8

133 任务3：多维摘要 8

134 任务4：跨维度预测 9

135 任务5：异常事件检测 9

136 小结 9

14 本书大纲 10

第一部分立方体构造算法

第2章主题级分类器生成 12

21 概述 12

22 相关工作 15

221 监督分类器学习 15

222 基于模式的提取 15

223 基于聚类的分类器构建 16

23 准备工作 17

231 问题定义 17

232 方法概述 17

24 自适应词聚类 18

241 划分主题的球形聚类 18

242 识别代表性词语 20

25 自适应词嵌入 21

251 分布式词语表示 21

252 学习局部词嵌入 21

26 实验评估 22

261 实验设计 22

262 定性结果 24

263 定量分析 27

27 小结 29

第3章词语级分类器生成 30

31 概述 30

32 相关工作 32

33 问题定义 33

34 HiExpan框架 33

341 框架概述 33

342 关键词提取 34

343 层次树扩展 34

344 分类器全局优化 41

35 实验 42

351 实验设计 42

352 定性结果 43

353 定量结果 44

36 小结 47

第4章弱监督文本分类 48

41 概述 48

42 相关工作 51

421 潜在变量模型 51

422 基于嵌入的模型 51

43 准备工作 52

431 问题定义 52

432 方法概述 53

44 伪文档生成 53

441 建模类分布 53

442 生成伪文档 55

45 自训练的神经模型 56

451 神经模型预训练 56

452 神经模型自训练 57

453 基于CNN和RNN的实例化 58

46 实验 59

461 数据集 59

462 基线 59

463 实验设计 60

464 实验结果 61

465 参数研究 65

466 案例研究 67

47 小结 68

第5章弱监督层次文本分类 69

51 概述 69

52 相关工作 71

521 弱监督文本分类 71

522 层次文本分类 71

53 问题定义 72

54 伪文档生成 72

55 层次分类模型 74

551 局部分类器预训练 75

552 全局分类器自训练 75

553 阻断机制 77

554 推导 77

555 算法概述 77

56 实验 78

561 实验设计 78

562 定量比较 80

563 组件评估 82

57 小结 84

第二部分立方体开发算法

第6章多维摘要 86

61 概述 86

62 相关工作 89

63 准备工作 90

631 文本立方体准备 90

632 问题定义 91

64 排名度量 91

641 普遍性和完整性 92

642 邻域敏感的独特性 92

65 RepPhrase方法 96

651 简介 96

652 混合离线物化 97

653 最优在线处理 100

66 实验 101

661 实验设计 101

662 有效性评估 103

663 效率评估 107

67 小结 111

第7章立方体空间中的跨维度预测 112

71 概述 112

72 相关工作 114

73 准备工作 115

731 问题描述 115

732 方法概述 115

74 半监督多模态嵌入 117

741 无监督重构任务 117

742 监督分类任务 119

743 优化程序 119

75 多模态嵌入的在线更新 120

751 生命衰减学习 120

752 基于约束的学习 121

753 复杂度分析 124

76 实验 124

761 实验设计 124

762 定量比较 127

763 案例研究 129

764 参数影响 132

765 下游应用 134

77 小结 135

第8章立方体空间中的事件检测 136

81 概述 136

82 相关工作 138

821 突发事件检测 138

822 时空事件检测 139

83 准备工作 140

831 问题定义 140

832 方法概述 140

833 多模态嵌入 142

84 候选生成 143

841 贝叶斯混合聚类模型 144

842 参数评估 145

85 候选分类 146

851 多模态嵌入的特征推导 146

852 分类过程 147

86 支持持续的事件检测 147

87 复杂度分析 148

88 实验 148

881 实验设计 148

882 定性结果 150

883 定量结果 153

884 可扩展性研究 154

885 特征的重要性 155

89 小结 156

第9章结论 157

91 总结 157

92 未来工作 158

参考文献 160
内容简介:
本书由国际数据挖掘领域泰斗、UIUC韩家玮教授和其学生张超博士（现为佐治亚理工学院助理教授）合著。介绍了将非结构化文本数据转换为多维知识的数据挖掘技术，并讲解了他们开发的文本多维数据集框架的原理和使用方法。
目录:
译者序

作者简介

译者简介

第1章引言 1

11 概述 1

12 主要部分 3

121 第一部分：立方体构造 3

122 第二部分：立方体开发 5

123 示例应用 5

13 技术路线 6

131 任务1：分类器生成 7

132 任务2：文档分配 8

133 任务3：多维摘要 8

134 任务4：跨维度预测 9

135 任务5：异常事件检测 9

136 小结 9

14 本书大纲 10

第一部分立方体构造算法

第2章主题级分类器生成 12

21 概述 12

22 相关工作 15

221 监督分类器学习 15

222 基于模式的提取 15

223 基于聚类的分类器构建 16

23 准备工作 17

231 问题定义 17

232 方法概述 17

24 自适应词聚类 18

241 划分主题的球形聚类 18

242 识别代表性词语 20

25 自适应词嵌入 21

251 分布式词语表示 21

252 学习局部词嵌入 21

26 实验评估 22

261 实验设计 22

262 定性结果 24

263 定量分析 27

27 小结 29

第3章词语级分类器生成 30

31 概述 30

32 相关工作 32

33 问题定义 33

34 HiExpan框架 33

341 框架概述 33

342 关键词提取 34

343 层次树扩展 34

344 分类器全局优化 41

35 实验 42

351 实验设计 42

352 定性结果 43

353 定量结果 44

36 小结 47

第4章弱监督文本分类 48

41 概述 48

42 相关工作 51

421 潜在变量模型 51

422 基于嵌入的模型 51

43 准备工作 52

431 问题定义 52

432 方法概述 53

44 伪文档生成 53

441 建模类分布 53

442 生成伪文档 55

45 自训练的神经模型 56

451 神经模型预训练 56

452 神经模型自训练 57

453 基于CNN和RNN的实例化 58

46 实验 59

461 数据集 59

462 基线 59

463 实验设计 60

464 实验结果 61

465 参数研究 65

466 案例研究 67

47 小结 68

第5章弱监督层次文本分类 69

51 概述 69

52 相关工作 71

521 弱监督文本分类 71

522 层次文本分类 71

53 问题定义 72

54 伪文档生成 72

55 层次分类模型 74

551 局部分类器预训练 75

552 全局分类器自训练 75

553 阻断机制 77

554 推导 77

555 算法概述 77

56 实验 78

561 实验设计 78

562 定量比较 80

563 组件评估 82

57 小结 84

第二部分立方体开发算法

第6章多维摘要 86

61 概述 86

62 相关工作 89

63 准备工作 90

631 文本立方体准备 90

632 问题定义 91

64 排名度量 91

641 普遍性和完整性 92

642 邻域敏感的独特性 92

65 RepPhrase方法 96

651 简介 96

652 混合离线物化 97

653 最优在线处理 100

66 实验 101

661 实验设计 101

662 有效性评估 103

663 效率评估 107

67 小结 111

第7章立方体空间中的跨维度预测 112

71 概述 112

72 相关工作 114

73 准备工作 115

731 问题描述 115

732 方法概述 115

74 半监督多模态嵌入 117

741 无监督重构任务 117

742 监督分类任务 119

743 优化程序 119

75 多模态嵌入的在线更新 120

751 生命衰减学习 120

752 基于约束的学习 121

753 复杂度分析 124

76 实验 124

761 实验设计 124

762 定量比较 127

763 案例研究 129

764 参数影响 132

765 下游应用 134

77 小结 135

第8章立方体空间中的事件检测 136

81 概述 136

82 相关工作 138

821 突发事件检测 138

822 时空事件检测 139

83 准备工作 140

831 问题定义 140

832 方法概述 140

833 多模态嵌入 142

84 候选生成 143

841 贝叶斯混合聚类模型 144

842 参数评估 145

85 候选分类 146

851 多模态嵌入的特征推导 146

852 分类过程 147

86 支持持续的事件检测 147

87 复杂度分析 148

88 实验 148

881 实验设计 148

882 定性结果 150

883 定量结果 153

884 可扩展性研究 154

885 特征的重要性 155

89 小结 156

第9章结论 157

91 总结 157

92 未来工作 158

参考文献 160