特征工程的艺术:通用技巧与实用案例

特征工程的艺术:通用技巧与实用案例
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [加拿大] (Pablo Duboue)
2022-05
版次: 1
ISBN: 9787115588418
定价: 89.80
装帧: 平装
开本: 其他
纸张: 胶版纸
页数: 202页
字数: 279千字
2人买过
  • 特征工程可以修改数据特征,更好地捕获问题本质,从而改进结果。这个过程既是一种艺术,也是技巧和诀窍的一种结合。本书是一本特征工程实用指南,主要探讨如何利用特征工程提升机器学习解决方案的性能。本书从特征工程的基本概念和技术开始介绍,建立了一种特殊的跨领域方法,通过充分研究案例详细介绍了图数据、时间戳数据、文本数据和图像数据的处理方法,包括分箱、折外估计、特征选择、数据降维和可变长度数据编码等重要主题。 巴勃罗·迪布(Pablo Duboue)

    NLP学者。2005年博士毕业于美国哥伦比亚大学,师从ACL前主席Kathleen McKeown教授,曾是IBM Watson DeepQA团队成员。2016年创办NLP技术公司Textualization。他有丰富的教学经验,是世界多所大学的访问教授。 第 一部分 基础知识

    第 1章 简介  2

    1.1 特征工程  4

    1.2 模型评价  8

    1.2.1 度量  8

    1.2.2 交叉验证  10

    1.2.3 过拟合  11

    1.2.4 维数灾难  12

    1.3 周期  12

    1.3.1 ML周期  13

    1.3.2 特征工程周期  15

    1.4 分析  17

    1.4.1 探索性数据分析  17

    1.4.2 误差分析  18

    1.5 其他过程  20

    1.5.1 领域建模  20

    1.5.2 特征构建  22

    1.6 讨论  24

    1.7 扩展学习  26

    第 2章 特征组合:归一化、离散化和异常值  28

    2.1 归一化特征  29

    2.1.1 标准化和去相关性  31

    2.1.2 平滑  33

    2.1.3 特征加权  34

    2.2 离散化和分箱  35

    2.2.1 无监督离散化  36

    2.2.2 监督离散化  38

    2.3 描述性特征  41

    2.3.1 直方图  41

    2.3.2 其他描述性特征  43

    2.4 处理异常值  44

    2.5 高级技术  46

    2.6 扩展学习  47

    第3章 特征扩展:可计算特征、填充与核技巧  48

    3.1 可计算特征  49

    3.2 填充  54

    3.3 复杂特征分解  57

    3.4 核操作特征扩展  59

    3.5 扩展学习  62

    第4章 特征缩减:特征选择、降维和嵌入  64

    4.1 特征选择  65

    4.1.1 度量  66

    4.1.2 组成特征集:搜索与筛选  73

    4.1.3 高级技术  75

    4.2 正则化与嵌入式特征选择  77

    4.2.1 L2 正则化:岭回归  78

    4.2.2 L1 正则化:LASSO  78

    4.2.3 其他使用嵌入式特征选择的算法  79

    4.3 数据降维  80

    4.3.1 特征哈希  81

    4.3.2 随机投影  82

    4.3.3 奇异值分解  82

    4.3.4 隐狄利克雷分配  83

    4.3.5 聚类  84

    4.3.6 其他数据降维技术  85

    4.3.7 嵌入  86

    4.4 扩展学习  90

    第5章 高级主题:可变长度数据与自动特征工程  91

    5.1 可变长度特征向量  91

    5.1.1 集合  91

    5.1.2 列表  92

    5.1.3 树  94

    5.1.4 图  96

    5.1.5 时间序列  97

    5.2 基于实例的特征工程  100

    5.3 深度学习与特征工程  102

    5.4 自动特征工程  105

    5.4.1 特征学习  105

    5.4.2 无监督特征工程  108

    5.5 扩展学习  109

    第二部分 案例研究

    第6章 图数据  113

    6.0 本章概述  115

    6.1 WikiCities数据集  116

    6.2 探索性数据分析  117

    6.3 第 一个特征集  124

    6.4 第二个特征集  130

    6.5 终的特征集  131

    6.6 扩展学习  133

    第7章 时间戳数据  134

    7.0 本章概述  135

    7.1 WikiCities:历史特征  137

    7.2 时间延迟特征  139

    7.2.1 填充时间戳数据  139

    7.2.2 第 一次特征化:填充二阶延迟数据  140

    7.2.3 误差分析  141

    7.3 滑动窗口  142

    7.4 第三次特征化:EMA  143

    7.5 使用历史数据进行扩展  143

    7.5.1 第四次特征化:扩展的数据  144

    7.6 时间序列  145

    7.6.1 WikiCountries数据集  145

    7.6.2 探索性数据分析  146

    7.6.3 第 一次特征化:无TS特征  149

    7.6.5 使用模型预测作为特征  149

    7.6.6 讨论  150

    7.7 扩展学习  151

    第8章 文本数据  153

    8.0 本章概述  155

    8.1 WikiCities:文本  156

    8.2 探索性数据分析  156

    8.3 仅数值型记号  159

    8.3.1 词类型与记号  160

    8.3.2 分词:基础知识  160

    8.3.3 第 一次特征化  161

    8.4 词袋  162

    8.4.1 分词  162

    8.4.2 第二次特征化  163

    8.5 停用词和形态学特征  165

    8.5.1 停用词  165

    8.5.2 分词:词干提取  166

    8.5.3 第三次特征化  166

    8.6 上下文特征  167

    8.6.1 二元词  168

    8.6.2 第四次特征化  169

    8.7 跳跃二元词与特征哈希  169

    8.7.1 跳跃二元词  169

    8.7.2 第五次特征化  169

    8.8 数据降维与嵌入  170

    8.8.1 嵌入  170

    8.8.2 特征加权:TF-IDF  171

    8.8.3 第六次特征化  172

    8.9 结束语  172

    8.9.1 内容扩展  174

    8.9.2 文本中的结构  174

    8.10 扩展学习  174

    第9章 图像数据  175

    9.0 本章概述  176

    9.1 WikiCities:卫星图像  177

    9.2 探索性数据分析  178

    9.3 像素即特征  179

    9.3.1 第 一次特征化  179

    9.3.2 可计算特征:高斯模糊  180

    9.3.3 白化  182

    9.3.4 对变动的误差分析  183

    9.4 自动数据集扩展  183

    9.4.1 仿射变换  184

    9.4.2 第二次特征化  184

    9.5 描述性特征:直方图  184

    9.6 局部特征检测器:角点  185

    9.6.1 Harris角点检测  186

    9.6.2 第四次特征化  186

    9.7 数据降维:HOG  187

    9.8 结束语  189

    9.9 扩展学习  191

    第 10章 其他领域:视频、GIS和偏好  192

    10.1 视频  193

    10.1.1 数据:屏幕录制  194

    10.1.2 关键帧检测  194

    10.1.3 目标跟踪:均值漂移  195

    10.1.4 扩展学习  197

    10.2 地理特征  197

    10.3 偏好  199

    10.3.1 数据:Linux核心代码提交  200

    10.3.2 填充偏好数据  201

    10.3.3 扩展学习  202
  • 内容简介:
    特征工程可以修改数据特征,更好地捕获问题本质,从而改进结果。这个过程既是一种艺术,也是技巧和诀窍的一种结合。本书是一本特征工程实用指南,主要探讨如何利用特征工程提升机器学习解决方案的性能。本书从特征工程的基本概念和技术开始介绍,建立了一种特殊的跨领域方法,通过充分研究案例详细介绍了图数据、时间戳数据、文本数据和图像数据的处理方法,包括分箱、折外估计、特征选择、数据降维和可变长度数据编码等重要主题。
  • 作者简介:
    巴勃罗·迪布(Pablo Duboue)

    NLP学者。2005年博士毕业于美国哥伦比亚大学,师从ACL前主席Kathleen McKeown教授,曾是IBM Watson DeepQA团队成员。2016年创办NLP技术公司Textualization。他有丰富的教学经验,是世界多所大学的访问教授。
  • 目录:
    第 一部分 基础知识

    第 1章 简介  2

    1.1 特征工程  4

    1.2 模型评价  8

    1.2.1 度量  8

    1.2.2 交叉验证  10

    1.2.3 过拟合  11

    1.2.4 维数灾难  12

    1.3 周期  12

    1.3.1 ML周期  13

    1.3.2 特征工程周期  15

    1.4 分析  17

    1.4.1 探索性数据分析  17

    1.4.2 误差分析  18

    1.5 其他过程  20

    1.5.1 领域建模  20

    1.5.2 特征构建  22

    1.6 讨论  24

    1.7 扩展学习  26

    第 2章 特征组合:归一化、离散化和异常值  28

    2.1 归一化特征  29

    2.1.1 标准化和去相关性  31

    2.1.2 平滑  33

    2.1.3 特征加权  34

    2.2 离散化和分箱  35

    2.2.1 无监督离散化  36

    2.2.2 监督离散化  38

    2.3 描述性特征  41

    2.3.1 直方图  41

    2.3.2 其他描述性特征  43

    2.4 处理异常值  44

    2.5 高级技术  46

    2.6 扩展学习  47

    第3章 特征扩展:可计算特征、填充与核技巧  48

    3.1 可计算特征  49

    3.2 填充  54

    3.3 复杂特征分解  57

    3.4 核操作特征扩展  59

    3.5 扩展学习  62

    第4章 特征缩减:特征选择、降维和嵌入  64

    4.1 特征选择  65

    4.1.1 度量  66

    4.1.2 组成特征集:搜索与筛选  73

    4.1.3 高级技术  75

    4.2 正则化与嵌入式特征选择  77

    4.2.1 L2 正则化:岭回归  78

    4.2.2 L1 正则化:LASSO  78

    4.2.3 其他使用嵌入式特征选择的算法  79

    4.3 数据降维  80

    4.3.1 特征哈希  81

    4.3.2 随机投影  82

    4.3.3 奇异值分解  82

    4.3.4 隐狄利克雷分配  83

    4.3.5 聚类  84

    4.3.6 其他数据降维技术  85

    4.3.7 嵌入  86

    4.4 扩展学习  90

    第5章 高级主题:可变长度数据与自动特征工程  91

    5.1 可变长度特征向量  91

    5.1.1 集合  91

    5.1.2 列表  92

    5.1.3 树  94

    5.1.4 图  96

    5.1.5 时间序列  97

    5.2 基于实例的特征工程  100

    5.3 深度学习与特征工程  102

    5.4 自动特征工程  105

    5.4.1 特征学习  105

    5.4.2 无监督特征工程  108

    5.5 扩展学习  109

    第二部分 案例研究

    第6章 图数据  113

    6.0 本章概述  115

    6.1 WikiCities数据集  116

    6.2 探索性数据分析  117

    6.3 第 一个特征集  124

    6.4 第二个特征集  130

    6.5 终的特征集  131

    6.6 扩展学习  133

    第7章 时间戳数据  134

    7.0 本章概述  135

    7.1 WikiCities:历史特征  137

    7.2 时间延迟特征  139

    7.2.1 填充时间戳数据  139

    7.2.2 第 一次特征化:填充二阶延迟数据  140

    7.2.3 误差分析  141

    7.3 滑动窗口  142

    7.4 第三次特征化:EMA  143

    7.5 使用历史数据进行扩展  143

    7.5.1 第四次特征化:扩展的数据  144

    7.6 时间序列  145

    7.6.1 WikiCountries数据集  145

    7.6.2 探索性数据分析  146

    7.6.3 第 一次特征化:无TS特征  149

    7.6.5 使用模型预测作为特征  149

    7.6.6 讨论  150

    7.7 扩展学习  151

    第8章 文本数据  153

    8.0 本章概述  155

    8.1 WikiCities:文本  156

    8.2 探索性数据分析  156

    8.3 仅数值型记号  159

    8.3.1 词类型与记号  160

    8.3.2 分词:基础知识  160

    8.3.3 第 一次特征化  161

    8.4 词袋  162

    8.4.1 分词  162

    8.4.2 第二次特征化  163

    8.5 停用词和形态学特征  165

    8.5.1 停用词  165

    8.5.2 分词:词干提取  166

    8.5.3 第三次特征化  166

    8.6 上下文特征  167

    8.6.1 二元词  168

    8.6.2 第四次特征化  169

    8.7 跳跃二元词与特征哈希  169

    8.7.1 跳跃二元词  169

    8.7.2 第五次特征化  169

    8.8 数据降维与嵌入  170

    8.8.1 嵌入  170

    8.8.2 特征加权:TF-IDF  171

    8.8.3 第六次特征化  172

    8.9 结束语  172

    8.9.1 内容扩展  174

    8.9.2 文本中的结构  174

    8.10 扩展学习  174

    第9章 图像数据  175

    9.0 本章概述  176

    9.1 WikiCities:卫星图像  177

    9.2 探索性数据分析  178

    9.3 像素即特征  179

    9.3.1 第 一次特征化  179

    9.3.2 可计算特征:高斯模糊  180

    9.3.3 白化  182

    9.3.4 对变动的误差分析  183

    9.4 自动数据集扩展  183

    9.4.1 仿射变换  184

    9.4.2 第二次特征化  184

    9.5 描述性特征:直方图  184

    9.6 局部特征检测器:角点  185

    9.6.1 Harris角点检测  186

    9.6.2 第四次特征化  186

    9.7 数据降维:HOG  187

    9.8 结束语  189

    9.9 扩展学习  191

    第 10章 其他领域:视频、GIS和偏好  192

    10.1 视频  193

    10.1.1 数据:屏幕录制  194

    10.1.2 关键帧检测  194

    10.1.3 目标跟踪:均值漂移  195

    10.1.4 扩展学习  197

    10.2 地理特征  197

    10.3 偏好  199

    10.3.1 数据:Linux核心代码提交  200

    10.3.2 填充偏好数据  201

    10.3.3 扩展学习  202
查看详情
相关图书 / 更多
特征工程的艺术:通用技巧与实用案例
特征土体实验研究:以南阳市膨胀土、砂性土为例
季宪军 著
特征工程的艺术:通用技巧与实用案例
特征驱动的关键基础设施建设风险研究
索玮岚;张劲
特征工程的艺术:通用技巧与实用案例
特征值问题的下谱界与多网格离散
张宇
特征工程的艺术:通用技巧与实用案例
特征模法及其在天线设计中的应用
褚庆昕;李慧;林江锋
特征工程的艺术:通用技巧与实用案例
特征论(全六册)
马学思 编
特征工程的艺术:通用技巧与实用案例
特征工程入门与实践
[土耳其]锡南·厄兹代米尔(Sinan Ozdemir);迪夫娅·苏萨拉(Divya
特征工程的艺术:通用技巧与实用案例
特征驱动开发方法:原理与实践 (平装)
帕尔默
特征工程的艺术:通用技巧与实用案例
特征建模理论、方法和应用
吴宏鑫、胡军 著
特征工程的艺术:通用技巧与实用案例
特征值问题有限元方法
杨一都 著
特征工程的艺术:通用技巧与实用案例
特征:无
威廉·麦瑟尔
特征工程的艺术:通用技巧与实用案例
特征值,不等式和遍历理论(英文版)
陈木法 著
特征工程的艺术:通用技巧与实用案例
特征有限元法及其在土壤水分运动数值模拟中的应用
张耀峰 著
您可能感兴趣 / 更多
特征工程的艺术:通用技巧与实用案例
管理工作的本质
[加拿大]亨利·明茨伯格(Henry Mintzberg) 著;方海萍 译;湛庐文化 出品
特征工程的艺术:通用技巧与实用案例
经济学中有约束的最优化问题解析()
[加拿大]彼得·B. 摩根 著;林相森 张乔 译
特征工程的艺术:通用技巧与实用案例
海外中国研究·云南禄村:中国妇女与农村发展(海外中国研究丛书精选版第四辑)
[加拿大]宝森(Laurel Bossen) 著;胡玉坤 译
特征工程的艺术:通用技巧与实用案例
穿过内心那片深海 :帮助146个国家超过300万人的自我疗愈工程
[加拿大]谢莉娜·艾雅娜(Sheleana Aiyana) 著;闻达 译
特征工程的艺术:通用技巧与实用案例
杰出投资者的顶层认知:金融市场更强大的“聪明钱”如何思考、决策?(资产达1.35万亿美元普信集团的投资之道)
[加拿大]塞巴斯蒂安·佩奇(Sébastien Page)
特征工程的艺术:通用技巧与实用案例
波可和她的鼓
[加拿大]马修·福赛斯 著绘
特征工程的艺术:通用技巧与实用案例
岩石边坡工程
[加拿大]邓肯·C.怀利(Duncan C.Wyllie)著 郭麒麟 向能武 孙云志 卢树盛 译
特征工程的艺术:通用技巧与实用案例
智慧宫丛书026·增长:从细菌到帝国
[加拿大]瓦茨拉夫·斯米尔 后浪
特征工程的艺术:通用技巧与实用案例
卖掉法拉利的高僧
[加拿大]罗宾·夏玛Robin Sharma 著;颉腾文化 出品
特征工程的艺术:通用技巧与实用案例
儿童版世界简史
[加拿大]伊丽莎白·麦克劳德 (加)弗里达·维新斯基 编著
特征工程的艺术:通用技巧与实用案例
子弹头列车(加拿大华裔作家邓敏灵作品,移民子女追溯原生家庭创痛之短篇小说集,获诺贝尔文学奖得主艾丽丝·门罗盛赞)
[加拿大]邓敏灵
特征工程的艺术:通用技巧与实用案例
控制之道:过程控制的理论与实践 [加拿大] 周风晞
[加拿大] 周风晞