特征工程入门与实践

特征工程入门与实践
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [土耳其] (Sinan Ozdemir) ,
2019-06
版次: 1
ISBN: 9787115511645
定价: 59.00
装帧: 其他
开本: 16开
纸张: 胶版纸
页数: 210页
69人买过
  • 本书将带你了解特征工程的完整过程,使机器学习更加系统、高效。你会从理解数据开始学习,机器学习模型的成功正是取决于如何利用不同类型的特征,例如连续特征、分类特征等。你将了解何时纳入一项特征、何时忽略一项特征,以及其中的原因。你还会学习如何将问题陈述转换为有用的新特征,如何提供由商业需求和数学见解驱动的特征,以及如何在自己的机器上进行机器学习,从而自动学习数据中的特征。 锡南·厄兹代米尔(Sinan Ozdemir)

    数据科学家、数学家、约翰·霍普金斯大学讲师,Kylie.ai公司联合创始人、CTO,在应用数据挖掘、功能分析和算法开发做出基于数据和知识的决策方面拥有丰富的经验。

    迪夫娅·苏萨拉(Divya Susarla)

    在利用数据方面经验丰富,在包括投资管理、社会企业咨询和红9营销的各个产业和领域里实现并应用过相应的策略。Kylie.ai公司产品经理,目前专注于自然语言处理和生成技术。 第 1章 特征工程简介  1

    1.1 激动人心的例子:AI驱动的聊天 1

    1.2 特征工程的重要性 2

    1.3 特征工程是什么 5

    1.4 机器学习算法和特征工程的评估 9

    1.4.1 特征工程的例子:真的有人能预测天气吗 10

    1.4.2 特征工程的评估步骤 10

    1.4.3 评估监督学习算法 11

    1.4.4 评估无监督学习算法 11

    1.5 特征理解:我的数据集里有什么 12

    1.6 特征增强:清洗数据 13

    1.7 特征选择:对坏属性说不 14

    1.8 特征构建:能生成新特征吗 14

    1.9 特征转换:数学显神通 15

    1.10 特征学习:以AI促AI 16

    1.11 小结 17

    第 2章 特征理解:我的数据集里有什么 19

    2.1 数据结构的有无 19

    2.2 定量数据和定性数据 20

    2.3 数据的4个等级 25

    2.3.1 定类等级 26

    2.3.2 定序等级 27

    2.3.3 定距等级 30

    2.3.4 定比等级 36

    2.4 数据等级总结 38

    2.5 小结 40

    第3章 特征增强:清洗数据 41

    3.1 识别数据中的缺失值 41

    3.1.1 皮马印第安人糖尿病预测数据集 42

    3.1.2 探索性数据分析 42

    3.2 处理数据集中的缺失值 48

    3.2.1 删除有害的行 50

    3.2.2 填充缺失值 54

    3.2.3 在机器学习流水线中填充值 57

    3.3 标准化和归一化 61

    3.3.1 z分数标准化 63

    3.3.2 min-max标准化 67

    3.3.3 行归一化 68

    3.3.4 整合起来 69

    3.4 小结 70

    第4章 特征构建:我能生成新特征吗 71

    4.2 填充分类特征 72

    4.2.1 自定义填充器 74

    4.2.2 自定义分类填充器 74

    4.2.3 自定义定量填充器 76

    4.3 编码分类变量 77

    4.3.1 定类等级的编码 77

    4.3.2 定序等级的编码 79

    4.3.3 将连续特征分箱 80

    4.3.4 创建流水线 82

    4.4 扩展数值特征 83

    4.4.1 根据胸部加速度计识别动作的数据集 83

    4.4.2 多项式特征 86

    4.5 针对文本的特征构建 89

    4.5.1 词袋法 89

    4.5.2 CountVectorizer 90

    4.5.3 TF-IDF向量化器 94

    4.5.4 在机器学习流水线中使用文本 95

    4.6 小结 97

    第5章 特征选择:对坏属性说不 98

    5.1 在特征工程中实现更好的性能 99

    5.2 创建基准机器学习流水线 103

    5.3 特征选择的类型 106

    5.3.1 基于统计的特征选择 106

    5.3.2 基于模型的特征选择 117

    5.4 选用正确的特征选择方法 125

    5.5 小结 125

    第6章 特征转换:数学显神通 127

    6.1 维度缩减:特征转换、特征选择与特征构建 129

    6.2 主成分分析 130

    6.2.1 PCA的工作原理 131

    6.2.2 鸢尾花数据集的PCA——手动处理 131

    6.2.3 scikit-learn的PCA 137

    6.2.4 中心化和缩放对PCA的影响 144

    6.3 线性判别分析 148

    6.3.1 LDA的工作原理 149

    6.3.2 在scikit-learn中使用LDA 152

    6.4 LDA与PCA:使用鸢尾花数据集 157

    6.5 小结 160

    第7章 特征学习:以AI促AI 161

    7.1 数据的参数假设 161

    7.1.1 非参数谬误 163

    7.1.2 本章的算法 163

    7.2 受限玻尔兹曼机 163

    7.2.1 不一定降维 164

    7.2.2 受限玻尔兹曼机的图 164

    7.2.3 玻尔兹曼机的限制 166

    7.2.4 数据重建 166

    7.2.5 MNIST数据集 167

    7.3 伯努利受限玻尔兹曼机 169

    7.3.1 从MNIST中提取PCA主成分 170

    7.3.2 从MNIST中提取RBM特征 177

    7.4.1 对原始像素值应用线性模型 178

    7.4.3 对提取的RBM特征应用线性模型 179

    7.5 学习文本特征:词向量 180

    7.5.1 词嵌入 180

    7.5.2 两种词嵌入方法:Word2vec和GloVe 182

    7.5.3 Word2vec:另一个浅层神经网络 182

    7.5.4 创建Word2vec词嵌入的gensim包 183

    7.5.5 词嵌入的应用:信息检索 186

    7.6 小结 190

    第8章 案例分析 191

    8.1 案例1:面部识别 191

    8.1.1 面部识别的应用 191

    8.1.2 数据 192

    8.1.3 数据探索 193

    8.1.4 应用面部识别 195

    8.2 案例2:预测酒店评论数据的主题 200

    8.2.1 文本聚类的应用 200

    8.2.2 酒店评论数据 200

    8.2.3 数据探索 201

    8.2.4 聚类模型 203

    8.2.5 SVD与PCA主成分 204

    8.2.6 潜在语义分析 206

    8.3 小结 210
  • 内容简介:
    本书将带你了解特征工程的完整过程,使机器学习更加系统、高效。你会从理解数据开始学习,机器学习模型的成功正是取决于如何利用不同类型的特征,例如连续特征、分类特征等。你将了解何时纳入一项特征、何时忽略一项特征,以及其中的原因。你还会学习如何将问题陈述转换为有用的新特征,如何提供由商业需求和数学见解驱动的特征,以及如何在自己的机器上进行机器学习,从而自动学习数据中的特征。
  • 作者简介:
    锡南·厄兹代米尔(Sinan Ozdemir)

    数据科学家、数学家、约翰·霍普金斯大学讲师,Kylie.ai公司联合创始人、CTO,在应用数据挖掘、功能分析和算法开发做出基于数据和知识的决策方面拥有丰富的经验。

    迪夫娅·苏萨拉(Divya Susarla)

    在利用数据方面经验丰富,在包括投资管理、社会企业咨询和红9营销的各个产业和领域里实现并应用过相应的策略。Kylie.ai公司产品经理,目前专注于自然语言处理和生成技术。
  • 目录:
    第 1章 特征工程简介  1

    1.1 激动人心的例子:AI驱动的聊天 1

    1.2 特征工程的重要性 2

    1.3 特征工程是什么 5

    1.4 机器学习算法和特征工程的评估 9

    1.4.1 特征工程的例子:真的有人能预测天气吗 10

    1.4.2 特征工程的评估步骤 10

    1.4.3 评估监督学习算法 11

    1.4.4 评估无监督学习算法 11

    1.5 特征理解:我的数据集里有什么 12

    1.6 特征增强:清洗数据 13

    1.7 特征选择:对坏属性说不 14

    1.8 特征构建:能生成新特征吗 14

    1.9 特征转换:数学显神通 15

    1.10 特征学习:以AI促AI 16

    1.11 小结 17

    第 2章 特征理解:我的数据集里有什么 19

    2.1 数据结构的有无 19

    2.2 定量数据和定性数据 20

    2.3 数据的4个等级 25

    2.3.1 定类等级 26

    2.3.2 定序等级 27

    2.3.3 定距等级 30

    2.3.4 定比等级 36

    2.4 数据等级总结 38

    2.5 小结 40

    第3章 特征增强:清洗数据 41

    3.1 识别数据中的缺失值 41

    3.1.1 皮马印第安人糖尿病预测数据集 42

    3.1.2 探索性数据分析 42

    3.2 处理数据集中的缺失值 48

    3.2.1 删除有害的行 50

    3.2.2 填充缺失值 54

    3.2.3 在机器学习流水线中填充值 57

    3.3 标准化和归一化 61

    3.3.1 z分数标准化 63

    3.3.2 min-max标准化 67

    3.3.3 行归一化 68

    3.3.4 整合起来 69

    3.4 小结 70

    第4章 特征构建:我能生成新特征吗 71

    4.2 填充分类特征 72

    4.2.1 自定义填充器 74

    4.2.2 自定义分类填充器 74

    4.2.3 自定义定量填充器 76

    4.3 编码分类变量 77

    4.3.1 定类等级的编码 77

    4.3.2 定序等级的编码 79

    4.3.3 将连续特征分箱 80

    4.3.4 创建流水线 82

    4.4 扩展数值特征 83

    4.4.1 根据胸部加速度计识别动作的数据集 83

    4.4.2 多项式特征 86

    4.5 针对文本的特征构建 89

    4.5.1 词袋法 89

    4.5.2 CountVectorizer 90

    4.5.3 TF-IDF向量化器 94

    4.5.4 在机器学习流水线中使用文本 95

    4.6 小结 97

    第5章 特征选择:对坏属性说不 98

    5.1 在特征工程中实现更好的性能 99

    5.2 创建基准机器学习流水线 103

    5.3 特征选择的类型 106

    5.3.1 基于统计的特征选择 106

    5.3.2 基于模型的特征选择 117

    5.4 选用正确的特征选择方法 125

    5.5 小结 125

    第6章 特征转换:数学显神通 127

    6.1 维度缩减:特征转换、特征选择与特征构建 129

    6.2 主成分分析 130

    6.2.1 PCA的工作原理 131

    6.2.2 鸢尾花数据集的PCA——手动处理 131

    6.2.3 scikit-learn的PCA 137

    6.2.4 中心化和缩放对PCA的影响 144

    6.3 线性判别分析 148

    6.3.1 LDA的工作原理 149

    6.3.2 在scikit-learn中使用LDA 152

    6.4 LDA与PCA:使用鸢尾花数据集 157

    6.5 小结 160

    第7章 特征学习:以AI促AI 161

    7.1 数据的参数假设 161

    7.1.1 非参数谬误 163

    7.1.2 本章的算法 163

    7.2 受限玻尔兹曼机 163

    7.2.1 不一定降维 164

    7.2.2 受限玻尔兹曼机的图 164

    7.2.3 玻尔兹曼机的限制 166

    7.2.4 数据重建 166

    7.2.5 MNIST数据集 167

    7.3 伯努利受限玻尔兹曼机 169

    7.3.1 从MNIST中提取PCA主成分 170

    7.3.2 从MNIST中提取RBM特征 177

    7.4.1 对原始像素值应用线性模型 178

    7.4.3 对提取的RBM特征应用线性模型 179

    7.5 学习文本特征:词向量 180

    7.5.1 词嵌入 180

    7.5.2 两种词嵌入方法:Word2vec和GloVe 182

    7.5.3 Word2vec:另一个浅层神经网络 182

    7.5.4 创建Word2vec词嵌入的gensim包 183

    7.5.5 词嵌入的应用:信息检索 186

    7.6 小结 190

    第8章 案例分析 191

    8.1 案例1:面部识别 191

    8.1.1 面部识别的应用 191

    8.1.2 数据 192

    8.1.3 数据探索 193

    8.1.4 应用面部识别 195

    8.2 案例2:预测酒店评论数据的主题 200

    8.2.1 文本聚类的应用 200

    8.2.2 酒店评论数据 200

    8.2.3 数据探索 201

    8.2.4 聚类模型 203

    8.2.5 SVD与PCA主成分 204

    8.2.6 潜在语义分析 206

    8.3 小结 210
查看详情
相关图书 / 更多
特征工程入门与实践
特征土体实验研究:以南阳市膨胀土、砂性土为例
季宪军 著
特征工程入门与实践
特征驱动的关键基础设施建设风险研究
索玮岚;张劲
特征工程入门与实践
特征值问题的下谱界与多网格离散
张宇
特征工程入门与实践
特征模法及其在天线设计中的应用
褚庆昕;李慧;林江锋
特征工程入门与实践
特征论(全六册)
马学思 编
特征工程入门与实践
特征驱动开发方法:原理与实践 (平装)
帕尔默
特征工程入门与实践
特征工程的艺术:通用技巧与实用案例
[加拿大]巴勃罗·迪布(Pablo Duboue)
特征工程入门与实践
特征建模理论、方法和应用
吴宏鑫、胡军 著
特征工程入门与实践
特征值问题有限元方法
杨一都 著
特征工程入门与实践
特征:无
威廉·麦瑟尔
特征工程入门与实践
特征值,不等式和遍历理论(英文版)
陈木法 著
特征工程入门与实践
特征有限元法及其在土壤水分运动数值模拟中的应用
张耀峰 著
您可能感兴趣 / 更多
特征工程入门与实践
《看不见的窗》(2024年百班千人寒假书单 二年级推荐阅读)
[土耳其]圭克尼尔·厄兹阙克
特征工程入门与实践
黑书(诺奖得主帕慕克极致野心之作,小说版《伊斯坦布尔》)
[土耳其]奥尔罕·帕慕克
特征工程入门与实践
我能听到你的歌声 3-7岁 大胆地去做自己吧,总有人能够理解你,也愿意理解你
[土耳其]格克切·格克塞尔 著;[土耳其]乌谷尔·阿尔顿 绘
特征工程入门与实践
程序员的制胜技
[土耳其]塞达特·卡帕诺格鲁(Sedat Kapanoglu)
特征工程入门与实践
别怕,小霸鱼!3-7岁 一本能够让孩子认识到什么是霸凌,同时学会对霸凌说“不”的绘本
[土耳其]布什拉·塔尔察尔·埃罗尔 著;[土耳其]乌谷尔·阿尔顿 绘
特征工程入门与实践
神奇的“你好!”
[土耳其]尼汗·特米兹 著;张弘 译;[土耳其]布尔库·耶尔马兹 绘
特征工程入门与实践
新民说·经济学好实用:如果没有被误读的话(《经济学人》2015年度好书,《金融时报》推荐读物!原《经济学规则》)
[土耳其]丹尼·罗德里克(Dani Rodrik)
特征工程入门与实践
象博士的科普日记
[土耳其]法提赫·迪克曼(Fatih Dikmen)
特征工程入门与实践
离世猫的花园 卡拉素 文学童话寓言外国小说
[土耳其]比尔盖·卡拉素
特征工程入门与实践
“感知力”系列绘本(全3册)
[土耳其]古尔莎·也门 江亦纯
特征工程入门与实践
向上一步 : 硅谷创投女王的精神和物质双独立法则
[土耳其]玛格达琳娜·耶希尔 后浪
特征工程入门与实践
猜一猜,数一数
[土耳其]穆拉·塞勒普