TensorFlow语音识别实战

TensorFlow语音识别实战
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2021-08
版次: 1
ISBN: 9787302584858
定价: 69.00
装帧: 其他
开本: 16开
纸张: 胶版纸
字数: 429.000千字
40人买过
  • 本书使用新的TensorFlow 2作为语音识别的基本框架,引导读者入门并掌握基于深度学习的语音识别基本理论、概念以及实现实际项目。全书内容循序渐进,从搭建环境开始,逐步深入理论、代码及应用实践,是语音识别技术图书的**。 本书分为10章,内容包括语音识别概况与开发环境搭建、TensorFlow和Keras、深度学习的理论基础、卷积层与MNIST实战、TensorFlow Datasets和TensorBoard详解、ResNet模型、使用循环神经网络的语音识别实战、有趣的词嵌入实战、语音识别中的转换器实战、语音汉字转换实战。 本书内容详尽、示例丰富,适合作为语音识别和深度学习初学者的参考书,同时非常适合作为高等院校和培训机构人工智能及相关专业师生的参考教材。 王晓华,计算机专业讲师,长期讲授面向对象程序设计、数据结构、Hadoop程序设计等研究生和本科生相关课程;主要研究方向为云计算、数据挖掘。曾主持和参与多项国家和省级科研课题,独立科研项目获省级成果认定,发表过多篇论文,拥有一项国家专利。著有《Spark MLlib机器学习实践》《TensorFlow深度学习应用实践》《OpenCV TensorFlow深度学习与计算机视觉实战》《TensorFlow 2.0卷积神经网络实战》《TensorFlow Keras自然语言处理实战》等图书。 第1章  语音识别之路 1

    1.1  何谓语音识别 1

    1.2  语音识别为什么难——语音识别的发展历程 2

    1.2.1  高斯混合-隐马尔科夫时代 3

    1.2.2  循环神经网络-隐马尔科夫时代 4

    1.2.3  基于深度学习的端到端语音识别时代 5

    1.3  语音识别商业化之路的三个关键节点 5

    1.4  语音识别的核心技术与行业发展趋势 7

    1.5  搭建环境1:安装Python 8

    1.5.1  Anaconda的下载与安装 8

    1.5.2  Python编译器PyCharm的安装 11

    1.5.3  使用Python计算softmax函数 14

    1.6  搭建环境2:安装TensorFlow 2.1 15

    1.6.1  安装TensorFlow 2.1的CPU版本 15

    1.6.2  安装TensorFlow 2.1的GPU版本 15

    1.6.3  练习——Hello TensorFlow 18

    1.7  实战——基于特征词的语音唤醒 19

    1.7.1  步:数据的准备 19

    1.7.2  第二步:数据的处理 20

    1.7.3  第三步:模型的设计 21

    1.7.4  第四步:模型的数据输入方法 22

    1.7.5  第五步:模型的训练 24

    1.7.6  第六步:模型的结果和展示 25

    1.8  本章小结 25

    第2章  TensorFlow和Keras 26

    2.1  TensorFlow和Keras 26

    2.1.1  模型 27

    2.1.2  使用Keras API实现鸢尾花分类(顺序模式) 27

    2.1.3  使用Keras函数式编程实现鸢尾花分类(重点) 30

    2.1.4  使用保存的Keras模式对模型进行复用 33

    2.1.5  使用TensorFlow标准化编译对iris模型进行拟合 34

    2.1.6  多输入单一输出TensorFlow 编译方法(选学) 38

    2.1.7  多输入多输出TensorFlow 编译方法(选学) 41

    2.2  全连接层详解 43

    2.2.1  全连接层的定义与实现 43

    2.2.2  使用TensorFlow自带的API实现全连接层 44

    2.2.3  打印显示已设计的Model结构和参数 48

    2.3  懒人的福音——Keras模型库 49

    2.3.1  ResNet50模型和参数的载入 50

    2.3.2  使用ResNet50作为特征提取层建立模型 52

    2.4  本章小结 54

    第3章  深度学习的理论基础 55

    3.1  BP神经网络简介 55

    3.2  BP神经网络两个基础算法详解 59

    3.2.1  小二乘法详解 59

    3.2.2  道士下山的故事:梯度下降算法 61

    3.3  反馈神经网络反向传播算法 63

    3.3.1  深度学习基础 64

    3.3.2  链式求导法则 65

    3.3.3  反馈神经网络原理与公式推导 66

    3.3.4  反馈神经网络的激活函数 71

    3.3.5  反馈神经网络的Python实现 72

    3.4  本章小结 76

    第4章  卷积层与MNIST实战 77

    4.1  卷积运算的基本概念 77

    4.1.1  卷积运算 78

    4.1.2  TensorFlow中卷积函数实现详解 79

    4.1.3  池化运算 82

    4.1.4  softmax激活函数 83

    4.1.5  卷积神经网络原理 84

    4.2  编程实战:MNIST手写体识别 86

    4.2.1  MNIST数据集 86

    4.2.2  MNIST数据集特征和标签介绍 88

    4.2.3  TensorFlow 2.X编程实战:MNIST数据集 90

    4.2.4  使用自定义的卷积层实现MNIST识别 95

    4.3  本章小结 98

    第5章  TensorFlow Datasets和TensorBoard详解 99

    5.1  TensorFlow Datasets简介 99

    5.1.1  Datasets数据集的安装 101

    5.1.2  Datasets数据集的使用 101

    5.2  Datasets数据集的使用——FashionMNIST 103

    5.2.1  FashionMNIST数据集下载与展示 104

    5.2.2  模型的建立与训练 106

    5.3  使用Keras对FashionMNIST数据集进行处理 108

    5.3.1  获取数据集 108

    5.3.2  数据集的调整 109

    5.3.3  使用Python类函数建立模型 109

    5.3.4  Model的查看和参数打印 111

    5.3.5  模型的训练和评估 112

    5.4  使用TensorBoard可视化训练过程 114

    5.4.1  TensorBoard文件夹的设置 115

    5.4.2  TensorBoard的显式调用 115

    5.4.3  TensorBoard的使用 118

    5.5  本章小结 121

    第6章  从冠军开始:ResNet 122

    6.1  ResNet基础原理与程序设计基础 123

    6.1.1  ResNet诞生的背景 123

    6.1.2  模块工具的TensorFlow实现——不要重复造轮子 126

    6.1.3  TensorFlow高级模块layers用法简介 126

    6.2  ResNet实战:CIFAR-100数据集分类 134

    6.2.1  CIFAR-100数据集简介 134

    6.2.2  ResNet残差模块的实现 136

    6.2.3  ResNet网络的实现 139

    6.2.4  使用ResNet对CIFAR-100数据集进行分类 142

    6.3  ResNet的兄弟——ResNeXt 143

    6.3.1  ResNeXt诞生的背景 143

    6.3.2  ResNeXt残差模块的实现 145

    6.3.3  ResNeXt网络的实现 146

    6.3.4  ResNeXt和ResNet的比较 148

    6.4  本章小结 149

    第7章  使用循环神经网络的语音识别实战 150

    7.1  使用循环神经网络的语音识别 150

    7.2  长短期记忆网络 151

    7.2.1  Hochreiter、Schmidhuber和LSTM 152

    7.2.2  循环神经网络与长短时间序列 153

    7.2.3  LSTM的处理单元详解 154

    7.2.4  LSTM的研究发展 157

    7.2.5  LSTM的应用前景 158

    7.3  GRU层详解 159

    7.3.1  TensorFlow中的GRU层详解 160

    7.3.2  单向不行,那就双向 160

    7.4  站在巨人肩膀上的语音识别 161

    7.4.1  使用TensorFlow自带的模型进行文本分类 162

    7.4.2  用VGGNET替换ResNet是否可行 164

    7.5  本章小结 165

    第8章  梅西-阿根廷 意大利=?:有趣的词嵌入实战 166

    8.1  文本数据处理 167

    8.1.1  数据集介绍和数据清洗 167

    8.1.2  停用词的使用 169

    8.1.3  词向量训练模型Word2Vec使用介绍 172

    8.1.4  文本主题的提取:基于TF-IDF(选学) 175

    8.1.5  文本主题的提取:基于TextRank(选学) 179

    8.2  更多的Word Embedding方法——fastText和预训练词向量 181

    8.2.1  fastText的原理与基础算法 182

    8.2.2  fastText训练以及与TensorFlow 2.X的协同使用 183

    8.2.3  使用其他预训练参数做TensorFlow词嵌入矩阵(中文) 189

    8.3  针对文本的卷积神经网络模型:字符卷积 191

    8.3.1  字符(非单词)文本的处理 191

    8.3.2  卷积神经网络文本分类模型的实现:conv1d(一维卷积) 199

    8.4  针对文本的卷积神经网络模型:词卷积 200

    8.4.1  单词的文本处理 201

    8.4.2  卷积神经网络文本分类模型的实现:conv2d(二维卷积) 203

    8.5  使用卷积对文本分类的补充内容 206

    8.5.1  汉字的文本处理 207

    8.5.2  其他的一些细节 209

    8.6  本章小结 210

    第9章  从拼音到汉字——语音识别中的转换器 211

    9.1  编码器的核心:注意力模型 212

    9.1.1  输入层——初始词向量层和位置编码器层 212

    9.1.2  自注意力层(重点) 214

    9.1.3  ticks和LayerNormalization 218

    9.1.4  多头自注意力 219

    9.2  构建编码器架构 222

    9.2.1  前馈层的实现 223

    9.2.2  编码器的实现 224

    9.3  实战编码器——汉字拼音转化模型 228

    9.3.1  汉字拼音数据集处理 228

    9.3.2  汉字拼音转化模型的确定 230

    9.3.3  模型训练部分的编写 234

    9.3.4  推断函数的编写 235

    9.4  本章小结 237

    第10章  实战——基于MFCC和CTC的语音汉字转换 238

    10.1  语音识别的理论基础1——MFCC 238

    10.2  语音识别的理论基础2——CTC 245

    10.3  实战——语音汉字转换 247

    10.3.1  数据集THCHS-30简介 247

    10.3.2  数据集的提取与转化 248

    10.4  本章小结 256
  • 内容简介:
    本书使用新的TensorFlow 2作为语音识别的基本框架,引导读者入门并掌握基于深度学习的语音识别基本理论、概念以及实现实际项目。全书内容循序渐进,从搭建环境开始,逐步深入理论、代码及应用实践,是语音识别技术图书的**。 本书分为10章,内容包括语音识别概况与开发环境搭建、TensorFlow和Keras、深度学习的理论基础、卷积层与MNIST实战、TensorFlow Datasets和TensorBoard详解、ResNet模型、使用循环神经网络的语音识别实战、有趣的词嵌入实战、语音识别中的转换器实战、语音汉字转换实战。 本书内容详尽、示例丰富,适合作为语音识别和深度学习初学者的参考书,同时非常适合作为高等院校和培训机构人工智能及相关专业师生的参考教材。
  • 作者简介:
    王晓华,计算机专业讲师,长期讲授面向对象程序设计、数据结构、Hadoop程序设计等研究生和本科生相关课程;主要研究方向为云计算、数据挖掘。曾主持和参与多项国家和省级科研课题,独立科研项目获省级成果认定,发表过多篇论文,拥有一项国家专利。著有《Spark MLlib机器学习实践》《TensorFlow深度学习应用实践》《OpenCV TensorFlow深度学习与计算机视觉实战》《TensorFlow 2.0卷积神经网络实战》《TensorFlow Keras自然语言处理实战》等图书。
  • 目录:
    第1章  语音识别之路 1

    1.1  何谓语音识别 1

    1.2  语音识别为什么难——语音识别的发展历程 2

    1.2.1  高斯混合-隐马尔科夫时代 3

    1.2.2  循环神经网络-隐马尔科夫时代 4

    1.2.3  基于深度学习的端到端语音识别时代 5

    1.3  语音识别商业化之路的三个关键节点 5

    1.4  语音识别的核心技术与行业发展趋势 7

    1.5  搭建环境1:安装Python 8

    1.5.1  Anaconda的下载与安装 8

    1.5.2  Python编译器PyCharm的安装 11

    1.5.3  使用Python计算softmax函数 14

    1.6  搭建环境2:安装TensorFlow 2.1 15

    1.6.1  安装TensorFlow 2.1的CPU版本 15

    1.6.2  安装TensorFlow 2.1的GPU版本 15

    1.6.3  练习——Hello TensorFlow 18

    1.7  实战——基于特征词的语音唤醒 19

    1.7.1  步:数据的准备 19

    1.7.2  第二步:数据的处理 20

    1.7.3  第三步:模型的设计 21

    1.7.4  第四步:模型的数据输入方法 22

    1.7.5  第五步:模型的训练 24

    1.7.6  第六步:模型的结果和展示 25

    1.8  本章小结 25

    第2章  TensorFlow和Keras 26

    2.1  TensorFlow和Keras 26

    2.1.1  模型 27

    2.1.2  使用Keras API实现鸢尾花分类(顺序模式) 27

    2.1.3  使用Keras函数式编程实现鸢尾花分类(重点) 30

    2.1.4  使用保存的Keras模式对模型进行复用 33

    2.1.5  使用TensorFlow标准化编译对iris模型进行拟合 34

    2.1.6  多输入单一输出TensorFlow 编译方法(选学) 38

    2.1.7  多输入多输出TensorFlow 编译方法(选学) 41

    2.2  全连接层详解 43

    2.2.1  全连接层的定义与实现 43

    2.2.2  使用TensorFlow自带的API实现全连接层 44

    2.2.3  打印显示已设计的Model结构和参数 48

    2.3  懒人的福音——Keras模型库 49

    2.3.1  ResNet50模型和参数的载入 50

    2.3.2  使用ResNet50作为特征提取层建立模型 52

    2.4  本章小结 54

    第3章  深度学习的理论基础 55

    3.1  BP神经网络简介 55

    3.2  BP神经网络两个基础算法详解 59

    3.2.1  小二乘法详解 59

    3.2.2  道士下山的故事:梯度下降算法 61

    3.3  反馈神经网络反向传播算法 63

    3.3.1  深度学习基础 64

    3.3.2  链式求导法则 65

    3.3.3  反馈神经网络原理与公式推导 66

    3.3.4  反馈神经网络的激活函数 71

    3.3.5  反馈神经网络的Python实现 72

    3.4  本章小结 76

    第4章  卷积层与MNIST实战 77

    4.1  卷积运算的基本概念 77

    4.1.1  卷积运算 78

    4.1.2  TensorFlow中卷积函数实现详解 79

    4.1.3  池化运算 82

    4.1.4  softmax激活函数 83

    4.1.5  卷积神经网络原理 84

    4.2  编程实战:MNIST手写体识别 86

    4.2.1  MNIST数据集 86

    4.2.2  MNIST数据集特征和标签介绍 88

    4.2.3  TensorFlow 2.X编程实战:MNIST数据集 90

    4.2.4  使用自定义的卷积层实现MNIST识别 95

    4.3  本章小结 98

    第5章  TensorFlow Datasets和TensorBoard详解 99

    5.1  TensorFlow Datasets简介 99

    5.1.1  Datasets数据集的安装 101

    5.1.2  Datasets数据集的使用 101

    5.2  Datasets数据集的使用——FashionMNIST 103

    5.2.1  FashionMNIST数据集下载与展示 104

    5.2.2  模型的建立与训练 106

    5.3  使用Keras对FashionMNIST数据集进行处理 108

    5.3.1  获取数据集 108

    5.3.2  数据集的调整 109

    5.3.3  使用Python类函数建立模型 109

    5.3.4  Model的查看和参数打印 111

    5.3.5  模型的训练和评估 112

    5.4  使用TensorBoard可视化训练过程 114

    5.4.1  TensorBoard文件夹的设置 115

    5.4.2  TensorBoard的显式调用 115

    5.4.3  TensorBoard的使用 118

    5.5  本章小结 121

    第6章  从冠军开始:ResNet 122

    6.1  ResNet基础原理与程序设计基础 123

    6.1.1  ResNet诞生的背景 123

    6.1.2  模块工具的TensorFlow实现——不要重复造轮子 126

    6.1.3  TensorFlow高级模块layers用法简介 126

    6.2  ResNet实战:CIFAR-100数据集分类 134

    6.2.1  CIFAR-100数据集简介 134

    6.2.2  ResNet残差模块的实现 136

    6.2.3  ResNet网络的实现 139

    6.2.4  使用ResNet对CIFAR-100数据集进行分类 142

    6.3  ResNet的兄弟——ResNeXt 143

    6.3.1  ResNeXt诞生的背景 143

    6.3.2  ResNeXt残差模块的实现 145

    6.3.3  ResNeXt网络的实现 146

    6.3.4  ResNeXt和ResNet的比较 148

    6.4  本章小结 149

    第7章  使用循环神经网络的语音识别实战 150

    7.1  使用循环神经网络的语音识别 150

    7.2  长短期记忆网络 151

    7.2.1  Hochreiter、Schmidhuber和LSTM 152

    7.2.2  循环神经网络与长短时间序列 153

    7.2.3  LSTM的处理单元详解 154

    7.2.4  LSTM的研究发展 157

    7.2.5  LSTM的应用前景 158

    7.3  GRU层详解 159

    7.3.1  TensorFlow中的GRU层详解 160

    7.3.2  单向不行,那就双向 160

    7.4  站在巨人肩膀上的语音识别 161

    7.4.1  使用TensorFlow自带的模型进行文本分类 162

    7.4.2  用VGGNET替换ResNet是否可行 164

    7.5  本章小结 165

    第8章  梅西-阿根廷 意大利=?:有趣的词嵌入实战 166

    8.1  文本数据处理 167

    8.1.1  数据集介绍和数据清洗 167

    8.1.2  停用词的使用 169

    8.1.3  词向量训练模型Word2Vec使用介绍 172

    8.1.4  文本主题的提取:基于TF-IDF(选学) 175

    8.1.5  文本主题的提取:基于TextRank(选学) 179

    8.2  更多的Word Embedding方法——fastText和预训练词向量 181

    8.2.1  fastText的原理与基础算法 182

    8.2.2  fastText训练以及与TensorFlow 2.X的协同使用 183

    8.2.3  使用其他预训练参数做TensorFlow词嵌入矩阵(中文) 189

    8.3  针对文本的卷积神经网络模型:字符卷积 191

    8.3.1  字符(非单词)文本的处理 191

    8.3.2  卷积神经网络文本分类模型的实现:conv1d(一维卷积) 199

    8.4  针对文本的卷积神经网络模型:词卷积 200

    8.4.1  单词的文本处理 201

    8.4.2  卷积神经网络文本分类模型的实现:conv2d(二维卷积) 203

    8.5  使用卷积对文本分类的补充内容 206

    8.5.1  汉字的文本处理 207

    8.5.2  其他的一些细节 209

    8.6  本章小结 210

    第9章  从拼音到汉字——语音识别中的转换器 211

    9.1  编码器的核心:注意力模型 212

    9.1.1  输入层——初始词向量层和位置编码器层 212

    9.1.2  自注意力层(重点) 214

    9.1.3  ticks和LayerNormalization 218

    9.1.4  多头自注意力 219

    9.2  构建编码器架构 222

    9.2.1  前馈层的实现 223

    9.2.2  编码器的实现 224

    9.3  实战编码器——汉字拼音转化模型 228

    9.3.1  汉字拼音数据集处理 228

    9.3.2  汉字拼音转化模型的确定 230

    9.3.3  模型训练部分的编写 234

    9.3.4  推断函数的编写 235

    9.4  本章小结 237

    第10章  实战——基于MFCC和CTC的语音汉字转换 238

    10.1  语音识别的理论基础1——MFCC 238

    10.2  语音识别的理论基础2——CTC 245

    10.3  实战——语音汉字转换 247

    10.3.1  数据集THCHS-30简介 247

    10.3.2  数据集的提取与转化 248

    10.4  本章小结 256
查看详情
12
相关图书 / 更多
TensorFlow语音识别实战
TensorFlow机器学习实用指南
Alexia;Audevart
TensorFlow语音识别实战
TensorFlow 2.x高级计算机视觉
[美]克里斯南杜·卡尔 著;周玉兰 译
TensorFlow语音识别实战
TensorFlow全栈开发工程实践——做一个全智全能算法工程师
王艳铭
TensorFlow语音识别实战
TensorFlow+Android经典模型从理论到实战(微课视频版)
董相志;曲海平;董飞桐
TensorFlow语音识别实战
TensorFlow 2机器学习实战:聚焦经济金融科研与产业的深度学习模型
[瑞典]以赛亚·赫尔(Isaiah Hull)著 朱文强 译
TensorFlow语音识别实战
Technical and Vocational Education in China
Wu Xueping Ye Yiqun
TensorFlow语音识别实战
TensorFlow工程化项目实战活页式教程
李占仓
TensorFlow语音识别实战
TensorFlow.NET 实战
仇华
TensorFlow语音识别实战
TensorFlow与神经网络——图解深度学习的框架搭建、算法机制和场景应用
李昂
TensorFlow语音识别实战
Teichmüller 理论与 Grothendieck-Teichmüller 理论
Lizhen Ji;Athanase
TensorFlow语音识别实战
TensorFlow AI移动项目开发实战
[美]杰夫·唐(Jeff Tang)
TensorFlow语音识别实战
TensorFlow深度学习实例教程
平震宇 匡亮