语音识别基本法:Kaldi实践与探索

语音识别基本法:Kaldi实践与探索
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2021-02
版次: 1
ISBN: 9787121404788
定价: 89.00
装帧: 其他
开本: 其他
纸张: 胶版纸
页数: 256页
  • 语音是新一代人机交互的方式,语音识别是实现这一方式的关键环节,也是实现人工智能的基本步骤之一。
      本书结合当下使用广泛的Kaldi工具,对语音识别的基本概念和流程进行了详细的讲解,包括GMM-HMM、DNN-HMM、端到端等常用结构,并探讨了语音识别在实际应用中的问题,包括说话人自适应、噪声对抗与环境鲁棒性、小语种语音识别、关键词识别与嵌入式应用等方面,也对语音技术的相关前沿课题进行了介绍,包括说话人识别、语种识别、情绪识别、语音合成等方向。
      本书的写作以让读者快速、直观地理解概念为目标,只展示*基本的数学公式,同时本书注重理解与实践相结合,在对语音技术各个概念的讲解中都展示了相应的Kaldi语音处理命令,以便让读者进一步融会贯通。
      本书适用于语音识别及相关技术的初学者、在校学生,以及基于Kaldi进行产品研发的同仁,也可以作为语音从业者的参考书目。 汤志远,中国科学院大学与清华大学联合培养博士,清华博士后。专注于语音技术,研究领域涉及语音识别、声纹识别、语种识别、口语测评等,在国际重要期刊或会议上累计发表论文数十篇。个人主页:http://tangzy.cslt.org。

     

    李蓝天,清华大学博士、博士后,专注于机器学习在语音信号处理中的方法研究,研究领域涉及说话人识别、语音识别、音频事件检测、语种识别、情感识别等,现已在国际期刊或会议上发表学术论文50余篇。个人主页:http://lilt.cslt.org。

     

    王东,清华大学副研究员,清华大学语音和语言技术中心副主任,英国爱丁堡大学博士,历任Oracle中国软件工程师、IBM中国高级软件工程师、英国爱丁堡大学Marie Curie研究员、法国EURECOM博士后研究员、美国Nuance公司高级研究科学家,在语音领域国际重要期刊或会议上发表论文150余篇,是IEEE高级会员,APSIPA(亚太信号与信息处理协会)SLA(服务等级协议)主席。个人主页:http://wangd.cslt.org。

     

    石颖,哈尔滨工业大学在读博士,曾任清华大学语音和语言技术中心语音算法工程师,专注于语音相关技术,研究领域涉及语音识别、小语种语音识别、命令词识别、语音增强。个人主页:http://shiying.cslt.org。

     

    蔡云麒,中国科学院物理研究所与美国橡树岭国家实验室联合培养博士研究生,清华大学博士后,目前研究方向为语音领域的机器学习算法研究。在国际期刊和会议上发表论文十多篇。个人主页:http://caiyq.cslt.org。

     

    郑方,清华大学研究员、博士生导师,清华大学语音和语言技术中心主任,清华大学人工智能研究院听觉智能研究中心主任,北京信息科学与技术国家研究中心智能科学部常务副主任,得意音通公司创始人。个人主页:http://cslt.riit.tsinghua.edu.cn/~fzheng。 目录 

    1 语音是什么 2 

    1.1 大音希声 2 

    1.2 产生语音 4 

    1.3 看见语音 5 

    1.4 小结 8 

    2 语音识别方法 9 

    2.1 总体思路 10 

    2.2 声学模型GMM-HMM 12 

    2.2.1 HMM 12 

    2.2.2 GMM 14 

    2.2.3 训练 15 

    2.3 声学模型DNN-HMM 16 

    2.4 语言模型 18 

    2.4.1 N-Gram 18 

    2.4.2 RNN语言模型 18 

    2.5 解码器 20 

    2.6 端到端结构 22 

    2.6.1 CTC 23 

    2.6.2 RNN-T 26 

    2.6.3 Attention 27 

    2.6.4 Self-Attention 29 

    2.6.5 CTC Attension 31 

    2.7 开源工具和硬件平台 32 

    2.7.1 深度学习平台 32 

    2.7.2 语音识别工具 33 

    2.7.3 硬件加速 34 

    2.8 小结 36 

    3 完整的语音识别实验 37 

    3.1 语音识别实验的步骤 38 

    3.2 语音识别实验的运行 46 

    3.3 其他语音任务案例 47 

    3.4 小结 47 

    4 前端处理 48 

    4.1 数据准备 48 

    4.2 声学特征提取 52 

    4.2.1 预加重(Pre-Emphasis) 54 

    4.2.2 加窗(Windowing) 54 

    4.2.3 离散傅里叶变换(DFT) 55 

    4.2.4 FBank特征 56 

    4.2.5 MFCC特征 57 

    4.3 小结 58 

    5 训练与解码 59 

    5.1 GMM-HMM基本流程 60 

    5.1.1 训练 60 

    5.1.2 解码 61 

    5.1.3 强制对齐 62 

    5.2 DNN-HMM基本流程 63 

    5.3 DNN配置详解 64 

    5.3.1 component和component-node 65 

    5.3.2 属性与描述符 66 

    5.3.3 不同组件的使用方法 66 

    5.3.4 LSTM配置范例 76 

    5.4 小结 81 

    6 说话人自适应 84 

    6.1 什么是说话人自适应 84 

    6.2 特征域自适应与声道长度规整 85 

    6.3 声学模型自适应:HMM-GMM系统 87 

    6.3.1 基于MAP的自适应方法 88 

    6.3.2 基于MLLR的自适应方法 91 

    6.4 声学模型自适应:DNN系统 93 

    6.4.1 模型参数自适应学习 93 

    6.4.2 基于说话人向量的条件学习 94 

    6.5 领域自适应 95 

    6.6 小结 95 

    7 噪声对抗与环境鲁棒性 97 

    7.1 环境鲁棒性简介 97 

    7.2 前端信号处理方法 98 

    7.2.1 语音增强方法 99 

    7.2.2 特征域补偿方法 103 

    7.2.3 基于DNN的特征映射 106 

    7.3 后端模型增强方法 108 

    7.3.1 简单模型增强方法 108 

    7.3.2 模型自适应方法 109 

    7.3.3 多场景学习和数据增强方法 109 

    7.4 小结 110 

    8 小语种语音识别 111 

    8.1 小语种语音识别面临的主要困难 112 

    8.2 基于音素共享的小语种语音识别 113 

    8.3 基于参数共享的小语种语音识别方法 118 

    8.4 其他小语种语音识别方法 121 

    8.4.1 Grapheme 建模 121 

    8.4.2 网络结构与训练方法 121 

    8.4.3 数据增强 122 

    8.5 小语种语音识别实践 122 

    8.5.1 音频数据采集 122 

    8.5.2 文本数据采集 122 

    8.5.3 文本正规化 123 

    8.5.4 发音词典设计 123 

    8.6 小结 123 

    9 关键词识别与嵌入式应用 125 

    9.1 基本概念 125 

    9.2 评价指标 126 

    9.3 实现方法 129 

    9.3.1 总体框架 129 

    9.3.2 基于LVCSR的KWS系统 130 

    9.3.3 基于示例的KWS 132 

    9.3.4 端到端KWS 133 

    9.3.5 滑动窗口 133 

    9.4 嵌入式应用 134 

    9.4.1 模型压缩 134 

    9.4.2 迁移学习 136 

    9.4.3 网络结构搜索与设计 137 

    9.5 小结 137 

    10 说话人识别 140 

    10.1 什么是说话人识别 140 

    10.1.1 基本概念 140 

    10.1.2 技术难点 143 

    10.1.3 发展历史 143 

    10.2 基于知识驱动的特征设计 144 

    10.3 基于线性高斯的统计模型 147 

    10.3.1 高斯混合模型-通用背景模型 147 

    10.3.2 因子分析 150 

    10.4 基于数据驱动的特征学习 154 

    10.4.1 模型结构 156 

    10.4.2 训练策略 157 

    10.4.3 多任务学习 157 

    10.5 基于端到端的识别模型 158 

    10.6 小结 160 

    11 语种识别 161 

    11.1 什么是语种识别 161 

    11.2 语言的区分性特征 163 

    11.3 统计模型方法 165 

    11.3.1 基于声学特征的识别方法 165 

    11.3.2 基于发音单元的语种识别方法 167 

    11.4 深度学习方法 170 

    11.4.1 基于DNN的统计模型方法 170 

    11.4.2 基于DNN的端到端建模 172 

    11.4.3 基于DNN的语言嵌入 176 

    11.5 Kaldi中的语种识别 178 

    11.6 小结 180 

    12 语音情绪识别 182 

    12.1 什么是语音情绪识别 182 

    12.2 语音情绪模型 185 

    12.2.1 离散情绪模型 186 

    12.2.2 连续情绪模型 186 

    12.3 语音情绪特征提取 187 

    12.3.1 语音情绪识别中的典型特征 187 

    12.3.2 局部特征与全局特征 190 

    12.4 语音情绪建模 192 

    12.4.1 离散情绪模型 192 

    12.4.2 连续情绪模型 195 

    12.5 深度学习方法 196 

    12.5.1 基础DNN方法 196 

    12.5.2 特征学习 198 

    12.5.3 迁移学习 200 

    12.5.4 多任务学习 200 

    12.6 小结 201 

    13 语音合成 203 

    13.1 激励-响应模型 204 

    13.2 参数合成 207 

    13.3 拼接合成 208 

    13.4 统计模型合成 210 

    13.5 神经模型合成 212 

    13.6 基于注意力机制的合成系统 214 

    13.7 小结 216 

    参考文献 217 

    索引 243
  • 内容简介:
    语音是新一代人机交互的方式,语音识别是实现这一方式的关键环节,也是实现人工智能的基本步骤之一。
      本书结合当下使用广泛的Kaldi工具,对语音识别的基本概念和流程进行了详细的讲解,包括GMM-HMM、DNN-HMM、端到端等常用结构,并探讨了语音识别在实际应用中的问题,包括说话人自适应、噪声对抗与环境鲁棒性、小语种语音识别、关键词识别与嵌入式应用等方面,也对语音技术的相关前沿课题进行了介绍,包括说话人识别、语种识别、情绪识别、语音合成等方向。
      本书的写作以让读者快速、直观地理解概念为目标,只展示*基本的数学公式,同时本书注重理解与实践相结合,在对语音技术各个概念的讲解中都展示了相应的Kaldi语音处理命令,以便让读者进一步融会贯通。
      本书适用于语音识别及相关技术的初学者、在校学生,以及基于Kaldi进行产品研发的同仁,也可以作为语音从业者的参考书目。
  • 作者简介:
    汤志远,中国科学院大学与清华大学联合培养博士,清华博士后。专注于语音技术,研究领域涉及语音识别、声纹识别、语种识别、口语测评等,在国际重要期刊或会议上累计发表论文数十篇。个人主页:http://tangzy.cslt.org。

     

    李蓝天,清华大学博士、博士后,专注于机器学习在语音信号处理中的方法研究,研究领域涉及说话人识别、语音识别、音频事件检测、语种识别、情感识别等,现已在国际期刊或会议上发表学术论文50余篇。个人主页:http://lilt.cslt.org。

     

    王东,清华大学副研究员,清华大学语音和语言技术中心副主任,英国爱丁堡大学博士,历任Oracle中国软件工程师、IBM中国高级软件工程师、英国爱丁堡大学Marie Curie研究员、法国EURECOM博士后研究员、美国Nuance公司高级研究科学家,在语音领域国际重要期刊或会议上发表论文150余篇,是IEEE高级会员,APSIPA(亚太信号与信息处理协会)SLA(服务等级协议)主席。个人主页:http://wangd.cslt.org。

     

    石颖,哈尔滨工业大学在读博士,曾任清华大学语音和语言技术中心语音算法工程师,专注于语音相关技术,研究领域涉及语音识别、小语种语音识别、命令词识别、语音增强。个人主页:http://shiying.cslt.org。

     

    蔡云麒,中国科学院物理研究所与美国橡树岭国家实验室联合培养博士研究生,清华大学博士后,目前研究方向为语音领域的机器学习算法研究。在国际期刊和会议上发表论文十多篇。个人主页:http://caiyq.cslt.org。

     

    郑方,清华大学研究员、博士生导师,清华大学语音和语言技术中心主任,清华大学人工智能研究院听觉智能研究中心主任,北京信息科学与技术国家研究中心智能科学部常务副主任,得意音通公司创始人。个人主页:http://cslt.riit.tsinghua.edu.cn/~fzheng。
  • 目录:
    目录 

    1 语音是什么 2 

    1.1 大音希声 2 

    1.2 产生语音 4 

    1.3 看见语音 5 

    1.4 小结 8 

    2 语音识别方法 9 

    2.1 总体思路 10 

    2.2 声学模型GMM-HMM 12 

    2.2.1 HMM 12 

    2.2.2 GMM 14 

    2.2.3 训练 15 

    2.3 声学模型DNN-HMM 16 

    2.4 语言模型 18 

    2.4.1 N-Gram 18 

    2.4.2 RNN语言模型 18 

    2.5 解码器 20 

    2.6 端到端结构 22 

    2.6.1 CTC 23 

    2.6.2 RNN-T 26 

    2.6.3 Attention 27 

    2.6.4 Self-Attention 29 

    2.6.5 CTC Attension 31 

    2.7 开源工具和硬件平台 32 

    2.7.1 深度学习平台 32 

    2.7.2 语音识别工具 33 

    2.7.3 硬件加速 34 

    2.8 小结 36 

    3 完整的语音识别实验 37 

    3.1 语音识别实验的步骤 38 

    3.2 语音识别实验的运行 46 

    3.3 其他语音任务案例 47 

    3.4 小结 47 

    4 前端处理 48 

    4.1 数据准备 48 

    4.2 声学特征提取 52 

    4.2.1 预加重(Pre-Emphasis) 54 

    4.2.2 加窗(Windowing) 54 

    4.2.3 离散傅里叶变换(DFT) 55 

    4.2.4 FBank特征 56 

    4.2.5 MFCC特征 57 

    4.3 小结 58 

    5 训练与解码 59 

    5.1 GMM-HMM基本流程 60 

    5.1.1 训练 60 

    5.1.2 解码 61 

    5.1.3 强制对齐 62 

    5.2 DNN-HMM基本流程 63 

    5.3 DNN配置详解 64 

    5.3.1 component和component-node 65 

    5.3.2 属性与描述符 66 

    5.3.3 不同组件的使用方法 66 

    5.3.4 LSTM配置范例 76 

    5.4 小结 81 

    6 说话人自适应 84 

    6.1 什么是说话人自适应 84 

    6.2 特征域自适应与声道长度规整 85 

    6.3 声学模型自适应:HMM-GMM系统 87 

    6.3.1 基于MAP的自适应方法 88 

    6.3.2 基于MLLR的自适应方法 91 

    6.4 声学模型自适应:DNN系统 93 

    6.4.1 模型参数自适应学习 93 

    6.4.2 基于说话人向量的条件学习 94 

    6.5 领域自适应 95 

    6.6 小结 95 

    7 噪声对抗与环境鲁棒性 97 

    7.1 环境鲁棒性简介 97 

    7.2 前端信号处理方法 98 

    7.2.1 语音增强方法 99 

    7.2.2 特征域补偿方法 103 

    7.2.3 基于DNN的特征映射 106 

    7.3 后端模型增强方法 108 

    7.3.1 简单模型增强方法 108 

    7.3.2 模型自适应方法 109 

    7.3.3 多场景学习和数据增强方法 109 

    7.4 小结 110 

    8 小语种语音识别 111 

    8.1 小语种语音识别面临的主要困难 112 

    8.2 基于音素共享的小语种语音识别 113 

    8.3 基于参数共享的小语种语音识别方法 118 

    8.4 其他小语种语音识别方法 121 

    8.4.1 Grapheme 建模 121 

    8.4.2 网络结构与训练方法 121 

    8.4.3 数据增强 122 

    8.5 小语种语音识别实践 122 

    8.5.1 音频数据采集 122 

    8.5.2 文本数据采集 122 

    8.5.3 文本正规化 123 

    8.5.4 发音词典设计 123 

    8.6 小结 123 

    9 关键词识别与嵌入式应用 125 

    9.1 基本概念 125 

    9.2 评价指标 126 

    9.3 实现方法 129 

    9.3.1 总体框架 129 

    9.3.2 基于LVCSR的KWS系统 130 

    9.3.3 基于示例的KWS 132 

    9.3.4 端到端KWS 133 

    9.3.5 滑动窗口 133 

    9.4 嵌入式应用 134 

    9.4.1 模型压缩 134 

    9.4.2 迁移学习 136 

    9.4.3 网络结构搜索与设计 137 

    9.5 小结 137 

    10 说话人识别 140 

    10.1 什么是说话人识别 140 

    10.1.1 基本概念 140 

    10.1.2 技术难点 143 

    10.1.3 发展历史 143 

    10.2 基于知识驱动的特征设计 144 

    10.3 基于线性高斯的统计模型 147 

    10.3.1 高斯混合模型-通用背景模型 147 

    10.3.2 因子分析 150 

    10.4 基于数据驱动的特征学习 154 

    10.4.1 模型结构 156 

    10.4.2 训练策略 157 

    10.4.3 多任务学习 157 

    10.5 基于端到端的识别模型 158 

    10.6 小结 160 

    11 语种识别 161 

    11.1 什么是语种识别 161 

    11.2 语言的区分性特征 163 

    11.3 统计模型方法 165 

    11.3.1 基于声学特征的识别方法 165 

    11.3.2 基于发音单元的语种识别方法 167 

    11.4 深度学习方法 170 

    11.4.1 基于DNN的统计模型方法 170 

    11.4.2 基于DNN的端到端建模 172 

    11.4.3 基于DNN的语言嵌入 176 

    11.5 Kaldi中的语种识别 178 

    11.6 小结 180 

    12 语音情绪识别 182 

    12.1 什么是语音情绪识别 182 

    12.2 语音情绪模型 185 

    12.2.1 离散情绪模型 186 

    12.2.2 连续情绪模型 186 

    12.3 语音情绪特征提取 187 

    12.3.1 语音情绪识别中的典型特征 187 

    12.3.2 局部特征与全局特征 190 

    12.4 语音情绪建模 192 

    12.4.1 离散情绪模型 192 

    12.4.2 连续情绪模型 195 

    12.5 深度学习方法 196 

    12.5.1 基础DNN方法 196 

    12.5.2 特征学习 198 

    12.5.3 迁移学习 200 

    12.5.4 多任务学习 200 

    12.6 小结 201 

    13 语音合成 203 

    13.1 激励-响应模型 204 

    13.2 参数合成 207 

    13.3 拼接合成 208 

    13.4 统计模型合成 210 

    13.5 神经模型合成 212 

    13.6 基于注意力机制的合成系统 214 

    13.7 小结 216 

    参考文献 217 

    索引 243
查看详情
相关图书 / 更多
语音识别基本法:Kaldi实践与探索
语音发声科学训练(第三版)
王峥 著
语音识别基本法:Kaldi实践与探索
语音界面冲击:人机交互对话的未来与应用
[日]河野道成 著
语音识别基本法:Kaldi实践与探索
语音写作:1小时1万字
剑飞
语音识别基本法:Kaldi实践与探索
语音信号处理(第3版)
韩纪庆;张磊;郑铁然
语音识别基本法:Kaldi实践与探索
语音史考论
刘晓南 著
语音识别基本法:Kaldi实践与探索
语音识别:原理与应用
洪青阳
语音识别基本法:Kaldi实践与探索
语音情感识别中的若干技术研究
胡国华 著
语音识别基本法:Kaldi实践与探索
语音教程
刘森 著;戴炜栋 编
语音识别基本法:Kaldi实践与探索
语音发声晨练手册
曲玮婧 著
语音识别基本法:Kaldi实践与探索
语音识别环境失配补偿技术
何勇军 著
语音识别基本法:Kaldi实践与探索
语音发声(第4版)
王璐 ;吴洁如
语音识别基本法:Kaldi实践与探索
语音学与音系学经典丛书:优选论主题指南
John,J.McCarthy