智能语音处理

智能语音处理
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: , ,
2020-09
版次: 1
ISBN: 9787111665328
定价: 79.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 248页
15人买过
  • 本书系统性地阐述智能语音处理技术,并重点以机器学习等技术及其在语音处理中的典型应用,理论与实践联系紧密。 前言 

    第1章 智能语音处理导论1 

     11 概述1 

     12 经典语音处理2 

       121 语音处理的发展2 

       122 语音基本表示方法3 

       123 语音处理基本方法3 

       124 经典语音处理方法的不足4 

     13 智能语音处理5 

       131 智能语音处理的基本概念5 

       132 智能语音处理的基本框架5 

       133 智能语音处理的基本模型6 

     14 语音处理的应用7 

       141 语音处理的传统应用领域8 

       142 语音处理的新应用领域11 

     15 小结14 

     参考文献14 

    第2章 稀疏和压缩感知15 

     21 引言15 

     22 稀疏和稀疏表示16 

       221 稀疏16 

       222 稀疏表示18 

     23 冗余字典19 

       231 基本概念19 

       232 字典学习20 

       233 字典学习算法22 

       234 原子选择算法25 

     24 压缩感知27 

       241 基本概念27 

       242 压缩感知模型29 

       243 观测矩阵30 

       244 信号重构32 

     25 小结33 

     参考文献33 

    第3章 隐变量模型36 

     31 引言36 

     32 高斯混合模型36 

       321 基本概念37 

       322 GMM参数估计37 

     33 隐马尔可夫模型39 

       331 基本概念39 

       332 HMM关键问题42 

     34 高斯过程隐变量模型48 

       341 基本模型48 

       342 GPLVM的理论来源49 

       343 GPLVM模型训练50 

     35 小结51 

     参考文献51 

    第4章 组合模型52 

     41 引言52 

     42 主成分分析53 

       421 基本模型53 

       422 求解算法54 

     43 非负矩阵分解56 

       431 基本模型56 

       432 求解算法57 

       433 NMF与其他数据表示模型的关系58 

     44 鲁棒组合模型60 

       441 组合模型的鲁棒性分析61 

       442 鲁棒主成分分析61 

       443 鲁棒非负矩阵分解63 

     45 小结64 

     参考文献64 

    第5章 人工神经网络和深度学习65 

     51 引言65 

     52 神经网络基础66 

       521 神经元模型66 

       522 浅层神经网络67 

       523 深度神经网络68 

     53 深度学习69 

       531 基本概念和形式69 

       532 深度网络的学习方法70 

     54 深度神经网络的典型结构71 

       541 深度置信网络71 

       542 自动编码器与栈式自动编码器72 

       543 卷积神经网络74 

       544 循环神经网络75 

       545 生成式对抗网络77 

     55 小结79 

     参考文献79 

    第6章 语音压缩编码81 

     61 引言81 

     62 基于字典学习的语音信号压缩感知82 

       621 语音信号的稀疏性82 

       622 语音在常见变换域的稀疏化83 

       623 基于K-L展开的语音非相干字典84 

       624 基于K-L非相干字典的语音压缩重构87 

       625 实验仿真与性能分析88 

     63 基于梅尔倒谱系数重构的语音压缩编码93 

       631 基于梅尔倒谱分析的抗噪语音编码模型94 

       632 基于稀疏约束的梅尔倒谱合成96 

       633 梅尔倒谱系数的量化算法99 

       634 实验仿真与性能分析103 

     64 基于深度学习的语音压缩编码107 

       641 基于DAE的幅度谱编码和量化107 

       642 基于DAE的低速率语音编码110 

       643 实验仿真与性能分析111 

     65 小结113 

     参考文献113 

    第7章 语音增强115 

     71 引言115 

     72 语音增强技术基础116 

       721 语音增强的估计参数116 

       722 智能语音增强的语音特征117 

       723 性能评价118 

     73 基于非负矩阵分解的语音增强120 

       731 基本模型121 

       732 基于不相交约束非负矩阵分解的语音增强122 

       733 基于CNMF字典学习的语音增强127 

     74 基于深度学习的语音增强136 

       741 基于听觉感知加权的深度神经网络语音增强方法136 

       742 基于听觉感知掩蔽的深度神经网络语音增强方法141 

     75 小结151 

     参考文献152 

    第8章 语音转换155 

     81 引言155 

     82 语音转换基本原理155 

     83 语音转换模型与评价156 

       831 语音分析/合成模型156 

       832 语音参数的选择157 

       833 时间对齐157 

       834 转换模型和规则158 

       835 转换性能评价159 

     84 基于非负矩阵分解的谱转换160 

       841 概述160 

       842 基于卷积非负矩阵分解的谱转换161 

       843 声道谱转换效果164 

     85 基于深度神经网络的谱转换168 

       851 深度学习驱动下的语音转换168 

       852 面向谱转换的神经网络模型选择168 

       853 基于BLSTM和神经网络声码器交替训练的语音转换171 

     86 小结176 

     参考文献176 

    第9章 说话人识别178 

     91 引言178 

     92 说话人识别基础179 

       921 说话人识别系统框架179 

       922 典型的说话人识别模型180 

     93 基于i-vector的说话人识别及其改进181 

       931 基于i-vector的说话人识别概述181 

       932 用于提高i-vector鲁棒性的帧加权方法182 

       933 实验结果与分析187 

     94 基于深度神经网络的说话人识别187 

       941 基于深度神经网络的说话人识别概述187 

       942 基于对比度损失函数优化说话人矢量189 

       943 实验结果与分析191 

     95 说话人识别系统的攻击与防御192 

       951 攻击和防御的背景192 

       952 说话人识别系统的攻击方法192 

       953 说话人识别攻击的检测方法194 

       954 实验结果与分析196 

     96 小结196 

     参考文献197 

    第10章 骨导语音增强200 

     101 引言200 

     102 骨导语音增强基础201 

        1021 骨导语音的产生与特性201 

        1022 骨导语音盲增强的特点202 

        1023 骨导语音盲增强的典型方法203 

     103 基于长短时记忆网络的骨导语音盲增强205 

        1031 骨导/气导语音的谱映射206 

        1032 基于深度残差BLSTM的骨导语音盲增强方法207 

        1033 实验仿真及性能分析211 

     104 基于均衡-生成组合谱映射的骨导语音盲增强215 

        1041 均衡法215 

        1042 基于均衡-生成组合谱映射的骨导语音盲增强方法216 

        1043 实验仿真及性能分析218 

     105 小结222 

     参考文献223 

    第11章 智能语音处理展望224 

     111 智能语音处理的未来224 

     112 有待解决的关键技术225 

        1121 语音识别226 

        1122 语音合成228 

        1123 语音增强229 

        1124 语音处理中的安全问题230 

     113 小结230 

     参考文献230 

    缩略语232
  • 内容简介:
    本书系统性地阐述智能语音处理技术,并重点以机器学习等技术及其在语音处理中的典型应用,理论与实践联系紧密。
  • 目录:
    前言 

    第1章 智能语音处理导论1 

     11 概述1 

     12 经典语音处理2 

       121 语音处理的发展2 

       122 语音基本表示方法3 

       123 语音处理基本方法3 

       124 经典语音处理方法的不足4 

     13 智能语音处理5 

       131 智能语音处理的基本概念5 

       132 智能语音处理的基本框架5 

       133 智能语音处理的基本模型6 

     14 语音处理的应用7 

       141 语音处理的传统应用领域8 

       142 语音处理的新应用领域11 

     15 小结14 

     参考文献14 

    第2章 稀疏和压缩感知15 

     21 引言15 

     22 稀疏和稀疏表示16 

       221 稀疏16 

       222 稀疏表示18 

     23 冗余字典19 

       231 基本概念19 

       232 字典学习20 

       233 字典学习算法22 

       234 原子选择算法25 

     24 压缩感知27 

       241 基本概念27 

       242 压缩感知模型29 

       243 观测矩阵30 

       244 信号重构32 

     25 小结33 

     参考文献33 

    第3章 隐变量模型36 

     31 引言36 

     32 高斯混合模型36 

       321 基本概念37 

       322 GMM参数估计37 

     33 隐马尔可夫模型39 

       331 基本概念39 

       332 HMM关键问题42 

     34 高斯过程隐变量模型48 

       341 基本模型48 

       342 GPLVM的理论来源49 

       343 GPLVM模型训练50 

     35 小结51 

     参考文献51 

    第4章 组合模型52 

     41 引言52 

     42 主成分分析53 

       421 基本模型53 

       422 求解算法54 

     43 非负矩阵分解56 

       431 基本模型56 

       432 求解算法57 

       433 NMF与其他数据表示模型的关系58 

     44 鲁棒组合模型60 

       441 组合模型的鲁棒性分析61 

       442 鲁棒主成分分析61 

       443 鲁棒非负矩阵分解63 

     45 小结64 

     参考文献64 

    第5章 人工神经网络和深度学习65 

     51 引言65 

     52 神经网络基础66 

       521 神经元模型66 

       522 浅层神经网络67 

       523 深度神经网络68 

     53 深度学习69 

       531 基本概念和形式69 

       532 深度网络的学习方法70 

     54 深度神经网络的典型结构71 

       541 深度置信网络71 

       542 自动编码器与栈式自动编码器72 

       543 卷积神经网络74 

       544 循环神经网络75 

       545 生成式对抗网络77 

     55 小结79 

     参考文献79 

    第6章 语音压缩编码81 

     61 引言81 

     62 基于字典学习的语音信号压缩感知82 

       621 语音信号的稀疏性82 

       622 语音在常见变换域的稀疏化83 

       623 基于K-L展开的语音非相干字典84 

       624 基于K-L非相干字典的语音压缩重构87 

       625 实验仿真与性能分析88 

     63 基于梅尔倒谱系数重构的语音压缩编码93 

       631 基于梅尔倒谱分析的抗噪语音编码模型94 

       632 基于稀疏约束的梅尔倒谱合成96 

       633 梅尔倒谱系数的量化算法99 

       634 实验仿真与性能分析103 

     64 基于深度学习的语音压缩编码107 

       641 基于DAE的幅度谱编码和量化107 

       642 基于DAE的低速率语音编码110 

       643 实验仿真与性能分析111 

     65 小结113 

     参考文献113 

    第7章 语音增强115 

     71 引言115 

     72 语音增强技术基础116 

       721 语音增强的估计参数116 

       722 智能语音增强的语音特征117 

       723 性能评价118 

     73 基于非负矩阵分解的语音增强120 

       731 基本模型121 

       732 基于不相交约束非负矩阵分解的语音增强122 

       733 基于CNMF字典学习的语音增强127 

     74 基于深度学习的语音增强136 

       741 基于听觉感知加权的深度神经网络语音增强方法136 

       742 基于听觉感知掩蔽的深度神经网络语音增强方法141 

     75 小结151 

     参考文献152 

    第8章 语音转换155 

     81 引言155 

     82 语音转换基本原理155 

     83 语音转换模型与评价156 

       831 语音分析/合成模型156 

       832 语音参数的选择157 

       833 时间对齐157 

       834 转换模型和规则158 

       835 转换性能评价159 

     84 基于非负矩阵分解的谱转换160 

       841 概述160 

       842 基于卷积非负矩阵分解的谱转换161 

       843 声道谱转换效果164 

     85 基于深度神经网络的谱转换168 

       851 深度学习驱动下的语音转换168 

       852 面向谱转换的神经网络模型选择168 

       853 基于BLSTM和神经网络声码器交替训练的语音转换171 

     86 小结176 

     参考文献176 

    第9章 说话人识别178 

     91 引言178 

     92 说话人识别基础179 

       921 说话人识别系统框架179 

       922 典型的说话人识别模型180 

     93 基于i-vector的说话人识别及其改进181 

       931 基于i-vector的说话人识别概述181 

       932 用于提高i-vector鲁棒性的帧加权方法182 

       933 实验结果与分析187 

     94 基于深度神经网络的说话人识别187 

       941 基于深度神经网络的说话人识别概述187 

       942 基于对比度损失函数优化说话人矢量189 

       943 实验结果与分析191 

     95 说话人识别系统的攻击与防御192 

       951 攻击和防御的背景192 

       952 说话人识别系统的攻击方法192 

       953 说话人识别攻击的检测方法194 

       954 实验结果与分析196 

     96 小结196 

     参考文献197 

    第10章 骨导语音增强200 

     101 引言200 

     102 骨导语音增强基础201 

        1021 骨导语音的产生与特性201 

        1022 骨导语音盲增强的特点202 

        1023 骨导语音盲增强的典型方法203 

     103 基于长短时记忆网络的骨导语音盲增强205 

        1031 骨导/气导语音的谱映射206 

        1032 基于深度残差BLSTM的骨导语音盲增强方法207 

        1033 实验仿真及性能分析211 

     104 基于均衡-生成组合谱映射的骨导语音盲增强215 

        1041 均衡法215 

        1042 基于均衡-生成组合谱映射的骨导语音盲增强方法216 

        1043 实验仿真及性能分析218 

     105 小结222 

     参考文献223 

    第11章 智能语音处理展望224 

     111 智能语音处理的未来224 

     112 有待解决的关键技术225 

        1121 语音识别226 

        1122 语音合成228 

        1123 语音增强229 

        1124 语音处理中的安全问题230 

     113 小结230 

     参考文献230 

    缩略语232
查看详情
相关图书 / 更多
智能语音处理
智能制造背景下供应商管理研究
石莉
智能语音处理
智能系统中的情感识别建模与关键技术
魏薇 张立立 蔡庆中 李晶 崔宁 谭洪鑫
智能语音处理
智能智造:数智化时代的转型升级之路
王春源等
智能语音处理
智能建造概论
龙武剑、梅柳、李利孝、罗启灵
智能语音处理
智能汽车电子与软件:开发方法、系统集成、流程体系与项目管理 杨修文
杨修文
智能语音处理
智能建造导论 刘占省
刘占省
智能语音处理
智能集成算法及其优化技术在电气检监测中的应用
屈志坚、马帅军、徐娟、刘汉欣、刘畅、池瑞、刘莉
智能语音处理
智能会计人才培养体系构建(智能财会丛书)
张敏 吴亭 史春玲 贾丽 叶婷婷
智能语音处理
智能建造理论与实践 杨琳 吴贤国 编著
杨琳 吴贤国 编著
智能语音处理
智能建造工程技术应用案例
赵研,徐哲民 编
智能语音处理
智能建造与新型建筑工业化
主编:马恩成,夏绪勇
智能语音处理
智能物流系统物联网应用及案例
刘同娟、马向国、胡安琪 著