语音识别理论与实践

中国水利水电出版社

【作者】主编　莫宏伟

【I S B N 】978-7-5226-1902-6

【责任编辑】高辉

【适用读者群】本科

【出版时间】2023-11-23

【开本】16开

【装帧信息】平装（光膜）

【版次】第1版第1次印刷

【页数】188

【千字数】257

【印张】11.75

【定价】￥42

【丛书】普通高等教育人工智能专业系列教材

【备注信息】

图书详情

简介

本书特色

前言

章节列表

精彩阅读

下载资源

相关图书

内容提要

本书主要介绍语音识别原理及其相关应用。全书共9章，分为五大部分：第一部分（第1章）介绍语音识别的发展历史和语音识别领域常用的数据集与工具箱；第二部分（第2章）介绍在语音识别领域常用的语音信号基础知识和声学特征的提取；第三部分（第3章至第7章）详细介绍语音识别的声学模型、语言模型、解码工具，并对语音识别领域的研究热点（端到端语音识别）进行探讨；第四部分（第8章）利用语音识别开源工具包Kaldi进行语音识别实战，包括Kaldi的安装以及如何训练aishell语音识别工程；第五部分（第9章）结合序列到序列的语音识别模型和序列到序列的问答模型来构建语音交互系统。

本书既可作为计算机科学与技术、电子科学与技术、控制工程与科学、智能科学与技术等专业的本科教材和研究生教材，也可供从事语音识别、人工智能等研究的科研人员参考。

精选内容系统介绍语音识别原理及相关应用，突出研究热点。

配合实战结合语音识别模式和问答模型构建语音交互系统，理论结合实践。

配套资源配有微课视频，读者可扫码观看学习。

前　　言

随着科技的发展和社会的进步，人工智能产品已经广泛应用于各个领域，其中语音识别技术得到了广泛应用。语音识别是一种将语音信号转化为可识别的文本形式的技术，其研究领域包括声音特征提取、语音识别、自然语言理解等多个方面。

语音识别技术在现代医疗中也得到了广泛应用。医疗工作者需要对患者的语音信息进行分析，以便对病情进行诊断和治疗。利用语音识别技术，可以快速准确地将语音信息转换为文本，为医护人员提供更高效、更便捷的工作方式。

通过搭建神经网络和利用深度学习算法，人工智能系统可以对大量的语音信号进行训练以获得准确识别语音的能力。医疗工作者可以通过语音识别技术对患者的语音信息进行分析，以获得关键的医疗数据。这种技术可以大大提高医护人员的工作效率和诊疗质量。

在医疗领域，语音识别技术也被用于智能医疗助理、医疗记录、药品管理等方面。医护人员可以通过语音命令快速地完成医疗记录和药品管理等任务，提高医疗工作的效率和准确性。

随着语音技术的不断提升，语音识别在机器人领域也逐渐开始发挥重要作用。将人工智能技术与语音识别技术相结合可以实现智能语音交互，使机器人能够更好地理解人类语言，并且能够进行语音指令的识别、理解和响应。这种技术不仅能够提高机器人的使用体验，还能够降低用户对使用机器人的技术门槛，同时能够在一定程度上减少人类操作机器人的误操作问题。

此外，利用语音识别技术还可以实现自然语言的语音合成，使机器人能够通过语音向用户提供反馈信息。这种技术不仅可以提高机器人的交互能力，而且可以增加机器人与人类之间的情感联系。

本书是在作者近三年围绕用于移动机器人的语音识别技术所开展的相关研究和开发工作基础上编写而成的，首先介绍了语音识别的发展历史和语音识别领域常用数据集与工具箱；其次介绍了在语音识别领域常用的语音信号基础知识和声学特征的提取；随后介绍了语音识别的声学模型、语言模型、解码工具，并对语音识别领域的研究热点（端到端语音识别）进行探讨；最后利用语音识别开源工具包Kaldi进行语音识别实战，包括Kaldi的安装以及如何训练aishell语音识别工程，结合序列到序列的语音识别模型和序列到序列的问答模型来构建可用于移动机器人的语音交互系统。

本书在介绍主要知识和方法后提供了适量的习题，使读者不仅能掌握一些初级的知识和方法，还能进一步掌握语音识别原理及相关技术，加深理解。

本书由莫宏伟任主编，徐立芳任副主编。感谢袁志龙、闫景运、周红亮、郭子颖、温峰、张圣胤、张茜、胡家家等同学在内容编写和图片绘制方面提供的协助。

由于编者水平所限，书中难免存在不妥甚至错误之处，恳请读者批评指正。

编　者

2023年5月

目录
前言
第1章　绪论 1
1.1　语音识别简史 2
1.1.1　语音识别早期探索 2
1.1.2　概率模型一统江湖 2
1.1.3　神经网络异军突起 3
1.1.4　商业应用推波助澜 5
1.2　国内发展现状 6
1.3　语音识别框架 9
1.3.1　经典方法 9
1.3.2　概率模型 10
1.3.3　深度神经网络—隐马尔可夫（DNN-HMM）模型 12
1.3.4　端到端语音识别 12
1.4　开源工具与数据集 14
1.4.1　深度学习框架 14
1.4.2　开源工具 19
1.4.3　数据集 19
本章小结 19
课后习题 20
第2章　语音基础知识 21
2.1　语音信号基础 21
2.1.1　声波的特性 22
2.1.2　声音的采集装置 22
2.1.3　声音的采样 24
2.1.4　声音的量化 25
2.1.5　语音的编码 26
2.2　声学特征提取 29
2.2.1　预处理 29
2.2.2　傅里叶变换 30
2.2.3　听觉特性 31
2.2.4　线性预测 32
2.2.5　倒谱分析 33
2.2.6　声学特征 34
本章小结 36
课后习题 36
第3章　声学模型 37
3.1　高斯混合模型 38
3.1.1　概率统计 38
3.1.2　高斯分布 39
3.1.3　GMM的组成和表示 40
3.2　隐马尔可夫模型 43
3.2.1　隐马尔可夫模型基本概念 43
3.2.2　隐马尔可夫模型的定义 45
3.2.3　隐马尔可夫模型的三个基本问题 46
3.3　高斯混合模型—隐马尔可夫模型 52
3.4　基于隐马尔可夫模型的语音识别 55
3.4.1　建模单元 55
3.4.2　发音过程与隐马尔可夫模型状态 57
3.4.3　串接隐马尔可夫模型 58
本章小结 61
课后习题 61
第4章　语言模型 62
4.1　n-gram模型 64
4.2　评价指标 67
4.3　平滑技术 68
4.3.1　Good-Turing折扣法 68
4.3.2　Jelinek-Mercer插值法 69
4.3.3　Kneser-Ney插值法 69
4.3.4　Katz回退法 70
4.4　语言模型的训练 72
4.5　预训练语言模型 74
4.5.1　基于自回归语言模型的预训练技术 76
4.5.2　基于自编码语言模型的预训练技术 78
4.5.3　基于序列到序列语言模型的预训练技术 79
4.5.4　基于前缀语言模型的预训练技术 80
4.5.5　基于排列语言模型的预训练技术 82
4.5.6　预训练技术的改进方法 83
本章小结 84
课后习题 84
第5章　加权有限状态解码器 85
5.1　基于动态网络的Viterbi解码 86
5.2　加权有限状态转换器理论 89
5.2.1　基本概念 89
5.2.2　半环 93
5.3　HCLG构建 95
5.3.1　语料准备 95
5.3.2　构建语法模型 96
5.3.3　构建发音词典模型 97
5.3.4　合并发音词典与语法模型 99
5.3.5　构建上下文模型与发音词典模型和语法模型 100
5.3.6　构建HCLG 100
本章小结 101
课后习题 102
第6章　深度神经网络模型 103
6.1　深度学习 104
6.2　神经网络 105
6.2.1　人脑神经网络 105
6.2.2　人工神经网络 107
6.2.3　神经网络的发展历史 107
6.2.4　深度神经网络 109
6.3　正向学习过程 111
6.3.1　正向学习概述 112
6.3.2　正向传播的流程 112
6.3.3　正向传播的原理 113
6.4　反向调整过程 115
6.4.1　反向调整概述 115
6.4.2　反向传播过程详解 116
6.4.3　深层模型反向调整的问题与对策 117
6.5　神经网络结构 118
6.5.1　卷积神经网络 118
6.5.2　长短时记忆网络 121
6.5.3　门控循环单元 123
6.5.4　时延神经网络 123
本章小结 125
课后习题 125
第7章　端到端语音识别 126
7.1　CTC 127
7.2　RNN-T 130
7.3　Encoder-Decoder框架和Attention模型 131
7.4　Hybrid CTC/Attention 136
7.5　Transformer 137
本章小结 139
课后习题 139
第8章　Kaldi实战 140
8.1　下载与安装Kaldi 141
8.1.1　获取源代码 141
8.1.2　编译 141
8.2　创建与配置基本的工程目录 142
8.3　aishell语音识别工程 143
8.3.1　数据映射目录准备 143
8.3.2　词典准备和lang目录生成 145
8.3.3　语言模型训练 147
8.3.4　声学特征提取与倒谱均值归一化 148
8.3.5　声学模型训练与强制对齐 149
8.3.6　解码测试与指标计算 151
本章小结 152
课后习题 153
第9章　语音交互系统 154
9.1　语音识别模块 154
9.1.1　LAS 155
9.1.2　Transformer 156
9.1.3　数据分析 157
9.1.4　LAS模型对比实验　 159
9.1.5　Focal loss 161
9.2　基于序列到序列模型的问答系统 164
9.2.1　数据分析 164
9.2.2　词向量 165
9.2.3　模型设计 166
9.2.4　实验结果与分析 170
9.3　语音交互系统的构建 171
9.3.1　系统搭建 171
9.3.2　系统测试 173
本章小结 174
课后习题 175
参考文献 176
附录　课后习题答案 178

关闭

打印