龙源期刊网 http://www.qikan.com.cn
基于神经网络的语音识别技术应用研究
作者:周春荣
来源:《中国科技纵横》2018年第06期
摘 要:语音识别技术能够实现人机对话,本文从神经网络角度出发对语音识别技术的应用及优化进行探究。文章首先概述了神经网络及语音识别技术的相关理论;其次对语音识别系统基本结构设计进行了分析,主要包括语音信号处理、BP算法、BP网络结构的设计以及学习样本的选取;最后对人工神经网络语音识别的应用实例进行了论述,具体包括对于特定人的语音识别、对于非特定人的语音识别以及BP算法改进的进步一实验三部分。 关键词:神经网络;语音识别技术;应用实践
中图分类号:TN912.34 文献标识码:A 文章编号:1671-2064(2018)06-0018-02 在当前信息时代之下,人们对计算机的智化要求日渐提升,语音识别技术便是计算机智化的重要表现之一,各学者对语音识别技术的研究也相当多,并提出较多的识别方法,如模板匹配法、统计模式识别法等,这些方法存在一定的劣势,本文从神经网络理论出发对语音识别技术进行探究,分析基于神经网络的语音识别系统的构建与应用实践,以期为相关研究人员提供一定的参考。
1 神经网络及语音识别技术概述 1.1 神经网络
神经网络分为生物神经网络及人工神经网络,本文所探讨的为人工神经网络(ANNs,Artificial Neural Networks)。人工神经网络是一种链接模型,依照生物神经网络的特征所构建的一种算法模型,其中最常用的一种模型为BP网络模型,该种网络模型能学习和存贮大量的输入-输出模式映射关系,可以解决大量复杂的问题。 1.2 语音识别技术
语音识别技术(ASR,Automatic Speech Recognition)即使计算机读写人类语音中的词汇内容的一种方式,通常通过将人类语音中的词汇内容转化为二进制编码或者是按键再或者是字符序列,使计算机能够识别这些内容,从而实现人机交互。在当前全球化的背景下,实现人机交互,则能够使语言不通的人相互交流,故而研究语音识别技术极为重要。 2 语音识别系统基本结构设计
经理论分析及实践研究,语音识别系统的基本结构应如图1所示。
龙源期刊网 http://www.qikan.com.cn
2.1 语音信号处理
语音信号处理质量直接影响着整个语音识别系统的质量,所以在语音信号预处理、时域分析、语音信号的断电检测及特征提取方面,必须要极为严谨。
(1)语音信号预处理及时域分析。对于语音信号的预处理,主要的步骤是采集语音,并将语音进行放大等增益控制,必要情况下可以采取反混叠滤波以及预加重等措施,以确保所收集的语音的质量。
(2)语音信号的端点检测及特征提取。端点检测主要的作用是对已经进行预处理的语音信号的进一步检测,因为简单的预处理之后语音信号仍有一定的背景噪音,可能会对后续的语音检测产生影响,所以需要通过语音信号进行起点检测以及末尾检测,并进行分帧,从而确保检测结果质量。 2.2 BP算法
因为语音信号转化为计算机可识别的信息时会存在一定的误差,而这种误差又具有不规律性,所以需要应用BP算法,通过推理及逆向推理来调整输出层与输入层权矩阵。BP算法主要分为两个阶段,分别是向前传播阶段以及向后传播阶段,其中向后传播阶段又被成为“误差传播阶段”。
(1)向前传播阶段。该阶段主要是确定输出层的误差。其具体算法为: 首先,判定隐含层的第i个神经元的输出,其输出公式为: 其次,判定输出层的低k个神经元的输出,其输出公式为: 最后,结合具体的情况判定误差函数,其函数公式为:
(2)向后传播阶段。该阶段主要是将输出层的误差沿着与输入信号相反的方向逐渐传递到输入端。这一阶段主要的算法为:
首先,确定依据性能指标函数Ep,确定思路,具体为:
因为,故而若想使ω向着Ep减小方向移动时,△ω的取值在(-∞,0)之间,反之则应当取(0,+∞)。
其次,假设输出层为r=2,得出公式:
再次,假设隐含层为r=1,再利用复合微分的相对规则,确定第j个隐层节点公式:
龙源期刊网 http://www.qikan.com.cn
最后,得出误差算法,其公式为: 2.3 BP网络结构的设计
BP网络结构设计中,通常需要考虑的有五个方面,确保这五个层面的合理性,则能够确保语音识别的质量。
(1)网络的层数。由以上公式可以看出一个线性输出层与大于等于一个S型隐含层所构成的网络,这一网络中的数据与有理函数相似,所以可以用有理函数公式进行代替,在层数不断增加的时候,误差会极大的降低,但是网络会更加复杂,故而需要进行判定,选择最合理的网络层数。
(2)隐含层的神经元数。为使数据进一步精确,还可以依据具体的情况来增加隐含层的神经元数,从理论上来讲,隐含层的神经元数应当是越多越好。
(3)初始权值的选取。因为基于BP模型设计的系统结构并不是线性的,所以必须要合理确定初始权值,这样方能确保每一个神经元的权值可以在激活函数变化最大处进行调节,使神经元的输出值与0尽可能的接近,通常情况下,初始值会在-1到1之间。
(4)学习速率。学习速率影响着系统的质量以及效率,如果学习速率比较小,那么系统训练的时间便会加强,使效率降低,但是学习速率过大,则可能会影响到系统的稳定性,从而使系统的质量受到影响,经过大量的实践,笔者认为学习速率的值应当在0.01到0.8之间,这样方能在保障系统稳定的基础上确保其误差值较小。
(5)期望误差的选取。期望误差的选择应当依据具体的隐含层节点数确定,不过一般情况下是依靠调节隐含层节点以及调整学习时间两种方式来确定。 2.4 学习样本的选取
在确定了语音识别系统的整体结构之后,还应当选择合适的样本,以确保效果。通常情况下是选择相对较佳的特定人的语音样本进行基本分析,接着再选择非特定人的语音样本进行处理。
3 人工神经网络语音识别的应用实例
依据以上系统,进行实践,先确定特定人的语音识别,再确定非特定人的语音识别,最后应用BP算法进一步改进。
对于特定人的语音识别,主要是选择某一个人的声音,对其声音样本进行识别,通过调整神经元数目进一步调整识别率。在实验中,设计神经元数为25、30、35、40时候,识别结果如表1所示。