基于filler模型的语音关键词识别

基于Filler模型的语音关键词识别

线,如图3.3所示。可以看出,EER曲线的变化中间会出现一些波动,在迭代11次后,EER稳定并收敛。最终的EER从0.3563下降到0.2961。

接下来验证所提方法的语音确认效果。测试系统为词表大小为130个关键词的关键词检测系统,测试集包含有1300句语音,数据取自863试集的F50、M50文件。关键词的置信度由所含子词的似然比通过以下公式计算得到:

(3-21)

其中L为关键词的子词个数,参数为幅度调节参数,本实验中实验比较四种方法的确认效果:

:采用(3-4)式计算似然比;

采用(3-6)式Sukkar提出的似然比方法;

:采用提出的加权的似然比方法,加权系数和阀值由MVE训练得到,

竞争模型集采用CS;

:方法同

竞争模型。

实验得到等错误率曲线如图3-4所示,测得的等错误率如表3-1所示。从中可以看出,仅用竞争集中最大竞争项来表示反词的方法确认效果比较差。

,但通过KL测度选择距离目标模型较近的前15个

图3-4 语音确认方法的DET曲线比较

采用基于竞争模型似然比加权的方法(

26

)比不加权的方法()等错误

基于Filler模型的语音关键词识别

率下降了2.35%,说明加权的似然比方法收到了较好的效果。比较争模型的方法

少许的牺牲,但实际程序运行时

和采用竞

的DET曲线,可以看出发现二者性能非常接近,EER仅有

的计算量下降了一倍左右,这

说明选择合适的竞争模型能取得较满意的效果。

表3-1 不同似然比计算方法的EER Method EER 0.2310 0.2195 0.1960 0.1993 3.3 多置信特征联合提高语音确认效果

用置信特征进行语音确认[7]也是置信度研究的一个重要领域,正如我们理解一句话,可以从多个层次、多个角度去理解。置信特征可以来自声学层、语言层、语法层和语音层。Chase对常用声学预测特征进行了分析,对一些声学特征进行了分析;Zhang对词图和解码特征进行了研究,提出一些基于词图的语言层特征;Stephen Cox[8]提出了用浅层语义分析来进行语义层置信度估计,Ruhi Sarikaya[9]在对话系统中提出利用词层和概念层置信分来计算语义置信度;Gustavo采用一种基于动态规划对齐的方法给识别结果对齐打分。在国内这方面研究,付跃文提出利用局域词图计算的词后验概率与词长、相邻词的后验概率等几种实时预测子进行融合;孙辉提出了上下文相关置信度特征,考虑到当前待确认词与其前序词和后序词之间的相关性。似然比和词后验概率是目前公认的两种最有效求取置信度的方法。词后验概率的方法需要通过生成lattice或词图才能计算,而生成lattice的过程非常费时,无法达到实时要求。所以,对于基于垃圾模型的KWS系统,通常采用声学似然比特征为主,其它特征为辅的策略。常用的融合特征有:关键词似然比、帧归一化的关键词似然分、时间驻留特征、候选关键词的上下文特征、时间对齐特征。

除了寻找好的预测特征外,许多研究人员还试图通过分类器来提高置信效果,常用的预测特征融合方法有:线性判别分析、神经网络、决策树、支持向量机、Boosting。另外,还可以借助训练算法优化融合的系数,这些准则有:最大似然准则,互熵准则、最小错误分类错误等。

Jiang—Hui[10]指出,预测特征不一定越多越好,必须要考虑该特征的来源,许多相关的预测特征组合并一定能够提高置信度的效果。所以,我们在选择特征时考

27

基于Filler模型的语音关键词识别

虑以下两个方面:1)特征之间应尽量来自不同知识源;2)由于基于垃圾模型的关键词系统对实时性要求高,预测特征应较易获得。

3.3.1 在线垃圾模型提高语音确认效果的理论研究

我们选择三个特征用于提高语音确认效果,包括:关键词的似然比特征、驻留特征和在线垃圾(OLG)得分。

在线垃圾模型最早用于无补白模型的关键词检出,国内对OLG模型的研究的比较多,张国亮提出了基于OLG的关键词动态确认方法,将关键词检出和验证过程合二为一,利用OLG进行动态语音确认。梁家恩[11]指出,在线垃圾模型相当于基于后验概率方法的体现。陈一宁[12]利用在线垃圾模型计算N-Best音节格的置信分数,收到较满意的效果。需要说明的是,计算OLG分数可以在关键词模型空间,也可以在补白模型空间,我们采用的OLG得分来自关键词解码空间,目的是用其估计关键词与竞争词的距离。因为,似然比特征并没有考虑关键词之间的影响,识别中的冒充错误大多是由于竞争关键词胜过真实关键词造成的,竞争的关键词越多时,这种错误出现的越多。所以,我们引入关键词在线垃圾得分进行关键词确认,实验结果说明,这三个特征的融合能较好的提高确认效果。

下面介绍计算关键词驻留特征和在线垃圾得分的方法。 (1)关键词驻留特征。

文章[13]提到了经典隐马尔可夫模型的缺陷,HMM是一阶的齐次马尔可夫链的随机函数,这种齐次假设导致HMM状态的驻留长度(即段长)服从指数分布,从数学上得到了简化;但是指数分布意味着在某一状态驻留时间越短则概率越大,特别是零长度驻留的概率最大。这与大多数语音信号的实际段长分布不符,如汉语中辅音的长度分布就相当集中。如果段长服从指数分布,则状态转移概率就是零长度驻留概率,可知零长度驻留概率远大于其真实值,所以经典HMM中的状态转移概率太大,导致了搜索过程中会出现一些插入错误,这是经典HMM的齐次假设的不合理性造成的。相比而言,伽马分布更接近语音段长的真实分布。

我们需要提取驻留特征增加关键词的确认能力。显然,如果一个词驻留过短就极可能是插入错误,应该给予其较低的分数。我们采用David提出的方法对子词状态驻留概率打分。

假定子词驻留概率符合伽玛分布:

28

基于Filler模型的语音关键词识别

(3-22)

其中t为驻留时间,

,对某个子词而言是常数。?和?通过统计语料

库的子词驻留时间的样本均值和方差得到:

(3-23)

(3-24)

子词驻留特征为子词驻留概率的对数取值:

(3-25)

上式中,需很小的计算量。

定义关键词的驻留概率为其包含子词的驻留特征的最小值。

(3-26)

(2)关键词在线垃圾分数

在构成关键词的状态空间中,取每帧得分最高的N个状态的似然得分均值作为该帧的垃圾评分。定义关键词的在线垃圾分数[14]为:

(3-27)

其中、是关键词的起始和结束时刻点,从上式可以看出,计算关键词的在线垃圾得分的其实是似然比方法的体现。但与似然比方法区别的是,反词部分由竞争的关键词的状态得分形成。当竞争的关键词较多时,其得高分的存活状态必然较多,导致其OLG分数增加,此时F值变小。当竞争的关键词较少时,OLG分数下降,此时F值变大。所以,该特征在一定程度上体现了关键词与竞争关键词的距离。此种方法还具有一定的抗噪性,一般说来,OLG是随识别语音特征的变化而动态变化的,在噪声环境下,关键词得分发生变化,OLG得分也跟随同方向的变化,二者之差在一定程度上减弱噪声的作用。 3.3.2实验结果

29

为常数,可以提前计算并保存好,这样计算子词驻留特征仅

基于Filler模型的语音关键词识别

实验用到的关键词检测系统和测试语音同上一节,首先我们验证OLG分数的语音确认效果,OLG分数的形成主要取决于每帧的前N-Best个竞争状态,调节N的取值,得到的不同N值下的语音确认效果,如图3.5所示。调整N的值就可以调整关键词确认的宽严程度,N越大越宽,可以看出在每帧取得前30个最佳状态来计算在线垃圾分数时有较好的效果,N过大和过小,关键词确认性能会有所下降。

图3-5 OLG中模型参数N的DET曲线比较

接着比较联合关键词似然比、驻留特征和在线垃圾得分特征的语音确认效果,这里仍然采用Sukkar提出的

方法为基线似然比特征,驻留特征所需的参数由

863语音库训练得到,对于OLG特征,每帧取得前30个最佳状态来计算在线垃圾分数。

图3-6联合关键词预测特征的DET曲线比较

30

联系客服:779662525#qq.com(#替换为@) 苏ICP备20003344号-4