基于filler模型的语音关键词识别

基于Filler模型的语音关键词识别

线，如图3.3所示。可以看出，EER曲线的变化中间会出现一些波动，在迭代11次后，EER稳定并收敛。最终的EER从0.3563下降到0.2961。

接下来验证所提方法的语音确认效果。测试系统为词表大小为130个关键词的关键词检测系统，测试集包含有1300句语音，数据取自863试集的F50、M50文件。关键词的置信度由所含子词的似然比通过以下公式计算得到：

（3-21）

其中L为关键词的子词个数，参数为幅度调节参数，本实验中实验比较四种方法的确认效果：

：采用(3-4)式计算似然比；

采用(3-6)式Sukkar提出的似然比方法；

：采用提出的加权的似然比方法，加权系数和阀值由MVE训练得到，

竞争模型集采用CS；

：方法同

竞争模型。

实验得到等错误率曲线如图3-4所示，测得的等错误率如表3-1所示。从中可以看出，仅用竞争集中最大竞争项来表示反词的方法确认效果比较差。

，但通过KL测度选择距离目标模型较近的前15个

。

图3-4 语音确认方法的DET曲线比较

采用基于竞争模型似然比加权的方法(

)比不加权的方法()等错误

基于Filler模型的语音关键词识别

率下降了2.35%，说明加权的似然比方法收到了较好的效果。比较争模型的方法

少许的牺牲，但实际程序运行时

比

和采用竞

的DET曲线，可以看出发现二者性能非常接近，EER仅有

的计算量下降了一倍左右，这

说明选择合适的竞争模型能取得较满意的效果。

表3-1 不同似然比计算方法的EER Method EER 0.2310 0.2195 0.1960 0.1993 3.3 多置信特征联合提高语音确认效果

用置信特征进行语音确认[7]也是置信度研究的一个重要领域，正如我们理解一句话，可以从多个层次、多个角度去理解。置信特征可以来自声学层、语言层、语法层和语音层。Chase对常用声学预测特征进行了分析，对一些声学特征进行了分析；Zhang对词图和解码特征进行了研究，提出一些基于词图的语言层特征；Stephen Cox[8]提出了用浅层语义分析来进行语义层置信度估计，Ruhi Sarikaya[9]在对话系统中提出利用词层和概念层置信分来计算语义置信度；Gustavo采用一种基于动态规划对齐的方法给识别结果对齐打分。在国内这方面研究，付跃文提出利用局域词图计算的词后验概率与词长、相邻词的后验概率等几种实时预测子进行融合；孙辉提出了上下文相关置信度特征，考虑到当前待确认词与其前序词和后序词之间的相关性。似然比和词后验概率是目前公认的两种最有效求取置信度的方法。词后验概率的方法需要通过生成lattice或词图才能计算，而生成lattice的过程非常费时，无法达到实时要求。所以，对于基于垃圾模型的KWS系统，通常采用声学似然比特征为主，其它特征为辅的策略。常用的融合特征有：关键词似然比、帧归一化的关键词似然分、时间驻留特征、候选关键词的上下文特征、时间对齐特征。

除了寻找好的预测特征外，许多研究人员还试图通过分类器来提高置信效果，常用的预测特征融合方法有：线性判别分析、神经网络、决策树、支持向量机、Boosting。另外，还可以借助训练算法优化融合的系数，这些准则有：最大似然准则，互熵准则、最小错误分类错误等。

Jiang—Hui[10]指出，预测特征不一定越多越好，必须要考虑该特征的来源，许多相关的预测特征组合并一定能够提高置信度的效果。所以，我们在选择特征时考

基于Filler模型的语音关键词识别

虑以下两个方面：1)特征之间应尽量来自不同知识源；2)由于基于垃圾模型的关键词系统对实时性要求高，预测特征应较易获得。

3.3.1 在线垃圾模型提高语音确认效果的理论研究

我们选择三个特征用于提高语音确认效果，包括：关键词的似然比特征、驻留特征和在线垃圾(OLG)得分。

在线垃圾模型最早用于无补白模型的关键词检出，国内对OLG模型的研究的比较多，张国亮提出了基于OLG的关键词动态确认方法，将关键词检出和验证过程合二为一，利用OLG进行动态语音确认。梁家恩[11]指出，在线垃圾模型相当于基于后验概率方法的体现。陈一宁[12]利用在线垃圾模型计算N-Best音节格的置信分数，收到较满意的效果。需要说明的是，计算OLG分数可以在关键词模型空间，也可以在补白模型空间，我们采用的OLG得分来自关键词解码空间，目的是用其估计关键词与竞争词的距离。因为，似然比特征并没有考虑关键词之间的影响，识别中的冒充错误大多是由于竞争关键词胜过真实关键词造成的，竞争的关键词越多时，这种错误出现的越多。所以，我们引入关键词在线垃圾得分进行关键词确认，实验结果说明，这三个特征的融合能较好的提高确认效果。

下面介绍计算关键词驻留特征和在线垃圾得分的方法。 (1)关键词驻留特征。

文章[13]提到了经典隐马尔可夫模型的缺陷，HMM是一阶的齐次马尔可夫链的随机函数，这种齐次假设导致HMM状态的驻留长度(即段长)服从指数分布，从数学上得到了简化；但是指数分布意味着在某一状态驻留时间越短则概率越大，特别是零长度驻留的概率最大。这与大多数语音信号的实际段长分布不符，如汉语中辅音的长度分布就相当集中。如果段长服从指数分布，则状态转移概率就是零长度驻留概率，可知零长度驻留概率远大于其真实值，所以经典HMM中的状态转移概率太大，导致了搜索过程中会出现一些插入错误，这是经典HMM的齐次假设的不合理性造成的。相比而言，伽马分布更接近语音段长的真实分布。

我们需要提取驻留特征增加关键词的确认能力。显然，如果一个词驻留过短就极可能是插入错误，应该给予其较低的分数。我们采用David提出的方法对子词状态驻留概率打分。

假定子词驻留概率符合伽玛分布：

基于Filler模型的语音关键词识别

（3-22）

其中t为驻留时间，

，对某个子词而言是常数。?和?通过统计语料

库的子词驻留时间的样本均值和方差得到：

（3-23）

（3-24）

子词驻留特征为子词驻留概率的对数取值：

（3-25）

上式中，需很小的计算量。

定义关键词的驻留概率为其包含子词的驻留特征的最小值。

（3-26）

（2）关键词在线垃圾分数

在构成关键词的状态空间中，取每帧得分最高的N个状态的似然得分均值作为该帧的垃圾评分。定义关键词的在线垃圾分数[14]为：

（3-27）

其中、是关键词的起始和结束时刻点，从上式可以看出，计算关键词的在线垃圾得分的其实是似然比方法的体现。但与似然比方法区别的是，反词部分由竞争的关键词的状态得分形成。当竞争的关键词较多时，其得高分的存活状态必然较多，导致其OLG分数增加，此时F值变小。当竞争的关键词较少时，OLG分数下降，此时F值变大。所以，该特征在一定程度上体现了关键词与竞争关键词的距离。此种方法还具有一定的抗噪性，一般说来，OLG是随识别语音特征的变化而动态变化的，在噪声环境下，关键词得分发生变化，OLG得分也跟随同方向的变化，二者之差在一定程度上减弱噪声的作用。 3.3.2实验结果

为常数，可以提前计算并保存好，这样计算子词驻留特征仅

的

基于Filler模型的语音关键词识别

实验用到的关键词检测系统和测试语音同上一节，首先我们验证OLG分数的语音确认效果，OLG分数的形成主要取决于每帧的前N-Best个竞争状态，调节N的取值，得到的不同N值下的语音确认效果，如图3.5所示。调整N的值就可以调整关键词确认的宽严程度，N越大越宽，可以看出在每帧取得前30个最佳状态来计算在线垃圾分数时有较好的效果，N过大和过小，关键词确认性能会有所下降。

图3-5 OLG中模型参数N的DET曲线比较

接着比较联合关键词似然比、驻留特征和在线垃圾得分特征的语音确认效果，这里仍然采用Sukkar提出的

方法为基线似然比特征，驻留特征所需的参数由

863语音库训练得到，对于OLG特征，每帧取得前30个最佳状态来计算在线垃圾分数。

图3-6联合关键词预测特征的DET曲线比较

基于filler模型的语音关键词识别

下载：基于filler模型的语音关键词识别.doc

最近浏览

最新搜索

站内搜索