基于Filler模型的语音关键词识别
图3-6给出了联合置信特征进行语音确认的DET曲线,表3-2给出了确认方法的EER比较。
表3-2 联合关键词预测特征的EER Method EER 0.2195 0.2263 0.1925 0.1882 可以看出,OLG特征的确认效果不如似然比方法。联合似然比和OLG置信特征后的EER比似然比方法对应的EER下降了0.027,这说明这两个置信特征具有一定的互补性。进一步,通过加入驻留特征后使系统的DET曲线变得比较平滑,系统稳定性有所增强。联合似然比、OLG和驻留概率这三种置信特征使得系统的EER下降为0.1882,比基线系统的EER下降了0.0313,比联合两种特征的方法EER下降了0.0043。实验结果说明,我们选择的三个特征具有一定的互补性,联合这些特征能在一定程度上提高语音确认效果。
31
基于Filler模型的语音关键词识别
第四章 总结与展望
4.1 内容总结
本文对基于Filler模型的关键词检测技术进行了研究,对该关键词检测系统的设计、关键词检出策略和置信度评估进行了分析,并通过实验证明了其有效性。本文主要贡献为:基于垃圾模型的关键词系统中的语音确认算法。在基于垃圾模型的关键词系统中,常利用似然比方法进行语音确认。提出了一种基于竞争模型的加权似然比融合语音确认方法,通过联合目标模型与其竞争模型的似然比对子词的置信度进行估计,引入了最小确认错误准则训练融合的权重系数。实验表明该方法能够有效提高语音确认效果。在置信预测特征选择方面,联合关键词动态垃圾得分、似然比和驻留概率作为预测特征计算关键词候选的置信度,在使系统实时性没有明显下降的情况下明显提高系统的拒识性能。
4.2 研究展望
本文虽然对基于Filler模型的关键词检测系统进行了一些初步研究,提出了一些新方法和新思路,取得了一定的成果,但同时也发现了一些不足之处:
·高层语言知识的应用。主要研究从声学角度出发检测关键词,没有涉及语言本身的知识。然而语音是语言的载体,自然发音是受语言驱动而产生的。识别时如果缺乏语言模型指导,识别结果的错误率就会非常高,如何将将语言本身的规则和知识与统计的方法结合在一起,IBM的Jonathan Mamou指出,词层检索可以提高检索引擎的准确性,音素检索可以提高检索引擎的召回率。从不同层次(词层、字层、发音层)进行关键词检测将是进一步的研究目标,另外,不同层次的检索结果如何融合也将是我们的思考问题。
·确认模型的自适应和先验知识的应用。声学模型自适应和语言模型自适应是提高语言识别鲁棒性的方法。在基于垃圾模型的关键词系统中,通过似然比方法进行语音确认,这种方法需要目标模型和反词模型。我们认为目标模型和反词模型也都应该随着应用环境能够自己调整模型参数,以提高置信度准确度。下一步工作中,将引入自适应技术到置信度计算模型上来。
32
基于Filler模型的语音关键词识别
最后,由于作者的学识水平有限,一些问题的研究有待于进一步深入、完善, 文中不当之处难免,恳请教员指导。
33
基于Filler模型的语音关键词识别
参考文献
[1] 王炳锡, 屈丹等. 实用语音识别基础[M]. 北京: 国防工业出版社, 2005. [2] 严斌峰, 口语对话系统中关键词识别的研究[D]. 清华大学博士学位论文, 2004. [3] 陆正中, 口语对话系统中的语音识别研究[D]. 清华大学硕士学位论文, 2002. [4] I., Szoke. Hybrid word-subword spoken term detection[D]. Ph.D. Thesis, Brno University Of
Technology, 2010.
[5] Dong Wang. Out-of-Vocabulary Spoken Term Detection[D]. Ph.D. Thesis, University of
Edinburgh, 2010.
[6] Jiang Hui. A Dynamic In-Search Data Selection Method With Its Applications to Acoustic
Modeling and Utterance Verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2005, 13(5): 945-955.
[7] Ka-Yee Leung, Manhung Siu. Articulatory-feature-based confidence measures[J]. Speech
Communication, 2005: 1-21.
[8] S.Cox and S.DasmahaPatra. High-level Approaches to Confidence Estimation in Speech
Recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2002, 10(7): 460-471.
[9] Ruhi Sarikaya, Yuqing Gao and Michael Picheny. Semantic Confidence Measurement for
Spoken Dialog Systems[J]. IEEE Transactions on Speech and Audio Processing, 2005, 13(4): 534-545.
[10] Jiang Hui. Confidence measures for speech recognition: A survey[J]. Speech Communication,
2005: 455-470.
[11] 梁家恩. 语音识别中置信度研究与应用[D]. 中科院自动化所博士学位论文, 2007. [12] 陈一宁. 连续语音流中关键词识别算法的研究[D]. 清华大学博士学位论文, 2004. [13] 张国亮. 口语对话系统中语音识别的研究[D]. 清华大学博士学位论文, 2003. [14] 孙成立. 语音关键词识别技术的研究[D]. 北京邮电大学博士学位论文, 2008.
34
基于Filler模型的语音关键词识别
致谢
这篇论文的内容和我们的日常生活有很大的联系,在完成论文的过程中,我阅读了一些刊物书籍,详细的阅读了教员所给的资料,从中了解了很多关于语音关键词识别的知识,可谓受益良多。撰写的过程中我引用了一些资料文献,由于时间比较仓促,及相关知识的缺乏,论文不可能十全十美,个中的不足还望教员能指出、指导。
本文是在xxx教授的热情关心和指导下完成的,他渊博的知识和严谨的治学态度使我受益匪浅,对顺利完成本课题起到了极大的作用。在此向他表示我最衷心的感谢!
在论文完成过程中,本人还得到指导教员xxx的热心帮助,他对我的毕业设计予以悉心地指导,提出了很多建议,并细心授予写论文的心得。本人向他表示深深的谢意!
最后向在百忙之中评审本文的各位专家、老师表示衷心的感谢!
35