语音识别及其关键技术

语音识别及其关键技术一、语音识别概述

语音识别技术以语音信号处理为研究对象，涉及语言学、计算机科学、信号处

理、生理学、心理学等诸多领域，是模式识别的重要分支。该技术有非常广阔的应

用前景，从６０年代至今，世界许多著名公司不惜投入巨资进行开发研究。我国的

北京大学和中科院声学研究所一直紧跟国际水平，进行汉语语音识别技术的研究工

作。５０年代，是语音识别研究工作的开始时期，它以贝尔实验室研制成功可识别

十个数字的犃狌犱狉狔系统为标志。６０年代，计算机广泛应用于语音识别的研究

工作中，动态规划和线性预测分析技术是这一时期的重要成果。７０年代，语音识

别的研究取得了突破性进展。基于线性预测倒谱和动态时间规整技术的特定人孤立

语音识别系统被研制成功，提出了矢量量化和隐马尔可夫模型理论。８０年代，语

音识别的研究工作进一步深入。其标志是人工神经元网络在语音识别中的成功应用

。９０年代，随着计算机技术的飞速发展，语音识别正从研究走向实用，其研究成

果已达到相当高的水平。２０００年，正象美国微软公司总裁所说的那样，语音识

别技术将使计算机丢掉键盘和鼠标。这无疑将改变我们许多人的工作和生活方式。

二、语音识别所面临的问题

尽管语音识别的研究工作迄今已近５０年，但仍未有突破性进展，主要原因如下：

１．语音识别系统的适应性差。全世界有近百种官方语言，每种语言有多达几

十种方言，同种语言的不同方言在语音上相差悬殊，这样，随着语言环境的改变，

系统性能会变得很差。

２．在强噪声干扰环境下语音识别困难。由于语音数据大部分都是在接近理想

的条件下采集的，语音识别的编码方案在研制时都要在高保真设备上录制语音，尤

其要在无噪环境下录音。然而，当语音处理由实验室走向实际应用时，环境噪声的

存在所带来的问题就变得越来越重要。特别是线性预测作为语音处理技术中最有效

的手段，恰恰是最容易受噪声影响的。

３．体态语言难以识别。有人在讲话时习惯用眼神、手势、面部表情等动作协

助表达自己的思想。由于这种体态语言的含义与个人习惯、文化背景、宗教信仰及

生存地域等因素有关，其信息提取非常困难。

４．对于?类由中枢神经控制的?忆机理、听觉理解机理、联想判断机理等人们目前仍知之甚少。

三、语音识别系统

语音识别系统的分类方式及依据如下：?

根据对说话人说话方式的要求，可分为孤立词语音识别系统，连接词语音识别

系统和连续语音识别系统。?

根据对说话人的依赖程度，可分为特定人语音识别系统和非特定人语音识别系统。?

根据词汇量大小，可分为小词汇量、中等词汇量、大词汇量及无限词汇量语音识别

系统。

１．孤立单词识别系统孤立单词指单词之间有停顿，这可使识别问题大为

简化。因为单词的端点检测（即检测单词的起点和终点）比较容易，而且单词之间

的协同发音影响可减至最低。此外，一般对孤立单词发音比较认真，由于单词之间

必须有停顿，读起来就不能太流利。鉴于以上原因，孤立单词识别系统存在的问题

最少，其许多技术可以用于单词挑选和连续语音识别系统。

２．连续语音识别系统连续语音识别系统有两个重要问题是孤立单词识别

系统所没有的：

（１）切分，即对单词之间边界位置的确定。因为语言中短语的数量太大，对

整个短语进行识别显然是不可能的，必须把输入的语流切分为更小的组成部分。这

就要求系统必须能够识别单词之间的边界。这一点比较困难，因为确定单词之间的

边界位置没有现成的方法。

（２）发音变化，即关联语言的发音比孤立单词发音更随便，受协同发音的影

响更为严重。解决上述问题通常采用扩展动态时间规整技术。

３．语音理解系统语音理解一词出自美国远景研究计划局资助的一个庞大

的连续语音识别研究项目，其目标称为语音理解系统。众所周知，只有人才能很好

地识别语音，因为人对语音有广泛的知识，人对要说的话有预见性和感知分析能力

，因此，指望机器对语言的识别能力超过人是不现实的，最好的办法是使机器也能

语音识别及其关键技术

下载：语音识别及其关键技术.doc

最近浏览

最新搜索

站内搜索