龙源期刊网 http://www.qikan.com.cn
基于AMDF的藏语语音基音周期检测
作者:杨顺元 于洪志
来源:《电脑知识与技术·学术交流》2008年第28期
摘要:基音周期是语音信号最重要的参数之一,它描述了语音激励源的一个重要特征。被广泛应用到语音合成、语音识别等领域。本文介绍了一种基于AMDF的语音基音周期检测方法,较好的提取了语音的基音周期。
关键词:藏语;基音周期;自相关;AMDF
中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)28-0100-03 Pitch Detection of Tibetan Phonetic Based on AMDF YANG Shun-yuan,YU Hong-zhi
(State Key Laboratory of National Languages Information Technology,Northwest University for Nationalities,Lanzhou 730030,China)
Abstract: Pitch is one of the most important parameters in phonetic signal.It describes an important character of phonetic excitation source. Pitch applies widely to phonetic synthesis and
phonetic recognition fields and so on. The thesis introduces an AMDF-based method that the effect of pitch detection is preferable.
Key words: tibetan;pitch;autorelation;AMDF 1 前言
基音是指发浊音时声带振动所引起的周期性,而基音周期是指声带振动频率的倒数。基音的提取和估计是语音信号处理中一个十分重要的问题,基音的变化模式成为声调,它携带着非常重要的具有辨意作用的信息。自从语音信号的研究以来,基音周期估计一直是个重要的研究课题,为此提出了很多方法,然而这些方法都有局限性;迄今为止,尚未找到一个完善的方法可以适用于不同的讲话者、要求和环境,这是因为基音提出有许多困难。 基音周期估计的困难主要在于语音变化的不确定性和变化性,主要表现在:
1) 语音信号常根据不同的发音而发生变化,这一变化降低了连续语音段的相关性,特别是在清浊音的过渡段以及基音周期发生抖动过程,语音波形变化更为剧烈,加上无周期性的清音段语音和背景噪声的影响,给基音周期的检测造成了许多障碍。
龙源期刊网 http://www.qikan.com.cn
2) 即使当发音稳定的时候,由于通过声门的脉冲幅度大小还是有区别的,如此一来,语音信号相当于被调幅处理了,也给基音周期的检测带来了困难。
3) 不同的人说话的基音周期频率分布有所不同,男性主要分布在60—200Hz范围内,女性和小孩主要分布在200—450Hz之间,基音检测所跨频率范围比较大,必然会降低基音检测的准确性。
基音周期的估计方法大致可以分为三类:
1) 波形估计法\直接由语音波形来估计基音周期,分析出波形上的周期峰值,包括并行处理法(PPROC)、数据减少法(DARD)等
2) 相关处理法。 计算语音信号的短时相关函数,根据相关函数的周期性来获得基音周期的估计,常见的有自相关函数法(MAUTO)、平均振幅差分函数法(AMDF)简化逆滤波法(SIFT)等。
3) 变化法。将语音信号变换到频域或者倒谱域来估计基音周期,比如倒谱法(CEP)等。其中相关处理法因为其抗波形相位失真能力强,且在硬件处理上的结构简单而被广泛应用。 2 提取基音周期的过程 2.1 预处理
由于声道的共振峰特性会对语音周期造成干扰,为了较为准确的估计基音周期,我们需要对原始信号进行预处理。预处理的途径有两条:
1) 用一个带通为60Hz—90Hz的带通滤波器对原始语音进行滤波,这里截止频率取900Hz,是因为既可以去掉大部分共振峰的影响,又可以为频率低于450Hz以下的基音保留一两次谐波。
2) 对原始语音进行中心削波,中心削波函数为 ■
其中中心削波电平CL约为最大信号幅度的60%—70%
本文中选用一个带通滤波器对原始语音进行滤波,滤波器的参数如下: H[20]=
龙源期刊网 http://www.qikan.com.cn
{.0035270585, -.0075853243, -.022130724, -.037701912, -.040792551, -.017618544, .037134223, .1139423,.18955371, .23657782, .23657782,.18955371,.1139423,.037134223, -.017618544, -.040792551,-.037701912,-.022130724, -.0075853243, .0035270585 };
2.2 短时自相关函数和短时平均幅差函数 一个时间离散确定信号的自关函数定义为: R(k)=■x(m+k)R(k)
如果信号是随机的或周期的,这时的定义是: R(k)=■■■x(m)x(m+k)
在任一种情况下,信号的自关函数表示法都是描述信号一定特性的一种方便的方法。例如,如果信号是以p个抽样为周期的,那么很容易给出: R(k)=R(k+p)
也就是说,周期信号的自关函数也以同样的周期为周期。自关函数的重要特性[21]还有: 1) 它是一个偶函数,即 R(k)=R(-k)
2) 存在最大值。对所有有: R(0)≥│R(k)│
3) 对确定信号,R(0)值等于信号能量;对随机信号或周期信号,R(0)值等于平均功率。 由于短时自相关函数是偶函数,所以写成: R(k)=R(-k)= ■ x(m)x(m-k)w(n-m)w(n+k-m) 若令hk(n)=w(n)w(n+k),则可以改写为: Rn(k)= ■[x(m)x(m-k)]hk(n-m)=[x(n)x(n-k)]*hk(n)
这意味着短时自相关函数可以视为[x(n)x(n-k)]通过冲激响应为hk(n)的数字滤波器的输出。