第二章 多媒体音频处理技术
本章主要学习:
了解声音的基本概念及其属性特征、声音的数字化原理、常见的音频文件及其特点,等等。
需要掌握的内容:
Cool Edit Pro2.0声音编辑软件的使用方法。
第一节 数字音频基础
一、声音的基本概念
声音是因为物体的振动而产生的。机械振动或气流扰动引起周围弹性媒介发生波动,产生声波。产生声波的物体称为声源,如乐器、音箱等。声波所及的空间范围称为声场。声波传入到人耳,经过人类听觉系统的感知就是声音。声音主要具有以下3种属性。 1.音调
音频信号可分为语音信号和非语音信号两类。语音信号包含清楚、丰富的意义和内涵,是人类进行信息交流特有的形式;非语音信号主要包括音乐和自然界存在的其他声音,非语音信号的特点是不具有复杂的语义和语法信息,识别较简单。 2.音色
音色,即声音的特色。声音分纯音和复音两种类型,纯音是指振幅和周期均固定的声音;复音则是指具有不同频率和不同振幅的声音混合。大自然中存在的声音绝大部分是复音。在复音中,最低频率的声音是“基音”,它是声音的基调,其他频率的声音称为“谐音”,也叫泛音。基音和谐音是构成复音音色的重要因素。各种声源都具有自己独特的音色,例如各种乐器的声音、人的话语、动物的叫声等,人们绝大部分情况下是依据音色来辨别声源种类的。
1
3.音强
音强是声音的强度,也称为声音的响度,即常说的“音量”。音强与声波的振幅成正比,振幅越大,强度越大。磁带、CD光盘等声音载体中的声音强度是一定的,但是可以通过播放设备的音量控制来改变聆听时的响度。
由于物体在振动的时候并不总是规则的,所以声音又有“乐音”和“噪音”之分。规则振动发出的是乐音,反之则称为噪音。
二、声音的质量
有3种常用方法可以衡量声音的质量:一是用声音信号的带宽来度量,二是客观度量,三是主观度量。评价语音质量时,经常采取复合法评估,即采取两种以上的方法综合评估。 1.带宽度量
图1显示了几种常见的声音带宽,带宽越大,声音的质量越好。其质量等级由高到低依次是CD、FM、AM和电话。
图1 几种觉的声音带宽对比
2.客观度量
声音客观质量的度量主要用信噪比(Signal to Noise Ratio,SNR)来度量。信噪比是指声源产生最大不失真声音信号强度与同时发出噪音强度的比率,通常以S/N表示,以分贝(dB)为单位,信噪比越高,表示声音的质量越好。 3.主观度量
与客观度量相比较,应该说人的感觉更具有决定意义。感觉上的、主观上的印象应该成为评价声音质量不可缺少的部分。有的学者认为,在语音信号编码中使用主观度量比使用客观度量更加直接和恰当,更有意义。
三、数字音频压缩标准
2
(1)音频压缩方法概述
在多媒体音频处理中,一般需要对数字化后的音频信号进行压缩编码,使其成为具有一定字长的二进制数字序列,并以这种形式在计算机内传输和存储,最后由解码器将二进制编码恢复成原来的音频信号播放,如图2所示。
图2 音频压缩处理流程
所谓压缩编码技术,就是指用某种方法使数字化信息的编码率降低的技术。音频信号能进行压缩编码的基本依据有两个:一是声音信号中存在很大的冗余度,通过识别和去除这些冗余度,便能达到压缩编码率的目的;二是人的听觉具有一个强音能抑制一个同时存在的弱音的现象,这样就可以抑制与信号同时存在的量化噪声。另外,人耳对低频端比较敏感,而对高频端不太敏感,由此引出了“子带编码技术”。
一般来说,音频信号的压缩编码主要分为无损压缩编码和有损压缩编码两大类,无损压缩编码包括不引入任何数据失真的各种熵编码;有损压缩编码又分为波形编码、参数编码和混合编码。 1.熵编码
这是以信息论变长编码定理为理论基础的编码方法,如霍夫曼编码、算术编码和行程编码等。 2.波形编码
波形编码是利用采样和量化过程来表示音频信号的波形,使编码后的音频信号与原始信号的波形尽可能匹配。它主要根据人耳的听觉特性进行量化,以达到压缩数据的目的。波形编码的特点是适应性强,音频质量好,在较高码率的条件下可以获得高质量的音频信号,适合于高质量的音频信号,也适合于高保真语音和音乐信号。由于易受量化噪声影响,进一步降低编码率较困难。
波形编码方法有全频带编码(脉冲编码调制(PCM)、差分脉冲编码调制(DPCM)、自适应差分脉冲编码调制(ADPCM)、子带编码(自适应变换编码(ATC)、心理学模型)和矢量量化编码等。 3.参数编码
参数编码是将音频信号以某种模型来表示,利用特征提取的方法抽取必要的模型参数和激励信号的信息,并对这些信息编码,最后在输出端合成原始信号。其目的是重建音频,保持原始音频的特性。参数编码的压缩率很大,但计算量大,保真度不高,适合于语音信号的编码。 参数编码方法有线性预测(LPC)声码器、通道声码器、共振峰声码器等。
3