[标签:标题]
人声源定位的原理与能力评估方法 本文关键词:人声,原理,定位,评估,能力
人声源定位的原理与能力评估方法 本文简介:人声源定位(soundlocalization)是听者对声源空间位置的判定,包括声源的方位角位置、声源与听者的距离以及运动声源的运动速度的判定[1]。声源定位是人与动物对环境感知的一种基本方法,如果声源定位能力降低或丧失则会严重影响患者真实声环境下的言语理解及日常生活,如:不能正确避让交通车辆等[2
人声源定位的原理与能力评估方法 本文内容:
人声源定位 (sound localization) 是听者对声源空间位置的判定, 包括声源的方位角位置、声源与听者的距离以及运动声源的运动速度的判定[1]。声源定位是人与动物对环境感知的一种基本方法, 如果声源定位能力降低或丧失则会严重影响患者真实声环境下的言语理解及日常生活, 如:不能正确避让交通车辆等[2]。耳间时间差 (interaural time difference, ITD) 和耳间强度差 (interaural level difference, ILD) 是声源定位的主要信号, 1948年Jeffress就提出了耳间时间差的“内部延迟”的中枢编码机制;国内梁之安等[3]1966年测试了人垂直方位角及水平方位角的角度偏差值;崔庚寅等[4]测试了人耳对ITD信号的敏感性, 结果显示ITD在15~26μs之间即能对声源定位。近年来基于听觉康复水平的提高以及人工耳蜗植入等广泛开展, 为使患者获得完整双耳听觉, 学者们开始重视病理状态下或听觉康复后的声源定位能力研究[5~7];但是, 目前开展声源定位临床测试的医疗机构仍然不多, 声源定位整体测试评估工作仍然进展较慢, 这与临床的需求极不匹配[8], 原因可能是多数听力学工作者对此还比较陌生, 国内也没有规范的声源定位评估技术标准, 这些因素制约了声源定位临床评估的开展。因此, 本文对声源定位的基本生理学基础及行为学评估策略进行回顾, 希望为声源定位临床评估的广泛开展提供参考。 1、人声源定位的心理声学表现 声音信号携带的信息包括强度、频率和频谱特点。人对声源位置的计算及编码依赖于声音到达两耳时的时间与强度的不同, 即ITD和ILD, 以及经过躯体及外耳对声音信号改造后的频谱特征, 即耳廓波谱信号 (spectral shape cues, SSC) 来确定声源的空间位置[9];如果是连续变化的位置信号, 听觉中枢尚可计算出声源移动的大概速度[1]。 1.1、耳间时间差 (ITD) 低频声 (1 500 Hz以下) 波长较长, 约22.87cm以上, 而成人两耳间距离约20cm, 因此低于1 500 Hz的声波能够绕过头颅遮挡传至对侧耳且几乎不产生能量损耗 (低频声两耳间强度差约1~2dB, 可以忽略不计) 。但由于声源距两耳的距离不同, 使得声波 (速度343m/s) 在不同方位到达两耳的时间不同, 产生耳间时间差 (图1、2) 。当声源在正对一侧耳时, 声音到达两耳的距离差异最大 (为两耳的间距) , 声音到达两耳间的时间差也最大, 约600μs, 表现在行波上就是两耳声波之间的相位不同, 听觉中枢依据两耳声波的相位差 (interaural phase differences, IPD) 来计算声源位置, 耳间时间差在10μs即可被分辨[9]。低级中枢存在拓扑排列的重合探测 (coincidence detection) 神经元, 接受来自两侧冲动的汇集, 当因声源与头位置关系产生的ITD被内部延迟 (internal delay) 准确地弥补或代偿时, 两耳传入信号则同时到达重合探测神经元, 并引起重合探测神
经元的最大放电来编码水平方位角位置[10]。
图1 耳间时间差示意图 频率1kHz的声波, 到达两耳时强度几乎相同, 无明显差异;但是到达的时间不同 (250μs) , 使得两耳所感受到的声波所处的相位不同。图示为1kHz声波的相位差为1/4个波长 1.2、耳间强度差 (ILD) 中高频声 (>2 000 Hz) 频率较快, 波长较短, 两耳间声波的相位差 (IPD) 太小, 不能为中枢提供足够有效的定位信号 (图3) , 此时, 耳间强度差变大。高频声波长较短, 不能绕过头颅的阻挡, 声音到达对侧耳时强度产生了衰减, 即头影效应 (head shadow effect) 。人的头颅直径约17.5~20cm, 与1.96~1.70kHz的声波波长相当;由于头的反射和遮挡作用, 使距离声源近的耳接收到的信号比远离声源的耳接收到的信号强, 导致两耳所感知的声音强度不同, 即ILD。人耳对ILD的最小探测阈值是1dB左右, 梁之安等[3]报道人ILD的辨别阈是0.7dB。ILD的大小随刺激声频率的增加而增大, 90°处声源刺激声为4kHz时ILD值约为20dB, 当频率增加到10kHz时ILD增加到35dB[11]。
图2 不同位置声波到达两耳所产生的时间差示意图 其中, 在左右侧耳对应位置的声源所产生的耳间时间差最大, 约600μs, 声源在正前方或正后方时耳间时间差为0μs
图3 耳间强度差示意图 频率5kHz的声波, 到达两耳时相位相差较小 (25μs) , 中枢依据这一相位差定位较为困难。但是, 由于其波长较短, 左侧声源的声波传导至右侧耳时受到头颅的阻挡, 使得左耳感受到的强度明显大于右耳 (ILD) 1.3、波普特征信号 在侧面, 由耳间连线为轴而延伸的椎体面上对应位置的ITD与ILD相同, 因此在这个椎体面, 耳间信号在上下或前后的方位角定位上只提供含糊的定位信息, 即“混淆椎体” (the cone of confusion) 效应[12] (图4) , 此时需要耳廓的辅助, 如果一个声音中包含宽带高频, 外耳 (主要是耳廓) 可以帮助解决混淆椎体的影响。声波在卷曲的外耳被共振增强和反射减弱, 使声波在传向鼓膜的同时被改变。在这个过程中, 声波具有了基于其起源位置的独特的波谱特征信号, 可以克服“混淆椎体”的影响, 来辅助ITD与ILD信号分辨前后与左右[13]。耳廓反射产生新的信号和原来的信号混合在一起形成“波峰滤波”, “波峰滤波”具有特征性的波峰和波谷, 并以此来决定垂直方位角的声源定位 (图5) 。由于频谱信号不需要两耳之间的信号比较, 同时单耳听觉和双耳听觉在垂直方向上的声源定位能力几乎没有明显差异, 因此频谱信号称为“单耳信号”[12]。低频声的方位角信号的波普特征主要由躯体影响形成, 高频的方位角信号 (>5kHz) 主要由外耳及耳廓形成的波谱特征来呈现 (垂直方位角的确定及混淆椎体的分辨) 。只有高频声 (>5kHz) 能够提供有效的耳廓波谱信号, 而低频声所提供的波谱信号非常有限, 几乎不能为中枢所利用, 因此, 高频听力下降的患者前后分辨能力及垂直声源定位能力显着降低。 现实声环境下, 人声源定位的高级中枢会结合以上信号进行再次加权计算, 依据声信号的特点, 每种信号在中枢计算过程中的权重存在差别, 但并非完全依赖某一信号。只是在临床测试和实验研究时, 常将各个信号分解开来测试与研究。
图4“混淆椎体”效应示意图 在耳间连线为轴的椎体面上, 如A”和A处、B”和B处声源具有同样的ITD及ILD, 此时, 中枢无法分辨B”与B, 即出现了混淆, 此时需要SSC信号的辅助
图5 耳廓反射产生的波谱信号示意图 在声源由下 (-45°) 向上 (+45°) 变化时, 实际波谱的中央切迹 (箭头所指) 由低频向高频迁移, 这一特征性的波谱为中枢提供垂直方位角定位信息 2、声源定位的中枢编码机制 声源定位信号的编码过程在分离的脑干核内, ITD的编码在上橄榄内侧核 (medial superior olive, MSO) , ILD的编码在上橄榄外侧核 (lateral superior olive, LSO) , 波谱特征的编码在耳蜗背核。哺乳动物
主要通过ILD和ITD定位水平方位角声源位置, 在各级听觉中枢几乎均存在对ILD和ITD敏感的神经元。两耳信号整合在脑干听觉核团的三个水平几乎同时进行, 第一是上橄榄复合体 (superior olivary complex, SOC) , 第二是外侧丘系核 (nucleus of the lateral lemniscus, NLL) , 第三是下丘 (inferior colliculus, IC) 。斜方体外侧核 (lateral nucleus of the trapezoid body, LNTB) 和斜方体内侧核 (medial nucleus of the trapezoid body, MNTB) 为参与声源定位的主要听觉中继核, 接受耳蜗球形细胞的兴奋性传入, 中继后主要投射到MSO和LSO。LSO直接接受同侧耳蜗核的谷氨酸能神经纤维的兴奋性传入, 而对侧耳蜗核的谷氨酸能兴奋性传入先传入与LSO同侧的MNTB, 经过MNTB中继后转换为甘氨酸能抑制性传入, 再传至LSO[14], LSO通过整合两侧的传入编码ILD (图6) ;这些传入在LSO单个细胞上依据音频定位精确汇集, 使LSO神经元以频率特异的方式提取ILD。
图6 LSO神经元对两耳信号的整合 绿色箭头表示兴奋性传入, 红色箭头表示抑制性传入, 右侧通路的信息传递为实箭头, 左侧信息传递以虚箭头表示;Glu为谷氨酸, Gly为甘氨酸 同侧耳蜗神经 (cochlear nucleus, CN) -LSO为兴奋性谷氨酸能突触, 对侧CN-同侧MNTB为兴奋性谷氨酸 (Glu) 能突触, MNTB-LSO为抑制性甘氨酸 (Gly) 能突触。LSO通过接受同侧CN传来的兴奋性谷氨酸传入和同侧MNTB传来的抑制性甘氨酸传入, 整合两耳强度信号。ILD的两耳整合过程可以看作是一个简单的比较计算机制, 是一个相对简单的减法过程 (图7) , 并形成LSO神经元对ILD敏感性的函数曲线, 这个函数曲线大体呈S型 (图8) 。如果声音来自对侧耳, 那么对侧耳感受的强度就大 (对侧CN传入经MNTB换能后为抑制信号) , 此时, LSO神经元被抑制;如果声音来自同侧, 同侧耳感受的强度大 (同侧CN到LSO为兴奋性传入) , 此时, LSO神经元被兴奋。在生理范围内, 不同的ILD对应不同的LSO放电率[9]。
图7 兴奋性 (绿色) 和抑制 (红色) 传入在LSO神经元 (橙色) 的分布示意图 LSO所示为主细胞的细胞体和树突区域
图8 一个典型的LSO神经元编码ILD的S形函数曲线 MSO是哺乳动物ITD编码的主要位置, MSO接受传入信息的途径比LSO多, 目前知道有四条传入途径参与ITD的编码, 其中兴奋性传入有两条, MSO同时接受两侧耳蜗腹核 (ventral cochlear nuclei, VCN) 的兴奋性传入 (谷氨酸能递质) 。VCN的球状丛细胞 (spherical bushy cells, SBCs) 兴奋性传入投射到MSO双极细胞, 这一传入具有极高的锁相能力和时间精确性;同时, 来自同侧SBCs的传入与MSO外侧的树突构成突触, 而来自对侧SBCs的传入与MSO内侧的树突构成突触, 这样的排布能够提高两耳重合探测。MSO的主要抑制性传入途径有两个, 均由甘氨酸能递质介导, 分别来自同侧LNTB和MNTB, 其中同侧MNTB传入为主, MNTB的抑制性传入受对侧VCN的球状丛细胞 (globular bushy cells, GBCs) 兴奋性传入支配。MSO另一个抑制性传入的来源是同侧的LNTB, LNTB的抑制性传入受同侧VCN的GBC兴奋性传入的支配 (图9) ;同侧VCN-同侧LNTB具有特征性的endbulbs of Held突触, 而同侧VCN-对侧MNTB的通路中, MNTB具有Calyx of Held突触, 在听觉脑干中Calyx of Held轴突直径最大, 接受来自VCN的GBC传来的兴奋性信号。上述两条抑制性通路的解剖结构均与其时间精确的抑制能力相一致, 使得这一传递对纯音具有高保真的锁相及极为精确的时间编码。但是, 目前仍然有诸多问题未能明确, 如MSO神经元是如何利用四个传入的信息来精确的编码ITD。 整体上ITD的编码也是依据MSO神经元的放电率。MSO神经元最大放电的出现需要具备几个条件:首先是频率, MSO神经元按照频率进行拓扑排列, 单个MSO神经元对不同频率的纯音放电率不同, 而能引起MSO神经元最大放电的频率就是该神经元的特征频率 (characteristic frequency, CF) 或最佳频率 (best frequency, BF) ;其次是重合探测, 每一个频率带的MSO神经元具有不同的ITD敏感性, 当两耳刺激传入因锁相而重合时, MSO神经元出现最大电位。MSO调谐ITD神经元在声源的对侧半球, 同侧声源刺激较对侧刺激