心理声学模型中音调探测算法的改进
1 引 言
人类社会中最基本的交流形式是语言,人类听觉系统作为声音信号的接收器起到重要作用。随着数字时代的到来,音频压缩技术得到了广泛的应用,高质量、低比特率的音频信号因而可以在网络及通信系统中传输。心理声学模型对这一切的实现发挥着关键的作用。目前高保真音频中要求的高精度工程模型(高精度感知模型)还没研究出来,音频编码压缩算法仍使用普通的心理声学模型(也叫感知模型)提高编码效率。国际标准化组织在MPEG伴音系统中提出了两个心理声学模型,但这两个模型在实际应用中还有许多要改进的地方。国内外许多机构正在从事这个领域的研究,而研究的实现必将给未来的人们带来更为神奇的听觉感受。
2 心理声学模型应用原理
心理声学模型在音频编码器中的应用主要是利用音频信号的/无关性0。无关性通过在信号处理过程中所运用的几个心理声学原理来体现:绝对听觉阈值、临界子带频率分析、同时掩蔽、沿耳蜗隔膜的掩蔽扩展、时阈掩蔽及感知熵。心理声学原理把整个信号频带以临界频带划分,估计出各临界子带的掩蔽阈值,得到信掩比,并计算出各临界子带的最小掩蔽阈值。编码器利用声学模型计算结果对量化噪声的频谱进行适当整形,使每个临界子带内的量化噪声功率小于临界子带的最小掩蔽阈值。这样,噪声能够被音频信号所掩蔽,满足听觉系统的掩蔽效应,达到感知失真最小。感知编码既降低了量化的编码率,又提高了音频编码器的主观质量。
如上所述,心理声学模型最重要的特性是掩蔽特性。人耳能否听见声音,取决于声音的频率和幅度是否高于这种频率下的听觉阈值。以一个中心频率为1kHz、声音强度为50dB的音频信号为例,掩蔽特性见图1[1]。图中细实线表示的是安静环境中人耳能听到的最小声音幅值,即安静阈值。粗实线为掩蔽阈值,它包围区域为1kHz屏蔽信号的掩蔽区域,在掩蔽区域内的信号将会被掩蔽而听不见,低频区的频率分辨率高于高频区。
由图1可得结论[2]:(1)如果信号频率组成有低于安静阈值的部分,那么这部分信号可舍弃而不被人耳觉察。(2)在掩蔽范围内,如果某一频率的声音幅度小于另一声音的掩蔽阈值,则该声音被掩蔽。(3)如果噪声幅度在某一声音的掩蔽阈值内,该噪声也被掩蔽。
心理声学模型算法中的掩蔽特性有两种类型:音调掩蔽和噪声掩蔽[3]。音调掩蔽是音调掩蔽噪声(TMN),噪声掩蔽包括噪声掩蔽音调(NMT)和噪声掩蔽噪声(NMN),这些掩蔽特性决定了所要求的信噪比(SNR)。其中,音调掩蔽噪声和噪声掩蔽音调的量化计算在临界子带里分析,而噪声掩蔽噪声并不限制于临界子带,是在各个临界子带之间产生,用掩蔽扩展函数来量化分析。
相关文章
- 2023-10-19一种改进的原子力显微镜摩擦力标定方法
- 2023-01-10CD系列飞锯控制系统的应用
- 2022-08-24ASCO双电源开关在地铁项目中的应用
- 2024-08-05炮管直线度测量中母线与轴线直线度关系研究
- 2023-05-12便携式激光生化探测仪
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。