一种噪声环境下的语音端点检测方法
1 引 言
语音信号的端点检测是语音识别中一个非常重要的步骤, 所谓端点检测就是正确地标注出语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置, 从语音信号中排除无声段。一个好的端点检测方法应该具备可靠性, 鲁棒性, 准确简单, 能够进行实时处理和不需要噪声的先验知识等特点[1]。传统的方法是利用短时过零率来检测清音, 用短时能量来检测浊音, 两者相配合便实现了信号信噪比较大情况下的端点检测。但是在信噪比较小的环境下,上述两种方法便失去了作用, 不能进行正确的端点检测了[2,3]。本文通过对含噪语音信号的时频域研究,提出了一种基于 Matching pursuits 时频原子分解的端点检测方法, 本方法使用 Matching pursuits算法对含噪信号进行分解, 然后再利用文献[1]中的方法对信号进行魏格纳变换, 可以完全去除信号的魏格纳交叉干扰项, 这使得语音信号和噪声信号在时频平面上具有较直观明显的魏格纳能量分布, 利用这个特点再进行端点检测, 便能准确检测出语音信号端点。
语音端点检测的效果评价有两种基本的方法:
(1) 以手工标定端点为标准来判断语音端点检测的准确性。
(2)将该语音端点检测方法应用于语音识别系统,以最后语音识别系统的识别准确率的高低作为判断端点检测方法准确性的依据。
因语音识别系统的识别准确率与多种因素相关, 用来评价端点检测方法客观性差[4]。本文中采用了与手工标注端点比较的方法来评价。
2 Matching pursuits 时频原子分解算法
信号的原子分解方法近年来发展很快, 它在一确定的函数集合中自适应地选择一些函数来表示一个信号, 函数集合中的每个函数都称为原子, 在所取的函数集一致的情况下, 不同的算法所得到的结果是不一样的, 因为不同的算法所要突出的特征不同。Matching pursuits 是原子分解理论的具体算法之一, 它根据最佳匹配的原则自适应的把信号分解为一系列原子函数的线性叠加[1]。根据文献[1]、[5]、[6],当信号 f(x) 是实信号, 使用 Gabor 实时频原子字典可以得到一系列实展开系数。选取分解函数集为
其中原子函数为
其中, 因为高斯窗函数具有良好的时频聚焦性, 所以选择g(t)为高斯窗, 即g(t)=21/4- "t2。K(r,")为归一化因子。那么信号便可以分解为
3 噪声环境下基于 Matching pursuits时频原子分解的端点检测方法
根据第 2 节的结论, 含噪语音信号可以被分解为n 个时频原子之和, 即这 n 个时频原子能表征出原信号所具有的信息和特征, 所以, 使用时频分解方法来表征一个信号, 可以更加容易地得到在某个时间段内频率的个数和频率的变化。n 的大小直接决定了含噪语音信号被分解的好坏和分解所需时间的多少, 即 n越大, 信号被分解得越好, 特征也被表现得越好, 但分解所需的时间越多。因为是对语音的端点进行研究,只需部分特征而非全部特征, 所以给定一段信号, 并不需要追求过分大的 n 值, 实验表明, 综合以上因素,n 值取在 500~1000 之间对于检测端点比较恰当。在时频域内对这 n 个原子的参数进行处理, 便可以得到信号的端点。为了叙述方便, 先给出一段含噪语音信号经过分解后在时频平面的魏格纳能量分布图, 图 1为纯净语音, 含噪语音及其时频能量分布图和屏蔽原子后的能量图。其中纯净语音是一段 0.6s 的语音信号, 采样率为 44 100Hz, 16bits, 经过预加重滤波, 内容为“我曾经有”, 加入高斯白噪声后, 其信噪比为1.4dB, 取时频原子数 n=1000。为了直观效果更好, 屏蔽掉时频分解系数an2≤0.1的原子。
相关文章
- 2023-03-04光学系统双胶合透镜的替代设计法
- 2023-02-22基于聚焦离子束注入的微纳加工技术研究
- 2024-04-10基于格型陷波滤波器的科里奥利质量流量计信号处理方法
- 2023-02-09光电位置敏感器件的非线性误差分析及其在医学中的应用
- 2024-09-15基于高精度通用运算放大器的简易心电图仪设计
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。