以太网环境下的实时音频传输的研究
随着网络技术的快速发展,VoIP技术得到了广泛的应用。特别是在局域网环境下,VoIP凭借其应用便捷,价格低廉的优点,已经成为了人们即时交流的主要方式之一。从实际应用效果来看,时延成为影响VoIP话音质量的关键因素。ITU-TG.114规定,对于高质量语音可接受的时延是300 ms。一般来说,如果时延在300~400 ms,通话的交互性比较差,但还可以接受。时延大于400 ms时,则交互通信非常困难,所以如何确保音频实时传输已经成为VoIP技术中首要解决的问题之一。
本文首先介绍了VoIP原理和基本实现流程,然后对以太网环境下实时音频传输进行了实验研究,分析了缓冲区设置和音频API调用对音频时延的影响,并根据分析结果,提出了解决以太网音频时延的对策。
1、VoIP原理及其基于PC平台的实现流程
VoIP的基本原理是:发送端通过语音的压缩算法对采集到的原始语音数据进行压缩处理,然后把这些压缩后的语音数据按TCP/IP标准进行打包,经过IP网络把数据包发送至接收端;接收端将分组话音重组,经过解压处理后,恢复成原来的语音信号,从而达到由网络传送语音的目的。
图1为基于PC平台的VoIP实现流程。如图所示,基于PC平台的VoIP应用的基本实现包括接收模块、发送模块和网络传输三部分构成。其中,发送模块主要由音频采集、音频编码、分组话音封装等部分组成。接收模块的实现过程一般由发送模块的逆过程构成,主要包括分组话音的接收,音频解码及音频播放等部分组成。
图1 基于PC平台的VoIP实现流程
下面分别介绍各部分功能以及常规的实现方式。
音频采集和播放模块主要对音频信号进行采集和回放操作,完成模拟语音和数字语音之间的转换。它主要通过音频API函数来实现其功能。在Windows操作系统中,常见的音频API函数有:WaveX、DirectSound和ASIO等。
音频编码与解码模块主要完成对语音数据的压缩与解压功能。在发送端由于采集到的原始语音数据量比较大,需要对原始语音数据以特定的音频格式进行压缩编码。同理,在接收端需要对接收到的语音数据进行解压还原。在Windows操作系统中,ACM(Audio Compression Manager,音频压缩管理器)管理着系统中的所有音频编码译码器(CODEC),负责对语音数据进行压缩与解压缩。CODEC是一小段用于压缩(Compress)及解压缩(Decompress)数据流的代码。CODEC可以是由操作系统本身附带的CODEC,也可由系统中所安装的应用程序安装其他的CODEC。
分组话音封装和分组话音接收模块主要是为压缩后的语音数据加上相应的报头,使其成为一个语音包,然后送给传输模块。TCP/IP协议体系中有两个不同的传输层协议,分别是面向连接的传输控制协议TCP和无连接的用户数据报协议UDP。这两种协议的不同之处在于UDP提供无连接的服务,在传输数据之前不需要先建立连接,远程主机接收到UDP数据后,不需要给出任何确认;而TCP则提供面向连接的服务,在传送数据之前必须先建立连接,数据传送结束后要释放连接。对于音频应用来说,一般使用UDP协议。这是因为虽然UDP协议不提供错误重传的功能,但是它可以保证音频数据的实时性。
相关文章
- 2021-11-27冷轧汽车用TRIP钢的高温热塑性
- 2022-12-16移相式点衍射干涉仪的几个关键技术
- 2023-10-22近场声全息测量研究
- 2021-10-20开关电源功率因数校正的DSP实现
- 2023-04-29超声波液体流量计的二合一前置预处理
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。