WO2017059678A1

WO2017059678A1 - 实时语音通话中的实时语音接收设备及降低延迟的方法

Info

Publication number: WO2017059678A1
Application number: PCT/CN2016/082225
Authority: WO
Inventors: 肖荣权
Original assignee: 乐视控股（北京）有限公司; 乐视致新电子科技（天津）有限公司
Priority date: 2015-10-08
Filing date: 2016-05-16
Publication date: 2017-04-13
Also published as: US20170105141A1; CN105897666A

Abstract

本发明实施例提供一种实时语音通话中的实时语音接收设备及降低延迟的方法。其方法应用于实时语音接收设备，包括：至少监控重采样模块的输入缓冲区中的数据量，所述重采样模块的输入缓冲区中的数据至少是解压缩和解包处理后的数据；当监控的缓冲区的数据量达到重采样阈值，对所述重采样模块的输入缓冲区中的数据进行重采样；对重采样后的数据进行下一级处理。通过对数据进行重采样的方式减少缓存的数据量，相当于在语音接收设备加速播放，达到了降低延迟的目的。

Description

实时语音通话中的实时语音接收设备及降低延迟的方法

本申请要求在2015年10月08日提交中国专利局、申请号为201510644497.5、发明名称为“实时语音通话中的实时语音接收设备及降低延迟的方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及音频技术领域，尤其涉及一种实时语音通话中的实时语音接收设备及降低延迟的方法。

背景技术

随着网络技术的普及和发展，尤其是网络通信速率的提高和移动互联网的蓬勃兴起，如今人们越来越多地使用基于实时语音通信的产品和服务。例如网络电话、即时语音通话、智能家居可视对讲系统等等。在这个交互过程中，语音从一端及时到达另一端显得非常重要，只有延迟短的通信传输，才能称得上实时。但现有的实时语音通话，在通话初始时，延迟很小，但随着时间的增长，延迟会越来越大，会达到几秒甚至数十秒。

以图1所示的语音通信过程为例，对实时语音通信过程的上述延迟现象进行说明。

如图1所示，音频数据在语音发送端经过采音、模数编码、压缩、打包后，通过网络传输到达语音接收端，在语音接收端经过解包、解压缩、数模解码、放音，从而实现语音播放。

由于语音发送端与语音接收端的系统参考时钟不同，在语音接收端会存在累积性延迟。另外，由于资源限制，还会造成突发性插入延迟。例如，在音频接收端放音过程中，如果CPU突发性重载，则会暂停音频数据处理，即插入延迟。无论是累积性延迟，还是突发性插入延迟，对于语音接收端而言，均表现为送入数模解码模块前的音频数据累积得越来越多。

发明内容

本发明实施例提供一种实时语音通话中的实时语音接收设备及降低延迟的方法，用以解决现有技术中实时语音通话随着时间的增长，延迟越来越大的问题。

本发明实施例提供一种实时语音通话中降低延迟的方法，应用于实时语音接收设备，具体包括：

至少监控重采样模块的输入缓冲区中的数据量，其中，所述重采样模块的输入缓冲区中的数据至少是解压缩和解包处理后的数据；

当监控的缓冲区的数据量达到重采样阈值，对所述重采样模块的输入缓冲区中的数据进行重采样；

对重采样后的数据进行下一级处理。

本发明实施例提供一种实时语音通话中的实时语音接收设备，包括：

重采样模块，用于至少监控本模块的输入缓冲区中的数据量，所述输入缓冲区中的数据至少是解压缩和解包处理后的数据；还用于当监控的缓冲区的数据量达到重采样阈值，对本模块的输入缓冲区中的数据进行重采样；

重采样模块的下一级处理模块，用于对重采样后的数据进行处理。

本发明实施例提供的实时语音通话中的实时语音接收设备及降低延迟的方法，解压缩和解包处理后的数据会存放在重采样模块的输入缓冲区，并至少对重采样模块的输入缓冲区进行监控，以便在监控的缓冲区的数据量达到重采样阈值时，对重采样模块的输入缓冲区中的数据进行重采样，以便对重采样后的数据进行下一级处理，而不是对所有的数据进行处理。通过对数据进行重采样的方式减少缓存的数据量，相当于在语音接收设备加速播放，达到了降低延迟的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中实时语音通信的流程图；

图2为本发明一个实施例提供的实时语音通话中降低延迟的方法流程图；

图3为本发明实施例提供的实时语音通话方法流程图；

图4为本发明实施例提供的应用场景示意图；

图5为本发明实施例提供的一种实时语音通话流程图；

图6为本发明实施例提供的另一种实时语音通话流程图；

图7为本发明实施例提供的实时语音通话中的语音接收设备示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图2所示为本发明实施例提供的实时语音通话中降低延迟的方法，具体包括如下操作：

步骤100、至少监控重采样模块的输入缓冲区中的数据量，其中，该重采样模块的输入缓冲区中的数据至少是解压缩和解包处理后的数据。

本发明各个实施例中所称的数据，均为音频数据。

本发明实施例中，可以由上述重采样模块执行步骤100，也可以由单独设置的监控模块执行步骤100，本发明实施例对此不作限定。

步骤110、当监控的缓冲区的数据量达到重采样阈值，对该重采样模块的输入缓冲区中的数据进行重采样。

步骤120、对重采样后的数据进行下一级处理。

本发明实施例提供的实时语音通话中降低延迟的方法，解压缩和解包处理后的数据会存放在重采样模块的输入缓冲区，并至少对重采样模块的输入缓冲区进行监控，以便在监控的缓冲区的数据量达到重采样阈值时，对重采样模块的输入缓冲区中的数据进行重采样，以便对重采样后的数据进行下一级处理，而不是对所有的数据进行处理。通过对数据进行重采样的方式减少缓存的数据量，相当于在语音接收设备加速播放，达到了降低延迟的目的。

本发明实施例中，上述步骤110的实现方式有多种。可选的，根据预设的重采样阈值对应的重采样比例，对所述重采样模块的输入缓冲区中的数据进行重采样，其中，每个所述重采样阈值至少对应于一个重采样比例。

其中，重采样阈值和重采样比例均是预先设置的，并且可以设置不止一个重采样阈值。例如，设置有一组重采样阈值，并相应地设置一组重采样比例，与重采样阈值一一对应。

本发明实施例中，重采样模块可以设置在解包和解压缩之后的任意处理环节处。无论语音接收端的具体处理流程包括哪些操作，最终均需要进行数模解码并放音。优选的，将重采样模块设置在数模解码模块的前一级，即重采样模块的下一级处理模块为数模解码模块，以最大限度地降低延迟。例如，基于图1所示的语音通话流程，可以在解压缩之后，数模解码之前，插入重采样模块，相应的流程如图3所示。

无论重采样的下一级处理是什么，应尽可能地对全部未进入该下一级处理的数据进行重采样处理，即重采样模块之前的各个模块的缓冲区应尽可能地不滞留数据，这就需要重采样模块的输入缓冲区足够大。本发明实施例中，重采样模块的输入缓冲区的大小可以是根据语音接收设备在本次实时语音通话中的音频处理参数确定的。

具体的，音频处理参数反映了语音接收设备在本次实时语音通话中每秒钟可以处理的数据量，那么可以设置重采样模块的输入缓冲区的大小可以容纳语音接收设备在本次实时语音通话中N秒钟处理的数据量。其中，N的取值可以根据经验选取，例如5秒。假设音频处理参数具体为：16K的采样率，单声道，16bit的比特率，N的取值为5秒，重采样模块的输入缓冲区的大小为16/8*1*16000*5≈156KB。

应当指出的是，重采样模块的输入缓冲区的大小可调。例如，当语音接收设备在本次实时语音通话中的音频处理参数发生变化，可以适应性调整重采样模块的输入缓冲区的大小。

基于上述任意方法实施例，步骤100中，可以仅监控实时语音通话的语音接收设备的重采样模块的输入缓冲区中的数据量；也可以监控实时语音通话的语音接收设备的重采样模块的输入缓冲区和重采样模块的下一级处理模块的输入缓冲区区中的数据量。

基于上述任意方法实施例，步骤100可以是在满足触发条件下执行的，也可以是在语音通话过程中实时执行的。如果是在满足触发条件下执行的，本发明实施例并不对具体的触发条件进行限定。假设重采样模块的下一级处理模块为工作在非阻塞模式下的数模解码模块，那么，步骤100的触发条件可以是数模解码模块的输入缓冲区已满。相应的，步骤100的实现方式可以是：根据工作在非阻塞模式的上述下一级处理模块的输入缓冲区已满指示，确定该下一级处理模块的输入缓冲区已满，至少监控实时语音通话的语音接收设备的重采样模块的输入缓冲区中的数据量。

以图4所示的智能家居场景为例，其中，智能家居可视对讲终端A(以下简称终端A)与智能家居科室对讲终端B(以下简称终端B)分别与交换机连接，通过交换机传递音频数据以实现终端A与终端B之间的实时语音通话。

当用户A’通过终端A讲话，用户B’通过终端B收听时，终端A为语音发送设备，终端B为语音接收设备；反之，终端A为语音接收设备，终端B为语音发送设备。

假设终端A的操作系统为安卓(Android)系统，本实施例中，终端A作为语音接收设备时的软件模块是用C++语言编写的。当然，终端A作为语音接收设备时的软件模块也可以是用java语言编写的。

那么，如果终端B的操作系统为安卓系统，终端A作为语音接收设备时，实时语音通话流程如图5所示。如果终端B的操作系统为视窗(Windows)系统，终端A作为语音接收设备时，实时语音流程如图6所示。

图5和图6中，重采样模块均设置在安卓音频底层调试的前一级。但在实际应用中，重采样可以设置在PCM音频数据之后，数模解码之前的任意位置。

本实施例中，安卓音频底层调试模块(即重采样模块的下一级处理模块)的输出缓冲区大小可以存储不超过20ms的数据量，安卓服务模块的输出缓冲区大小同样也可以存储不超过20ms的数据量，则重采样模块底层最大的缓冲延迟不超过40ms，可以不考虑将其包含在调整范围内。

本实施例中，重采样模块的输入缓冲区大小可以存储5s的数据量。调用安卓音频跟踪模块写数据时采用非阻塞(non-blocking)模式，当返回非期望的值表示没有足够的缓存以写入更多数据时，重采样模块开始检测其输入缓冲区的数据量，当数据量累积到下表1中的某个阈值时，按照该阈值对应的重采样比例对其输入缓冲区中的数据进行重采样。

表1

以100：80的重采样比例为例，相当于将对应的语音提高了20％的速度进行播放。

重采样后会丢掉一部分采样数据，如果需要对对调的数据的间隙作去抖动优化处理，可以采用已有的去抖动优化方案实现，此处不再赘述。

本实施例中，是通过编程实现重采样模块的功能的。应当指出的是，也可以在设备中置入具备重采样功能的芯片。

基于与方法同样的发明构思，本发明实施例还提供一种实时语音通信中的实时语音接收设备，如图7所示，至少包括：

重采样模块701，用于至少监控本模块的输入缓冲区中的数据量，所述输入缓冲区中的数据至少是解压缩和解包处理后的数据；还用于当监控的缓冲区的数据量达到重采样阈值，对本模块的输入缓冲区中的数据进行重采样；

重采样模块的下一级处理模块702，用于对重采样后的数据进行处理。

本发明实施例提供的实时语音通话中的语音接收设备，解压缩和解包处理有的数据会存放在重采样模块的输入缓冲区，并至少对重采样模块的输入缓冲区进行监控，以便在监控的缓冲区的数据量达到重采样阈值时，对重采样模块的输入缓冲区中的数据进行重采样，以便下一级处理模块对重采样后的数据进行处理，而不是对所有的数据进行处理。通过对数据进行重采样的方式减少缓存的数据量，相当于在语音接收设备加速播放，达到了降低延迟的目的。

可选的，为了本模块的输入缓冲区中的数据进行重采样，所述重采样模块具体用于：

根据预设的重采样阈值对应的重采样比例，对所述重采样模块的输入缓冲区中的数据进行重采样，其中，每个所述重采样阈值至少对应于一个重采样比例。

可选的，为了至少监控其输入缓冲区中的数据量，所述重采样模块用于：

仅监控本模块的输入缓冲区中的数据量；或者，

同时监控本模块的输入缓冲区和所述下一级处理模块的输入缓冲区中的数据量。

基于上述任意设备侧实施例，可选的，所述重采样模块的输入缓冲区的大小根据所述实时语音接收设备在实时语音通话中的音频处理参数确定。

基于上述任意设备侧实施例，可选的，为了至少监控本模块的输入缓冲区中的数据量，所述重采样模块用于：

根据工作在非阻塞模式的所述下一级处理模块的指示，确定所述下一级处理模块的输入缓冲区已满，至少监控本模块的输入缓冲区中的数据量。

本发明实施例中，可以通过硬件处理器(hardware processor)来实现相关功能模块。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

一种实时语音通话中降低延迟的方法，其特征在于，应用于实时语音接收设备，具体包括：

至少监控重采样模块的输入缓冲区中的数据量，其中，所述重采样模块的输入缓冲区中的数据至少是解压缩和解包处理后的数据；

当监控的缓冲区的数据量达到重采样阈值，对所述重采样模块的输入缓冲区中的数据进行重采样；

对重采样后的数据进行下一级处理。
根据权利要求1所述的方法，其特征在于，对所述重采样模块的输入缓冲区中的数据进行重采样具体包括，

根据预设的重采样阈值对应的重采样比例，对所述重采样模块的输入缓冲区中的数据进行重采样，其中，每个所述重采样阈值至少对应于一个重采样比例。
根据权利要求1所述的方法，其特征在于，所述至少监控重采样模块的输入缓冲区中的数据量，包括：

仅监控重采样模块的输入缓冲区中的数据量；或者，

同时监控重采样模块的输入缓冲区和所述下一级处理模块的输入缓冲区中的数据量。
根据权利要求1～3任一项所述的方法，其特征在于，所述重采样模块的输入缓冲区的大小根据所述实时语音接收设备在实时语音通话中的音频处理参数确定。
根据权利要求1～3任一项所述的方法，其特征在于，所述至少监控重采样模块的输入缓冲区中的数据量，包括：

根据工作在非阻塞模式的所述下一级处理模块的输入缓冲区已满指示，确定所述下一级处理模块的输入缓冲区已满，至少监控重采样模块的输入缓冲区中的数据量。
根据权利要求1～3任一项所述的方法，其特征在于，所述对重采样后的数据进行下一级处理具体包括：

对重采样后的数据进行数模解码处理。
一种实时语音通信中的实时语音接收设备，其特征在于，包括：

重采样模块，用于至少监控本模块的输入缓冲区中的数据量，所述输入缓冲区中的数据至少是解压缩和解包处理后的数据；还用于当监控的缓冲区的数据量达到重采样阈值，对本模块的输入缓冲区中的数据进行重采样；

重采样模块的下一级处理模块，用于对重采样后的数据进行处理。
根据权利要求7所述的设备，其特征在于，为了本模块的输入缓冲区中的数据进行重采样，所述重采样模块具体用于：

根据预设的重采样阈值对应的重采样比例，对所述重采样模块的输入缓冲区中的数据进行重采样，其中，每个所述重采样阈值至少对应于一个重采样比例。
根据权利要求7所述的设备，其特征在于，为了至少监控其输入缓冲区中的数据量，所述重采样模块用于：

仅监控本模块的输入缓冲区中的数据量；或者，

同时监控本模块的输入缓冲区和所述下一级处理模块的输入缓冲区中的数据量。
根据权利要求7～9任一项所述的设备，其特征在于，所述重采样模块的输入缓冲区的大小根据所述实时语音接收设备在实时语音通话中的音频处理参数确定的。
根据权利要求7～9任一项所述的设备，其特征在于，为了至少监控本模块的输入缓冲区中的数据量，所述重采样模块用于：

根据工作在非阻塞模式的所述下一级处理模块的指示，确定所述下一级处理模块的输入缓冲区已满，至少监控本模块的输入缓冲区中的数据量。