WO2017202290A1

WO2017202290A1 - 语音数据传输方法及装置

Info

Publication number: WO2017202290A1
Application number: PCT/CN2017/085457
Authority: WO
Inventors: 梁俊斌
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2016-05-25
Filing date: 2017-05-23
Publication date: 2017-11-30
Also published as: EP3468132A1; EP3468132A4; US20180278372A1; CN106067847A; CN106067847B; US10594449B2

Abstract

本申请公开了语音数据传输方法，包括：将多个语音数据帧放入目标发送队列，并将其依次发送给数据接收方；对所述目标发送队列中的多个语音数据帧进行识别，并将识别出的语音关键帧放入丢包重传处理队列；针对所述多个语音数据帧，仅对在所述丢包重传处理队列中的语音关键帧执行丢包重传处理。本申请还公开了语音数据传输装置。

Description

语音数据传输方法及装置

本申请要求于2016年05月25日提交中国专利局、申请号为201610356121.9、发明名称为“一种语音数据传输方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机通信领域，尤其一种语音数据传输方法以及语音数据传输装置。

背景

IP承载语音(Voice over Internet Protocol，Voip)是基于以太网的实时语音通话系统，网络质量、网络传输能力对Voip双方通话质量有着决定性的影响，Voip为了确保实时通话数据传输，通常采用的是UDP(User Datagram Protocol，用户数据包协议)协议，所述UDP协议是OSI(Open System Interconnection，开放式系统互联)参考模型中一种无连接的传输层协议，提供面向事务的简单不可靠信息传送服务，IETF RFC 768是UDP的正式规范。

技术内容

为了解决上述技术问题，本申请的实例公开了一种语音数据传输方法，包括：

将多个语音数据帧放入目标发送队列，并将其依次发送给数据接收方；

对所述目标发送队列中的多个语音数据帧进行识别，并将识别出的语音关键帧放入丢包重传处理队列；

针对所述多个语音数据帧，仅对在所述丢包重传处理队列中的语音关键帧执行丢包重传处理。

本申请的实例公开了一种语音数据传输装置，包括：

放入发送模块，用于将多个语音数据帧放入目标发送队列，并将其依次发送给数据接收方；

识别放入模块，用于对所述目标发送队列中的多个语音数据帧进行识别，并将识别出的语音关键帧放入丢包重传处理队列；

重传模块，用于针对所述多个语音数据帧，仅对在所述丢包重传处理队列中的语音关键帧执行丢包重传处理。

本申请的实例公开了一种移动电子设备，包括处理器、存储器以及输入装置和输出装置；其中，所述处理器通过执行所述存储器中存储的同步服务管理程序，执行上述语音数据传输方法的全部步骤。

本申请的实例公开了一种计算机存储介质，所述计算机存储介质存储有程序，所述程序执行时包括上述语音数据传输方法的全部步骤。

附图简要说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实例提供的语音数据传输方法的场景架构图；

图2是本申请实例提供的语音数据传输方法的流程示意图；

图3是本申请提供的语音数据传输方法的另一实例的流程示意图；

图4是本申请提供的语音数据传输方法的另一实例的流程示意图；

图5是本申请提供的语音数据传输方法的另一实例的流程示意图；

图6是本申请提供的语音数据传输方法的另一实例的流程示意图；

图7是本申请提供的语音数据传输方法的另一实例的流程示意图；

图8是本申请实例提供的语音数据传输装置的结构示意图；

图9是本申请实例提供的重传模块的结构示意图；

图10是本申请实例提供的识别放入模块的结构示意图；

图11是本申请提供的识别放入模块的另一实例的结构示意图；

图12是本申请提供的识别放入模块的另一实例的结构示意图；

图13是本申请实例提供的分析单元的结构示意图；以及

图14是本申请一实例的设备结构图。

实施方式

下面将结合本申请实例中的附图，对本申请实例中的技术方案进行清楚、完整地描述，显然，所描述的实例仅仅是本发明一部分实例，而不是全部的实例。基于本申请中的实例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实例，都属于本申请保护的范围。

在一些实例中，采用UDP协议进行Voip的实时通话数据传输时，在网络状况不佳情况下丢包是经常发生的，解决该问题的主要方法有前向纠错技术和丢包重传技术。

其中，丢包重传是当数据接收方检测到目标数据包超时仍未接收到或者发现目标接收包出错，则向数据发送方发出请求包，以请求数据发送方重传出错的数据报文的一种技术手段。在一些实例中，丢包重传主要包括以下几种方式：

a、停等式丢包重传方式：数据报文发送完成后，数据发送方等待数据接收方的状态报告，如果状态报告报文表示发送成功才发送后续的数据报文，如果状态报告报文表示发送失败则重传该报文。

b、回退N帧丢包重传方式：当数据发送方接收到数据接收方的状态报文指示报文出错后，发送方将重传过去N个报文。

c、选择性重传方式：当数据发送方接收到数据接收方的状态报文指示报文出错后，数据发送方只需发送发生错误的报文。

上述丢包重传机制需要每个数据报文都需要做接收状态确认，即需要发送和接收确认报文，这种操作需要占用相当一部分网络带宽资源，如果第一次重传后，数据接收方仍然没有成功接收到正确的数据报文，则数据发送方需要继续进行重传直到成功为止，在网络能力较弱情况下，每个数据报文都可能经历这样的过程，无疑是对网络带宽施加更大的压力，不利于进行数据传输。

为了解决上述技术问题，本申请提出一种语音数据传输方法，该方法应用于图1所示的系统构架中。

如图1示出的本申请实例提供的语音数据传输方法的场景架构图，电子设备之间可以通过网络服务器建立语音连接，进行语音通信，那么数据发送方可以实时地将采集到的语音数据帧发送给数据接收方，数据接收方接收到语音数据帧并确认没有出错时，可以向数据发送方返回指示发送成功的确认消息，否则可以向数据发送方返回指示发送失败的确认消息，那么数据发送方将可以通过数据重传机制，对丢失的语音数据帧重传给数据接收方，以保证双方通话质量。

下面结合图2示出的本申请实例提供的语音数据传输方法的流程示意图，详细说明本发明实施例提供的语音数据传输方法的技术方案，包括如下步骤：

步骤S200：将多个语音数据帧放入目标发送队列，并将其依次发送给数据接收方；

具体地，数据发送方与数据接收方建立了语音通信连接，该数据发送方可以将采集到的语音信息进行编码，生成多个语音数据帧，然后将该多个语音数据帧放入目标发送队列，并依次将语音数据帧发送给数据接收方。

步骤S202：对所述目标发送队列中的多个语音数据帧进行识别，并将识别出的语音关键帧放入丢包重传处理队列；

具体地，本申请实例中对语音数据帧分为语音关键帧和语音非关键帧，可以通过设定条件，例如符合预设条件的为语音关键帧或语音非关键帧，从而根据该预设条件来对该多个语音数据帧进行识别，例如可以设定不含语音内容信息的数据帧，或者容易通过丢包补偿手段能很好恢复的帧为语音非关键帧(语音非关键帧以外的即为语音关键帧)，该不含语音内容信息的数据帧可以包括非语音帧或能量极小的噪声帧，等等。当从该多个语音数据帧中识别出语音关键帧后，将该语音关键帧放入预设的丢包重传处理队列。

需要说明的是，本申请实例中的目标发送队列与丢包重传处理队列可以为不同的两个队列，该目标发送队列用于正常发送待发送的语音数据帧，该丢包重传处理队列用于对语音关键帧执行丢包时的重传处理。本申请实例中的目标发送队列与丢包重传处理队列也可以为同一个队列，也就是说，可以将语音关键帧放入目标发送队列中，具体可以估算再次发送(即重传)该语音关键帧的时间来插入到目标发送队列中，以便于确定该语音关键帧发生丢包后，进行重传。

步骤S204：针对所述多个语音数据帧，仅对在所述丢包重传处理队列中的语音关键帧执行丢包重传处理。

具体地，本申请实例对发送的多个语音数据帧，仅仅对处于该丢包重传处理队列中的语音关键帧执行丢包重传处理，不对该多个语音数据帧的语音关键帧以外的语音非关键帧执行丢包重传处理，也就是说，无论该语音非关键帧是否被该数据接收方成功接收到，该数据发送方都不对该语音非关键帧进行重传。

通过实施本申请实例，实现了无需对每个语音数据帧都做接收状态确认看是否需要进行重传，有效解决了在网络能力较弱情况下因数据重传导致网络带宽压力增大，不利于解决网络丢包的技术问题，本申请实例通过定义语音非关键帧，并判断发送的语音数据帧是否为语音非关键帧来执行重传策略，对非语音帧或能量技校的噪声帧或通过丢包补偿手段能很好恢复的帧，不执行重传，可以节省通话过程中较大一部分的帧重传，从而更加有效地利用了网络带宽资源。

具体地，如图3示出的本申请提供的语音数据传输方法的另一实例的流程示意图，具体说明如何对丢包重传处理队列中的语音关键帧执行丢包重传处理，包括如下步骤：

步骤S300：针对处于所述丢包重传处理队列的重传发送窗口的当前语音关键帧，启动第一定时器进行计时；

具体地，该第一定时器的计时起算时间为该当前语音关键帧在该目标发送队列中的发送时间点；本申请实例不限于该第一定时器的计时时长，技术人员可以根据自身需求或经验来设置该第一定时器的计时时长。

步骤S302：检测是否在所述第一定时器计时结束前接收到所述数据接收方返回的针对所述当前语音关键帧的状态确认帧；

具体地，本申请实例中的状态确认帧表明该当前语音关键帧被数据接收方成功接收到；当检测结果为是时，则执行步骤S304，否则执行步骤S306。

步骤S304：在所述丢包重传处理队列中将所述当前语音关键帧删除；

步骤S306：将所述丢包重传处理队列中的所述当前语音关键帧重传给所述数据接收方。

具体地，步骤S306之后，可以重新返回执行步骤S300，再次判断该当前语音关键帧是否需要重传；进一步地，本申请实例为了避免对语音关键帧进行无限次的重传，给网络带宽造成更大压力，可以执行如下步骤：

在启动第一定时器进行计时的同时，启动第二定时器进行计时，该第二定时器的计时时长大于该第一定时器的计时时长；那么，若在该第二定时器计时结束前接收到数据接收方返回的针对所述当前语音关键帧的状态确认帧，或者在该第二定时器计时结束时，在该丢包重传处理队列中将该当前语音关键帧删除，从而避免了对语音关键帧进行无限次的重传，给网络带宽造成更大压力。

或者，

在将该丢包重传处理队列中的语音关键帧重传给该数据接收方之后，启动第二定时器进行计时；此时第二定时器的计时时长，技术人员可以根据自身需求或经验来设置。在该第二定时器计时结束前接收到该数据接收方返回的针对所述当前语音关键帧的状态确认帧时，或者在该第二定时器计时结束时，在该丢包重传处理队列中将所述当前语音关键帧删除，从而避免了对语音关键帧进行无限次的重传，给网络带宽造成更大压力。

具体地，下面结合图4至图7详细举例说明如何判断当前语音数据帧是否为语音非关键帧，可理解的是，该多个语音数据帧中判断出的语音非关键帧以外的语音数据帧，即为识别出的语音关键帧：

如图4示出的本申请提供的语音数据传输方法的另一实例的流程示意图，可以包括如下步骤：

步骤S400：将多个语音数据帧放入目标发送队列，并将其依次发送给数据接收方；

步骤S402：计算语音数据帧的帧能量；

具体地，可以通过以下公式，计算出该语音数据帧的帧能量Engr：

其中，l为帧长

步骤S404：判断该帧能量是否小于第一预设阈值；

具体地，本申请实例的第一预设阈值与l的取值有关，l越大，该第一预设阈值的取值可以越大，例如l等于80时，该第一预设阈值可以设为5*10⁵；当判断结果为是时，则判断出该语音数据帧为语音非关键帧，执行步骤S406，否则，可以认为该语音数据帧不为语音非关键帧，执行步骤S408。

需要说明的是，本申请实例不限于该第一预设阈值的大小，技术人员可以根据自身需求或经验来设置该第一预设阈值。

步骤S406：不对所述语音数据帧进行重传；

步骤S408：将识别出的语音关键帧放入丢包重传处理队列；

步骤S410：针对所述多个语音数据帧，仅对在所述丢包重传处理队列中的语音关键帧执行丢包重传处理。

具体地，步骤S408和步骤S410可以参考上述图2实例中步骤S202和步骤S204的描述，这里不再赘述。

如图5示出的本申请提供的语音数据传输方法的另一实例的流程示意图，可以包括如下步骤：

步骤S500：将多个语音数据帧放入目标发送队列，并将其依次发送给数据接收方；

步骤S502：分析语音数据帧是否不含有语音内容信息；

具体地，本申请各个实例中的不含有语音内容信息可以理解为语音数据帧完全不含有语音内容信息或者含有的语音内容信息量低于某阈值；本申请实例不限于分析当前数据帧是否不含有语音内容信息的方式。当分析结果为是时，则判断出该语音数据帧为语音非关键帧，执行步骤S504，否则，可以认为该语音数据帧不为语音非关键帧，执行步骤S506。

步骤S504：不对所述语音数据帧进行重传；

步骤S506：将识别出的语音关键帧放入丢包重传处理队列；

步骤S508：针对所述多个语音数据帧，仅对在所述丢包重传处理队列中的语音关键帧执行丢包重传处理。

具体地，步骤S506和步骤S508可以参考上述图2实例中步骤S202和步骤S204的描述，这里不再赘述。

如图6示出的本申请提供的语音数据传输方法的另一实例的流程示意图，可以包括如下步骤：

步骤S600：将多个语音数据帧放入目标发送队列，并将其依次发送给数据接收方；

步骤S602：计算语音数据帧与该语音数据帧相对的上一个语音数据帧的前M个线谱对(Linear Spectrum Pair，lsp)系数差的绝对值；

具体地，在计算该语音数据帧与该语音数据帧相对的上一个语音数据帧的前M个lsp系数差的绝对值之前，还需要计算出语音数据帧的lsp系数，例如可以通过对该语音数据帧加汉明窗，使用dubin递推求解Yule-Walker方程，得到lpc线性预测编码(linear predictive coding，lpc) 系数，然后根据得到的p阶lpc系数，求解下列求解p+1阶对称多项式P(z)和反对称多项式Q(z)的共轭复根，即可得到lsp系数A：

P(z)＝A(z)+z-(p+1)×A(z-1)

Q(z)＝A(z)+z-(p+1)×A(z-1)

得到lsp系数后，考虑到前三组线谱对对语音影响最重要，常规语音编解码中可以计算得到10个lsp系数，在本申请的实例中M可以为5、6、7等正整数，例如，M为6，也就是说，本申请实例可以比较前6个lsp系数差的绝对值，具体公式可以如下：

lspdif(i)＝abs(lspcur(i)-lsopre(i))；i＝0～5

语音数据帧与该语音数据帧相对的上一个语音数据帧的前6个lsp系数的相邻帧平稳度，可以用以判断是否为语音非关键帧。

步骤S604：检测计算得到的M个绝对值是否都小于第二预设阈值；

具体地，本申请实例的第二预设阈值可以为0.005；当检测结果为是时，则检测出该语音语音数据帧为语音非关键帧，执行步骤S606，否则，可以认为该语音语音数据帧不为语音非关键帧，执行步骤S608。

需要说明的是，本申请实例不限于该第二预设阈值的大小，技术人员可以根据自身需求或经验来设置该第二预设阈值。

步骤S606：不对该语音数据帧进行重传；

步骤S608：将识别出的语音关键帧放入丢包重传处理队列；

步骤S610：针对所述多个语音数据帧，仅对在所述丢包重传处理队列中的语音关键帧执行丢包重传处理。

具体地，步骤S608和步骤S610可以参考上述图2实例中步骤S202和步骤S204的描述，这里不再赘述。

需要说明的是，图4、图5和图6实例可以任意组合来实现数据重传，例如：

1、可以图4和图5结合：将语音数据帧发送给数据接收方后，首先可以先计算该语音数据帧的帧能量，若判断能量小于第一预设阈值，则判断出该语音数据帧为语音非关键帧，若判断能量不小于第一预设阈值，再进一步分析所述数据帧是否不含有语音内容信息，当分析该语音数据帧不含有语音内容信息时，则判断出该语音数据帧为语音非关键帧，否则判断出该语音数据帧不为语音非关键帧。

2、或者图4和图6结合：将语音数据帧发送给数据接收方后，首先可以先计算该语音数据帧的帧能量，若判断能量小于第一预设阈值，则判断出该语音数据帧为语音非关键帧，若判断能量不小于第一预设阈值，再进一步计算该语音数据帧与该语音数据帧相对的上一个语音数据帧的前M个lsp系数差的绝对值，检测计算得到的M个绝对值是否都小于第二预设阈值，当检测都小于第二预设阈值，则判断出该语音数据帧为语音非关键帧，否则判断出该语音数据帧不为语音非关键帧。

3、又或者图5和图6结合：将语音数据帧发送给数据接收方后，首先可以先分析该语音数据帧是否不含有语音内容信息，当分析语音数据帧不含有语音内容信息时，则判断出该语音数据帧为语音非关键帧，当分析该语音数据帧含有语音内容信息时，再进一步计算语音数据帧与该语音数据帧相对的上一个语音数据帧的前M个lsp系数差的绝对值，检测计算得到的M个绝对值是否都小于第二预设阈值，当检测都小于第二预设阈值，则判断出该语音数据帧为语音非关键帧，否则判断出该语音数据帧不为语音非关键帧。

4、又或者如图4、图5和图6的结合，如图7示出的本申请提供的语音数据传输方法的另一实例的流程示意图，可以包括如下步骤：

步骤S700：将多个语音数据帧放入目标发送队列，并将其依次发送给数据接收方；

步骤S702：计算语音数据帧的帧能量；

具体地，参考上述图4实例中的步骤S402，这里不再赘述。

步骤S704：判断该帧能量是否小于第一预设阈值；

具体地，参考上述图4实例中的步骤S404，当判断结果为是时，则执行步骤S718；否则执行步骤S706。

步骤S706：对该语音数据帧进行2N点fft变换(Fast Fourier Transformation，快速傅立叶变换)，得到该语音数据帧的功率谱；并估算各频点噪声能量；所述N为正整数；

具体地，步骤S706至步骤S712为分析该语音数据帧是否不含有语音内容信息的其中一个具体实施方式；对该语音数据帧进行2N点fft变换，得到该语音数据帧的功率谱level(j)，j＝1～N；然后可以基于最小统计量控制递归平均算法(Minima Controlled Recursive Averaging，MCRA)算法估计各频点噪声能量noise(j)，j＝1～N。

步骤S708：根据所述功率谱和所述噪声能量计算各频点信噪比；

具体地，各频点信噪比snr(j)＝level(j)/noise(j)，j＝1～N。

步骤S710：根据所述各频点信噪比计算各频点信噪比平方之和；

具体地，各频点信噪比平方之和

步骤S712：比较所述各频点信噪比平方之和是否小于第三预设阈值；

具体地，本申请实例的的第三预设阈值与N的取值有关，例如N等于64时，该第一预设阈值可以设为2；当比较结果为是时，则执行步骤S718，否则执行步骤S714；

需要说明的是，本申请实例不限于该第三预设阈值的大小，技术人员可以根据自身需求或经验来设置该第三预设阈值。

步骤S714：计算该语音数据帧与该语音数据帧相对的上一个语音数据帧的前M个lsp系数差的绝对值；

具体地，参考上述图6实例中的步骤S602，这里不再赘述。

步骤S716：检测计算得到的M个绝对值是否都小于第二预设阈值；

具体地，参考上述图6实例中的步骤S604，当检测结果为是时，则执行步骤S718，否则执行步骤S720。

步骤S718：不对该语音数据帧进行重传；

步骤S720：将识别出的语音关键帧放入丢包重传处理队列；

步骤S722：针对所述多个语音数据帧，仅对在所述丢包重传处理队列中的语音关键帧执行丢包重传处理。

具体地，步骤S720和步骤S722可以参考上述图2实例中步骤S202和步骤S204的描述，这里不再赘述。

需要说明的是，本申请实例中图4、图5和图6实例可以任意组合不限于以上4种，还有其它判断组合的方式，例如组合中执行的先后顺序发生变化等，这里不全部罗列，本领域技术人员根据本申请实例的描述即可实现的组合方式都属于本申请的保护范围之内。

还需要说明的是，数据发送方向数据接收方发送的语音非关键帧发生丢包时，数据接收方可以根据实际情况忽略该语音非关键帧或通过丢包补偿手段来恢复，例如通过在该语音数据帧相关性较大的前一帧，或者基音周期与前一帧相差很小的帧来进行恢复。

实施本发明实施例，将多个语音数据帧放入目标发送队列，并将其依次发送给数据接收方；对目标发送队列中的多个语音数据帧进行识别，并将识别出的语音关键帧放入丢包重传处理队列；针对多个语音数据帧，仅对在丢包重传处理队列中的语音关键帧执行丢包重传处理，而不对语音非关键帧执行丢包重传处理，实现了无需对每个语音数据帧都做接收状态确认看是否需要进行重传，有效解决了现有技术在网络能力较弱情况下因数据重传导致网络带宽压力增大，不利于进行数据传输的技术问题，本发明实施例通过定义语音非关键帧，并判断发送的语音数据帧是否为语音非关键帧来执行重传策略，对非语音帧或能量技校的噪声帧或通过丢包补偿手段能很好恢复的帧，不执行重传，可以节省通话过程中较大一部分的帧重传，从而更加有效地利用了网络带宽资源。

为了便于更好地实施本申请实例的上述方案，本申请还对应提供了一种语音数据传输装置，如图8示出的本申请实例提供的语音数据传输装置的结构示意图，语音数据传输装置80可以包括：放入发送模块800、识别放入模块802和重传模块804，其中，

放入发送模块800用于将多个语音数据帧放入目标发送队列，并将其依次发送给数据接收方；

识别放入模块802用于对所述目标发送队列中的多个语音数据帧进行识别，并将识别出的语音关键帧放入丢包重传处理队列；

重传模块804用于针对所述多个语音数据帧，仅对在所述丢包重传处理队列中的语音关键帧执行丢包重传处理。

具体地，如图9示出的本申请实例提供的重传模块的结构示意图，重传模块804可以包括：第一启动单元8040、第一检测单元8042、第一删除单元8044和重传子单元8046，其中，

第一启动单元8040用于针对处于所述丢包重传处理队列的重传发送窗口的当前语音关键帧，启动第一定时器进行计时；所述第一定时器的计时起算时间为所述当前语音关键帧在所述目标发送队列中的发送时间点；

第一检测单元8042用于检测是否在所述第一定时器计时结束前接收到所述数据接收方返回的针对所述当前语音关键帧的状态确认帧；

第一删除单元8044用于当检测结果为是时，在所述丢包重传处理队列中将所述当前语音关键帧删除；

重传子单元8046用于当检测结果为否时，则将所述丢包重传处理队列中的所述当前语音关键帧重传给所述数据接收方。

进一步地，重传模块804还可以包括第二启动单元和第二删除单元，具体地，该第二启动单元，用于在第一启动单元8040启动第一定时器进行计时的同时，启动第二定时器进行计时，所述第二定时器的计时时长大于所述第一定时器的计时时长；该第二删除单元，用于若在所述第二定时器计时结束前接收到所述数据接收方返回的针对所述当前语音关键帧的状态确认帧，或者在所述第二定时器计时结束时，在所述丢包重传处理队列中将所述当前语音关键帧删除。

或者，

重传模块804还可以包括第三启动单元和第三删除单元，具体地，第三启动单元，用于在重传子单元8046将所述丢包重传处理队列中的语音关键帧重传给所述数据接收方之后，启动第二定时器进行计时；第三删除单元，用于在所述第二定时器计时结束前接收到所述数据接收方返回的针对所述当前语音关键帧的状态确认帧时，或者在所述第二定时器计时结束时，在所述丢包重传处理队列中将所述当前语音关键帧删除。

需要说明的是，重传模块804可以同时包括第二启动单元、第二删除单元以及第三启动单元和第三删除单元。

再进一步地，如图10示出的本申请实例提供的识别放入模块的结构示意图，识别放入模块802可以包括：第一计算单元8020和能量判断单元8022，其中，

第一计算单元8020用于计算语音数据帧的帧能量；

能量判断单元8022用于判断所述帧能量是否小于第一预设阈值；

当判断结果为是时，则识别出所述语音数据帧为语音非关键帧。

再进一步地，识别放入模块802还可以包括分析单元8024，用于分析语音数据帧是否不含有语音内容信息；当分析结果为是时，则识别出所述语音数据帧为语音非关键帧。

再进一步地，如图11示出的本申请提供的识别放入模块的另一实例的结构示意图，识别放入模块802可以包括：第二计算单元8026和第二检测单元8028，其中，

第二计算单元8026用于计算语音数据帧与所述语音数据帧相对的上一个语音数据帧的前M个lsp系数差的绝对值；

第二检测单元8028用于检测计算得到的M个绝对值是否都小于第二预设阈值；

当检测结果为是时，则识别出所述语音数据帧为语音非关键帧。

再进一步地，如图12示出的本申请提供的识别放入模块的另一实例的结构示意图，识别放入模块802包括第一计算单元8020、能量判断单元8022和分析模块8024外，还可以包括第二计算单元8026和第二检测单元8028，其中，

能量判断单元8024判断出所述帧能量不小于第一预设阈值时，触发分析模块8024分析语音数据帧是否不含有语音内容信息，当分析出所述语音数据帧含有语音内容信息确定时，触发第二计算单元8026计算所述语音数据帧与所述语音数据帧相对的上一语音数据帧的前M个lsp系数差的绝对值。

需要说明的是，识别放入模块802中，第一计算单元8020和能量判断单元8022，与分析模块8024，以及第二计算单元8026和第二检测单元8028的组合不限于以上所述，还可以按照方法实例的描述进行任意组的组合。

再进一步地，如图13示出的本申请实例提供的分析单元的结构示意图，分析单元8024可以包括：变换估算单元80240、信噪比计算单元80242、平方和计算单元80244和比较单元80246，其中，

变换估算单元80240用于对所述语音数据帧进行2N点fft变换，得到所述语音数据帧的功率谱；并估算各频点噪声能量；所述N为正整数；

信噪比计算单元80242用于根据所述功率谱和所述噪声能量计算各频点信噪比；

平方和计算单元80244用于根据所述各频点信噪比计算各频点信噪比平方之和；

比较单元80246用于比较所述各频点信噪比平方之和是否小于第三预设阈值；

当比较结果为是时，则识别出所述语音数据帧为语音非关键帧。

综上所述，实施本发明实施例，将多个语音数据帧放入目标发送队列，并将其依次发送给数据接收方；对目标发送队列中的多个语音数据帧进行识别，并将识别出的语音关键帧放入丢包重传处理队列；针对多个语音数据帧，仅对在丢包重传处理队列中的语音关键帧执行丢包重传处理，而不对语音非关键帧执行丢包重传处理，实现了无需对每个语音数据帧都做接收状态确认看是否需要进行重传，有效解决了现有技术在网络能力较弱情况下因数据重传导致网络带宽压力增大，不利于进行数据传输的技术问题，本发明实施例通过定义语音非关键帧，并判断发送的语音数据帧是否为语音非关键帧来执行重传策略，对非语音帧或能量技校的噪声帧或通过丢包补偿手段能很好恢复的帧，不执行重传，可以节省通话过程中较大一部分的帧重传，从而更加有效地利用了网络带宽资源。

另外，在本申请各个实例中的方法和装置以及其中的各模块及单元可以集成在一个处理单元中，也可以是各个模块及单元单独物理存在，也可以两个或两个以上装置或模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

在一实例中，上述的语音数据传输装置可运行在各种可基于互联网而进行用户信息处理的计算设备中，并加载在该计算设备的存储器中。

图14示出了语音数据传输装置所在的计算设备的组成结构图。如图14所示，该计算设备包括一个或者多个处理器(CPU)1402、通信模块1404、存储器1406、用户接口1410，以及用于互联这些组件的通信总线1408。

处理器1402可通过通信模块1404接收和发送数据以实现网络通信和/或本地通信。

用户接口1410包括一个或多个输出设备1412，其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口1410也包括一个或多个输入设备1414，其包括诸如，键盘，鼠标，声音命令输入单元或扩音器，触屏显示器，触敏输入板，姿势捕获摄像机或其他输入按钮或控件等。

存储器1406可以是高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备；或者非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备，或其他非易失性固态存储设备。

存储器1406存储处理器1402可执行的指令集，包括：

操作系统1416，包括用于处理各种基本系统服务和用于执行硬件相关任务的程序；

应用1418，包括用于实现语音数据传输的各种程序，这种程序能够实现上述各实例中的处理流程，比如可以包括图8所示的语音数据传输装置80。

在一些实例中，语音数据传输80可包括图8-13所示的各模块802、804、806、单元8020、8022、8024、8026、8028及单元8040、8042、8044、8046，上述各模块可以存储有机器可执行指令。处理器1402通过执行存储器1406中各模块及单元中的机器可执行指令，进而能够实现上述各模块及单元的功能。

本领域普通技术人员可以理解实现上述实例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

因此本申请还公开了一种非易失性存储介质，其中存储有数据处理程序，该数据处理程序用于执行本申请上述方法的任何一种实例。

以上所揭露的仅为本申请的实例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

一种语音数据传输方法，包括：

将多个语音数据帧放入目标发送队列，并将其依次发送给数据接收方；

对所述目标发送队列中的多个语音数据帧进行识别，并将识别出的语音关键帧放入丢包重传处理队列；

针对所述多个语音数据帧，仅对在所述丢包重传处理队列中的语音关键帧执行丢包重传处理。
如权利要求1所述的方法，其中，所述对在所述丢包重传处理队列中的语音关键帧执行丢包重传处理，包括：

针对处于所述丢包重传处理队列的重传发送窗口的当前语音关键帧，启动第一定时器进行计时；所述第一定时器的计时起算时间为所述当前语音关键帧在所述目标发送队列中的发送时间点；

检测是否在所述第一定时器计时结束前接收到所述数据接收方返回的针对所述当前语音关键帧的状态确认帧；

当检测结果为是时，则在所述丢包重传处理队列中将所述当前语音关键帧删除；

当检测结果为否时，则将所述丢包重传处理队列中的所述当前语音关键帧重传给所述数据接收方。
如权利要求2所述的方法，其中，所述启动第一定时器进行计时的同时，还包括：

启动第二定时器进行计时，所述第二定时器的计时时长大于所述第一定时器的计时时长；

若在所述第二定时器计时结束前接收到所述数据接收方返回的针对所述当前语音关键帧的状态确认帧，或者在所述第二定时器计时结束时，在所述丢包重传处理队列中将所述当前语音关键帧删除。
如权利要求2所述的方法，其中，所述将所述丢包重传处理队列中的语音关键帧重传给所述数据接收方之后，还包括：

启动第二定时器进行计时；

在所述第二定时器计时结束前接收到所述数据接收方返回的针对所述当前语音关键帧的状态确认帧时，或者在所述第二定时器计时结束时，在所述丢包重传处理队列中将所述当前语音关键帧删除。
如权利要求1所述的方法，其中，所述对所述目标发送队列中的多个语音数据帧进行识别，包括：

计算语音数据帧的帧能量；

判断所述帧能量是否小于第一预设阈值；

当判断结果为是时，则识别出所述语音数据帧为语音非关键帧。
如权利要求1所述的方法，其中，所述对所述目标发送队列中的多个语音数据帧进行识别，包括：

分析语音数据帧是否不含有语音内容信息；

当分析结果为是时，则识别出所述语音数据帧为语音非关键帧。
如权利要求1所述的方法，其中，所述对所述目标发送队列中的多个语音数据帧进行识别，包括：

计算语音数据帧与所述语音数据帧相对的上一个语音数据帧的前M个lsp系数差的绝对值；

检测计算得到的M个绝对值是否都小于第二预设阈值；

当检测结果为是时，则识别出所述语音数据帧为语音非关键帧。
如权利要求5所述的方法，其中，当判断出所述帧能量不小于第一预设阈值时，还包括：

分析所述语音数据帧是否不含有语音内容信息；

当分析结果为是时，则识别出所述语音数据帧为语音非关键帧。
如权利要求5所述的方法，其中，当判断出所述帧能量不小于第一预设阈值时，还包括：

计算所述语音数据帧与所述语音数据帧相对的上一语音数据帧的前M个lsp系数差的绝对值；

检测计算得到的M个绝对值是否都小于第二预设阈值；

当检测结果为是时，则识别出所述语音数据帧为语音非关键帧。
如权利要求6或8所述的方法，其中，当分析出所述语音数据帧含有语音内容信息时，还包括：

计算所述语音数据帧与所述语音数据帧相对的上一语音数据帧的前M个lsp系数差的绝对值；

检测计算得到的M个绝对值是否都小于第二预设阈值；

当检测结果为是时，则识别出所述语音数据帧为语音非关键帧。
如权利要求6或8所述的方法，其中，所述分析所述语音数据帧是否不含有语音内容信息，包括：

对所述语音数据帧进行2N点fft变换，得到所述语音数据帧的功率谱；并估算各频点噪声能量；所述N为正整数；

根据所述功率谱和所述噪声能量计算各频点信噪比；

根据所述各频点信噪比计算各频点信噪比平方之和；

比较所述各频点信噪比平方之和是否小于第三预设阈值；

当比较结果为是时，则识别出所述当前语音数据帧为语音非关键帧。
一种语音数据传输装置，其中，该装置包括处理器和存储器，所述存储器中存储有计算机可读指令，可以使所述处理器执行以下操作：

将多个语音数据帧放入目标发送队列，并将其依次发送给数据接收方；

对所述目标发送队列中的多个语音数据帧进行识别，并将识别出的语音关键帧放入丢包重传处理队列；

针对所述多个语音数据帧，仅对在所述丢包重传处理队列中的语音关键帧执行丢包重传处理。
如权利要求12所述的装置，其中，所述计算机可读指令可以使所述处理器执行以下操作：

针对处于所述丢包重传处理队列的重传发送窗口的当前语音关键帧，启动第一定时器进行计时；所述第一定时器的计时起算时间为所述当前语音关键帧在所述目标发送队列中的发送时间点；

检测是否在所述第一定时器计时结束前接收到所述数据接收方返回的针对所述当前语音关键帧的状态确认帧；

当检测结果为是时，在所述丢包重传处理队列中将所述当前语音关键帧删除；

当检测结果为否时，则将所述丢包重传处理队列中的所述当前语音关键帧重传给所述数据接收方。
如权利要求12所述的装置，其中，所述计算机可读指令可以使所述处理器执行以下操作：

计算语音数据帧的帧能量；

判断所述帧能量是否小于第一预设阈值；

当判断结果为是时，则识别出所述语音数据帧为语音非关键帧。
如权利要求12所述的装置，其中，所述计算机可读指令可以使所述处理器执行以下操作：

分析语音数据帧是否不含有语音内容信息；

当分析结果为是时，则识别出所述语音数据帧为语音非关键帧。
如权利要求12所述的装置，其中，所述计算机可读指令可以使所述处理器执行以下操作：

计算语音数据帧与所述语音数据帧相对的上一个语音数据帧的前M个lsp系数差的绝对值；

检测计算得到的M个绝对值是否都小于第二预设阈值；

当检测结果为是时，则识别出所述语音数据帧为语音非关键帧。
一种非易失性计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行以下操作：

将多个语音数据帧放入目标发送队列，并将其依次发送给数据接收方；

对所述目标发送队列中的多个语音数据帧进行识别，并将识别出的语音关键帧放入丢包重传处理队列；

针对所述多个语音数据帧，仅对在所述丢包重传处理队列中的语音关键帧执行丢包重传处理。