WO2018054171A1

WO2018054171A1 - 通话方法、装置、计算机存储介质及终端

Info

Publication number: WO2018054171A1
Application number: PCT/CN2017/095309
Authority: WO
Inventors: 王凤玲
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2016-09-22
Filing date: 2017-07-31
Publication date: 2018-03-29
Also published as: EP3490199A1; EP3490199B1; US10693799B2; EP3490199A4; US20190104079A1

Abstract

本申请公开了一种通话方法和装置。其中，该方法包括：基于第一客户端通过预设网络接收到的第二客户端发送的第一数据包，判断第二客户端通过预设网络向第一客户端发送的第一媒体信息是否发生丢包，其中，第一媒体信息包括第一数据包；在判断出第一媒体信息发生丢包的情况下，获取预设网络的网络状态信息；在网络状态信息满足第一预设条件的情况下，向第二客户端发送重传请求，其中，重传请求用于请求第二客户端重传第一媒体信息中丢失的第二数据包；在网络状态信息不满足第一预设条件的情况下，取消向第二客户端发送重传请求。本申请实施例还公开了一种计算机存储介质及终端。

Description

通话方法、装置、计算机存储介质及终端

本申请基于申请号为201610844042.2、201610940605.8及201610945642.8的三件中国专利申请提出，并要求中国专利申请的优先权，中国专利申请的全部内容并入本申请。

技术领域

本申请涉及即时通讯领域，具体而言，涉及一种通话方法、装置、计算机存储介质及终端。

背景技术

随着社会的发展，信息的交互显得越来越重要，为了满足信息的及时交互，即时通讯软件如雨后春笋般出现，如微信、QQ等，即时通讯软件的使用主要依赖于互联网，因此，网络的好坏程度将直接影响即时通讯软件的通讯质量。

目前，随着网络设备的大量普及，网络的承载压力也越来越大，在大量设备同时使用网络时就会造成网络的拥堵，从而影响到各个网络设备的网络通讯，如影响即时通讯软件的即时通讯，造成用户间的通讯质量较差。

针对相关技术中由于网络拥堵造成的即时通讯质量较差的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种通话方法和装置，以至少解决相关技术中由于网络拥堵造成的即时通讯质量较差的技术问题。

根据本申请实施例的一个方面，提供了一种通话方法，包括：基于第一客户端通过预设网络接收到的第二客户端发送的第一数据包，判断第二客户端通过预设网络向第一客户端发送的第一媒体信息是否发生丢包，其中，第一媒体信息包括初传成功的第一数据包，第一媒体信息是第二客户端与第一客户端进行音频通话或视频通话时传输的媒体信息；

在判断出第一媒体信息发生丢包的情况下，获取预设网络的网络状态信息；

确定请求所述第二客户端重传第二数据包的预定参数，其中，所述第二数据包为所述第一媒体信息中传输失败的数据包的重传数据包；所述预定参数包括：重传成功的第一概率阈值及成功输出所述第二数据包的第二概率阈值的至少其中之一；

根据所述预定参数，确定请求重传时所述网络状况信息需要满足的预设条件，其中，所述预设条件用于指示所述预设网络成功重传所述第二数据包的概率不小于所述第一概率阈值所需的网络条件，和/或，用于指示成功重传的所述第二数据包能够成功被输出的概率不小于所述第二概率阈值所需的网络条件；

在网络状态信息满足所述预设条件的情况下，向第二客户端发送重传请求；

在网络状态信息不满足所述预设条件的情况下，取消向第二客户端发送重传请求。

根据本申请实施例的另一方面，还提供了一种通话装置，包括：

第一判断部分，配置为基于第一客户端通过预设网络接收到的第二客户端发送的第一数据包，判断第二客户端通过预设网络向第一客户端发送的第一媒体信息是否发生丢包，其中，第一媒体信息包括初传成功的第一数据包，第一媒体信息是第二客户端与第一客户端进行音频通话或视频通话时传输的媒体信息；

参数确定部分，配置为确定请求所述第二客户端重传第二数据包的预定参数，其中，所述第二数据包为所述第一媒体信息中传输失败的数据包的重传数据包；所述预定参数包括：重传可获得参数及有效使用参数的至少其中之一；所述重传可获得参数用于指示能够成功重传所述第二数据包的概率；所述有效使用参数用于重传的所述第二数据包被成功输出的概率；

条件确定部分，配置为根据所述预定参数，确定请求重传时所述网络状况信息需要满足的预设条件，其中，所述预设条件用于指示所述预设网络成功重传所述第二数据包所需达到的网络条件，和/或，用于指示成功重传的所述第二数据包能够成功被输出的网络条件；

第一获取部分，配置为在判断出第一媒体信息发生丢包的情况下，获取预设网络的网络状态信息；

第一执行部分，配置为在网络状态信息满足预设条件的情况下，向第二客户端发送重传请求；其中，重传请求用于请求第二客户端重传第一媒体信息中丢失的第二数据包，预设条件用于指示预设网络重传第二数据包所需达到的网络条件；

第二执行部分，配置为在网络状态信息不满足第一预设条件的情况下，取消向第二客户端发送重传请求。

根据本申请实施例的又一方面，还提供了一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行前述通话方法。

根据本申请实施例的再一方面，还提供一种终端，包括：

网络接口，配置为通过网络与服务器连接；

存储器，配置为存储计算机可执行指令；

处理器，分别与所述网络接口及所述存储器连接，配置为通过执行所述计算机可执行指令，实现前述通话方法。

在本申请实施例中提供的技术方案，基于第一客户端通过预设网络接收到的第二客户端发送的第一数据包，判断第二客户端通过预设网络向第一客户端发送的第一媒体信息是否发生丢包，其中，第一媒体信息包括第一数据包，第一媒体信息是第二客户端与第一客户端进行音频通话或视频通话时传输的媒体信息；在判断出第一媒体信息发生丢包的情况下，获取预设网络的网络状态信息；在网络状态信息满足预设条件的情况下，向第二客户端发送重传请求，其中，重传请求用于请求第二客户端重传第一媒体信息中丢失的第二数据包，预设条件用于指示预设网络重传第二数据包所需达到的网络条件；在网络状态信息不满足预设条件的情况下，取消向第二客户端发送重传请求，在网络情况允许的情况下，通过重传请求获取丢失的数据包，达到使媒体信息更为完整的目的。本申请实施例能减少在网络已经拥堵的情况下，由于仍不断发送重传请求而导致的预设网络的进一步拥堵，解决由于预设网络拥堵状况迟迟得不到缓解而导致的媒体信息传输进一步受堵的现象。故从整个络而言，缓解了拥堵，能够为客户端提供更好的媒体信息的传输，从而整体上提升了即时通讯质量。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的通话方法的硬件环境的示意图；

图2是根据本申请实施例的一种通讯消息传输系统的示意图；

图3A是根据本申请实施例的一种可选的通话方法的流程图；

图3B是根据本申请实施例的一种可选的通话方法的流程图

图4是根据本申请实施例的一种可选的通话方法的流程图；

图5是根据本申请实施例的一种可选的通话装置的示意图；

图6是根据本申请实施例的一种可选的通话装置的示意图；以及，

图7是根据本申请实施例的一种终端的结构框图；

图8是根据本申请实施例提供的通话方法的硬件环境的示意图；

图9为本申请实施例中进行信息交互的各方硬件实体的示意图；

图10为本申请一个方法实现流程的示意图；

图11为本申请实施例另一方法实现流程的示意图；

图12为本申请实施例又一方法实现流程的示意图；

图13为本申请实施例又一方法实现流程的示意图；

图14为本申请一个系统架构组成示意图；

图15为现有技术中通话的端到端模块示意图；

图16至图17为均为通话实现示意图；

图18为应用本申请一个场景的示意图；

图19至图20为应用本申请实施例后去抖动处理的结果对比示意图；

图21是根据一示例性实施例示出的一种通话状态检测方法的流程图；

图22是图21为本申请实施例涉及的一种混合信号频谱图；

图23是图21为本申请实施例涉及的一种远端信号衰减流程示意图；

图24是图21为本申请实施例涉及的一种相关值计算的流程示意图；

图25是图21为本申请实施例涉及的一种通话状态检测流程的示意图；

图26是根据本申请实施例示出的一种通话状态检测装置的结构方框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，以下所说明的优选实施例仅用于说明和解释本申请，并不用于限定本申请。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或部分的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或部分，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或部分。

根据本申请实施例，提供了一种通话方法的方法实施例。

可选地，在本实施例中，上述方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示，服务器102通过网络与终端104进行连接，上述网络包括但不限于：广域网、城域网或局域网，终端104并不限定于PC、手机、平板电脑等。本申请实施例的方法可以由服务器102来执行，也可以由终端104来执行，还可以是由服务器102和终端104共同执行。其中，终端104执行本申请实施例的方法也可以是由安装在其上的客户端来执行。

实时音视频通话的总体框图如图2所示，客户端B将接收到的声卡采集到的数据进行编码、发送，通过网络传输到客户端A(即通过原有数据流)；客户端A对数据(即原有数据流中传输的数据)进行接收、解码，将解码后的数据送到声卡进行播放。客户端A接收数据时，如果发现有丢包现象(通过步骤S31的丢包检测实现)，就可以向客户端B发送重传请求(即重传请求数据流中的请求)，客户端B接收到重传请求之后，将所需的数据重新发一遍给客户端A，重新发的这一份数据即重传响应数据流中的响应数据。

在上述的传输方式中，未考虑网络的不同特性对于实际重传的影响，对于有些网络(如受限带宽网络)，丢包是由于拥塞造成的，在这样的网络中发送重传请求、对端响应重传请求而重传数据，相当于进一步增加了网络的负担，使得拥塞现象更加严重，这时进行重传，不仅浪费带宽，还可能造成网络拥塞更加严重，由于网络拥塞的加剧，进而增加丢包，使通话质量恶化，从而造成恶性循环。

且该传输方法也未考虑语音实时通话的特性，实时通话对数据到达的时间有严格的要求，而重传是在检测到有丢包之后，再重新发送重传请求、等待对方重新发送响应数据，在这样的情况下，考虑到丢包检测、重传请求的发送以及响应数据的接收所需消耗的时间，这样经过一来一回就需要消耗一定的时间，如果这个时间过大，那么即使响应数据重新传到接收端了，对实时通信来说，也是没用的，这种网络状况下，重传数据的使用率会非常低，甚至根本不起作用。

为了考虑网络特性、语音实时通话特性对于即时通讯的影响，根据本申请实施例，提供了一种通话方法的方法实施例。

图3A是根据本申请实施例的一种可选的通话方法的流程图，如图3A所示，该方法可以包括以下步骤：

步骤S302，基于第一客户端通过预设网络接收到的第二客户端发送的第一数据包，判断第二客户端通过预设网络向第一客户端发送的第一媒体信息是否发生丢包，第一媒体信息包括第一数据包，第一媒体信息是第二客户端与第一客户端进行音频通话或视频通话时传输的媒体信息；这里的第一数据包为所述第一媒体信息中初次传输就成功的数据包，故简称为初传成功数据包。

步骤S304，在判断出第一媒体信息发生丢包的情况下，获取预设网络的网络状态信息；

步骤S306，在网络状态信息满足预设条件的情况下，向第二客户端发送重传请求，重传请求用于请求第二客户端重传第一媒体信息中丢失的第二数据包，预设条件用于指示预设网络重传第二数据包所需达到的网络条件；

步骤S308，在网络状态信息不满足预设条件的情况下，取消向第二客户端发送重传请求。

通过上述步骤S302至步骤S308，在第一媒体信息发生丢包的情况下，根据网络状态信息判断是否发送重传请求，在网络状况较为理想的情况下发送重传请求以获取丢失的数据包，达到使媒体信息更为完整的目的，在网络状况不理想的情况下，不发送重传请求，以避免加剧网络的拥堵状况，可以解决了相关技术中由于网络拥堵造成的即时通讯质量较差的技术问题，进而达到提高即时通讯质量的技术效果。

在执行所述步骤S306之前，还需要确定出所述预设条件；在确定所述预设条件时可如图3B所示，包括以下步骤：

步骤S3041：确定请求所述第二客户端重传第二数据包的预定参数，其中，所述第二数据包为所述第一媒体信息中传输失败的数据包的重传数据包；所述预定参数包括：重传成功的第一概率阈值及成功输出所述第二数据包的第二概率阈值的至少其中之一；

步骤S3042：根据所述预定参数，确定请求重传时所述网络状况信息需要满足的预设条件，其中，所述预设条件用于指示所述预设网络成功重传所述第二数据包的概率不小于所述第一概率阈值所需的网络条件，和/或，用于指示成功重传的所述第二数据包能够成功被输出的概率不小于所述第二概率阈值所需的网络条件；

在一定情况下，所述第二客户端在缓存保留发送给所述第一客户端的数据包的时长是有限的，这样的话，即便重传请求达到第二客户端，而第二客户端自身丢弃了所述第一媒体信息，显然，即便重传请求成功达到第二客户端，也没有办法成功请求到所述第二数据包。在一些情况下，若当前网络状况很差，所述重传请求都可能在达到第二客户端的过程中出现丢包现象，这样的话，由于重传请求的丢失的会导致重传请求失败。故在本实施例中，会首先基于当前接收到第一媒体信息的传输状况信息，确定所述请求重传的概率等参数。

在本实施例中所述预设参数可为预先协商好的参数，也可以是根据第一客户端和第二客户端当前传输的第一媒体信息的类型动态确定的。例如，传输语音数据包和视频数据包对应的所述第一概率阈值和所述第二概率阈值就可以不同。

在本实施例中可以统计重传请求成功获得重传数据包的概率，只有当概率高于第一概率阈值时，才发送所述重传请求，以请求重传的数据包。

在一些情况下，虽然成功从所述第二客户端请求了重传的数据包，但是重传的第二数据包的输出时间已经过了，故这种重传数据包是没有必要请求的，故在本实施例中还可判断成功重传的所述第二数据包被输出的概率不小于第二概率阈值所需的网络条件。

只要当前网络状况满足上述第一网络条件或第二网络条件的情况下，才发送重传请求，这样显然不限定任何网络条件，直接在出现丢包的情况下就发送所述重传请求，可以有效的降低重传请求发送的频次，且减少在网络拥堵状况下，重传请求频繁发送导致的进一步拥堵现象，尽可能的将有用带宽用于有用的媒体信息传输。

例如，所述根据所述预定参数，确定请求重传时所述网络状况信息需要满足的预设条件，包括以下至少之一：

根据所述第二客户端缓存所述第一媒体信息的缓存时间，确定所述重传请求以不小于所述第一概率阈值在所述缓存时间内达到所述第二客户端所需的第一网络条件；

根据所述第一客户端中媒体信息的输出速率，确定所述第二数据包达到所述第一客户端后以不小于所述第二概率阈值被输出所需的第二网络条件。

不同类型的传输场景，所述第二客户端缓存所述第一媒体信息的时长可能不同，在本实施例中，会根据第二客户端缓存所述第一媒体信息的时长，利用各种重传模型等计算出若需要确保第二数据包重传的成功概率达到第二概率阈值以上的第一网络条件。

在一些情况下，可能会出现请求重传的数据包被成功重传了，但是第一客户端接收到之后，第一客户端实质上已经过了需要输出该数据的时间，该数据包不会被输出了。故在本实施例中，为了确保被请求重传的数据包不仅能够被成功重传，而且确实被使用到，需要怎样的网络条件。

故在本实施例中，会根据预定参数确定出当前网络状况信息需要满足的网络条件。

可选方式一：所述根据所述预定参数，确定请求重传时所述网络状况信息需要满足的预设条件，包括：

根据所述第二客户端缓存所述第一媒体信息的缓存时间，确定所述重传请求以不小于所述第一概率阈值在所述缓存时间内达到所述第二客户端所需的第一网络条件。

可选方式二：所述根据所述预定参数，确定请求重传时所述网络状况信息需要满足的预设条件，还包括：

这里的媒体信息的输出速率针对语音可为单位时间内输出的语音数据包的个数，单位时间内输出的语音数据量。针对视频可为单位时间内输出的图像帧的帧数，即对应于帧率等。

上述的客户端可以为通讯用的客户端，该客户端可以安装在计算机等固定设备或移动设备上。可选地，客户端可以为对通讯的即时性要求较高的客户端，也即即时通讯客户端，如微信、QQ等可用于提即时通信服务的应用。所述固定设备可包括：台式电脑、智能电视等。所述移动设备可包括：手机、平板电脑、可穿戴设备等。

所述预设网络为：客户端之间通讯用的网络，例如，连接两个客户端的互联网。例如，客户端A位于北京海淀区，客户端B位于北京朝阳区；连接所述客户端A和客户端B的服务器，也在海淀区及朝阳区有部署，则所述预定网络，可包括：连接所述海淀区及朝阳区的网络。总之，这里的预设网络可为所述第一媒体信息传输的网络。所述第一媒体信息可以为动态的多媒体信息，如视频、音频、GIF图片等，也可以为静态信息，如文字信息、静态图片等。

网络状态信息也即用于描述网络通信状态的信息，如网络传输速度、延迟等信息等。上述网络条件指传输第二数据包所需占用的最低网络资源和/或网络所需提供的最次的网络通信状态，如用于限定预设网络重传第二数据包所需达到的最小的网络传输速度、最小延迟等条件。

需要说明的是，在相关技术中只要发生丢包就会发送重传请求，由于此时网络堵塞较为严重，在发送重传请求的同时，无疑加剧了网络的堵塞状况，进而会造成更多的数据包丢失，且由于网络堵塞情况严重，即使收到了响应数据包，响应数据包的有效性也大大降低，起不到提高通讯质量的效果，相反，由于网络堵塞的加重，会造成更多的数据包丢失。而在本申请的技术方案中，在网络状况不理想的情况下，不发送重传请求，以避免加剧网络的拥堵状况，相对于在相关技术中采用的手段，可减少后续丢包现象的发生，进而相对地提高了通讯质量。

步骤S302至步骤S308的执行主体可以是接收数据包的客户端(即第一客户端)，即第一客户端根据自身需求向第二客户端发起重传请求，为了降低第一客户端的运行负载，也可以是客户端所属的应用服务器来执行步骤S302至步骤S308，由服务器对第一客户端的数据包接收情况进行监控，在确定了丢包之后，根据网络情况来向第二客户端申请丢失的数据包，这里的服务器可以为客户端的服务器，如在客户端为即时通讯应用时，服务器为即时通讯应用服务器。

本申请基于历史数据对当前网络特点进行分析，根据网络特性、接收语音数据的重要性来决定是否发送重传请求，同时，根据重传数据的利用率，实时调整重传控制的相关策略，使得在各种网络条件下，带宽利用率和重传使用率都达到最优。可选地实现方式如图3所示：

在步骤S302提供的技术方案中，基于第一客户端通过预设网络接收到的第二客户端发送的第一数据包，判断第二客户端通过预设网络向第一客户端发送的第一媒体信息是否发生丢包可以通过如下方式实现：根据第一数据包中的序号索引信息判断第一媒体信息是否发生丢包。

可选地，可以根据序号索引的连续性来确定，如收到了索引为7和9的数据包，那么可以确定索引为8的数据包丢失。另外，在数据包中会标识出对应于某一媒体信息的多个数据包的索引区间，例如，对于即时通讯应用中的一条语音，可以拆为100个数据包进行发送，那么在数据包中可以标识出该语音使用的索引区间为301至400，这样，在任意一个数据包丢失的时候均可以根据收到的数据包来确定。

在步骤S304提供的技术方案中，在判断出第一媒体信息发生丢包的情况下，获取预设网络的网络状态信息，获取的信息主要包括用于表征第一网络状态的当前使用带宽、当前传输时延、当前丢包率以及用于描述允许连续丢包数量的第二预设值。

需要说明的是，上述的当前使用带宽用于表示当前使用码率。使用码率指的是当前通话实际使用的码率，包括发送码率和接收码率，发送码率是发送的总字节数除以通话时长，接收码率是接收的总字节数除以通话时长。例如，估计的带宽(即带宽阀值)远大于当前使用的发送码率，那么就说明带宽很充足，多发一些重传包也没关系，不会对网络造成压力。估计带宽，估计的是当前通话时链路的大概带宽情况，是一个实时变化的值。

在判断网络状态信息所指示的预设网络的第一网络状态是否与重传第二数据包所需的第二网络状态匹配之前，根据预设网络的带宽信息确定带宽阈值；根据预设网络的网络抖动信息确定传输时延阈值；根据历史丢包率和丢包模型确定丢包率阈值。

丢包率包括长时丢包率(即通话开始到当前时刻为止的丢包率)、短时丢包率(如5秒内的丢包率，用来指示网络丢包率是否发生突变)、连续丢包个数的累计直方图(用来表征丢包模型，即是均匀丢包的网络类型、还是突发大丢包比较多的网络类型)。

传输时延，是指节点在发送数据时使数据块从节点进入到传输媒体所需的时间，即一个站点从开始发送数据帧到数据帧发送完毕所需要的全部时间(或者是接收站点接收另一站点发送的数据帧的全部时间)。

在步骤S306或S308提供的技术方案中，在获取预设网络的网络状态信息之后、且在向第二客户端发送重传请求或取消向第二客户端发送重传请求之前，判断网络状态信息所指示的预设网络的第一网络状态是否与重传第二数据包所需的第二网络状态匹配；在第一网络状态与第二网络状态匹配的情况下，判断出网络状态信息满足预设条件；在第一网络状态与第二网络状态不匹配的情况下，判断出网络状态信息不满足预设条件。

可选地，判断网络状态信息所指示的预设网络的第一网络状态是否与重传第二数据包所需的第二网络状态匹配包括以下至少之一：判断带宽阈值与当前使用带宽的差值是否小于第一预设值；判断当前传输时延是否小于传输时延阈值；判断当前丢包率是否小于丢包率阈值；判断连续丢包的数量是否小于第二预设值；其中，预设判断结果用于指示第一网络状态与第二网络状态匹配，预设判断结果包括以下至少之一：判断出带宽阈值与当前使用带宽的差值小于第一预设值；判断出当前传输时延小于传输时延阈值；判断出当前丢包率小于丢包率阈值；判断出连续丢包的数量小于第二预设值。

可选地，在向第二客户端发送重传请求之前，通过对第一数据包中的媒体信息段进行信号特征分析确定丢失的第二数据包的语音特征；在网络状态信息满足预设条件的情况下，向第二客户端发送重传请求包括：在网络状态信息满足预设条件，且语音特征包括浊音特征、语音特征以及语义特征中的至少一个的情况下，向第二客户端发送重传请求。

可选地，可对语音信号进行分析，如清音、浊音分析，语音、静音分析、语义重要性分析等，以调整网络参数阈值，比如，带宽足够时，只要检测到丢包就可以进行重传请求，带宽不够时，只对丢失的重要语音帧(即上述满足浊音特征、语音特征以及语义特征中的一个或多个的语音帧)进行重传请求。如对包括重要语义的语音数据包进行重传。

在一些实施例中，所述方法还包括：

在判断出所述第一媒体信息丢包的情况下，判断丢失的第二数据包的数据内容是否为预定类型；对应地，此时，所述步骤S304包括：

当所述数据内容为预定类型，获取所述预设网络的网络状态信息。

当所述第一媒体信息为视频信息时，所述视频信息中包括：关键帧和非关键帧，当所述第二数据包的数据内容为非关键帧时，对第一多媒体信息的播放影响不大，在本实施例中一方面为简化终端的操作，同时为了缓解预设网络的拥堵，故步骤S304可为：所述数据内容不是预定类型时，则可以屏蔽所述步骤S304。

在步骤S306或S308执行完毕之后，在向第二客户端发送重传请求或取消向第二客户端发送重传请求之后，该方法还包括以下至少之一：根据前一次确定的带宽阈值和预设网络的当前带宽信息重新确定当前的带宽阈值；在接收到的第二数据包的数量与发送的重传请求的数量的第一比值小于第三预设值的情况下，增大丢包率阈值，并减小传输时延阈值；在接收到的有效的第二数据包与接收到的所有第二数据包间的第二比值小于第四预设值的情况下，增大丢包率阈值，并减小传输时延阈值。

上述的有效的第二数据包是指满足实时性要求的数据包，即在丢失后的预设时间内收到的数据包。

需要说明的是，带宽阈值、丢包率阈值、传输时延阈值等阈值可以在初始的时候根据经验设置一个初始值，步骤S302至步骤S308初次执行使用的是各个阈值的初始值，在运行的过程中，可以根据网络情况和实际的反馈情况进行自调整，以达到提高语音通信质量的目的。

在改变丢包率阈值和传输时延阈值的过程中，并不是一次性调整一个极大的数值，可以按照该参数的当前数值的某一百分比(如10％)进行增加或者减小，从而避免调整过度，以达到平滑过度的目的。

在步骤S306或S308执行完毕之后，在向第二客户端发送重传请求之后，接收第二客户端发送的第二数据包；根据第一数据包和第二数据包生成第二媒体信息；或在网络状态信息不满足预设条件的情况下，根据第一数据包生成第三媒体信息。

在接收到第一媒体信息的所有数据包的情况下，即接收到每一个丢失的第二数据包的情况下，恢复生成的第二媒体信息即第一媒体信息，即可以恢复得到一段完整的语音；由于出现了语音缺失，即出现了丢包，第三媒体信息相较于第一媒体信息，质量会相对较低。

在上述的实施例中，为了更清晰地描述重传的机制，如图2所示，重传控制流程主要包括：

步骤S31，丢包检测，根据接收到的数据包的包头信息中的序号索引信息，判断是否有丢包，例如，当前数据包的序号索引为25，而前一数据包的序号索引为24，由于两个数据包的序号索引是连续的，根据序号索引可知没有发生丢包，若前一数据包的序号索引为22，由于两个数据包的序号索引不是连续的，根据序号索引可知发生丢包，且丢包的数量为2(即丢失数据包的序号索引为23和24)。

步骤S32，请求控制，如果在步骤S31中检测到有丢包发生，则向对方(如客户端B)发送重传请求。

步骤S33，响应控制，根据接收到的重传请求信息，在历史缓存数据中，确定将哪些数据进行重传。确定的依据包括：重传数据与已发送数据的长度间隔，所需重传数据的重要等级。

在步骤S33的响应控制中，对于进行重传的控制，对于步骤S32的请求控制，均是检测到有丢包就发送重传请求，而发送重传请求信息也是需要消耗带宽的，在有些网络下，多消耗带宽可能造成网络拥塞的加剧，使通话质量更加恶化，或者由于实时通话的特性，造成重传数据的利用率太低，这时候步骤S32中的重新请求信息的发送就是不必要的；同时，在步骤S33的响应控制中，也没有考虑网络特性、重传的利用率等。因此，在这种重传控制方法中，重传数据的利用率和带宽的利用率都没有依据不同的网络特性加以控制。

下面结合图4进一步地详述本申请的技术方案，如图4所示：

步骤S401，丢包检测，根据包头信息中的序号索引信息，判断是否有丢包。

步骤S402，丢包判决，即判断是否发生丢包，如果步骤S401中检测到没有丢包，就执行步骤S409，如果检测到发生丢包，则执行步骤S403。

步骤S403，进行网络特性分析，网络特性包括但不限于：使用码率、估计带宽、丢包率、网络抖动、端到端的传输时延等。

上述的使用码率指的是当前通话实际使用的码率，包括发送码率和接收码率，发送码率是发送的总字节数除以通话时长，接收码率是接收的总字节数除以通话时长，例如，估计的带宽是512kbps，当前使用的发送码率是100kbps，那么就说明带宽很充足，多发一些重传包也没关系，不会对网络造成压力。

估计带宽，估计的是当前通话时链路的大概带宽情况，是一个实时变化的值。

网络抖动，是QOS(Quality Of Service，服务质量)中的概念，是指分组延迟的变化程度，如果网络发生拥塞，排队延迟将影响端到端的延迟，并导致通过同一连接传输的分组延迟各不相同，而抖动就是用来描述这样的延迟变化的程度。

步骤S404，根据步骤S403中分析的结果，计算相应的网络参数阈值。

(1)确定带宽阈值，根据估计的带宽，当使用码率(即当前使用带宽，如接收码率、发送码率)大于一定阈值时，就不允许发送ARQ请求(即重传请求)。

(2)确定传输时延阈值，根据网络抖动，确定传输时延阈值；在一定的抖动下，当传输时延大于某个阈值的时候，就不允许发送ARQ请求，因为这时候即使发送了ARQ请求，重传过来的响应数据也可能用不上，导致利用率太低。

(3)丢包率阈值，根据历史丢包率大小和丢包模型的分析确定当前丢包率下的阈值。比如在某些带宽不够的网络下、或者丢包率特别大的网络下，发送的数据越多，丢的数据也越多，这时候再发送ARQ请求就会增加网络负担，也即发送ARQ请求也是无用或者有害的。

例如，假设估计带宽是512kbps，而当前使用码率是100kbps，那么说明带宽比较充足，检测到有丢包就可以发送重传请求；假设估计带宽是512kbps，使用码率是450kbps，说明剩余带宽不是很充足，这时候，只有丢包率大于15％，且连续丢包个数的累计直方图显示连续丢多个(如4个)以上包的比例比较大的时候，才发重传请求。之所以这样考虑，是因为丢包率比较低的时候，虽然听觉上通话质量会有所下降，但还是不影响语义的理解；而丢包率大到一定程度时，就会影响语义的接收。带宽不太够的时候，为了避免多发的重传包对网络造成冲击，只有当丢包率达到一定大的时候才发重传请求。

步骤S405，统计重传请求的相关利用率。

(1)计算接收到的响应数据的数量与ARQ请求的数量之间的第一比值，客户端B缓存的历史数据是有一定的长度限制的，如果客户端A到客户端B的传输时延太大，客户端B收到的ARQ请求中携带的请求包数据信息已经在缓存数据之外，那么就不会对客户端A的ARQ请求进行响应，这时候计算出来的第一比值的数值就会特别低。为了避免客户端A发送太多ARQ请求而造成带宽浪费，需要降低ARQ请求的发送频率，即提高网络参数的相关阈值；

(2)计算响应数据的实际利用率，客户端B收到ARQ请求之后，在历史缓存数据中找到了相应的数据，将数据作为响应包重新发送给客户端A。这时候，如果客户端B到客户端A之间的传输时延太大，响应数据到达客户端A的时候已经不满足实时通话的数据要求，变成晚到的包需要主动丢掉，这时候虽然有响应数据，但是响应数据的利用率太低，如果一段时间内的实际利用率低，也需要降低ARQ的请求频率，即提高网络参数的相关阈值。

步骤S406，更新阈值。

由于网络带宽和传输时延等都是估计值，即使按估计带宽、使用码率、丢包率、传输时延等参数做了合理的控制，实际效果可能还是达不到理想效果，比如，可能带宽估计不够准确，增加了重传包之后，网络拥塞使得传输时延变大，发送了很多重传请求，但是收到的重传响应包很少，这时接收到的响应数据的数量与ARQ请求的数量之间的比值就会很低，比如发送了1000个重传请求，只收到了一个ARQ响应包，这个时候就要减少重传请求的频率。减少时不是一下减少很多，而是通过一步一步增加相关的网络参数来实现的，比如原来是丢包率大于10％、传输时延小于200ms时允许发送ARQ请求，现在提高门槛，只有丢包率大于20％、传输时延小于150ms时才允许发送ARQ请求。

步骤S407，信号特性分析。

对信号进行分析，如清音、浊音分析，语音、静音分析、语义重要性分析等，以调整步骤S406中的网络参数阈值，比如，带宽足够时，只要检测到丢包就可以进行重传请求，带宽不够时，只对丢失的重要语音帧进行重传请求。

比如，带宽估计是512kbps，使用码率是100kbps，说明带宽很充足，那么只要有丢包就可以发送重传请求；假设带宽估计是512kbps，而使用带宽是460kbps，说明带宽已经不是很充裕，那么只有发现丢失的包是重要信息的时候，才发送重传请求。

步骤S408，请求的综合判决。

综合判决时，带宽充裕，就可以多发一些重传请求，带宽不充裕时，只有重要信息丢失了才发重传请求。

步骤S409，不允许发送ARQ请求。

步骤S410，允许发送ARQ请求。

通过上述实施例，可使重传请求的发送自适应不同的网络特性，使得在各种网络环境下，带宽利用率和重传效率都达到最优。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和子部分并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

本申请还提供另一个实施例；所述通话方法还包括：

根据当前的所述网络状况信息和第二去抖动策略得到去抖动参数，根据所述去抖动参数设置用于传输所述音频通话或视频通话的通话数据的缓冲区容量，使所述音频通话或视频通话的时延符合预期。

在本申请实施例中通过第二去抖动策略可以获得去抖动参数，可以通过对语音通话或视频通话中的去抖动处理，提升通话质量。

可选地，所述方法还包括：采集离线网络数据，从所述离线网络数据中提取出用于表征网络特征的至少一个网络参数；根据所述至少一个网络参数构建网络模型，根据所述网络模型确定第一去抖动策略；根据用于评估音频通话或视频通话的通话质量的特征参数对所述第一去抖动策略进行修正，得到第二去抖动策略。

对所述第一去抖动策略进行修正的方式有多种，以下提供几种可选方式。

可选方式一：

所述根据用于评估音频通话或视频通话的通话质量的通话质量的特征参数对所述第一去抖动策略进行修正，包括：

获取本次音频通话或视频通话的历史数据；

根据所述本次音频通话或视频通话的历史数据对所述第一去抖动策略进行修正。

可选方式二：

所述根据用于音频通话或视频通话的通话质量的通话质量的特征参数对所述第一去抖动策略进行修正，包括：

获取本次音频通话或视频通话的信号内容；

根据所述本次音频通话或视频通话的信号内容对所述第一去抖动策略进行修正。

可选地方式三：

获取本次音频通话或视频通话的感知听觉结果；

根据所述感知听觉结果对所述第一去抖动策略进行修正。

在一些实施例中，所述方法还包括：

采集本次音频通话或视频通话的通话数据时，获取终端设备的不同处理能力和/或作为通话媒介的应用的调度特性；

根据所述终端设备的不同处理能力和/或作为所述通话媒介的应用的调度特性对所述第一去抖动策略进行修正。

此外，所述方法还包括：

播放本次音频通话或视频通话的通话数据时，获取终端设备的不同处理能力和/或作为所述通话媒介的应用的调度特性；

本申请实施例的客户端对应于智能终端(如移动终端)可以以各种形式来实施。例如，本申请实施例中描述的移动终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA，Personal Digital Assistant)、平板电脑(PAD)、便携式多媒体播放器(PMP，Portable Media Player)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面，假设终端是移动终端。然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本申请的实施方式的构造也能够应用于固定类型的终端。

图9为本申请实施例中进行信息交互的各方硬件实体的示意图，图9中包括：终端设备1，服务器2、终端设备3。其中，终端设备1称为发送端设备，由终端设备11-14构成；终端设备3称为接收端设备，由终端设备31-35构成；服务器2用于执行去抖动的处理逻辑。终端设备通过有线网络或者无线网络与服务器进行信息交互。终端设备包括手机、台式机、PC机、一体机等类型。采用本申请实施例，终端设备1经由服务器2和终端设备3进行信息传输和交互。本申请的通话可为语音通话或视频通话。可选地，以Voip网络通话为例，终端设备11-14在本次Voip网络通话中，发送网络数据，网络数据通过服务器2进行去抖动处理后，交由终端设备31-35进行播放，完成本次Voip网络通话。由于现有技术中采用单一的参数来构建去抖动策略并不精准，从而导致影响到Voip网络通话的通话质量，本申请实施例采用现网的离线网络数据，并从离线网络数据中提取出用于表征网络特征的至少一个网络参数，根据所述至少一个网络参数构建网络模型，使得根据所述网络模型确定的第一去抖动策略(或称去抖动策略)趋于精准。可选地，对执行去抖动处理的服务器2中的处理逻辑10包括：S1、采集离线网络数据，从所述离线网络数据中提取出用于表征网络特征的至少一个网络参数；S2、根据所述至少一个网络参数构建网络模型，根据所述网络模型确定第一去抖动策略；S3、根据用于评估如Voip通话的语音通话或视频通话质量的特征参数对所述第一去抖动策略进行修正，得到第二去抖动策略；S4、根据当前实时的网络情况和所述第二去抖动策略得到去抖动参数，根据所述去抖动参数设置用于传输如Voip通话的语音通话或视频通话数据的缓冲区大小，使如Voip通话的语音通话或视频通话的时延符合预期。

上述图9的例子只是实现本申请实施例的一个系统架构实例，本申请实施例并不限于上述图9所述的系统结构，基于上述图9所述的系统架构，提出本申请方法各个实施例。

本申请实施例的一种信息处理方法，如图10所示，所述方法包括：采集离线网络数据，从所述离线网络数据中提取出用于表征网络特征的至少一个网络参数，根据所述至少一个网络参数构建网络模型，以根据所述网络模型衡量或模拟Voip的通话质量，根据所述网络模型确定第一去抖动策略(101)。可选地，第一去抖动策略也可以称为初始去抖动策略，在实际应用中，通过不同的网络类型来收集大量现网相关网络数据，经离线训练构建得到该网络模型，该网络模型除了可以确定初始去抖动策略，由于基于该初始去抖动策略输出的相关参数包括去抖动参数和时延参数等，也可以说，根据所述网络模型确定初始去抖动策略和相关参数，相关参数包括去抖动参数和时延参数。根据用于评估如Voip通话的语音通话或视频通话质量的特征参数(如本次通话的历史数据、本次通话的信号内容、本次通话的感知听觉结果等)对所述第一去抖动策略进行修正，得到第二去抖动策略(1021)。其中，就本次通话的历史数据而言，它可以反映本次通话网络特性；就本次通话的信号内容而言，它决定了当前帧是否为重要帧，语音数据内容为重要帧，需要重点关注，而静音数据内容无需重点关注，对不同内容，去抖动的处理是不同的；就感知听觉结果而言，不同的感知听觉结果对去抖动调整的方式和幅度是不同的。根据当前实时的网络情况和所述第二去抖动策略得到去抖动参数，根据所述去抖动参数设置用于传输如Voip通话的语音通话或视频通话数据的缓冲区大小，使如Voip通话的语音通话或视频通话的时延符合预期，趋于合理(103)。在实际应用中，根据由第二去抖动策略得到的去抖动参数确定去抖动缓冲区的大小，最后，基于该去抖动缓冲区的大小对缓存区数据进行调整。

采用本申请实施例，采集离线网络数据，从所述离线网络数据中提取出用于表征网络特征的至少一个网络参数；根据所述至少一个网络参数构建网络模型，根据所述网络模型确定第一去抖动策略，由于采用多个参数构建去抖动算法，从而对网络通话环境中的各种复杂情况进行了充分估计，得到的第一去抖动策略(或称初始去抖动策略)是趋于精准的，据此初始去抖动策略得到的相关参数，如去抖动参数等也趋于精准。为了进一步提高精准度，还根据用于评估如Voip通话的语音通话或视频通话质量的特征参数对所述第一去抖动策略进行修正，得到第二去抖动策略；根据当前实时的网络情况和所述第二去抖动策略得到去抖动参数，根据所述去抖动参数设置用于传输如Voip通话的语音通话或视频通话数据的缓冲区大小，使如Voip通话的语音通话或视频通话的时延符合预期，通过一系列去抖动策略的优化，使得据此设置的缓冲区大小趋于合理，则据该缓冲区大小对网络通话质量进行改善具备可参考性，提高了网络通话质量。

这里需要指出的是，上述方法处理逻辑中的采集、策略确定、策略修正等逻辑不限定是位于发送端、接收端或服务器中，这些逻辑的部分或全部可以位于发送端、接收端或服务器。

本申请实施例的一种信息处理方法，如图11所示，所述方法包括：采集离线网络数据，从所述离线网络数据中提取出用于表征网络特征的至少一个网络参数，根据所述至少一个网络参数构建网络模型，以根据所述网络模型衡量或模拟Voip的通话质量，根据所述网络模型确定第一去抖动策略(201)。可选地，第一去抖动策略也可以称为初始去抖动策略，在实际应用中，通过不同的网络类型来收集大量现网相关网络数据，经离线训练构建得到该网络模型，该网络模型除了可以确定初始去抖动策略，由于基于该初始去抖动策略输出的相关参数包括去抖动参数和时延参数等，也可以说，根据所述网络模型确定初始去抖动策略和相关参数，相关参数包括去抖动参数和时延参数。获取本次通话的历史数据，将本次通话的历史数据作为用于评估如Voip通话的语音通话或视频通话质量的特征参数，根据所述本次通话的历史数据对所述第一去抖动策略进行修正，得到第二去抖动策略(202)。其中，就本次通话的历史数据而言，它可以反映本次通话网络特性，在单次通话中，根据本次通话的历史数据，可以调整所述第一去抖动策略中的网络参数设置，如去抖动参数和时延处理参数。根据当前实时的网络情况和所述第二去抖动策略得到去抖动参数，根据所述去抖动参数设置用于传输如Voip通话的语音通话或视频通话数据的缓冲区大小，使如Voip通话的语音通话或视频通话的时延符合预期，趋于合理(203)。在实际应用中，根据由第二去抖动策略得到的去抖动参数确定去抖动缓冲区的大小，最后，基于该去抖动缓冲区的大小对缓存区数据进行调整。

本申请实施例的一种信息处理方法，如图12所示，所述方法包括：采集离线网络数据，从所述离线网络数据中提取出用于表征网络特征的至少一个网络参数，根据所述至少一个网络参数构建网络模型，以根据所述网络模型衡量或模拟Voip的通话质量，根据所述网络模型确定第一去抖动策略(301)。可选地，第一去抖动策略也可以称为初始去抖动策略，在实际应用中，通过不同的网络类型来收集大量现网相关网络数据，经离线训练构建得到该网络模型，该网络模型除了可以确定初始去抖动策略，由于基于该初始去抖动策略输出的相关参数包括去抖动参数和时延参数等，也可以说，根据所述网络模型确定初始去抖动策略和相关参数，相关参数包括去抖动参数和时延参数。获取本次通话的信号内容，将本次通话的信号内容作为用于评估如Voip通话的语音通话或视频通话质量的特征参数，根据所述本次通话的信号内容对所述第一去抖动策略进行修正，得到第二去抖动策略(302)。其中，就本次通话的信号内容而言，它决定了当前帧是否为重要帧，语音数据内容为重要帧，需要重点关注，而静音数据内容无需重点关注，对不同内容，去抖动的处理是不同的，在单次通话中，可以调整所述第一去抖动策略中的网络参数设置，如去抖动参数和时延处理参数。当然，也可以在用于评估如Voip通话的语音通话或视频通话质量的特征参数(如本次通话的历史数据、本次通话的感知听觉结果等)对所述第一去抖动策略进行修正后，再根据所述本次通话的信号内容对所述修正后的去抖动策略进行再次修正，以提高去抖动策略的精度。根据当前实时的网络情况和所述第二去抖动策略得到去抖动参数，根据所述去抖动参数设置用于传输如Voip通话的语音通话或视频通话数据的缓冲区大小，使如Voip通话的语音通话或视频通话的时延符合预期，趋于合理(303)。在实际应用中，根据由第二去抖动策略得到的去抖动参数确定去抖动缓冲区的大小，最后，基于该去抖动缓冲区的大小对缓存区数据进行调整。

本申请实施例的一种信息处理方法，如图13所示，所述方法包括：采集离线网络数据，从所述离线网络数据中提取出用于表征网络特征的至少一个网络参数，根据所述至少一个网络参数构建网络模型，以根据所述网络模型衡量或模拟Voip的通话质量，根据所述网络模型确定第一去抖动策略(401)。可选地，第一去抖动策略也可以称为初始去抖动策略，在实际应用中，通过不同的网络类型来收集大量现网相关网络数据，经离线训练构建得到该网络模型，该网络模型除了可以确定初始去抖动策略，由于基于该初始去抖动策略输出的相关参数包括去抖动参数和时延参数等，也可以说，根据所述网络模型确定初始去抖动策略和相关参数，相关参数包括去抖动参数和时延参数。获取本次通话的感知听觉结果，也可以称为传统的感知听觉评价参数，将本次通话的感知听觉结果作为用于评估如Voip通话的语音通话或视频通话质量的特征参数，根据所述本次通话的感知听觉结果对所述第一去抖动策略进行修正，得到第二去抖动策略(402)。其中，就感知听觉结果而言，不同的感知听觉结果对去抖动调整的方式和幅度是不同的，在单次通话中，可以调整所述第一去抖动策略中的网络参数设置，如去抖动参数和时延处理参数。当然，也可以在用于评估如Voip通话的语音通话或视频通话质量的特征参数(如本次通话的历史数据、本次通话的信号内容等)对所述第一去抖动策略进行修正后，再根据所述本次通话的信号内容对所述修正后的去抖动策略进行再次修正，以提高去抖动策略的精度。根据当前实时的网络情况和所述第二去抖动策略得到去抖动参数，根据所述去抖动参数设置用于传输如Voip通话的语音通话或视频通话数据的缓冲区大小，使如Voip通话的语音通话或视频通话的时延符合预期，趋于合理(403)。在实际应用中，根据由第二去抖动策略得到的去抖动参数确定去抖动缓冲区的大小，最后，基于该去抖动缓冲区的大小对缓存区数据进行调整。

在实际应用中，除了在去抖动端的处理，在整个Voip网络通话中，还可以在发送端和接收端(或称播放端)，分别根据设备的不同处理能力、应用程序线程的调度特性等设置不同的时延处理方法和参数，以便对第一去抖动策略继续进行修正，以提高去抖动策略的精度，如以下实施例所示。

就整个Voip网络通话中的发送端而言，本申请实施例的一种信息处理方法中，采集本次通话的如Voip通话的语音通话或视频通话数据时，获取终端设备的不同处理能力和/或作为所述如Voip通话的语音通话或视频通话媒介的应用的调度特性，根据所述终端设备的不同处理能力和/或作为所述如Voip通话的语音通话或视频通话媒介的应用的调度特性对所述第一去抖动策略进行修正。

就整个Voip网络通话中的接收端(或称播放端)而言，本申请实施例的一种信息处理方法中，播放本次通话的如Voip通话的语音通话或视频通话数据时，获取终端设备的不同处理能力和/或作为所述如Voip通话的语音通话或视频通话媒介的应用的调度特性，根据所述终端设备的不同处理能力和/或作为所述如Voip通话的语音通话或视频通话媒介的应用的调度特性对所述第一去抖动策略进行修正。

采用上述各个实施例，在实际应用中，可以先通过离线抓包，提取相应的参数表征网络特性，通过大量的离线训练，建立不同的网络模型参数，根据建立的网络参数模型决定初始的去抖动算法和相关参数，然后，根据当次通话的历史数据，对去抖动策略和相关参数进行调整。由于，在网络模型的建模上，考虑了整个通话过程中网络的总体特性，也考虑一段时间内的突发性，因此，能更精确的估计网络特性。

就去抖动策略而言，以图1所示的系统架构为例，服务器2在执行去抖动处理时，其去抖动策略始终工作在最好的状态下，本文中的JB_len指缓冲区大小，AD_up指缓冲区上限，AD_dw指缓冲区下限，F1-F4指调整参数的经验值，具体内容如下所示：

一，JB_len>AD_up的情况下：

当JB_len>AD_up×F1时，如果当前帧信号内容是重要帧(如语音段)，则对当前缓冲区数据进行压缩处理；如果当前帧为非重要数据(如静音数据)，则直接将当前帧丢掉。当JB_len>AD_up×F2时(F1＞F2)，如果当前帧信号内容是重要帧(如语音段)，则不对当前缓冲区数据进行任何处理；如果当前帧为非重要数据(如静音数据)，则对当前缓冲区数据进行压缩处理。

压缩的幅度根据F1、F2的大小决定，每次压缩的幅度小于当前帧的数据长度。

这样处理的依据，是因为不管是对信号进行压缩还是直接丢掉，其实对通话质量都是一种损伤，而且，直接丢包的损伤大于压缩的损伤；基于单个包的压缩算法，每次压缩的幅度都小于1帧的数据长度，所以数据压缩相比直接丢掉当前帧，对缓冲区数据长度的降低没那么快，即：使得对端到端时延的降低速度慢一些。因此，只有在缓冲区数据长度非常大且当前数据为非重要数据时，我们才采取直接丢帧的方法；而如果缓存区的数据长度非常大而当前数据又是重要数据时，用损伤较小的方式即压缩来调整缓冲区长度；而如果缓存区的数据长度虽然大于一定的阈值，但是当前帧为重要数据，还是采取什么都不做的策略，这样最大程度的保证了语音段的通话质量。多出来的时延，可以等到非静音段再进行快速处理，达到降低端到端时延目的的同时，又最大程度的保证通话的感知质量。

二，当JB_len<AD_dw时：

当JB_len<AD_dw×F3时，如果当前帧是非重要帧，直接对当前帧进行重复拷贝，拷贝次数根据F3的大小决定；如果当前帧是重要帧，则对当前缓存区数据进行扩展处理。当JB_len<AD_dw×F4时(F3<F4)，对当前缓冲区进行扩展处理。每次扩展的幅度，根据F3和F4的大小决定。

这样处理的依据，是因为虽然扩展或者直接拷贝数据，对声音也是一种损伤，但是相比因为缓冲区数据为空而造成的声音卡顿来说，这种损伤对通话体验的影响要小很多，所以当发现缓冲区数据长度小于调整下限时，原则上是快速响应、尽快调整缓冲区数据大小。

三，当AD_up>＝JB_len>＝AD_dw时：

这时，直接将缓冲区的数据解码后送入声卡设备，不做任何去抖动处理。

在上述第一和第二部分内容中涉及的去抖动策略调整中，无论是采用扩展或者压缩，还需要看信号的内容和当时的调整算法，比如，因为扩展和压缩算法是基于基音周期的，而音乐信号不适合这种扩展或者压缩算法，所以如果检测到当前信号是音乐信号而非语音信号时，还需要对调整参数(AD_up、AD_dw、F1～F4)做适当调整。同时，如果连续扩展/压缩太多，听觉感知上会有快放或者慢播的效果，所以，针对上述第一和第二部分内容中涉及的去抖动策略调整中，还需要根据历时调整策略做适当的调整(如规定连续扩展或者压缩的最大次数等)，保证最终听觉感知上听不出快播或者慢播的效果。

在一些实施例中，所述方法还包括：

判断所述第一客户端和所述第二客户端是否处于同时采集到声音的双讲状态；

当处于所述双讲状态时，对所述语音通话或所述视频通话进行提升通话质量的特定处理。

可选地，所述判断所述第一客户端和所述第二客户端是否处于同时采集到声音的双讲状态，包括：

根据所述第一媒体信息，获取所述第一客户端提供的远端信号，所述远端信号是根据语音通话的对端发送的声音信号所获得的信号；

对所述远端信号叠加超声波信号，获得叠加所述超声波信号后的混合信号，并通过扬声器部分播放所述混合信号；

获取所述第二客户端的近端信号，所述近端信号是第二客户端通过麦克风部分采集到的声音信号；

根据所述超声波信号确定所述混合信号中的第一信号段和所述近端信号中的第二信号段；

计算所述第一信号段与所述第二信号段之间的相关值；

当所述相关值小于预设的相关值阈值时，确定所述麦克风部分采集到所述近端信号时的通话状态为双讲状态。

可选地，所述对所述远端信号叠加超声波信号之前，还包括：

检测所述远端信号的功率值是否大于预设功率阈值；

当检测结果为所述远端信号的功率值大于所述预设功率阈值时，执行所述对所述远端信号叠加超声波信号的步骤。

可选地，所述获取远端信号，包括：

对接收到的所述第一媒体信息中的声音信号进行低通滤波，获得所述远端信号；

其中，所述低通滤波的截止频率低于所述超声波信号的最低频率。

可选地，所述根据所述超声波信号确定所述远端信号中的第一信号段和所述近端信号中的第二信号段，包括：

将所述近端信号中，承载目标数据信息的超声波信号所对应的时域上的信号确定为所述第二信号段；

确定最近播放的，且叠加有承载所述目标数据信息的超声波信号的混合信号的播放时间；

将所述混合信号中，在所述播放时间上播放的信号确定为所述第一信号段。

可选地，，所述根据所述超声波信号确定所述远端信号中的第一信号段和所述近端信号中的第二信号段，包括：

将所述混合信号中，承载目标数据信息的超声波信号所对应的时域上的信号确定为所述第一信号段；

在所述第一信号段被播放后采集到的所述近端信号中，查询承载所述目标数据信息的超声波信号所对应的时域上的信号；

将查询获得的信号确定为所述第二信号段。

可选地，叠加在所述远端信号上的所述超声波信号所承载的数据信息在预定周期内不重复；

所述预定周期大于或者等于回声时延的最大值，所述回声时延是所述扬声器部分播放所述混合信号到所述麦克风部分采集到所述混合信号对应的回声之间的时延。

可选地，所述超声波信号所承载的数据信息包括若干个超声编码，每个所述超声编码由至少两个编码部分组成，且每个所述编码部分用于指示至少两个超声频点中的每个超声频点上是否存在信号。

可选地，所述计算所述第一信号段与所述第二信号段之间的相关值，包括：

分别获取所述第一信号段与所述第二信号段各自对应的功率谱；

对所述第一信号段与所述第二信号段各自对应的功率谱进行二值化处理，获得所述第一信号段与所述第二信号段各自对应的二值化数组；

计算所述第一信号段与所述第二信号段各自对应的二值化数组之间的相关值。

可选地，所述方法还包括：

在对所述远端信号叠加超声波信号之前，检测将所述远端信号和所述超声波信号叠加之后获得的声音信号的幅值是否超出预设的幅值范围；

若检测结果为所述声音信号的幅值超出所述预设的幅值范围，则按照预定的衰减策略对所述远端信号的幅值进行衰减处理。

图21是根据一示例性实施例示出的一种通话状态检测方法的流程图，该通话状态检测方法可以包括如下几个步骤：

步骤S201，接收语音通话的对端发送的声音信号。

终端在进行语音通话的过程中，可以接收通话的对端发送的声音信号，该声音信号可以是通过PSTN发送的声音信号，也可以是通过数据网络发送的声音信号。

步骤S202，对接收到的该声音信号进行低通滤波，获得远端信号。

其中，该远端信号是承载语音通话的对端发出的声音的信号，该低通滤波的截止频率低于超声波的最低频率。

在语音通话过程中，语音信号的正常频率比较低，通常在几百到几千赫兹之间，而在接收到的声音信号中，可能会携带一些高频的干扰信号，这些高频的干扰信号中可能存在超声波信号。而在本申请后续的步骤中，需要通过叠加超声波信号来实现信号检测和对齐，如果语音通话的对端发送的声音信号中携带超声波信号，则可能会对后续叠加的超声波信号造成干扰，影响信号对齐的准确性，进一步影响双讲状态检测的准确性，因此，在本申请实施例中，终端在接收到语音通话的对端发送的声音信号后，首先对该声音信号进行低通滤波，滤除接收到的声音信号中的高频干扰信号。其中，该低通滤波的截止频率需要低于超声波的最低频率，避免在后续步骤中对叠加在远端信号上的超声波信号造成干扰。

具体的，超声波信号的最低频率为20KHz，上述低通滤波的截止频率可以介于语音信号的正常频率与超声波信号的最低频率之间，比如，该截止频率可以是12KHz，即终端将接收到的声音信号中，低于12KHz的信号获取为远端信号。

步骤S203，检测该远端信号的功率值是否大于预设功率阈值，若是，进入步骤S204，否则，进入步骤S211。

一方面，由于本申请实施例需要借助远端信号反射到麦克风部分的回声信号来进行信号对齐和相关性计算，首先需要远端信号能够产生被麦克风部分采集到的回声。因此，在本申请实施例中，在获取到远端信号之后，终端首先判断该远端信号的功率值是否大于预设功率阈值，如果是，则说明远端信号的功率较高，通过扬声器部分播放后，麦克风部分会采集到回声信号，反之，如果该远端信号的功率值不大于预设功率阈值，则说明远端信号的功率较高，通过扬声器部分播放后，麦克风部分可能不会采集到回声信号。

另一方面，远端信号的功率值同时也用于判断语音通话的对端是否正在发出声音。若远端信号的大于预设功率阈值，则说明语音通话的对端正在发出声音，比如对端用户正在讲话，此时进入步骤S204，进行后续的进一步检测；若远端信号的不大于预设功率阈值，则说明语音通话的对端没有发出声音，或者语音通话的对端发出的声音很小，比如对端用户当前没有讲话，此时进入步骤205。

在本申请实施例中，在计算远端信号的功率值时，终端可以将远端信号以固定时长(例如20ms)进行分帧，并对每一个远端信号帧分别进行功率值计算，具体的，以计算第n帧的功率值为例，该第n帧的功率值的计算公式可以如下：

其中，P_X(n)为第n帧的功率值，M为帧长度，数值上等于远端信号的采样频率乘以20ms，x为远端信号的采样值。

步骤S204，对该远端信号叠加超声波信号，获得叠加该超声波信号后的混合信号。

常规麦克风部分采用48KHz的采样频率，根据香农采样定理，麦克风部分采集到的信号的最大频率为24KHz。为了使得麦克风部分能够采集到叠加有超声波信号的回声信号，在本申请实施例中，对远端信号叠加的超声波信号的频率需要低于麦克风部分采集到的信号的最大频率。具体比如，当麦克风部分的采样率为48KHz时，在远端信号上叠加的超声波信号的频率范围可设为20～22KHz。

可选的，为了便于后续检测和采集近端信号以及将混合信号与麦克风部分采集到的近端信号进行对齐，终端需要对叠加在远端信号上的超声波信号进行编码，以使得叠加在该远端语音信号上的该超声波信号所承载的数据信息在预定周期内不重复；该预定周期大于或者等于回声时延的最大值。

其中，该回声时延是该扬声器部分播放该混合信号到该麦克风部分采集到该混合信号对应的回声之间的时延。

可选的，该超声波信号所承载的数据信息用于指示该超声波信号对应的频点。比如，该超声波信号所承载的数据信息可以包括若干个超声编码，每个超声编码由至少两个编码部分组成，且每个编码部分用于指示至少两个超声频点中的每个超声频点上是否存在信号。

具体的，以每个超声编码由三个编码部分组成，每个编码部分用于指示三个超声频点中的每个超声频点上是否存在信号为例，超声波信号的编码设计可以如下：

在本申请实施例中，每个编码部分由f₀(频率为20400hz)、f₁(频率为21100hz)、f₂(频率为21800hz)三个超声频点中的一个频点赋值构建而成(实际应用中，也可以设计大于3个频点的编码部分，编码部分的个数可以由最大回声时延和帧长度来确定，本申请实施例仅以三个编码部分进行举例说明)为例，每个编码部分对应的超声波信号的公式如下：

s＝A*(b₀sin(2πf₀*t)+b₁sin(2πf₁*t)+b₂sin(2πf₂*t))；

其中，A为超声波信号的幅值，t的取值范围为[0，M-1]；b₀、b₁以及b₂为对应的三个频点的赋值开关(即b₀、b₁以及b₂的取值为0或1)，因此，一个编码部分可以代表一个0～7的值，在一个超声编码中，第一个和第二个编码部分取值范围设定为1～7，而第三个编码部分设定为0，这样可以最多构造49个不同值的超声编码，利用这49个不同值的超声编码可以设计成一个大小为49的码表，当远端信号需要叠加超声信号时，按顺序读取该码表得到对应的超声编码，按照上述超声波信号公式构成超声波信号后，与远端信号进行叠加(将信号样点值，也就是信号的幅值相加即可)；当按顺序读完最后一个码表数据后，下一次读取码表数据时，从码表第一个数据开始，这样循环读取码表数据构建超声波信号。其中，设定为0的编码部分用于指示叠加在远端信号上的相邻两个超声编码之间的边界，可选的，在实际应用中，在一个超声编码中，设定为0的编码部分也可以是第一个编码部分或者第二个编码部分。

在本申请实施例中，在远端信号中叠加超声信号时，在每20ms时长的一个远端信号帧上叠加一个编码部分对应的超声波信号，即每相邻三个远端信号帧上叠加一个超声编码对应的超声波信号。具体的，以每个编码部分以二进制指示对应的编码值为例，请参考图22，其示出了本申请实施例涉及的一种混合信号频谱图，在图22中，终端从0.36s的时刻点开始，在每0.02s的时长上叠加同一个编码部分对应的超声波信号，并且，每0.06s中，最后0.02s的时长上不叠加超声波信号，或者说，该最后0.02s的时长上叠加的超声波信号对应的编码部分的编码值为0，上述每0.06s的时长上叠加的超声波信号用于指示一个超声编码，在预定周期内，每个超声编码的编码值都不相同。具体的，在图22中，一个编码部分的编码值以b₂、b₁和b₀的取值来表示，一个超声编码的编码值以三个编码部分的编码值来表示，在0.36s～0.38s内，f₂频点上无信号，f₁和f₀频点上有信号，则编码部分的编码值为011(即表示3)，0.38s～0.40s内，f₂和f₁频点上有信号，f₀频点上无信号，则编码部分的编码值为110(即表示6)，在0.40s～0.42s内，f₂、f₁和f₀频点上都无信号，则编码部分的编码值为000(即表示0)，即在0.36s～0.42s内，远端信号上叠加的超声波信号对应的超声编码的编码值为“360”，依此类推，在0.42s～0.48s内，远端信号上叠加的超声波信号对应的超声编码的编码值为“540”。

可选的，终端在对该远端信号叠加超声波信号之前，还可以检测将该远端信号和该超声波信号叠加之后获得的声音信号的幅值是否超出预设的幅值范围；若该声音信号的幅值超出该预设的幅值范围，则按照预定的衰减策略对该远端信号的幅值进行衰减处理。

在语音信号处理中，信号样点值使用16位数据进行表示，即最多表示216个不同的信号采样值，而语音信号中每个幅值对应一个信号采样值，即幅值处于[32767，-32768]之间的语音信号能够被准确表示，而超出该幅值范围的语音信号则无法被准确表示，从而导致语音播放时产生破音现象。在本申请实施例中，为了避免叠加超声波信号之后的混合信号播放时产生破音，可以对幅值过大的远端信号进行幅值衰减。具体的，请参考图23，其示出了本申请实施例涉及的一种远端信号衰减流程示意图。如图23所示，在对远端信号叠加超声波信号之前，首先判断将远端信号与超声波信号进行叠加之后，获得的声音信号的幅值是否超出[32767，-32768]，若是，则说明该声音信号通过扬声器部分播放时会产生破音现象，此时，可以按照预定的衰减策略对远端信号进行衰减，并检测衰减后的远端信号与超声波信号进行叠加获得的声音信号的幅值是否超出[32767，-32768]，若获得的声音信号的幅值没有超出[32767，-32768]，则将远端信号与超声波信号进行叠加，获得混合信号。

其中，上述按照预定的衰减策略对远端信号进行衰减，具体可以是按照预定的衰减比例对远端信号进行衰减，比如，每次对远端信号进行衰减时，可以将远端信号的幅值乘以衰减比例，以获得衰减后的远端信号，该衰减比例可以是小于1的正数，比如，该衰减比例可以0.9或者0.8等等。

可选的，在本申请实施例中，超声波信号的幅值(即上述公式中的A)应该取一个适当值，以在终端能够准确检测出麦克风部分采集到的近端信号中的超声波信号的同时，避免超声波信号的幅值过高而导致超声叠加后的混合信号出现破音，从而影响通话效果，比如，超声波信号的幅值可以设置为3000。

步骤S205，通过扬声器部分播放该混合信号。

在本申请实施例中，终端通过扬声器部分播放该混合信号的同时，还将混合信号缓存在本地，以便后续进行信号对齐。

步骤206，获取近端信号，该近端信号是麦克风部分采集到的声音信号。

其中，在本申请所示的方案中，近端信号是指终端通过麦克风部分采集到的声音信号，其中包含扬声器部分播放的声音信号经过反射达到麦克风部分后，被麦克风部分采集到的回声信号，以及终端本地产生的声音信号；即麦克风部分采集到的近端信号中，包含扬声器部分播放的远端信号、叠加在远端信号上的超声波信号以及终端本地产生的声音信号(比如终端的用户说话的声音)。

步骤207，根据超声波信号确定混合信号中的第一信号段和近端信号中的第二信号段。

其中，第一信号段是混合信号中某一段时域上的信号，第二信号段是近端信号中某一段时域上的信号。

在一种可能的实现方式中，终端可以先确定近端信号中的第二信号段，然后再根据第二信号段中包含的超声波信号来确定混合信号中的第一信号段。比如，在确定第一信号段和第二信号段时，终端可以解析该近端信号中包含的超声波信号所承载的数据信息，将该近端信号中，承载目标数据信息的超声波信号所对应的时域上的信号确定为第二信号段，确定最近播放的，且叠加有承载目标数据信息的超声波信号的混合信号的播放时间，并将该混合信号中，在该确定的播放时间上播放的信号确定为第二信号段。

具体的，终端可以对麦克风采集信号的超声波频段进行分析，按照上述编码规则获取超声波信号的编码信息，比如，终端采用FFT(Fast Fourier Transformation，快速傅立叶变换)分析法对采集到的近端信号进行分析，确定采集到的近端信号中f₀、f₁以及f₂这三个超声频点上的功率值，并检测这三个超声频点上的功率值是否大于某个阈值，若是，则说明对应的频点上有信号，否则认为对应的频点上无信号，进而解析出当前采集到的，承载一个完整的超声编码的相邻三帧近端信号Cap(i)，该完整的超声编码即为上述目标数据信息，该相邻三帧近端信号Cap(i)即为上述第二信号段，同时搜索已播放的混合信号中，承载相同超声编码，且最近播放的相邻三帧混合信号Play(i)，并将该混合信号Play(i)和当前采集的近端信号Cap(i)对齐，即当前采集的近端信号Cap(i)包含了Play(i)对应的回声信号，该混合信号Play(i)即为近端信号Cap(i)对应的第一信号段。其中，上述每一帧近端信号的时长与每一帧混合信号的时长与上述步骤中每一帧远端信号的时长相同，比如，都是20ms。终端在搜索上述混合信号Play(i)时，可以首先确定最近播放，且叠加有上述完整的超声编码的超声波信号的混合信号的播放时间，并将该播放时间上播放的信号确定为上述混合信号Play(i)。

具体比如，假设终端检测到从0.37s的时间点开始，近端信号中的f₂、f₁和f₀频点上有信号，且在0.37s～0.43s内，近端信号中上述的f₂、f₁和f₀频点上的超声波信号对应的超声编码的编码值为“360”，终端查询确定图22对应的混合信号中，从0.36s～0.42s内的混合信号中携带的超声波信号对应的超声编码的编码值也为“360”，则确定在0.37s～0.43s内采集到的近端信号与图22中0.36s～0.42s内的混合信号包含相同超声波信号，即图22中0.36s～0.42s内播放的混合信号为第一信号段，在0.37s～0.43s内采集到的近端信号为第二信号段。

或者，在另一种可能的实现方式中，终端也可以先确定混合信号中的第一信号段，然后再根据第一信号段中包含的超声波信号来确定近端信号中的第二信号段。比如，在确定第一信号段和第二信号段时，终端可以将混合信号中，承载目标数据信息的超声波信号所对应的时域上的信号确定为第一信号段，并在第一信号段被播放后采集到的近端信号中，查询承载该目标数据信息的超声波信号所对应的时域上的信号，将查询获得的信号确定为该第二信号段。

具体的，终端可以将混合信号中，承载某一个超声编码的相邻三帧混合信号Play(ii)确定为第一信号段，并对麦克风部分在该第一信号段被播放后采集到的近端信号进行分析，在第一信号段被播放后采集到的近端信号中，查询与上述混合信号Play(ii)包含相同的超生编码的相邻三帧近端信号Cap(ii)，该近端信号Cap(ii)即为混合信号Play(ii)对应的第二信号段。

步骤S208，计算第一信号段与第二信号段之间的相关值。

可选的，在计算该第一信号段与该第二信号段之间的相关值时，终端可以通过快速傅里叶变换分别计算该第一信号段与该第二信号段各自对应的功率谱，对第一信号段与第二信号段各自对应的功率谱进行二值化处理，获得第一信号段与第二信号段各自对应的二值化数组，并计算该第一信号段与该第二信号段各自对应的二值化数组之间的相关值。

可选的，为了降低相关值计算的复杂度，提高计算速度，降低终端的电量消耗，在本申请实施例中，终端计算第一信号段与该第二信号段各自对应的功率谱时，可以计算该第一信号段和该第二信号段各自对应在指定频段上的功率谱，该指定频段可以是语音通话过程中，大部分声音所在的频段，比如，该指定频段可以是500Hz～1200Hz。

其中，对一个信号(比如上述第一信号段或第二信号段)的功率谱进行二值化处理时，可以对该信号的功率谱进行平滑滤波，获得该信号的功率谱中每个频点上的功率平滑值，并根据该信号的功率谱，以及该信号的功率谱中每个频点上的功率平滑值，对该信号的功率谱进行二值化处理，获得该信号对应的二值化数组。

具体的，请参考图24，其示出了本申请实施例涉及的一种相关值计算的流程示意图，其中，终端对第一信号段进行做快速傅立叶变换，获得该第一信号段在500Hz～1200Hz上的功率谱P_p(j)，其中，该功率谱P_p(j)表示第一信号段在500Hz～1200Hz中的各个频点上的功率，j的取值范围为[m1，m2]，其中，

其中，M是上述快速傅立叶变换点数的一半，f_s是第一信号段的采样频率。

终端对P_p(j)进行平滑滤波，获得P_psm(j)，该P_psm(j)表示P_p(j)中每个频点上的功率平滑值。终端根据P_psm(j)对P_p(j)进行二值化，具体的，对于P_p(j)上的每个频点，比较该频点的功率值与该频点对应在P_psm(j)中的功率平滑值的大小，若该频点的功率值大于该频点对应在P_psm(j)中的功率平滑值，则将该频点的取值设置为1，否则，将该频点的取值设置为0，最后获得P_p(j)的二值化数组P_pb(j)。

相应的，终端同样对第二信号段做快速傅立叶变换，获得第二信号段在500Hz～1200Hz上的功率谱P_c(j)，对P_c(j)做平滑滤波，获得P_csm(j)，该P_csm(j)表示P_c(j)中每个频点上的功率平滑值，终端根据P_csm(j)对P_c(j)进行二值化，获得P_c(j)的二值化数组P_cb(j)。

最后，终端计算P_pb(j)和P_cb(j)之间的相关值，计算出的相关值即可以作为第一信号段和第二信号段在指定频段上的相关值。具体的相关值计算公式可以如下：

PC_xor＝Σ_{k∈[m1，m2]}(P_pb(k)Xor P_cb(k))/(m2-m1+1)；

其中，Xor为异或运算符。

步骤S209，判断该相关值是否小于预设的相关值阈值，若是，进入步骤210，否则，进入步骤S211。

其中，上述相关值阈值可以是开发人员预先设置的阈值。

步骤S210，确定通话状态为双讲状态。

当上述步骤S209判断出相关值小于预设的相关值阈值时，可以确定麦克风部分采集到上述近端信号时的通话状态为双讲状态。

步骤S211，确定通话状态为非双讲状态。

当上述步骤S203检测出远端信号的功率值不大于预设功率阈值时，可以确定获取到远端信号时的通话状态为非双讲状态；或者，当上述步骤209判断出相关值不小于预设的相关值阈值时，可以确定麦克风部分采集到上述近端信号时的通话状态为非双讲状态。

在本申请实施例中，终端中的扬声器部分播放混合信号时，终端的麦克风部分采集到的近端信号中包含本地产生的声音信号(比如终端的用户的说话声音)以及混合信号经过发射到达麦克风部分的回声信号。上述步骤S208中计算出的相关值越大，说明回声信号在近端信号中的占比越大，本地产生的声音信号在近端信号中的占比越小；反之，若计算出的相关值越小，则说明回声信号在近端信号中的占比越小，本地产生的声音信号在近端信号中的占比越大。当上述计算出的相关值小于预设的相关值阈值时，则可以认为本地产生的声音信号的信号强度较高，很可能是终端的用户在说话，再结合上述步骤S203中判断出远端信号的功率值大于预设的功率阈值，可以确定近端信号对应的通话状态为双讲状态；反之，当上述计算出的相关值不小于预设的相关值阈值时，则可以认为本地产生的声音信号的信号强度较低，终端的用户可能没有说话，可以确定近端信号对应的通话状态为非双讲状态。

具体的，请参考图25，其示出了本申请实施例涉及的一种通话状态检测流程的示意图，如图25所示，终端接收到通话的对端发送的声音信号时，对接收到的声音信号进行低通滤波，获得远端信号，并判断远端信号的功率是否大于预设的功率阈值，若远端信号的功率不大于功率阈值，则确定当前通话状态为非双讲状态，若远端信号的功率大于功率阈值，则对远端信号叠加承载超声波信号，获得混合信号并存储；终端通过扬声器部分播放该混合信号，同时将麦克风部分采集到的声音信号获取为近端信号，通过解析近端信号中的超声波信号所携带的编码来与混合信号进行对齐，确定出包含相同超声波信号的，混合信号中的第一信号段以及近端信号中的第二信号段，并计算第一信号段和第二信号段之间的相关值，若计算出的相关值小于相关值阈值，则确定当前通话状态为双讲状态，否则，确定当前通话状态为非双讲状态。

综上所述，本申请实施例提供的通话状态检测方法，终端通过在远端信号中叠加的超声波信号以及麦克风部分采集到的近端信号中包含的超声波信号对混合信号和近端信号进行对齐，并通过对齐后的近端信号和混合信号之间的相关值判断通话状态是否为双讲状态，相比于对远端信号反射到达麦克风部分的过程中的幅度衰减情况进行估计的方案，本申请所示的方案能够提高对双讲状态检测的准确性。

此外，本申请实施例提供的方法，终端通过人的听觉无法感觉到的超声波信号来对混合信号和近端信号进行对齐，避免对用户的正常通话造成干扰。

图26是根据一示例性实施例示出的一种通话状态检测装置的结构方框图。该通话状态检测装置，可以执行图21所示实施例中的全部或者部分步骤。该通话状态检测装置可以包括：

远端信号获取部分801，获取远端信号，所述远端信号是根据语音通话的对端发送的声音信号所获得的信号；

信号叠加部分802，用于对所述远端信号叠加超声波信号，获得叠加所述超声波信号后的混合信号；

播放部分803，用于通过扬声器部分播放所述混合信号；

近端信号获取部分804，用于获取近端信号，所述近端信号是通过麦克风部分采集到的声音信号；

信号确定部分805，用于根据所述超声波信号确定所述混合信号中的第一信号段和所述近端信号中的第二信号段；

相关值计算部分806，计算所述第一信号段与所述第二信号段之间的相关值；

状态确定部分807，配置为当所述相关值小于预设的相关值阈值时，确定所述麦克风部分采集到所述近端信号时的通话状态为双讲状态。

可选的，所述装置还包括：

功率检测部分，配置为在所述信号叠加部分对所述远端信号叠加超声波信号之前，检测所述远端信号的功率值是否大于预设功率阈值；

所述信号叠加部分，配置为当所述功率检测部分的检测结果为所述远端信号的功率值大于所述预设功率阈值时，执行所述对所述远端信号叠加超声波信号的步骤。

可选的，所述信号获取部分，包括：

信号接收部分，用于接收所述对端发送的声音信号；

滤波部分，用于对接收到的所述声音信号进行低通滤波，获得所述远端信号；

可选的，叠加在所述远端语音信号上的所述超声波信号所承载的数据信息在预定周期内不重复；

可选的，所述信号确定部分，包括：

第一信号确定部分，配置为将所述近端信号中，承载目标数据信息的超声波信号所对应的时域上的信号确定为所述第二信号段；

播放时间确定部分，配置为确定最近播放的，且叠加有承载所述目标数据信息的超声波信号的混合信号的播放时间；

第二信号确定部分，配置为将所述混合信号中，在所述播放时间上播放的信号确定为所述第一信号段。

可选的，所述信号确定部分，包括：

第三信号确定部分，配置为将所述混合信号中，承载目标数据信息的超声波信号所对应的时域上的信号确定为所述第一信号段；

查询部分，配置为在所述第一信号段被播放后采集到的所述近端信号中，查询承载所述目标数据信息的超声波信号所对应的时域上的信号；

第四信号确定部分，配置为将所述查询部分查询获得的信号确定为所述第二信号段。

可选的，所述超声波信号所承载的数据信息用于指示所述超声波信号对应的频点。

可选的，所述超声波信号所承载的数据信息包括若干个超声编码，每个所述超声编码由至少两个编码部分组成，且每个所述编码部分用于指示至少两个超声频点中的每个超声频点上是否存在信号。

可选的，所述相关值计算部分，包括：

功率谱获取部分，配置为分别获取所述第一信号段与所述第二信号段各自对应的功率谱；

二值化处理部分，配置为对所述第一信号段与所述第二信号段各自对应的功率谱进行二值化处理，获得所述第一信号段与所述第二信号段各自对应的二值化数组；

相关值计算部分，配置为计算所述第一信号段与所述第二信号段各自对应的二值化数组之间的相关值。

可选的，所述装置还包括：

幅值检测部分，配置为在所述信号叠加部分对所述远端信号叠加超声波信号之前，检测将所述远端信号和所述超声波信号叠加之后获得的声音信号的幅值是否超出预设的幅值范围；

衰减部分，用于当所述幅值检测部分的检测结果为所述声音信号的幅值超出所述预设的幅值范围时，按照预定的衰减策略对所述远端信号的幅值进行衰减处理。

综上所述，本申请实施例提供的通话状态检测装置，通过在远端信号中叠加的超声波信号以及麦克风部分采集到的近端信号中包含的超声波信号对混合信号和近端信号进行对齐，并通过对齐后的近端信号和混合信号之间的相关值判断通话状态是否为双讲状态，相比于对远端信号反射到达麦克风部分的过程中的幅度衰减情况进行估计的方案，本申请所示的方案能够提高对双讲状态检测的准确性。

此外，本申请实施例提供的装置，终端通过人的听觉无法感觉到的超声波信号来对混合信号和近端信号进行对齐，避免对用户的正常通话造成干扰。

本申请实施例还提供了一种用于实施上述通话方法的通话装置。图5是根据本申请实施例的一种可选的通话装置的示意图，如图5所示，该装置可以包括：第一判断部分52、第一获取部分54、第一执行部分56以及第二执行部分58。

第一判断部分52，配置为基于第一客户端通过预设网络接收到的第二客户端发送的第一数据包，判断第二客户端通过预设网络向第一客户端发送的第一媒体信息是否发生丢包，其中，第一媒体信息包括第一数据包，第一媒体信息是第二客户端与第一客户端进行音频通话或视频通话时传输的媒体信息；

第一获取部分54，配置为在判断出第一媒体信息发生丢包的情况下，获取预设网络的网络状态信息；

第一执行部分56，配置为在网络状态信息满足第一预设条件的情况下，向第二客户端发送重传请求，其中，重传请求用于请求第二客户端重传第一媒体信息中丢失的第二数据包，第一预设条件用于指示预设网络重传第二数据包所需达到的网络条件；

第二执行部分58，配置为在网络状态信息不满足第一预设条件的情况下，取消向第二客户端发送重传请求。

在本实施例中，所述传输装置还包括：

参数确定部分，配置为确定请求所述第二客户端重传第二数据包的预定参数，其中，所述第二数据包为所述第一媒体信息中传输失败的数据包的重传数据包；所述预定参数包括：重传成功的第一概率阈值及成功输出所述第二数据包的第二概率阈值的至少其中之一；

条件确定部分，配置为根据所述预定参数，确定请求重传时所述网络状况信息需要满足的预设条件，其中，所述预设条件用于指示所述预设网络成功重传所述第二数据包的概率不小于所述第一概率阈值所需的网络条件，和/或，用于指示成功重传的所述第二数据包能够成功被输出的概率不小于所述第二概率阈值所需的网络条件。

所述参数确定部分及所述条件确定部分，同样对应于处理器或处理电路，可以用于当前是否发送重传请求的预设条件。

需要说明的是，该实施例中的发起子部分52可以用于执行本申请实施例1中的步骤S302，该实施例中的开启子部分54可以用于执行本申请实施例1中的步骤S304，该实施例中的发送子部分56可以用于执行本申请实施例1中的步骤S306，该实施例中的第一关闭子部分58可以用于执行本申请实施例1中的步骤S308。

此处需要说明的是，上述子部分与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述子部分作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述子部分，在第一媒体信息发生丢包的情况下，根据网络状态信息判断是否发送重传请求，在网络状况较为理想的情况下发送重传请求以获取丢失的数据包，达到使媒体信息更为完整的目的，在网络状况不理想的情况下，不发送重传请求，以避免加剧网络的拥堵状况，可以解决了相关技术中由于网络拥堵造成的即时通讯质量较差的技术问题，进而达到提高即时通讯质量的技术效果。

上述的客户端可以为通讯用的客户端，该客户端可以安装在计算机、移动设备上，优选地，客户端可以为对通讯的即时性要求较高的客户端，也即即时通讯客户端，如微信、QQ等；预设网络即客户端间通讯用的网络；媒体信息可以为动态的多媒体信息，如视频、音频、GIF图片等，也可以为静态信息，如文字信息、静态图片等；网络状态信息也即用于描述网络特征的信息，如网络传输速度、延迟等信息。

上述的第一判断部分52、第一获取部分54、第一执行部分56以及第二执行部分58可以设置在第一客户端上，即第一客户端根据自身需求向第二客户端发起重传请求，为了降低第一客户端的运行负载，上述的第一判断部分52、第一获取部分54、第一执行部分56以及第二执行部分58也可以设置在应用服务器上，由服务器对第一客户端的数据包接收情况进行监控，在确定了丢包之后，根据网络情况来向第二客户端申请丢失的数据包，这里的服务器可以为客户端的服务器，如在客户端为即时通讯应用时，服务器为即时通讯应用服务器。

本申请基于历史数据对当前网络特点进行分析，根据网络特性、接收语音数据的重要性来决定是否发送重传请求，同时，根据重传数据的利用率，实时调整重传控制的相关策略，使得在各种网络条件下，带宽利用率和重传使用率都达到最优。可选地实现方式参照图3。

可选地，第一判断部分还配置为根据第一数据包中的序号索引信息判断第一媒体信息是否发生丢包。

可选地，该装置还包括：第二获取部分，配置为在判断网络状态信息所指示的预设网络的第一网络状态是否与重传第二数据包所需的第二网络状态匹配之前，获取用于表征第一网络状态的当前使用带宽、当前传输时延、当前丢包率以及用于描述允许连续丢包数量的第二预设值；第三确定部分，用于根据预设网络的带宽信息确定带宽阈值；第四确定部分，用于根据预设网络的网络抖动信息确定传输时延阈值；第五确定部分，用于根据历史丢包率和丢包模型确定丢包率阈值。

可选地，该装置还包括：第二判断部分，配置为在获取预设网络的网络状态信息之后、且在向第二客户端发送重传请求或取消向第二客户端发送重传请求之前，判断网络状态信息所指示的预设网络的第一网络状态是否与重传第二数据包所需的第二网络状态匹配；第一确定部分，配置为在第一网络状态与第二网络状态匹配的情况下，判断出网络状态信息满足第一预设条件；第二确定部分，用于在第一网络状态与第二网络状态不匹配的情况下，判断出网络状态信息不满足第一预设条件。

可选地，第二判断部分包括：第一判断子部分，配置为判断带宽阈值与当前使用带宽的差值是否小于第一预设值；第二判断子部分，配置为判断当前传输时延是否小于传输时延阈值；第三判断子部分，配置为判断当前丢包率是否小于丢包率阈值；第四判断子部分，用于判断连续丢包的数量是否小于第二预设值；其中，预设判断结果用于指示第一网络状态与第二网络状态匹配，预设判断结果包括以下至少之一：判断出带宽阈值与当前使用带宽的差值小于第一预设值；判断出当前传输时延小于传输时延阈值；判断出当前丢包率小于丢包率阈值；判断出连续丢包的数量小于第二预设值。

作为一种可选的实施例，装置还包括：第一更新部分，配置为在向第二客户端发送重传请求或取消向第二客户端发送重传请求之后，根据前一次确定的带宽阈值和预设网络的当前带宽信息重新确定当前的带宽阈值；第二更新部分，配置为在接收到的第二数据包的数量与发送的重传请求的数量的第一比值小于第三预设值的情况下，增大丢包率阈值，并减小传输时延阈值；第三更新部分，配置为在接收到的有效的第二数据包与接收到的所有第二数据包间的第二比值小于第四预设值的情况下，增大丢包率阈值，并减小传输时延阈值。

需要说明的是，在改变丢包率阈值和传输时延阈值的过程中，并不是一次性调整一个极大的数值，可以按照该参数的当前数值的某一百分比(如10％)进行增加或者减小，从而避免调整过度，以达到平滑过度的目的。

可选地，该装置还包括：第六确定部分，配置为在向第二客户端发送重传请求之前，通过对第一数据包中的媒体信息段进行信号特征分析确定丢失的第二数据包的语音特征；第一执行部分还配置为在网络状态信息满足预设条件，且语音特征包括浊音特征、语音特征以及语义特征中的至少一个的情况下，向第二客户端发送重传请求。

可选地，可对语音信号进行分析，如清音、浊音分析，语音、静音分析、语义重要性分析等，以调整网络参数阈值，比如，带宽足够时，只要检测到丢包就可以进行重传请求，带宽不够时，只对丢失的重要语音帧进行重传请求。如对包括重要语义的语音数据包进行重传。

可选地，如图6所示，该装置还包括：接收部分60，配置为在向第二客户端发送重传请求之后，接收第二客户端发送的第二数据包；第一生成部分62，配置为根据第一数据包和第二数据包生成第二媒体信息；第二生成部分64，配置为在网络状态信息不满足第一预设条件的情况下，根据第一数据包生成第三媒体信息。

在接收到第一媒体信息的所有数据包的情况下，即接收到每一个丢失的第二数据包的情况下，恢复的第二媒体信息即第一媒体信息，即可以恢复得到一段完整的语音；由于出现了语音缺失，即出现了丢包，第三媒体信息相较于第一媒体信息，质量会相对较低。

本申请实施例的一种信息处理装置，所述装置包括：采集部分，配置为采集离线网络数据，从所述离线网络数据中提取出用于表征网络特征的至少一个网络参数。策略确定部分，配置为根据所述至少一个网络参数构建网络模型，根据所述网络模型确定第一去抖动策略，以根据所述网络模型衡量或模拟Voip的通话质量，可选地，第一去抖动策略也可以称为初始去抖动策略，在实际应用中，通过不同的网络类型来收集大量现网相关网络数据，经离线训练构建得到该网络模型，该网络模型除了可以确定初始去抖动策略，由于基于该初始去抖动策略输出的相关参数包括去抖动参数和时延参数等，也可以说，根据所述网络模型确定初始去抖动策略和相关参数，相关参数包括去抖动参数和时延参数。策略修正部分，用于根据用于评估如Voip通话的语音通话或视频通话质量的特征参数(如本次通话的历史数据、本次通话的信号内容、本次通话的感知听觉结果等)对所述第一去抖动策略进行修正，得到第二去抖动策略。其中，就本次通话的历史数据而言，它可以反映本次通话网络特性；就本次通话的信号内容而言，它决定了当前帧是否为重要帧，语音数据内容为重要帧，需要重点关注，而静音数据内容无需重点关注，对不同内容，去抖动的处理是不同的；就感知听觉结果而言，不同的感知听觉结果对去抖动调整的方式和幅度是不同的。缓冲区调整部分，用于根据当前实时的网络情况和所述第二去抖动策略得到去抖动参数，根据所述去抖动参数设置用于传输如Voip通话的语音通话或视频通话数据的缓冲区大小，使如Voip通话的语音通话或视频通话的时延符合预期，趋于合理。在实际应用中，根据由第二去抖动策略得到的去抖动参数确定去抖动缓冲区的大小，最后，基于该去抖动缓冲区的大小对缓存区数据进行调整。

这里需要指出的是，上述装置中的采集部分、策略确定部分、策略修正部分不限定是位于发送端、接收端或服务器中，这些部分的部分或全部可以位于发送端、接收端或服务器。

在本申请一个实施方式中，所述策略修正部分，配置为：获取本次通话的历史数据；根据所述本次通话的历史数据对所述第一去抖动策略进行修正。

在本申请一个实施方式中，所述策略修正部分，配置为：获取本次通话的信号内容，根据所述本次通话的信号内容对所述第一去抖动策略进行修正。

在本申请一个实施方式中，所述策略修正部分，配置为：获取本次通话的感知听觉结果，根据所述感知听觉结果对所述第一去抖动策略进行修正。

在本申请一个实施方式中，所述装置还包括：通话采集部分，用于采集本次通话的如Voip通话的语音通话或视频通话数据。所述策略修正部分，配置为：触发采集本次通话的如Voip通话的语音通话或视频通话数据时，获取终端设备的不同处理能力和/或作为所述如Voip通话的语音通话或视频通话媒介的应用的调度特性，根据所述终端设备的不同处理能力和/或作为所述如Voip通话的语音通话或视频通话媒介的应用的调度特性对所述第一去抖动策略进行修正。

在本申请一个实施方式中，所述装置还包括：通话播放部分，配置为播放本次通话的如Voip通话的语音通话或视频通话数据。所述策略修正部分，配置为：触发播放本次通话的如Voip通话的语音通话或视频通话数据时，获取终端设备的不同处理能力和/或作为所述如Voip通话的语音通话或视频通话媒介的应用的调度特性，根据所述终端设备的不同处理能力和/或作为所述如Voip通话的语音通话或视频通话媒介的应用的调度特性对所述第一去抖动策略进行修正。

本申请实施例的一种信息处理系统，包括发送端(或称采集端)41、去抖动端42和接收端(或称播放端)43。其中，发送端(或称采集端)的处理逻辑包括：采集离线网络数据，从所述离线网络数据中提取出用于表征网络特征的至少一个网络参数，将所述至少一个网络参数用于构建网络模型，所述网络模型用于在传输如Voip通话的语音通话或视频通话数据中确定第一去抖动策略；采集本次通话的如Voip通话的语音通话或视频通话数据时，获取终端设备的不同处理能力和/或作为所述如Voip通话的语音通话或视频通话媒介的应用的调度特性；根据所述终端设备的不同处理能力和/或作为所述如Voip通话的语音通话或视频通话媒介的应用的调度特性对所述第一去抖动策略进行修正。

去抖动端的处理逻辑包括：根据至少一个网络参数构建网络模型，根据所述网络模型确定第一去抖动策略，所述至少一个网络参数，来源于从采集的离线网络数据中提取的用于表征网络特征的参数；根据用于评估网络协议语音如Voip通话的语音通话或视频通话质量的特征参数对所述第一去抖动策略进行修正，得到第二去抖动策略；根据当前实时的网络情况和所述第二去抖动策略得到去抖动参数，根据所述去抖动参数设置用于传输如Voip通话的语音通话或视频通话数据的缓冲区大小，使如Voip通话的语音通话或视频通话的时延符合预期，趋于合理。

在实际应用中，所述根据用于评估如Voip通话的语音通话或视频通话质量的特征参数对所述第一去抖动策略进行修正，包括：获取本次通话的历史数据，根据所述本次通话的历史数据对所述第一去抖动策略进行修正。

在实际应用中，所述根据用于评估如Voip通话的语音通话或视频通话质量的特征参数对所述第一去抖动策略进行修正，包括：获取本次通话的信号内容，根据所述本次通话的信号内容对所述第一去抖动策略进行修正。

在实际应用中，所述根据用于评估如Voip通话的语音通话或视频通话质量的特征参数对所述第一去抖动策略进行修正，包括：获取本次通话的感知听觉结果，根据所述感知听觉结果对所述第一去抖动策略进行修正。

接收端(或称播放端)的处理逻辑包括：获取在传输如Voip通话的语音通话或视频通话数据中确定的第一去抖动策略，所述第一去抖动策略根据至少一个网络参数构建的网络模型得到，所述至少一个网络参数，来源于从采集的离线网络数据中提取的用于表征网络特征的参数；播放本次通话的如Voip通话的语音通话或视频通话数据时，获取终端设备的不同处理能力和/或作为所述如Voip通话的语音通话或视频通话媒介的应用的调度特性；根据所述终端设备的不同处理能力和/或作为所述如Voip通话的语音通话或视频通话媒介的应用的调度特性对所述第一去抖动策略进行修正。

上述信息处理系统，如图14所示，包括发送端(或称采集端)41、去抖动端42和接收端(或称播放端)43。其中，发送端(或称采集端)41包括：采集部分411，用于采集离线网络数据，从所述离线网络数据中提取出用于表征网络特征的至少一个网络参数，将所述至少一个网络参数用于构建网络模型，所述网络模型用于在传输如Voip通话的语音通话或视频通话数据中确定第一去抖动策略；通话采集部分412，用于采集本次通话的如Voip通话的语音通话或视频通话数据时，获取终端设备的不同处理能力和/或作为所述如Voip通话的语音通话或视频通话媒介的应用的调度特性；第一策略修正部分413，用于根据所述终端设备的不同处理能力和/或作为所述如Voip通话的语音通话或视频通话媒介的应用的调度特性对所述第一去抖动策略进行修正。去抖动端42包括：策略确定部分421，用于根据至少一个网络参数构建网络模型，根据所述网络模型确定第一去抖动策略，所述至少一个网络参数，来源于从采集的离线网络数据中提取的用于表征网络特征的参数；第二策略修正部分422，用于根据用于评估如Voip通话的语音通话或视频通话质量的特征参数对所述第一去抖动策略进行修正，得到第二去抖动策略；缓冲区调整部分423，用于根据当前实时的网络情况和所述第二去抖动策略得到去抖动参数，根据所述去抖动参数设置用于传输如Voip通话的语音通话或视频通话数据的缓冲区大小，使如Voip通话的语音通话或视频通话的时延符合预期，趋于合理。接收端(或称播放端)43包括：获取部分431，用于获取在传输如Voip通话的语音通话或视频通话数据中确定的第一去抖动策略，所述第一去抖动策略根据至少一个网络参数构建的网络模型得到，所述至少一个网络参数，来源于从采集的离线网络数据中提取的用于表征网络特征的参数；通话播放部分432，用于播放本次通话的如Voip通话的语音通话或视频通话数据时，获取终端设备的不同处理能力和/或作为所述如Voip通话的语音通话或视频通话媒介的应用的调度特性；第三策略修正部分433，用于根据所述终端设备的不同处理能力和/或作为所述如Voip通话的语音通话或视频通话媒介的应用的调度特性对所述第一去抖动策略进行修正。

其中，对于用于数据处理的处理器而言，在执行处理时，可以采用微处理器、中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital Singnal Processor)或可编程逻辑阵列(FPGA，Field－Programmable Gate Array)实现；对于存储介质来说，包含操作指令，该操作指令可以为计算机可执行代码，通过所述操作指令来实现上述本申请实施例信息处理方法流程中的各个步骤。

这里需要指出的是：以上涉及终端和服务器项的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述。对于本申请终端和服务器实施例中未披露的技术细节，请参照本申请方法流程描述的实施例所描述内容。

以一个现实应用场景为例对本申请实施例阐述如下：

在Voip网络通话场景中，采用本申请实施例，可以是如Voip通话的语音通话或视频通话中端到端延时处理的方案。一般如Voip通话的语音通话或视频通话端到端所包含的模块如图15示，端到端时延指的是从说话人A说话开始到接听人B接听到声音的时间差。如Voip通话的语音通话或视频通话技术将数据以包的形式通过IP网络进行分组传输，由于IP网络固有的特性，每个包在网络上传输所使用的时间是不确定的，这种传输时间的差异称之为抖动。可以通过合理的路由调度，选择抖动小的链路进行传输；对于已选定的链路，可以通过增加缓存时延来处理抖动；但是如果缓存时延太大，会增加端到端的总体时延，影响实时通话的体验效果；缓存时延太小，则会造成声音的卡顿，影响通话质量。处理抖动的模块主要在图15中的“去抖动&解码”模块。

从图15可以看出，端到端的时延主要有：设备的缓存时延(主要是声卡采集的缓存时延、声卡播放的缓存时延)、Voip应用程序各模块处理的数据缓存时延(主要是去抖动模块产生的时延)、网络传输时延(不可控)。本申请实施例可以实现实时通话中降低端到端的时延，涉及到从采集到播放的各个环节，包括以下内容：

一，对于应用程序的去抖动模块：

a)根据不同的网络类型，收集大量现网相关数据，离线训练，建立网络模型，根据不同的大数据网络模型设置时延处理方法和参数；

b)在单次通话中，根据本次通话的历史数据，调整a)中的络参数设置和时延处理参数；

c)单次通话中，根据感知听觉结果来调整b)中的时延处理参数；

d)单次通话中，根据信号内容调整b)中的时延处理参数；

二，对于设备：

根据设备的不同处理能力、应用程序线程的调度特性等设置不同的时延处理方法和参数。

针对上述应用场景，现有技术中的方案大多是针对网络传输的去抖动方案，具体采用如图15中的“去抖动&解码”模块来实现，实现框图分别如图16-9所示。

如图16所示，在方案一的实现流程中，包括：确定用于表示当前网络抖动情况的网络抖动参数；根据当前网络抖动参数，调整抖动缓存Jitter Buffer的延时参数；根据调整后的Jitter Buffer的延时参数，对Jitter Buffer中的数据包进行延时处理。可选地，是首先确定用于表示当前网络抖动的参数，为：使用PktComeThisTime记录每次到达Jitter Buffer的10ms包的个数，记录多个PktComeThisTime并确定其中的最大值，记为Pm；然后由一系列加权平均Pm得到一个表示网络抖动J的参数，根据J来调整Jitter Buffer的大小。

如图17所示，在方案二的实现流程中，首先，在接收端根据历史数据预测或者估计网络时延dn，同时，统计接收端的丢包率；然后，根据估计的网络时延和统计的丢包率，基于E-Model得到当前理想的去抖动缓冲区的大小；最后，基于缓冲区大小对缓存区数据进行调整。

上述两个方案所存在的问题包括：

1)网络估计方面：网络特性的估计对去抖动算法起着重要指导作用，在两个现有技术方案中，去抖动缓冲区的大小，都是依据当次通话的历史数据估计的网络特性决定的，虽然网络特性估计方法不同，但是共同的缺点都是使用的参数比较单一，对网络的复杂性模拟不够。

而采用本申请实施例，先通过离线抓包，提取相应的参数表征网络特性，通过大量的离线训练，建立不同的网络模型参数，根据建立的网络参数模型决定初始的去抖动算法和相关参数；然后，根据当次通话的历史数据，对去抖动算法和相关参数进行调整。同时，在网络模型的建模上，考虑了整个通话过程中网络的总体特性，也考虑一段时间内的突发性。这样，能更精确的估计网络特性。

2)去抖算法上：对于缓冲区数据的调整方案上，在方案一中，仅仅是根据网络估计值对缓冲区进行调整，没有考虑到不同数据内容对人耳听觉感知的影响，如方案中提到，某些情况下，为了保证时延，需要将缓冲区数据丢掉，这时，就没有考虑当时的信号类型，不管是语音消息还是静音数据统统直接丢掉，简单粗暴，通话体验效果是不好的；在方案二中，虽然使用了E-model进行指导，但是在单次通话中，E-model的复杂度太高，可实用性有限。而且，两种方案中的去抖动算法，都是以“包”为单位进行调整，这样灵活性也有限。

而采用本申请实施例，根据调整时刻信号的内容和传统的感知听觉评价参数来决定去抖动算法的选取，更灵活的处理，使得感知听觉上最终效果更好。

3)在采集和播放方面：上述两个技术方案都没有考虑到不同的采集、播放策略和线程调度对去抖动的影响，而采用本申请实施例，充分考虑了采集、播放策略和线程调度对去抖动的影响。

针对上述应用场景，采用本申请实施例，总体示意图如图18所示，包括：根据当前网络估计情况，确定当前缓冲区大小调整的下限值AD_dw和调整的上限值AD_up。然后，根据当前缓冲区数据的大小JB_len、AD_up/AD_dw的大小、当前信号内容和人耳感知听觉模型，决定对当前缓冲区数据进行调整的方式和调整的幅度。同时，在采集和播放时，根据设备性能调整采集和播放策略，使得发送数据速度更均匀、向缓冲区要数据的速度也更均匀，使去抖动模块工作在最好的状态下，具体实现如下所述：

1)当JB_len>AD_up时：

当JB_len>AD_up×F1时，如果当前帧信号内容是重要帧(如语音段)，则对当前缓冲区数据进行压缩处理；如果当前帧为非重要数据(如静音数据)，则直接将当前帧丢掉。当JB_len>AD_up×F2时(F1)F2)，如果当前帧信号内容是重要帧(如语音段)，则不对当前缓冲区数据进行任何处理；如果当前帧为非重要数据(如静音数据)，则对当前缓冲区数据进行压缩处理。

这样处理的依据，是因为不管是对信号进行压缩还是直接丢掉，其实对通话质量都是一种损伤，而且，直接丢包的损伤大于压缩的损伤；基于单个包的压缩算法，每次压缩的幅度都小于1帧的数据长度，所以数据压缩相比直接丢掉当前帧，对缓冲区数据长度的降低没那么快，也即对端到端时延的降低速度慢一些。因此，只有在缓冲区数据长度非常大且当前数据为非重要数据时，我们才采取直接丢帧的方法；而如果缓存区的数据长度非常大而当前数据又是重要数据时，我们就用损伤较小的方式即压缩来调整缓冲区长度；而如果缓存区的数据长度虽然大于一定的阈值，但是当前帧为重要数据，我们还是采取什么都不做的策略，这样最大程度的保证了语音段的通话质量。多出来的时延，我们可以等到非静音段再进行快速处理，达到降低端到端时延目的的同时，又最大程度的保证通话的感知质量。

2)当JB_len<AD_dw时：

3)当AD_up>＝JB_len>＝AD_dw时：

在1)和2)的调整算法中，扩展或者压缩，还需要看信号的内容和当时的调整算法，比如，因为扩展和压缩算法是基于基音周期的，而音乐信号不适合这种扩展或者压缩算法，所以如果检测到当前信号是音乐信号而非语音信号时，还需要对调整参数(AD_up、AD_dw、F1～F4)做适当调整。

同时，如果连续扩展/压缩太多，听觉感知上会有快放或者慢播的效果，所以1)和2)中的调整算法，还需要根据历时调整策略做适当的调整(如规定连续扩展或者压缩的最大次数等)，保证最终听觉感知上听不出快播或者慢播的效果。

本方案中，通过离线网络特征建模：通过离线抓包，分析大量现网数据，提取参数，建立不同的网络模型。

例如，图19和图20提取了离线数据中的“前后两个包到达的时间差”作为模型特征参数之一，相比于图20，图19的取值范围波动比较大，表示网络的抖动比较大。图19中，对于抖动较大时前后两个包的到达时间差，极大的突然抖动，较少；图20中，对于抖动较小时前后两个包的到达时间差，极大突发抖动，较多。但是，图20的极大突发抖动比较多(图中前后两个包到达时间差大于1000ms的次数比较多)。可以用如RFC 3550中的方法计算传统的Jitter值，表示当前“时刻”的网络抖动，但是这往往是不够的，因为，图20的总体抖动虽然小些，但是突发大抖动多一些，可以通过对“前后两个包到达的时间差”进行累计直方图统计、方差统计、整个通话过程中的平滑包络值、突发次数等等进行计算，用来区分图19和图20两种网络模型。

除了“前后两个包到达的时间差”，还可以对连续丢包个数、整体丢包率、乱序率、乱序长度等等作为建模参数来进行分析。

根据当前通话历史的网络参数对去抖动参数的调整：根据步骤1)的结果，初步决定去抖动参数AD_up和AD_dw；然后，根据当前通话的历史数据，调整AD_up和AD_dw。

比如，从对大量的离线数据分析我们发现，对于不同的网络类型，如2g、3g、4g、wifi，在大的方向上，会表征出不同的网络特性趋势，如相比于4g来说，2g网络更容易因为网络拥塞出现大的抖动。这个时候，2g相对于4g，在初始化时，我们可以设置较大的AD_up和AD_dw；然后，根据当前通话的历史数据，由1)中分析出的网络参数，根据不同的网络模型来调整AD_up和AD_dw的大小和参数F1～F4。即使同样是wifi网络，特性也不相同，比如，对于类似图14的网络类型，即总体抖动小但是突发大抖动比较多的网络类型，我们可以设置较小的AD_up和AD_dw，保证端到端的总体时延较小，但是，当JB_len<AD_dw时，我们可以调整F3和F4，使扩展策略更加激进(扩展服务更大或者一次拷贝更多数据)，响应更加快，以达到更好更快抵抗突发大抖动的目的。

根据信号内容对去抖动参数调整：根据当前信号的内容(音乐或者语音等)、重要程度(静音或者非静音等)，对去抖动参数进行调整(即对AD_up和AD_dw、F1～F4进行调整)。如：音乐信号时，相同网络情况下，尽量使用较大的AD_up和AD_dw。总体原则是：重要帧的地方，尽量少做去抖动处理；缓冲区长度大于AD_up时，调整策略可以稍微缓一下，等到非重要帧再进行处理；而缓冲区长度小于AD_dw时，需要尽快调整，避免卡顿。尽量保证听觉感知质量的情况下，在一定必要时才做去抖动处理。

根绝听觉感知对去抖动参数进行调整：对信号做扩展、压缩或者时长调整时，要控制调整频率，使得感知听觉上听不出快播或者慢播的效果。

采集/播放设备的自适应：在图18中，由于设备的处理能力不同、应用程序的调度特性不同，使得发送包的速度不够均匀或者是没有规律可言。而去抖动模块的设计，是基于包的发送速度是均匀或者有规律的。而发送速度的均匀性，主要是由声卡的采集方式和线程的调度特性决定的。比如，如果采用声卡回调的方式驱动应用程序进行编码/发送，那么相对于ios设备来说，android设备两次声卡回调的时间间隔出现不均匀的情况会更多一些，而且，性能越差的机器，这种情况越多。这个时候，我们可以根据不同的设备性能，采用声卡回调或者定时器回调的方法来驱动应用程序进行编码/发送，使得包的发送间隔更加均匀。同样的，在播放端，也尽量使应用程序向缓冲区要数据的数据均匀，这样，才能使去抖动模块工作在最佳状态，使得端到端时延最低。对于线程调度的差异，比如相同的设备，音视频通话相对于纯音频通话时，由于有视频的采集、编解码等，手持设备的处理能力有限，音视频通话时，线程调度的均匀性没有纯音频时好，这个时候，在充分优化了线程调度方法之后，同样的网络情况下，可以适当增大去抖动算法的参数，以减少卡顿。

此处需要说明的是，上述子部分与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述子部分作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

本申请实施例还提供了一种用于实施上述方法的服务器或终端。

图7是根据本申请实施例的一种终端的结构框图，如图7所示，该终端可以包括：一个或多个(图中仅示出一个)处理器701、存储器703、以及传输装置705(如上述实施例中的发送装置)，如图7所示，该终端还可以包括输入输出设备707。

其中，存储器703可配置为存储软件程序以及子部分，如本申请实施例中的方法和装置对应的程序指令/子部分，处理器701通过运行存储在存储器703内的软件程序以及子部分，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器703可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器703可进一步包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述处理器701可为中央处理器、微处理器、数字信号处理器、应用处理器或可编程阵列等。

所述处理器701可通过集成电路总线等与存储器703连接。

上述的传输装置705配置为经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置705包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置705为射频(Radio Frequency，RF)子部分，其配置为通过无线方式与互联网进行通讯。

其中，可选地，存储器703用于存储应用程序。

处理器701可以通过传输装置705调用存储器703存储的应用程序，以执行下述步骤：基于第一客户端通过预设网络接收到的第二客户端发送的第一数据包，判断第二客户端通过预设网络向第一客户端发送的第一媒体信息是否发生丢包，其中，第一媒体信息包括第一数据包，第一媒体信息是第二客户端与第一客户端进行音频通话或视频通话时传输的媒体信息；在判断出第一媒体信息发生丢包的情况下，获取预设网络的网络状态信息；在网络状态信息满足预设条件的情况下，向第二客户端发送重传请求，其中，重传请求用于请求第二客户端重传第一媒体信息中丢失的第二数据包，预设条件用于指示预设网络重传第二数据包所需达到的网络条件；在网络状态信息不满足预设条件的情况下，取消向第二客户端发送重传请求。

处理器701还配置为执行下述步骤：在向第二客户端发送重传请求之后，接收第二客户端发送的第二数据包；根据第一数据包和第二数据包生成第二媒体信息；在网络状态信息不满足预设条件的情况下，根据第一数据包生成第三媒体信息。

处理器701还配置为执行下述步骤：在获取预设网络的网络状态信息之后、且在向第二客户端发送重传请求或取消向第二客户端发送重传请求之前，判断网络状态信息所指示的预设网络的第一网络状态是否与重传第二数据包所需的第二网络状态匹配；在第一网络状态与第二网络状态匹配的情况下，判断出网络状态信息满足预设条件；在第一网络状态与第二网络状态不匹配的情况下，判断出网络状态信息不满足预设条件。

处理器701还配置为执行下述步骤：判断带宽阈值与当前使用带宽的差值是否小于第一预设值；判断当前传输时延是否小于传输时延阈值；判断当前丢包率是否小于丢包率阈值；判断连续丢包的数量是否小于第二预设值；其中，预设判断结果用于指示第一网络状态与第二网络状态匹配，预设判断结果包括以下至少之一：判断出带宽阈值与当前使用带宽的差值小于第一预设值；判断出当前传输时延小于传输时延阈值；判断出当前丢包率小于丢包率阈值；判断出连续丢包的数量小于第二预设值。

采用本申请实施例，提供了一种通话方法的方案。基于第一客户端通过预设网络接收到的第二客户端发送的第一数据包，判断第二客户端通过预设网络向第一客户端发送的第一媒体信息是否发生丢包，其中，第一媒体信息包括第一数据包；在判断出第一媒体信息发生丢包的情况下，获取预设网络的网络状态信息；在网络状态信息满足预设条件的情况下，向第二客户端发送重传请求，其中，重传请求用于请求第二客户端重传第一媒体信息中丢失的第二数据包；在网络状态信息不满足预设条件的情况下，取消向第二客户端发送重传请求，在网络情况允许的情况下，通过重传请求获取丢失的数据包，达到使媒体信息更为完整的目的，从而实现了提升即时通讯质量的技术效果，进而解决了相关技术中由于网络拥堵造成的即时通讯质量较差的技术问题。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图7所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如，终端还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图7所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

本申请的实施例还提供了一种计算机存储介质。可选地，在本实施例中，上述存储介质可以用于执行通话方法的程序代码等计算机可执行指令。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

所述计算机存储介质可为非瞬间存储介质。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，基于第一客户端通过预设网络接收到的第二客户端发送的第一数据包，判断第二客户端通过预设网络向第一客户端发送的第一媒体信息是否发生丢包，其中，第一媒体信息包括第一数据包，第一媒体信息是第二客户端与第一客户端进行音频通话或视频通话时传输的媒体信息；

S2，在判断出第一媒体信息发生丢包的情况下，获取预设网络的网络状态信息；

S3，在网络状态信息满足预设条件的情况下，向第二客户端发送重传请求，其中，重传请求用于请求第二客户端重传第一媒体信息中丢失的第二数据包，预设条件用于指示预设网络重传第二数据包所需达到的网络条件；

S4，在网络状态信息不满足预设条件的情况下，取消向第二客户端发送重传请求。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在向第二客户端发送重传请求之后，接收第二客户端发送的第二数据包；根据第一数据包和第二数据包生成第二媒体信息；在网络状态信息不满足预设条件的情况下，根据第一数据包生成第三媒体信息。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在获取预设网络的网络状态信息之后、且在向第二客户端发送重传请求或取消向第二客户端发送重传请求之前，判断网络状态信息所指示的预设网络的第一网络状态是否与重传第二数据包所需的第二网络状态匹配；在第一网络状态与第二网络状态匹配的情况下，判断出网络状态信息满足预设条件；在第一网络状态与第二网络状态不匹配的情况下，判断出网络状态信息不满足预设条件。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：判断带宽阈值与当前使用带宽的差值是否小于第一预设值；判断当前传输时延是否小于传输时延阈值；判断当前丢包率是否小于丢包率阈值；判断连续丢包的数量是否小于第二预设值；其中，预设判断结果用于指示第一网络状态与第二网络状态匹配，预设判断结果包括以下至少之一：判断出带宽阈值与当前使用带宽的差值小于第一预设值；判断出当前传输时延小于传输时延阈值；判断出当前丢包率小于丢包率阈值；判断出连续丢包的数量小于第二预设值。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以下还结合图8提供一个通话方法的实施例，包括：

步骤S1：丢包检测，例如可包括：根据包头信息中的序号索引信息，判断是否有丢包，如果步骤S1中检测到没有丢包，就不发送重传请求则接续后续流程，否则进入步骤S2。

步骤S2：进行当前网络状况的网络特性分析。网络特性包括但不限于：使用码率、估计带宽、丢包率、抖动、端到端传输时延等。

步骤S3：根据步骤S2中分析的结果，计算相应的网络参数的相关阈值。所述相关阈值的计算包括但不限于，确定带宽阈值、根据估计的带宽。在一定情况下，当使用码率大于一定阈值时，就不允许发送重传请求。

例如，确定传输时延阈值时，根据网络抖动，确定传输时延阈值；在一定的抖动下，当传输时延大于某个阈值的时候，就不允许发送重传请求，因为这时候即使发送了重传请求，重传过来的响应数据也可能用不上，利用率太低。

再例如，丢包率阈值：根据历史丢包率、丢包模型分析，确定当前丢包率下的阈值。比如在某些带宽不够的网络下、或者丢包率特别特别大的网络下，发的数据越多丢的数据越多，这时候再发送重传请求增加网络负担也是无用或者有害的。

步骤S4：根据重传请求的相应利用率，调整之前确定网络参数的相关阈值。这里的相应利用率为前述预设参数的一种。

例如：计算重传请求与接收到的响应数据的比例：客户端B缓存的历史数据是有一定的长度限制的，如果客户端A到B的传输时延太大，客户端B收到的重传请求中携带的请求包数据信息已经在缓存数据之外，那么就不会对客户端A的重传请求进行响应，这时候重传请求/接收到的响应数据的比例就会特别低。故可以基于所述比例，得到使得该比例高于一定值的所需的网络参数的相关阈值。

又例如，为了避免客户端A发送太多重传请求造成带宽浪费，需要降低重传请求的发送频率，即提高网络参数的相关阈值，计算响应数据的实际利用率：客户端B收到重传请求之后，在历史缓存数据中找到了相应的数据，将数据作为响应包重新发送给客户端A。这时候，如果客户端B到客户端A的传输时延太大，响应数据到达客户端A的时候可能已经不满足实时通话的数据要求，变成晚到的包需要主动丢掉，这时候虽然有响应数据，但是响应数据的利用率太低。如果一段时间内长期实际利用率低，也需要降低重传的请求频率，即提高网络参数的相关阈值。

这些相关阈值即描述了前述的网络条件。

步骤S5：传输的数据包对应的信号特性分析：对信号进行分析，如清音、浊音分析，语音、静音分析，语义重要性分析等，再利用步骤S4调整后的网络参数的相关阈值，比如，带宽足够时，只要检测到丢包就可以进行重传请求，带宽不够时，只对丢失的重要语音帧进行重传请求。

步骤S6：请求判决：根据网络参数的相关阈值、当前的网络状况、信号特性等进行综合判决，决定有丢包时，是否允许发送重传请求。若允许重传，则发送重传请求，若不允许重传，则禁止发送重传请求，并返回步骤S1。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的部分如果以软件功能部分的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述部分的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个部分或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，部分或子部分的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的部分可以是或者也可以不是物理上分开的，作为部分显示的部件可以是或者也可以不是物理部分，即可以位于一个地方，或者也可以分布到多个网络部分上。可以根据实际的需要选择其中的部分或者全部部分来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能部分可以集成在一个处理部分中，也可以是各个部分单独物理存在，也可以两个或两个以上部分集成在一个部分中。上述集成的部分既可以采用硬件的形式实现，也可以采用软件功能部分的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，凡按照本申请原理所作的修改，都应当理解为落入本申请的保护范围。

工业实用性

本申请实施例中在请求数据包重发之前，会获取接收重传的数据包的预设网络的网络状况，以根据网络状况确定是否请求重传，这样的话，就可以减少因为预设网络状况在拥堵时，还接收到大量的重传请求，导致的网络的进一步拥堵，以使得预设网络保留更多的资源用于新传数据的传输，提升传输效率，从而具有积极的工业效果。且可以在终端设备中运行对应的计算机程序等计算机可执行指令，具有工业可实现性强的特点。

Claims

一种通话方法，包括：

基于第一客户端通过预设网络接收到的第二客户端发送的第一数据包，判断所述第二客户端通过所述预设网络向所述第一客户端发送的第一媒体信息是否发生丢包，其中，所述第一媒体信息包括初传成功的所述第一数据包，所述第一媒体信息是所述第二客户端与所述第一客户端进行音频通话或视频通话时传输的媒体信息；

在判断出所述第一媒体信息发生丢包的情况下，获取所述预设网络的网络状态信息；

确定请求所述第二客户端重传第二数据包的预定参数，其中，所述第二数据包为所述第一媒体信息中传输失败的数据包的重传数据包；所述预定参数包括：重传成功的第一概率阈值及成功输出所述第二数据包的第二概率阈值的至少其中之一；

根据所述预定参数，确定请求重传时所述网络状况信息需要满足的预设条件，其中，所述预设条件用于指示所述预设网络成功重传所述第二数据包的概率不小于所述第一概率阈值所需的网络条件，和/或，用于指示成功重传的所述第二数据包能够成功被输出的概率不小于所述第二概率阈值所需的网络条件；

在所述网络状态信息满足所述预设条件的情况下，向所述第二客户端发送重传请求；

在所述网络状态信息不满足所述预设条件的情况下，取消向所述第二客户端发送所述重传请求。
根据权利要求1所述的方法，其中，

在向所述第二客户端发送重传请求之后，所述方法还包括：接收所述第二客户端发送的所述第二数据包；根据所述第一数据包和所述第二数据包生成第二媒体信息；

在所述网络状态信息不满足所述预设条件的情况下，所述方法还包括：根据所述第一数据包生成第三媒体信息。
根据权利要求1所述的方法，其中，在获取所述预设网络的网络状态信息之后、且在向所述第二客户端发送重传请求或取消向所述第二客户端发送所述重传请求之前，所述方法还包括：

判断所述网络状态信息所指示的所述预设网络的第一网络状态是否与重传所述第二数据包所需的第二网络状态匹配；

在所述第一网络状态与所述第二网络状态匹配的情况下，判断出所述网络状态信息满足所述预设条件；在所述第一网络状态与所述第二网络状态不匹配的情况下，判断出所述网络状态信息不满足所述预设条件。
根据权利要求3所述的方法，其中，判断所述网络状态信息所指示的所述预设网络的第一网络状态是否与重传所述第二数据包所需的第二网络状态匹配包括以下至少之一：

判断带宽阈值与当前使用带宽的差值是否小于第一预设值；

判断当前传输时延是否小于传输时延阈值；

判断当前丢包率是否小于丢包率阈值；

判断连续丢包的数量是否小于第二预设值；

其中，预设判断结果用于指示所述第一网络状态与所述第二网络状态匹配，所述预设判断结果包括以下至少之一：判断出所述带宽阈值与所述当前使用带宽的差值小于所述第一预设值；判断出所述当前传输时延小于所述传输时延阈值；判断出所述当前丢包率小于所述丢包率阈值；判断出连续丢包的数量小于所述第二预设值。
根据权利要求4所述的方法，其中，在判断所述网络状态信息所指示的所述预设网络的第一网络状态是否与重传所述第二数据包所需的第二网络状态匹配之前，所述方法还包括：

获取用于表征所述第一网络状态的所述当前使用带宽、所述当前传输时延、所述当前丢包率以及用于描述允许连续丢包数量的所述第二预设值；

根据所述预设网络的带宽信息确定所述带宽阈值；

根据所述预设网络的网络抖动信息确定所述传输时延阈值；

根据历史丢包率和丢包模型确定所述丢包率阈值。
根据权利要求1至5中任一项所述的方法，其中，在向所述第二客户端发送重传请求或取消向所述第二客户端发送所述重传请求之后，所述方法还包括以下至少之一：

根据前一次确定的带宽阈值和所述预设网络的当前带宽信息重新确定当前的带宽阈值；

在接收到的所述第二数据包的数量与发送的所述重传请求的数量的第一比值小于第三预设值的情况下，增大丢包率阈值，并减小传输时延阈值；

在接收到的有效的所述第二数据包与接收到的所有所述第二数据包间的第二比值小于第四预设值的情况下，增大所述丢包率阈值，并减小所述传输时延阈值。
根据权利要求1所述的方法，其中，

在向所述第二客户端发送重传请求之前，所述方法还包括：通过对所述第一数据包中的媒体信息段进行信号特征分析确定丢失的所述第二数据包的语音特征；

在所述网络状态信息满足预设条件的情况下，向所述第二客户端发送重传请求包括：在所述网络状态信息满足所述预设条件，且所述语音特征包括浊音特征、语音特征以及语义特征中的至少一个的情况下，向所述第二客户端发送重传请求。
根据权利要求1所述的方法，其中，判断所述第二客户端通过所述预设网络向所述第一客户端发送的第一媒体信息是否发生丢包包括：

根据所述第一数据包中的序号索引信息判断所述第一媒体信息是否发生丢包。
根据权利要求1所述的方法，其中，

所述根据所述预定参数，确定请求重传时所述网络状况信息需要满足的预设条件，包括以下至少之一：

根据所述第二客户端缓存所述第一媒体信息的缓存时间，确定所述重传请求以不小于所述第一概率阈值在所述缓存时间内达到所述第二客户端所需的第一网络条件；

根据所述第一客户端中媒体信息的输出速率，确定所述第二数据包达到所述第一客户端后以不小于所述第二概率阈值被输出所需的第二网络条件。
根据权利要求1所述的方法，其中，所述方法还包括：

根据当前的所述网络状况信息和第二去抖动策略得到去抖动参数，根据所述去抖动参数设置用于传输所述音频通话或视频通话的通话数据的缓冲区容量，使所述音频通话或视频通话的时延符合预期。
根据权利要求10所述的方法，其中，所述方法还包括：

采集离线网络数据，从所述离线网络数据中提取出用于表征网络特征的至少一个网络参数；

根据所述至少一个网络参数构建网络模型，根据所述网络模型确定第一去抖动策略；

根据用于评估音频通话或视频通话的通话质量的特征参数对所述第一去抖动策略进行修正，得到第二去抖动策略。
根据权利要求11所述的方法，其中，

所述根据用于评估音频通话或视频通话的通话质量的通话质量的特征参数对所述第一去抖动策略进行修正，包括：

获取本次音频通话或视频通话的历史数据；

根据所述本次音频通话或视频通话的历史数据对所述第一去抖动策略进行修正。
根据权利要求10所述的方法，其中，所述根据用于音频通话或视频通话的通话质量的通话质量的特征参数对所述第一去抖动策略进行修正，包括：

获取本次音频通话或视频通话的信号内容；

根据所述本次音频通话或视频通话的信号内容对所述第一去抖动策略进行修正。
根据权利要求10所述的方法，其中，所述根据用于评估音频通话或视频通话的通话质量的通话质量的特征参数对所述第一去抖动策略进行修正，包括：

获取本次音频通话或视频通话的感知听觉结果；

根据所述感知听觉结果对所述第一去抖动策略进行修正。
根据权利要求10所述的方法，其中，所述方法还包括：

采集本次音频通话或视频通话的通话数据时，获取终端设备的不同处理能力和/或作为通话媒介的应用的调度特性；

根据所述终端设备的不同处理能力和/或作为所述通话媒介的应用的调度特性对所述第一去抖动策略进行修正。
根据权利要求10所述的方法，其中，所述方法还包括：

播放本次音频通话或视频通话的通话数据时，获取终端设备的不同处理能力和/或作为所述通话媒介的应用的调度特性；

根据所述终端设备的不同处理能力和/或作为所述通话媒介的应用的调度特性对所述第一去抖动策略进行修正。
根据权利要求1或10所述的方法，其中，所述方法还包括：

判断所述第一客户端和所述第二客户端是否处于同时采集到声音的双讲状态；

当处于所述双讲状态时，对所述语音通话或所述视频通话进行提升通话质量的特定处理。
根据权利要求17所述的方法，其中，

所述判断所述第一客户端和所述第二客户端是否处于同时采集到声音的双讲状态，包括：

根据所述第一媒体信息，获取所述第一客户端提供的远端信号，所述远端信号是根据语音通话的对端发送的声音信号所获得的信号；

对所述远端信号叠加超声波信号，获得叠加所述超声波信号后的混合信号，并通过扬声器部分播放所述混合信号；

获取所述第二客户端的近端信号，所述近端信号是第二客户端通过麦克风部分采集到的声音信号；

根据所述超声波信号确定所述混合信号中的第一信号段和所述近端信号中的第二信号段；

计算所述第一信号段与所述第二信号段之间的相关值；

当所述相关值小于预设的相关值阈值时，确定所述麦克风部分采集到所述近端信号时的通话状态为双讲状态。
根据权利要求18所述的方法，其中，所述对所述远端信号叠加超声波信号之前，还包括：

检测所述远端信号的功率值是否大于预设功率阈值；

当检测结果为所述远端信号的功率值大于所述预设功率阈值时，执行所述对所述远端信号叠加超声波信号的步骤。
根据权利要求18所述的方法，其中，所述获取远端信号，包括：

对接收到的所述第一媒体信息中的声音信号进行低通滤波，获得所述远端信号；

其中，所述低通滤波的截止频率低于所述超声波信号的最低频率。
根据权利要求18所述的方法，其中，所述根据所述超声波信号确定所述远端信号中的第一信号段和所述近端信号中的第二信号段，包括：

将所述近端信号中，承载目标数据信息的超声波信号所对应的时域上的信号确定为所述第二信号段；

确定最近播放的，且叠加有承载所述目标数据信息的超声波信号的混合信号的播放时间；

将所述混合信号中，在所述播放时间上播放的信号确定为所述第一信号段。
根据权利要求18所述的方法，其中，所述根据所述超声波信号确定所述远端信号中的第一信号段和所述近端信号中的第二信号段，包括：

将所述混合信号中，承载目标数据信息的超声波信号所对应的时域上的信号确定为所述第一信号段；

在所述第一信号段被播放后采集到的所述近端信号中，查询承载所述目标数据信息的超声波信号所对应的时域上的信号；

将查询获得的信号确定为所述第二信号段。
根据权利要求18所述的方法，其中，叠加在所述远端信号上的所述超声波信号所承载的数据信息在预定周期内不重复；

所述预定周期大于或者等于回声时延的最大值，所述回声时延是所述扬声器部分播放所述混合信号到所述麦克风部分采集到所述混合信号对应的回声之间的时延。
根据权利要求18至23任一所述的方法，其中，

所述超声波信号所承载的数据信息包括若干个超声编码，每个所述超声编码由至少两个编码部分组成，且每个所述编码部分用于指示至少两个超声频点中的每个超声频点上是否存在信号。
根据权利要求18至23任一所述的方法，其中，所述计算所述第一信号段与所述第二信号段之间的相关值，包括：

分别获取所述第一信号段与所述第二信号段各自对应的功率谱；

对所述第一信号段与所述第二信号段各自对应的功率谱进行二值化处理，获得所述第一信号段与所述第二信号段各自对应的二值化数组；

计算所述第一信号段与所述第二信号段各自对应的二值化数组之间的相关值。
根据权利要求18至23任一所述的方法，其特征在于，所述方法还包括：

在对所述远端信号叠加超声波信号之前，检测将所述远端信号和所述超声波信号叠加之后获得的声音信号的幅值是否超出预设的幅值范围；

若检测结果为所述声音信号的幅值超出所述预设的幅值范围，则按照预定的衰减策略对所述远端信号的幅值进行衰减处理。
一种通话装置，包括：

第一判断部分，配置为基于第一客户端通过预设网络接收到的第二客户端发送的第一数据包，判断所述第二客户端通过所述预设网络向所述第一客户端发送的第一媒体信息是否发生丢包，其中，所述第一媒体信息包括初传成功的所述第一数据包，所述第一媒体信息是所述第二客户端与所述第一客户端进行音频通话或视频通话时传输的媒体信息；

参数确定部分，配置为确定请求所述第二客户端重传第二数据包的预定参数，其中，所述第二数据包为所述第一媒体信息中传输失败的数据包的重传数据包；所述预定参数包括：重传成功的第一概率阈值及成功输出所述第二数据包的第二概率阈值的至少其中之一；

条件确定部分，配置为根据所述预定参数，确定请求重传时所述网络状况信息需要满足的预设条件，其中，所述预设条件用于指示所述预设网络成功重传所述第二数据包的概率不小于所述第一概率阈值所需的网络条件，和/或，用于指示成功重传的所述第二数据包能够成功被输出的概率不小于所述第二概率阈值所需的网络条件；

第一获取部分，配置为在判断出所述第一媒体信息发生丢包的情况下，获取所述预设网络的网络状态信息；

第一执行部分，配置为在所述网络状态信息满足预设条件的情况下，向所述第二客户端发送重传请求；

第二执行部分，配置为在所述网络状态信息不满足所述预设条件的情况下，取消向所述第二客户端发送所述重传请求。
根据权利要求27所述的装置，其中，所述装置还包括：

接收部分，配置为在向所述第二客户端发送重传请求之后，接收所述第二客户端发送的所述第二数据包；

第一生成部分，配置为根据所述第一数据包和所述第二数据包生成第二媒体信息；

第二生成部分，配置为在所述网络状态信息不满足预设条件的情况下，根据所述第一数据包生成第三媒体信息。
根据权利要求27所述的装置，其中，所述装置还包括：

第二判断部分，配置为在获取所述预设网络的网络状态信息之后、且在向所述第二客户端发送重传请求或取消向所述第二客户端发送所述重传请求之前，判断所述网络状态信息所指示的所述预设网络的第一网络状态是否与重传所述第二数据包所需的第二网络状态匹配；

第一确定部分，配置为在所述第一网络状态与所述第二网络状态匹配的情况下，判断出所述网络状态信息满足所述第一预设条件；

第二确定部分，配置为在所述第一网络状态与所述第二网络状态不匹配的情况下，判断出所述网络状态信息不满足所述第一预设条件。
根据权利要求29所述的装置，其中，所述第二判断部分包括：

第一判断子部分，配置为判断带宽阈值与当前使用带宽的差值是否小于第一预设值；

第二判断子部分，配置为判断当前传输时延是否小于传输时延阈值；

第三判断子部分，配置为判断当前丢包率是否小于丢包率阈值；

第四判断子部分，配置为判断连续丢包的数量是否小于第二预设值；

其中，预设判断结果用于指示所述第一网络状态与所述第二网络状态匹配，所述预设判断结果包括以下至少之一：判断出所述带宽阈值与所述当前使用带宽的差值小于所述第一预设值；判断出所述当前传输时延小于所述传输时延阈值；判断出所述当前丢包率小于所述丢包率阈值；判断出连续丢包的数量小于所述第二预设值。
根据权利要求30所述的装置，其中，所述装置还包括：

第二获取部分，配置为在判断所述网络状态信息所指示的所述预设网络的第一网络状态是否与重传所述第二数据包所需的第二网络状态匹配之前，获取用于表征所述第一网络状态的所述当前使用带宽、所述当前传输时延、所述当前丢包率以及用于描述允许连续丢包数量的所述第二预设值；

第三确定部分，配置为根据所述预设网络的带宽信息确定所述带宽阈值；

第四确定部分，配置为根据所述预设网络的网络抖动信息确定所述传输时延阈值；

第五确定部分，配置为根据历史丢包率和丢包模型确定所述丢包率阈值。
根据权利要求27至31中任意一项所述的装置，其中，

所述装置还包括：

第一更新部分，配置为在向所述第二客户端发送重传请求或取消向所述第二客户端发送所述重传请求之后，根据前一次确定的带宽阈值和所述预设网络的当前带宽信息重新确定当前的带宽阈值；

第二更新部分，配置为在接收到的所述第二数据包的数量与发送的所述重传请求的数量的第一比值小于第三预设值的情况下，增大丢包率阈值，并减小传输时延阈值；

第三更新部分，配置为在接收到的有效的所述第二数据包与接收到的所有所述第二数据包间的第二比值小于第四预设值的情况下，增大所述丢包率阈值，并减小所述传输时延阈值。
根据权利要求27所述的装置，其中，

所述装置还包括：

第六确定部分，配置为在向所述第二客户端发送重传请求之前，通过对所述第一数据包中的媒体信息段进行信号特征分析确定丢失的所述第二数据包的语音特征；

所述第一执行部分，还配置为在所述网络状态信息满足所述预设条件，且所述语音特征包括浊音特征、语音特征以及语义特征中的至少一个的情况下，向所述第二客户端发送重传请求。
根据权利要求27所述的装置，其中，

所述第一判断部分，还配置为根据所述第一数据包中的序号索引信息判断所述第一媒体信息是否发生丢包。
根据权利要求27所述的装置，其中，

所述条件确定部分，配置为执行以下至少之一：

根据所述第二客户端缓存所述第一媒体信息的缓存时间，确定所述重传请求以不小于所述第一概率阈值在所述缓存时间内达到所述第二客户端所需的第一网络条件；

根据所述第一客户端中媒体信息的输出速率，确定所述第二数据包达到所述第一客户端后以不小于所述第二概率阈值被输出所需的第二网络条件。
根据权利要求27所述的装置，其中，还包括：

缓冲区调整部分，配置为根据当前实时的网络情况和所述第二去抖动策略得到去抖动参数，根据所述去抖动参数设置用于传输所述语音通话或视频通话的通话数据的缓冲区容量，使音频通话或视频通话的时延符合预期。
根据权利要求36所述的装置，其中，还包括：

采集部分，配置为采集离线网络数据，从所述离线网络数据中提取出用于表征网络特征的至少一个网络参数；

策略确定部分，配置为根据所述至少一个网络参数构建网络模型，根据所述网络模型确定第一去抖动策略；

策略修正部分，配置为根据用于评估音频通话或视频通话的通话质量的特征参数对所述第一去抖动策略进行修正，得到第二去抖动策略。
根据权利要求27或36所述的装置，其中，还包括：

状态确定部分，配置为判断所述第一客户端和所述第二客户端是否处于同时采集到声音的双讲状态；当处于所述双讲状态时，对所述语音通话或所述视频通话进行提升通话质量的特定处理。
根据权利要求38所述的装置，其中，还包括：

远端信号获取部分，配置为根据所述第一媒体信息，获取所述第一客户端的远端信号，所述远端信号是根据语音通话的对端发送的声音信号所获得的信号；

信号叠加部分，配置为对所述远端信号叠加超声波信号，获得叠加所述超声波信号后的混合信号；

播放模块，配置为通过扬声器部分播放所述混合信号；

近端信号获取模块，配置为获取所述第二客户端的近端信号，所述近端信号是通过麦克风部分采集到的声音信号；

信号确定模块，配置为根据所述超声波信号确定所述混合信号中的第一信号段和所述近端信号中的第二信号段；

相关值计算模块，计算所述第一信号段与所述第二信号段之间的相关值；

所述状态确定模块，配置为当所述相关值小于预设的相关值阈值时，确定所述麦克风部分采集到所述近端信号时的通话状态为所述双讲状态。
一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至26任一项所述通话方法。
一种终端，包括：

存储器，配置为存储计算机可执行指令；

处理器，与所述存储器连接，配置为通过执行所述计算机可执行指令，实现权利要求1至26任一项所述通话方法。