WO2020103209A1

WO2020103209A1 - 一种回声消除方法及终端

Info

Publication number: WO2020103209A1
Application number: PCT/CN2018/119887
Authority: WO
Inventors: 林惠东; 陈郭皇寿; 孙磊
Original assignee: 网宿科技股份有限公司
Priority date: 2018-11-20
Filing date: 2018-12-07
Publication date: 2020-05-28
Also published as: CN109346098A; CN109346098B; EP3882913A4; US20210321005A1; EP3882913A1

Abstract

本申请实施例提供了一种回声消除方法及终端，涉及音视频实时通讯技术领域，该方法包括：终端采集第一端音频数据，第一端音频数据包括第一端用户的语音以及终端上的音频播放设备播放的音频。然后从缓存区中查询第一端音频数据对应的参考音频数据，缓存区缓存音频播放设备上待播放的音频数据作为参考音频数据。之后再采用参考音频数据消除第一端音频数据中音频播放设备播放的音频，确定修正音频数据。最后将修正音频数据发送至第二端用户终端。由于采用参考音频数据消除第一端音频数据中音频播放设备上播放的音频，留下第一端用户的语音，避免音频播放设备上播放的音频对第一端用户的语音进行干扰，从而提高第一端用户与第二端用户的通话质量。

Description

一种回声消除方法及终端

技术领域

本发明实施例涉及音视频实时通讯技术领域，尤其涉及一种回声消除方法及终端。

背景技术

随着带宽和终端性能的提升，单一的音视频通话场景稍显枯燥，已不能满足用户的需求。因此在这个基础上衍生了“边看边聊”的应用，即在同一个终端上(如手机或电视机)边看电视节目，边通话；或者游戏过程中边体验游戏时也需要涉及语音采集和播放。但是，电视节目产生的背景音，会与人声一起被麦克风采集，并发送至远端，从而影响通话质量；或者，游戏过程中不同通话端对语音的来回采集，产生了不需要的回声，造成音质嘈杂，影响用户体验。

现有技术中，或是简单地将终端采集的背景音当成噪声进行抑制，造成无法准确识别背景音，只能消除小部分噪声，进而影响语音通话质量。或是在软件层获取背景音，与远端音频合成后，直接作为参考数据以进行回声消除。但是由于获取到背景音后往往需要再合成，这样就与实际播放数据存在差异，进而影响消除效果。因此，亟待一种可以有效消除外部回声，提升语音通话质量的技术方案。

发明内容

由于现有技术中，在边通话边看视频过程中，视频的背景音被麦克风采集发送至远端，从而影响通话质量的问题，本申请实施例提供了一种回声消除方法及终端。

一方面，本申请实施例提供了一种回声消除方法，该方法包括：

终端采集第一端音频数据，所述第一端音频数据包括第一端用户的语音以及所述终端上的音频播放设备播放的音频；

所述终端从缓存区中查询所述第一端音频数据对应的参考音频数据，所述缓存区缓存所述音频播放设备上的音频数据作为参考音频数据；

所述终端采用所述参考音频数据消除所述第一端音频数据中所述音频播放设备播放的音频，确定修正音频数据；

所述终端将所述修正音频数据发送至第二端用户终端。

由于终端预先缓存音频播放设备上的音频数据作为参考音频数据，故在音频播放设备上播放音频时，终端采集音频播放设备上播放的音频以及在播放音频期间第一端用户的语音，采用参考音频数据消除第一端音频数据中音频播放设备上播放的音频，留下第一端用户的语音，避免音频播放设备上播放的音频对第一端用户的语音进行干扰，从而提高第一端用户与第二端用户的通话质量。

可选地，所述音频播放设备上的音频数据包括所述音频播放设备上待播放的音频数据。

可选地，所述终端从缓存区中查询所述第一端音频数据对应的参考音频数据，包括：

所述终端确定所述第一端音频数据与缓存区中每一个参考音频数据的相似度；

所述终端将与所述第一端音频数据的相似度最高的参考音频数据确定为所述第一端音频数据对应的参考音频数据。

由于在缓存区中预先缓存多个参考音频数据，当终端采集到第一端音频数据时，通过比较第一端音频数据与每个参考音频数据之间的相似度，从中确定第一端音频数据对应的参考音频数据，而不需要严格将第一端音频数据的采集时间与参考音频数据的缓存时间对应，从而提高了回声消除的稳定性，降低了复杂度。

可选地，所述终端将所述修正音频数据发送至第二端用户终端之前，还包括：

所述终端对所述修正音频数据进行增益处理。

由于终端采用参考音频数据消除第一端音频数据中音频播放设备播放的音频，确定修正音频数据之后，修正音频的功率相应被削弱，故对修正音频数据进行增益处理，提高第二端用户终端接收的音频的功率，从而提高第一端用户与第二端用户的通话效果。

可选地，所述终端采用所述参考音频数据消除所述第一端音频数据中所述音频播放设备播放的音频，确定修正音频数据，包括：

所述终端将所述参考音频数据和所述第一端音频数据输入线性自适应滤波器，所述线性自适应滤波器将所述第一端音频数据减去所述参考音频数据，输出所述修正音频数据。

所述终端将所述参考音频数据和所述第一端音频数据输入线性自适应滤波器，所述线性自适应滤波器采用所述参考音频数据估计回声音频，将所述第一端音频数据减去所述回声音频，输出所述修正音频数据。

可选地，所述终端将所述参考音频数据和所述第一端音频数据输入线性自适应滤波器之前，还包括：

所述终端将所述参考音频数据的音频参数和所述第一端音频数据的音频参数调整至与所述线性自适应滤波器匹配的预设值。

可选地，还包括：

所述终端在确定所述第一端音频数据相较于所述修正音频数据的衰减值大于预设阈值时，将所述修正音频数据替换为舒适噪声。

由于当第一端音频数据相较于修正音频数据的衰减值大于预设阈值时，说明第一端音频数据中大部分数据为音频播放设备播放的音频，第一端用户的语音所占比例很小，那么可以直接删除该第一端音频数据，同时添加舒适噪声，避免出现听感起伏的情况。

另一方面，本申请实施例提供了一种终端，包括：

采集模块，用于采集第一端音频数据，所述第一端音频数据包括第一端用户的语音以及所述终端上的音频播放设备播放的音频；

查询模块，用于从缓存区中查询所述第一端音频数据对应的参考音频数据，所述缓存区缓存所述音频播放设备上的音频数据作为参考音频数据；

处理模块，用于采用所述参考音频数据消除所述第一端音频数据中所述音频播放设备播放的音频，确定修正音频数据；

发送模块，用于将所述修正音频数据发送至第二端用户终端。

可选地，所述查询模块具体用于：

确定所述第一端音频数据与缓存区中每一个参考音频数据的相似度；

将与所述第一端音频数据的相似度最高的参考音频数据确定为所述第一端音频数据对应的参考音频数据。

可选地，还包括增益模块；

所述增益模块具体用于：

将所述修正音频数据发送至第二端用户终端之前，对所述修正音频数据进行增益处理。

可选地，所述处理模块具体用于：

将所述参考音频数据和所述第一端音频数据输入线性自适应滤波器，所述线性自适应滤波器将所述第一端音频数据减去所述参考音频数据，输出所述修正音频数据。

可选地，所述处理模块具体用于：

将所述参考音频数据和所述第一端音频数据输入线性自适应滤波器，所述线性自适应滤波器采用所述参考音频数据估计回声音频，将所述第一端音频数据减去所述回声音频，输出所述修正音频数据。

可选地，所述处理模块还用于：

将所述参考音频数据和所述第一端音频数据输入线性自适应滤波器之前，将所述参考音频数据的音频参数和所述第一端音频数据的音频参数调整至与所述线性自适应滤波器匹配的预设值。

可选地，所述处理模块还用于：

在确定所述第一端音频数据相较于所述修正音频数据的衰减值大于预设阈值时，将所述修正音频数据替换为舒适噪声。

又一方面，本申请实施例提供了一种终端设备，包括至少一个处理器、以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行上述回声消除方法的步骤。

再一方面，本申请实施例提供了一种计算机可读存储介质，其存储有可由终端设备执行的计算机程序，当所述程序在终端设备上运行时，使得所述终端设备执行上述回声消除方法的步骤。

本申请实施例中，由于终端预先缓存音频播放设备上待播放的音频数据作为参考音频数据，故在音频播放设备上播放音频时，终端采集音频播放设备上播放的音频以及在播放音频期间第一端用户的语音，采用参考音频数据消除第一端音频数据中音频播放设备上播放的音频，留下第一端用户的语音，避免音频播放设备上播放的音频对第一端用户的语音进行干扰，从而提高第一端用户与第二端用户的通话质量。其次，采用线性自适应滤波器拟合参考音频数据对应的回声音频，使得回声音频更接近音频播放设备播放的音频，故采用回声音频抵消第一端音频数据中音频播放设备播放的音频时，消除回声的效果更好。另外，将修正音频数据进行增益处理后发送至第二端用户终端，提高了修正音频的功率，提高了第二端用户听到的语音效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用场景图；

图2为本申请实施例提供的一种回声消除方法的流程示意图；

图3为本申请实施例提供的一种回声消除方法的流程示意图；

图4为本申请实施例提供的一种终端的结构示意图；

图5为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例中的回声消除方法可以应用于如图1所示的应用场景，在该应用场景中包括第一端用户终端101和第二端用户终端102。

第一端用户终端101和第二端用户终端102是具备通话功能以及音视频播放功能的电子设备，该电子设备可以是智能电视、智能手机、平板电脑或便携式个人计算机等等。第一端用户终端101和第二端用户终端102可以通过拨打电话的方式进行通话，也可以通过即时通讯软件进行通话，其中，通话包括语音通话和视频通话等。第一端用户终端101和第二端用户终端102上安装有播放音频和视频的应用程序。本实施例中，以第一端用户终端101为近端用户终端，第二点用户终端102为远端用户终端为例进行说明。第一端用户终端101，即近端用户终端用于采集近端用户的语音以及音频播放设备播放的音频，然后对采集的音频数据进行回声消除后发送至远端用户终端。远端用户终端用于接收近端用户终端发送的消除回声后的音频数据。

基于同样的原理，在其他实施例中，第一端用户终端101可以为远端用户终端，第二用户终端102则为近端用户终端。

下面以第一端用户终端101和第二端用户终端102均为电视为例进行具体说明，其中，第一端用户终端101为近端用户终端，第二用户终端102为远端用户终端。设定第一端用户终端101和第二端用户终端102上均安装有微信。第一端用户通过电视上安装的微信与第二端用户进行语音通话，电视上播放电视节目。

电视将扬声器需要播放的电视音频数据保存在缓存区中作为参考音频数据。扬声器播电视音频，第一端用户对着电视上的麦克风说话，麦克风采集扬声器播放的电视音频以及第一端用户的语音作为第一端音频数据。如果不对麦克风采集的音频进行回声消除，扬声器播放的电视音频也会发送至第二端用户终端，故第二端用户会听到除第一端用户的语音之外的音频，从而影响通话质量。因此，本申请实施例中，采用缓存区中的参考音频数据消除第一端音频数据中扬声器播放的电视音频，得到第一端用户的语音，将第一端用户的语音进行增益处理后发送至第二端用户，从而提高通话质量。

基于图1所示的应用场景图，本申请实施例提供了一种回声消除方法的流程，该方法的流程可以由终端执行，如图2所示，该终端可以是上述第一端用户终端101，包括以下步骤：

步骤S201，终端采集第一端音频数据，第一端音频数据包括第一端用户的语音以及终端上的音频播放设备播放的音频。

可选地，终端是具备通话功能以及音视频播放功能的电子设备，该电子设备可以是智能电视、智能手机、平板电脑或便携式个人计算机等等。

终端通过麦克风采集第一端音频数据。终端上的音频播放设备可以是扬声器。音频播放设备播放的音频可以是视频中的音频，比如电视节目的音频、播放器中播放的音频等。音频播放设备播放的音频也可以是纯音频，比如音乐播放器播放的音乐、电台播放的广播和手机铃声等。音频播放设备播放的音频还可以是终端接收的第二端用户的语音。

音频播放设备在接收到多个待播放的音频时，可以同时播放多个音频。比如扬声器同时接收到电视节目的音频数据以及第二端用户的语音数据时，同时播放电视节目的音频以及第二端用户的语音。终端每次采集的音频时长可以预先设置，比如每次采集的音频时长为5ms。

可选地，第一端音频数据还包括第一端音频数据的音频参数，具体地，音频参数包括音频大小、采样率、通道数、位宽和是否交织等。

步骤S202，终端从缓存区中查询第一端音频数据对应的参考音频数据。

预先设置缓存区，缓存区缓存音频播放设备上的音频数据作为参考音频数据。缓存区中缓存的每一段参考音频数据的时长可以预先设置，参考音频数据的时长与终端采集的音频播放设备上播放的音频时长对应，比如，每一段参考音频数据的时长为5ms，终端每次采集的音频播放设备上播放的音频时长为5ms。

在一种可能的实施方式中，音频播放设备上的音频数据包括音频播放设备上待播放的音频数据，缓存区缓存音频播放设备上待播放的音频数据作为参考音频数据。

在另一种可能的实施方式中，音频播放设备上的音频数据包括音频播放设备上已播放的音频数据，缓存区缓存音频播放设备上已播放的音频数据作为参考音频数据。

步骤S203，终端采用参考音频数据消除第一端音频数据中音频播放设备播放的音频，确定修正音频数据。

参考音频数据与音频播放设备播放的音频相关性很高，将第一端音频数据减去参考音频数据，可以抵消第一端音频数据中音频播放设备播放的音频。

步骤S204，终端将修正音频数据发送至第二端用户终端。

由于终端预先缓存音频播放设备上待播放的音频数据作为参考音频数据，故在音频播放设备上播放音频时，终端采集音频播放设备上播放的音频以及在播放音频期间第一端用户的语音，采用参考音频数据消除第一端音频数据中音频播放设备上播放的音频，留下第一端用户的语音，避免音频播放设备上播放的音频对第一端用户的语音进行干扰，从而提高第一端用户与第二端用户的通话质量。

可选地，在上述步骤S202中，终端从缓存区中查询第一端音频数据对应的参考音频数据时，本申请实施例至少提供以下几种实施方式：

在一种可能的实施方式中，终端确定第一端音频数据与缓存区中每一个参考音频数据的相似度，将与第一端音频数据的相似度最高的参考音频数据确定为第一端音频数据对应的参考音频数据。

具体实施中，缓存区中预先缓存多个参考音频数据，针对每个参考音频数据，将第一端音频数据与该参考音频数据输入线性自适应滤波器，根据线性自适应滤波器的收敛速度确定第一端音频数据与该参考音频数据的相似度。获得第一端音频数据与每个参考音频数据的相似度之后，从缓存区中缓存的多个参考音频数据中，选取一个与第一端音频数据的相似度最高的参考音频数据，作为第一端音频数据对应的参考音频数据。

在一种可能的实施方式中，预先将每次采集的第一端音频数据的时长与参考音频数据的时长设置为相同的值，每缓存一段参考音频数据分配一个序列号，同时每采集一段第一端音频数据也分配一个序列号，通过序列号匹配确定第一端音频数据对应的参考音频数据。

根据缓存参考音频数据的顺序为参考音频数据分配序列号，根据采集第一端音频数据的顺序为第一端音频数据分配序列号，然后采用序列号将第一端音频数据与参考音频数据进行匹配，从而提高了匹配效率。

可选地，在上述步骤S203中，可以采用线性自适应滤波器确定修正音频数据，本申请实施例至少提供以下两种实施方式：

在一种可能的实施方式中，将参考音频数据和第一端音频数据输入线性自适应滤波器，线性自适应滤波器将第一端音频数据减去参考音频数据，输出修正音频数据。

在另一种可能的实施方式中，将参考音频数据和第一端音频数据输入线性自适应滤波器，线性自适应滤波器采用参考音频数据估计回声音频，将第一端音频数据减去回声音频，输出修正音频数据。

具体地，由于音频播放设备播放音频后，音频会经过墙壁等障碍物的反射，因此，终端采集的音频播放设备播放的音频与参考音频数据之间还是存在一定的区别，因此本申请实施例中，先以参考音频数据和音频播放设备播放的音频的相关性为基础，建立回声拟合模型。利用该回声拟合模型使参考音频数据尽量逼近音频播放设备播放的音频。然后基于回声拟合模型调整线性自适应滤波器的系数，当线性自适应滤波器收敛稳定后，将参考音频数据和第一端音频数据输入线性自适应滤波器。线性自适应滤波器首先根据参考音频数据估计回声音频，该回声音频非常逼近音频播放设备播放的音频，然后采用第一端音频数据减去回声音频，输出消除第一端音频数据中音频播放设备播放的音频的修正音频数据。

由于采用线性自适应滤波器先估计参考音频数据对应的回声音频，使得参考音频数据与音频播放设备上播放的音频更接近，采用回声音频消除第一端音频数据中音频播放设备播放的音频，提高了回声消除的效果。

可选地，终端将参考音频数据和第一端音频数据输入线性自适应滤波器之前，将参考音频数据的音频参数和第一端音频数据的音频参数调整至与线性自适应滤波器匹配的预设值。

示例性地，当参考音频数据的采样率和第一端音频数据的采样率与线性自适应滤波器支持的采样率不匹配时，将参考音频数据的采样率和第一端音频数据的采样率调整至线性自适应滤波器支持的采样率。

示例性地，当参考音频数据的通道数和第一端音频数据的通道数与线性自适应滤波器支持的通道数不匹配时，将参考音频数据的通道数和第一端音频数据的通道数调整至线性自适应滤波器支持的通道数。

示例性地，当线性自适应滤波器支持各通道的音频数据交织，而参考音频数据非交织，第一端音频数据非交织时，将参考音频数据和第一端音频数据转化为交织。

可选地，终端将参考音频数据和第一端音频数据输入线性自适应滤波器，输出修正音频数据之后，修正音频数据中可能还包括音频播放设备播放的音频，因此，可以对修正音频数据进一步进行回声消除。本申请实施例中采用以下方式：

终端在确定第一端音频数据相较于修正音频数据的衰减值大于预设阈值时，将修正音频数据替换为舒适噪声。由于当第一端音频数据相较于修正音频数据的衰减值大于预设阈值时，说明第一端音频数据中大部分数据为音频播放设备播放的音频，第一端用户的语音所占比例很小，那么可以直接删除该第一端音频数据，同时添加舒适噪声，避免出现听感起伏的情况。

可选地，在上述步骤S204，终端将修正音频数据发送至第二端用户终端之前，可以先对修正音频数据进行增益处理，然后再将增益后的修正音频数据发送至第二端用户终端。由于终端采用参考音频数据消除第一端音频数据中音频播放设备播放的音频，确定修正音频数据之后，修正音频的功率相应被削弱，故对修正音频数据进行增益处理，提高第二端用户终端接收的音频的功率，从而提高第一端用户与第二端用户的通话效果。

为了更好的解释本申请实施例，下面结合具体的实施场景描述本申请实施例提供的一种回声消除方法，设定第一端用户终端为近端用户终端，第二端用户终端为远端用户终端。第一端用户终端通过麦克风采集第一端语音数据，第一端用户终端上的音频播放设备为扬声器，第一端用户终端上播放器播放视频，同时第一端用户通过第一端用户终端与第二端用户进行通话。如图3所示，第一端用户终端通过硬件芯片接口采集扬声器上待播放的音频数据作为参考音频数据，扬声器上待播放的音频数据包括播放器播放的音频、第二端用户的语音。麦克风采集扬声器中播放的音频作为第一端音频数据，扬声器上播放的音频包括播放器上播放的音频以及第二端用户的语音。将第一端音频数据和参考音频数据输入线性自适应滤波器，线性自适应滤波器根据参考音频数据估计回声音频，该回声音频非常逼近扬声器上播放的音频，然后采用第一端音频数据减去回声音频，输出修正音频数据。之后再判断第一端音频数据相较于修正音频数据的衰减值是否大于预设阈值，若是，则将修正音频数据替换为舒适噪声，否则将修正音频数据进行增益处理后发送至第二端用户终端。

由于第一端用户终端预先缓存音频播放设备上待播放的音频数据作为参考音频数据，故在音频播放设备上播放音频时，第一端用户终端采集音频播放设备上播放的音频以及在播放音频期间第一端用户的语音，采用参考音频数据消除第一端音频数据中音频播放设备上播放的音频，留下第一端用户的语音，避免音频播放设备上播放的音频对第一端用户的语音进行干扰，从而提高第一端用户与第二端用户的通话质量。其次，采用线性自适应滤波器拟合参考音频数据对应的回声音频，使得回声音频更接近音频播放设备播放的音频，故采用回声音频抵消第一端音频数据中音频播放设备播放的音频时，消除回声的效果更好。另外，将修正音频数据进行增益处理后发送至第二端用户终端，提高了修正音频的功率，提高了第二端用户听到的语音效果。

基于相同的技术构思，本申请实施例提供了一种终端，如图4所示，该终端400包括：

采集模块401，用于采集第一端音频数据，所述第一端音频数据包括第一端用户的语音以及所述终端上的音频播放设备播放的音频；

查询模块402，用于从缓存区中查询所述第一端音频数据对应的参考音频数据，所述缓存区缓存所述音频播放设备上的音频数据作为参考音频数据；

处理模块403，用于采用所述参考音频数据消除所述第一端音频数据中所述音频播放设备播放的音频，确定修正音频数据；

发送模块404，用于将所述修正音频数据发送至第二端用户终端。

可选地，所述查询模块402具体用于：

可选地，还包括增益模块405；

所述增益模块405具体用于：

可选地，所述处理模块403具体用于：

可选地，所述处理模块403还用于：

基于相同的技术构思，本申请实施例提供了一种终端设备，如图5所示，包括至少一个处理器501，以及与至少一个处理器连接的存储器502，本申请实施例中不限定处理器501与存储器502之间的具体连接介质，图5中处理器501和存储器502之间通过总线连接为例。总线可以分为地址总线、数据总线和控制总线等。

在本申请实施例中，存储器502存储有可被至少一个处理器501执行的指令，至少一个处理器501通过执行存储器502存储的指令，可以执行前述的回声消除方法中所包括的步骤。

其中，处理器501是终端设备的控制中心，可以利用各种接口和线路连接终端设备的各个部分，通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据，从而消除回声。可选的，处理器501可包括一个或多个处理单元，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。在一些实施例中，处理器501和存储器502可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器501可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器502作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于同一发明构思，本申请实施例还提供一种计算机可读存储介质，该可读存储介质存储有计算机指令，当该计算机指令在终端设备上运行时，使得终端设备执行如前述的回声消除方法的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

一种回声消除方法，其特征在于，包括：

终端采集第一端音频数据，所述第一端音频数据包括第一端用户的语音以及所述终端上的音频播放设备播放的音频；

所述终端从缓存区中查询所述第一端音频数据对应的参考音频数据，所述缓存区缓存所述音频播放设备上的音频数据作为参考音频数据；

所述终端采用所述参考音频数据消除所述第一端音频数据中所述音频播放设备播放的音频，确定修正音频数据；

所述终端将所述修正音频数据发送至第二端用户终端。
如权利要求1所述的方法，其特征在于，所述音频播放设备上的音频数据包括所述音频播放设备上待播放的音频数据。
如权利要求1所述的方法，其特征在于，所述终端从缓存区中查询所述第一端音频数据对应的参考音频数据，包括：

所述终端确定所述第一端音频数据与缓存区中每一个参考音频数据的相似度；

所述终端将与所述第一端音频数据的相似度最高的参考音频数据确定为所述第一端音频数据对应的参考音频数据。
如权利要求1至3任一所述的方法，其特征在于，所述终端将所述修正音频数据发送至第二端用户终端之前，还包括：

所述终端对所述修正音频数据进行增益处理。
如权利要求4所述的方法，其特征在于，所述终端采用所述参考音频数据消除所述第一端音频数据中所述音频播放设备播放的音频，确定修正音频数据，包括：

所述终端将所述参考音频数据和所述第一端音频数据输入线性自适应滤波器，所述线性自适应滤波器将所述第一端音频数据减去所述参考音频数据，输出所述修正音频数据。
如权利要求4所述的方法，其特征在于，所述终端采用所述参考音频数据消除所述第一端音频数据中所述音频播放设备播放的音频，确定修正音频数据，包括：

所述终端将所述参考音频数据和所述第一端音频数据输入线性自适应滤波器，所述线性自适应滤波器采用所述参考音频数据估计回声音频，将所述第一端音频数据减去所述回声音频，输出所述修正音频数据。
如权利要求5或6所述的方法，其特征在于，所述终端将所述参考音频数据和所述第一端音频数据输入线性自适应滤波器之前，还包括：

所述终端将所述参考音频数据的音频参数和所述第一端音频数据的音频参数调整至与所述线性自适应滤波器匹配的预设值。
如权利要求7所述的方法，其特征在于，还包括：

所述终端在确定所述第一端音频数据相较于所述修正音频数据的衰减值大于预设阈值时，将所述修正音频数据替换为舒适噪声。
一种终端，其特征在于，包括：

采集模块，用于采集第一端音频数据，所述第一端音频数据包括第一端用户的语音以及所述终端上的音频播放设备播放的音频；

查询模块，用于从缓存区中查询所述第一端音频数据对应的参考音频数据，所述缓存区缓存所述音频播放设备上的音频数据作为参考音频数据；

处理模块，用于采用所述参考音频数据消除所述第一端音频数据中所述音频播放设备播放的音频，确定修正音频数据；

发送模块，用于将所述修正音频数据发送至第二端用户终端。
如权利要求9所述的终端，其特征在于，所述音频播放设备上的音频数据包括所述音频播放设备上待播放的音频数据。
如权利要求9所述的终端，其特征在于，所述查询模块具体用于：

确定所述第一端音频数据与缓存区中每一个参考音频数据的相似度；

将与所述第一端音频数据的相似度最高的参考音频数据确定为所述第一端音频数据对应的参考音频数据。
如权利要求9至11任一所述的终端，其特征在于，还包括增益模块；

所述增益模块具体用于：

将所述修正音频数据发送至第二端用户终端之前，对所述修正音频数据进行增益处理。
如权利要求12所述的终端，其特征在于，所述处理模块具体用于：

将所述参考音频数据和所述第一端音频数据输入线性自适应滤波器，所述线性自适应滤波器将所述第一端音频数据减去所述参考音频数据，输出所述修正音频数据。
如权利要求12所述的终端，其特征在于，所述处理模块具体用于：

将所述参考音频数据和所述第一端音频数据输入线性自适应滤波器，所述线性自适应滤波器采用所述参考音频数据估计回声音频，将所述第一端音频数据减去所述回声音频，输出所述修正音频数据。
如权利要求13或14所述的终端，其特征在于，所述处理模块还用于：

将所述参考音频数据和所述第一端音频数据输入线性自适应滤波器之前，将所述参考音频数据的音频参数和所述第一端音频数据的音频参数调整至与所述线性自适应滤波器匹配的预设值。
如权利要求15所述的终端，其特征在于，所述处理模块还用于：

在确定所述第一端音频数据相较于所述修正音频数据的衰减值大于预设阈值时，将所述修正音频数据替换为舒适噪声。
一种终端设备，其特征在于，包括至少一个处理器、以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行权利要求1～8任一权利要求所述方法的步骤。
一种计算机可读介质，其特征在于，其存储有可由终端设备执行的计算机程序，当所述程序在终端设备上运行时，使得所述终端设备执行权利要求1～8任一所述方法的步骤。