WO2021057239A1

WO2021057239A1 - 语音数据的处理方法、装置、电子设备及可读存储介质

Info

Publication number: WO2021057239A1
Application number: PCT/CN2020/105034
Authority: WO
Inventors: 黄�俊; 王燕南
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-09-23
Filing date: 2020-07-28
Publication date: 2021-04-01
Also published as: EP3920183A1; US20220013133A1; JP7301154B2; CN110648680A; JP2022527527A; CN110648680B; EP3920183A4

Abstract

一种语音数据的处理方法、装置、电子设备及计算机可读存储介质。该方法包括：接收发送方发送的第一语音数据，并获取相应的语音增强参数（S101）；基于获取到的语音增强参数对第一语音数据进行语音增强处理，以得到第一语音增强数据，并基于第一语音增强数据确定第一语音增强参数（S102）；将第一语音增强数据发送至接收方，并采用第一语音增强参数对获取到的语音增强参数进行更新，得到更新后的语音增强参数，以用于当接收到发送方发送的第二语音数据，基于更新后的语音增强参数对第二语音数据进行语音增强处理（S103）。

Description

语音数据的处理方法、装置、电子设备及可读存储介质

本申请要求于2019年9月23日提交中国专利局、申请号为201910900060.1、名称为“语音数据的处理方法、装置、电子设备及可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网技术领域，具体而言，本申请涉及一种语音数据的处理方法、装置、电子设备及计算机可读存储介质。

背景

语音增强(Speech Enhancement)的本质是语音降噪，麦克风采集的语音通常是带有不同噪声的语音，语音增强的主要目的就是从带噪声的语音中恢复不带噪声的语音。通过语音增强可以有效抑制各种干扰信号，增强目标语音信号，不仅提高语音可懂度和话音质量，还有助于提高语音识别。

在对待处理的语音进行语音增强时，首先训练生成一个通用的降噪模型，然后针对不同发言人，利用各个发言人对应的语音数据对整个降噪模型或者模型中的某些层进行自适应训练，得到不同发言人分别对应的降噪模型并存储。在实际应用时，针对不同的发言人，获取对应的降噪模型，并采用降噪模型对该发言人的语音数据进行降噪处理。

技术内容

本申请实施例提供了一种语音数据的处理方法，该方法由服务器执行，包括：

接收发送方发送的第一语音数据，并获取相应的语音增强参数；

基于获取到的语音增强参数对所述第一语音数据进行语音增强处理，以得到第一语音增强数据，并基于所述第一语音数据确定第一语音增强参数；

将所述第一语音增强数据发送至接收方，并采用所述第一语音增强参数对获取到的语音增强参数进行更新，得到更新后的语音增强参数，以用于当接收到发送方发送的第二语音数据，基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理。

本申请实施例提供了一种语音数据的处理的装置，该装置包括：

接收模块，用于接收发送方发送的第一语音数据；

获取模块，用于获取相应的语音增强参数；

处理模块，用于基于获取到的语音增强参数对所述第一语音数据进行语音增强处理，以得到第一语音增强数据，并基于所述第一语音数据确定第一语音增强参数；

更新模块，用于采用所述第一语音增强参数对获取到的语音增强参数进行更新，得到更新后的语音增强参数，以用于当接收到发送方发送的第二语音数据，基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理；

发送模块，用于将所述第一语音增强数据发送至接收方。

本申请实施例还提供了一种电子设备，该电子设备包括：

处理器、存储器和总线；

所述总线，用于连接所述处理器和所述存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，可执行指令使处理器执行如本申请上述所示的语音数据的处理方法对应的操作。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本申请上述所示的语音数据的处理方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1A为本申请实施例提供的一种语音数据的处理方法所适用的系统架构图；

图1B为本申请一个实施例提供的一种语音数据的处理方法的流程示意图；

图2为本申请中LSTM模型的结构示意图；

图3为本申请中语音特征提取的逻辑步骤示意图；

图4为本申请又一实施例提供的一种语音数据的处理装置的结构示意图；

图5为本申请又一实施例提供的一种语音数据的处理的电子设备的结构示意图。

实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习或深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

如前所述，在对待处理的语音进行语音增强时，针对不同的发言人，需要获取改发言人对应的降噪模型，并采用降噪模型对该发言人的语音数据进行降噪处理。这样就需要将每个发言人对应的降噪模型都需要进行存储，存储量需求较高。

因此，本申请实施例提供了一种语音数据的处理方法、装置、电子设备和计算机可读存储介质，旨在解决相关技术中的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1A是本申请实施例提供的语音处理的方法所适用的系统架构图。参见图1A，该系统架构图包括：服务器11、网络12以及终端设备13和14，其中服务器11通过网络12与终端设备13、终端设备14建立连接。

在本申请的一些实例中，服务器11是在接收到发送方发送的语音数据后，对接收到的语音数据进行处理的后台服务器。服务器11与终端设备13、终端设备14一起为用户提供服务，例如，服务器11对发送方对应的终端设备13(也可以是终端设备14)发送的语音数据进行处理之后，将得到的语音增强数据发送到接收方对应的终端设备14(也可以是终端设备13)以使其提供给用户，其中，服务器11可以是单独的服务器也可以是多个服务器组成的集群服务器。

网络12可以包括有线网络和无线网络。如图1A所示，在接入网一侧，终端设备13和终端设备14可以通过无线的方式或者有线的方式接入到网络12；而在核心网一侧，服务器11一般是通过有线方式连接到网络12的。当然，上述服务器11也可以通过无线方式连接到网络12。

上述终端设备13和终端设备14可以是指具有数据计算处理功能的智能设备，例如可以播放服务器提供的处理后的语音增强数据。终端设备13和终端设备14包括但不限于(安装有通信模块的)智能手机、掌上电脑、平板电脑等。终端设备13和终端设备14上分别安装有操作系统，包括但不限于：Android操作系统、Symbian操作系统、Windows mobile操作系统、以及苹果iPhone OS操作系统等等。

基于图1A所示的系统架构图，本申请实施例提供了一种语音数据的处理方法，该处理方法由图1A中的服务器11执行。如图1B所示，该方法包括：

步骤S101，当接收到发送方发送的第一语音数据，获取相应的语音增强参数。

在一些实施例中，在获取相应的语音增强参数的过程中，获取预先存储的与所述发送方对应的语音增强参数；若未获取到与所述发送方对应的语音增强参数，则获取预先设置的语音增强参数。

在实际应用中，本申请实话例可以应用于基于网络的语音通讯的应用场景中，比如电话会议、视频会议等。其中，发送方可以是发送语音数据的一方，比如，用户A通过终端设备13进行发言，那么终端设备13就可以是发送方，用户A的发言内容就可以是第一语音数据，第一语音数据通过网络传输到服务器，服务器在接收到第一语音数据后，就可以获取相应的语音增强参数，进而对第一语音数据进行语音增强处理。其中，服务器中可以运行LSTM(Long-Short Term Memory，长短期记忆)模型，该模型可以用于对语音数据进行语音增强处理。

步骤S102，基于获取到的语音增强参数对所述语音数据进行语音增强处理，以得到第一语音增强数据，并基于所述第一语音数据确定第一语音增强参数；

在一些实施例中，若未获取到与所述发送方对应的语音增强参数，基于所述预先设置的语音增强参数对所述第一语音数据进行语音增强处理，以得到第一语音增强数据。

在一些实施例中，若获取到与所述发送方对应的语音增强参数，基于与所述发送方对应的语音增强参数对所述第一语音数据进行语音增强处理以得到第一语音增强数据。

在实际应用中，如果未获取到发送方对应的语音增强参数，那么就基于预设置的语音增强参数对第一语音数据进行语音增强处理；如果获取到与所述发送方对应的语音增强参数，那么就基于与所述发送方对应的语音增强参数对所述第一语音数据进行语音增强处理。

在一些实施例中，若未获取到与所述发送方对应的语音增强参数，所述基于所述预先设置的语音增强参数对所述第一语音数据进行语音增强处理，以得到第一语音增强数据以及所述基于所述第一语音数据确定第一语音增强参数，包括：通过训练后的语音增强模型，对所述第一语音数据进行特征序列处理，得到第一语音特征序列，所述语音增强模型设置有所述预设置的语音增强参数；采用所述预设置的语音增强参数对所述第一语音特征序列进行批处理计算，得到处理后的第一语音特征序列和所述第一语音增强参数；对所述处理后的第一语音特征序列进行特征逆变换处理，得到所述第一语音增强数据。

在一些实施例中，若获取到与所述发送方对应的语音增强参数，所述基于与所述发送方对应的语音增强参数对所述第一语音数据进行语音增强处理以得到第一语音增强数据，以及所述基于所述第一语音数据确定第一语音增强参数，包括：通过训练后的语音增强模型，对所述第一语音数据进行特征序列处理，得到第二语音特征序列；采用与所述发送方对应的语音增强参数对所述第二语音特征序列进行批处理计算，得到处理后的第二语音特征序列和第二语音增强参数；对所述处理后的第二语音特征序列进行特征逆变换处理，得到处理后第二语音增强数据，并将所述处理后的第二语音增强数据作为所述第一语音增强数据。

步骤S103，将所述第一语音增强数据发送至接收方，并采用所述第一语音增强参数对获取到的语音增强参数进行更新，得到更新后的语音增强参数，以用于当接收到发送方发送的第二语音数据，基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理。

在一些实施例中，若未获取到与所述发送方对应的语音增强参数，基于所述第一语音增强参数对获取的预先设置的语音增强参数进行更新，得到更新后的语音增强参数，并将所述第一语音增强参数作为与所述发送方对应的语音增强参数。

在一些实施例中，若获取到与所述发送方对应的语音增强参数，所采用所述第一语音增强参数对与所述发送方对应的语音增强参数进行更新，得到更新后的语音增强参数。

具体而言，在基于第一语音数据确定了第一语音增强参数之后，如果存储容器中没有发送方对应的语音增强参数，那么就可以将第一语音增强参数作为发送方对应的语音增强参数并保存在存储容器中；如果存储容器中已经保存了发送方对应的语音增强参数，那么就可以将第一语音增强参数替换已保存的语音增强参数。同时，服务器将经过语音增强处理得到的第一语音增强数据发送至接收方，接收方接收到第一语音增强数据后进行播放即可。

在一些实施例中，所述训练后的语音增强模型通过如下方式生成：获取包含噪声的第一语音样本数据，并对所述第一语音样本数据进行语音特征提取，得到第一语音特征序列；获取不包含噪声的第二语音样本数据，并对所述第二语音样本数据进行语音特征提取，得到第二语音特征序列；采用所述第一语音特征序列对预设的语音增强模型进行训练，得到训练后的语音增强模型所输出的第一语音特征序列，并计算所述训练所述语音增强模型得到的第一语音特征序列与所述第二语音特征序列的相似度，直至所述训练所述语音增强模型得到的第一语音特征序列与所述第二语音特征序列的相似度超过预设相似度阈值，得到训练后的语音增强模型。

在一些实施例中，语音特征序列提取的方式，包括：对语音样本数据进行语音分帧和加窗处理，得到所述语音样本数据的至少两个语音帧；对各个语音帧分别进行快速傅里叶变换，得到各个语音帧分别对应的各个离散功率谱；对各个离散功率谱分别进行对数计算，得到各个语音帧分别对应的各个对数功率谱，并将各个对数功率谱作为所述语音样本数据的语音特征序列。

在本申请实施例中，当接收到发送方发送的第一语音数据，获取相应的语音增强参数，然后基于获取到的语音增强参数对所述第一语音数据进行语音增强处理，得到第一语音增强数据，并基于所述第一语音数据确定第一语音增强参数，再采用所述第一语音增强参数对获取到的语音增强参数进行更新，得到更新后的语音增强参数，以用于当接收到发送方发送的第二语音数据，基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理，并将所述第一语音增强数据发送至接收方。这样，服务器可以基于发送方对应的语音增强参数对发送方的语音数据进行语音增强处理，因为不同的发送方对应的语音增强参数是不同的，所以，针对不同发送方进行语音增强处理得到的语音增强效果也是不同的，实现了在不需要多个模型的情况下，语音增强不仅依然具有针对性，而且存储语音增强参数即可，不需要存储多个模型，存储量需求较低。

本申请实施例对如图1B所示的一种语音数据的处理方法进行详细说明。

步骤S101，当接收到发送方发送的第一语音数据，获取相应的语音增强参数；

在实际应用中，本申请实话例可以应用于基于网络的语音通讯的应用场景中，比如电话会议、视频会议等。其中，发送方可以是发送语音数据的一方，比如，用户A通过终端设备13进行发言，那么终端设备13就可以是发送方，用户A的发言内容就可以是第一语音数据，第一语音数据通过网络传输到服务器，服务器在接收到第一语音数据后，就可以获取相应的语音增强参数，进而对第一语音数据进行语音增强处理。

其中，服务器中可以运行LSTM(Long-Short Term Memory，长短期记忆)模型，该模型可以用于对语音数据进行语音增强处理。

语音增强(Speech Enhancement)的本质是语音降噪，麦克风采集的语音通常是带有不同噪声的语音，语音增强的主要目的就是从带噪声的语音中恢复不带噪声的语音。通过语音增强可以有效抑制各种干扰信号，增强目标语音信号，不仅可以提高语音可懂度和语音质量，还有助于提高语音识别。

LSTM模型的基本结构可以如图2所示，包括前端LSTM层、批处理层，以及后端LSTM层；其中，X为语音数据中的每一帧语音，t为时间窗口。

所谓一帧语音，指的是语音信号中的一个短段。具体的，语音信号在宏观上是不平稳的，在微观上是平稳的，具有短时平稳性(10～30ms内可以认为语音信号近似不变)，这个就可以把语音信号分为一些短段来进行处理，每一个短段称为一帧。比如，某段1S的语音中，一帧语音的长度为10ms，那么该段语音就包括100帧。

LSTM模型在处理语音数据时，前端LSTM层、批处理层，以及后端LSTM层会同时对不同时间窗口的语音帧进行计算，其中批处理层用于计算语音数据对应的语音增强参数，比如均值和方差。

进一步，在本申请实施例中，终端设备13和终端设备14还可以具有如下特点：

(1)在硬件体系上，设备具备中央处理器、存储器、输入部件和输出部件，也就是说，设备往往是具备通信功能的微型计算机设备。另外，还可以具有多种输入方式，诸如键盘、鼠标、触摸屏、送话器和摄像头等，并可以根据需要进行调整输入。同时，设备往往具有多种输出方式，如受话器、显示屏等，也可以根据需要进行调整；

(2)在软件体系上，设备必须具备操作系统，如Windows Mobile、Symbian、Palm、Android、iOS等。同时，这些操作系统越来越开放，基于这些开放的操作系统平台开发的个性化应用程序层出不穷，如通信簿、日程表、记事本、计算器以及各类游戏等，极大程度地满足了个性化用户的需求；

(3)在通信能力上，设备具有灵活的接入方式和高带宽通信性能，并且能根据所选择的业务和所处的环境，自动调整所选的通信方式，从而方便用户使用。设备可以支持GSM(Global System for Mobile Communication，全球移动通信系统)、WCDMA(Wideband Code Division Multiple Access，宽带码分多址)、CDMA2000(Code Division Multiple Access，码分多址)、TDSCDMA(Time Division-Synchronous Code Division Multiple Access，时分同步码分多址)、Wi-Fi(Wireless-Fidelity，无线保真)以及WiMAX(Worldwide Interoperability for Microwave Access，全球微波互联接入)等，从而适应多种制式网络，不仅支持语音业务，更支持多种无线数据业务；

(4)在功能使用上，设备更加注重人性化、个性化和多功能化。随着计算机技术的发展，设备从“以设备为中心”的模式进入“以人为中心”的模式，集成了嵌入式计算、控制技术、人工智能技术以及生物认证技术等，充分体现了以人为本的宗旨。由于软件技术的发展，设备可以根据个人需求调整设置，更加个性化。同时，设备本身集成了众多软件和硬件，功能也越来越强大。

在本申请一种优选实施例中，所述获取相应的语音增强参数，包括：

获取与所述发送方对应的语音增强参数；

若未获取到与所述发送方对应的语音增强参数，则获取预设置的语音增强参数；

具体而言，服务器接收到第一语音数据之后，可以采用训练后的LSTM模型对第一语音数据进行语音增强处理。训练后的LSTM模型是一个通用模型，具有预设置的语音增强参数，也就是训练后的LSTM模型中的语音增强参数，训练后的LSTM模型可以对任何用户的语音数据进行语音增强处理。

在本申请实施例中，为了对不同的用户提供针对性的语音增强，可以采用用户的语音数据对训练后的LSTM模型进行训练，得到该用户的语音增强参数，这样，在对该用户的语音数据进行语音增强处理时，就可以采用该用户的语音增强参数对该用户的语音数据进行语音增强处理。

比如，采用用户A的语音数据对训练后的LSTM模型进行训练，得到用户A的语音增强参数。在对用户A后续的语音数据进行语音增强处理时，训练后的LSTM模型就可以使用用户A的语音增强参数进行语音增强处理。

因此，服务器在接收到用户的第一语音数据时，可以先获取该用户的语音增强参数。在本申请实施例中，各个用户对应的语音增强参数可以存储在服务器的存储容器中，也可以存储在其它设备的存储容器中，本申请实施例对此不作限制。

如果服务器没有获取到该用户的语音增强参数，那么就表示服务器是第一次接收到该用户的语音数据，此时获取预设置的语音增强参数即可。

步骤S102，基于获取到的语音增强参数对所述第一语音数据进行语音增强处理，以得到第一语音增强数据，并基于所述第一语音数据确定第一语音增强参数；

在本申请一种优选实施例中，若未获取到与所述发送方对应的语音增强参数，所述基于获取到的语音增强参数对所述第一语音数据进行语音增强处理，得到第一语音增强数据，并基于所述第一语音数据确定第一语音增强参数的步骤，包括：

通过训练后的语音增强模型，对所述第一语音数据进行特征序列处理，得到第一语音特征序列，所述语音增强模型设置有所述预设置的语音增强参数；

采用所述预设置的语音增强参数对所述第一语音特征序列进行批处理计算，得到处理后的第一语音特征序列；

对所述处理后的第一语音特征序列进行特征逆变换处理，得到所述第一语音增强数据，并基于第一语音数据确定第一语音增强参数。

具体而言，如果没有获取到发送方对应的语音增强参数，那么就可以将第一语音数据输入训练后的LSTM模型，训练后的LSTM模型对第一语音数据进行特征序列处理，得到第一语音数据对应的第一语音特征序列，其中，第一语音特征序列包括至少两个语音特征，然后采用预设置的语音增强参数对第一语音特征序列进行批处理计算，得到处理后的第一语音特征序列，再对处理后的第一语音特征序列进行特征逆变换处理，就可以得到第一语音增强数据了，也就是采用训练后的LSTM模型(通用模型)对第一语音数据进行语音增强处理。其中，批处理计算可以采用如下公式(1)和公式(2)：

μ _B为语音增强参数中的均值，

为语音增强参数中的方差，x _i为输入的语音特征，y _i为输出的语音增强后的语音特征，ε、γ、β分别为变量参数。

以及，采用第一语音数据对训练后的LSTM模型进行训练，得到第一语音增强参数，也就是与发送方对应的语音增强参数，然后进行存储。其中，对训练后的LSTM模型进行训练可以采用如下公式(3)和公式(4)：

μ _B为语音增强参数中的均值，

为语音增强参数中的方差，x _i为输入的语音特征，m为语音特征的数量。

需要说明的是，基于获取到的语音增强参数对所述第一语音数据进行语音增强处理，与基于所述第一语音数据确定第一语音增强参数的执行顺序可以是先后执行，也可以是并列执行等，在实际应用中可以根据实际需求进行调整，本申请实施例对执行顺序不作限制。

在本申请一种优选实施例中，若获取到与所述发送方对应的语音增强参数，所述基于获取到的语音增强参数对所述第一语音数据进行语音增强处理，得到第一语音增强数据，并基于所述第一语音数据确定第一语音增强参数的步骤，包括：

通过训练后的语音增强模型，对所述第一语音数据进行特征序列处理，得到第二语音特征序列；

采用所述语音增强参数对所述第二语音特征序列进行批处理计算，得到处理后的第二语音特征序列；

对所述处理后的第二语音特征序列进行特征逆变换处理，得到处理后第二语音增强数据，并将所述处理后的第二语音增强数据作为所述第一语音增强数据，并基于所述第一语音数据确定第二语音增强参数。

具体而言，如果获取到了发送方对应的语音增强参数，那么就可以将第一语音数据输入训练后的LSTM模型，训练后的LSTM模型对第一语音数据进行特征序列处理，得到第一语音数据对应的第二语音特征序列，其中，第二语音特征序列包括至少两个语音特征，然后采用与发送方对应的语音增强参数对第二语音特征序列进行批处理计算，得到处理后的第二语音特征序列，再对处理后的第二语音特征序列进行特征逆变换处理，就可以得到第二语音增强数据了，也就是将发送方对应的语音增强参数替换训练后的LSTM模型中的语音增强参数，然后采用更新后的LSTM模型对第二语音数据进行语音增强处理。其中，批处理计算也可以采用公式(1)和公式(2)，在此就不赘述了。

以及，采用第一语音数据对更新后的LSTM模型进行训练，得到第二语音增强参数，也就是与发送方对应的最新的语音增强参数，然后进行存储。其中，对更新后的LSTM模型进行训练也可以采用公式(3)和公式(4)，在此就不赘述了。

在本申请一种优选实施例中，所述训练后的语音增强模型通过如下方式生成：

获取包含噪声的第一语音样本数据，并对所述第一语音样本数据进行语音特征提取，得到第一语音特征；

获取不包含噪声的第二语音样本数据，并对所述第二语音样本数据进行语音特征提取，得到第二语音特征；

采用所述第一语音特征对预设的语音增强模型进行训练，得到训练后的第一语音特征；

计算所述训练后的第一语音特征与所述第二语音特征的相似度，直至所述训练后的第一语音特征与所述第二语音特征的相似度超过预设相似度阈值，得到训练后的语音增强模型。

具体而言，获取包含噪声的第一语音样本数据，并对第一语音样本数据进行语音特征提取，得到第一语音特征a，以及，获取不包含噪声的第二语音样本数据，并对第二语音样本数据进行语音特征提取，得到第二语音特征b，然后将语音特征a输入原始LSTM模型，将语音特征b作为训练目标，对原始LSTM模型进行单向训练，也就是单向调整LSTM模型中的所有参数，得到训练后的第一语音特征a'，其中，所有参数包括语音增强参数，再计算所述训练后的第一语音特征a'与所述第二语音特征b的相似度，直至训练后的第一语音特征a'与第二语音特征b的相似度超过预设相似度阈值，从而得到训练后的LSTM模型。

其中，相似度计算可以采用夹角余弦、皮尔森相关系数等相似度度量的方式，也可以采用欧氏距离、曼哈顿距离等距离度量的方式，当然，还可以采用其它的计算方式，具体的计算方式可以根据实际需求进行设置，本申请实施例对此不作限制。

在本申请一种优选实施例中，语音特征提取的方式，包括：

对语音样本数据进行语音分帧和加窗处理，得到所述语音样本数据的至少两个语音帧；

对各个语音帧分别进行快速傅里叶变换，得到各个语音帧分别对应的各个离散功率谱；

对各个离散功率谱分别进行对数计算，得到各个语音帧分别对应的各个对数功率谱，并将各个对数功率谱作为所述语音样本数据的语音特征。

具体而言，语音样本数据也就是语音信号，语音信号是时域信号，处理器无法直接对时域信号进行处理，所以需要对语音样本数据进行语音分帧和加窗处理，得到语音样本数据的至少两个语音帧，从而将时域信号转换为处理器可处理的频域信号，如图3所示，然后对每个语音帧分别进行FFT(Fast Fourier Transformation，快速傅里叶变换)，得到各个语音帧对应的离散功率谱，再对各个离散功率谱进行对数计算，得到各个语音帧分别对应的各个对数功率谱，从而得到了各个语音帧分别对应的语音特征，所有语音特征的集合就是该语音样本数据对应的语音特征序列。对语音特征序列进行特征逆变换处理，即可将频域的语音特征序列转换为时域的语音信号。

需要说明的是，对第一语音样本数据进行特征提取与对第二语音样本数据进行特征提取的方式是一样的，所以为了方便描述，本申请实施例将第一语音样本数据和第二语音样本数据统称为语音样本数据。

通常，通过训练得到发言人对应的降噪模型时，需要进行自适应训练，而自适应训练需要的数据量较大，所以自适应训练的时间较久、效率较低。

而在本申请实施例中，采用第一语音增强参数对获取到的语音增强参数进行更新，得到更新后的语音增强参数即可，这样，就不需要进行自适应训练了。

具体而言，在基于第一语音数据确定了第一语音增强参数之后，如果存储容器中没有发送方对应的语音增强参数，那么就可以将第一语音增强参数作为发送方对应的语音增强参数并保存在存储容器中；如果存储容器中已经保存了发送方对应的语音增强参数，那么就可以将第一语音增强参数替换已保存的语音增强参数。

当接收到发送方发送的第二语音数据，就可以基于第一语音增强参数，也就是更新后的语音增强参数对第二语音数据进行语音增强处理了。这样，服务器就可以基于发送方发送的最新的语音数据持续对训练后的LSTM模型进行单向训练，从而持续更新发送方对应的语音增强参数，使得语音增强参数与发送方的匹配度越来越高，针对发送方的语音增强效果也越来越好。

同时，服务器将经过语音增强处理得到的第一语音增强数据发送至接收方，接收方接收到第一语音增强数据后进行播放即可。

需要说明的是，服务器进行语音增强参数的更新与发送语音增强数据的执行顺序可以是先后顺序，也可以是并列顺序，在实际应用中可以根据实际需求进行设置，本申请实施例对此不作限制。

为方便理解，本申请实施例通过以下事例进行详细说明。

假设，用户A、用户B和用户C进行电话会议，服务器中正在运行训练后的LSTM模型，训练后的LSTM模型具有通用语音增强参数，且服务器中的存储容器或其它存储容器中均没有用户A的语音增强参数。

在这种情况下，当用户A完成第一句发言后，用户A对应的终端设备将第一句发言发送至服务器，服务器接收到用户A的第一句发言后，查找与用户A对应的语音增强参数，因为服务器中的存储容器或其它存储容器中都没有用户A的语音增强参数，所以无法获取到用户A的语音增强参数，因此获取训练后的LSTM模型的通用语音增强参数，并采用通用语音增强参数对第一句发言进行语音增强处理，得到增强后的第一句发言，并将增强后的第一句发言发送至用户B和用户C对应的终端设备，同时，采用第一句发言对训练后的LSTM模型进行单向训练，得到用户A的第一语音增强参数并进行存储。

当用户A完成第二句发言后，终端设备将第二句发言发送至服务器，服务器接收到用户A的第二句发言后，查找与用户A对应的语音增强参数，此次查找成功，获取用户A的第一语音增强参数，并将第一语音增强参数替换训练后的 LSTM模型中的通用语音增强参数，得到更新后的LSTM模型，然后采用更新后的LSTM模型对第二句发言进行语音增强处理，得到增强后的第二句发言，并将增强后的第二句发言发送至用户B和用户C对应的终端设备，同时，采用第二句发言对更新后的LSTM模型进行单向训练，得到用户A的第二语音增强参数，并将第二语音增强参数替换掉第一语音增强参数。针对后续发言的语音增强处理过程依此类推，在此就不赘述了。

进一步，服务器还可以基于发送方发送的最新的语音数据持续对训练后的LSTM模型进行单向训练，从而持续更新发送方对应的语音增强参数，使得语音增强参数与发送方的匹配度越来越高，针对发送方的语音增强效果也越来越好。同时，在持续单向训练的过程中，训练语音增强参数即可，不需要对整个训练后的LSTM模型或模型中的一整层进行训练，提高了训练的成本和速度。

图4为本申请又一实施例提供的一种语音数据的处理装置的结构示意图，如图4所示，本实施例的装置可以包括：

接收模块401，用于接收发送方发送的第一语音数据；

获取模块402，用于获取相应的语音增强参数；

处理模块403，用于基于获取到的语音增强参数对所述第一语音数据进行语音增强处理，以得到第一语音增强数据，并基于所述第一语音数据确定第一语音增强参数；

更新模块404，用于采用所述第一语音增强参数对获取到的语音增强参数进行更新，得到更新后的语音增强参数，以用于当接收到发送方发送的第二语音数据，基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理；

发送模块405，用于将所述第一语音增强数据发送至接收方。

在本申请一种优选实施例中，所述获取模块具体用于：

获取预先存储的与所述发送方对应的语音增强参数；若未获取到与所述发送方对应的语音增强参数，则获取预先设置的语音增强参数

。

在一些实施例中，若未获取到与所述发送方对应的语音增强参数，所述更新模块，还用于基于所述第一语音增强参数对获取的预先设置的语音增强参数进行更新，得到更新后的语音增强参数，并将所述第一语音增强参数作为与所述发送方对应的语音增强参数。

在一些实施例中，若获取到与所述发送方对应的语音增强参数，所述更新模块，还用于采用所述第一语音增强参数对与所述发送方对应的语音增强参数进行更新，得到更新后的语音增强参数。

在一些实施例中，若未获取到与所述发送方对应的语音增强参数，所述处理模块，还用于基于所述预先设置的语音增强参数对所述第一语音数据进行语音增强处理，以得到第一语音增强数据。

在本申请一些实施例中，所述处理模块包括：特征序列处理子模块、批处理计算子模块和特征逆变换处理子模块；

若未获取到与所述发送方对应的语音增强参数，特征序列处理子模块，用于通过训练后的语音增强模型，对所述第一语音数据进行特征序列处理，得到第一语音特征序列，所述语音增强模型设置有所述预设置的语音增强参数；

批处理计算子模块，用于采用所述预设置的语音增强参数对所述第一语音特征序列进行批处理计算，得到处理后的第一语音特征序列和所述第一语音增强参数；

特征逆变换处理子模块，用于对所述处理后的第一语音特征序列进行特征逆变换处理，得到所述第一语音增强数据。

在一些实施例中，若获取到与所述发送方对应的语音增强参数，所述处理模块，还用于基于与所述发送方对应的语音增强参数对所述第一语音数据进行语音增强处理以得到第一语音增强数据。

若获取到与所述发送方对应的语音增强参数，所述特征序列处理子模块，还用于通过训练后的语音增强模型，对所述第一语音数据进行特征序列处理，得到第二语音特征序列；

所述批处理计算子模块，还用于采用所述语音增强参数对所述第二语音特征序列进行批处理计算，得到处理后的第二语音特征序列和第二语音增强参数；

所述特征逆变换处理子模块，还用于对所述处理后的第二语音特征序列进行特征逆变换处理，得到处理后第二语音增强数据，并将所述处理后的第二语音增强数据作为所述第一语音增强数据。

获取包含噪声的第一语音样本数据，并对所述第一语音样本数据进行语音特征提取，得到第一语音特征序列；

获取不包含噪声的第二语音样本数据，并对所述第二语音样本数据进行语音特征提取，得到第二语音特征序列；

采用所述第一语音特征序列对预设的语音增强模型进行训练，得到训练后的语音增强模型所输出的第一语音特征序列；

计算所述训练所述语音增强模型得到的第一语音特征序列与所述第二语音特征序列的相似度，直至所述训练所述语音增强模型得到的第一语音特征序列与所述第二语音特征序列的相似度超过预设相似度阈值，得到训练后的语音增强模型。

在本申请一些优选实施例中，语音特征序列提取的方式，包括：

对各个离散功率谱分别进行对数计算，得到各个语音帧分别对应的各个对数功率谱，并将各个对数功率谱作为所述语音样本数据的语音特征序列。

本实施例的语音数据的处理装置可执行本申请第一个实施例所示的语音数据的处理方法，其实现原理相类似，此处不再赘述。

本申请的又一实施例中提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，可实现：在本申请实施例中，当接收到发送方发送的第一语音数据，获取相应的语音增强参数，然后基于获取到的语音增强参数对所述第一语音数据进行语音增强处理，以得到第一语音增强数据，并基于所述第一语音数据确定第一语音增强参数，再采用所述第一语音增强参数对获取到的语音增强参数进行更新，得到更新后的语音增强参数，以用于当接收到发送方发送的第二语音数据，基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理，并将所述第一语音增强数据发送至接收方。这样，服务器可以基于发送方对应的语音增强参数对发送方的语音数据进行语音增强处理，因为不同的发送方对应的语音增强参数是不同的，所以，针对不同发送方进行语音增强处理得到的语音增强效果也是不同的，实现了在不需要多个模型的情况下，语音增强不仅依然具有针对性，而且存储语音增强参数即可，不需要存储多个模型，存储量需求较低。

在一些实施例中提供了一种电子设备，如图5所示，图5所示的电子设备5000包括：处理器5001和存储器5003。其中，处理器5001和存储器5003相连，如通过总线5002相连。电子设备5000还可以包括收发器5004。需要说明的是，实际应用中收发器5004不限于一个，该电子设备5000的结构并不构成对本申请实施例的限定。

处理器5001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器5001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线5002可包括一通路，在上述组件之间传送信息。总线5002可以是PCI 总线或EISA总线等。总线5002可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器5003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器5003用于存储执行本申请方案的应用程序代码，并由处理器5001来控制执行。处理器5001用于执行存储器5003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

本申请的又一实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。在本申请实施例中，当接收到发送方发送的第一语音数据，获取相应的语音增强参数，然后基于获取到的语音增强参数对所述第一语音数据进行语音增强处理，得到第一语音增强数据，并基于所述第一语音数据确定第一语音增强参数，再采用所述第一语音增强参数对获取到的语音增强参数进行更新，得到更新后的语音增强参数，以用于当接收到发送方发送的第二语音数据，基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理，并将所述第一语音增强数据发送至接收方。这样，服务器可以基于发送方对应的语音增强参数对发送方的语音数据进行语音增强处理，因为不同的发送方对应的语音增强参数是不同的，所以，针对不同发送方进行语音增强处理得到的语音增强效果也是不同的，实现了在不需要多个模型的情况下，语音增强不仅依然具有针对性，而且存储语音增强参数即可，不需要存储多个模型，存储量需求较低。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

一种语音数据的处理方法，由服务器执行，包括：

接收发送方发送的第一语音数据，并获取相应的语音增强参数；

基于获取到的语音增强参数对所述第一语音数据进行语音增强处理，以得到第一语音增强数据，并基于所述第一语音数据确定第一语音增强参数；

将所述第一语音增强数据发送至接收方，并采用所述第一语音增强参数对获取到的语音增强参数进行更新，得到更新后的语音增强参数，以用于当接收到发送方发送的第二语音数据，基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理。
根据权利要求1所述的语音数据的处理方法，其中，所述获取相应的语音增强参数，包括：

获取预先存储的与所述发送方对应的语音增强参数；

若未获取到与所述发送方对应的语音增强参数，则获取预先设置的语音增强参数。
根据权利要求2所述的语音数据的处理方法，其中，若未获取到与所述发送方对应的语音增强参数，所述采用所述第一语音增强参数对获取的语音增强参数进行更新，得到更新后的语音增强参数，包括：

基于所述第一语音增强参数对获取的预先设置的语音增强参数进行更新，得到更新后的语音增强参数，并将所述第一语音增强参数作为与所述发送方对应的语音增强参数。
根据权利要求2所述的语音数据的处理方法，其中，若获取到与所述发送方对应的语音增强参数，所述采用所述第一语音增强参数对获取的语音增强参数进行更新，得到更新后的语音增强参数，包括：

采用所述第一语音增强参数对与所述发送方对应的语音增强参数进行更新，得到更新后的语音增强参数。
根据权利要求2所述的语音数据的处理方法，其中，若未获取到与所述发送方对应的语音增强参数，所述基于获取到的语音增强参数对所述第一语音数据进行语音增强处理，以得到第一语音增强数据，包括：

基于所述预先设置的语音增强参数对所述第一语音数据进行语音增强处理，以得到第一语音增强数据。
根据权利要求5所述的语音数据的处理方法，其中，若未获取到与所述发送方对应的语音增强参数，所述基于所述预先设置的语音增强参数对所述第一语音数据进行语音增强处理，以得到第一语音增强数据以及所述基于所述第一语音数据确定第一语音增强参数，包括：

通过训练后的语音增强模型，对所述第一语音数据进行特征序列处理，得到第一语音特征序列，所述语音增强模型设置有所述预设置的语音增强参数；

采用所述预设置的语音增强参数对所述第一语音特征序列进行批处理计算，得到处理后的第一语音特征序列和所述第一语音增强参数；

对所述处理后的第一语音特征序列进行特征逆变换处理，得到所述第一语音增强数据。
根据权利要求2所述的语音数据的处理方法，其中，若获取到与所述发送方对应的语音增强参数，所述基于获取到的语音增强参数对所述第一语音数据进行语音增强处理，以得到第一语音增强数据，包括：

基于与所述发送方对应的语音增强参数对所述第一语音数据进行语音增强处理以得到第一语音增强数据。
根据权利要求7所述的语音数据的处理方法，其中，若获取到与所述发送方对应的语音增强参数，所述基于与所述发送方对应的语音增强参数对所述第一语音数据进行语音增强处理以得到第一语音增强数据，以及所述基于所述第一语音数据确定第一语音增强参数，包括：

通过训练后的语音增强模型，对所述第一语音数据进行特征序列处理，得到第二语音特征序列；

采用与所述发送方对应的语音增强参数对所述第二语音特征序列进行批处理计算，得到处理后的第二语音特征序列和第二语音增强参数；

对所述处理后的第二语音特征序列进行特征逆变换处理，得到处理后第二语音增强数据，并将所述处理后的第二语音增强数据作为所述第一语音增强数据。
根据权利要求6或8所述的语音数据的处理方法，其中，所述训练后的语音增强模型通过如下方式生成：

获取包含噪声的第一语音样本数据，并对所述第一语音样本数据进行语音特征提取，得到第一语音特征序列；

获取不包含噪声的第二语音样本数据，并对所述第二语音样本数据进行语音特征提取，得到第二语音特征序列；

采用所述第一语音特征序列对预设的语音增强模型进行训练，得到训练后的语音增强模型所输出的第一语音特征序列，并计算所述训练所述语音增强模型得到的第一语音特征序列与所述第二语音特征序列的相似度，直至所述训练所述语音增强模型得到的第一语音特征序列与所述第二语音特征序列的相似度超过预设相似度阈值，得到训练后的语音增强模型。
根据权利要求9所述的语音数据的处理方法，其中，语音特征序列提取的方式，包括：

对语音样本数据进行语音分帧和加窗处理，得到所述语音样本数据的至少两个语音帧；

对各个语音帧分别进行快速傅里叶变换，得到各个语音帧分别对应的各个离散功率谱；

对各个离散功率谱分别进行对数计算，得到各个语音帧分别对应的各个对数功率谱，并将各个对数功率谱作为所述语音样本数据的语音特征序列。
一种语音数据的处理装置，包括：

接收模块，用于接收发送方发送的第一语音数据；

获取模块，用于获取相应的语音增强参数；

处理模块，用于基于获取到的语音增强参数对所述第一语音数据进行语音增强处理，以得到第一语音增强数据，并基于所述第一语音数据确定第一语音增强参数；

更新模块，用于采用所述第一语音增强参数对获取到的语音增强参数进行更新，得到更新后的语音增强参数，以用于当接收到发送方发送的第二语音数据，基于所述更新后的语音增强参数对所述第二语音数据进行语音增强处理；

发送模块，用于将所述第一语音增强数据发送至接收方。
根据权利要求11所述的装置，其中，所述获取模块，还用于获取预先存储的与所述发送方对应的语音增强参数；若未获取到与所述发送方对应的语音增强参数，则获取预先设置的语音增强参数。
根据权利要求12所述的装置，其中，若未获取到与所述发送方对应的语音增强参数，所述更新模块，还用于基于所述第一语音增强参数对获取的预先设置的语音增强参数进行更新，得到更新后的语音增强参数，并将所述第一语音增强参数作为与所述发送方对应的语音增强参数。
根据权利要求12所述的装置，其中，若获取到与所述发送方对应的语音增强参数，所述更新模块，还用于采用所述第一语音增强参数对与所述发送方对应的语音增强参数进行更新，得到更新后的语音增强参数。
根据权利要求12所述的装置，其中，若未获取到与所述发送方对应的语音增强参数，所述处理模块，还用于基于所述预先设置的语音增强参数对所述第一语音数据进行语音增强处理，以得到第一语音增强数据。
根据权利要求15所述的装置，其中，所述处理模块包括特征序列处理子模块、批处理计算子模块和特征逆变换处理子模块；

若未获取到与所述发送方对应的语音增强参数，所述特征序列处理子模块，用于通过训练后的语音增强模型，对所述第一语音数据进行特征序列处理，得到第一语音特征序列，所述语音增强模型设置有所述预设置的语音增强参数；

所述批处理计算子模块，用于采用所述预设置的语音增强参数对所述第一语音特征序列进行批处理计算，得到处理后的第一语音特征序列和所述第一语音增强参数；

所述特征逆变换处理子模块，用于对所述处理后的第一语音特征序列进行特征逆变换处理，得到所述第一语音增强数据。
根据权利要求12所述的装置，其中，若获取到与所述发送方对应的语音增强参数，所述处理模块，还用于基于与所述发送方对应的语音增强参数对所述第一语音数据进行语音增强处理以得到第一语音增强数据。
根据权利要求17所述的装置，其中，所述处理模块包括特征序列处理子模块、批处理计算子模块和特征逆变换处理子模块；

若获取到与所述发送方对应的语音增强参数，所述特征序列处理子模块，用于通过训练后的语音增强模型，对所述第一语音数据进行特征序列处理，得到第二语音特征序列；

所述批处理计算子模块，用于采用所述发送方对应的语音增强参数对所述第二语音特征序列进行批处理计算，得到处理后的第二语音特征序列和第二语音增强参数；

所述特征逆变换处理子模块，用于对所述处理后的第二语音特征序列进行特征逆变换处理，得到处理后第二语音增强数据，并将所述处理后的第二语音增强数据作为所述第一语音增强数据。
一种电子设备，其包括：

处理器、存储器和总线；

所述总线，用于连接所述处理器和所述存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，执行上述权利要求1-10中任一项所述的语音数据的处理方法。
一种计算机可读存储介质，所述计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行上述权利要求1-10中任一项所述的语音数据的处理方法。