WO2021042870A1

WO2021042870A1 - 语音处理的方法、装置、电子设备及计算机可读存储介质

Info

Publication number: WO2021042870A1
Application number: PCT/CN2020/101602
Authority: WO
Inventors: 王燕南; 黄�俊
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-09-05
Filing date: 2020-07-13
Publication date: 2021-03-11
Also published as: JP2022529641A; US11948552B2; US20240169975A1; US20210390946A1; EP3933829A4; CN110379412B; CN110379412A; EP3933829B1; EP3933829A1; JP7258182B2

Abstract

一种语音处理的方法、装置、电子设备及计算机可读存储介质，方法包括：获取待处理的语音信息（S101）；根据待处理的语音信息，确定第一语音特征和第一文本瓶颈特征（S102）；根据第一语音特征和第一文本瓶颈特征，确定第一组合特征向量（S103）；将第一组合特征向量输入至训练后的单向长短期记忆模型，对第一组合特征向量进行语音处理，以得到降噪后的语音信息，并将降噪后的语音信息发送给其他电子设备以使其进行展示（S104）。

Description

语音处理的方法、装置、电子设备及计算机可读存储介质

本申请要求于2019年9月5日提交中国专利局、申请号为201910838192.6、名称为“语音处理的方法、装置、电子设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种语音处理的方法、装置、电子设备及计算机可读存储介质。

背景

在对带噪声的语音信息进行去噪的过程中，通常利用文本到语音(Text To Speech，TTS)中的文本信息的提取方法，提取相应的文本信息，再将其拼接在带噪语音的特征上送入降噪网络模型进行训练。

技术内容

本申请实施例提供了一种语音处理的方法，由电子设备执行，包括：

采集待处理的语音信息；

根据待处理的语音信息，确定第一语音特征和第一文本瓶颈特征；

根据第一语音特征和第一文本瓶颈特征，确定第一组合特征向量；

将第一组合特征向量输入至训练后的单向长短期记忆LSTM模型，对第一组合特征向量进行语音处理，以得到降噪后的语音信息，并将降噪后的所述语音信息发送给其他电子设备以使其进行播放。

在一些实施例中，根据待处理的语音信息，确定第一语音特征，包括：

将待处理的语音信息进行分帧处理和加窗处理，从进行分帧处理和加窗处理后的所述待处理的语音信息中提取所述第一语音特征；第一语音特征包括对数功率谱、梅尔频率倒谱系数MFCC特征中的至少一项。

在一些实施例中，根据待处理的语音信息，确定第一文本瓶颈特征，包括：

从待处理的语音信息中提取N维的滤波器组filter-bank特征和M维的基频pitch特征，其中，N和M都为正整数；

将N维的filter-bank特征和M维的pitch特征进行拼接，得到第二语音特征；

将第二语音特征输入至训练后的自动语音识别网络ASR网络，从训练后的ASR网络的瓶颈的线性层中提取第一文本瓶颈特征。

在一些实施例中，将第一组合特征向量输入至训练后的单向长短期记忆LSTM模型，对第一组合特征向量进行语音处理，得到处理后的语音信息，包括：

通过训练后的单向LSTM模型对第一组合特征向量进行语音增强处理；

对处理结果进行特征逆变换，对语音信息进行从频域到时域的转换，得到所述降噪后的语音信息。

在一些实施例中，对ASR网络进行训练的方式，包括：

训练步骤：通过混合高斯模型GMM，将语料中包括的文本标注与文本标注对应的音频文件对齐，得到第一文本特征，所述语料用于训练ASR网络；

从音频文件中提取N维的滤波器组filter-bank特征和M维的基频pitch特征；

将N维的filter-bank特征和M维的pitch特征进行拼接，得到第三语音特征；

将第三语音特征输入至ASR网络，对ASR网络进行训练，得到ASR网络的输出层输出的第二文本特征；

根据第一文本特征的值和第二文本特征的值，确定ASR网络的交叉熵CE的值；

重复执行训练步骤，当训练ASR网络所得到的ASR网络的交叉熵CE的值与上次训练ASR网络所得到的ASR网络的交叉熵CE的值之间的差值在第一阈值范围内，得到训练后的ASR网络。

在一些实施例中，对单向LSTM模型进行训练的方式，包括：

采集降噪训练语料中包括的带噪声语音和不带噪声语音；

从带噪声语音中提取第四语音特征和第二文本瓶颈特征，以及从不带噪声语音中提取第五语音特征；

将第四语音特征与第二文本瓶颈特征进行组合，得到第二组合特征向量；

将第二组合特征向量输入至单向LSTM模型，对单向LSTM模型进行训练，当单向LSTM模型输出的参考值与第五语音特征的值之间的最小均方误差小于等于第二阈值，得到训练后的单向LSTM模型。

在一些实施例中，ASR网络包括作为输入层的四层隐层的深度神经网络DNN、一层bottleneck的线性层和作为输出层的概率分布softmax层。

本申请实施例还提供了一种语音处理的装置，包括：

第一处理模块，用于采集待处理的语音信息；

第二处理模块，用于根据待处理的语音信息，确定第一语音特征和第一文本瓶颈特征；

第三处理模块，用于根据第一语音特征和第一文本瓶颈特征，确定第一组合特征向量；

第四处理模块，用于将第一组合特征向量输入至训练后的单向长短期记忆LSTM模型，对第一组合特征向量进行语音处理，以得到降噪后的语音信息，并将降噪后的所述语音信息发送给其他电子设备以使其进行播放。

本申请实施例还提供了一种电子设备，包括：处理器、存储器和总线；

总线，用于连接处理器和存储器；

存储器，用于存储操作指令；

处理器，用于通过调用操作指令，执行本申请实施例所述的语音处理的方法。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被用于执行本申请实施例所述的语音处理的方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1A为本申请实施例提供的一种语音处理的方法所适用的系统架构图；

图1B为本申请实施例提供的一种语音处理的方法的流程示意图；

图2为本申请实施例提供的ASR网络的示意图；

图3为本申请实施例提供的另一种语音处理的方法的流程示意图；

图4为本申请实施例提供的提取语音特征的示意图；

图5为本申请实施例提供的组合特征向量的示意图；

图6为本申请实施例提供会议系统的示意图；

图7为本申请实施例提供的一种语音处理的装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面详细描述本申请的实施例，该实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习或深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

为了更好的理解及说明本申请实施例的方案，下面对本申请实施例中所涉及到的一些技术用语进行简单说明。

神经网络：是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

深度神经网络：DNN(Deep Neural Networks，深度神经网络)是一种具备至少一个隐层，利用激活函数去线性化，使用交叉熵作损失函数，利用反向传播优化算法(例如，随机梯度下降算法、批量梯度下降算法)进行学习训练(调整并更新神经元之间的权重)的前馈神经网络。

自动语音识别：ASR(Automatic Speech Recognition，自动语音识别)技术的目标是让计算机能够听写出不同人所说出的连续语音，也就是俗称的语音听写机，是实现声音到文字转换的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。

梅尔频率倒谱系数：MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)考虑到了人类的听觉特征，先将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱中，然后转换到倒谱上。梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系；梅尔频率倒谱系数则是利用它们之间的这种关系，计算得到的Hz频谱特征，主要用于语音数据特征提取和降低运算维度。

概率分布softmax层：softmax层的输出是一系列相加和为1的正数，即从softmax层得到的输出可以看做是一个概率分布。softmax层将神经网络的输出变成了一个概率分布。

语音增强：指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术，从含噪语音中提取尽可能纯净的原始语音。

交叉熵：CE(Cross Entropy，交叉熵)可以看作通过概率分布q(x)表示概率分布p(x)的困难程度。交叉熵刻画的是两个概率分布q(x)和p(x)的距离，也就是说交叉熵值越小(相对熵的值越小)，两个概率分布q(x)和p(x)越接近。交叉熵损失函数经常用于分类问题中，特别是神经网络分类问题，由于交叉熵涉及到计算每个类别的概率，所以在神经网络中，交叉熵与softmax函数紧密相关。

长短期记忆LSTM：LSTM(Long Short-Term Memory)长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件；LSTM是解决循环神经网络RNN结构中存在的梯度消失问题而提出的，是一种特殊的循环神经网络。LSTM是一种含有LSTM区块(blocks)的一种类神经网络，LSTM区块可以是智能网络单元，LSTM区块可以记忆不定时间长度的数值，LSTM区块中有一个门gate能够决定输入input是否重要到能被记住及能不能被输出output。

混合高斯模型：高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。对图像背景建立高斯模型的原理及过程：图像灰度直方图反映的是图像中某个灰度值出现的频次，也可以以为是图像灰度概率密度的估计。GMM(Gaussian mixture model，混合高斯模型)使用K个高斯模型来表征图像中各个像素点的特征，K为正整数，在新一帧图像获得后更新混合高斯模型,用当前图像中的每个像素点与混合高斯模型匹配,如果成功则判定该点为背景点，否则为前景点。通观整个高斯模型，他主要是由方差和均值两个参数决定，对均值和方差的学习，采取不同的学习机制,将直接影响到模型的稳定性、精确性和收敛性。

利用文本到语音(Text To Speech，TTS)中的文本信息的提取方法来提取文本信息的过程中，提取文本信息的降噪网络模型，存在以下缺陷：测试时需要文本信息，在实际应用中难以应用；需要将文本信息与带噪语音特征做对齐，难以实现实时操作，并且对齐准确率会对降噪结果带来影响；要求训练的降噪语音有相应的文本标注，在实际中难以得到大量的训练语料。

基于此，本申请实施例提供了一种语音处理的方法。本申请实施例提供的技术方案涉及人工智能的语音技术，下面将结合附图，以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。

图1A是本申请实施例提供的语音处理的方法所适用的系统架构图。参见图1A，该系统架构图包括：服务器11、网络12以及用户终端13，其中服务器11通过网络12与用户终端13建立连接。

在本申请的一些实例中，服务器11是对待处理的语音信息进行处理的后台服务器。服务器11与用户终端13一起为用户提供服务，例如，服务器11在待处理的语音信息进行处理之后，将处理后的语音信息发送到用户终端13以提供给用户使用，其中，服务器11可以是单独的服务器也可以是多个服务器组成的集群服务器。

网络12可以包括有线网络和无线网络。如图1A所示，在接入网一侧，用户终端13可以通过无线的方式或者有线的方式接入到网络12；而在核心网一侧，服务器11一般是通过有线方式连接到网络12的。当然，上述服务器11也可以通过无线方式连接到网络12。

上述用户终端13可以是指具有数据计算处理功能的智能设备，例如可以播放服务器提供的处理后的语音信息，或者对待处理的语音信息进行处理后，直接播放处理后的语音信息或发送给其他用户终端以使其进行播放。用户终端13包括但不限于(安装有通信模块的)智能手机、掌上电脑、平板电脑等。用户终端13上安装有操作系统，包括但不限于：Android操作系统、Symbian操作系统、Windows mobile操作系统、以及苹果iPhone OS操作系统等等。

基于图1A所示的系统架构图，本申请实施例中提供了一种语音处理的方法，该语音处理的方法由电子设备执行，该电子设备可以是图1A中的服务器11，也可以是图1A中的用户终端13，该方法的流程示意图如图1B所示，该方法包括以下步骤：

S101，获取待处理的语音信息。

在一些实施例中，待处理的语音信息为会议系统的通话语音。

S102，根据待处理的语音信息，确定第一语音特征和第一文本瓶颈bottleneck特征。

在一些实施例中，第一语音特征可以是对数功率谱或MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)特征。

在一些实施例中，从瓶颈bottleneck的线性层中提取第一文本bottleneck特征。该瓶颈bottleneck的线性层即为瓶颈层，瓶颈层在多层感知机(multiplayer perceptron)中最中间的那一层，其神经元个数相对于其他层的神经元个数要少很多，因此，整个神经网络像是一个瓶颈，从瓶颈层提取的特征即为瓶颈特征。

S103，根据第一语音特征和第一文本bottleneck特征，确定第一组合特征向量。

在一些实施例中，将第一语音特征和第一文本bottleneck特征进行拼接，得到第一组合特征向量，第一组合特征向量的维度为第一语音特征每帧的维度与第一文本bottleneck特征的维度的和。

S104，将第一组合特征向量输入至训练后的单向长短期记忆LSTM模型，对第一组合特征向量进行语音处理，以得到降噪后的语音信息，并将降噪后的所述语音信息发送给其他电子设备以使其进行播放。

在一些实施例中，语音处理为语音增强(Speech Enhancement)，语音增强的本质是语音降噪，麦克风采集的语音通常是带有不同噪声的语音，语音增强的主要目的就是从带噪声的语音中恢复不带噪声的语音。通过语音增强可以有效抑制各种干扰信号，增强目标语音信号，不仅提高语音可懂度和话音质量，还有助于提高语音识别。

本申请实施例中，采集待处理的语音信息；根据待处理的语音信息，确定第一语音特征和第一文本瓶颈bottleneck特征；根据第一语音特征和第一文本bottleneck特征，确定第一组合特征向量；将第一组合特征向量输入至训练后的单向长短期记忆LSTM模型，对第一组合特征向量进行语音处理，得到处理后的语音信息。本申请实施例的方案，实现了基于第一文本瓶颈bottleneck特征进行语音处理，提高了语音降噪的效率和语音质量。

将待处理的语音信息进行分帧处理和加窗处理；从进行分帧处理和加窗处理后的所述待处理的语音信息中提取第一语音特征；第一语音特征包括对数功率谱、梅尔频率倒谱系数MFCC特征中的至少一项。

在一些实施例中，分帧处理是将待处理的语音信息包括的不定长的音频切分成固定长度的小段。需要分帧是因为后续的傅里叶变换适用于分析平稳的信号，而音频信号是变化迅速的；为了避免窗边界对信号的遗漏，因此对帧做偏移时候，帧间要有帧迭，帧与帧之间需要重叠一部分；通常的选择是帧长25ms，帧移为10ms，帧和帧之间的时间差常常取为10ms，这样帧与帧之间会有重叠。

在一些实施例中，傅里叶变换要求输入信号是平稳的，但是音频信号从整体上来讲是不平稳的，加窗处理是每帧信号通常要与一个平滑的窗函数相乘，让帧两端平滑地衰减到零，这样可以降低傅里叶变换后旁瓣的强度，取得更高质量的频谱。时域除了主瓣，还出现了不该出现的旁瓣，即频谱泄露，截断由窗函数来完成，实际的窗函数都存在着不同幅度的旁瓣，所以在卷积时，除了离散点的频率上有幅度分量外，在相邻的两个频率点之间也有不同程度的幅度。

在一些实施例中，根据待处理的语音信息，确定第一文本bottleneck特征，包括：

将第二语音特征输入至训练后的自动语音识别网络ASR网络，从训练后的ASR网络的瓶颈bottleneck的线性层中提取第一文本bottleneck特征。

在一些实施例中，从待处理的语音信息中提取40维的滤波器组filter-bank特征和3维的基频pitch特征，其中，N为40，M为3，pitch跟声音的基频fundamental frequency(F0)有关，反应的是音高的信息，即声调。一个滤波器组是一组滤波器，一组滤波器包括F个滤波器，F为正整数，对同一个信号进行滤波，输出F个同步的信号，可以给每个滤波器指定不同的响应函数、中心频率、增益、带宽；一个滤波器组中各个滤波器的频率按升序排列，各集中在不同的频率，且滤波器数量足够多，可以确定在不同时间的各个输出信号的短时能量，得到声谱图Spectrogram。

对处理结果进行特征逆变换，对语音信息进行从频域到时域的转换，得到处理后的语音信息。

本申请实施例中，使用与文本相关的LSTM模型，实现对第一组合特征向量进行语音处理，提高了语音降噪的性能。

在一些实施例中，对ASR网络进行训练的方式，包括：

训练步骤：通过混合高斯模型GMM，将训练ASR网络的语料中包括的文本标注与文本标注对应的音频文件对齐，得到第一文本特征；

在一些实施例中，ASR网络的输出层为softmax层，softmax层输出一个概率分布，实现损失函数，该损失函数为交叉熵，计算当前输出各个值的归一化值，最大的值设为1，其余值为0。损失函数用来刻画前向传播输出与期望值的拟合程度；经典分类损失函数为交叉熵，用于刻画网络输出概率分布与期望输出概率分布之间的距离(相似度)，分类问题使用的一种损失函数。

本申请实施例中，训练ASR的语料和降噪训练语料是分开的，不需要降噪语音有相应的文本标注，而训练ASR的语料容易得到；训练ASR网络时未利用到后向信息，所以可以实现实时处理。

在一些实施例中，对单向LSTM模型进行训练的方式，包括：

采集降噪训练语料中包括的带噪声语音和不带噪声语音；

从带噪声语音中提取第四语音特征和第二文本bottleneck特征，以及从不带噪声语音中提取第五语音特征；

将第四语音特征与第二文本bottleneck特征进行组合，得到第二组合特征向量；

在一些实施例中，如图2所示，ASR网络包括作为输入层的四层隐层的深度神经网络DNN、一层bottleneck的线性层和作为输出层的概率分布softmax层。x _t为ASR网络的输入，y _t为ASR网络的输出，其中，x _t作为ASR网络的第一隐层的输入，ASR网络的第一隐层的输出作为ASR网络的第二隐层的输入，ASR网络的第二隐层的输出作为ASR网络的第三隐层的输入，ASR网络的第三隐层的输出作为ASR网络的bottleneck的线性层的输入，ASR网络的bottleneck的线性层的输出作为ASR网络的ASR网络的第四隐层的输入，ASR网络的第四隐层的输出作为ASR网络的softmax层的输入，softmax层的输出为y _t。

本申请实施例中提供了另一种语音处理的方法，该语音处理的方法由电子设备执行，该电子设备可以是图1A中的服务器11，也可以是图1A中的用户终端13，该方法的流程示意图如图3所示，该方法包括以下步骤：

S201，获取包含噪声的语音，对采集到的语音进行分帧处理和加窗处理，提取语音特征。

需要说明的是，包含噪声的语音为待处理的语音信息，语音特征为第一语音特征。

在一些实施例中，提取的语音特征可以是对数功率谱或MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)特征。

在一些实施例中，如图4所示，先将语音进行分帧处理和加窗处理，然后每一帧分别进行FFT(Fast Fourier Transformation，快速傅里叶变换)，确定FFT之后的离散功率谱，对获得的离散功率谱求对数，得到对数功率谱，即可得到语音特征。

S202，从所采集的包含噪声的语音中，提取文本bottleneck特征。

需要说明的是，文本bottleneck特征为第一文本bottleneck特征。

在一些实施例中，从所采集的包含噪声的语音中提取40维的滤波器组filter-bank特征和3维的基频pitch特征；将40维的filter-bank特征和3维的pitch特征进行拼接，得到第二语音特征；将第二语音特征输入至训练后的自动语音识别网络ASR网络，从训练后的ASR网络的瓶颈bottleneck的线性层中提取文本bottleneck特征。

S203，将提取到的语音特征和文本bottleneck特征进行组合，得到组合特征向量。

需要说明的是，组合特征向量为第一组合特征向量。

在一些实施例中，将语音特征和文本bottleneck特征进行拼接，得到组合特征向量，组合特征向量的维度为语音特征每帧的维度与文本bottleneck特征的维度的和。如图5所示，语音特征每帧的维度为257，文本bottleneck特征的维度为100，组合特征向量的维度为语音特征每帧的维度与文本bottleneck特征的维度的和，即组合特征向量的维度为357。

S204，将组合特征向量输入至训练后的单向LSTM模型中，进行语音增强。

S205，通过训练后的单向LSTM模型之后，获得不带噪声的语音信号。

在一些实施例中，通过训练后的单向LSTM模型，对输入的组合后的特征向量进行语音增强处理，然后对单向LSTM模型的输出结果进行特征逆变换，实现单向LSTM模型的输出结果从频域到时域的转换，获得增强后的时域语音。

在一些实施例中，训练ASR的语料包括语音(带噪语音和/或干净语音)、文本；降噪训练语料包括带噪语音和干净语音(不带噪语音)。

本申请实施例中，不需要带噪语音的文本信息，实现了实时降噪；训练ASR 的语料和降噪训练语料是分开的，不需要降噪语音有相应的文本标注，而训练ASR的语料容易得到；训练ASR网络时未利用后向信息，所以可以实现实时处理。由于训练单向LSTM模型时，添加了文本特征作为输入，训练后所得的单向LSTM模型在实验结果上得到在静音段的噪声基本可以消除干净和对于人声段的噪声分量进行压制的正向结果，有效的提高了降噪性能。

为了更好的理解本申请实施例所提供的方法，下面结合具体应用场景的示例对本申请实施例的方案进行进一步详细说明。

如图6所示，在会议系统的语音通话场景中，会议双方通过终端的会议软件加入语音通话中，例如通过图1A所示的用户终端加入语音通话中，会议双方通过会议软件实现语音通话。在语音通话环节中，对语音的处理通过自动增益控制模块、音频编码模块、音频解码模块、回声消除模块、语音降噪模块和啸叫抑制模块等模块实现，其中，语音降噪模块是影响通话质量的一个重要模块。语音降噪模块首先训练一个通用的带有bottleneck的线性层的自动语音识别ASR网络，然后将说话人的带噪的语音输入至训练后的ASR网络的bottleneck的线性层，通过ASR网络的bottleneck的线性层来提取文本bottleneck特征。语音降噪模块将说话人的带噪的语音进行分帧处理和加窗处理，然后每一帧分别进行快速傅里叶变换FFT，确定FFT之后的离散功率谱，对获得的离散功率谱求对数，得到对数功率谱，对数功率谱为语音特征。语音降噪模块将提取的文本bottleneck特征与语音特征组合在一起，将组合特征向量输入训练后的单向长短期记忆LSTM模型，通过训练后的单向LSTM模型进行语音增强处理，将训练后的单向LSTM模型的输出进行特征逆变换，输出时域的不带噪声的说话人的语音。

语音降噪模块通过引入说话人的通话语音的文本bottleneck特征对降噪性能进行优化，从文本bottleneck特征可以有效的得到哪些语音帧是有效的，哪些是噪声需要消除的，从而保留更多的语音，使得降噪结果得到进一步提升，通话更加清楚，并且减少了之前误消除语音的问题。例如，开会的时候，说话人在说“现在开始开会”这句话的时候，语音识别网络ASR可以得到这段语音的文本内容，然后判断这段语音是有人在说话的，不能删除。通过训练后的ASR网络得到通话语音的文本bottleneck特征辅助降噪，进一步提高了降噪性能，整体体验更好；使得降噪带来的部分误消有效语音的问题得到极大改善，使得通话更加流畅，提升了通话质量。

基于相同的发明构思，本申请实施例还提供了一种语音处理的装置，该装置的结构示意图如图7所示，语音处理的装置60，包括第一处理模块601、第二处理模块602、第三处理模块603和第四处理模块604。

第一处理模块601，用于获取待处理的语音信息；

第二处理模块602，用于根据待处理的语音信息，确定第一语音特征和第一文本瓶颈bottleneck特征；

第三处理模块603，用于根据第一语音特征和第一文本bottleneck特征，确定第一组合特征向量；

第四处理模块604，用于将第一组合特征向量输入至训练后的单向长短期记忆LSTM模型，对第一组合特征向量进行语音处理，以得到降噪后的语音信息，并将降噪后的所述语音信息发送给其他电子设备以使其进行播放。

在一些实施例中，第二处理模块602，具体用于将待处理的语音信息进行分帧处理和加窗处理；从进行分帧处理和加窗处理后的所述待处理的语音信息中提取第一语音特征；第一语音特征包括对数功率谱、梅尔频率倒谱系数MFCC特征中的至少一项。

在一些实施例中，第二处理模块602，具体用于从待处理的语音信息中提取N维的滤波器组filter-bank特征和M维的基频pitch特征，其中，N和M都为正整数；将N维的filter-bank特征和M维的pitch特征进行拼接，得到第二语音特征；将第二语音特征输入至训练后的自动语音识别网络ASR网络，从训练后的ASR网络的瓶颈bottleneck的线性层中提取第一文本bottleneck特征。

在一些实施例中，第四处理模块604，具体用于通过训练后的单向LSTM模型对第一组合特征向量进行语音处理；对处理结果进行特征逆变换，对语音信息进行从频域到时域的转换，得到处理后的语音信息。

在一些实施例中，对ASR网络进行训练的方式，包括：

在一些实施例中，对单向LSTM模型进行训练的方式，包括：

采集降噪训练语料中包括的带噪声语音和不带噪声语音；

本申请实施例提供的语音处理的装置中未详述的内容，可参照上述实施例一提供的语音处理的方法，本申请实施例提供的语音处理的装置能够达到的有益效果与上述实施例一提供的语音处理的方法相同，在此不再赘述。

应用本申请实施例，至少具有如下有益效果：

采集待处理的语音信息；根据待处理的语音信息，确定第一语音特征和第一文本瓶颈bottleneck特征；根据第一语音特征和第一文本bottleneck特征，确定第一组合特征向量；将第一组合特征向量输入至训练后的单向长短期记忆LSTM模型，对第一组合特征向量进行语音处理，得到处理后的语音信息。本申请实施例的方案，实现了基于第一文本瓶颈bottleneck特征进行语音处理，提高了语音降噪的效率和语音质量。

基于相同的发明构思，本申请实施例还提供了一种电子设备，该电子设备的结构示意图如图8所示，该电子设备6000包括至少一个处理器6001、存储器6002和总线6003，至少一个处理器6001均与存储6002电连接；存储器6002被配置用于存储有至少一个计算机可执行指令，处理器6001被配置用于执行该至少一个计算机可执行指令，从而执行如本申请实施例一中任意一个实施例或任意一种可选实施方式提供的任意一种语音处理的方法的步骤。

进一步，处理器6001可以是FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其它具有逻辑处理能力的器件，如MCU(Microcontroller Unit，微控制单元)、CPU(Central Process Unit，中央处理器)。

应用本申请实施例，至少具有如下有益效果：

基于相同的发明构思，本申请实施例还提供了另一种计算机可读存储介质，存储有计算机程序，该计算机程序用于被处理器执行时实现本申请实施例一中任意一个实施例或任意一种可选实施方式提供的任意一种数据语音处理的步骤。

本申请实施例提供的计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读存储介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

应用本申请实施例，至少具有如下有益效果：

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，相关技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

一种语音处理的方法，由电子设备执行，包括：

获取待处理的语音信息；

根据所述待处理的语音信息，确定第一语音特征和第一文本瓶颈特征；

根据所述第一语音特征和所述第一文本瓶颈特征，确定第一组合特征向量；

将所述第一组合特征向量输入至训练后的单向长短期记忆LSTM模型，对所述第一组合特征向量进行语音处理，以得到降噪后的语音信息，并将降噪后的所述语音信息发送给其他电子设备以使其进行播放。
根据权利要求1所述的方法，其特征在于，所述根据所述待处理的语音信息，确定第一语音特征，包括：

将所述待处理的语音信息进行分帧处理和加窗处理；

从进行分帧处理和加窗处理后的所述待处理的语音信息中提取所述第一语音特征；所述第一语音特征包括对数功率谱、梅尔频率倒谱系数MFCC特征中的至少一项。
根据权利要求1所述的方法，其特征在于，所述根据所述待处理的语音信息，确定第一文本瓶颈特征，包括：

从所述待处理的语音信息中提取N维的滤波器组filter-bank特征和M维的基频pitch特征，其中，N和M都为正整数；

将所述N维的filter-bank特征和所述M维的pitch特征进行拼接，得到第二语音特征；

将所述第二语音特征输入至训练后的自动语音识别网络ASR网络，从所述训练后的ASR网络的瓶颈的线性层中提取所述第一文本瓶颈特征。
根据权利要求3所述的方法，其特征在于，对所述ASR网络进行训练的方式，包括：

训练步骤：通过混合高斯模型GMM，将语料中包括的文本标注与所述文本标注对应的音频文件对齐，得到第一文本特征，所述语料用于训练所述ASR网络；

从所述音频文件中提取N维的滤波器组filter-bank特征和M维的基频pitch特征；

将所述N维的filter-bank特征和所述M维的pitch特征进行拼接，得到第三语音特征；

将所述第三语音特征输入至所述ASR网络，对所述ASR网络进行训练，得到所述ASR网络的输出层输出的第二文本特征；

根据所述第一文本特征的值和所述第二文本特征的值，确定所述ASR网络的交叉熵CE的值；

重复执行所述训练步骤，当训练所述ASR网络所得到的ASR网络的交叉熵CE的值与上次训练所述ASR网络所得到的ASR网络的交叉熵CE的值之间的差值在第一阈值范围内，得到所述训练后的ASR网络。
根据权利要求4所述的方法，其特征在于，所述ASR网络包括作为输入层的四层隐层的深度神经网络DNN、一层瓶颈的线性层和作为输出层的概率分布softmax层。
根据权利要求1所述的方法，其特征在于，所述将所述第一组合特征向量输入至训练后的单向长短期记忆LSTM模型，对所述第一组合特征向量进行语音处理，以得到降噪后的语音信息，包括：

通过所述训练后的单向LSTM模型对所述第一组合特征向量进行语音增强处理；

对处理结果进行特征逆变换，对语音信息进行从频域到时域的转换，得到所述降噪后的语音信息。
根据权利要求1所述的方法，其特征在于，对所述单向LSTM模型进行训练的方式，包括：

采集降噪训练语料中包括的带噪声语音和不带噪声语音；

从所述带噪声语音中提取第四语音特征和第二文本瓶颈特征，以及从所述不带噪声语音中提取第五语音特征；

将所述第四语音特征与所述第二文本瓶颈特征进行组合，得到第二组合特征向量；

将所述第二组合特征向量输入至所述单向LSTM模型，对所述单向LSTM模型进行训练，当所述单向LSTM模型输出的参考值与所述第五语音特征的值之间的最小均方误差小于等于第二阈值，得到所述训练后的单向LSTM模型。
一种语音处理的装置，其特征在于，包括：

第一处理模块，用于获取待处理的语音信息；

第二处理模块，用于根据所述待处理的语音信息，确定第一语音特征和第一文本瓶颈特征；

第三处理模块，用于根据所述第一语音特征和所述第一文本瓶颈特征，确定第一组合特征向量；

第四处理模块，用于将所述第一组合特征向量输入至训练后的单向长短期记忆LSTM模型，对所述第一组合特征向量进行语音处理，以得到降噪后的语音信息，并将降噪后的所述语音信息发送给其他电子设备以使其进行播放。
根据权利要求8所述的装置，其中，所述第二处理模块，还用于将所述待处理的语音信息进行分帧处理和加窗处理；从进行分帧处理和加窗处理后的所述待处理的语音信息中提取所述第一语音特征；所述第一语音特征包括对数功率谱、梅尔频率倒谱系数MFCC特征中的至少一项。
根据权利要求8所述的装置，其中，所述第二处理模块，还用于从所述待处理的语音信息中提取N维的滤波器组filter-bank特征和M维的基频pitch特征，其中，N和M都为正整数；将所述N维的filter-bank特征和所述M维的pitch特征进行拼接，得到第二语音特征；将所述第二语音特征输入至训练后的自动语音识别网络ASR网络，从所述训练后的ASR网络的瓶颈的线性层中提取所述第一文本瓶颈特征。
根据权利要求10所述的装置，其中，所述第二处理模块，还用于对所述ASR网络进行训练；其中，对所述ASR网络进行训练的方式，包括：

训练步骤：通过混合高斯模型GMM，将语料中包括的文本标注与所述文本标注对应的音频文件对齐，得到第一文本特征，所述语料用于训练所述ASR网络；

从所述音频文件中提取N维的滤波器组filter-bank特征和M维的基频pitch特征；

将所述N维的filter-bank特征和所述M维的pitch特征进行拼接，得到第三语音特征；

将所述第三语音特征输入至所述ASR网络，对所述ASR网络进行训练，得到所述ASR网络的输出层输出的第二文本特征；

根据所述第一文本特征的值和所述第二文本特征的值，确定所述ASR网络的交叉熵CE的值；

重复执行所述训练步骤，当训练所述ASR网络所得到的ASR网络的交叉熵CE的值与上次训练所述ASR网络所得到的ASR网络的交叉熵CE的值之间的差值在第一阈值范围内，得到所述训练后的ASR网络。
根据权利要求8所述的装置，其中，所述第四处理模块，还用于通过所述训练后的单向LSTM模型对所述第一组合特征向量进行语音增强处理；

对处理结果进行特征逆变换，对语音信息进行从频域到时域的转换，得到处理后的语音信息。
根据权利要求8所述的装置，其中，所述第四处理模块，还用于对所述单向LSTM模型进行训练；对所述单向LSTM模型进行训练的方式，包括：

采集降噪训练语料中包括的带噪声语音和不带噪声语音；

从所述带噪声语音中提取第四语音特征和第二文本瓶颈特征，以及从所述不带噪声语音中提取第五语音特征；

将所述第四语音特征与所述第二文本瓶颈特征进行组合，得到第二组合特征向量；

将所述第二组合特征向量输入至所述单向LSTM模型，对所述单向LSTM模型进行训练，当所述单向LSTM模型输出的参考值与所述第五语音特征的值之间的最小均方误差小于等于第二阈值，得到所述训练后的单向LSTM模型。
一种电子设备，包括：处理器、存储器；

所述存储器，用于存储计算机程序；

所述处理器，用于通过调用所述计算机程序，执行上述权利要求1-7中任一项所述的语音处理的方法。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序用于被处理器执行时实现如权利要求1-7中任一项所述的语音处理的方法。