WO2021115083A1

WO2021115083A1 - 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质

Info

Publication number: WO2021115083A1
Application number: PCT/CN2020/130053
Authority: WO
Inventors: 孙腾
Original assignee: 北京影谱科技股份有限公司
Priority date: 2019-12-11
Filing date: 2020-11-19
Publication date: 2021-06-17
Also published as: US20220253700A1; CN110689902B; CN110689902A

Abstract

一种基于神经网络的音频信号时序处理方法及装置，该方法包括：创建组合网络模型，该组合网络模型包括第一网络和第二网络（S1）；获取音频信号的时频图（S2）；对时频图进行优化，得到网络输入数据（S3）；利用网络输入数据对第一网络进行训练，并进行特征提取，得到多维特征图（S4）；利用多维特征图组建新的特征向量（S5）；将该新的特征向量输入第二网络进行训练（S6）。该方法能够解决现有基于时间序列的映射变换模型不能满足多模态信息应用需求的问题。

Description

基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质

本申请要求于2019年12月11日提交中国专利局、申请号为CN201911262324.1、申请名称为“基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及语音数据处理领域，具体涉及一种基于神经网络的音频信号时序处理方法、装置及系统。

背景技术

神经网络在人工智能领域快速发展，推动了图像、文本、语音等多领域的信息交叉融合，构成一种多模态信息，多模态信息中的共生或共现的单模态信息间存在相关性。在研究其相关性的同时，由于多模态数据的采集环境，数据格式的差异性，造成多领域信息间的潜在相关性不容易被观测到，需要设计合适的模型学习这些数据间潜在且复杂的映射关系。

但是目前基于时间序列信息的深度神经网络模型中，将时间序列的语音数据映射对应文本内容及说话者声腔发音动作的映射变换模型还较少，尚不能满足多模态信息在对象识别、信息检索、人机对话等与智能系统及人工智能相关的领域的应用需求。

发明内容

本发明实施例的目的在于提供一种基于神经网络的音频信号时序处理方法、装置及系统，用以解决现有基于时间序列的映射变换模型不能满足多模态信息的应用需求的问题。

为实现上述目的，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供一种基于神经网络的音频信号时序处理方法，

所述方法包括：创建组合网络模型，所述组合网络模型包括第一网络和第二网络；获取音频信号的时频图；对所述时频图进行优化，得到网络输入数据；利用所述网络输入数据对第一网络进行训练，并进行特征提取，得到多维特征图；利用所述多维特征图组建新的特征向量；将所述新的特征向量输入第二网络进行训练。

进一步地，在获取所述音频信号的时频图之后，所述方法还包括：依次平移所述第一网络的截取窗口，截取等长度的时频图，截取的时频图长度与所述第二网络的时间窗口长度相同。

进一步地，对所述时频图进行优化的方法包括：将所述时频图、时频图的一阶差分图像和二阶差分图像组成一幅三维图像数据，对所述三维图像数据进行切割。

进一步地，所述三维图像数据的横轴为时间维度，竖轴为频率维度，纵轴为特征维度，对所述三维图像数据进行切割的方法包括：平行横轴，沿高频至低频的方向切掉三分之一的频率维度，保留三分之二的低频三维图像数据作为网络输入数据。

进一步地，在所述第一网络进行特征提取时，仅在三维图像数据的频率维度做下采样，时间维度保持网络输入数据的时序长度。

进一步地，所述组建新的特征向量的方法包括：按照时间序列切分所述多维特征图，将不同维度下同一时间戳的特征值组成一个新的特征向量，再将每个新的特征向量按照时间序列先后排列，依次传入第二网络进行训练。

进一步地，所述第一网络包括卷积神经网络CNN，所述第二网络包括循环神经网络RNN。

第二方面，本发明实施例还提供一种基于神经网络的音频信号时序处理装置，

所述装置包括：音频信号优化单元和模型创建单元：

模型创建单元创建组合网络模型，所述组合网络模型包括第一网络和第二网络；

音频信号优化单元获取音频信号的时频图，依次平移第一网络的截取窗口，截取等长度的时频图，截取的时频图长度与第二网络的时间窗口长度相同；并对所述时频图进行优化，得到网络输入数据；

模型创建单元利用所述网络输入数据对第一网络进行训练，并进行特征提取，得到多维特征图；利用所述多维特征图组建新的特征向量；将所述新的特征向量输入第二网络进行训练。

第三方面，本发明实施例还提供一种基于神经网络的音频信号时序处理系统，

所述系统包括：至少一个处理器和至少一个存储器；所述存储器用于存储一个或多个程序指令；所述处理器，用于运行一个或多个程序指令，用以执行一种基于神经网络的音频信号时序处理方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，

所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令被一种基于神经网络的音频信号时序处理系统用于执行一种基于神经网络的音频信号时序处理方法。

本发明实施例提供的技术方案至少具有如下优点：

本发明实施例通过创建CNN+RNN的组合网络时序回归模型，对音频信息进行处理，使训练网络的输出为与输入时间序列具有相同长度的回归值序列，并采用图像切割法对音频信息进行优化降噪，且仅在三维图像数据的频率维度做下采样，保证时间不变性，从而更好的实现时间序列的语音数据到对应文本内容及说话者声腔发音动作的映射变换。

附图说明

图1为本发明实施例1提供的一种基于神经网络的音频信号时序处理方法的步骤图。

图2为本发明实施例2提供的一种基于神经网络的音频信号时序处理装置的结构示意图。

图3为本发明实施例3提供的一种基于神经网络的音频信号时序处理系统的结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、程序以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

本发明实施例1提供一种基于神经网络的音频信号时序处理方法，参考图1，该方法包括：

S1、创建组合网络模型；

具体地，该组合网络模型包括第一网络和第二网络，现有技术中的语音数字信号主要经过分帧加窗后经过傅里叶变换为频谱时间序列，生成时频图，根据声学模型进行语音特征提取，对频域特征进行滤波等方法手动提取共振峰、梅尔倒谱等特征。通过提取的语音特征向量进行后续的文本序列识别需要。但此种方法得到的高维特征少于通过CNN网络获得的高维特征。结合卷积神经网络CNN对局部感受野相关性特征的抽取能力和循环神经网络RNN对时间序列状态保持能力，将时频图直接作为输入，经过深层CNN网络提取到更多高维特征，再输入RNN模型，实现对音频信号特征的提取，并学习驱动发音的口腔和下颌动作变化序列。因此，本实施例的第一网络优选卷积神经网络CNN，第二网络优选循环神经网络RNN。

S2、获取音频信号的时频图；

具体地，将采集的声音数据经过数字采样成数字音频信号，然后经过分帧加窗后经过傅里叶变换为频谱时间序列，生成时频图，对时频图再做梅尔特征转换，得到CNN网络输入的特征。

需要说明的是：由于语音输入信号长度不等，得到的时频图时间轴长度T也是变长，因此，在将时频图输入CNN前需要按照RNN的时间窗口长度(t)截取对应时间长度的频谱图，依次平移CNN网络的截取窗口位置，如T(0)…T(0+t)，T(1)…T(1+t)，…T(n)…T(n+t)，使截取的时频图长度与RNN的时间窗口长度相同。

S3、对时频图进行优化，得到网络输入数据；

具体地，本实施例采用图像切割法对音频信息进行降噪，利用时频图计算出其一阶差分图像和二阶差分图像，将时频图、时频图的一阶差分图像和二阶差分图像组成一个数组，可以将其看作一幅三维图像数据，该三维图像数据的横轴为时间维度，竖轴为频率维度，纵轴为特征维度。由于该图像低频部分表现出明显的声纹信息，高频部分则为大量随机高亮噪声，因此对该三维图像数据的高频部分进行切割。

平行横轴，即时间轴，沿高频至低频的方向切掉三分之一的频率维度，切分时频图，剔除高频部分噪声干扰，仅保留三分之二的低频三维图像数据作为网络输入数据，具有更好的降噪效果。增加时频图的一阶差分图像和二阶差分图像数据，能够增加时序变化特征。

S4、利用网络输入数据对第一网络进行训练，并进行特征提取，得到多维特征图；

具体地，将切割后的优化网络输入数据输入CNN网络进行训练，CNN网络可以选用较为成熟的ResNet等作为基础网络。

需要说明的是：在信号处理中经常采用下采样，即对于一个样值序列间隔几个样值取样一次，得到新序列，本实施例中，在CNN网络中的下采样过程仅在三维图像数据的频率维度做下采样，时间维度保持网络输入数据的时序长度。也可以理解为改进基础CNN中的最大池化层，在局部感受野中的频率维度提取最大池化特征，但在时间维度不做下采样，既能够通过最大池化层获取时间不变性，又保证时间序列长度不被压缩。

利用此方法提取的CNN网络提取特征比在时频图上通过滤波器分离提取特征的传统方法，能得到更多高维的特征信息。

S5、利用多维特征图组建新的特征向量；

具体地，按照时间序列切分上述多维特征图，将不同维度下同一时间戳的特征值组成一个新的特征向量，再将每个新的特征向量按照时间序列先后排列，依次传入RNN网络进行训练。

S6、将新的特征向量输入第二网络进行训练。

具体地，利用RNN网络的对时间序列状态保持能力，输入上述新的特征向量进行训练，使输出为与输入时序相同长度的回归值序列，此回归值根据组合网络模型的需要可以是发声口型的图像、坐标或者与音频信息对应的文本向量。能够提供一种利用时序语音生成驱动发音的口型、下颌等动作序列的方法。本发明的RNN网络采用双向的LSTM模型，能够提供来自前向和后向的时序状态信息。

与上述实施例对应的，本发明实施例2提供一种基于神经网络的音频信号时序处理装置，参考图2，该装置包括音频信号优化单元和模型创建单元：

模型创建单元，用于创建组合网络模型，组合网络模型包括第一网络和第二网络，即上述的CNN+RNN的组合网络时序回归模型；

音频信号优化单元，用于获取音频信号的时频图，依次平移第一网络的截取窗口，截取等长度的时频图，截取的时频图长度与第二网络的时间窗口长度相同；并对时频图进行优化，得到网络输入数据。

音频信号优化单元将采集的声音数据经过数字采样成数字音频信号，然后经过分帧加窗后经过傅里叶变换为频谱时间序列，生成时频图，此技术为现有技术，在此不做过多赘述。对时频图进行优化包括增加时频图的一阶差分图像和二阶差分图像数据，增加时序变化特征，再进行裁切割，保留低频图像。

模型创建单元用创建的组合网络模型对音频信号的时序进行处理，包括利用网络输入数据对第一网络进行训练，进行特征提取、得到多维特征图；利用多维特征图组建新的特征向量，将所述新的特征向量输入第二网络进行训练，具体的该装置的各个部件在上述实施例中均有详细描述，在此不做过多赘述。

与上述实施例对应的，本发明实施例3提供一种基于神经网络的音频信号时序处理系统，参考图3，该系统包括：至少一个处理器和至少一个存储器；

存储器用于存储一个或多个程序指令；

处理器，用于运行一个或多个程序指令，用以执行一种基于神经网络的音频信号时序处理方法。

与上述实施例对应的，本发明实施例4提供一种计算机可读存储介质，计算机存储介质中包含一个或多个程序指令，一个或多个程序指令被一种基于神经网络的音频信号时序处理系统用于执行基于神经网络的音频信号时序处理方法。

本发明所公开的实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序指令，当所述计算机程序指令在计算机上运行时，使得计算机执行上述的方法。

在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、图形处理器(Graphic Processing Unit，简称GPU)、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific工ntegrated Circuit，简称ASIC)、现场可编程门阵列(FieldProgrammable GateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

一种基于神经网络的音频信号时序处理方法，其特征在于，所述方法包括：

创建组合网络模型，所述组合网络模型包括第一网络和第二网络；

获取音频信号的时频图，依次平移所述第一网络的截取窗口，截取等长度的时频图，截取的时频图长度与所述第二网络的时间窗口长度相同；

对所述时频图进行优化，将所述时频图、时频图的一阶差分图像和二阶差分图像组成一幅三维图像数据，对所述三维图像数据进行切割，得到网络输入数据；

利用所述网络输入数据对第一网络进行训练，并进行特征提取，得到多维特征图；

按照时间序列切分所述多维特征图，将不同维度下同一时间戳的特征值组成一个新的特征向量，再将每个新的特征向量按照时间序列先后排列，依次传入第二网络进行训练。
如权利要求1所述的一种基于神经网络的音频信号时序处理方法，其特征在于，所述三维图像数据的横轴为时间维度，竖轴为频率维度，纵轴为特征维度，对所述三维图像数据进行切割的方法包括：平行横轴，沿高频至低频的方向切掉三分之一的频率维度，保留三分之二的低频三维图像数据作为网络输入数据。
如权利要求1所述的一种基于神经网络的音频信号时序处理方法，其特征在于，在所述第一网络进行特征提取时，仅在三维图像数据的频率维度做下采样，时间维度保持网络输入数据的时序长度。
如权利要求1所述的一种基于神经网络的音频信号时序处理方法，其特征在于，所述第一网络包括卷积神经网络CNN，所述第二网络包括循环神经网络RNN。
一种基于神经网络的音频信号时序处理装置，其特征在于，所述装置包括音频信号优化单元和模型创建单元：

模型创建单元创建组合网络模型，所述组合网络模型包括第一网络和第二网络；

音频信号优化单元获取音频信号的时频图，依次平移第一网络的截取窗口，截取等长度的时频图，截取的时频图长度与第二网络的时间窗口长度相同；并对所述时频图进行优化，将所述时频图、时频图的一阶差分图像和二阶差分图像组成一幅三维图像数据，对所述三维图像数据进行切割，得到网络输入数据；

模型创建单元利用所述网络输入数据对第一网络进行训练，并进行特征提取，得到多维特征图；按照时间序列切分所述多维特征图，将不同维度下同一时间戳的特征值组成一个新的特征向量，再将每个新的特征向量按照时间序列先后排列，依次传入第二网络进行训练。
一种基于神经网络的音频信号时序处理系统，其特征在于，所述系统包括：至少一个处理器和至少一个存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1-4任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令被一种基于神经网络的音频信号时序处理系统用于执行如权利要求1-4任一项所述的方法。