WO2021115083A1 - 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质 - Google Patents

基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质 Download PDF

Info

Publication number
WO2021115083A1
WO2021115083A1 PCT/CN2020/130053 CN2020130053W WO2021115083A1 WO 2021115083 A1 WO2021115083 A1 WO 2021115083A1 CN 2020130053 W CN2020130053 W CN 2020130053W WO 2021115083 A1 WO2021115083 A1 WO 2021115083A1
Authority
WO
WIPO (PCT)
Prior art keywords
network
time
audio signal
frequency
neural network
Prior art date
Application number
PCT/CN2020/130053
Other languages
English (en)
French (fr)
Inventor
孙腾
Original Assignee
北京影谱科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京影谱科技股份有限公司 filed Critical 北京影谱科技股份有限公司
Priority to US17/623,608 priority Critical patent/US20220253700A1/en
Publication of WO2021115083A1 publication Critical patent/WO2021115083A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • the system includes: at least one processor and at least one memory; the memory is used to store one or more program instructions; the processor is used to run one or more program instructions to execute a neural network-based The audio signal timing processing method.
  • FIG. 3 is a schematic structural diagram of a neural network-based audio signal timing processing system provided by Embodiment 3 of the present invention.
  • the first network of this embodiment is preferably a convolutional neural network CNN
  • the second network is preferably a recurrent neural network RNN.
  • the collected sound data is digitally sampled into a digital audio signal, and then Fourier transformed into a spectral time series after framing and windowing to generate a time-frequency graph, and then perform Mel feature conversion on the time-frequency graph to obtain Features of CNN network input.
  • down-sampling is often used in signal processing, that is, a sample sequence is sampled once at intervals of several samples to obtain a new sequence.
  • the down-sampling process in the CNN network is only performed on the three-dimensional image data.
  • the frequency dimension is down-sampled, and the time dimension maintains the timing length of the network input data. It can also be understood as improving the maximum pooling layer in the basic CNN, extracting the maximum pooling feature in the frequency dimension in the local receptive field, but not performing down-sampling in the time dimension, which can obtain time invariance through the maximum pooling layer and ensure The length of the time series is not compressed.
  • the memory is used to store one or more program instructions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

一种基于神经网络的音频信号时序处理方法及装置,该方法包括:创建组合网络模型,该组合网络模型包括第一网络和第二网络(S1);获取音频信号的时频图(S2);对时频图进行优化,得到网络输入数据(S3);利用网络输入数据对第一网络进行训练,并进行特征提取,得到多维特征图(S4);利用多维特征图组建新的特征向量(S5);将该新的特征向量输入第二网络进行训练(S6)。该方法能够解决现有基于时间序列的映射变换模型不能满足多模态信息应用需求的问题。

Description

基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质
本申请要求于2019年12月11日提交中国专利局、申请号为CN201911262324.1、申请名称为“基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明实施例涉及语音数据处理领域,具体涉及一种基于神经网络的音频信号时序处理方法、装置及系统。
背景技术
神经网络在人工智能领域快速发展,推动了图像、文本、语音等多领域的信息交叉融合,构成一种多模态信息,多模态信息中的共生或共现的单模态信息间存在相关性。在研究其相关性的同时,由于多模态数据的采集环境,数据格式的差异性,造成多领域信息间的潜在相关性不容易被观测到,需要设计合适的模型学习这些数据间潜在且复杂的映射关系。
但是目前基于时间序列信息的深度神经网络模型中,将时间序列的语音数据映射对应文本内容及说话者声腔发音动作的映射变换模型还较少,尚不能满足多模态信息在对象识别、信息检索、人机对话等与智能系统及人工智能相关的领域的应用需求。
发明内容
本发明实施例的目的在于提供一种基于神经网络的音频信号时序处理方法、装置及系统,用以解决现有基于时间序列的映射变换模型不能满足多模态信息的应用需求的问题。
为实现上述目的,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供一种基于神经网络的音频信号时序处理方法,
所述方法包括:创建组合网络模型,所述组合网络模型包括第一网络和第二网络;获取音频信号的时频图;对所述时频图进行优化,得到网络输入数据;利用所述网络输入数据对第一网络进行训练,并进行特征提取,得到多维特征图;利用所述多维特征图组建新的特征向量;将所述新的特征向量输入第二网络进行训练。
进一步地,在获取所述音频信号的时频图之后,所述方法还包括:依次平移所述第一网络的截取窗口,截取等长度的时频图,截取的时频图长度与所述第二网络的时间窗口长度相同。
进一步地,对所述时频图进行优化的方法包括:将所述时频图、时频图的一阶差分图像和二阶差分图像组成一幅三维图像数据,对所述三维图像数据进行切割。
进一步地,所述三维图像数据的横轴为时间维度,竖轴为频率维度,纵轴为特征维度,对所述三维图像数据进行切割的方法包括:平行横轴,沿高频至低频的方向切掉三分之一的频率维度,保留三分之二的低频三维图像数据作为网络输入数据。
进一步地,在所述第一网络进行特征提取时,仅在三维图像数据的频率维度做下采样,时间维度保持网络输入数据的时序长度。
进一步地,所述组建新的特征向量的方法包括:按照时间序列切分所述多维特征图,将不同维度下同一时间戳的特征值组成一个新的特征向量,再将每个新的特征向量按照时间序列先后排列,依次传入第二网络进行训练。
进一步地,所述第一网络包括卷积神经网络CNN,所述第二网络包括循 环神经网络RNN。
第二方面,本发明实施例还提供一种基于神经网络的音频信号时序处理装置,
所述装置包括:音频信号优化单元和模型创建单元:
模型创建单元创建组合网络模型,所述组合网络模型包括第一网络和第二网络;
音频信号优化单元获取音频信号的时频图,依次平移第一网络的截取窗口,截取等长度的时频图,截取的时频图长度与第二网络的时间窗口长度相同;并对所述时频图进行优化,得到网络输入数据;
模型创建单元利用所述网络输入数据对第一网络进行训练,并进行特征提取,得到多维特征图;利用所述多维特征图组建新的特征向量;将所述新的特征向量输入第二网络进行训练。
第三方面,本发明实施例还提供一种基于神经网络的音频信号时序处理系统,
所述系统包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行一种基于神经网络的音频信号时序处理方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,
所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令被一种基于神经网络的音频信号时序处理系统用于执行一种基于神经网络的音频信号时序处理方法。
本发明实施例提供的技术方案至少具有如下优点:
本发明实施例通过创建CNN+RNN的组合网络时序回归模型,对音频信息进行处理,使训练网络的输出为与输入时间序列具有相同长度的回归值序列,并采用图像切割法对音频信息进行优化降噪,且仅在三维图像数据的频率维度做下采样,保证时间不变性,从而更好的实现时间序列的语音数据到对应文本内容及说话者声腔发音动作的映射变换。
附图说明
图1为本发明实施例1提供的一种基于神经网络的音频信号时序处理方法的步骤图。
图2为本发明实施例2提供的一种基于神经网络的音频信号时序处理装置的结构示意图。
图3为本发明实施例3提供的一种基于神经网络的音频信号时序处理系统的结构示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、程序以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
本发明实施例1提供一种基于神经网络的音频信号时序处理方法,参考图1,该方法包括:
S1、创建组合网络模型;
具体地,该组合网络模型包括第一网络和第二网络,现有技术中的语音数字信号主要经过分帧加窗后经过傅里叶变换为频谱时间序列,生成时频图,根据声学模型进行语音特征提取,对频域特征进行滤波等方法手动提取共振峰、梅尔倒谱等特征。通过提取的语音特征向量进行后续的文本序列识别需要。但此种方法得到的高维特征少于通过CNN网络获得的高维特征。结合卷积神经网络CNN对局部感受野相关性特征的抽取能力和循环神经网络RNN对时间 序列状态保持能力,将时频图直接作为输入,经过深层CNN网络提取到更多高维特征,再输入RNN模型,实现对音频信号特征的提取,并学习驱动发音的口腔和下颌动作变化序列。因此,本实施例的第一网络优选卷积神经网络CNN,第二网络优选循环神经网络RNN。
S2、获取音频信号的时频图;
具体地,将采集的声音数据经过数字采样成数字音频信号,然后经过分帧加窗后经过傅里叶变换为频谱时间序列,生成时频图,对时频图再做梅尔特征转换,得到CNN网络输入的特征。
需要说明的是:由于语音输入信号长度不等,得到的时频图时间轴长度T也是变长,因此,在将时频图输入CNN前需要按照RNN的时间窗口长度(t)截取对应时间长度的频谱图,依次平移CNN网络的截取窗口位置,如T(0)…T(0+t),T(1)…T(1+t),…T(n)…T(n+t),使截取的时频图长度与RNN的时间窗口长度相同。
S3、对时频图进行优化,得到网络输入数据;
具体地,本实施例采用图像切割法对音频信息进行降噪,利用时频图计算出其一阶差分图像和二阶差分图像,将时频图、时频图的一阶差分图像和二阶差分图像组成一个数组,可以将其看作一幅三维图像数据,该三维图像数据的横轴为时间维度,竖轴为频率维度,纵轴为特征维度。由于该图像低频部分表现出明显的声纹信息,高频部分则为大量随机高亮噪声,因此对该三维图像数据的高频部分进行切割。
平行横轴,即时间轴,沿高频至低频的方向切掉三分之一的频率维度,切分时频图,剔除高频部分噪声干扰,仅保留三分之二的低频三维图像数据作为网络输入数据,具有更好的降噪效果。增加时频图的一阶差分图像和二阶差分图像数据,能够增加时序变化特征。
S4、利用网络输入数据对第一网络进行训练,并进行特征提取,得到多维特征图;
具体地,将切割后的优化网络输入数据输入CNN网络进行训练,CNN网 络可以选用较为成熟的ResNet等作为基础网络。
需要说明的是:在信号处理中经常采用下采样,即对于一个样值序列间隔几个样值取样一次,得到新序列,本实施例中,在CNN网络中的下采样过程仅在三维图像数据的频率维度做下采样,时间维度保持网络输入数据的时序长度。也可以理解为改进基础CNN中的最大池化层,在局部感受野中的频率维度提取最大池化特征,但在时间维度不做下采样,既能够通过最大池化层获取时间不变性,又保证时间序列长度不被压缩。
利用此方法提取的CNN网络提取特征比在时频图上通过滤波器分离提取特征的传统方法,能得到更多高维的特征信息。
S5、利用多维特征图组建新的特征向量;
具体地,按照时间序列切分上述多维特征图,将不同维度下同一时间戳的特征值组成一个新的特征向量,再将每个新的特征向量按照时间序列先后排列,依次传入RNN网络进行训练。
S6、将新的特征向量输入第二网络进行训练。
具体地,利用RNN网络的对时间序列状态保持能力,输入上述新的特征向量进行训练,使输出为与输入时序相同长度的回归值序列,此回归值根据组合网络模型的需要可以是发声口型的图像、坐标或者与音频信息对应的文本向量。能够提供一种利用时序语音生成驱动发音的口型、下颌等动作序列的方法。本发明的RNN网络采用双向的LSTM模型,能够提供来自前向和后向的时序状态信息。
本发明实施例通过创建CNN+RNN的组合网络时序回归模型,对音频信息进行处理,使训练网络的输出为与输入时间序列具有相同长度的回归值序列,并采用图像切割法对音频信息进行优化降噪,且仅在三维图像数据的频率维度做下采样,保证时间不变性,从而更好的实现时间序列的语音数据到对应文本内容及说话者声腔发音动作的映射变换。
与上述实施例对应的,本发明实施例2提供一种基于神经网络的音频信号时序处理装置,参考图2,该装置包括音频信号优化单元和模型创建单元:
模型创建单元,用于创建组合网络模型,组合网络模型包括第一网络和第二网络,即上述的CNN+RNN的组合网络时序回归模型;
音频信号优化单元,用于获取音频信号的时频图,依次平移第一网络的截取窗口,截取等长度的时频图,截取的时频图长度与第二网络的时间窗口长度相同;并对时频图进行优化,得到网络输入数据。
音频信号优化单元将采集的声音数据经过数字采样成数字音频信号,然后经过分帧加窗后经过傅里叶变换为频谱时间序列,生成时频图,此技术为现有技术,在此不做过多赘述。对时频图进行优化包括增加时频图的一阶差分图像和二阶差分图像数据,增加时序变化特征,再进行裁切割,保留低频图像。
模型创建单元用创建的组合网络模型对音频信号的时序进行处理,包括利用网络输入数据对第一网络进行训练,进行特征提取、得到多维特征图;利用多维特征图组建新的特征向量,将所述新的特征向量输入第二网络进行训练,具体的该装置的各个部件在上述实施例中均有详细描述,在此不做过多赘述。
本发明实施例通过创建CNN+RNN的组合网络时序回归模型,对音频信息进行处理,使训练网络的输出为与输入时间序列具有相同长度的回归值序列,并采用图像切割法对音频信息进行优化降噪,且仅在三维图像数据的频率维度做下采样,保证时间不变性,从而更好的实现时间序列的语音数据到对应文本内容及说话者声腔发音动作的映射变换。
与上述实施例对应的,本发明实施例3提供一种基于神经网络的音频信号时序处理系统,参考图3,该系统包括:至少一个处理器和至少一个存储器;
存储器用于存储一个或多个程序指令;
处理器,用于运行一个或多个程序指令,用以执行一种基于神经网络的音频信号时序处理方法。
与上述实施例对应的,本发明实施例4提供一种计算机可读存储介质,计算机存储介质中包含一个或多个程序指令,一个或多个程序指令被一种基于神经网络的音频信号时序处理系统用于执行基于神经网络的音频信号时序处理方法。
本发明所公开的实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行上述的方法。
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、图形处理器(Graphic Processing Unit,简称GPU)、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific工ntegrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable GateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。
易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存 储器(Double Data RateSDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (7)

  1. 一种基于神经网络的音频信号时序处理方法,其特征在于,所述方法包括:
    创建组合网络模型,所述组合网络模型包括第一网络和第二网络;
    获取音频信号的时频图,依次平移所述第一网络的截取窗口,截取等长度的时频图,截取的时频图长度与所述第二网络的时间窗口长度相同;
    对所述时频图进行优化,将所述时频图、时频图的一阶差分图像和二阶差分图像组成一幅三维图像数据,对所述三维图像数据进行切割,得到网络输入数据;
    利用所述网络输入数据对第一网络进行训练,并进行特征提取,得到多维特征图;
    按照时间序列切分所述多维特征图,将不同维度下同一时间戳的特征值组成一个新的特征向量,再将每个新的特征向量按照时间序列先后排列,依次传入第二网络进行训练。
  2. 如权利要求1所述的一种基于神经网络的音频信号时序处理方法,其特征在于,所述三维图像数据的横轴为时间维度,竖轴为频率维度,纵轴为特征维度,对所述三维图像数据进行切割的方法包括:平行横轴,沿高频至低频的方向切掉三分之一的频率维度,保留三分之二的低频三维图像数据作为网络输入数据。
  3. 如权利要求1所述的一种基于神经网络的音频信号时序处理方法,其特征在于,在所述第一网络进行特征提取时,仅在三维图像数据的频率维度做下采样,时间维度保持网络输入数据的时序长度。
  4. 如权利要求1所述的一种基于神经网络的音频信号时序处理方法,其特征在于,所述第一网络包括卷积神经网络CNN,所述第二网络包括循环神经网络RNN。
  5. 一种基于神经网络的音频信号时序处理装置,其特征在于,所述装置包括音频信号优化单元和模型创建单元:
    模型创建单元创建组合网络模型,所述组合网络模型包括第一网络和第二网络;
    音频信号优化单元获取音频信号的时频图,依次平移第一网络的截取窗口,截取等长度的时频图,截取的时频图长度与第二网络的时间窗口长度相同;并对所述时频图进行优化,将所述时频图、时频图的一阶差分图像和二阶差分图像组成一幅三维图像数据,对所述三维图像数据进行切割,得到网络输入数据;
    模型创建单元利用所述网络输入数据对第一网络进行训练,并进行特征提取,得到多维特征图;按照时间序列切分所述多维特征图,将不同维度下同一时间戳的特征值组成一个新的特征向量,再将每个新的特征向量按照时间序列先后排列,依次传入第二网络进行训练。
  6. 一种基于神经网络的音频信号时序处理系统,其特征在于,所述系统包括:至少一个处理器和至少一个存储器;
    所述存储器用于存储一个或多个程序指令;
    所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1-4任一项所述的方法。
  7. 一种计算机可读存储介质,其特征在于,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令被一种基于神经网络的音频信号时序处理系统用于执行如权利要求1-4任一项所述的方法。
PCT/CN2020/130053 2019-12-11 2020-11-19 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质 WO2021115083A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/623,608 US20220253700A1 (en) 2019-12-11 2020-11-19 Audio signal time sequence processing method, apparatus and system based on neural network, and computer-readable storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911262324.1 2019-12-11
CN201911262324.1A CN110689902B (zh) 2019-12-11 2019-12-11 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质

Publications (1)

Publication Number Publication Date
WO2021115083A1 true WO2021115083A1 (zh) 2021-06-17

Family

ID=69117776

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/130053 WO2021115083A1 (zh) 2019-12-11 2020-11-19 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质

Country Status (3)

Country Link
US (1) US20220253700A1 (zh)
CN (1) CN110689902B (zh)
WO (1) WO2021115083A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021076349A1 (en) * 2019-10-18 2021-04-22 Google Llc End-to-end multi-speaker audio-visual automatic speech recognition
CN110689902B (zh) * 2019-12-11 2020-07-14 北京影谱科技股份有限公司 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质
CN111883091A (zh) * 2020-07-09 2020-11-03 腾讯音乐娱乐科技(深圳)有限公司 音频降噪方法和音频降噪模型的训练方法
CN113571075A (zh) * 2021-01-28 2021-10-29 腾讯科技(深圳)有限公司 音频处理的方法、装置、电子设备和存储介质
CN113114400B (zh) * 2021-04-14 2022-01-28 中南大学 基于时序注意力机制和lstm模型的信号频谱空洞感知方法
CN113434422B (zh) * 2021-06-30 2024-01-23 青岛海尔科技有限公司 虚拟设备的调试方法及装置、虚拟设备的调试系统
KR102494422B1 (ko) * 2022-06-24 2023-02-06 주식회사 액션파워 Ars 음성이 포함된 오디오 데이터에서 발화 음성을 검출하는 방법
CN116304558B (zh) * 2023-01-19 2024-04-02 北京未磁科技有限公司 癫痫脑磁图棘波检测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106652999A (zh) * 2015-10-29 2017-05-10 三星Sds株式会社 语音识别系统以及方法
CN106782501A (zh) * 2016-12-28 2017-05-31 百度在线网络技术(北京)有限公司 基于人工智能的语音特征提取方法和装置
CN108281139A (zh) * 2016-12-30 2018-07-13 深圳光启合众科技有限公司 语音转写方法和装置、机器人
CN109003601A (zh) * 2018-08-31 2018-12-14 北京工商大学 一种针对低资源土家语的跨语言端到端语音识别方法
CN110085251A (zh) * 2019-04-26 2019-08-02 腾讯音乐娱乐科技(深圳)有限公司 人声提取方法、人声提取装置及相关产品
US20190348062A1 (en) * 2018-05-08 2019-11-14 Gyrfalcon Technology Inc. System and method for encoding data using time shift in an audio/image recognition integrated circuit solution
CN110689902A (zh) * 2019-12-11 2020-01-14 北京影谱科技股份有限公司 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1159734B1 (de) * 1999-03-08 2004-05-19 Siemens Aktiengesellschaft Verfahren und anordnung zur ermittlung einer merkmalsbeschreibung eines sprachsignals
CN107863111A (zh) * 2017-11-17 2018-03-30 合肥工业大学 面向交互的语音语料处理方法及装置
CN108922559A (zh) * 2018-07-06 2018-11-30 华南理工大学 基于语音时频变换特征和整数线性规划的录音终端聚类方法
CN109872720B (zh) * 2019-01-29 2022-11-22 广东技术师范大学 一种基于卷积神经网络对不同场景鲁棒的重录语音检测算法
CN110223712B (zh) * 2019-06-05 2021-04-20 西安交通大学 一种基于双向卷积循环稀疏网络的音乐情感识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106652999A (zh) * 2015-10-29 2017-05-10 三星Sds株式会社 语音识别系统以及方法
CN106782501A (zh) * 2016-12-28 2017-05-31 百度在线网络技术(北京)有限公司 基于人工智能的语音特征提取方法和装置
CN108281139A (zh) * 2016-12-30 2018-07-13 深圳光启合众科技有限公司 语音转写方法和装置、机器人
US20190348062A1 (en) * 2018-05-08 2019-11-14 Gyrfalcon Technology Inc. System and method for encoding data using time shift in an audio/image recognition integrated circuit solution
CN109003601A (zh) * 2018-08-31 2018-12-14 北京工商大学 一种针对低资源土家语的跨语言端到端语音识别方法
CN110085251A (zh) * 2019-04-26 2019-08-02 腾讯音乐娱乐科技(深圳)有限公司 人声提取方法、人声提取装置及相关产品
CN110689902A (zh) * 2019-12-11 2020-01-14 北京影谱科技股份有限公司 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质

Also Published As

Publication number Publication date
US20220253700A1 (en) 2022-08-11
CN110689902B (zh) 2020-07-14
CN110689902A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
WO2021115083A1 (zh) 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质
WO2021139294A1 (zh) 语音分离模型训练方法、装置、存储介质和计算机设备
JP6993353B2 (ja) ニューラルネットワークベースの声紋情報抽出方法及び装置
DE102019001775A1 (de) Nutzung von Maschinenlernmodellen zur Bestimmung von Mundbewegungen entsprechend Live-Sprache
CN110570845B (zh) 一种基于域不变特征的语音识别方法
WO2022141868A1 (zh) 一种提取语音特征的方法、装置、终端及存储介质
CN111341294B (zh) 将文本转换为指定风格语音的方法
WO2022048404A1 (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
CN111862956B (zh) 一种数据处理方法、装置、设备及存储介质
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
Deshmukh et al. Improving weakly supervised sound event detection with self-supervised auxiliary tasks
US20230114386A1 (en) Textual Echo Cancellation
US20230386492A1 (en) System and method for suppressing noise from audio signal
Zheng et al. Incorporating ultrasound tongue images for audio-visual speech enhancement through knowledge distillation
CN110992966B (zh) 一种人声分离方法及系统
Zheng et al. Bandwidth extension WaveNet for bone-conducted speech enhancement
EP4052254A1 (en) Rescoring automatic speech recognition hypotheses using audio-visual matching
Shahrul Azmi et al. Noise robustness of Spectrum Delta (SpD) features in Malay vowel recognition
CN115831127B (zh) 基于语音转换的声纹重构模型构建方法、装置和存储介质
Kumar et al. Analysis of audio visual feature extraction techniques for AVSR system
US20230267949A1 (en) Streaming Vocoder
Zhao Design of continuous recognition algorithm for online interactive english speech segment
Virgin et al. FPGA based speech recognition using dynamic MFCC
Patel et al. Automated speech synthesizer and Converter in cue symbol Generation for Hearing Impards
Wang et al. Noise processing and multi-task learning for far-field dialect classification

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20898921

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20898921

Country of ref document: EP

Kind code of ref document: A1