WO2020088154A1 - 语音降噪方法、存储介质和移动终端 - Google Patents

语音降噪方法、存储介质和移动终端 Download PDF

Info

Publication number
WO2020088154A1
WO2020088154A1 PCT/CN2019/107579 CN2019107579W WO2020088154A1 WO 2020088154 A1 WO2020088154 A1 WO 2020088154A1 CN 2019107579 W CN2019107579 W CN 2019107579W WO 2020088154 A1 WO2020088154 A1 WO 2020088154A1
Authority
WO
WIPO (PCT)
Prior art keywords
noise reduction
amplitude spectrum
noise
signal
speech
Prior art date
Application number
PCT/CN2019/107579
Other languages
English (en)
French (fr)
Inventor
陈岩
Original Assignee
Oppo广东移动通信有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oppo广东移动通信有限公司 filed Critical Oppo广东移动通信有限公司
Publication of WO2020088154A1 publication Critical patent/WO2020088154A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • FIG. 1 is a schematic flowchart of a voice noise reduction method according to an embodiment of the present application
  • FIG. 5 is a schematic structural diagram of a mobile terminal according to an embodiment of this application.
  • the voice signal is a clean signal.
  • m is the number of frames of the voice signal
  • k is the frequency point
  • is the standard deviation.
  • the noise estimation of the call voice signal includes:
  • the analog signal collected by the single microphone of the earphone is segmented at fixed intervals to obtain the one or more segments of voice signals.
  • the receiving one or more voice signals collected based on the single microphone of the earphone includes:
  • An embodiment of the present application further provides a computer-readable storage medium on which a computer program is stored, wherein, when the program is executed by a processor, the voice noise reduction method described in any of the foregoing embodiments is implemented.
  • Step 201 Receive a voice signal collected based on a single microphone of a headset.
  • Step 202 Extract the initial amplitude spectrum and phase spectrum of the speech signal, and transmit the initial amplitude spectrum to a pre-trained noise reduction model to obtain a first noise reduction amplitude spectrum.
  • the signal frame in the process of masking the first noise reduction amplitude spectrum, is used as a unit.
  • the current signal frame A noise reduction amplitude spectrum is smoothed.
  • the amplitude value of the frequency point is smoothed with the amplitude value of the frequency point in the second noise reduction amplitude spectrum in the previous signal frame
  • the amplitude value of the frequency point in the second noise reduction amplitude spectrum of the current signal frame is obtained.
  • the masking coefficient to be smoothed may be a fixed preset value, or may be determined according to the amplitude value that changes in real time.
  • the power threshold can be set according to user needs, if a high-quality call is required, a smaller power threshold is set.
  • steps 301 to 304 and 305 to 307 is not limited in this embodiment. In other embodiments, steps 305 to 307 may be performed first, and then steps 301 to 304 may be performed. .
  • the first noise reduction amplitude spectrum generation module 402 is used to extract the initial amplitude spectrum and phase spectrum of the speech signal, and transmit the initial amplitude spectrum to a pre-trained noise reduction model to obtain a first noise reduction amplitude spectrum;
  • Storage medium any kind of memory device or storage device.
  • the term “storage medium” is intended to include: installation media such as CD-ROM, floppy disk or tape devices; computer system memory or random access memory such as DRAM, DDRRAM, SRAM, EDORAM, Rambus RAM, etc .; Volatile memory, such as flash memory, magnetic media (such as hard disks or optical storage); registers or other similar types of memory elements, etc.
  • the storage medium may also include other types of memory or a combination thereof.
  • the storage medium may be located in the first computer system in which the program is executed, or may be located in a different second computer system that is connected to the first computer system through a network such as the Internet.
  • the second computer system may provide program instructions to the first computer for execution.
  • storage medium may include two or more storage media that may reside in different locations (eg, in different computer systems connected through a network).
  • the storage medium may store program instructions executable by one or more processors (eg, embodied as a computer program).
  • the illustrated mobile terminal 600 is only an example of the mobile terminal, and the mobile terminal 600 may have more or fewer components than shown in the figure, and two or more components may be combined, Or it can have different component configurations.
  • the various components shown in the figures may be implemented in hardware, software, or a combination of hardware and software, including one or more signal processing and / or application specific integrated circuits.
  • the RF circuit 605 is mainly used to establish communication between the mobile phone and the wireless network (that is, the network side), and to realize data reception and transmission between the mobile phone and the wireless network. For example, sending and receiving short messages, e-mail, etc. Specifically, the RF circuit 605 receives and transmits RF signals, which are also called electromagnetic signals. The RF circuit 605 converts electrical signals into electromagnetic signals or converts electromagnetic signals into electrical signals, and communicates with the communication network and other devices through the electromagnetic signals Communicate.
  • the RF circuit 605 may include known circuits for performing these functions, including but not limited to antenna systems, RF transceivers, one or more amplifiers, tuners, one or more oscillators, digital signal processors, CODEC ( COder-DECoder (codec) chipset, subscriber identity module (Subscriber Identity Module, SIM), etc.
  • CODEC COder-DECoder (codec) chipset
  • subscriber identity module Subscriber Identity Module, SIM
  • the voice noise reduction device, storage medium, and mobile terminal provided in the above embodiments may execute the voice noise reduction method provided in any embodiment of the present application, and have corresponding function modules and beneficial effects for performing the method.
  • voice noise reduction method provided in any embodiment of the present application.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephone Function (AREA)

Abstract

语音降噪方法、存储介质和移动终端。方法包括:接收基于耳机单麦克风采集的语音信号(101),提取语音信号的初始幅度谱和相位谱,将初始幅度谱传输至预先训练的降噪模型中,得到第一降噪幅度谱(102),对第一降噪幅度谱进行掩蔽处理,生成第二降噪幅度谱(103),对第二降噪幅度谱和相位谱进行重组,生成第一降噪语音(104)。

Description

语音降噪方法、存储介质和移动终端
本申请要求于2018年10月30日提交中国专利局、申请号为201811273582.5、申请名称为“语音降噪方法、装置、存储介质和移动终端”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请实施例涉及语音处理技术领域,尤其涉及一种语音降噪方法、存储介质及移动终端。
背景技术
随着手机等移动终端的快速发展,耳机成为手机等移动终端的重要组成部分,可通过耳机实现音频播放、语音即时通讯、拨打和接听电话等功能,被越来越多的用户接受和使用。
在拨打电话过程中,通过耳机麦克风采集语音信号,将语音信号发送至移动终端,通过上行通路将语音信号发送至对方电话。但是耳机一般是通过单麦克风拾取声音,降噪能力差,当用户在诸如地铁、公交车等嘈杂的公共场所拨打电话时,通过耳机麦克风采集的语音信号噪声大,且无法对采集的语音信号进行高质量的降噪,通话质量差。
发明内容
本申请实施例提供语音降噪方法、存储介质及移动终端,对耳机麦克风采集的语音信号进行高质量降噪,提高通话质量。
第一方面,本申请实施例提供了一种语音降噪方法,其包括:
接收基于耳机单麦克风采集的语音信号;
提取所述语音信号的初始幅度谱和相位谱,将所述初始幅度谱传输至预先训练的降噪模型中,得到第一降噪幅度谱;
对所述第一降噪幅度谱进行掩蔽处理,生成第二降噪幅度谱;
对所述第二降噪幅度谱和所述相位谱进行重组,生成第一降噪语音。
第二方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的语音降噪方法。
第三方面,本申请实施例提供了一种移动终端,其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的语音降噪方法。
附图说明
图1为本申请实施例提供的一种语音降噪方法的流程示意图;
图2为本申请实施例提供的另一种语音降噪方法的流程示意图;
图3为本申请实施例提供的另一种语音降噪方法的流程示意图;
图4为本申请实施例提供的一种语音降噪装置的结构示意图;
图5为本申请实施例提供的一种移动终端的结构示意图;
图6为本申请实施例提供的另一种移动终端的结构示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本申请的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
本申请实施例提供一种语音降噪方法,其包括:
接收基于耳机单麦克风采集的语音信号;
提取所述语音信号的初始幅度谱和相位谱,将所述初始幅度谱传输至预先训练的降噪模型中,得到第一降噪幅度谱;
对所述第一降噪幅度谱进行掩蔽处理,生成第二降噪幅度谱;以及
对所述第二降噪幅度谱和所述相位谱进行重组,生成第一降噪语音。
其中,所述降噪模型为深度神经网络模型或者生成式对抗网络模型。
其中,所述神经网络模型训练过程包括:
基于干净语音加入噪声信号生成加噪语音;
将所述干净语音和所述加噪语音作为样本输入待训练的神经网络模型;
所述加噪语音经所述待训练的神经网络模型处理得到降噪语音;
将所述降噪语音与所述干净语音进行比对;
当所述降噪语音与所干净语音的相似度未达到预设相似度时,根据所述降噪语音与所述干净语音的偏差反向调节所述待训练的神经网络模型中的权重参数,直至调节权重参数后的待训练的神经网络模型处理得到的降噪语音与所述干净语音相似度达到预设相似度;以及
将得到降噪语音与所述干净语音相似度达到预设相似度的待训练的神经网络模型作为训练好的模型。
其中,所述生成式对抗网络模型包括生成子网络和判别子网络,所述生成子网络用于对输入的幅度谱进行降噪处理,所述判别子网络用于对输入的幅度谱进行判别,确定是否包含噪声信号。
其中,将所述初始幅度谱传输至预先训练的降噪模型中,得到第一降噪幅度谱包括:
将所述初始幅度谱输入所述判别子网络,并根据所述判别子网络的输出结果确定所述初始幅度谱中是否包括噪声信号;
若是,则将所述初始幅度谱输入所述生成子网络得到第一降噪幅度谱;
若否,则确定所述语音信号为干净信号。
其中,将所述初始幅度谱输入所述生成子网络得到第一降噪幅度谱之后还包括:
将所述第一降噪幅度谱输入至所述判别子网络中,并根据所述判断子网络的输出结果得到所述第一降噪幅度谱中包括噪声信号的概率;
当所述概率大于预设值时,将所述第一降噪幅度谱输入至所述生成子网络进行二次降噪,得到二次降噪后的第一降噪幅度谱。
其中,对所述第一降噪幅度谱进行掩蔽处理,生成第二降噪幅度谱,包括:
将所述第一降噪幅度谱中当前信号帧的各频点的幅度值与所述第二降噪幅度谱中上一信号帧的对应频点的幅度值进行平滑处理,生成当前信号帧的第 二降噪幅度谱。
其中,将所述第一降噪幅度谱中当前信号帧的各频点的幅度值与所述第二降噪幅度谱中上一信号帧的对应频点的幅度值进行平滑处理,满足如下公式:
Figure PCTCN2019107579-appb-000001
其中,掩蔽系数λ(m,k)满足如下公式:
Figure PCTCN2019107579-appb-000002
且,
Figure PCTCN2019107579-appb-000003
其中,
Figure PCTCN2019107579-appb-000004
为第二降噪幅度谱,
Figure PCTCN2019107579-appb-000005
为第一降噪幅度谱,m为语音信号的帧数,k为频点,σ为标准差。
其中,所述语音信号的初始幅度谱和相位谱基于对所述语音信号进行短时傅里叶变换生成;
所述降噪语音基于对重组后的第二降噪幅度谱和所述相位谱进行短时傅里叶逆变换生成。
其中,所述方法还包括:
接收下行通路传输的通话语音信号,对所述通话语音信号进行噪声估计;
根据噪声估计确定所述通话语音信号包括噪声信号时,将所述通话语音信号的幅度谱输入至预先训练的降噪模型中,得到第三降噪幅度谱;
根据第三降噪幅度谱生成第二降噪语音,并将所述第二降噪语音进行播放。
其中,所述对所述通话语音信号进行噪声估计,包括:
将所述通话语音信号与预设的模板信号进行比对,计算所述通话语音信号与预设的模板信号的功率差,根据所述功率差确定所述通话语音信号是否包括噪声信号;或者,
将所述通话语音信号输入至生成式对抗网络模型的判别子模型中,根据所述判别子模型的输出结果确定所述通话语音信号是否包括噪声信号,其中,所述判别子模型用于对输入语音进行噪声估计。
其中,所述接收基于耳机单麦克风采集的语音信号包括:
接收基于耳机单麦克风采集的一段或多段语音信号。
其中,所述接收基于耳机单麦克风采集的一段或多段语音信号包括:
通过固定间隔时间对耳机单麦克风采集的模拟信号分段,以得到所述一段或多段语音信号。
其中,所述接收基于耳机单麦克风采集的一段或多段语音信号包括:
通过耳机单麦克风采集的模拟信号的信号强度进行分段,以得到所述一段或多段语音信号。
本申请实施例还一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述任一实施例所述的语音降噪方法。
本申请实施例还一种移动终端,其包括存储器、处理器及存储在存储器上并可在处理器运行的计算机程序,其中,所述处理器与所述存储器连接,所述处理器通过调用所述计算机程序,所述处理器执行:
接收基于耳机单麦克风采集的语音信号;
提取所述语音信号的初始幅度谱和相位谱,将所述初始幅度谱传输至预先训练的降噪模型中,得到第一降噪幅度谱;
对所述第一降噪幅度谱进行掩蔽处理,生成第二降噪幅度谱;以及
对所述第二降噪幅度谱和所述相位谱进行重组,生成第一降噪语音。
其中,所述降噪模型为深度神经网络模型或者生成式对抗网络模型。
其中,在对所述第一降噪幅度谱进行掩蔽处理,生成第二降噪幅度谱中,所述处理器还执行:
将所述第一降噪幅度谱中当前信号帧的各频点的幅度值与所述第二降噪幅度谱中上一信号帧的对应频点的幅度值进行平滑处理,生成当前信号帧的第二降噪幅度谱。
其中,所述处理器还执行:
将所述第一降噪幅度谱中当前信号帧的各频点的幅度值与所述第二降噪幅度谱中上一信号帧的对应频点的幅度值进行平滑处理,满足如下公式:
Figure PCTCN2019107579-appb-000006
其中,掩蔽系数λ(m,k)满足如下公式:
Figure PCTCN2019107579-appb-000007
且,
Figure PCTCN2019107579-appb-000008
其中,
Figure PCTCN2019107579-appb-000009
为第二降噪幅度谱,
Figure PCTCN2019107579-appb-000010
为第一降噪幅度谱,m为语音信号的帧数,k为频点,σ为标准差。
其中,所述处理器还执行:
接收下行通路传输的通话语音信号,对所述通话语音信号进行噪声估计;
根据噪声估计确定所述通话语音信号包括噪声信号时,将所述通话语音信号的幅度谱输入至预先训练的降噪模型中,得到第三降噪幅度谱;
根据第三降噪幅度谱生成第二降噪语音,并将所述第二降噪语音进行播放。
图1为本申请实施例提供的一种语音降噪方法的流程示意图,该方法可以由语音降噪装置执行,其中该装置可由软件和/或硬件实现,一般可集成在移动终端中。如图1所示,该方法包括:
步骤101、接收基于耳机单麦克风采集的语音信号。
步骤102、提取所述语音信号的初始幅度谱和相位谱,将所述初始幅度谱传输至预先训练的降噪模型中,得到第一降噪幅度谱。
步骤103、对所述第一降噪幅度谱进行掩蔽处理,生成第二降噪幅度谱。
步骤104、对所述第二降噪幅度谱和所述相位谱进行重组,生成第一降噪语音。
示例性的,本申请实施例中的移动终端可包括手机和平板电脑等具有通话功能的智能设备。本实施例中的耳机可以与移动终端有线连接或无线连接,将采集的语音信号发送至移动终端。需要说明的是,基于耳机中设置的单麦克风采集语音信号,减少耳机中麦克风数量,降低硬件成本。
耳机麦克风采集模拟信号后,基于模数转换器将采集的语音信号进行模数转换,得到数字语音信号,将数字语音信号传输至移动终端。可选的,耳机将采集的模拟信号进行分段,将处理后的每一段语音信号实时传输至移动终端。例如,可以将每两次信号强度为0的时间点之间的模拟信号划分为一个信号段。可选的,对模拟信号进行分段包括:以麦克风采集语音信号启动时刻为起始时刻,记为开始时间点t0;查找模拟信号中开始时间点t0后的第一次出现的信号强度为0的信号的时间点,将开始时间点t0后的第一次出现的信号强度为0 的信号的时间点作为结束时间点t1;将开始时间点t0和结束时间点t1之间的模拟信号划分为一个信号段;继续检测是否存在信号强度为0的信号,若是,则将结束时间点t1后的第一次出现的信号强度为0的信号的时间点,将结束时间点t1后的第一次出现的信号强度为0的信号的时间点作为下一信号段的开始时间点t0,并循环执行上述步骤,实时对语音采集设备采集的模拟信号进行分段。可选的,还可以是根据固定间隔时间对模拟信号进行分段。示例性的,固定间隔时间为T,以音采集设备被触发时刻为起始时刻,模拟信号的分段可以是0-T、T-2T和2T-3T等,其中,T可以是500ms或1s。
移动终端实时接收耳机发送的语音信号,对语音信号进行短时傅里叶变换,生成语音信号的初始幅度谱和相位谱。其中,初始幅度谱是语音信号的幅度值随频率的变化曲线,相位谱是语音信号的相位随频率变化的曲线。本实施例中,基于降噪模型对初始幅度谱进行处理,以实现对语音信号降噪的功能,同时相位谱不变,保证了降噪后语音信号的准确度。
可选的,所述降噪模型为具有降噪功能的深度神经网络模型(Deep Neural Networks,DNN)或者生成式对抗网络模型(Generative Adversarial Net,GAN)。对于具有降噪功能的DNN网络模型,通过大量样本训练生成。其中样本包括干净语音和基于干净语音加入噪声信号生成的加噪语音,DNN网络模型可以是通过监督学习的方式训练得到,具体的将加噪语音输入至待训练的DNN降噪模型中,基于待训练的DNN降噪模型,得到经处理的降噪语音,将该降噪语音与干净语音进行比对,当降噪语音与干净语音不同时,根据降噪语音与干净语音的偏差反向调节DNN降噪模型中的权重参数,迭代执行上述训练过程,直到DNN降噪模型的输出的降噪语音与干净语音达到预设相似度。训练完成的DNN降噪模型具有语音降噪功能,将移动终端接收的语音信号的初始幅度谱输入至训练完成的DNN降噪模型后,可得到该语音信号的第一降噪幅度谱。
对于具有降噪功能的GAN网络模型,包括生成子网络和判别子网络,生成子网络用于对输入的幅度谱进行降噪处理,判别子网络用于对输入的幅度谱进行判别,确定是否包含噪声信号。例如基于训练样本先对判别子模型进行训练,通过调整网络参数提高判别子模型的判别精度,当判别子模型训练完成后,固定判别子模型的网络参数,对生成子模型进行训练,调节生成子模型的网络 参数,使得生成子模型输出幅度谱中包含噪声信号的判别概率下降。循环上述训练过程,当判别子模型和生成子模型的输出结果满足预设误差时,确定生成式对抗网络模型训练完成。当GAN网络模型训练完成后,将初始幅度谱输入至GAN网络模型的生成子模型,将生成子模型输入的幅度谱确定为第一降噪幅度谱。可选的,在对初始幅度谱进行处理之前,还可以是将初始幅度谱输入至GAN网络模型的判别子模型中,根据判别子模型的输出结果确定初始幅度谱中是否包括噪声信号,若是,则将初始幅度谱输入至GAN网络模型的生成子模型,若否,则确定耳机采集的语音信号为干净信号,无需进行降噪处理。在一些实施例中,还可以是将第一降噪幅度谱输入至GAN网络模型的判别子模型中,根据判别子模型的输出结果中第一降噪幅度谱中包括噪声信号的概率大于预设值时,对第一降噪幅度谱循环输入至GAN网络模型的生成子模型,进行二次降噪,直到输出结果满足预设要求。经过对第一降噪幅度谱的检测,提高了降噪精度,进一步提高了处理后语音信号的清晰度。
在本实施例中,在确定第一降噪幅度谱之后,对第一降噪幅度谱进行掩蔽处理,用于提高语音信号的质量,避免在降噪处理导致的信号失真。掩蔽处理用于对去第一降噪幅度谱中的失真信号进行补偿。可选的,根据第一降噪幅度谱判断是否存在信号失真,若否,则省略步骤103,将第一降噪幅度谱与相位谱进行重组,得到第一降噪语音;若是,对所述第一降噪幅度谱进行掩蔽处理,得到第二降噪幅度谱,对第二降噪幅度谱和相位谱进行重组,并进行短时傅里叶逆变换生成第一降噪语音。
在得到第一降噪语音之后,将第一降噪语音进行传输。示例性的,移动终端处理通话状态,则将第一降噪语音传输至通话的上行通路,传输到对方移动终端。示例性的,移动终端处理即时通讯状态,将第一降噪语音发送至即时通讯服务器,传输至对方移动终端。实现对耳机采集的语音信号的快速高精度降噪,提高通话质量。
本申请实施例中提供的语音降噪方法,通过接收基于耳机单麦克风采集的语音信号,提取所述语音信号的初始幅度谱和相位谱,将所述初始幅度谱传输至预先训练的降噪模型中,得到第一降噪幅度谱,对所述第一降噪幅度谱进行掩蔽处理,生成第二降噪幅度谱,对所述第二降噪幅度谱和所述相位谱进行 重组,生成第一降噪语音。通过采用上述方案,保持语音信号的相位谱不变,基于降噪模型对语音信号的幅度谱进行降噪处理,并对处理得到的第一降噪幅度谱进行掩蔽处理,消除降噪过程中的失真问题,解决了在嘈杂环境下采集的语音信号噪声大的问题,实现对耳机采集的语音信号的快速高精度降噪。
图2为本申请实施例提供的另一种语音降噪方法的流程示意图,参见图2,本实施例的方法包括如下步骤:
步骤201、接收基于耳机单麦克风采集的语音信号。
步骤202、提取所述语音信号的初始幅度谱和相位谱,将所述初始幅度谱传输至预先训练的降噪模型中,得到第一降噪幅度谱。
步骤203、将所述第一降噪幅度谱中当前信号帧的各频点的幅度值与所述第二降噪幅度谱中上一信号帧的对应频点的幅度值进行平滑处理,生成当前信号帧的第二降噪幅度谱。
步骤204、对所述第二降噪幅度谱和所述相位谱进行重组,生成第一降噪语音。
在本实施例中,对第一降噪幅度谱进行掩蔽处理过程中,以信号帧为单位进行处理,对于任意信号帧,基于前一信号帧中第二降噪幅度谱对当前信号帧的第一降噪幅度谱进行平滑处理,具体的,对当前信号帧中的任意频点,将该频点的幅度值与上一信号帧中第二降噪幅度谱中该频点的幅度值进行平滑处理,得到当前信号帧第二降噪幅度谱中该频点的幅度值。其中,进行平滑处理的掩蔽系数可以是固定的预设值,还可以是根据实时变化的幅度值确定。
可选的,对第一降噪幅度谱进行掩蔽处理满足如下公式:
Figure PCTCN2019107579-appb-000011
其中,λ(m,k)为掩蔽系数,该掩蔽系数满足如下公式:
Figure PCTCN2019107579-appb-000012
且,
Figure PCTCN2019107579-appb-000013
其中,
Figure PCTCN2019107579-appb-000014
为第二降噪幅度谱,
Figure PCTCN2019107579-appb-000015
为第一降噪幅度谱,m为语音信号的帧数,k为频点,σ为标准差。
本申请实施例中提供的语音降噪方法,通过对第一降噪幅度谱进行掩蔽处理,避免降噪处理导致的信号失真,提高降噪语音信号质量。
图3为本申请实施例提供的另一种语音降噪方法的流程示意图,本实施例是上述实施例的一个可选方案,相应的,如图3所示,本实施例的方法包括如下步骤:
步骤301、接收基于耳机单麦克风采集的语音信号。
步骤302、提取所述语音信号的初始幅度谱和相位谱,将所述初始幅度谱传输至预先训练的降噪模型中,得到第一降噪幅度谱。
步骤303、对所述第一降噪幅度谱进行掩蔽处理,生成第二降噪幅度谱。
步骤304、对所述第二降噪幅度谱和所述相位谱进行重组,生成第一降噪语音,将第一降噪语音发送到通话的上行通路,传输到对方移动终端。
步骤305、接收下行通路传输的通话语音信号,对所述通话语音信号进行噪声估计。
步骤306、根据噪声估计确定所述通话语音信号包括噪声信号时,将所述通话语音信号的幅度谱输入至预先训练的降噪模型中,得到第三降噪幅度谱。
步骤307、根据第三降噪幅度谱生成第二降噪语音,并将所述第二降噪语音进行播放。
在本实施例中,步骤301至步骤304用于采集语音信号,对语音信号进行降噪后,传输至对方移动终端,实现通话过程中语音信号的发送;步骤305至步骤307用于接收对方移动终端发送的语音信号,当该语音信号存在噪声信号时,对接收的语音信号进行降噪后,基于耳机或者移动终端中的扬声器进行播放,实现通话过程中语音信号的接收。
其中,在步骤305中,接收下行通路传输的通话语音信号,对通话语音信号进行噪声估计,当通话语音信号为干净语音信号,不包括噪声信号时,将该通话语音信号进行播放。当通话语音信号包括噪声信号时,对通话语音信号进行短时傅里叶变换,得到通话语音信号的幅度谱和相位谱,将基于预先训练的降噪模型对通话语音信号的幅度谱进行降噪处理,得到第三降噪幅度谱,将第三降噪幅度谱和通话语音信号的相位谱进行重组,并进行短时傅里叶逆变换,得到第二降噪语音,将第二降噪语音发送至移动终端或耳机的扬声器进行播放。通过对通话语音信号进行噪声估计,对包含噪声信号的通话语音信号进行有针对性的降噪处理,避免对干净语音信号进行无效的降噪处理,提高语音信号处 理效率,避免通信延时,提高通话质量。
在本实施例中,当应用GAN网络模型的生成子模型对语音信号进行降噪处理时,基于应用GAN网络模型的判别子模型对通话语音信号进行噪声估计。所述对所述通话语音信号进行噪声估计,包括:将所述通话语音信号输入至生成式对抗网络模型的判别子模型中,根据所述判别子模型的输出结果确定所述通话语音信号是否包括噪声信号,其中,所述判别子模型用于对输入语音进行噪声估计,基于同一GAN网络模型分别对语音信号进行噪声估计和降噪处理,无需分别设置不同的网络模型,不仅提高了信号处理效率,还节省了网络模型占用的内存资源。
在一些实施例中,所述对所述通话语音信号进行噪声估计,包括:将所述通话语音信号与预设的模板信号进行比对,计算所述通话语音信号与预设的模板信号的功率差,根据所述功率差确定所述通话语音信号是否包括噪声信号。其中,移动终端中可以是存储多个不同语音内容的模板信号,选择与通话语音信号的语音内容相近的模板信息对通话语音信号进行噪声评估。示例性的,通话语音信号与预设的模板信号的功率差越大,表明通话语音信号包括噪声信号越多,通话语音信号与预设的模板信号的功率差越小,表明通话语音信号包括噪声信号越少。设置功率阈值,当通话语音信号与预设的模板信号的功率差大于或等于功率阈值时,确定所述通话语音信号包括噪声信号,当通话语音信号与预设的模板信号的功率差小于功率阈值时,确定通话语音信号不包括噪声信号,即通话语音信号为干净语音信号。其中,功率阈值可以是根据用户需求设置,若要求高质量通话,则设置较小的功率阈值。可以是在接收基于耳机单麦克风采集的语音信号之后,对采集的语音信号进行噪声评估,当确定语音信号中不包括噪声信号时,直接将采集的语音信号发送到通话的上行通路,传输到对方移动终端。
需要说明的是,本实施例中不限定步骤301至步骤304和步骤305至步骤307的执行顺序,在其他实施例中,还可以是先执行步骤305至步骤307,再执行步骤301至步骤304。
本申请实施例中提供的语音降噪方法,通过在通过状态下,对耳机采集的语音信号以及对方移动终端发送的通话语音信号进行判断,当包含噪声信号时, 基于预设的降噪模型进行降噪处理,解决了在嘈杂环境下通话时通话质量差的问题,提高了降噪精度和通话质量。
图4为本申请实施例提供的一种语音降噪装置的结构框图,该装置可由软件和/或硬件实现,一般集成在移动终端中,可通过执行移动终端的语音降噪方法来对桌面布局进行编辑。如图4所示,该装置包括:语音接收模块401、第一降噪幅度谱生成模块402、第二降噪幅度谱生成模块403和第一降噪语音生成模块404。
语音接收模块401,用于接收基于耳机单麦克风采集的语音信号;
第一降噪幅度谱生成模块402,用于提取所述语音信号的初始幅度谱和相位谱,将所述初始幅度谱传输至预先训练的降噪模型中,得到第一降噪幅度谱;
第二降噪幅度谱生成模块403,用于对所述第一降噪幅度谱进行掩蔽处理,生成第二降噪幅度谱;
第一降噪语音生成模块404,用于对所述第二降噪幅度谱和所述相位谱进行重组,生成第一降噪语音。
本申请实施例中提供的语音降噪装置,保持语音信号的相位谱不变,基于降噪模型对语音信号的幅度谱进行降噪处理,并对处理得到的第一降噪幅度谱进行掩蔽处理,消除降噪过程中的失真问题,解决了在嘈杂环境下采集的语音信号噪声大的问题,实现对耳机采集的语音信号的快速高精度降噪。
在上述实施例的基础上,所述降噪模型为深度神经网络模型或者生成式对抗网络模型。
在上述实施例的基础上,第二降噪幅度谱生成模块403用于:
将所述第一降噪幅度谱中当前信号帧的各频点的幅度值与所述第二降噪幅度谱中上一信号帧的对应频点的幅度值进行平滑处理,生成当前信号帧的第二降噪幅度谱。
在上述实施例的基础上,第二降噪幅度谱生成模块403满足如下公式:
Figure PCTCN2019107579-appb-000016
其中,掩蔽系数λ(m,k)满足如下公式:
Figure PCTCN2019107579-appb-000017
且,
Figure PCTCN2019107579-appb-000018
其中,
Figure PCTCN2019107579-appb-000019
为第二降噪幅度谱,
Figure PCTCN2019107579-appb-000020
为第一降噪幅度谱,m为语音信号的帧数,k为频点,σ为标准差。
在上述实施例的基础上,所述语音信号的初始幅度谱和相位谱基于对所述语音信号进行短时傅里叶变换生成;
所述降噪语音基于对重组后的第二降噪幅度谱和所述相位谱进行短时傅里叶逆变换生成。
在上述实施例的基础上,还包括:
噪声估计模块,用于接收下行通路传输的通话语音信号,对所述通话语音信号进行噪声估计;
第三降噪幅度谱生成模块,用于根据噪声估计确定所述通话语音信号包括噪声信号时,将所述通话语音信号的幅度谱输入至预先训练的降噪模型中,得到第三降噪幅度谱;
第二降噪语音生成模块,用于根据第三降噪幅度谱生成第二降噪语音,并将所述第二降噪语音进行播放。
在上述实施例的基础上,噪声估计模块用于:
将所述通话语音信号与预设的模板信号进行比对,计算所述通话语音信号与预设的模板信号的功率差,根据所述功率差确定所述通话语音信号是否包括噪声信号。
在上述实施例的基础上,噪声估计模块用于:
将所述通话语音信号输入至生成式对抗网络模型的判别子模型中,根据所述判别子模型的输出结果确定所述通话语音信号是否包括噪声信号,其中,所述判别子模型用于对输入语音进行噪声估计。
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行语音降噪方法,该方法包括:
接收基于耳机单麦克风采集的语音信号;
提取所述语音信号的初始幅度谱和相位谱,将所述初始幅度谱传输至预先训练的降噪模型中,得到第一降噪幅度谱;
对所述第一降噪幅度谱进行掩蔽处理,生成第二降噪幅度谱;
对所述第二降噪幅度谱和所述相位谱进行重组,生成第一降噪语音。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的语音降噪操作,还可以执行本申请任意实施例所提供的语音降噪方法中的相关操作。
本申请实施例提供了一种移动终端,该移动终端中可集成本申请实施例提供的语音降噪装置。图5为本申请实施例提供的一种移动终端的结构示意图。移动终端500可以包括:存储器501,处理器502及存储在存储器501上并可在处理器502运行的计算机程序,所述处理器502执行所述计算机程序时实现如本申请实施例所述的语音降噪方法。
本申请实施例提供的移动终端,保持语音信号的相位谱不变,基于降噪模型对语音信号的幅度谱进行降噪处理,并对处理得到的第一降噪幅度谱进行掩蔽处理,消除降噪过程中的失真问题,解决了在嘈杂环境下采集的语音信号噪声大的问题,实现对耳机采集的语音信号的快速高精度降噪。
图6为本申请实施例提供的另一种移动终端的结构示意图。该移动终端可以包括:壳体(图中未示出)、存储器601、中央处理器(central processing unit,CPU)602(又称处理器,以下简称CPU)、电路板(图中未示出)和电源电路(图中未示出)。所述电路板安置在所述壳体围成的空间内部;所述CPU602 和所述存储器601设置在所述电路板上;所述电源电路,用于为所述移动终端的各个电路或器件供电;所述存储器601,用于存储可执行程序代码;所述CPU602通过读取所述存储器601中存储的可执行程序代码来运行与所述可执行程序代码对应的计算机程序,以实现以下步骤:
接收基于耳机单麦克风采集的语音信号;
提取所述语音信号的初始幅度谱和相位谱,将所述初始幅度谱传输至预先训练的降噪模型中,得到第一降噪幅度谱;
对所述第一降噪幅度谱进行掩蔽处理,生成第二降噪幅度谱;
对所述第二降噪幅度谱和所述相位谱进行重组,生成第一降噪语音。
所述移动终端还包括:外设接口603、RF(Radio Frequency,射频)电路605、音频电路606、扬声器611、电源管理芯片608、输入/输出(I/O)子系统609、其他输入/控制设备610、触摸屏612、其他输入/控制设备610以及外部端口604,这些部件通过一个或多个通信总线或信号线607来通信。
应该理解的是,图示移动终端600仅仅是移动终端的一个范例,并且移动终端600可以具有比图中所示出的更多的或者更少的部件,可以组合两个或更多的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
下面就本实施例提供的用于对语音降噪操作的移动终端进行详细的描述,该移动终端以手机为例。
存储器601,所述存储器601可以被CPU602、外设接口603等访问,所述存储器601可以包括高速随机存取存储器,还可以包括非易失性存储器,例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
外设接口603,所述外设接口603可以将设备的输入和输出外设连接到CPU602和存储器601。
I/O子系统609,所述I/O子系统609可以将设备上的输入输出外设,例如触摸屏612和其他输入/控制设备610,连接到外设接口603。I/O子系统609可以包括显示控制器6091和用于控制其他输入/控制设备610的一个或多个输入控制器6092。其中,一个或多个输入控制器6092从其他输入/控制设备610 接收电信号或者向其他输入/控制设备610发送电信号,其他输入/控制设备610可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是,输入控制器6092可以与以下任一个连接:键盘、红外端口、USB接口以及诸如鼠标的指示设备。
触摸屏612,所述触摸屏612是用户移动终端与用户之间的输入接口和输出接口,将可视输出显示给用户,可视输出可以包括图形、文本、图标、视频等。
I/O子系统609中的显示控制器6091从触摸屏612接收电信号或者向触摸屏612发送电信号。触摸屏612检测触摸屏上的接触,显示控制器6091将检测到的接触转换为与显示在触摸屏612上的用户界面对象的交互,即实现人机交互,显示在触摸屏612上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。值得说明的是,设备还可以包括光鼠,光鼠是不显示可视输出的触摸敏感表面,或者是由触摸屏形成的触摸敏感表面的延伸。
RF电路605,主要用于建立手机与无线网络(即网络侧)的通信,实现手机与无线网络的数据接收和发送。例如收发短信息、电子邮件等。具体地,RF电路605接收并发送RF信号,RF信号也称为电磁信号,RF电路605将电信号转换为电磁信号或将电磁信号转换为电信号,并且通过该电磁信号与通信网络以及其他设备进行通信。RF电路605可以包括用于执行这些功能的已知电路,其包括但不限于天线系统、RF收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、CODEC(COder-DECoder,编译码器)芯片组、用户标识模块(Subscriber Identity Module,SIM)等等。
音频电路606,主要用于从外设接口603接收音频数据,将该音频数据转换为电信号,并且将该电信号发送给扬声器611。
扬声器611,用于将手机通过RF电路605从无线网络接收的语音信号,还原为声音并向用户播放该声音。
电源管理芯片608,用于为CPU602、I/O子系统及外设接口所连接的硬件进行供电及电源管理。
上述实施例中提供的语音降噪装置、存储介质及移动终端可执行本申请任意实施例所提供的语音降噪方法,具备执行该方法相应的功能模块和有益效果。 未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的语音降噪方法。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (20)

  1. 一种语音降噪方法,包括:
    接收基于耳机单麦克风采集的语音信号;
    提取所述语音信号的初始幅度谱和相位谱,将所述初始幅度谱传输至预先训练的降噪模型中,得到第一降噪幅度谱;
    对所述第一降噪幅度谱进行掩蔽处理,生成第二降噪幅度谱;以及
    对所述第二降噪幅度谱和所述相位谱进行重组,生成第一降噪语音。
  2. 根据权利要求1所述的方法,其中,所述降噪模型为深度神经网络模型或者生成式对抗网络模型。
  3. 根据权利要求2所述的方法,其中,所述神经网络模型训练过程包括:
    基于干净语音加入噪声信号生成加噪语音;
    将所述干净语音和所述加噪语音作为样本输入待训练的神经网络模型;
    所述加噪语音经所述待训练的神经网络模型处理得到降噪语音;
    将所述降噪语音与所述干净语音进行比对;
    当所述降噪语音与所干净语音的相似度未达到预设相似度时,根据所述降噪语音与所述干净语音的偏差反向调节所述待训练的神经网络模型中的权重参数,直至调节权重参数后的待训练的神经网络模型处理得到的降噪语音与所述干净语音相似度达到预设相似度;以及
    将得到降噪语音与所述干净语音相似度达到预设相似度的待训练的神经网络模型作为训练好的模型。
  4. 根据权利要求2所述的方法,其中,所述生成式对抗网络模型包括生成子网络和判别子网络,所述生成子网络用于对输入的幅度谱进行降噪处理,所述判别子网络用于对输入的幅度谱进行判别,确定是否包含噪声信号。
  5. 根据权利要求4所述的方法,其中,将所述初始幅度谱传输至预先训练的降噪模型中,得到第一降噪幅度谱包括:
    将所述初始幅度谱输入所述判别子网络,并根据所述判别子网络的输出结果确定所述初始幅度谱中是否包括噪声信号;
    若是,则将所述初始幅度谱输入所述生成子网络得到第一降噪幅度谱;
    若否,则确定所述语音信号为干净信号。
  6. 根据权利要求5所述的方法,其中,将所述初始幅度谱输入所述生成 子网络得到第一降噪幅度谱之后还包括:
    将所述第一降噪幅度谱输入至所述判别子网络中,并根据所述判断子网络的输出结果得到所述第一降噪幅度谱中包括噪声信号的概率;
    当所述概率大于预设值时,将所述第一降噪幅度谱输入至所述生成子网络进行二次降噪,得到二次降噪后的第一降噪幅度谱。
  7. 根据权利要求1所述的方法,其中,对所述第一降噪幅度谱进行掩蔽处理,生成第二降噪幅度谱,包括:
    将所述第一降噪幅度谱中当前信号帧的各频点的幅度值与所述第二降噪幅度谱中上一信号帧的对应频点的幅度值进行平滑处理,生成当前信号帧的第二降噪幅度谱。
  8. 根据权利要求7所述的方法,其中,将所述第一降噪幅度谱中当前信号帧的各频点的幅度值与所述第二降噪幅度谱中上一信号帧的对应频点的幅度值进行平滑处理,满足如下公式:
    Figure PCTCN2019107579-appb-100001
    其中,掩蔽系数λ(m,k)满足如下公式:
    Figure PCTCN2019107579-appb-100002
    且,
    Figure PCTCN2019107579-appb-100003
    其中,
    Figure PCTCN2019107579-appb-100004
    为第二降噪幅度谱,
    Figure PCTCN2019107579-appb-100005
    为第一降噪幅度谱,m为语音信号的帧数,k为频点,σ为标准差。
  9. 根据权利要求1所述的方法,其中,所述语音信号的初始幅度谱和相位谱基于对所述语音信号进行短时傅里叶变换生成;
    所述降噪语音基于对重组后的第二降噪幅度谱和所述相位谱进行短时傅里叶逆变换生成。
  10. 根据权利要求1所述的方法,其中,所述方法还包括:
    接收下行通路传输的通话语音信号,对所述通话语音信号进行噪声估计;
    根据噪声估计确定所述通话语音信号包括噪声信号时,将所述通话语音信号的幅度谱输入至预先训练的降噪模型中,得到第三降噪幅度谱;
    根据第三降噪幅度谱生成第二降噪语音,并将所述第二降噪语音进行播放。
  11. 根据权利要求10所述的方法,其中,所述对所述通话语音信号进行噪声估计,包括:
    将所述通话语音信号与预设的模板信号进行比对,计算所述通话语音信号与预设的模板信号的功率差,根据所述功率差确定所述通话语音信号是否包括噪声信号;或者,
    将所述通话语音信号输入至生成式对抗网络模型的判别子模型中,根据所述判别子模型的输出结果确定所述通话语音信号是否包括噪声信号,其中,所述判别子模型用于对输入语音进行噪声估计。
  12. 根据权利要求1所述的方法,其中,所述接收基于耳机单麦克风采集的语音信号包括:
    接收基于耳机单麦克风采集的一段或多段语音信号。
  13. 根据权利要求12所述的方法,其中,所述接收基于耳机单麦克风采集的一段或多段语音信号包括:
    通过固定间隔时间对耳机单麦克风采集的模拟信号分段,以得到所述一段或多段语音信号。
  14. 根据权利要求12所述的方法,其中,
    通过耳机单麦克风采集的模拟信号的信号强度进行分段,以得到所述一段或多段语音信号。
  15. 一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-14中任一所述的语音降噪方法。
  16. 一种移动终端,包括存储器、处理器及存储在存储器上并可在处理器运行的计算机程序,其中,所述处理器与所述存储器连接,所述处理器通过调用所述计算机程序,所述处理器执行:
    接收基于耳机单麦克风采集的语音信号;
    提取所述语音信号的初始幅度谱和相位谱,将所述初始幅度谱传输至预先训练的降噪模型中,得到第一降噪幅度谱;
    对所述第一降噪幅度谱进行掩蔽处理,生成第二降噪幅度谱;以及
    对所述第二降噪幅度谱和所述相位谱进行重组,生成第一降噪语音。
  17. 根据权利要求16所述的电子设备,其中,所述降噪模型为深度神经网络模型或者生成式对抗网络模型。
  18. 根据权利要求16所述的电子设备,其中,在对所述第一降噪幅度谱进行掩蔽处理,生成第二降噪幅度谱中,所述处理器还执行:
    将所述第一降噪幅度谱中当前信号帧的各频点的幅度值与所述第二降噪幅度谱中上一信号帧的对应频点的幅度值进行平滑处理,生成当前信号帧的第二降噪幅度谱。
  19. 根据权利要求16所述的电子设备,其中,所述处理器还执行:
    将所述第一降噪幅度谱中当前信号帧的各频点的幅度值与所述第二降噪幅度谱中上一信号帧的对应频点的幅度值进行平滑处理,满足如下公式:
    Figure PCTCN2019107579-appb-100006
    其中,掩蔽系数λ(m,k)满足如下公式:
    Figure PCTCN2019107579-appb-100007
    且,
    Figure PCTCN2019107579-appb-100008
    其中,
    Figure PCTCN2019107579-appb-100009
    为第二降噪幅度谱,
    Figure PCTCN2019107579-appb-100010
    为第一降噪幅度谱,m为语音信号的帧数,k为频点,σ为标准差。
  20. 根据权利要求16所述的电子设备,其中,所述处理器还执行:
    接收下行通路传输的通话语音信号,对所述通话语音信号进行噪声估计;
    根据噪声估计确定所述通话语音信号包括噪声信号时,将所述通话语音信号的幅度谱输入至预先训练的降噪模型中,得到第三降噪幅度谱;
    根据第三降噪幅度谱生成第二降噪语音,并将所述第二降噪语音进行播放。
PCT/CN2019/107579 2018-10-30 2019-09-24 语音降噪方法、存储介质和移动终端 WO2020088154A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811273582.5 2018-10-30
CN201811273582.5A CN109119093A (zh) 2018-10-30 2018-10-30 语音降噪方法、装置、存储介质及移动终端

Publications (1)

Publication Number Publication Date
WO2020088154A1 true WO2020088154A1 (zh) 2020-05-07

Family

ID=64854717

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/107579 WO2020088154A1 (zh) 2018-10-30 2019-09-24 语音降噪方法、存储介质和移动终端

Country Status (2)

Country Link
CN (1) CN109119093A (zh)
WO (1) WO2020088154A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700786A (zh) * 2020-12-29 2021-04-23 西安讯飞超脑信息科技有限公司 语音增强方法、装置、电子设备和存储介质

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119093A (zh) * 2018-10-30 2019-01-01 Oppo广东移动通信有限公司 语音降噪方法、装置、存储介质及移动终端
CN111477237B (zh) * 2019-01-04 2022-01-07 北京京东尚科信息技术有限公司 音频降噪方法、装置和电子设备
CN110517708A (zh) * 2019-09-02 2019-11-29 平安科技(深圳)有限公司 一种音频处理方法、装置及计算机存储介质
CN110751960B (zh) * 2019-10-16 2022-04-26 北京网众共创科技有限公司 噪声数据的确定方法及装置
CN110797041B (zh) * 2019-10-21 2023-05-12 珠海市杰理科技股份有限公司 语音降噪处理方法、装置、计算机设备及存储介质
CN110795892B (zh) * 2019-10-23 2021-10-01 北京邮电大学 一种基于生成对抗网络的信道模拟方法及装置
CN111128230B (zh) * 2019-12-31 2022-03-04 广州市百果园信息技术有限公司 语音信号重建方法、装置、设备和存储介质
CN111341304A (zh) * 2020-02-28 2020-06-26 广州国音智能科技有限公司 一种基于gan的说话人语音特征训练方法、装置和设备
CN111370017B (zh) * 2020-03-18 2023-04-14 苏宁云计算有限公司 一种语音增强方法、装置、系统
CN113539290B (zh) * 2020-04-22 2024-04-12 华为技术有限公司 语音降噪方法和装置
CN111933171B (zh) * 2020-09-21 2021-01-22 北京达佳互联信息技术有限公司 降噪方法及装置、电子设备、存储介质
CN112053421B (zh) * 2020-10-14 2023-06-23 腾讯科技(深圳)有限公司 信号降噪处理方法、装置、设备及存储介质
CN112382284A (zh) * 2020-10-22 2021-02-19 珠海格力电器股份有限公司 拾音降噪方法、装置及服务器
CN113823312B (zh) * 2021-02-19 2023-11-07 北京沃东天骏信息技术有限公司 语音增强模型生成方法和装置、语音增强方法和装置
CN113098901B (zh) * 2021-04-29 2022-09-09 心动互动娱乐有限公司 高并发的实时语音通话方法、系统、设备及介质
CN114007157A (zh) * 2021-10-28 2022-02-01 中北大学 一种智能降噪通信耳机
CN114220448A (zh) * 2021-12-16 2022-03-22 游密科技(深圳)有限公司 语音信号生成方法、装置、计算机设备和存储介质
CN114333882B (zh) * 2022-03-09 2022-08-19 深圳市友杰智新科技有限公司 基于幅度谱的语音降噪方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012155301A (ja) * 2011-01-21 2012-08-16 Wrk Solution Co Ltd 状況認知型音声認識方法
CN105427859A (zh) * 2016-01-07 2016-03-23 深圳市音加密科技有限公司 一种用于对说话人识别的前端语音增强方法
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
CN108346433A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN109119093A (zh) * 2018-10-30 2019-01-01 Oppo广东移动通信有限公司 语音降噪方法、装置、存储介质及移动终端

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104810024A (zh) * 2014-01-28 2015-07-29 上海力声特医学科技有限公司 一种双路麦克风语音降噪处理方法及系统
CN104200811A (zh) * 2014-08-08 2014-12-10 华迪计算机集团有限公司 对语音信号进行自适应谱减消噪处理的方法和装置
US20160111107A1 (en) * 2014-10-21 2016-04-21 Mitsubishi Electric Research Laboratories, Inc. Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System
US9607627B2 (en) * 2015-02-05 2017-03-28 Adobe Systems Incorporated Sound enhancement through deverberation
CN105405439B (zh) * 2015-11-04 2019-07-05 科大讯飞股份有限公司 语音播放方法及装置
CN107452389B (zh) * 2017-07-20 2020-09-01 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
CN107945811B (zh) * 2017-10-23 2021-06-01 北京大学 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法
CN108231086A (zh) * 2017-12-24 2018-06-29 航天恒星科技有限公司 一种基于fpga的深度学习语音增强器及方法
CN108597496B (zh) * 2018-05-07 2020-08-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012155301A (ja) * 2011-01-21 2012-08-16 Wrk Solution Co Ltd 状況認知型音声認識方法
CN105427859A (zh) * 2016-01-07 2016-03-23 深圳市音加密科技有限公司 一种用于对说话人识别的前端语音增强方法
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
CN108346433A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN109119093A (zh) * 2018-10-30 2019-01-01 Oppo广东移动通信有限公司 语音降噪方法、装置、存储介质及移动终端

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700786A (zh) * 2020-12-29 2021-04-23 西安讯飞超脑信息科技有限公司 语音增强方法、装置、电子设备和存储介质
CN112700786B (zh) * 2020-12-29 2024-03-12 西安讯飞超脑信息科技有限公司 语音增强方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN109119093A (zh) 2019-01-01

Similar Documents

Publication Publication Date Title
WO2020088154A1 (zh) 语音降噪方法、存储介质和移动终端
US20210327448A1 (en) Speech noise reduction method and apparatus, computing device, and computer-readable storage medium
WO2020088153A1 (zh) 语音处理方法、装置、存储介质和电子设备
US9640194B1 (en) Noise suppression for speech processing based on machine-learning mask estimation
JP6505252B2 (ja) 音声信号を処理するための方法及び装置
JP5911955B2 (ja) 電子デバイス上でのマスキング信号の生成
US9654874B2 (en) Systems and methods for feedback detection
CN110970057B (zh) 一种声音处理方法、装置与设备
CN111554321B (zh) 降噪模型训练方法、装置、电子设备及存储介质
CN106791067B (zh) 一种通话音量调节方法、装置及移动终端
CN109727607B (zh) 时延估计方法、装置及电子设备
WO2021114953A1 (zh) 语音信号的采集方法、装置、电子设备以及存储介质
CN107833579B (zh) 噪声消除方法、装置及计算机可读存储介质
CN109360549B (zh) 一种数据处理方法、穿戴设备和用于数据处理的装置
CN110088835B (zh) 使用相似性测度的盲源分离
JP2020115206A (ja) システム及び方法
CN109756818B (zh) 双麦克风降噪方法、装置、存储介质及电子设备
CN108449506B (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN111883091A (zh) 音频降噪方法和音频降噪模型的训练方法
CN112911441A (zh) 降噪方法、装置、音频设备和计算机可读存储介质
CN108449497B (zh) 语音通话数据处理方法、装置、存储介质及移动终端
JP2024507916A (ja) オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム
CN109119097B (zh) 基音检测方法、装置、存储介质及移动终端
US11164591B2 (en) Speech enhancement method and apparatus
US20180277134A1 (en) Key Click Suppression

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19879910

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19879910

Country of ref document: EP

Kind code of ref document: A1