WO2020015270A1

WO2020015270A1 - 语音信号分离方法、装置、计算机设备以及存储介质

Info

Publication number: WO2020015270A1
Application number: PCT/CN2018/118293
Authority: WO
Inventors: 张超钢
Original assignee: 广州酷狗计算机科技有限公司
Priority date: 2018-07-20
Filing date: 2018-11-29
Publication date: 2020-01-23
Also published as: CN108962277A

Abstract

一种语音信号分离方法、装置、计算机设备以及存储介质，属于语音信号处理领域。方法包括：对待分离的音频文件的声波波形进行采样，得到音频信号（201）；将音频信号从时域转换至频域，得到音频信号的频谱，频谱仅用于表示音频信号的振幅且振幅为实数；将音频信号的频谱进行分解，得到伴奏频谱与人声频谱；将伴奏频谱与人声频谱从频域转换至时域，得到伴奏音频与人声音频（206）。利用转换时仅用实数来表示音频帧的振幅的变换算法，来进行时域到频域以及频域到时域的变换，由于变换前后均不会对相位进行变换，相位信息不受损失，因此，基于这种转换方式从音频文件中分离伴奏和人声，避免傅里叶变换频谱分解的相位失真问题。

Description

语音信号分离方法、装置、计算机设备以及存储介质

本申请要求于2018年7月20日提交的申请号为201810802835.7、发明名称为“语音信号分离方法、装置、计算机设备以及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及语言信号处理领域，特别涉及一种语音信号分离方法、装置、计算机设备以及存储介质。

背景技术

随着语音信号处理技术的不断发展,语音信号分离在人们的日常生活中得到了广泛的应用。例如，用户在使用一些K歌软件时，想结合伴奏录制自己演唱的歌曲，那么就需要使用服务器提供的歌曲伴奏，伴奏的质量直接影响到最后录制成品的效果。因此，如何进行语音信号分离，以得到伴奏音频与人声音频，对于提升伴奏音频的质量至关重要。

目前，在进行语音信号分离时，均会涉及到运用傅里叶变换将音频信号从时域转换至频域的过程，该过程可以得到复数频谱。从而，可以通过对复数频谱进行分解，得到分离出的伴奏频谱与人声频谱，再通过傅里叶反变换，得到伴奏音频与人声音频。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：由于在对复数频谱进行分解时，仅利用了振幅频谱，从而导致分离出的伴奏音频存在相位失真的现象。

发明内容

本发明实施例提供了一种语音信号分离方法、装置、计算机设备以及存储介质，能够解决语音信号分离的相位失真问题。该技术方案如下：

一方面，提供了一种语音信号分离方法，该方法包括：

对待分离的音频文件的声波波形进行采样，得到音频信号；

将该音频信号从时域转换至频域，得到该音频信号的频谱，该频谱仅用于表示该音频信号的振幅且该振幅为实数；

将该音频信号的频谱进行分解，得到伴奏频谱与人声频谱；

将该伴奏频谱与人声频谱从频域转换至时域，得到伴奏音频与人声音频。

在一种可能实现方式中，该将该音频信号从时域转换至频域，得到该音频信号的频谱，包括：

将该音频信号进行分帧处理，得到多个音频帧；

将该多个音频帧分别从时域转换至频域，得到该多个音频帧的频谱，每个音频帧的频谱仅用于表示该音频帧的振幅且振幅为实数；

将该多个音频帧的频谱进行组合，得到该音频信号的频谱。

在一种可能实现方式中，该将该音频信号进行分帧处理，得到多个音频帧，包括：

基于预设窗函数，对所述音频信号进行加窗处理，得到多个音频帧。

在一种可能实现方式中，该预设窗函数的长度与该每个音频帧的采样点数相同。

在一种可能实现方式中，每个音频帧的采样点数是帧重叠采样点数的2倍。

在一种可能实现方式中，该将该音频信号的频谱进行分解，得到伴奏频谱与人声频谱，包括：

调用预设分解模型，该预设分解模型用于基于信号频谱进行频谱分离；

将该音频信号的频谱输入该预设分解模型，输出伴奏频谱与人声频谱。

一方面，提供了一种语音信号分离装置，该装置包括：

采样模块，用于对待分离的音频文件的声波波形进行采样，得到音频信号；

第一转换模块，用于将该音频信号从时域转换至频域，得到该音频信号的频谱，该频谱仅用于表示该音频信号的振幅且该振幅为实数；

分解模块，用于将该音频信号的频谱进行分解，得到伴奏频谱与人声频谱；

第二转换模块，用于将该伴奏频谱与人声频谱从频域转换至时域，得到伴奏音频与人声音频。

在一种可能实现方式中，该第一转换模块包括：

分帧单元，用于将该音频信号进行分帧处理，得到多个音频帧；

时频转换单元，用于将该多个音频帧分别从时域转换至频域，得到该多个音频帧的频谱，每个音频帧的频谱仅用于表示该音频帧的振幅且振幅为实数；

组合单元，用于将该多个音频帧的频谱进行组合，得到该音频信号的频谱。

在一种可能实现方式中，该分帧单元用于：

在一种可能实现方式中，该分解模块用于调用预设分解模型，该预设分解模型用于基于信号频谱进行频谱分离；将该音频信号的频谱输入该预设分解模型，输出伴奏频谱与人声频谱。

一方面，提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令，该指令由该处理器加载并执行以实现如下语音信号分离方法所执行的操作：

对待分离的音频文件的声波波形进行采样，得到音频信号；

将所述音频信号从时域转换至频域，得到所述音频信号的频谱，所述频谱仅用于表示所述音频信号的振幅且所述振幅为实数；

将所述音频信号的频谱进行分解，得到伴奏频谱与人声频谱；

将所述伴奏频谱与人声频谱从频域转换至时域，得到伴奏音频与人声音频。

在一种可能实现方式中，所述处理器还用于执行下述操作：

将所述音频信号进行分帧处理，得到多个音频帧；

将所述多个音频帧分别从时域转换至频域，得到所述多个音频帧的频谱，每个音频帧的频谱仅用于表示所述音频帧的振幅且振幅为实数；

将所述多个音频帧的频谱进行组合，得到所述音频信号的频谱。

在一种可能实现方式中，所述处理器还用于执行下述操作：

在一种可能实现方式中，所述预设窗函数的长度与所述每个音频帧的采样点数相同。

在一种可能实现方式中，所述处理器还用于执行下述操作：

调用预设分解模型，所述预设分解模型用于基于信号频谱进行频谱分离；将所述音频信号的频谱输入所述预设分解模型，输出伴奏频谱与人声频谱。

一方面，提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令，该指令由处理器加载并执行以实现如上述语音信号分离方法所执行的操作。

本发明实施例提供的方法，利用转换时仅用实数来表示音频帧的振幅的变换算法，来进行时域到频域以及频域到时域的变换，由于变换前后均不会对相位进行变换，相位信息不受损失，因此，基于这种转换方式从音频文件中分离伴奏和人声，避免傅里叶变换频谱分解的相位失真问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音信号分离方法的实施场景图；

图2是本发明实施例提供的一种语音信号分离方法的流程图；

图3是本发明实施例提供的一种语音信号分离装置结构示意图；

图4是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种语音信号分离方法的实施场景图。参见图1，该实施场景内可以包括：至少一个终端101和至少一个服务器102，其中，至少一个终端101可以作为声音信号的采集终端或是音频文件的播放终端，该至少一个服务器102用于为至少一个终端101提供音频服务，例如可以提供待播放的音频文件，还可以提供诸如本发明实施例所提供方法对应的信号分离功能，以便对终端所提供的或是终端所选中的音频文件进行语音信号分离等。又例如，该至少一个服务器102还可以提供待播放的视频文件，该视频文件包括画面数据和音频文件，服务器102可以从视频文件中提取音频文件，以实现本发明实施例所提供方法对应的信号分离功能。

图2是本发明实施例提供的一种语音信号分离方法的流程图，以该实施例的执行主体为一计算机设备为例，参见图2，该实施例具体包括：

201、计算机设备对待分离的音频文件的声波波形进行采样，得到音频信号。

该待分离的音频文件可以是终端上传的音频文件，也可以是计算机设备上存储的音频文件，或是计算机设备上所存储的视频文件所包含的音频文件，当然，该计算机设备可以是服务器，也可以是任一个终端，本发明实施例对此不做限定。计算机设备在获取待处理的音频文件后,可以获取音频文件的声波波形，并对声波波形进行预设采样率的采样，以得到音频信号。

其中，该预设采样率可以与该音频文件的格式对应,不同音频文件格式可以对应于不同预设采样率，采用与该格式对应的音频采样率对音频文件的声波波形进行采样，可以保证采样所得到的音频信号具有一致性。

202、该计算机设备基于预设窗函数，对所述音频信号进行加窗处理，得到多个音频帧。

采样得到的音频信号可以按照预设帧长进行分帧处理，以得到多个原始音频帧。该预设帧长应足够短，一般可以取为20至50毫秒，在足够短的时间内，该原始音频帧可视为近似平稳的周期信号，以便于后续步骤的实施。

在进行分帧处理时，每个音频帧的采样点数应在合理的范围内选取，以提高音频帧的频谱分辨率。在一种可能实现方式中，上一个原始音频帧与下一个原始音频帧之间应有帧重叠的部分，以保证每个原始音频帧都有上一帧的成分，防止两个原始音频帧之间出现不连续的现象。一般地，可以将每个原始音频帧的采样点数范围选取在512至8192点之间。例如，在本发明实施例中，可以将每个音频帧的采样点数选取为2048点，相应地，将帧重叠采样点数选取为1024点。

在上述分帧处理的过程中，可以考虑预设帧长和每个音频帧内所包含的采样点数，使得二者均满足上述条件，从而达到最佳的分帧效果。

在实际进行分帧处理时，可以采取加窗的方式，也即是对该多个原始音频帧分别进行加窗处理，得到多个音频帧，以便让该多个音频帧更好地满足后续步骤中时频转换的周期性要求，减少音频帧频谱的泄漏，提高频谱的分辨率。例如，该预设窗函数可以选取汉宁窗或哈明窗。其中，该预设窗函数的长度可以与每个音频帧的采样点数相同，每个音频帧的采样点数是帧重叠采样点数的2倍。

203、该计算机设备将该多个音频帧分别从时域转换至频域，得到该多个音频帧的频谱，每个音频帧的频谱仅用于表示该音频帧的振幅且振幅为实数。

在本发明实施例中，在进行时频转换时，可以通过哈特莱变换将该多个音频帧分别从时域转换至频域，得到该多个音频帧的频谱。由于哈特莱变换为实数变换，因此得到的该多个音频帧的频谱为实数频谱，且，该实数频谱仅用于表示该音频谱的振幅，不涉及相位。具体地，该哈特莱变换可以应用下述公式实现：

k＝0,.....,N-1

其中，每个音频帧的采样点个数为N，帧重叠的采样点个数为M，M为N的1/2，x _n为每帧的采样点幅度，n＝0,1,2,...,N-1.H _k为哈特莱变换后的频谱，k为频点，k＝0,1,2,...,N-1，N为正整数。

需要说明的是，本发明实施例仅以哈特莱变换为例进行说明，实际上还可以采用其他不损伤相位的变换方式，本发明实施例对此不做限定。

204、该计算机设备将该多个音频帧的频谱进行组合，得到该音频信号的频谱。

当获取到各个音频帧的频谱时，将各个音频帧的频谱按头尾相接的方式顺序拼接，组成一个N*L维的二维向量，其中N等于每个音频帧的采样点个数，L为帧的总个数。

205、该计算机设备调用预设分解模型，该预设分解模型用于基于信号频谱进行频谱分离；将该音频信号的频谱输入该预设分解模型，输出伴奏频谱与人声频谱。

其中，预设分解模型可以是预先基于多个音频信号的频谱、基于该多个音频信号的伴奏频谱和人声频谱进行训练得到的。例如，该预设分解模型可以用于表示伴奏频谱和人声频谱的分离规律，从而基于该分离规律，对该音频信号的频谱进行分解。

206、该计算机设备将该伴奏频谱与人声频谱从频域转换至时域，得到伴奏音频与人声音频。

当获取到伴奏频谱和人声频谱时，可以通过哈特莱反变换，将该伴奏频谱与人声频谱从频域转换至时域，得到伴奏音频与人声音频。

本发明实施例提供的方法，利用转换时仅用实数来表示该音频帧的振幅的变换算法，来进行时域到频域以及频域到时域的变换，由于变换后的频谱，为实数谱，没有相位信息；而进行逆变换之后，还是原来的相位，相位信息不受损失，因此，基于这种转换方式从音频文件中分离伴奏和人声，避免傅里叶变换频谱分解的相位失真问题。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图3是本发明实施例提供的一种语音信号分离装置的结构示意图，参见图3，所述装置包括：

采样模块301，用于对待分离的音频文件的声波波形进行采样，得到音频信号；

第一转换模块302，用于将所述音频信号从时域转换至频域，得到所述音频信号的频谱，所述频谱仅用于表示所述音频信号的振幅且所述振幅为实数；

分解模块303，用于将所述音频信号的频谱进行分解，得到伴奏频谱与人声频谱；

第二转换模块304，用于将所述伴奏频谱与人声频谱从频域转换至时域，得到伴奏音频与人声音频。

在一种可能实施方式中，所述第一转换模块302包括：

分帧单元，用于将所述音频信号进行分帧处理，得到多个音频帧；

时频转换单元，用于将所述多个音频帧分别从时域转换至频域，得到所述多个音频帧的频谱，每个音频帧的频谱仅用于表示所述音频帧的振幅且振幅为实数；

组合单元，用于将所述多个音频帧的频谱进行组合，得到所述音频信号的频谱。

在一种可能实施方式中，所述分帧单元用于：

在一种可能实施方式中，所述预设窗函数的长度与所述每个音频帧的采样点数相同。

在一种可能实施方式中，每个音频帧的采样点数是帧重叠采样点数的2倍。

在一种可能实施方式中，所述分解模块用于调用预设分解模型，所述预设分解模型用于基于信号频谱进行频谱分离；将所述音频信号的频谱输入所述预设分解模型，输出伴奏频谱与人声频谱。

需要说明的是：上述实施例提供的语音信号分离装置在语音信号分离时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音信号分离装置与语音信号分离方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)401和一个或一个以上的存储器402，其中，所述存储器402中存储有至少一条指令，所述至少一条指令由所述处理器401加载并执行以实现下述方法：

对待分离的音频文件的声波波形进行采样，得到音频信号；将所述音频信号从时域转换至频域，得到所述音频信号的频谱，所述频谱仅用于表示所述音频信号的振幅且所述振幅为实数；将所述音频信号的频谱进行分解，得到伴奏频谱与人声频谱；将所述伴奏频谱与人声频谱从频域转换至时域，得到伴奏音频与人声音频。

在一种可能实施方式中，该处理器401还用于执行实现下述步骤：将所述音频信号进行分帧处理，得到多个音频帧；将所述多个音频帧分别从时域转换至频域，得到所述多个音频帧的频谱，每个音频帧的频谱仅用于表示所述音频帧的振幅且振幅为实数；将所述多个音频帧的频谱进行组合，得到所述音频信号的频谱。

在一种可能实施方式中，该处理器401还用于执行实现下述步骤：基于预设窗函数，对所述音频信号进行加窗处理，得到多个音频帧。

在一种可能实施方式中，该处理器401还用于执行实现下述步骤：调用预设分解模型，所述预设分解模型用于基于信号频谱进行频谱分离；

将所述音频信号的频谱输入所述预设分解模型，输出伴奏频谱与人声频谱。

当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成下述实施例中的语音信号分离方法：

在一种可能实施方式中，该处理器还用于执行实现下述步骤：将所述音频信号进行分帧处理，得到多个音频帧；将所述多个音频帧分别从时域转换至频域，得到所述多个音频帧的频谱，每个音频帧的频谱仅用于表示所述音频帧的振幅且振幅为实数；将所述多个音频帧的频谱进行组合，得到所述音频信号的频谱。

在一种可能实施方式中，该处理器还用于执行实现下述步骤：基于预设窗函数，对所述音频信号进行加窗处理，得到多个音频帧。

在一种可能实施方式中，该处理器还用于执行实现下述步骤：调用预设分解模型，所述预设分解模型用于基于信号频谱进行频谱分离；

例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种语音信号分离方法，其特征在于，所述方法包括：

对待分离的音频文件的声波波形进行采样，得到音频信号；

将所述音频信号从时域转换至频域，得到所述音频信号的频谱，所述频谱仅用于表示所述音频信号的振幅且所述振幅为实数；

将所述音频信号的频谱进行分解，得到伴奏频谱与人声频谱；

将所述伴奏频谱与人声频谱从频域转换至时域，得到伴奏音频与人声音频。
根据权利要求1所述的方法，其特征在于，所述将所述音频信号从时域转换至频域，得到所述音频信号的频谱，包括：

将所述音频信号进行分帧处理，得到多个音频帧；

将所述多个音频帧分别从时域转换至频域，得到所述多个音频帧的频谱，每个音频帧的频谱仅用于表示所述音频帧的振幅且振幅为实数；

将所述多个音频帧的频谱进行组合，得到所述音频信号的频谱。
根据权利要求2所述的方法，其特征在于，所述将所述音频信号进行分帧处理，得到多个音频帧，包括：

基于预设窗函数，对所述音频信号进行加窗处理，得到多个音频帧。
根据权利要求3所述的方法，其特征在于，所述预设窗函数的长度与所述每个音频帧的采样点数相同。
根据权利要求2所述的方法，其特征在于，每个音频帧的采样点数是帧重叠采样点数的2倍。
根据权利要求1所述的方法，其特征在于，所述将所述音频信号的频谱进行分解，得到伴奏频谱与人声频谱，包括：

调用预设分解模型，所述预设分解模型用于基于信号频谱进行频谱分离；

将所述音频信号的频谱输入所述预设分解模型，输出伴奏频谱与人声频谱。
一种语音信号分离装置，其特征在于，所述装置包括：

采样模块，用于对待分离的音频文件的声波波形进行采样，得到音频信号；

第一转换模块，用于将所述音频信号从时域转换至频域，得到所述音频信号的频谱，所述频谱仅用于表示所述音频信号的振幅且所述振幅为实数；

分解模块，用于将所述音频信号的频谱进行分解，得到伴奏频谱与人声频谱；

第二转换模块，用于将所述伴奏频谱与人声频谱从频域转换至时域，得到伴奏音频与人声音频。
根据权利要求7所述的装置，其特征在于，所述第一转换模块包括：

分帧单元，用于将所述音频信号进行分帧处理，得到多个音频帧；

时频转换单元，用于将所述多个音频帧分别从时域转换至频域，得到所述多个音频帧的频谱，每个音频帧的频谱仅用于表示所述音频帧的振幅且振幅为实数；

组合单元，用于将所述多个音频帧的频谱进行组合，得到所述音频信号的频谱。
根据权利要求8所述的装置，其特征在于，所述分帧单元用于：

基于预设窗函数，对所述音频信号进行加窗处理，得到多个音频帧。
根据权利要求9所述的装置，其特征在于，所述预设窗函数的长度与所述每个音频帧的采样点数相同。
根据权利要求8所述的装置，其特征在于，每个音频帧的采样点数是帧重叠采样点数的2倍。
根据权利要求7所述的装置，其特征在于，所述分解模块用于调用预设分解模型，所述预设分解模型用于基于信号频谱进行频谱分离；将所述音频信号的频谱输入所述预设分解模型，输出伴奏频谱与人声频谱。
一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如下语音信号分离方法所执行的操作：

对待分离的音频文件的声波波形进行采样，得到音频信号；

将所述音频信号从时域转换至频域，得到所述音频信号的频谱，所述频谱仅用于表示所述音频信号的振幅且所述振幅为实数；

将所述音频信号的频谱进行分解，得到伴奏频谱与人声频谱；

将所述伴奏频谱与人声频谱从频域转换至时域，得到伴奏音频与人声音频。
根据权利要求13所述的计算机设备，其特征在于，所述处理器还用于执行下述操作：

将所述音频信号进行分帧处理，得到多个音频帧；

将所述多个音频帧分别从时域转换至频域，得到所述多个音频帧的频谱，每个音频帧的频谱仅用于表示所述音频帧的振幅且振幅为实数；

将所述多个音频帧的频谱进行组合，得到所述音频信号的频谱。
根据权利要求14所述的计算机设备，其特征在于，所述处理器还用于执行下述操作：

基于预设窗函数，对所述音频信号进行加窗处理，得到多个音频帧。
根据权利要求15所述的计算机设备，其特征在于，所述预设窗函数的长度与所述每个音频帧的采样点数相同。
根据权利要求14所述的计算机设备，其特征在于，每个音频帧的采样点数是帧重叠采样点数的2倍。
根据权利要求13所述的计算机设备，其特征在于，所述处理器还用于执行下述操作：

调用预设分解模型，所述预设分解模型用于基于信号频谱进行频谱分离；将所述音频信号的频谱输入所述预设分解模型，输出伴奏频谱与人声频谱。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的语音信号分离方法所执行的操作。