WO2017031846A1

WO2017031846A1 - 噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质

Info

Publication number: WO2017031846A1
Application number: PCT/CN2015/095364
Authority: WO
Inventors: 李士岩
Original assignee: 百度在线网络技术（北京）有限公司
Priority date: 2015-08-25
Filing date: 2015-11-24
Publication date: 2017-03-02
Also published as: CN106486130B; CN106486130A

Abstract

一种噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质。其中该噪声消除方法通过基于特定声纹参数，对所获取的待处理原始音频数据进行声纹匹配（101），使得能够根据声纹匹配的声纹匹配结果，从待处理原始音频数据中获取有效音频数据（102），无需额外的声音采集装置采集其他声音信号例如噪声信号等，能够避免现有技术中由于语音信号对应的信号源与两个麦克风之间的距离发生变化导致的对语音信号进行与噪声信号同等程度的抑制的问题，从而提高了降噪的可靠性，同时能够有效提高降噪之后的声音质量。

Description

噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质

本申请要求了申请日为2015年08月25日，申请号为201510524909.1发明名称为“噪声消除、语音识别方法及装置”的中国专利申请的优先权。

技术领域

本发明涉及噪声处理技术，尤其涉及一种噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质。

背景技术

随着声音处理技术发展越来越快，终端对需要处理的声音质量的要求也越来越高，降噪技术应运而生。目前的降噪技术主要是采用双麦克风主动降噪，通过一定算法，利用一个麦克风采集到的音频数据(即对应于噪声信号和信号强度较弱的语音信号)对另一个麦克风采集到的音频数据(即对应于噪声信号和信号强度较强的语音信号)，进行噪声抑制处理。

然而，如果语音信号对应的信号源(例如：人的嘴巴)与两个麦克风之间的距离发生变化，可能导致语音信号被确定为噪声，使得对语音信号也进行了与噪声信号同等程度的抑制，严重影响了降噪之后的声音质量，导致了降噪的可靠性的降低。

发明内容

本发明的多个方面提供一种噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质，用以提高降噪的可靠性。

本发明的一方面，提供一种噪声消除方法，包括：

基于特定声纹参数，对所获取的待处理原始音频数据进行声纹匹配；

根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述特定声纹参数是目标用户的声纹参数，以及

所述根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据，包括：

从所述待处理原始音频数据中获取声纹匹配成功的音频数据，作为所述有效音频数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，在所述基于特定声纹参数，对所获取的待处理原始音频数据进行声纹匹配之前，所述方法还包括：

获取所述目标用户的语音信号；

基于所获取的所述目标用户的语音信号，获得所述目标用户的声纹参数。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述特定声纹参数是目标环境的噪声信号的声纹参数，以及

从所述待处理原始音频数据中去除声纹匹配成功的音频数据，作为所述有效音频数据。

获取所述目标环境的噪声信号；

基于所获取的所述目标环境的噪声信号，获得所述噪声信号的声纹参数。

本发明的另一方面，提供一种噪声消除装置，包括：

声纹匹配单元，用于基于特定声纹参数，对所获取的待处理原始音频数据进行声纹匹配；

有效音频数据获取单元，用于根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据。

所述有效音频数据获取单元用于从所述待处理原始音频数据中获取声纹匹配成功的音频数据，作为所述有效音频数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述噪声消除装置还包括：

语音信号获取单元，用于获取所述目标用户的语音信号；

第一声纹参数获得单元，用于基于所获取的所述目标用户的语音信号，获得所述目标用户的声纹参数。

所述有效音频数据获取单元用于从所述待处理原始音频数据中去除声纹匹配成功的音频数据，作为所述有效音频数据。

噪声信号获取单元，用于获取所述目标环境的噪声信号；

第二声纹参数获得单元，用于基于所获取的所述目标环境的噪声信号，获得所述噪声信号的声纹参数。

本发明的另一方面，提供一种语音识别方法，包括：

获取待处理原始音频数据；

基于特定声纹参数，对所获取的所述待处理原始音频数据进行声纹匹配；

根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据；

对所述有效音频数据进行语音识别处理。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，在所述基于特定声纹参数，对所获取的所述待处理原始音频数据进行声纹匹配之前，所述方法还包括：

获取所述目标用户的语音信号；

获取所述目标环境的噪声信号；

本发明的另一方面，提供一种语音识别装置，包括：

原始音频数据获取单元，用于获取待处理原始音频数据；

如上所述的噪声消除装置；

语音识别单元，用于对所述有效音频数据进行语音识别处理。

本发明的另一方面，提供一种设备，包括：

一个或者多个处理器；

存储器；

一个或者多个程序，所述一个或者多个程序存储在所述存储器中，当被所述一个或者多个处理器执行时：

本发明的另一方面，提供一种非易失性计算机存储介质，所述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：

本发明的另一方面，提供一种设备，包括：

一个或者多个处理器；

存储器；

获取待处理原始音频数据；

对所述有效音频数据进行语音识别处理。

获取待处理原始音频数据；

对所述有效音频数据进行语音识别处理。

由上述技术方案可知，一方面，本发明实施例通过基于特定声纹参数，对所获取的待处理原始音频数据进行声纹匹配，使得能够根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据，无需额外的声音采集装置采集其他声音信号例如噪声信号等，能够避免现有技术中由于语音信号对应的信号源与两个麦克风之间的距离发生变化导致的对语音信号进行与噪声信号同等程度的抑制的问题，从而提高了降噪的可靠性，同时能够有效提高降噪之后的声音质量。

由上述技术方案可知，另一方面，本发明实施例通过获取待处理原始音频数据，进而基于特定声纹参数，对所获取的所述待处理原始音频数据进行声纹匹配，使得能够根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据，并对所述有效音频数据进行语音识别处理，由于有效音频数据是根据特定声纹参数，在待处理原始音频数据中提取出来的音频数据，这部分音频数据可以认为是使用终端的用户的语音信号，因此，该有效音频数据中不再包含噪声信号，从而有效提高了声音质量。

另外，采用本发明提供的技术方案，只需要一个声音采集装置，能够有效降低成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的噪声消除方法的流程示意图；

图2为图1对应的实施例中特定声纹参数是目标用户的声纹参数的情况下的噪声消除方法的流程示意图；

图3为图1对应的实施例中特定声纹参数是目标环境的噪声信号的声纹参数的情况下的噪声消除方法的流程示意图；

图4为本发明另一实施例提供的语音识别方法的流程示意图；

图5为本发明另一实施例提供的噪声消除装置的结构示意图；

图6为图5对应的实施例中特定声纹参数是目标用户的声纹参数的情况下的噪声消除装置的结构示意图；

图7为图5对应的实施例中特定声纹参数是目标环境的噪声信号的声纹参数的情况下的噪声消除装置的结构示意图；

图8为本发明另一实施例提供的语音识别装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer，PC)、MP3播放器、MP4播放器、可穿戴设备(例如，智能眼镜、智能手表、智能手环等)等。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本发明一实施例提供的噪声消除方法的流程示意图，如图1所示。

101、基于特定声纹参数，对所获取的待处理原始音频数据进行声纹匹配。

102、根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据。

需要说明的是，101～102的执行主体的部分或全部可以为位于本地终端的应用，或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以为位于网络侧的服务器中的处理引擎，或者还可以为位于网络侧的分布式系统，本实施例对此不进行特别限定。

可以理解的是，所述应用可以是安装在终端上的本地程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本实施例对此不进行特别限定。

这样，通过基于特定声纹参数，对所获取的待处理原始音频数据进行声纹匹配，使得能够根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据，无需额外的声音采集装置采集其他声音信号例如噪声信号等，能够避免现有技术中由于语音信号对应的信号源与两个麦克风之间的距离发生变化导致的对语音信号进行与噪声信号同等程度的抑制的问题，从而提高了降噪的可靠性，同时能够有效提高降噪之后的声音质量。

本发明中，可以利用声音采集装置，获取所述待处理原始音频数据。其中，所述声音采集装置，可以为终端内置或外置的麦克风等，本实施例对此不进行特别限定。

具体可以利用声音采集装置，采集包含终端需要处理的语音信号的声音信号。通常，该声音信号中可能会掺杂噪声信号。然后，则可以将所采集的所述声音信号转换为待处理原始音频数据。

具体地，所谓的待处理原始音频数据，是由对音频信号转换而来的数字信号。例如，具体可以对所述声音信号进行抽样、量化和编码处理，以获得脉冲编码调制(Pulse Code Modulation，PCM)数据，作为待处理原始音频数据。

本实施例中，无需采用额外的声音采集装置再额外采集辅助的音频数据，而仅需要采用一个声音采集装置采集待处理原始音频数据即可，能够有效降低成本。

可选地，在本实施例的一个可能的实现方式中，在101中，具体可以对所述待处理原始音频数据进行分帧处理，以获得至少一帧数据，进而对至少一帧数据中每帧数据进行音频分析处理，以获得每帧数据的声纹特征。然后，基于特定声纹参数，对所述待处理原始音频数据的声纹特征进行匹配处理。二者一致，则说明匹配成功，二者不一致，则说明匹配失败。

所谓的一致，可以是指全部一致即完全一致，或者还可以是指部分一致，本实施例对此不进行特别限定。

具体地，可以对所述待处理原始音频数据按照预设时间间隔，例如，20ms，进行分帧处理，且相邻帧之间有部分的数据重叠，例如50％的数据重叠，这样，能够获得所述待处理原始音频数据的至少一帧数据。

所谓的声纹特征，是一个音频数据专属的特征，是指可以代表一段音频数据的重要声学特征的基于内容的数字签名，其主要目的是建立一种有效机制来比较两个音频数据的感知听觉质量。注意这里不是直接比较通常很大的音频数据本身，而是比较其相应通常较小的声纹特征。

在一个具体的实现过程中，所述声纹特征，可以包括但不限于与人类的发音机制的解剖学结构有关的声学特征，例如，频谱、倒频谱、共振峰、基音、反射系数，等等。

可选地，在本实施例的一个可能的实现方式中，在101之前，还可以进一步设置所述特定声纹参数，用以作为声纹匹配的基准参数。具体来说，所述特定声纹参数可以是目标用户的声纹参数，或者还可以是目标环境的噪声信号的声纹参数，本实施例对此不进行特别限定。下面将分别详细说明两种特定声纹参数分别为目标用户的声纹参数和目标环境的噪声信号的声纹参数时，本实施例所提供的噪声消除方法。

图2为图1对应的实施例中特定声纹参数是目标用户的声纹参数的情况下的噪声消除方法的流程示意图，如图2所示。

201、基于目标用户的声纹参数，对所获取的待处理原始音频数据进行声纹匹配。

可选地，在本实施例的一个可能的实现方式中，在201之前，还可以进一步获取所述目标用户的语音信号，进而，则可以基于所获取的所述目标用户的语音信号，获得所述目标用户的声纹参数。

具体地，具体可以对目标用户的语音信号进行抽样、量化和编码处理，以获得PCM数据，作为用户音频数据。然后，则可以对所述用户音频数据进行分帧处理，以获得至少一帧数据，进而对至少一帧数据中每帧数据进行音频分析处理，以获得每帧数据的声纹参数。

例如，可以对所述用户音频数据按照预设时间间隔，例如，20ms，进行分帧处理，且相邻帧之间有部分的数据重叠，例如50％的数据重叠，这样，能够获得所述用户音频数据的至少一帧数据。

202、从所述待处理原始音频数据中获取声纹匹配成功的音频数据，作为所述有效音频数据。

在这个实现方式中，所述特定声纹参数是指根据目标用户的语音信号，所获得的所述目标用户的语音信号的声纹参数。因此，匹配成功的声纹特征，则可以认为是使用终端的目标用户所发出的语音信号所对应的声纹特征。

图3为图1对应的实施例中特定声纹参数是目标环境的噪声信号的声纹参数的情况下的噪声消除方法的流程示意图，如图3所示。

301、基于目标环境的噪声信号的声纹参数，对所获取的待处理原始音频数据进行声纹匹配。

可选地，在本实施例的一个可能的实现方式中，在301之前，还可以进一步获取所述目标环境的噪声信号，进而，则可以基于所获取的所述目标环境的噪声信号，获得所述噪声信号的声纹参数。

具体地，具体可以对目标环境的语音信号进行抽样、量化和编码处理，以获得PCM数据，作为环境音频数据。然后，则可以对所述环境音频数据进行分帧处理，以获得至少一帧数据，进而对至少一帧数据中每帧数据进行音频分析处理，以获得每帧数据的声纹参数。

例如，可以对所述环境音频数据按照预设时间间隔，例如，20ms，进行分帧处理，且相邻帧之间有部分的数据重叠，例如50％的数据重叠，这样，能够获得所述环境音频数据的至少一帧数据。

302、从所述待处理原始音频数据中去除声纹匹配成功的音频数据，作为所述有效音频数据。

在这个实现方式中，所述特定声纹参数是指根据目标环境的噪声信号，所获得的所述目标环境的噪声信号的声纹参数。因此，匹配成功的声纹特征，则可以认为是终端所在的目标环境中所产生的噪声信号所对应的声纹特征。

可以理解的是，除了上述两种特定声纹参数之外，还可以将至少一个经验参数，作为所述特定声纹参数。

需要说明的是，在获得所述特定声纹参数之后，还需要进一步将所获得的特定声纹参数进行存储处理。具体地，具体可以将所获得的特定声纹参数，在终端的存储设备中进行存储。

在一个具体的实现过程中，所述终端的存储设备可以为慢速存储设备，具体可以为计算机系统的硬盘，或者还可以为手机的非运行内存即物理内存，例如，只读存储器(Read-Only Memory，ROM)和内存卡等，本实施例对此不进行特别限定。

在另一个具体的实现过程中，所述终端的存储设备还可以为快速存储设备，具体可以为计算机系统的内存，或者还可以为手机的运行内存即系统内存，例如，随机存储器(Random Access Memory，RAM)等，本实施例对此不进行特别限定。

可选地，在本实施例的一个可能的实现方式中，在102之后，还可以进一步对所述有效音频数据进行语音识别处理。

由于有效音频数据是根据特定声纹参数，在待处理原始音频数据中提取出来的音频数据，这部分音频数据可以认为是使用终端的用户的语音信号，因此，该有效音频数据中不再包含噪声信号，从而有效提高了声音质量。

进一步地，对该有效音频数据进行语音识别处理，所获得的识别结果，准确率较高。

本实施例中，通过基于特定声纹参数，对所获取的待处理原始音频数据进行声纹匹配，使得能够根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据，无需额外的声音采集装置采集其他声音信号例如噪声信号等，能够避免现有技术中由于语音信号对应的信号源与两个麦克风之间的距离发生变化导致的对语音信号进行与噪声信号同等程度的抑制的问题，从而提高了降噪的可靠性，同时能够有效提高降噪之后的声音质量。

图4为本发明另一实施例提供的语音识别方法的流程示意图，如图4所示。

401、获取待处理原始音频数据。

402、基于特定声纹参数，对所获取的所述待处理原始音频数据进行声纹匹配。

403、根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据。

404、对所述有效音频数据进行语音识别处理。

需要说明的是，401～404的执行主体的部分或全部可以为位于本地终端的应用，或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以为位于网络侧的服务器中的处理引擎，或者还可以为位于网络侧的分布式系统，本实施例对此不进行特别限定。

本发明中，402与403的详细描述，可以参见图1～图3所对应的实施例中的相关内容，此处不再赘述。

本实施例中，通过获取待处理原始音频数据，进而基于特定声纹参数，对所获取的所述待处理原始音频数据进行声纹匹配，使得能够根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据，并对所述有效音频数据进行语音识别处理，由于有效音频数据是根据特定声纹参数，在待处理原始音频数据中提取出来的音频数据，这部分音频数据可以认为是使用终端的用户的语音信号，因此，该有效音频数据中不再包含噪声信号，从而有效提高了声音质量。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图5为本发明另一实施例提供的噪声消除装置的结构示意图，如图5所示。本实施例的噪声消除装置可以包括声纹匹配单元51和有效音频数据获取单元52。其中，声纹匹配单元51，用于基于特定声纹参数，对所获取的待处理原始音频数据进行声纹匹配；有效音频数据获取单元52，用于根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据。

需要说明的是，本实施例所提供的噪声消除装置的部分或全部可以为位于本地终端的应用，或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以为位于网络侧的服务器中的处理引擎，或者还可以为位于网络侧的分布式系统，本实施例对此不进行特别限定。

可选地，在本实施例的一个可能的实现方式中，所述特定声纹参数是目标用户的声纹参数；相应地，所述有效音频数据获取单元52，具体可以用于从所述待处理原始音频数据中获取声纹匹配成功的音频数据，作为所述有效音频数据。

可选地，在本实施例的一个可能的实现方式中，如图6所示，本实施例所提供的噪声消除装置还可以进一步包括：

语音信号获取单元61，用于获取所述目标用户的语音信号；

第一声纹参数获得单元62，用于基于所获取的所述目标用户的语音信号，获得所述目标用户的声纹参数。

可选地，在本实施例的一个可能的实现方式中，所述特定声纹参数是目标环境的噪声信号的声纹参数；相应地，所述有效音频数据获取单元52，具体可以用于从所述待处理原始音频数据中去除声纹匹配成功的音频数据，作为所述有效音频数据。

可选地，在本实施例的一个可能的实现方式中，如图7所示，本实施例所提供的噪声消除装置还可以进一步包括：

噪声信号获取单元71，用于获取所述目标环境的噪声信号；

第二声纹参数获得单元72，用于基于所获取的所述目标环境的噪声信号，获得所述噪声信号的声纹参数。

需要说明的是，图1～图3对应的实施例中方法，均可以由本实施例提供的噪声消除装置实现。详细描述可以参见图1～图3对应的实施例中的相关内容，此处不再赘述。

本实施例中，通过声纹匹配单元基于特定声纹参数，对所获取的待处理原始音频数据进行声纹匹配，使得有效音频数据获取单元能够根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据，无需额外的声音采集装置采集其他声音信号例如噪声信号等，能够避免现有技术中由于语音信号对应的信号源与两个麦克风之间的距离发生变化导致的对语音信号进行与噪声信号同等程度的抑制的问题，从而提高了降噪的可靠性，同时能够有效提高降噪之后的声音质量。

图8为本发明另一实施例提供的语音识别装置的结构示意图，如图8所示。本实施例的语音识别装置可以包括原始音频数据获取单元81、如图5～图7任一附图所对应的实施例所提供的噪声消除装置82和语音识别单元83。其中，原始音频数据获取单元81，用于获取待处理原始音频数据；语音识别单元83，用于对所述有效音频数据进行语音识别处理。

本发明中，噪声消除装置82的详细描述，可以参见图5～图7所对应的实施例中的相关内容，此处不再赘述。

需要说明的是，本实施例所提供的语音识别装置的部分或全部可以为位于本地终端的应用，或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以为位于网络侧的服务器中的处理引擎，或者还可以为位于网络侧的分布式系统，本实施例对此不进行特别限定。

需要说明的是，图4对应的实施例中方法，均可以由本实施例提供的语音识别装置实现。详细描述可以参见图4对应的实施例中的相关内容，此处不再赘述。

本实施例中，通过原始音频数据获取单元获取待处理原始音频数据，进而由声纹匹配单元基于特定声纹参数，对所获取的所述待处理原始音频数据进行声纹匹配，使得有效音频数据获取单元能够根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据，并由语音识别单元对所述有效音频数据进行语音识别处理，由于有效音频数据是根据特定声纹参数，在待处理原始音频数据中提取出来的音频数据，这部分音频数据可以认为是使用终端的用户的语音信号，因此，该有效音频数据中不再包含噪声信号，从而有效提高了声音质量。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，设备和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器 (Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种噪声消除方法，其特征在于，包括：

基于特定声纹参数，对所获取的待处理原始音频数据进行声纹匹配；

根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据。
根据权利要求1所述的噪声消除方法，其特征在于，所述特定声纹参数是目标用户的声纹参数，以及

所述根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据，包括：

从所述待处理原始音频数据中获取声纹匹配成功的音频数据，作为所述有效音频数据。
根据权利要求2所述的噪声消除方法，其特征在于，在所述基于特定声纹参数，对所获取的待处理原始音频数据进行声纹匹配之前，所述方法还包括：

获取所述目标用户的语音信号；

基于所获取的所述目标用户的语音信号，获得所述目标用户的声纹参数。
根据权利要求1所述的噪声消除方法，其特征在于，所述特定声纹参数是目标环境的噪声信号的声纹参数，以及

所述根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据，包括：

从所述待处理原始音频数据中去除声纹匹配成功的音频数据，作为所述有效音频数据。
根据权利要求4所述的噪声消除方法，其特征在于，在所述基于特定声纹参数，对所获取的待处理原始音频数据进行声纹匹配之前，所述方法还包括：

获取所述目标环境的噪声信号；

基于所获取的所述目标环境的噪声信号，获得所述噪声信号的声纹参数。
一种噪声消除装置，其特征在于，包括：

声纹匹配单元，用于基于特定声纹参数，对所获取的待处理原始音频数据进行声纹匹配；

有效音频数据获取单元，用于根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据。
根据权利要求6所述的噪声消除装置，其特征在于，所述特定声纹参数是目标用户的声纹参数，以及

所述有效音频数据获取单元用于从所述待处理原始音频数据中获取声纹匹配成功的音频数据，作为所述有效音频数据。
根据权利要求7所述的噪声消除装置，其特征在于，所述噪声消除装置还包括：

语音信号获取单元，用于获取所述目标用户的语音信号；

第一声纹参数获得单元，用于基于所获取的所述目标用户的语音信号，获得所述目标用户的声纹参数。
根据权利要求6所述的噪声消除装置，其特征在于，所述特定声纹参数是目标环境的噪声信号的声纹参数，以及

所述有效音频数据获取单元用于从所述待处理原始音频数据中去除声纹匹配成功的音频数据，作为所述有效音频数据。
根据权利要求9所述的噪声消除装置，其特征在于，所述噪声消除装置还包括：

噪声信号获取单元，用于获取所述目标环境的噪声信号；

第二声纹参数获得单元，用于基于所获取的所述目标环境的噪声信号，获得所述噪声信号的声纹参数。
一种语音识别方法，其特征在于，包括：

获取待处理原始音频数据；

基于特定声纹参数，对所获取的所述待处理原始音频数据进行声纹匹配；

根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据；

对所述有效音频数据进行语音识别处理。
根据权利要求11所述的语音识别方法，其特征在于，所述特定声纹参数是目标用户的声纹参数，以及

所述根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据，包括：

从所述待处理原始音频数据中获取声纹匹配成功的音频数据，作为所述有效音频数据。
根据权利要求12所述的语音识别方法，其特征在于，在所述基于特定声纹参数，对所获取的所述待处理原始音频数据进行声纹匹配之前，所述方法还包括：

获取所述目标用户的语音信号；

基于所获取的所述目标用户的语音信号，获得所述目标用户的声纹参数。
根据权利要求11所述的语音识别方法，其特征在于，所述特定声纹参数是目标环境的噪声信号的声纹参数，以及

所述根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据，包括：

从所述待处理原始音频数据中去除声纹匹配成功的音频数据，作为所述有效音频数据。
根据权利要求14所述的语音识别方法，其特征在于，在所述基于特定声纹参数，对所获取的所述待处理原始音频数据进行声纹匹配之前，所述方法还包括：

获取所述目标环境的噪声信号；

基于所获取的所述目标环境的噪声信号，获得所述噪声信号的声纹参数。
一种语音识别装置，其特征在于，包括：

原始音频数据获取单元，用于获取待处理原始音频数据；

如权利要求6到10中任一权利要求所述的噪声消除装置；

语音识别单元，用于对所述有效音频数据进行语音识别处理。
一种设备，包括：

一个或者多个处理器；

存储器；

一个或者多个程序，所述一个或者多个程序存储在所述存储器中，当被所述一个或者多个处理器执行时：

基于特定声纹参数，对所获取的待处理原始音频数据进行声纹匹配；

根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据。
一种非易失性计算机存储介质，所述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：

基于特定声纹参数，对所获取的待处理原始音频数据进行声纹匹配；

根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据。
一种设备，包括：

一个或者多个处理器；

存储器；

一个或者多个程序，所述一个或者多个程序存储在所述存储器中，当被所述一个或者多个处理器执行时：

获取待处理原始音频数据；

基于特定声纹参数，对所获取的所述待处理原始音频数据进行声纹匹配；

根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据；

对所述有效音频数据进行语音识别处理。
一种非易失性计算机存储介质，所述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：

获取待处理原始音频数据；

基于特定声纹参数，对所获取的所述待处理原始音频数据进行声纹匹配；

根据所述声纹匹配的声纹匹配结果，从所述待处理原始音频数据中获取有效音频数据；

对所述有效音频数据进行语音识别处理。