WO2017166651A1

WO2017166651A1 - 语音识别模型训练方法、说话人类型识别方法及装置

Info

Publication number: WO2017166651A1
Application number: PCT/CN2016/096986
Authority: WO
Inventors: 张俊博
Original assignee: 乐视控股（北京）有限公司; 乐视致新电子科技（天津）有限公司
Priority date: 2016-03-30
Filing date: 2016-08-26
Publication date: 2017-10-05
Also published as: CN105895080A

Abstract

一种语音识别模型训练方法、说话人类型识别方法及装置，获取训练语音并提取所述训练语音的声学特征（101）；利用所述声学特征，训练获得用于提取说话人特征的特征识别器（102）；利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征，作为所述用户类型对应的说话人特征（103）；将不同用户类型对应的说话人特征以及所述特征识别器，作为说话人类型识别模型（104）。利用说话人类型识别模型中所述特征识别器结合待识别语音的声音特征，提取所述待识别语音的说话人特征，并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配，将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。

Description

语音识别模型训练方法、说话人类型识别方法及装置

本申请要求于2016年3月30日提交中国专利局、申请号为201610195561.0、发明名称为“语音识别模型训练方法、说话人类型识别方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及语音识别技术领域，尤其涉及一种用于说话人类型识别的语音识别模型训练方法、语音识别模型训练装置、说话人类型识别方法及装置。

背景技术

随着信息类型的多元化发展，例如影视剧类型的多样化，不同用户对信息类型的需求也不一样，例如儿童、成年和老年对影视剧需求即不一样，成年男和成年女对影视剧需求也不一样。因此针对用户类型推送或者显示不同的信息内容，可以极大提高用户体验。而为了实现针对用户类型推送或者显示不同的信息内容，就需要对用户类型进行区分。

目前的信息播放设备中，例如电视剧、电脑等中都配置有语音识别模块，但是语音识别模块通常只是用于提取语音信号的语言相关信息，识别关键词，并用于信息查找等方面。而并无法实现对用户类型的区分，因此如何提供一种说话人类型识别方案，实现对用户类型的识别，成为本领域技术人员主要解决的技术问题。

发明内容

本发明提供一种语音识别模型训练方法、语音识别模型训练装置、说话人类型识别方法及装置，用以解决现有技术中无法实现用户类型识别的计算问题。

本发明实施例提供一种语音识别模型训练方法，包括：

获取训练语音并提取所述训练语音的声学特征，所述训练语音包括不同用户类型的语音；

利用所述声学特征，训练获得用于提取说话人特征的特征识别器；其中，不同用户类型对应的说话人特征不同；

利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征，作为所述用户类型对应的说话人特征；

将不同用户类型对应的说话人特征以及所述特征识别器，作为说话人类型识别模型，所述说话人类型识别模型用于利用所述特征识别器结合待识别语音的声音特征，提取所述待识别语音的说话人特征，并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配，将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。

本发明实施例提供一种说话人类型识别方法，包括：

获取待识别语音，并提取所述待识别语音的声学特征；

利用说话人类型识别模型中的特征识别器以及所述声学特征，提取所述待识别语音的说话人特征；所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征；所述特征识别器利用训练语音的声学特征训练获得；所述不同用户类型对应的说话人特征利用所述特征识别器从所述用户类型对应的目标语音中提取获得；

分别计算所述待识别语音的说话人特征，与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度；

将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。

本发明实施例提供一种语音识别模型训练装置，包括：

第一提取模块，用于获取训练语音并提取所述训练语音的声学特征，所述训练语音包括不同用户类型的语音；

训练模块，用于利用所述声学特征，训练获得用于提取说话人特征的特征识别器；其中，不同用户类型对应的说话人特征不同；

第二提取模块，用于利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征，作为所述用户类型对应的说话人特征；

模型生成模块，用于将不同用户类型对应的说话人特征以及所述特征识别器，作为说话人类型识别模型，所述说话人类型识别模型用于利用所述特征识别器结合待识别语音的声音特征，提取所述待识别语音的说话人特征，并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配，将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。

本发明实施例提供一种说话人类型识别装置，包括：

第三提取模块，用于获取待识别语音，并提取所述待识别语音的声学特征；

第四提取模块，用于利用说话人类型识别模型中的特征识别器以及所述声学特征，提取所述待识别语音的说话人特征；所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征；所述特征识别器利用训练语音的声学特征训练获得；所述不同用户类型对应的说话人特征利用所述特征识别器从所述不同用户类型对应的目标语音中提取获得；

匹配度计算模块，用于分别计算所述待识别语音的说话人特征，与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度；

识别模块，用于将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。

本发明实施例还提供了一种非易失性计算机可读存储介质，其中，该非易失性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项语音识别模型训练方法，或任一项说话人类型识别方法。

本发明实施例还提供了一种电子设备，包括：一个或多个处理器；以及，存储器；其中，所述存储器存储有可被所述一个或多个处理器执行的指令，所述指令被设置为用于执行上述任一项语音识别模型训练方法，或任一项说话人类型识别方法。

本发明实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音识别模型训练方法，或任一项说话人类型识别方法。

本发明实施例提供的语音识别模型训练方法、语音识别模型训练装置、说话人类型识别方法及装置，获取训练语音并提取所述训练语音的声学特征，所述训练语音包括不同用户类型的语音；利用所述声学特征，训练获得用于提取说话人特征的特征识别器；其中，不同用户类型对应的说话人特征不同，利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征，作为所述用户类型对应的说话人特征；将不同用户类型对应的说话人特征以及所述特征识别器，作为说话人类型识别模型，从而在进行说话人类型识别时，利用所述说话人类型识别模型中的所述特征识别器结合待识别语音的声音特征，可以提取所述待识别语音的说话人特征，并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配，匹配度最高的说话人特征对应的用户类型即为所述待识别语音的用户类型，从而实现了用户类型的识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音识别模型训练方法一个实施例流程图；

图2为本发明实施例提供的说话人类型识别方法一个实施例流程图；

图3为本发明实施例提供的语音识别模型训练装置一个实施例结构示意图；

图4为本发明实施例提供的说话人类型识别装置一个实施例结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的技术方案适用于语音识别场景中，用于区分不同用户类型，用户类型可以包括成年男、成年女、老人或者儿童，对用户类型的区分可以应用于不同的应用场景中，例如智能电视通过区分用户类型可以向不同用户类型的用户展示不同的影视内容等。

在本发明实施例中，为了实现不同用户类型的区分，首先进行模型训练，获取训练语音并提取所述训练语音的声学特征，所述训练语音包括不同用户类型的语音；利用所述声学特征，训练获得用于提取说话人特征的特征识别器；其中，不同用户类型对应的说话人特征不同，利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征，作为所述用户类型对应的说话人特征；将不同用户类型对应的说话人特征以及所述特征识别器，作为说话人类型识别模型，从而在进行说话人类型识别时，利用所述说话人类型识别模型中的所述特征识别器结合待识别语音的声音特征，可以提取所述待识别语音的说话人特征，并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配，匹配度最高的说话人特征对应的用户类型即为所述待识别语音的用户类型，从而实现了用户类型的识别。

下面将结合附图对本发明技术方案进行详细描述。

图1是本发明实施例提供的一种语音识别模型训练方法一个实施例的流程图，该方法可以包括以下几个步骤：

101：获取训练语音并提取所述训练语音的声学特征。

其中，所述训练语音包括不同用户类型的语音。

通常选择大规模的训练语音，一般超过50小时。

不同用户类型可以包括成年男、成年女、老人或者儿童，不同用户类型对应的语音量相同或相近。

对于大量的训练语音，首先提取声学特征，该声学特征可以是MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征。

102：利用所述声学特征，训练获得用于提取说话人特征的特征识别器。

其中，不同用户类型对应的说话人特征不同。

其中，所述说话人特征为与文本无关的特征。通过利用声学特征计算获得。因此利用所述声学特征，可以训练用于提取说话人特征的特征识别器。

该说话人特征可以是基频特征，发明人在研究中发现，人声基频一般在140Hz(赫兹)到300Hz之间，通常女性比男性的基频高，儿童比成人基频高，从而可以利用基频特征进行不同用户类型的区分。

当然，为了进一步提高识别准确度，该说话人特征可以是i-Vector(i-向量)特征。i-Vector特征能够反映说话人声学差异，从而可以实现对不同用户类型的区分。

利用训练语音的声学特征可以训练特征识别器，以用于提取说话人特征。在说话人特征为i-Vector特征时，该特征识别器具体即是一个T矩阵。

其中，利用所述声学特征，训练获得用于提取说话人特征的特征识别器可以具体是：

利用所述声学特征可以首先训练获得UBM(Universal Background Model，通用背景模型)，再利用UBM，训练获得用于提取说话人特征的特征识别器。

103：利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征，作为所述用户类型对应的说话人特征。

目标语音可以是在应用环境中采集的目标语音，用于进行训练。

例如应用于电视机中时，每一个用户类型的目标语音可以是利用电视机的麦克风采集获得的每一个用户类型的目标语音。

其中这些目标语音具有一定时长，通常至少为1个小时，以提高识别精确度。

获得目标语音之后，即可以利用步骤102训练获得的特征识别器提取说话人特征。

为了提高识别准确度，每一个用户类型的目标语音可以包括多个，从而具体的可以是利用所述特征识别器从每一个用户类型的多个目标语音中分别提取说话人特征，并将提取获得的多个说话人特征的平均值作为所述用户类型对应的说话人特征。

104：将不同用户类型对应的说话人特征以及所述特征识别器，作为说话人类型识别模型。

训练获得的特征识别器以及利用特征识别器从目标语音中提取的每一用户类型对应的说话人特征，即作为说话人类型识别模型。

在进行说话人类型识别时，即可以利用所述说话人类型识别模型的特征识别器结合待识别语音的声音特征，提取所述待识别语音的说话人特征，并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配，将匹配度最高的说话人特征对应的用户类型识别所述待识别语音的用户类型。

在本实施例中，通过训练获得的说话人类型识别模型，实现了识别用户类型目的，从而实现对不同用户类型的区分。

在实际应用中，通过识别用户语音，确定用户类型，以可以针对性的向用户推送其用户类型对应的相关信息等。

图2为本发明实施例提供的一种说话人类型识别方法一个实施例的流程图，该方法可以包括以下几个步骤：

201：获取待识别语音，并提取所述待识别语音的声学特征。

在实际应用中，该待识别语音可以是设备采集的用户输入的语音，通过对该待识别语音进行识别，以实现确定所述用户的用户类型的目的。

202：利用说话人类型识别模型中的特征识别器以及所述声学特征，提取所述待识别语音的说话人特征。

其中，所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征；所述特征识别器利用训练语音的声学特征训练获得；所述不同用户类型对应的说话人特征利用所述特征识别器从所述不同用户类型的目标语音中提取获得。

其中，所述说话人类型识别模型的具体训练过程可以参见图1对应实施例，在此不再赘述。

203：分别计算所述待识别语音的说话人特征与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度。

204：将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。

匹配度最高的说话人特征对应的用户类型，即识别为待识别语音的用户类型。

其中，说话人特征为i-Vector特征时，计算所述待识别语音的说话人特征与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度具体可以是：

分别计算所述待识别语音的i-Vector特征与所述说话人类型识别模型中不同用户类型的i-Vector特征的距离作为匹配度；其中距离越小，匹配度越大。

计算的待识别语音的i-Vector特征与所述说话人类型识别模型中不同用户类型的i-Vector特征的距离具体可以是余弦距离。

从而最小距离对应的用户类型，即识别为所述待识别语音的用户类型。

通过本实施例，实现了用户类型的确定，从而实现了根据语音区分不同用户类型的目的。

图3为本发明实施例提供的一种语音识别模型训练装置一个实施例的结构示意图，该装置可以包括：

第一提取模块301，用于获取训练语音并提取所述训练语音的声学特征。

所述训练语音包括不同用户类型的语音。

不同用户类型可以包括成年男、成年女、老人或者儿童。

对于大量的训练语音，首先提取声学特征，该声学特征可以是MFCC特征。

训练模块302，用于利用所述声学特征，训练获得用于提取说话人特征的特征识别器。

其中，不同用户类型对应的说话人特征不同。

该说话人特征可以是基频特征。人声基频一般在140Hz(赫兹)到300Hz之间，通常女性比男性的基频高，儿童比成人基频高，从而可以利用基频特征进行不同用户类型的区分。

当然，为了进一步提高识别准确度，该说话人特征可以是i-Vector特征。i-Vector特征能够反映说话人声学差异，从而可以实现对不同用户类型的区分。

作为又一个实施例，该训练模块可以包括：

第一训练单元，用于利用所述声学特征，训练获得通用背景模型；

第二训练单元，用于利用所述通用背景模型，训练获得用于提取说话人特征的特征识别器。

第二提取模块303，用于利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征，作为所述用户类型对应的说话人特征。

为了提高识别准确度，每一个用户类型的目标语音可以包括多个，因此，作为又一个实施例，所述第二提取模块具体用于利用所述特征识别器从每一个用户类型的多个目标语音中分别提取说话人特征，并提取获得的多个说话人特征的平均值作为所述用户类型对应的说话人特征。

模型生成模块304，用于将不同用户类型对应的说话人特征以及所述特征识别器，作为说话人类型识别模型。

图4为本发明实施例提供的一种说话人类型识别装置一个实施例的结构示意图，该装置可以包括：

第三提取模块401，用于获取待识别语音，并提取所述待识别语音的声学特征。

第四提取模块402，用于利用说话人类型识别模型中的特征识别器以及所述声学特征，提取所述待识别语音的说话人特征。

其中，所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征；所述特征识别器利用训练语音的声学特征训练获得；所述不同用户类型对应的说话人特征利用所述特征识别器从所述不同用户类型的目标语音提取中获得。

其中，所述说话人类型识别模型的具体训练过程可以参见上述实施例中所述，在此不再赘述。

匹配度计算模块403，用于分别计算所述待识别语音的说话人特征与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度。

识别模块404，用于将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。

其中，说话人特征为i-Vector特征时，所述匹配度计算模块具体用于：

计算待识别语音的i-Vector特征与所述说话人类型识别模型中不同用户类型的i-Vector特征的距离具体可以是余弦距离。

在实际应用中，图4所示的说话人类型识别装置可以配置在诸如智能电视、手机、平板电脑等智能电子设备中，实现对用户输入的语音进行用户类型识别，从而针对不同的用户类型，可以推送或显示不同的信息。

本申请实施例还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任一方法实施例中的语音识别模型训练方法，或任一方法实施例中的说话人类型识别方法。

图5是本申请实施例提供的执行语音识别模型训练方法和/或说话人类型识别方法的电子设备的硬件结构示意图，如图5所示，该设备包括：

一个或多个处理器510以及存储器520，图5中以一个处理器510为例。

执行语音识别模型训练方法和/或说话人类型识别方法的设备还可以包括：输入装置530和输出装置540。

处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器520作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语音识别模型训练方法和/或说话人类型识别方法对应的程序指令/ 模块(例如，附图3所示的第一提取模块301、训练模块302、第二提取模块303和模型生成模块304，或者，附图4所示的第三提取模块401、第四提取模块402、匹配度计算模块403和识别模块404)。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例语音识别模型训练方法和/或说话人类型识别方法。

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音识别模型训练装置(如附图3)和/或说话人类型识别装置(如附图4)的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至语音识别模型训练装置和/或说话人类型识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可接收输入的数字或字符信息，以及产生与语音识别模型训练装置和/或说话人类型识别装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器520中，当被所述一个或者多个处理器510执行时，执行上述任意方法实施例中的语音识别模型训练方法和/或说话人类型识别方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本发明实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种语音识别模型训练方法，其特征在于，应用于电子设备，包括：

获取训练语音并提取所述训练语音的声学特征，所述训练语音包括不同用户类型的语音；

利用所述声学特征，训练获得用于提取说话人特征的特征识别器；其中，不同用户类型对应的说话人特征不同；

利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征，作为所述用户类型对应的说话人特征；

将不同用户类型对应的说话人特征以及所述特征识别器，作为说话人类型识别模型，所述说话人类型识别模型用于利用所述特征识别器结合待识别语音的声音特征，提取所述待识别语音的说话人特征，并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配，将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
根据权利要求1所述的方法，其特征在于，所述利用所述声学特征，训练获得用于提取说话人特征的特征识别器包括：

利用所述声学特征，训练用于计算i-Vector特征的T矩阵，所述T矩阵为特征识别器，所述i-Vector特征为说话人特征。
根据权利要求1所述的方法，其特征在于，利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征，作为所述用户类型对应的说话人特征包括：

利用所述特征识别器从每一个用户类型的多个目标语音中分别提取说话人特征，并提取获得的多个说话人特征的平均值作为所述用户类型对应的说话人特征。
根据权利要求1所述的方法，其特征在于，所述利用所述声学特征，训练获得用于提取说话人特征的特征识别器包括：

利用所述声学特征，训练获得通用背景模型；

利用所述通用背景模型，训练获得用于提取说话人特征的特征识别器。
一种说话人类型识别方法，其特征在于，应用于电子设备，包括：

获取待识别语音，并提取所述待识别语音的声学特征；

利用说话人类型识别模型中的特征识别器以及所述声学特征，提取所述待识别语音的说话人特征；所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征；所述特征识别器利用训练语音的声学特征训练获得；所述不同用户类型对应的说话人特征利用所述特征识别器从所述不同用户类型的目标语音中提取获得；

分别计算所述待识别语音的说话人特征，与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度；

将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
根据权利要求5所述的方法，其特征在于，所述说话人特征为i-Vector特征；

所述分别计所述算所述待识别语音的说话人特征，与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度包括：

分别计算所述待识别语音的i-Vector特征，与所述说话人类型识别模型中不同用户类型对应的i-Vector特征的距离作为匹配度；其中距离越小，匹配度越大。
一种语音识别模型训练装置，其特征在于，包括：

第一提取模块，用于获取训练语音并提取所述训练语音的声学特征，所述训练语音包括不同用户类型的语音；

训练模块，用于利用所述声学特征，训练获得用于提取说话人特征的特征识别器；其中，不同用户类型对应的说话人特征不同；

第二提取模块，用于利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征，作为所述用户类型对应的说话人特征；

模型生成模块，用于将不同用户类型对应的说话人特征以及所述特征识别器，作为说话人类型识别模型，所述说话人类型识别模型用于利用所述特征识别器结合待识别语音的声音特征，提取所述待识别语音的说话人特征，并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配，将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
根据权利要求7所述的装置，其特征在于，所述训练模块具体用于：

利用所述声学特征，训练用于计算i-Vector特征的T矩阵，所述T矩阵为特征识别器，所述i-Vector特征为说话人特征。
根据权利要求7所述的装置，其特征在于，所述第二提取模块具体用于：

利用所述特征识别器从每一个用户类型的多个目标语音中分别提取说话人特征，并提取获得的多个说话人特征的平均值作为所述用户类型对应的说话人特征。
根据权利要求7所述的装置，其特征在于，所述训练模块包括：

第一训练单元，用于利用所述声学特征，训练获得通用背景模型；

第二训练单元，用于利用所述通用背景模型，训练获得用于提取说话人特征的特征识别器。
一种说话人类型识别装置，其特征在于，包括：

第三提取模块，用于获取待识别语音，并提取所述待识别语音的声学特征；

第四提取模块，用于利用说话人类型识别模型中的特征识别器以及所述声学特征，提取所述待识别语音的说话人特征；所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征；所述特征识别器利用训练语音的声学特征训练获得；所述不同用户类型对应的说话人特征利用所述特征识别器从所述不同用户类型的目标语音中提取获得；

匹配度计算模块，用于分别计算所述待识别语音的说话人特征，与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度；

识别模块，用于将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
根据权利要求11所述的装置，其特征在于，所述说话人特征为i-Vector特征；

所述匹配度计算模块具体用于：

分别计算所述待识别语音的i-Vector特征与所述说话人类型识别模型中不同用户类型的i-Vector特征的距离作为匹配度；其中距离越小，匹配度越大。
一种非易失性计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

获取训练语音并提取所述训练语音的声学特征，所述训练语音包括不同用户类型的语音；

利用所述声学特征，训练获得用于提取说话人特征的特征识别器；其中，不同用户类型对应的说话人特征不同；

利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征，作为所述用户类型对应的说话人特征；

将不同用户类型对应的说话人特征以及所述特征识别器，作为说话人类型识别模型，所述说话人类型识别模型用于利用所述特征识别器结合待识别语音的声音特征，提取所述待识别语音的说话人特征，并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配，将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
一种非易失性计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

获取待识别语音，并提取所述待识别语音的声学特征；

利用说话人类型识别模型中的特征识别器以及所述声学特征，提取所述待识别语音的说话人特征；所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征；所述特征识别器利用训练语音的声学特征训练获得；所述不同用户类型对应的说话人特征利用所述特征识别器从所述不同用户类型的目标语音中提取获得；

分别计算所述待识别语音的说话人特征，与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度；

将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取训练语音并提取所述训练语音的声学特征，所述训练语音包括不同用户类型的语音；

利用所述声学特征，训练获得用于提取说话人特征的特征识别器；其中，不同用户类型对应的说话人特征不同；

利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征，作为所述用户类型对应的说话人特征；

将不同用户类型对应的说话人特征以及所述特征识别器，作为说话人类型识别模型，所述说话人类型识别模型用于利用所述特征识别器结合待识别语音的声音特征，提取所述待识别语音的说话人特征，并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配，将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取待识别语音，并提取所述待识别语音的声学特征；

利用说话人类型识别模型中的特征识别器以及所述声学特征，提取所述待识别语音的说话人特征；所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征；所述特征识别器利用训练语音的声学特征训练获得；所述不同用户类型对应的说话人特征利用所述特征识别器从所述不同用户类型的目标语音中提取获得；

分别计算所述待识别语音的说话人特征，与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度；

将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行权利要求1至6任一项所述的方法。