WO2013086736A1 - 说话人识别方法及设备 - Google Patents

说话人识别方法及设备 Download PDF

Info

Publication number
WO2013086736A1
WO2013086736A1 PCT/CN2011/084121 CN2011084121W WO2013086736A1 WO 2013086736 A1 WO2013086736 A1 WO 2013086736A1 CN 2011084121 W CN2011084121 W CN 2011084121W WO 2013086736 A1 WO2013086736 A1 WO 2013086736A1
Authority
WO
WIPO (PCT)
Prior art keywords
gmm
vector
test
speech
recognition
Prior art date
Application number
PCT/CN2011/084121
Other languages
English (en)
French (fr)
Inventor
张翔
万华林
张军
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to PCT/CN2011/084121 priority Critical patent/WO2013086736A1/zh
Priority to CN201180003380.9A priority patent/CN103562993B/zh
Publication of WO2013086736A1 publication Critical patent/WO2013086736A1/zh
Priority to US14/145,318 priority patent/US9142210B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems

Definitions

  • the present invention relates to speaker recognition technology, and in particular, to a speaker recognition method and device. Background technique
  • Voiceprint recognition technology also known as speaker recognition technology, is a technique for distinguishing speakers based on speech for speaker identification.
  • speaker recognition techniques primarily include target speaker model registration and measurement scores such that the recognition results are derived from the scores obtained.
  • GMM Gaussian Mixture Model
  • UBM Universal Background Model
  • the characteristic parameter of the test speech is used as an input of the score function to obtain a corresponding speaker score; if the score is higher than a preset threshold, the recognition result is true (True) If the above score is lower than the above preset threshold, the recognition result is false (False).
  • Embodiments of the present invention provide a speaker recognition method and device for improving discriminability. - Aspects provide a method for speaker recognition, including:
  • the first vector is a vector whose elements are all 1, and the second vector is an average posterior probability difference vector of the feature parameters of the test speech on the first GMM and the second GMM; Training a second vector of the recognition pair, and re-estimating the first vector by using SVM, obtaining a third vector, and obtaining a third score function of the characteristic parameter of the test voice, so as to use the characteristic parameter of the test voice as Inputting, obtaining a corresponding speaker score, the third score function being equal to an inner product of the third vector and the second vector.
  • Another aspect provides a speaker recognition device, including:
  • a first obtaining unit configured to obtain a first score function of a feature parameter of the test voice by using a feature parameter of the test voice, a first GMM, and a second GMM, where the first score function is a feature parameter of the test voice a difference between a logarithm of a first likelihood probability on the first GMM and a logarithm of a second likelihood probability of a characteristic parameter of the test speech on the second GMM;
  • a second obtaining unit configured to obtain, by using a characteristic parameter of the test voice and a third GMM, a third likelihood probability of a feature parameter of the test voice on the third GMM, where the third GMM is The first GMM and the second GMM are configured;
  • a third obtaining unit configured to obtain, according to the first score function and the third likelihood probability, a second score function of the feature parameter of the test voice, where the second score function is equal to the first vector and the second An inner product of the vector, the first vector is a vector whose elements are all 1, and the second vector is an average posterior probability of the characteristic parameters of the test speech on the first GMM and the second GMM Difference vector
  • a fourth obtaining unit configured to use a training to identify a second vector of the pair, and re-estimate the first vector by using an SVM, obtain a third vector, and obtain a third scoring function of the characteristic parameter of the test speech, In order to take the characteristic parameters of the test speech as input, a corresponding speaker score is obtained, the third score function being equal to the inner product of the third vector and the second vector.
  • the embodiment of the present invention re-estimates the first vector (ie, the weight vector) in the score function by using the SVM, so that the recognition result of the characteristic parameters of the test voice is more accurate, thereby improving the speaking.
  • FIG. 1 is a schematic flowchart of a speaker recognition method according to an embodiment of the present invention.
  • FIG. 2 is a schematic structural diagram of a speaker recognition device according to another embodiment of the present invention.
  • the technical solutions in the embodiments of the present invention are clearly and completely described in the following with reference to the accompanying drawings in the embodiments of the present invention.
  • the embodiments are a part of the embodiments of the invention, and not all of the embodiments. All other embodiments obtained by those skilled in the art based on the embodiments of the present invention without creative efforts are within the scope of the present invention.
  • FIG. 1 is a schematic flowchart of a speaker identification method according to an embodiment of the present invention. As shown in FIG. 1, the speaker recognition method in this embodiment may include:
  • test parameters ie, each person
  • characteristic parameters from others, are unique, and are not easy to forge and counterfeit.
  • the third likelihood probability of the feature parameter of the test voice on the third GMM is obtained by using the feature parameter of the test voice and the third GMM, where the third GMM is configured by the first GMM and the second GMM.
  • the second vector of the pair is identified by using the training, and the first vector is re-estimated by the SVM to obtain a third vector, and a third score function of the characteristic parameter of the test voice is obtained, so as to test the characteristic parameter of the voice.
  • the third one The partial function is equal to the inner product of the third vector described above and the second vector described above.
  • the first GMM may be the target speaker's GMM, and the second GMM may be the UBM; or the first GMM may be the UBM, and the second GMM may be the target speaker's GMM.
  • the first scoring function of the characteristic parameter of the test speech can be obtained by using the characteristic parameter of the test speech, the UBM and the GMM of the target speaker, and the first scoring function is that the characteristic parameter of the test speech is on the target speaker's GMM.
  • r is the total number of characteristic parameters of the test speech
  • s is the GMM of the target speaker
  • m is UBM
  • p (o t ⁇ m) is the likelihood probability of the characteristic parameters of the test speech on the UBM.
  • the feature parameter of the test voice and the GMM of the combined target speaker composed of the UBM and the target speaker GMM can be used to obtain the third likelihood of the feature parameter of the test voice on the GMM of the combined target speaker.
  • is the likelihood probability of the feature parameter of the test speech on the GMM of the combined target speaker.
  • ⁇ In fact, [1,...,1]' can be regarded as a weight vector, since the weight vector is equal for each Gaussian component of the target speaker's GMM and UBM. , so it will affect the discriminability of the recognition results. Therefore, the above weight vector can be re-estimated by the following method to improve the discriminability.
  • the training recognition pair whose decision result is judged to be False ie, the recognition parameter of a test speech characteristic parameter and a target speaker model
  • the identification pair of the above training recognition pair is the sum of 6 (3,).
  • SVM Support Vector Machine
  • the SVM can adopt a linear kernel function or a generalized linear discriminant sequence (GLDS) kernel function.
  • GLDS generalized linear discriminant sequence
  • equation (6) the characteristic parameters of the test speech can be input as input, and the corresponding speaker score can be obtained, so that the recognition result (true or false) can be obtained according to the obtained score.
  • the re-estimation of the first vector (ie, the weight vector) in the scoring function is performed by using the SVM, so that the recognition result of the characteristic parameters of the test speech is more accurate, thereby improving the identifiability of the speaker recognition. Sex.
  • the speaker identification device of this embodiment may include a first obtaining unit 21, a second obtaining unit 22, and a third obtaining. Unit 23 and fourth obtaining unit 24.
  • the first obtaining unit 21 is configured to obtain a first score function of the feature parameter of the test voice by using the feature parameter of the test voice, the first GMM, and the second GMM, where the first score function is that the feature parameter of the test voice is a logarithm of the logarithm of the first likelihood probability on the first GMM and a logarithm of the second likelihood probability of the feature parameter of the test speech on the second GMM;
  • the second obtaining unit 22 is configured to utilize the above test a characteristic parameter of the voice and a third GMM, obtaining a third likelihood probability of the feature parameter of the test voice on the third GMM, wherein the third GMM is composed of the first GMM and the second GMM; and the third obtaining unit 23 a second score function for obtaining a feature parameter of the test speech according to the first score function and the third likelihood probability, wherein the second score function is equal to an inner product of the first vector and the second vector, the first vector a vector having an element of all ones, wherein the second vector is an average posterior
  • the method in the embodiment corresponding to FIG. 1 above can be implemented by the speaker recognition device provided in this embodiment.
  • the first GMM may be the target speaker's GMM
  • the second GMM may be the UBM
  • the first GMM may be the UBM
  • the second GMM may be the target speaker's GMM.
  • the first obtaining unit 21 in this embodiment may be specifically used for
  • the first scoring function formula (1) of the characteristic parameters of the above test speech is obtained, namely:
  • is the total number of characteristic parameters of the test speech
  • s is the GMM of the target speaker
  • m is UBM
  • p (o t ⁇ m) is the likelihood probability of the characteristic parameters of the test speech on the UBM.
  • the second obtaining unit 22 in this embodiment may be specifically used for
  • the likelihood probability of the characteristic parameter of the test speech on the GMM of the combined target speaker is obtained, namely:
  • the likelihood probability of testing the characteristic parameters of the speech on the GMM of the combined target speaker is the likelihood probability of testing the characteristic parameters of the speech on the GMM of the combined target speaker.
  • the third obtaining unit 23 in this embodiment may be specifically used for
  • the fourth obtaining unit 24 in this embodiment may be specifically used for
  • the characteristic parameters of the test speech can be input as input, and the corresponding speaker score can be obtained, so that the recognition result (true or false) can be obtained according to the obtained score.
  • the fourth obtaining unit uses the SVM to perform re-estimation of the first vector (ie, the weight vector) in the score function, so that the recognition result of the characteristic parameters of the test voice is more accurate, thereby improving the speaker.
  • the identifiability of the identification uses the SVM to perform re-estimation of the first vector (ie, the weight vector) in the score function, so that the recognition result of the characteristic parameters of the test voice is more accurate, thereby improving the speaker.
  • the disclosed apparatus and method may be implemented in other manners.
  • the device embodiments described above are merely illustrative.
  • the division of the foregoing units is only a logical function division.
  • there may be another division manner for example, multiple units or components may be combined or may be Integration into another system, or some features can be ignored, or not executed.
  • the coupling or direct coupling or communication connection shown or discussed may be an indirect coupling or communication connection through some interface, device or unit, and may be in electrical, mechanical or other form.
  • the units described above as separate components may or may not be physically separate.
  • the components displayed as units may or may not be physical units, that is, may be located in one place, or may be distributed to multiple network units. Some or all of the units may be selected according to actual needs to achieve the objectives of the solution of the embodiment.
  • each functional unit in each embodiment of the present invention may be integrated into one processing unit, or each unit may exist physically separately, or two or more units may be integrated into one unit.
  • the above integrated unit can be implemented in the form of hardware or in the form of hardware plus software functional units.
  • the above-described integrated unit implemented in the form of a software functional unit can be stored in a computer readable storage medium.
  • the above software functional units are stored in a storage medium and include a number of instructions for causing a computer device (which may be a personal computer, server, or network device, etc.) to perform some of the steps of the above-described methods of various embodiments of the present invention.
  • the foregoing storage medium includes: a USB flash drive, a removable hard disk, a Read-Only Memory (ROM), a Random Access Memory (RAM), a magnetic disk, or an optical disk, and the like, which can store program codes. Medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种说话人识别方法及设备。本发明通过采用SVM对得分函数中的第一向量(即权重向量)进行可鉴别性的重新估计,使得测试语音的特征参数的识别结果更加准确,从而提高了说话人识别的可鉴别性。

Description

说话人识别方法及设备
技术领域 本发明涉及说话人识别技术, 尤其涉及一种说话人识别方法及设备。 背景技术
声纹识别技术也称说话人识别技术, 是根据语音对说话人进行区别, 用 以进行说话人身份鉴别的技术。 一般来说, 说话人识别技术主要包括目标说 话人模型注册和测量得分, 使得根据获得的分数得出识别结果。 例如: 在基 于高斯混合模型 (Gaussian Mixture Model , 简称 GMM ) -通用背景模型 ( Universal Background Model, 简称 UBM ) 的系统中, 首先, 利用 UBM 和目标说话人的 GMM, 获得测试语音的特征参数基于对数似然比的得分函 数; 然后, 将测试语音的特征参数作为得分函数的输入, 获得对应的说话人 分数; 如果上述分数高于一个预先设置的门限值, 则识别结果为真(True ); 如果上述分数低于上述预先设置的门限值, 则识别结果为假(False ) 。
然而, 上述现有技术中的说话人识别方法的可鉴别性较低。 发明内容
本发明实施例提供一种说话人识别方法及设备, 用以提高可鉴别性。 —方面提供了一种说话人识别方法, 包括:
利用测试语音的特征参数、第一 GMM和第二 GMM,获得所述测试语音 的特征参数的第一得分函数, 所述第一得分函数为所述测试语音的特征参数 在所述第一 GMM上的第一似然概率的对数与所述测试语音的特征参数在所 述第二 GMM上的第二似然概率的对数的差值;
利用所述测试语音的特征参数和第三 GMM,获得所述测试语音的特征参 数在所述第三 GMM上的第三似然概率, 所述第三 GMM 由所述第一 GMM 和所述第二 GMM构成;
根据所述第一得分函数和所述第三似然概率, 获得所述测试语音的特征 参数的第二得分函数, 所述第二得分函数等于第一向量与第二向量的内积, 所述第一向量为一个元素全为 1 的向量, 所述第二向量为所述测试语音的特 征参数在所述第一 GMM和所述第二 GMM上的平均后验概率差值向量; 利用训练识别对的第二向量, 并通过 SVM, 对所述第一向量进行重新估 计, 获得第三向量, 并获得所述测试语音的特征参数的第三得分函数, 以便 将测试语音的特征参数作为输入, 获得对应的说话人分数, 所述第三得分函 数等于所述第三向量与所述第二向量的内积。
另一方面提供了一种说话人识别设备, 包括:
第一获得单元,用于利用测试语音的特征参数、第一 GMM和第二 GMM, 获得所述测试语音的特征参数的第一得分函数, 所述第一得分函数为所述测 试语音的特征参数在所述第一 GMM上的第一似然概率的对数与所述测试语 音的特征参数在所述第二 GMM上的第二似然概率的对数的差值;
第二获得单元,用于利用所述测试语音的特征参数和第三 GMM,获得所 述测试语音的特征参数在所述第三 GMM上的第三似然概率,所述第三 GMM 由所述第一 GMM和所述第二 GMM构成;
第三获得单元, 用于根据所述第一得分函数和所述第三似然概率, 获得 所述测试语音的特征参数的第二得分函数, 所述第二得分函数等于第一向量 与第二向量的内积, 所述第一向量为一个元素全为 1 的向量, 所述第二向量 为所述测试语音的特征参数在所述第一 GMM和所述第二 GMM上的平均后 验概率差值向量;
第四获得单元, 用于利用训练识别对的第二向量, 并通过 SVM, 对所述 第一向量进行重新估计, 获得第三向量, 并获得所述测试语音的特征参数的 第三得分函数, 以便将测试语音的特征参数作为输入, 获得对应的说话人分 数, 所述第三得分函数等于所述第三向量与所述第二向量的内积。
由上述技术方案可知,本发明实施例通过采用 SVM对得分函数中的第一 向量(即权重向量)进行可鉴别性的重新估计, 使得测试语音的特征参数的 识别结果更加准确, 从而提高了说话人识别的可鉴别性。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实 施例或现有技术描述中所需要使用的附图作一简单地介绍, 显而易见地, 下 面描述中的附图是本发明的一些实施例, 对于本领域普通技术人员来讲, 在 不付出创造性劳动性的前提下, 还可以根据这些附图获得其他的附图。
图 1为本发明一实施例提供的说话人识别方法的流程示意图;
图 2为本发明另一实施例提供的说话人识别设备的结构示意图。 具体实施方式 为使本发明实施例的目的、 技术方案和优点更加清楚, 下面将结合本发 明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下所获 得的所有其他实施例, 都属于本发明保护的范围。
图 1为本发明一实施例提供的说话人识别方法的流程示意图, 如图 1所 示, 本实施例的说话人识别方法可以包括:
101、 利用测试语音的特征参数、 第一 GMM和第二 GMM, 获得上述测 试语音的特征参数的第一得分函数, 上述第一得分函数为上述测试语音的特 征参数在上述第一 GMM上的第一似然概率的对数与上述测试语音的特征参 数在上述第二 GMM上的第二似然概率的对数的差值;
其中, 测试语音(即每个人)的特征参数与其他人都不同, 具有唯一性, 不易伪造和假冒。
102、 利用上述测试语音的特征参数和第三 GMM, 获得上述测试语音的 特征参数在上述第三 GMM上的第三似然概率, 上述第三 GMM由上述第一 GMM和上述第二 GMM构成;
103、根据上述第一得分函数和上述第三似然概率,获得上述测试语音的 特征参数的第二得分函数, 上述第二得分函数等于第一向量与第二向量的内 积, 上述第一向量(即权重向量) 为一个元素全为 1 的向量, 上述第二向量 为上述测试语音的特征参数在上述第一 GMM和上述第二 GMM上的平均后 验概率差值向量;
104、 利用训练识别对的第二向量, 并通过 SVM, 对上述第一向量进行 重新估计, 获得第三向量, 并获得上述测试语音的特征参数的第三得分函数, 以便将测试语音的特征参数作为输入, 获得对应的说话人分数, 上述第三得 分函数等于上述第三向量与上述第二向量的内积。
在本实施例的一个应用场景中, 上述第一 GMM 可以为目标说话人的 GMM , 上述第二 GMM可以为 UBM; 或者上述第一 GMM可以为 UBM, 上 述第二 GMM可以为目标说话人的 GMM。首先,可以利用测试语音的特征参 数、 UBM和目标说话人的 GMM, 获得上述测试语音的特征参数的第一得分 函数, 上述第一得分函数为上述测试语音的特征参数在目标说话人的 GMM 上的第一似然概率的对数与上述测试语音的特征参数在 UBM 上的第二似然 概率
Figure imgf000006_0001
其中, 为测试语音的特征参数, r为测试语音的特征参数的总个数; s为 目标说话人的 GMM; 为测试语音的特征参数在目标说话人的 GMM上的 似然概率; m为 UBM; p (ot \m)为测试语音的特征参数在 UBM上的似然概率。
然后, 则可以利用上述测试语音的特征参数、 以及 UBM 和目标说话人 的 GMM构成的组合目标说话人的 GMM ,获得上述测试语音的特征参数在上 述组合目标说话人的 GMM上的第三似然概率, 即:
Figure imgf000006_0002
其中, ;^ | /;)为测试语音的特征参数在组合目标说话人的 GMM上的似 然概率。
对于一个测试语音的特征参数与一个目标说话人模型构成的识别对 ( Trial ) 来说, 获得的分数越大, 识别结果被判决为真(True ) 的概率就越 大; 反之, 获得的分数越小, 识别结果被判决为假(False ) 的概率就越大。 在没有先验的情况下, 被判决为真和假的概率是相同的, 因此可以令
= p (m) = Q.5。
Figure imgf000006_0003
对于公式(3 )利用二阶泰勒级数展开即 log x = x - l进行近似, 去掉不影响 识别结果的常 则公式(3)可以简化为:
Figure imgf000007_0001
其中, 公式(4)可以表示成 与/ 的内积。 其中, 为一个元素全为
1 的向量, 即: = [l,...,lf ; /^/;;)为上述测试语音的特征参数在 UBM和目标 说话人的 GMM上的平均后验概率差值向量, 可以称之为识别对信息向量, 即: W = [ …, ,
其中, φ
Figure imgf000007_0002
实际上, =[1,...,1]'可以看作是一个权重向量, 由于该权重向量对于目 标说话人的 GMM与 UBM中的每个高斯分量来说,对应的权重都是相等的, 所以会影响识别结果的可鉴别性。 因此, 可以通过如下方式, 对上述权重向 量即 进行重新估计, 用以提高可鉴别性。
首先, 假设一个训练集来训练权重向量; 其中, 识别结果被判决为真 (True) 的训练识别对(即一个测试语音的特征参数与一个目标说话人模型 构成的识别对) 为 {x,}, i = \,..., N 识别结果被判决为假(False) 的训练识 别对(即一个测试语音的特征参数与一个目标说话人模型构成的识别对) 为
{y,}, i = ..., N2 , 则上述训练识别对的识别对信息向量则为 和 6(3,)。
然后, 利用训练识别对的识别对信息向量则为 ^χ,)和 6(3,), 并通过支持 向量机(Support Vector Machine, 简称 SVM) , 获得重新估计之后的权重 向量, 即:
Figure imgf000007_0003
其中, /为支持向量的个数; δ,.为 -1或者 +1, 由训练识别对的类别来决定, 为支持向量的权重; V,为支持向量; )=μο,...,ο]'。
其中, SVM 可以采用线性核函数或广义线性区分序列 (Generalized linear discriminant sequence, 简称 GLDS )核函数等。
最后, 可以将公式 (6) 代入公式 (4) 中, 可以得到:
Figure imgf000008_0001
至此, 可以将测试语音的特征参数作为输入, 获得对应的说话人分数, 使得能够根据获得的分数得出识别结果(真或假) 。
本实施例中, 通过采用 SVM对得分函数中的第一向量(即权重向量)进 行可鉴别性的重新估计, 使得测试语音的特征参数的识别结果更加准确, 从 而提高了说话人识别的可鉴别性。
需要说明的是: 对于前述的方法实施例, 为了简单描述, 故将其表述为 一系列的动作组合, 但是本领域技术人员应该知悉, 本发明并不受所描述的 动作顺序的限制, 因为依据本发明, 某些步骤可以采用其他顺序或者同时进 行。 其次, 本领域技术人员也应该知悉, 说明书中所描述的实施例均属于优 选实施例, 所涉及的动作和模块并不一定是本发明所必须的。
图 2为本发明另一实施例提供的说话人识别设备的结构示意图, 如图 2 所示, 本实施例的说话人识别设备可以包括第一获得单元 21、 第二获得单元 22、 第三获得单元 23和第四获得单元 24。 其中, 第一获得单元 21用于利用 测试语音的特征参数、第一 GMM和第二 GMM,获得上述测试语音的特征参 数的第一得分函数, 上述第一得分函数为上述测试语音的特征参数在上述第 一 GMM 上的第一似然概率的对数与上述测试语音的特征参数在上述第二 GMM上的第二似然概率的对数的差值; 第二获得单元 22用于利用上述测试 语音的特征参数和第三 GMM , 获得上述测试语音的特征参数在上述第三 GMM上的第三似然概率,上述第三 GMM由上述第一 GMM和上述第二 GMM 构成; 第三获得单元 23用于根据上述第一得分函数和上述第三似然概率,获 得上述测试语音的特征参数的第二得分函数, 上述第二得分函数等于第一向 量与第二向量的内积, 上述第一向量为一个元素全为 1 的向量, 上述第二向 量为上述测试语音的特征参数在上述第一 GMM和上述第二 GMM上的平均 后验概率差值向量; 第四获得单元 24用于利用训练识别对的第二向量, 并通 过 SVM, 对上述第一向量进行重新估计, 获得第三向量, 并获得上述测试语 音的特征参数的第三得分函数, 以便将测试语音的特征参数作为输入, 获得 对应的说话人分数, 上述第三得分函数等于上述第三向量与上述第二向量的 内积。
上述图 1对应的实施例中方法可以由本实施例提供的说话人识别设备实现。 在本实施例的一个应用场景中, 上述第一 GMM 可以为目标说话人的 GMM , 上述第二 GMM可以为 UBM; 或者上述第一 GMM可以为 UBM, 上 述第二 GMM可以为目标说话人的 GMM。
例如: 本实施例中第一获得单元 21具体可以用于
利用测试语音的特征参数、 UBM和目标说话人的 GMM, 获得上述测试 语音的特征参数的第一得分函数公式( 1 ) , 即:
( 1 )
Figure imgf000009_0001
其中, 为测试语音的特征参数, Γ为测试语音的特征参数的总个数; s为 目标说话人的 GMM; 为测试语音的特征参数在目标说话人的 GMM上的 似然概率; m为 UBM; p (ot \m)为测试语音的特征参数在 UBM上的似然概率。
例如: 本实施例中第二获得单元 22具体可以用于
利用上述测试语音的特征参数、以及 UBM和目标说话人的 GMM构成的 组合目标说话人的 GMM,获得上述测试语音的特征参数在上述组合目标说话 人的 GMM上的似然概率, 即:
Figure imgf000009_0002
其中, 为测试语音的特征参数在组合目标说话人的 GMM上的似 然概率。
例如: 本实施例中第三获得单元 23具体可以用于
将 ^) = p( ) = 0.5和公式 (2 ) , 代入公式 (1 ) 中, 得到公式 (3 ) , 即:
Figure imgf000009_0003
利用二阶泰勒级数展开, 对公式(3 )进行简化, 获得上述测试语音的特 征参数的第二得分函数公式(4 ) , 即: Score =
Figure imgf000010_0001
其中, '为一个元素全为 1的向量, 即: v'=[l,...,l了; 为上述测试语 音的特征参数在 UBM和目标说话人的 GMM上的平均后验概率差值向量,可 以称之为识别对信息向量, 即: 6(;7;)=[ ..., φ^-,
其中, ( 5 )
Figure imgf000010_0002
例如: 本实施例中第四获得单元 24具体可以用于
利用识别结果被判决为真的训练识别对 {χ, }, i = \,..., 的识别对信息向 量 和识别结果被判决为假的训练识别对 i = ..., N2的识别对信息向 量 6( ), 并通过支持向量机 SVM, 获得重新估计之后的 即:
( I
W (6) 其中, /为支持向量的个数, δ,.为 -1或者 +1, 由训练识别对的类别来决定, ζ,.为支持向量的权重, V,.为支持向量; Ζ) = [ί,0,...,0]'。
将公式 (6) 代入公式 (4) 中, 得到上述测试语音的特征参数的第三 得分函数公式(7) , 即:
Figure imgf000010_0003
至此, 可以将测试语音的特征参数作为输入, 获得对应的说话人分数, 使得能够根据获得的分数得出识别结果(真或假) 。
本实施例中,通过第四获得单元采用 SVM对得分函数中的第一向量(即 权重向量)进行可鉴别性的重新估计, 使得测试语音的特征参数的识别结果 更加准确, 从而提高了说话人识别的可鉴别性。
所属领域的技术人员可以清楚地了解到, 为描述的方便和简洁, 上述描 述的装置和单元的具体工作过程, 可以参考前述方法实施例中的对应过程, 在此不再赘述。
在本申请所提供的实施例中, 应该理解到, 所揭露的装置和方法, 可以 通过其它的方式实现。 例如, 以上所描述的装置实施例仅仅是示意性的, 例 如, 上述单元的划分, 仅仅为一种逻辑功能划分, 实际实现时可以有另外的 划分方式, 例如多个单元或组件可以结合或者可以集成到另一个系统, 或一 些特征可以忽略, 或不执行。 另一点, 所显示或讨论的相互之间的耦合或直 接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接, 可以是电性, 机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作 为单元显示的部件可以是或者也可以不是物理单元, 即可以位于一个地方, 或者也可以分布到多个网络单元上。 可以根据实际的需要选择其中的部分或 者全部单元来实现本实施例方案的目的。
另外 ,在本发明各个实施例中的各功能单元可以集成在一个处理单元中 , 也可以是各个单元单独物理存在, 也可以两个或两个以上单元集成在一个单 元中。 上述集成的单元既可以采用硬件的形式实现, 也可以采用硬件加软件 功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元, 可以存储在一个计算机 可读取存储介质中。 上述软件功能单元存储在一个存储介质中, 包括若干指 令用以使得一台计算机设备(可以是个人计算机, 服务器, 或者网络设备等) 执行本发明各个实施例上述方法的部分步骤。 而前述的存储介质包括: U盘、 移动硬盘、 只读存储器(Read-Only Memory, 简称 ROM ) 、 随机存取存储 器( Random Access Memory, 简称 RAM )、 磁碟或者光盘等各种可以存储 程序代码的介质。
最后应说明的是: 以上实施例仅用以说明本发明的技术方案, 而非对其 限制; 尽管参照前述实施例对本发明进行了详细的说明, 本领域的普通技术 人员应当理解: 其依然可以对前述各实施例所记载的技术方案进行修改, 或 者对其中部分技术特征进行等同替换; 而这些修改或者替换, 并不使相应技 术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

权 利 要求 书
1、 一种说话人识别方法, 其特征在于, 包括:
利用测试语音的特征参数、第一高斯混合模型 GMM和第二 GMM,获得 所述测试语音的特征参数的第一得分函数, 所述第一得分函数为所述测试语 音的特征参数在所述第一 GMM上的第一似然概率的对数与所述测试语音的 特征参数在所述第二 GMM上的第二似然概率的对数的差值;
利用所述测试语音的特征参数和第三 GMM,获得所述测试语音的特征参 数在所述第三 GMM上的第三似然概率, 所述第三 GMM 由所述第一 GMM 和所述第二 GMM构成;
根据所述第一得分函数和所述第三似然概率, 获得所述测试语音的特征 参数的第二得分函数, 所述第二得分函数等于第一向量与第二向量的内积, 所述第一向量为一个元素全为 1 的向量, 所述第二向量为所述测试语音的特 征参数在所述第一 GMM和所述第二 GMM上的平均后验概率差值向量; 利用训练识别对的第二向量, 并通过支持向量机 SVM, 对所述第一向量 进行重新估计, 获得第三向量, 并获得所述测试语音的特征参数的第三得分 函数, 以便将测试语音的特征参数作为输入, 获得对应的说话人分数, 所述 第三得分函数等于所述第三向量与所述第二向量的内积。
2、 根据权利要求 1所述的方法, 其特征在于, 所述第一 GMM或者所述 第二 GMM为通用背景模型 UBM。
3、 根据权利要求 2所述的方法, 其特征在于, 所述利用测试语音的特征 参数、第一高斯混合模型 GMM和第二 GMM,获得所述测试语音的特征参数 的第一得分函数, 具体为:
利用测试语音的特征参数、 UBM和目标说话人的 GMM, 获得所述测试 语音的特征参数的第一得分函数:
( 1 )
Figure imgf000012_0001
其中, 为测试语音的特征参数, Γ为测试语音的特征参数的总个数; s 为目标说话人的 GMM; P (ot \s)为测试语音的特征参数在目标说话人的 GMM 上的似然概率; w为 UBM; 为测试语音的特征参数在 UBM上的似然 概率。
4、根据权利要求 2或 3所述的方法, 其特征在于, 所述利用所述测试语 音的特征参数和第三 GMM, 获得所述测试语音的特征参数在所述第三 GMM 上的第三似然概率, 具体为:
利用所述测试语音的特征参数、以及 UBM和目标说话人的 GMM构成的 组合目标说话人的 GMM,获得所述测试语音的特征参数在所述组合目标说话 人的 GMM上的似然概率:
p(ot
Figure imgf000013_0001
+ p(ot \m)p(m) ( 2 ) 其中, 为测试语音的特征参数在组合目标说话人的 GMM上的似 然概率。
5、 根据权利要求 4所述的方法, 其特征在于, 所述根据所述第一得分函 数和所述第三似然概率, 获得所述测试语音的特征参数的第二得分函数, 具 体为:
(3);
Figure imgf000013_0002
利用二阶泰勒级数展开, 对公式(3)进行简化, 获得所述测试语音的特 征
Figure imgf000013_0003
其中, '为一个元素全为 1 的向量; 6(/7;)为所述测试语音的特征参数在
UBM和目 后验概率差值向量: 6(;7;)=[ ..., φε]·, 其中, (5);
Figure imgf000013_0004
6、 根据权利要求 5所述的方法, 其特征在于, 所述利用训练识别对的第 二向量, 并通过 SVM, 对所述第一向量进行重新估计, 获得第三向量, 并获 得所述测试语音的特征参数的第三得分函数, 具体为:
利用识别结果被判决为真的训练识别对 {x, }, i = \,..., 的识别对信息向 量 和识别结果被判决为假的训练识别对 { ψ = !, ..., Ν2的识别对信息向 量 6 获得重新估计之后的 κ :
Figure imgf000014_0001
的个数, δ,.为 -1或者 + 1 , 由训练识别对的类别来决定, ζ,.为支持向量的权重, ν,.为支持向量; Ζ) = [ί,0,...,0]' ;
将公式 (6 ) 代入公式 (4 ) 中, 得到所述测试语音的特征参数的第三 得分
Figure imgf000014_0002
7、 一种说话人识别设备, 其特征在于, 包括:
第一获得单元,用于利用测试语音的特征参数、第一高斯混合模型 GMM 和第二 GMM,获得所述测试语音的特征参数的第一得分函数,所述第一得分 函数为所述测试语音的特征参数在所述第一 GMM上的第一似然概率的对数 与所述测试语音的特征参数在所述第二 GMM上的第二似然概率的对数的差 值;
第二获得单元,用于利用所述测试语音的特征参数和第三 GMM ,获得所 述测试语音的特征参数在所述第三 GMM上的第三似然概率,所述第三 GMM 由所述第一 GMM和所述第二 GMM构成;
第三获得单元, 用于根据所述第一得分函数和所述第三似然概率, 获得 所述测试语音的特征参数的第二得分函数 , 所述第二得分函数等于第一向量 与第二向量的内积, 所述第一向量为一个元素全为 1 的向量, 所述第二向量 为所述测试语音的特征参数在所述第一 GMM和所述第二 GMM上的平均后 验概率差值向量;
第四获得单元, 用于利用训练识别对的第二向量, 并通过支持向量机 SVM , 对所述第一向量进行重新估计, 获得第三向量, 并获得所述测试语音 的特征参数的第三得分函数, 以便将测试语音的特征参数作为输入, 获得对 应的说话人分数, 所述第三得分函数等于所述第三向量与所述第二向量的内 积。
8、 根据权利要求 7所述的设备, 其特征在于, 所述第一 GMM或者所述 第二 GMM为通用背景模型 UBM。
9、 根据权利要求 8所述的设备, 其特征在于, 所述第一获得单元具体用 于
利用测试语音的特征参数、 UBM和目标说话人的 GMM, 获得所述测试 语音 一得分函数:
Figure imgf000015_0001
其中, 为测试语音的特征参数, r为测试语音的特征参数的总个数; s 为目标说话人的 GMM; P(ot \s)为测试语音的特征参数在目标说话人的 GMM 上的似然概率; w为 UBM; 为测试语音的特征参数在 UBM上的似然 概率。
10、 根据权利要求 8或 9所述的设备, 其特征在于, 所述第二获得单元 具体用于
利用所述测试语音的特征参数、以及 UBM和目标说话人的 GMM构成的 组合目标说话人的 GMM,获得所述测试语音的特征参数在所述组合目标说话 人的 GMM上的似然概率:
Figure imgf000015_0002
其中, 为测试语音的特征参数在组合目标说话人的 GMM上的似 然概率。
11、 根据权利要求 10 所述的设备, 其特征在于, 所述第三获得单元具 体用于
Figure imgf000015_0003
利用二阶泰勒级数展开, 对公式(3 )进行简化, 获得所述测试语音的特 征参数的第二得分函数:
Figure imgf000016_0001
其中, '为一个元素全为 1 的向量; 6(/7;)为所述测试语音的特征参数在
UBM和目标
其中 , φ
Figure imgf000016_0002
12、 根据权利要求 11 所述的设备, 其特征在于, 所述第四获得单元具 体用于
利用识别结果被判决为真的训练识别对 {x, }, i = \,..., 的识别对信息向 量 和识别结果被判决为假的训练识别对 i = ..., N2的识别对信息向 量 6( ), 并通过 SVM, 获得重新估计之后的 κ :
( I
W (6) 其中, /为支持向量的个数, δ,.为 -1或者 +1, 由训练识别对的类别来决定, ζ,.为支持向量的权重, ν,.为支持向量; Ζ) = [ί,0,...,0]' ;
将公式 (6) 代入公式 (4) 中, 得到所述测试语音的特征参数的第三 得分函数:
Figure imgf000016_0003
PCT/CN2011/084121 2011-12-16 2011-12-16 说话人识别方法及设备 WO2013086736A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/CN2011/084121 WO2013086736A1 (zh) 2011-12-16 2011-12-16 说话人识别方法及设备
CN201180003380.9A CN103562993B (zh) 2011-12-16 2011-12-16 说话人识别方法及设备
US14/145,318 US9142210B2 (en) 2011-12-16 2013-12-31 Method and device for speaker recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/084121 WO2013086736A1 (zh) 2011-12-16 2011-12-16 说话人识别方法及设备

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/145,318 Continuation US9142210B2 (en) 2011-12-16 2013-12-31 Method and device for speaker recognition

Publications (1)

Publication Number Publication Date
WO2013086736A1 true WO2013086736A1 (zh) 2013-06-20

Family

ID=48611835

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2011/084121 WO2013086736A1 (zh) 2011-12-16 2011-12-16 说话人识别方法及设备

Country Status (3)

Country Link
US (1) US9142210B2 (zh)
CN (1) CN103562993B (zh)
WO (1) WO2013086736A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103677729A (zh) * 2013-12-18 2014-03-26 北京搜狗科技发展有限公司 一种语音输入方法和系统
CN111145737A (zh) * 2018-11-06 2020-05-12 中移(杭州)信息技术有限公司 语音测试方法、装置和电子设备

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103562993B (zh) * 2011-12-16 2015-05-27 华为技术有限公司 说话人识别方法及设备
WO2016095218A1 (en) * 2014-12-19 2016-06-23 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
US20180018973A1 (en) * 2016-07-15 2018-01-18 Google Inc. Speaker verification
CN108091340B (zh) * 2016-11-22 2020-11-03 北京京东尚科信息技术有限公司 声纹识别方法、声纹识别系统和计算机可读存储介质
EP3706118B1 (en) * 2017-06-13 2023-05-31 Beijing Didi Infinity Technology and Development Co., Ltd. Method and system for speaker verification
CN110111797A (zh) * 2019-04-04 2019-08-09 湖北工业大学 基于高斯超矢量和深度神经网络的说话人识别方法
CN110265035B (zh) * 2019-04-25 2021-08-06 武汉大晟极科技有限公司 一种基于深度学习的说话人识别方法
US11043218B1 (en) * 2019-06-26 2021-06-22 Amazon Technologies, Inc. Wakeword and acoustic event detection
US11132990B1 (en) * 2019-06-26 2021-09-28 Amazon Technologies, Inc. Wakeword and acoustic event detection
CN113129901A (zh) * 2020-01-10 2021-07-16 华为技术有限公司 一种语音处理方法、介质及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004112001A1 (en) * 2003-06-19 2004-12-23 Kwangwoon Foundation Gmm incremental robust adaptation with forgetting factor for speaker verification
CN101833951A (zh) * 2010-03-04 2010-09-15 清华大学 用于说话人识别的多背景模型建立方法
CN102034472A (zh) * 2009-09-28 2011-04-27 戴红霞 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005055200A1 (en) * 2003-12-05 2005-06-16 Queensland University Of Technology Model adaptation system and method for speaker recognition
US20080010065A1 (en) * 2006-06-05 2008-01-10 Harry Bratt Method and apparatus for speaker recognition
CN103562993B (zh) * 2011-12-16 2015-05-27 华为技术有限公司 说话人识别方法及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004112001A1 (en) * 2003-06-19 2004-12-23 Kwangwoon Foundation Gmm incremental robust adaptation with forgetting factor for speaker verification
CN102034472A (zh) * 2009-09-28 2011-04-27 戴红霞 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法
CN101833951A (zh) * 2010-03-04 2010-09-15 清华大学 用于说话人识别的多背景模型建立方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHEN, LI ET AL.: "Method of Open-set Speaker Recognition Based on SVM-GMM", COMPUTER ENGINEERING, vol. 37, no. 14, July 2011 (2011-07-01), pages 172 - 174 AND 177 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103677729A (zh) * 2013-12-18 2014-03-26 北京搜狗科技发展有限公司 一种语音输入方法和系统
CN111145737A (zh) * 2018-11-06 2020-05-12 中移(杭州)信息技术有限公司 语音测试方法、装置和电子设备
CN111145737B (zh) * 2018-11-06 2022-07-01 中移(杭州)信息技术有限公司 语音测试方法、装置和电子设备

Also Published As

Publication number Publication date
US20140114660A1 (en) 2014-04-24
CN103562993B (zh) 2015-05-27
US9142210B2 (en) 2015-09-22
CN103562993A (zh) 2014-02-05

Similar Documents

Publication Publication Date Title
WO2013086736A1 (zh) 说话人识别方法及设备
JP7152514B2 (ja) 声紋識別方法、モデルトレーニング方法、サーバ、及びコンピュータプログラム
WO2017215558A1 (zh) 一种声纹识别方法和装置
WO2017113658A1 (zh) 基于人工智能的声纹认证方法以及装置
TWI527023B (zh) A voiceprint recognition method and apparatus
CN108109613B (zh) 用于智能对话语音平台的音频训练和识别方法及电子设备
WO2016150032A1 (zh) 基于人工智能的声纹登录方法和装置
CN106448685B (zh) 一种基于音素信息的声纹认证系统及方法
WO2019019256A1 (zh) 电子装置、身份验证的方法、系统及计算机可读存储介质
US20160019915A1 (en) Real-time emotion recognition from audio signals
CN109378003A (zh) 一种声纹模型训练的方法和系统
WO2021051608A1 (zh) 一种基于深度学习的声纹识别方法、装置及设备
Liu et al. An investigation on back-end for speaker recognition in multi-session enrollment
CN111199741A (zh) 声纹识别方法、声纹验证方法、装置、计算设备及介质
CN108091326A (zh) 一种基于线性回归的声纹识别方法及系统
CN105280181B (zh) 一种语种识别模型的训练方法及语种识别方法
Ghaemmaghami et al. Speaker attribution of multiple telephone conversations using a complete-linkage clustering approach
CN110379433B (zh) 身份验证的方法、装置、计算机设备及存储介质
Li et al. Bridging mixture density networks with meta-learning for automatic speaker identification
Lee et al. Imaginary voice: Face-styled diffusion model for text-to-speech
WO2019136811A1 (zh) 语音对比方法、终端及计算机可读存储介质
CN111062345A (zh) 静脉识别模型的训练方法、装置和静脉图像识别装置
WO2021257000A1 (en) Cross-modal speaker verification
Chao Speaker identification using pairwise log-likelihood ratio measures
Hong et al. Transfer Learning for Speaker Verification on Short Utterances.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11877560

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11877560

Country of ref document: EP

Kind code of ref document: A1