TW201430830A

TW201430830A - 一種聲紋識別方法和裝置

Info

Publication number: TW201430830A
Application number: TW102132753A
Authority: TW
Inventors: er-yu Wang; Li Lu; Xiang Zhang; Hai-Po Liu; Lu Li; Feng Rao; Du-Ling Lu; Shuai Yue; Po Chen
Original assignee: Tencent Tech Shenzhen Co Ltd
Priority date: 2013-01-28
Filing date: 2013-09-11
Publication date: 2014-08-01
Also published as: WO2014114116A1; TWI527023B; CN103971690A

Abstract

本申請實施方式提出一種聲紋識別方法和裝置。方法包括：基於無標注語音資料建立深層神經網路初級模型，並且基於有標注語音資料對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型；利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識；接收測試語音資料，基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。通過深層神經網路自動學習語音信號當中包含能夠抵禦雜訊干擾的高層次說話人資訊，可以有效抵禦雜訊干擾。

Description

一種聲紋識別方法和裝置

本申請實施方式涉及身份認證技術領域，更具體地，涉及一種聲紋識別方法和裝置。

聲紋識別(Voiceprint Recognition,VPR)是生物識別技術的一種，也稱為說話人識別(Speaker Recognition)。說話人識別包括兩類，即說話人辨認(Speaker Identification)和說話人確認(Speaker Verification)。說話人辨認用以判斷某段語音是若干人中的哪一個所說的，是“多選一”問題；而說話人確認用以確認某段語音是否是指定的某個人所說的，是“一對一判別”問題。

聲紋識別包括文本相關(Text-Dependent)和文本無關(Text-Independent)兩種。與文本有關的聲紋識別系統要求使用者按照規定的內容發音，每個人的聲紋模型逐個被精確地建立，而識別時也必須按規定的內容發音，因此可以達到較好的識別效果，但系統需要使用者配合，如果使用者的發音與規定的內容不符合，則無法正確識別該用戶。與文本無關的識別系統則不規定說話人的發音內容，模型建立相對困難，但用戶使用方便，可應用範圍較寬。

在現有的說話人識別技術中，主流的識別系統均採用譜基的特徵，如MFCC，PLP以及LPCC等。它們均來自比較直觀的語譜圖，容易受各種雜訊影響。而在說話人識別技術的應用場景當中，採集到的語音資料不太可能是乾淨的，並且其中包含的雜訊種類複雜，信噪比很差。如果使用傳統的底層譜基特徵，需要在特徵提取之後，再進行大量的特徵端、模型端以及得分端的雜訊補償，計算複雜度較大，消耗時間過長，並且不能完全的消除雜訊的影響。

本申請實施方式提出一種聲紋識別方法，以抵禦雜訊干擾。

本申請實施方式提出一種聲紋識別裝置，以抵禦雜訊干擾。

本申請實施方式的技術方案如下：一種聲紋識別方法，該方法包括：基於無標注語音資料建立深層神經網路初級模型，並且基於有標注語音資料對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型；利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識；接收測試語音資料，基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。

一種聲紋識別裝置，該裝置包括深層神經網路二級模型獲取單元、註冊單元和聲紋識別單元，其中：深層神經網路二級模型獲取單元，用於基於無標注語音資料建立深層神經網路初級模型，並且基於有標注語音資料對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型；註冊單元，用於利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識；聲紋識別單元，用於接收測試語音資料，基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。

從上述技術方案可以看出，在本申請實施方式中，基於無標注語音資料建立深層神經網路初級模型，並且基於有標注語音資料對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型；利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識；接收測試語音資料，基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。由此可見，應用本申請實施方式之後，可以有效地從底層語譜特徵入手，通過深層神經網路自動學習語音信號當中包含能夠抵禦雜訊干擾的高層次說話人資訊，從而可以有效抵禦雜訊干擾。

另外，可以將本申請實施方式應用於特徵提取端，在有計算開銷限制的環境下，能夠直接獲取魯棒性特徵用於說話人識別應用。在沒有計算資源限制的環境下，在獲取這種特徵之後，本申請實施方式仍然可以通過原來的通道補償演算法，並且可以獲得進一步的性能提升。

701‧‧‧深層神經網路二級模型獲取單元

702‧‧‧註冊單元

703‧‧‧聲紋識別單元

圖1為根據本申請實施方式聲紋識別方法流程圖；圖2為根據本申請實施方式的深層神經網路基本單元示意圖；圖3為根據本申請實施方式的深層神經網路層疊示意圖；圖4為根據本申請實施方式深層神經網路二級模型建立過程示意圖；圖5為根據本申請實施方式說話人註冊過程示意圖；圖6為根據本申請實施方式說話人測試過程示意圖；圖7為根據本申請實施方式說話人聲紋識別裝置結構示意圖。

為使本申請的目的、技術方案和優點更加清楚，下面結合附圖對本申請作進一步的詳細描述。

首先，說話人辨識是一種多分類問題，而說話人確認是一個二分類問題，多分類問題可以轉換成多個二分類問題。因此可以利用說話人確認問題為例，闡述本申請實施方式的相關細節。

實際上，本領域技術人員可以意識到，本申請實施方式同樣適用於說話人辨識問題。

文本無關的說話人識別由於不需要存儲特定的文本密碼，而直接使用說話人的語音作為密碼，可以廣泛的應用在互聯網用戶身份認證等安全領域，本申請實施方式尤其適用于針對文本無關的應用。

傳統的說話人識別系統採用GMM-UBM技術框架，首先利用包含大量說話人的語音資料訓練一個說話人無關的通用背景模型(Universal Background Model，UBM)，然後利用可以獲得的少量當前說話人的語音資料，通過最大後驗概率(Maximum A Posteriori,MAP)或者最大似然線性回歸(Maximum Likelihood Linear Regression,MLLR)準則，訓練得到說話人的模型。

在現有技術中，在做說話人身份判決的時候，分別針對待測試語音資料計算說話人對應的GMM模型和UBM模型似然度，並通過對數似然比(Logistic Likelihood Ratio，LLR)這個度量來計算最終的得分。對於說話人確認任務來說，通過比較與預先設定的一個門限(Threshold)的關係，來進行判決，而對於說話人識別來說，模型得分高的則為說話人識別結果。

由於測試語音資料和訓練語音資料存在通道不匹配的問題，現有技術給識別過程帶來不必要的干擾，因此通道補償技術就顯得尤為重要。傳統的說話人識別任務中，使用聯合因數分析(Joint Factor Analysis，JFA)的方法來去除各種可能的通道干擾帶來的性能損失。

由於聯合因數分析系統訓練和測試需要消耗較多的系統資源，I因數方法近年來被廣泛的使用。它通過因數分析方法，訓練一個能夠反映整句語音資料的載荷空間，然後提取載荷因數，即I因數來表徵語音資料中包含的資訊，再通過線性區分性分析(Linear Discriminant Analysis，LDA)和類內協方差規整(Within-Class Covariance Normalization,WCCN)消除不必要的非說話人資訊，之後可以採用余弦距離(Cosine Kernel)或者LLR測度，計算相似度，然後再進行說話人身份判定。

然而，現有的說話人識別技術，基本採用的均是譜基的特徵，如MFCC，PLP以及LPCC等。這些特徵均來自比較直觀的語譜圖，容易受各種雜訊影響。而在說話人識別技術的應用場景當中，採集到的語音資料很難為乾淨，並且其中包含的雜訊種類複雜，信噪比很差。如果使用傳統的底層譜基特徵，需要在特徵提取之後，再進行大量的特徵端，模型端，以及得分端的雜訊補償。計算複雜度較大，消耗時間過長，並且不能完全的消除雜訊的影響。在人類感知的實驗中，獲知音高，基頻，共振峰，以及習慣用語等高層特徵不易受雜訊影響，但是現有的說話人識別方法均不能將這些資訊直接應用於真實環境的說話人識別。

在本申請實施方式中，有效地從底層語譜特徵入手，通過深層神經網路的方法自動學習語音信號當中包含能夠抵禦雜訊干擾的高層次的說話人資訊。

神經網路方法通過多個層次的網路結構來類比人類對於聲音資訊處理的過程。神經網路的輸入為原始的底層聲學特徵，隨著經過的處理層次的增多，其獲取的資訊越來越偏向於具有一定物理含義，具有一定抽象概念的資訊。本申請實施方式通過這上述過程有效提取說話人高層身份資訊。

可以將本申請實施方式應用於特徵提取端，在有計算開銷限制的環境下，可以直接獲取魯棒性特徵用於說話人識別的應用。在沒有計算資源限制的環境下，在獲取這種特徵之後，仍然可以通過原來的通道補償演算法，並且可以獲得進一步的性能提升。

由於深層神經網路在訓練的過程中，包含了使用未標注資料的預訓練步驟，以及使用標注資料的精細調節步驟。因此本申請實施方式還可以使用大量的無標注資料，在某種程度上解決大資料應用的問題，只需要標注少量的資料便可以應用全部資料。

圖1為根據本申請實施方式聲紋識別方法流程圖。

如圖1所示，該方法包括：

步驟101：基於無標注語音資料建立深層神經網路初級模型，並且基於有標注語音資料對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型。

在這裡，可以從無標注語音資料中提取無標注語音底層聲紋特徵；再基於該無標注語音底層聲紋特徵建立用於提取高層聲紋特徵的深層神經網路初級模型。然後，從有標注語音資料中提取有標注語音底層聲紋特徵；再基於該有標注語音底層聲紋特徵對深層神經網路初級模型進行訓練，以獲取用於提取與說話人相關的高層聲紋特徵的深層神經網路二級模型。

其中，無標注語音資料是無說話人資訊標注的語音資料，而有標注語音資料是有說話人資訊標注的語音資料。

在一個實施方式中，可以應用稀疏編碼限制規則或最大交互熵規則，基於有標注語音資料對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型。

在一個實施方式中，可以基於相同說話人的不同語音資料所獲得的高層聲紋特徵之間距離變小，以及不同說話人的相同語音資料所獲得的高層聲紋特徵之間距離變大的方式，對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型。

步驟102：利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識。

在這裡，可以從說話人註冊語音中提取說話人底層聲紋特徵，利用該深層神經網路二級模型從說話人底層聲紋特徵中獲取說話人高層聲紋特徵；再在說話人高層聲紋特徵與說話人標識之間建立對應關係。

步驟103：接收測試語音資料，基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。

在這裡，可以從測試語音資料中提取測試語音底層聲紋特徵；基於該深層神經網路二級模型，根據測試語音底層聲紋特徵獲取測試語音高層聲紋特徵；再基於該測試語音高層聲紋特徵確定說話人標識。

在一個實施方式中，可以基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵，並建立該測試語音高層聲紋特徵的高斯模型；再計算該測試語音高層聲紋特徵的高斯模型與所註冊的高層聲紋特徵的高斯模型之間的距離，並基於該距離確定說話人標識。

比如：在說話人確認中，可以判斷該測試語音高層聲紋特徵的高斯模型與待確認說話人所註冊的高層聲紋特徵的高斯模型之間的距離，是否低於預先設定的門限值，如果是，則確認該測試語音的說話人為該註冊的待確認說話人。

在說話人辨識中，可以判斷該測試語音高層聲紋特徵的高斯模型與待辨識說話人群所註冊的高層聲紋特徵的高斯模型之間的距離中的最小值，並判定該距離最小值所對應的註冊說話人為說話人。

基於上述流程，下面對本申請實施方式進行更加具體的闡述。

本申請實施方式主要包括兩部分內容：首先是構造用於提取反映高層說話人身份資訊特徵的深層神經網路二級模型，然後再利用提取之後的身份資訊特徵實現說話人識別。

下面對深層神經網路的結構進行說明。

圖2為根據本申請實施方式的深層神經網路基本單元示意圖；圖3為根據本申請實施方式的深層神經網路層疊示意圖。

如圖2和圖3所示，用於獲取說話人相關的高層聲紋特徵的深層神經網路是一個具有多層次的網路結構，每層之間均可以通過某些映射函數相互連接。其中任意相連的兩層，都採用具有重建功能的結構，稱之為深層神經網路的基本單元。

比如，基本單元可以是消除干擾的自動編碼器(Denoising Autoencoders，DAs)或者限制性波爾茲曼機(Restrictive Boltzmann Machines，RBMs)，等等。

以DAs為例進行說明，它是一個2層的雙向映射網路，即包含輸入層和輸出層，如圖2所示。x對於輸入層，輸入特徵通過映射函數f( )映射為輸出層y。同時輸出層y，也可以通過映射函數g( )重新映射到輸入層，稱之為重建特徵z。通過最小重建誤差準則(x與z之間的距離最小)，這裡的訓練資料並不需要說話人資訊標注，就可以非監督地訓練出映射函數f( )和g( )。映射函數為線性映射函數，正向映射f( )其形式為Wx+b，W為映射矩陣，x為輸入向量，b為偏移向量。反向映射g( )其形式為W’y+c,W’為正向映射函數中映射矩陣W的轉置，c為偏移向量。DAs在由輸入層x映射到輸出層y的過程中，添加了一定程度的隨機雜訊，這個添加的雜訊，可以避免基本單元陷入過訓練的問題。

在介紹了任意相連的2層基本結構之後，可以然後通過層疊的方式，將多個基本單元堆積起來，由下至上的構成一個深層的神經網路。

如圖3所示，x->h1為第一個基本單元，h1->h2為第二個基本單元，h1是第一個基本單元的輸出向量，同時是第二個基本單元的輸入向量。

具體的，h1在作為第二個基本單元的輸入向量之前，需要通過將向量h1的每一維數值都通過sigmoid函數。由於sigmoid函數的輸出是一個[0，1]之間的數值，在這裡設定一個亂數，使其均勻分佈在[0，1]之間，然後比較sigmoid函數的輸出與設定的亂數，如果sigmoid的輸出大，則將h1在這個維度上的數值設為1，反之設為0。這樣，在深層神經網路的構建當中，人為添加了一定程度的隨機性，可以在學習到已有模式特徵基礎上，既能夠產生一些類似的新模式特徵，也能消除同樣模式雜訊的干擾。

由於深層神經網路的每一層都具備重建功能，可以利用貪婪演算法，由下至上逐層地訓練深層神經網路結構。這個網路結構的最初輸入特徵，就是底層的聲紋特徵，而經過多個網路層次的處理，最終輸出的特徵就是包含一定物理意義，具有抽象意義的高層聲紋特徵。通過這一步驟訓練得到的網路結構，可以保證高層特徵以最小的代價重建初始特徵，並沒有起到區分說話人資訊和干擾資訊的作用。

在獲得映射網路結構的初級模型之後，為了在高層特徵之中去除非說話人的雜訊影響，需要進一步調節當前的網路結構模型。這裡需要相對少量的標注資料，即需要知曉語音資料和它對應的說話人身份資訊。

圖3中，底層特徵如果為x，那麼獲得高層特徵將是hk。在這個步驟之前，hk當中代表說話人資訊還有另外的雜訊資訊，這個步驟需要保留說話人資訊，而抑制雜訊資訊。

在一個實施方式中，可以提出2個限制手段。首先：對於輸入端輸入相同說話人的不同語音資料的時候，輸出層獲得的特徵之間的距離應該變小，而當輸入端輸入不同的說話人的語音資料的時候，輸出層獲得的特徵之間的距離應該變大(這裡輸出層對應圖3中hk)。其次，為了保證輸出特徵可以重建輸入特徵，減小獲取說話人資訊帶來的其它損耗，也兼顧新結構對於語音資料的重建誤差。可以綜合考慮上述2個限制，構造目標函數，然後利用神經網路訓練的反向傳播演算法(Back Propagation,BP)，進一步調節深層神經網路的結構。在這一步驟之後，獲得網路同樣拓撲結構的深層神經網路二級模型，但是模型的各種參數，如Wn等和初級模型不一樣。

在將神經網路初級模型精細調節為深層神經網路的二級模型的過程中，使深層神經網路二級模型具有提取高層說話人資訊能力的時候。這個步驟在深層神經網路提取特徵當中至關重要，除了上述實施方式之外，可以利用其它不同的目標函數，比如深層神經網路輸出層的稀疏編碼限制規則，最大交互熵規則等規則，本申請實施方式對此並無限定。

通過深層神經網路二級模型，就可以將底層的聲紋特徵，映射為說話人相關的高層聲紋特徵。

在獲得底層的聲紋資訊之後，如MFCC的特徵序列之後，可以將這些特徵輸入訓練好的深層神經網路的二級模型，然後在神經網路的輸出端收集輸出向量，這是一個向量序列，即為高層的聲紋特徵。

如圖2和圖3所示，將底層特徵x輸入深層神經網路二級模型，可以得到hk這個高層特徵。如果輸入的底層特徵是一個時間序列，即{x1，x2,，...，xn}，輸出也將是一個時間序列，即{hk1，hk2,，...，hkn}

圖4為根據本申請實施方式深層神經網路二級模型建立過程示意圖。

如圖4所示，在構造深層神經網路二級模型的過程中，首先收集包含大量語音資料，其中並不需要對這批資料進行身份資訊的標注，即不需要表明每條語音資料是由哪個人說的這樣資訊。通常，優選期望語音資料庫中儘量包含大量的說話人的語音資料。

然後，通過底層聲紋特徵提取處理將輸入的語音資料轉換成底層聲紋資訊，常用的有MFCC，LPCC和PLP等特徵，這些特徵比較容易受環境雜訊的影響。可以定義雜訊為：在地鐵，機場，車站，餐館等地方採集的語音；說話人高興，生氣，憤怒或者著急等情態下收集的語音；在麥克風，固定電話，行動電話下收集的語音資料，等等。

還可以使用如上所述收集的沒有標注的語音資料的底層聲紋特徵，建立用於提取高層聲紋特徵的深層神經網路初級模型。這個映射結構，可以將底層特徵映射到高層，但是這個高層資訊中，包含大量的與說話人無關的資訊。

接著，可以收集少量語音資料，這些語音資料包含說話人身份資訊的標注，同樣對這批資料進行底層特徵提取，然後聯合上一步驟得到的神經網路初級模型，通過精細調節處理建立深層神經網路的二級模型，這個深層神經網路二級模型可以將底層特徵完全的映射為說話人相關的模型，極大程度上消除非說話人的雜訊影響。

建立完深層神經網路二級模型之後，可以利用該深層神經網路二級模型註冊說話人，以及執行說話人識別處理。

圖5為根據本申請實施方式說話人註冊過程示意圖。

如圖5所示，本申請實施方式可以利用深層神經網路二級模型提取說話人的註冊資訊的高層特徵序列，並針對該高層說話人註冊資訊序列建立高斯模型，以獲取說話人模型參數。

具體包括：首先獲取說話人發出的註冊語音資料，並對註冊語音資料執行底層聲紋特徵提取，以獲取註冊語音底層聲紋特徵，再結合利用深層神經網路二級模型提取註冊語音高層聲紋特徵，並針對註冊語音高層聲紋特徵建立高斯模型，即為說話人註冊模型。

圖6為根據本申請實施方式說話人測試過程示意圖。

如圖6所示，本申請實施方式可以利用深層神經網路二級模型提取高層說話人測試資訊序列，並針對該高層說話人測試資訊序列建立測試高斯模型，獲取測試模型參數。然後通過計算註冊高斯模型與測試高斯模型之間的KL距離，識別說話人的身份。

具體包括：首先獲取說話人發出的測試語音資料，並對測試語音資料執行底層聲紋特徵提取，以獲取測試語音底層聲紋特徵，再結合利用深層神經網路二級模型提取測試語音高層聲紋特徵，並針對測試語音高層聲紋特徵建立高斯模型，即為說話人測試模型。然後，將該說話人測試模型與說話人註冊模型進行比較，以確定最終的說話人身份。

實際上，可以通過多種方式執行說話人測試模型與說話人註冊模型的比較過程，比如計算說話人測試模型與說話人註冊模型之間的KL距離。在說話人確認中，可以判斷該說話人測試模型與說話人註冊模型之間的距離，是否低於預先設定的門限值，如果是，則確認該測試語音的說話人為該註冊的待確認說話人。

在說話人辨識中，可以判斷該說話人測試模型與待辨識說話人群所註冊的模型之間的距離中的最小值，並判定該距離最小值所對應的註冊說話人為說話人。

基於上述詳細分析，本申請實施方式還提出了一種聲紋識別裝置。

圖7為根據本申請實施方式說話人聲紋識別裝置結構示意圖。

如圖7所示，該裝置包括深層神經網路二級模型獲取單元701、註冊單元702和聲紋識別單元703，其中：深層神經網路二級模型獲取單元701，用於基於無標注語音資料建立深層神經網路初級模型，並且基於有標注語音資料對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型；註冊單元702，用於利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識；聲紋識別單元703，用於接收測試語音資料，基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。

在一個實施方式中，深層神經網路二級模型獲取單元701，用於從無標注語音資料中提取無標注語音底層聲紋特徵，基於無標注語音底層聲紋特徵建立用於提取高層聲紋特徵的深層神經網路初級模型。

在一個實施方式中，深層神經網路二級模型獲取單元701，用於從有標注語音資料中提取有標注語音底層聲紋特徵，基於該有標注語音底層聲紋特徵對深層神經網路初級模型進行訓練，以獲取用於提取與說話人相關的高層聲紋特徵的深層神經網路二級模型。

在一個實施方式中，深層神經網路二級模型獲取單元701，用於應用稀疏編碼限制規則或最大交互熵規則，基於有標注語音資料對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型。

在一個實施方式中，深層神經網路二級模型獲取單元702，用於基於相同說話人的不同語音資料所獲得的高層聲紋特徵之間距離變小，以及不同說話人的相同語音資料所獲得的高層聲紋特徵之間距離變大的方式，對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型。

優選地，註冊單元702，用於從說話人註冊語音中提取說話人底層聲紋特徵，利用該深層神經網路二級模型從說話人底層聲紋特徵中獲取說話人高層聲紋特徵；在說話人高層聲紋特徵與說話人標識之間建立對應關係。

在一個實施方式中，聲紋識別單元703，用於從測試語音資料中提取測試語音底層聲紋特徵；基於該深層神經網路二級模型，根據測試語音底層聲紋特徵獲取測試語音高層聲紋特徵；基於該測試語音高層聲紋特徵確定說話人標識。

在一個實施方式中，聲紋識別單元703，用於基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵，並建立該測試語音高層聲紋特徵的高斯模型；計算該測試語音高層聲紋特徵的高斯模型與所註冊的高層聲紋特徵的高斯模型之間的距離，並基於該距離確定說話人標識。

可以將圖7所示裝置集成到各種網路的硬體實體當中。比如，可以將聲紋識別裝置集成到：功能手機、智慧手機、掌上型電腦、個人電腦(PC)、平板電腦或個人數位助理(PDA)，等等設備之中。

實際上，可以通過多種形式來具體實施本申請實施方式所提出的聲紋識別裝置。比如，可以遵循一定規範的應用程式介面，將聲紋識別裝置編寫為安裝到自然語言處理伺服器中的外掛程式程式，也可以將其封裝為應用程式以供使用者自行下載使用。當編寫為外掛程式程式時，可以將其實施為ocx、dll、cab等多種外掛程式形式。也可以通過Flash外掛程式、RealPlayer外掛程式、MMS外掛程式、MI五線譜外掛程式、ActiveX外掛程式等具體技術來實施本申請實施方式所提出的聲紋識別裝置。

可以通過指令或指令集存儲的儲存方式將用於實現本申請實施方式所提出的聲紋識別方法的電腦程式代碼存儲在各種存儲介質上。這些存儲介質包括但是不局限於：軟碟、光碟、DVD、硬碟、快閃記憶體、U盤、CF卡、SD卡、MMC卡、SM卡、記憶棒(Memory Stick)、xD卡等。

另外，還可以將用於實現本申請實施方式所提出的聲紋識別方法的電腦程式代碼存儲到基於快閃記憶體(Nand flash)的存儲介質中，比如U盤、CF卡、SD卡、SDHC卡、MMC卡、SM卡、記憶棒、xD卡等。

綜上所述，在本申請實施方式中，基於無標注語音資料建立深層神經網路初級模型，並且基於有標注語音資料對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型；利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識；接收測試語音資料，基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。由此可見，應用本申請實施方式之後，可以有效地從底層語譜特徵入手，通過深層神經網路自動學習語音信號當中包含能夠抵禦雜訊干擾的高層次說話人資訊，從而可以有效抵禦雜訊干擾。

另外，可以將本申請實施方式應用於特徵提取端，在有計算開銷限制的環境下，能夠直接獲取魯棒性特徵用於說話人識別應用。在沒有計算資源限制的環境下，在獲取這種特徵之後，本申請實施方式仍然可以通過現有的通道補償演算法，並且可以獲得進一步的性能提升。

以上所述，僅為本申請的較佳實施例而已，並非用於限定本申請的保護範圍。凡在本申請的精神和原則之內，所作的任何修改、等同替換、改進等，均應包含在本申請的保護範圍之內。

Claims

一種聲紋識別方法，其特徵在於，該方法包括：基於無標注語音資料建立深層神經網路初級模型，並且基於有標注語音資料對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型；利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識；接收測試語音資料，基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。
如請求項1所述的聲紋識別方法，其特徵在於，所述基於無標注語音資料建立深層神經網路初級模型包括：從無標注語音資料中提取無標注語音底層聲紋特徵；基於該無標注語音底層聲紋特徵建立用於提取高層聲紋特徵的深層神經網路初級模型。
如請求項1所述的聲紋識別方法，其特徵在於，所述基於有標注語音資料對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型包括：從有標注語音資料中提取有標注語音底層聲紋特徵；基於該有標注語音底層聲紋特徵對深層神經網路初級模型進行訓練，以獲取用於提取與說話人相關的高層聲紋特徵的深層神經網路二級模型。
如請求項1所述的聲紋識別方法，其特徵在於，所述基於有標注語音資料對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型包括：應用稀疏編碼限制規則或最大交互熵規則，基於有標注語音資料對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型。
如請求項1所述的聲紋識別方法，其特徵在於，所述基於有標注語音資料對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型包括：基於相同說話人的不同語音資料所獲得的高層聲紋特徵之間距離變小，以及不同說話人的相同語音資料所獲得的高層聲紋特徵之間距離變大的方式，對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型。
如請求項1所述的聲紋識別方法，其特徵在於，所述利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識包括：從說話人註冊語音中提取說話人底層聲紋特徵，利用該深層神經網路二級模型從說話人底層聲紋特徵中獲取說話人高層聲紋特徵；在說話人高層聲紋特徵與說話人標識之間建立對應關係。
如請求項1所述的聲紋識別方法，其特徵在於，所述基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識包括：從測試語音資料中提取測試語音底層聲紋特徵；基於該深層神經網路二級模型，根據測試語音底層聲紋特徵獲取測試語音高層聲紋特徵；基於該測試語音高層聲紋特徵確定說話人標識。
如請求項1所述的聲紋識別方法，其特徵在於，所述基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識包括：基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵，並建立該測試語音高層聲紋特徵的高斯模型；計算該測試語音高層聲紋特徵的高斯模型與所註冊的高層聲紋特徵的高斯模型之間的距離，並基於該距離確定說話人標識。
一種聲紋識別裝置，其特徵在於，該裝置包括深層神經網路二級模型獲取單元、註冊單元和聲紋識別單元，其中：深層神經網路二級模型獲取單元，用於基於無標注語音資料建立深層神經網路初級模型，並且基於有標注語音資料對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型；註冊單元，用於利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識；聲紋識別單元，用於接收測試語音資料，基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。
如請求項9所述的聲紋識別裝置，其特徵在於，深層神經網路二級模型獲取單元，用於從無標注語音資料中提取無標注語音底層聲紋特徵，基於無標注語音底層聲紋特徵建立用於提取高層聲紋特徵的深層神經網路初級模型。
如請求項9所述的聲紋識別裝置，其特徵在於，深層神經網路二級模型獲取單元，用於從有標注語音資料中提取有標注語音底層聲紋特徵，基於該有標注語音底層聲紋特徵對深層神經網路初級模型進行訓練，以獲取用於提取與說話人相關的高層聲紋特徵的深層神經網路二級模型。
如請求項9所述的聲紋識別裝置，其特徵在於，深層神經網路二級模型獲取單元，用於應用稀疏編碼限制規則或最大交互熵規則，基於有標注語音資料對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型。
如請求項9所述的聲紋識別裝置，其特徵在於，深層神經網路二級模型獲取單元，用於基於相同說話人的不同語音資料所獲得的高層聲紋特徵之間距離變小，以及不同說話人的相同語音資料所獲得的高層聲紋特徵之間距離變大的方式，對該深層神經網路初級模型進行訓練，以獲取深層神經網路二級模型。
如請求項9所述的聲紋識別裝置，其特徵在於，註冊單元，用於從說話人註冊語音中提取說話人底層聲紋特徵，利用該深層神經網路二級模型從說話人底層聲紋特徵中獲取說話人高層聲紋特徵；在說話人高層聲紋特徵與說話人標識之間建立對應關係。
如請求項9所述的聲紋識別裝置，其特徵在於，聲紋識別單元，用於從測試語音資料中提取測試語音底層聲紋特徵；基於該深層神經網路二級模型，根據測試語音底層聲紋特徵獲取測試語音高層聲紋特徵；基於該測試語音高層聲紋特徵確定說話人標識。
如請求項9所述的聲紋識別裝置，其特徵在於，聲紋識別單元，用於基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵，並建立該測試語音高層聲紋特徵的高斯模型；計算該測試語音高層聲紋特徵的高斯模型與所註冊的高層聲紋特徵的高斯模型之間的距離，並基於該距離確定說話人標識。