TWI778234B

TWI778234B - 語者驗證系統

Info

Publication number: TWI778234B
Application number: TW108106048A
Authority: TW
Inventors: 呂仲理; 蕭善文; 詹博丞
Original assignee: 中華電信股份有限公司
Priority date: 2019-02-22
Filing date: 2019-02-22
Publication date: 2022-09-21
Also published as: TW202032536A

Abstract

本發明揭露一種語者驗證系統，其包括一演算模型訓練子系統、一語者註冊子系統與一語者驗證子系統。演算模型訓練子系統可訓練出用於語者驗證之多個演算模型，以依據訓練分數從多個演算模型中選擇出一最佳演算模型。而且，語者註冊子系統可依據語者之所在環境從多個演算模型中選取最適演算模型，並擷取語者之語者音檔之語者模型。同時，語者驗證子系統可從語者註冊子系統中擷取欲驗證之語者音檔之語者模型，以將語者音檔與目標音檔兩者進行比對，俾得出兩者是否為同一語者之音檔。據此，使本發明適用於多模型語者驗證。

Description

語者驗證系統

本發明係關於一種語者驗證技術，特別是指一種語者驗證系統。

在人工智慧之技術與應用中，生物特徵識別技術為一項重要項目，而可供識別的生物特徵包括指紋、人臉、虹膜及語音等。同時，各種商用服務機構(如銀行)亦逐漸採取語者驗證(speaker verification)之方案，使得語者驗證成為新興的熱門技術。例如，部分商用服務機構(如銀行)正嘗試以聲紋進行用戶驗證，讓用戶可以快速查詢相關之服務資訊。

另外，在一現有技術中，提出一種語者驗證技術，可使用類神經網路模型以進行語者辨識，並提供與語言無關的模型設計。而在另一現有技術中，提出一種產生及驗證訊息之語音簽章之裝置、方法及其電腦程式產品，可以產生及驗證訊息之語音簽章。

惟，上述現有技術並未提供適用於多模型語者驗證之系統，或者無法使語者驗證系統將不同模型、不同環境參數或語者特性納入考量，以達成強健化語者驗證之效果。

因此，如何提供一種新穎或創新的語者驗證系統，實已成為本領域技術人員之一大研究課題。

本發明提供一種新穎或創新的語者驗證系統，可適用於多模型語者驗證，或者將不同模型、不同環境參數或語者特性納入考量，以達成強健化語者驗證之效果。

本發明之語者驗證系統包括：一演算模型訓練子系統，係訓練出用於語者驗證之多個演算模型，以依據訓練分數從所訓練之多個演算模型中選擇出一最佳演算模型；一語者註冊子系統，係依據語者之所在環境從演算模型訓練子系統所訓練之多個演算模型中選取最適演算模型，並擷取語者之語者音檔之語者模型；以及一語者驗證子系統，係從語者註冊子系統中擷取欲驗證之語者音檔之語者模型，以將語者音檔與目標音檔兩者進行比對，俾得出兩者是否為同一語者之音檔。

為讓本發明之上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明。在以下描述內容中將部分闡述本發明之額外特徵及優點，且此等特徵及優點將部分自所述描述內容可得而知，或可藉由對本發明之實踐習得。本發明之特徵及優點借助於在申請專利範圍中特別指出的元件及組合來認識到並達到。應理解，前文一般描述與以下詳細描述兩者均僅為例示性及解釋性的，且不欲約束本發明所欲主張之範圍。

1‧‧‧語者驗證系統

10‧‧‧演算模型訓練子系統

11‧‧‧演算模型訓練模組

110‧‧‧訓練低階參數擷取單元

111‧‧‧訓練低階參數向量

112‧‧‧訓練高階參數擷取單元

113‧‧‧訓練高階參數向量

114‧‧‧演算模型訓練單元

115‧‧‧訓練分數

116‧‧‧演算模型

117‧‧‧演算模型決策單元

118‧‧‧最佳演算模型

119‧‧‧演算模型儲存單元

11A‧‧‧低階參數對照表

11B‧‧‧訓練分數表

12‧‧‧演算模型資料庫

13‧‧‧演算法資料庫

20‧‧‧語者註冊子系統

21‧‧‧演算模型選擇模組

211‧‧‧註冊低階參數擷取單元

212‧‧‧註冊低階參數向量

213‧‧‧註冊高階參數擷取單元

214‧‧‧註冊高階參數向量

215‧‧‧演算模型選取單元

216‧‧‧語者演算模型對照表儲存單元

22‧‧‧最適演算模型

23‧‧‧語者演算模型資料庫

24‧‧‧語者模型擷取模組

241‧‧‧音訊特徵擷取單元

242‧‧‧音訊特徵

243‧‧‧特徵正規化單元

244‧‧‧正規化音訊特徵矩陣

245‧‧‧語者模型生成單元

25‧‧‧語者模型

26‧‧‧語者模型儲存模組

27‧‧‧語者模型資料庫

30‧‧‧語者驗證子系統

31‧‧‧演算模型指定模組

32‧‧‧目標演算模型

33‧‧‧語者模型擷取模組

34‧‧‧驗證語者模型

35‧‧‧語者模型檢索模組

36‧‧‧目標語者模型

37‧‧‧語者模型比對模組

A1‧‧‧訓練語者音訊

A2‧‧‧訓練環境參數

B1‧‧‧註冊語者編號

B2‧‧‧註冊語者音訊

B3‧‧‧註冊環境參數

C1‧‧‧目標語者編號

C2‧‧‧驗證語者音訊

D‧‧‧語者驗證結果

第1圖為本發明之語者驗證系統的基本架構示意圖；第2圖為本發明之語者驗證系統的實施例示意圖；第3圖為本發明之演算模型訓練模組的實施例示意圖；第4圖為本發明之演算模型選擇模組的實施例示意圖；第5圖為本發明之語者模型擷取模組的實施例示意圖；第6圖為本發明之低階參數對照表的實施例示意圖；第7圖為本發明之訓練分數表的實施例示意圖；第8圖為本發明之演算模型資料庫的實施例示意圖；第9圖為本發明之演算模型選取單元的實施例示意圖；第10圖為本發明之語者演算模型資料庫的實施例示意圖；以及第11圖為本發明之語者模型資料庫的實施例示意圖。

以下藉由特定的具體實施形態說明本發明之實施方式，熟悉此技術之人士可由本說明書所揭示之內容了解本發明之其他優點與功效，亦可因而藉由其他不同的具體等同實施形態加以施行或應用。

語者驗證技術是一項廣為被應用在各種領域的技術，如生物驗證門鎖、智慧音箱等等，近來在銀行語音使用者認證的方面也有所應用。語者驗證的方法目前主要可以分成兩大類，一類是以i向量為基礎的語者建模方法，另一類是深度類神經網路建模方法，不同的方法使用不同的模型以適用不同的情境。在同樣的語者驗證建模方法中，由於訓練資料環境參數(例如裝置型號、訓練音檔長度…等)的不同，也會造成訓練出的模型適用在不同的情境。更甚者，同樣的一批訓練資料，因語者本身特性(例如性別、語言…等)不同，故若能針對不同特性之語者有不同模型，亦能提升辨識的效果。因此，本發明提出一種適用於多模型語者驗證之系統，使得語者驗證系統能夠將不同模型、不同環境參數或語者特性納入考量，以達成強健化語者驗證之效果。

請參閱第1圖與第2圖，第1圖為本發明之語者驗證系統1的基本架構示意圖，第2圖為本發明之語者驗證系統1的實施例示意圖。如圖所示，此語者驗證系統1為一種能判斷欲驗證音檔(語者音檔)與目標語者預先註冊音檔(目標音檔)是否為同一語者之音檔之系統，並包括一演算模型訓練子系統10、一語者註冊子系統20與一語者驗證子系統30等三個子系統，且此三個子系統之主要功能可例如為下列所述。

演算模型訓練子系統10：用以訓練出用於語者驗證之多個演算模型，以依據訓練分數115(見第3圖與第7圖)從所訓練之多個演算模型116中選擇出特定訓練環境下之最佳演算模型118(見第3圖)。同時，演算模型訓練子系統10可包括一演算模型訓練模組11、一演算模型資料庫12及一演算法資料庫13，且演算模型訓練模組11可依據訓練語者音訊A1、訓練環境參數A2及演算法資料庫13建立演算模型資料庫12。

語者註冊子系統20：用以替語者依據此語者之所在環境從演算模型訓練子系統10所訓練之多個演算模型中選取最適演算模型22(即最適合的演算模型)，並擷取此語者之語者音檔之語者模型25，以供語者驗證子系統30驗證使用。同時，語者註冊子系統20可包括一演算模型選擇模組21、一語者演算模型資料庫23、一語者模型擷取模組24、一語者模型儲存模組26及一語者模型資料庫27，且演算模型選擇模組21、語者模型擷取模組24及語者模型儲存模組26可依據註冊語者編號B1、註冊語者音訊B2、註冊環境參數B3、演算法資料庫13及演算模型資料庫12產生語者演算模型資料庫23及語者模型資料庫27。

語者驗證子系統30：用以從語者註冊子系統20中擷取欲驗證之語者音檔之語者模型25，以將語者音檔與目標音檔兩者進行比對而得出兩者是否為同一語者之音檔。同時，語者驗證子系統30可包括一演算模型指定模組31、一語者模型擷取模組33、一語者模型檢索模組35及一語者模型比對模組37，且演算模型指定模組31、語者模型擷取模組33、語者模型檢索模組35及語者模型比對模組37可依據目標語者編號C1、驗證語者音訊C2、演算模型資料庫12、演算法資料庫13、語者演算模型資料庫23及語者模型資料庫27產生語者驗證結果D。

請參閱第2圖至第5圖，第2圖為本發明之語者驗證系統1的實施例示意圖，第3圖為本發明之演算模型訓練模組11的實施例示意圖，第4圖為本發明之演算模型選擇模組21的實施例示意圖，第5圖為本發明之語者模型擷取模組24的實施例示意圖。

以下描述第2圖所示演算模型訓練子系統10、語者註冊子系統20與語者驗證子系統30中，有關演算模型訓練模組11、演算模型選擇模組21、語者模型擷取模組24、語者模型儲存模組26、演算模型指定模組31、語者模型擷取模組33、語者模型檢索模組35及語者模型比對模組37等八個模組，且此八個模組之主要功能可例如為下列所述。

演算模型訓練模組11(見第2圖與第3圖)：用以使用指定之測試資料集，從演算法資料庫13中找出一組最佳的演算方法，並記錄其使用時所需之演算模型116。例如，第3圖之演算模型訓練模組11可使用訓練環境參數A2描述之資訊，依據演算法資料庫13所描述之方法以訓練語者音訊A1訓練出多個方法模型，並從多個方法模型中選擇出最佳演算模型118，以將最佳演算模型118記錄至演算模型資料庫12。

詳言之，第3圖之演算模型訓練模組11可具有一訓練低階參數擷取單元110、一訓練高階參數擷取單元112、一演算模型訓練單元114、一演算模型決策單元117及一演算模型儲存單元119。訓練低階參數擷取單元110可將指定之訓練環境參數A2轉換成訓練低階參數向量111，而訓練高階參數擷取單元112可分析所有訓練語者音訊A1之高階參數以彙總成其訓練高階參數向量113。又，演算模型訓練單元114可將訓練語者音訊A1依據演算法資料庫13內描述之所有方法進行訓練及測試，以得出各種方法在此資料集之訓練分數115及訓練出的演算模型116。同時，演算模型決策單元117可將具有最高的訓練分數115之演算模型116記錄為最佳演算模型118。另外，演算模型儲存單元119可將最佳演算模型118與此訓練語者音訊A1之語料庫之訓練低階參數向量111及訓練高階參數向量113記錄至演算模型資料庫12。

演算模型選擇模組21(見第2圖與第4圖)：用以依據註冊語者音訊B2及相關資訊，推測出其最適演算模型22。例如，第4圖之演算模型選擇模組21可依據註冊語者音訊B2及註冊環境參數B3選擇出最適演算模型22，再將此方法模型(最適演算模型22)及註冊語者編號B1記錄至語者演算模型資料庫23。

詳言之，第4圖之演算模型選擇模組21可具有一註冊低階參數擷取單元211、一註冊高階參數擷取單元213、一演算模型選取單元215及一語者演算模型對照表儲存單元216。註冊低階參數擷取單元211可將註冊環境參數B3擷取為註冊低階參數向量212，而註冊高階參數擷取單元213可分析註冊語者音訊B2之高階參數以彙總成其註冊高階參數向量214。又，演算模型選取單元215可透過比對註冊高階參數向量214、註冊低階參數向量212及訓練高階參數向量113、訓練低階參數向量111以選取出最適演算模型22。同時，語者演算模型對照表儲存單元216可將註冊語者編號B1及最適演算模型22存入語者演算模型資料庫23。前述語者演算模型資料庫23可為一對照表，並至少需儲存語者編號及其使用之演算模型編號(見第10圖)。

語者模型擷取模組24(見第2圖與第5圖)：用以依據指定之演算模型將註冊語者音訊B2轉換成語者模型25。例如，第5圖之語者模型擷取模組24可依據最適演算模型22參照演算法資料庫13所描述之方法，從註冊語者音訊B2中擷取其語者模型25。

詳言之，第5圖之語者模型擷取模組24可具有一音訊特徵擷取單元241、一特徵正規化單元243及一語者模型生成單元245。音訊特徵擷取單元241可依據最適演算模型22從演算模型訓練子系統10之演算法資料庫13中檢索出指定之音訊特徵擷取方法，以依據最適演算模型22指定之音訊特徵擷取方法擷取註冊語者音訊B2之特徵成為音訊特徵242。而且，特徵正規化單元243可依據最適演算模型22指定之特徵正規化方法將音訊特徵242處理成正規化音訊特徵矩陣244。同時，語者模型生成單元245可依據最適演算模型22指定之語者模型生成方法，從正規化音訊特徵矩陣244中計算出語者模型25。前述語者模型25可為一或多組描述語者之特徵集合，且語者模型25之實際形式與維度依據不同的演算模型決定。

語者模型儲存模組26(見第2圖)：用以將語者模型25及註冊語者編號B1存入語者模型資料庫27。

詳言之，語者模型儲存模組26可將語者模型25及註冊語者編號B1存入語者模型資料庫27，以供其他模組之查詢使用，且語者模型資料庫27內至少需含有註冊語者編號B1及其語者模型25之參數。

演算模型指定模組31(見第2圖)：用以依據目標語者編號C1從演算模型訓練子系統10之演算模型資料庫12及語者註冊子系統20之語者演算模型資料庫23中取得目標演算模型32。

詳言之，演算模型指定模組31可依據目標語者編號C1，從語者演算模型資料庫23中查詢取得特定方法模型編號，並從演算模型資料庫12中取得目標演算模型32，且目標演算模型32可為目標語者註冊所採用之演算方法及特定之演算模型。

語者模型擷取模組33(見第2圖)：用以依據目標演算模型32參照演算模型訓練子系統10之演算法資料庫13所描述之方法，從驗證語者音訊C2中擷取驗證語者模型34。

詳言之，語者模型擷取模組33可依據目標演算模型32從演算模型訓練子系統10之演算法資料庫13中檢索出指定之方法，並將驗證語者音訊C2轉換為驗證語者模型34，其中步驟或技術內容如同上述語者模型擷取模組24所載。前述驗證語者模型34可為一或多組描述受驗證語者之特徵集合，且驗證語者模型34之實際形式與維度依據不同的演算模型決定。

語者模型檢索模組35(見第2圖)：用以依據目標語者編號C1從語者註冊子系統20之語者模型資料庫27中檢索出目標語者模型36。

詳言之，語者模型檢索模組35可依據目標語者編號C1從語者模型資料庫27中檢索特定語者的目標語者模型36，且目標語者模型36可為目標語者註冊時被記錄之語者模型25。

語者模型比對模組37(見第2圖)：用以依據目標演算模型32參照演算模型訓練子系統10之演算法資料庫13所描述之方法計算驗證語者模型34與目標語者模型36兩者之相似度，以驗證或判斷驗證語者模型34與目標語者模型36兩者之語者是否為同一人之語者，進而輸出語者驗證結果D。

詳言之，語者模型比對模組37可依據目標演算模型32從演算模型訓練子系統10之演算法資料庫13中檢索出指定之比對方法，以計算驗證語者模型34與目標語者模型36兩者之相似度，俾驗證或判斷驗證語者模型34與目標語者模型36兩者是否為同一人之語者模型，進而輸出語者驗證結果D。前述語者驗證結果D可為一布林值，代表驗證語者與目標語者是否為同一人。

關於本發明之演算模型訓練程序，可包括例如下列步驟S11至步驟S15所述之技術內容，請一併參閱第3圖與第6圖至第8圖，其中第6圖為本發明之低階參數對照表11A的實施例示意圖，第7圖為本發明之訓練分數表11B的實施例示意圖，第8圖為本發明之演算模型資料庫12的實施例示意圖。

在步驟S11中，由第3圖之演算模型訓練模組11之訓練低階參數擷取單元110將指定之訓練環境參數A2轉換成訓練低階參數向量111。如第6圖所示，在此實施例中，假設[1]訓練長度中位數為小於10秒、[2]訓練音檔取樣率為44.1kHz(千赫)、[3]噪訊比為3~6dB(分貝)、[4]錄音裝置為市內電話，參照第6圖所示參數數值之轉換，可得前述[1]至[4]之訓練低階參數向量111為“1,3,2,3”(見第8圖)。

在步驟S12中，由第3圖之訓練高階參數擷取單元112分析所有訓練語者音訊A1之高階參數。在此實施例中，高階參數以性別為例，使用音訊性別辨識器作為分析核心，以分析所有訓練語者音訊A1之性別預測分數，例如性別預測分數之範圍介於0與1間，越接近0代表越女性化，越接近1代表越男性化。同時，訓練高階參數擷取單元112可求取性別預測分數之平均值(例如0.5)及標準差(例如0.12)以得到此語料庫之性別參數，並將性別參數向量化以得出“0.5,0.12”(見第8圖)即為訓練高階參數向量113。

在步驟S13中，由第3圖之演算模型訓練單元114定義不同方法模型之訓練方式，以依據演算法資料庫13描述之所有方法(如下方“方法定義表”所載)進行訓練，並預先定義測試清單進行測試。同時，演算模型訓練單元114可依據等同錯誤率(Equal error rate)或是自訂之成本函數(Cost function)(例如Cost=1*偽造遭接受的機率+0.1*正確語者遭拒絕之機率)，以得出各種方法在此資料集之成本(見第7圖)，再取成本之倒數為訓練分數115(見第7圖)，進而將訓練過程中各方法所需之演算模型116儲存備用。

在步驟S14中，由第3圖之演算模型決策單元117將前述步驟S13中具有最高的訓練分數115之演算模型116記錄為最佳演算模型118(即最佳方法模型)，如第7圖所示。

在步驟S15中，由第3圖之演算模型儲存單元119將最佳演算模型118與此資料庫之訓練低階參數向量111及訓練高階參數向量113記錄至演算模型資料庫12，如第8圖所示。

關於本發明之語者註冊程序，可包括例如下列步驟S21至步驟S28所述之技術內容，請一併參閱第2圖、第4圖至第5圖與第9圖至第11圖，其中第9圖為本發明之演算模型選取單元215的實施例示意圖，第10圖為本發明之語者演算模型資料庫23的實施例示意圖，第11圖為本發明之語者模型資料庫27的實施例示意圖。

在步驟S21中，如同上述演算模型訓練程序之步驟S11所載，由第4圖所示演算模型選擇模組21之註冊低階參數擷取單元211將註冊環境參數B3擷取為註冊低階參數向量212。

在步驟S22中，如同上述演算模型訓練程序之步驟S21所載，由第4圖之註冊高階參數擷取單元213分析註冊語者音訊B2之註冊高階參數向量214。

在步驟S23中，由第4圖之演算模型選取單元215比對註冊高階參數向量214、註冊低階參數向量212及訓練高階參數向量113、訓練低階參數向量111，以透過演算模型選取單元215選取出最適演算模型 22(即最適方法模型)，如第9圖所示。

在步驟S24中，由第4圖之語者演算模型對照表儲存單元216將註冊語者編號B1及最適演算模型22存入語者演算模型資料庫23，如第10圖所示。

在步驟S25中，由第5圖所示語者模型擷取模組24之音訊特徵擷取單元241依據最適演算模型22指定之音訊特徵擷取方法擷取註冊語者音訊B2之特徵成為音訊特徵242。

在步驟S26中，由第5圖之特徵正規化單元243依據最適演算模型22指定之特徵正規化方法處理音訊特徵242成為正規化音訊特徵矩陣244。

在步驟S27中，由第5圖之語者模型生成單元245依據最適演算模型22指定之語者模型生成方法，從正規化音訊特徵矩陣244中計算出語者模型25。

在步驟S28中，由第2圖之語者模型儲存模組26將語者模型25及註冊語者編號B1存入語者模型資料庫27(如第11圖所示)，以供其他模組之查詢使用。

關於本發明之語者驗證程序，可包括例如下列步驟S31至步驟S34所述之技術內容，請一併參閱第2圖、第8圖與第10圖至第11圖。

在步驟S31中，由第2圖之演算模型指定模組31依據目標語者編號C1從語者演算模型資料庫23中查詢取得特定方法模型編號，並從演算模型資料庫12中取得目標演算模型32。舉例而言，如第10圖所示，若目標語者編號C1(見第10圖之語者編號)為1，則演算模型指定模組31可得目標語者編號C1之方法模型編號(見第10圖之演算模型編號)為1，再至第8圖中查出方法模型編號為1所對應之訓練集編號為1且最佳方法編號為2。

在步驟S32中，由第2圖之語者模型擷取模組33依據目標演算模型32之方法模型編號(此例如上述步驟S31與第8圖所載為1)，依方法模型編號之最佳方法編號(此例如上述步驟S31與第8圖所載為2)查詢其音訊特徵擷取方法、特徵正規化方法及語者模型生成方法，以供語者模型擷取模組33擷取驗證語者音訊C2之特徵成為驗證語者模型34，其中步驟如同上述語者註冊程序之步驟S25至S27所載。

在步驟S33中，由第2圖之語者模型檢索模組35依據目標語者編號C1，從例如第11圖之語者模型資料庫27中檢索特定語者的目標語者模型36。

在步驟S34中，由第2圖之語者模型比對模組37依據目標演算模型32之方法模型編號(此例如上述步驟S31與第8圖所載為1)，參照其最佳方法編號(此例如上述步驟S31與第8圖所載為2)查詢其相似度計算方式，以供語者模型比對模組37計算出驗證語者模型34與目標語者模型36兩者之相似度，俾驗證或判斷兩者之語者模型是否為同一人之語者模型，進而輸出語者驗證結果D。

綜上，本發明之語者驗證系統可至少具有下列特色、優點或技術功效。

一、本發明之語者驗證系統為一種適用於多模型語者驗證之系統，能提供判斷欲驗證音檔(語者音檔)與目標語者預先註冊音檔(目標音檔)是否為同一語者之音檔，亦能將不同模型、不同環境參數或語者特性納入考量，以達成強健化語者驗證之效果。

二、本發明之語者驗證系統之技術功效係包括例如：(1)具備語者驗證功能、(2)依據訓練音訊特性及進階分析結果訓練出最佳演算模型、(3)依據註冊音訊特性及進階分析結果動態選擇最適演算模型、(4)依據目標語者以其註冊時使用之演算模型擷取驗證語者模型及進行比對。

三、本發明可能應用之產業：例如，語者驗證技術的建立、數位金融服務等。

四、本發明可能應用之產品：例如，金融身分認證服務、行動支付服務、智慧家庭服務等，亦能提供應用程式介面(API)以供客戶端進行身分確認與驗證。

上述實施形態僅例示性說明本發明之原理、特點及其功效，並非用以限制本發明之可實施範疇，任何熟習此項技藝之人士均可在不違背本發明之精神及範疇下，對上述實施形態進行修飾與改變。任何運用本發明所揭示內容而完成之等效改變及修飾，均仍應為申請專利範圍所涵蓋。因此，本發明之權利保護範圍，應如申請專利範圍所列。