TWI423249B

TWI423249B - 用於文字相關之說話者認證之電腦實施方法、電腦可讀取儲存媒體及系統

Info

Publication number: TWI423249B
Application number: TW097104847A
Authority: TW
Inventors: Zhengyou Zhang; Amarnag Subramanya
Original assignee: Microsoft Corp
Priority date: 2007-02-12
Filing date: 2008-02-12
Publication date: 2014-01-11
Also published as: TW200842823A; US20080195389A1; WO2008100971A1; US8099288B2

Description

用於文字相關之說話者認證之電腦實施方法、電腦可讀取儲存媒體及系統

本發明是有關於文字相關說話者認證。

說話者認證係一根據經包含在話語信號內之個別資訊以自動地認證何人正在說話的處理程序。這可劃分成說話者識別及說話者認證。說話者識別是從一組已知說話者之中決定哪一經登註說話者提供一給定發話。而說話者認證是接受或拒絕一說話者的身份宣稱，以決定該等說話者是否確為該等所述者。可利用說話者認證來例如控制對一限制服務的存取；對金融、資料庫服務、購物或語音信件的電話存取；以及對安全設備的存取。

說話者認證系統通常是利用語音生物量測以認證一給定說話者是否為其所述者。語音生物量測是藉由將一人士之話語的基本廓形加以數位化所利用，以產生一經儲存之模型語音印記或樣板。生物量測技術通常可將各個所說字詞降減為由數個稱為共振峰(Formant)之主要頻率組成的節段。各節段具有數個可按數位格式捕捉的音調。這些音調共集地識別出該說話者的獨特語音訊印記。語音印記被按一類似於儲存指紋或其他生物量測資料之方式儲存在資料庫內。

在說話者識別及說話者認證兩者作業中，系統經常會需要一招入會期來收集說話者特定之演訓資料以建構出說話者模型。該招入作業係一獲得一語音樣本的程序。為確保良好品質語音樣本以供進行說話者認證，一人士經常需述說某種文字或通行片語，這可為一口說片語或一系列數字。可在一人士說出所指定的通行片語之前先多次重複該文字或片語，將語音特性擷取出，並比較於對於該個人的所存樣板或模型。當一使用者嘗試獲以存取該系統時，可將其通行片語與先前所存之語音模型加以比較。

語音認證系統可為文字相關、文字無關或為二者的組合。文字相關系統會要求一人士說出一預定字詞或片語。而此項資訊，又稱為「通行片語」，可為某片段的資訊，像是姓名、出生地、偏好顏色或一序列的數字。文字無關系統則可認證一說話者而不須一預定通行片語。文字無關系統通常是運作於較長時段之話語輸入上，因此會有識別出不同語音特徵的較高機會(即如語調、抑揚頓挫、音調)。

本「發明內容」係經提供以介紹一種按一較簡化形式，而在後文「詳細說明」所進一步描述的選擇概念。本「發明內容」並非用以識別所宣稱之主題項目的各項關鍵特點或基本特性，亦非用以用於限制所宣稱主題項目的範圍。

本文字相關說話者認證技術是利用生成性模型以習知一說話者的特徵，然後利用區分性模型以區別一說話者及一冒名者。本技術之一優點在於這並不需要演訓該生成性模型以習知一特定說話者的特徵。典型的說話者認證器即為一生成性模型的範例。實作上，話語認證器演訓的計算成本極高。本技術可運用一既經演訓之話語認證器，從而顯著地消除專為說話者認證而收集大量資料的負擔。

在一具體實施例裡，本文字相關說話者認證技術利用一泛型說話者無關話語認證器以提供健全的說話者認證作業。尤其，並且利用一說話者無關的話語認證器之音響模型以作為一通用背景模型(亦即一用於所有冒名者的模型)。不以在發話層級處(即如語句層級)利用一「可能性比例檢定(LRT)」，這在多數的說話者認證系統中常為如此，本發明文字相關說話者認證技術而亦在子單元層級處(字詞、音素或字音)利用可能性比例的加權總和。這些權值可為自動地習知，或者按人工方式設定以對於在認證處理過程中決定一說話者是否為一冒名者方面較為有用之子單元提供更高的權值。

注意到雖可由本文字相關說話者認證技術之一特定實作以解決在現有說話者認證法則上的限制，像是對於收集龐大資料量以演訓一話語認證器的要求，然此絕非為限制於僅解決所述缺點的實作。相反地，本技術具有遠端為寬廣的應用程式項目，即如可自後文說明中所獲知。

後文的本揭示具體實施例說明參照於構成其一部份的隨附圖式，並且其中藉由說明示範方式顯示可實作本技術的特定具體實施例。應瞭解可運用其他的具體實施例，並且可進行結構變化而不致悖離本揭示的範圍。

在提供本文字相關說話者認證技術具體實施例的說明之前，將先列述可用以實作本發明之部分適當計算環境的簡要、一般說明。本技術可運作於無數普通目的或特殊目的計算系統環境或組態。適用之眾知計算系統、環境及/或組態的範例包含，然不限於此，個人電腦、伺服器電腦、手持式或膝上型裝置、多重處理器系統、微處理器式系統、機項盒、可程式化消費性電子裝置、網路PC、迷你電腦、大型主機電腦、含有前述任者系統或裝置之分散式計算環境等等。

第1圖說明一適當的計算系統環境之範例。該計算系統環境僅為一適用計算環境的範例，且非用以意指本文字相關說話者認證技術在使用範圍及功能性上的任何限制。亦不應將該計算環境解譯成具有任何對於在該示範性操作環境中所述元件之其一或組合的相關性或要求性。參照於第1圖，一用以實作本文字相關說話者認證技術的示範性系統包含一計算裝置，像是計算裝置100。在其最基本的組態裡，該計算裝置100通常包含至少一處理單元102及記憶體104。根據該計算裝置的精確組態及類型而定，該記憶體104可為揮發性(即如RAM)、非揮發性(像是ROM、快閃記憶體等等)，或是兩者的一些組合。該最基本組態可如在第1圖中由虛線106所表示。此外，該裝置100亦可具有額外的特性/功能性。例如，該裝置100亦可含有額外的儲存裝置(可移除及/或不可移除)，其中包含，然不限於此，磁性或光學碟片或條帶。此等額外儲存裝置在第1圖係經繪示如可移除儲存裝置108及不可移除儲存裝置110。電腦儲存媒體包含揮發性及非揮發性、可移除及不可移除媒體，其可為按任何用以儲存像是電腦可讀取指令、資料結構、程式模組或其他資料之資訊的方法或技術所實作。該等記憶體104、可移除儲存裝置108及不可移除儲存裝置110皆為電腦儲存媒體之範例。電腦儲存媒體包含，然不限於此，RAM、ROM、EEPROM、快閃記憶體或其他記憶體技術、CD-ROM、數位光碟(DVD)或其他光學儲存裝置、磁匣、磁帶、磁碟儲存裝置或其他磁性儲存裝置，或是任何其他可用以儲存所欲資訊並可由該裝置100存取的媒體。任何此等電腦儲存媒體皆可為該裝置100的一部分。

該裝置100亦可含有(多個)通訊連接112，而可讓該裝置能夠與其他裝置進行通訊。該(等)通訊連接112為通訊媒體之範例。通訊媒體通常可在經調變之資料信號中，像是載波或其他傳送機制，具體實作電腦可讀取指令、資料結構、程式模組或其他資料，並且包含任何資訊遞送媒體。該詞彙「經調變資料信號」意思是一令其一或更多特徵按可將資訊編碼於該信號之內的方式而設定或變化的信號。藉由範例，然非限制，通訊媒體包含有線媒體，像是有線網路或方向性有線連接；以及無線媒體，像是音響、RF、紅外線及其他無線媒體。本揭所用之詞彙「電腦可讀取媒體」係包含儲存媒體及通訊媒體兩者。

該裝置100具有一麥克風，並且亦含有(多個)其他輸入裝置114，像是鍵盤、滑鼠、點筆、語音輸入裝置、觸控輸入裝置等等。亦可納入像是顯示器、喇叭、印表機的輸出裝置。所有這些裝置皆為業界所眾知，並且無須在此詳細討論。

該裝置100可含有一相機以作為一輸入裝置114(像是一數位/電子靜態或視訊相機，或者膠片/相片掃描器)，其能夠捕捉一系列的影像而作為一輸入裝置。此外，可納入多台相機作為輸入裝置。可透過一適當介面(未以圖示)以將來自於一或更多相機的影像輸入至該裝置100。然而，注意到亦可自任何電腦可讀取媒體將影像資料輸入至該裝置100而無須使用一相機。

可按像是程式模組之電腦可執行指令，而由一計算裝置執行，的一般情境來描述本文字相關說話者認證技術。一般說來，程式模組包含副程式、程式、物件、元件、資料結構等等，其可執行特定任務或者實作特定抽象資料型態。亦可在一分散式計算環境下實作本文字相關說話者認證技術，其中是由透過一通訊網路所鏈結的遠端處理裝置來執行任務。在一分散式計算環境裡，程式模組可位在含有記憶體儲存裝置的本地及遠端電腦儲存媒體兩者內。

前文中既已說明該示範性操作環境，本說明章節的其餘部分則將專注於敘述具體實作本文字相關說話者認證技術的程式模組。

2.0文字相關說話者認證技術

底下將提供運用本文字相關說話者認證技術之示範性架構及處理程序的說明以及關於各種具體實施例的細節。

2.1隱藏Markov模型

多數的話語認證系統通常是基於運用「隱藏Markov模型(HMM)」的生成性音響模型，這些一般是利用數個Gaussian混合模型以產生音響向量序列。更特定地說，在說話者認證的情況下，標準實作是利用「Gaussian混合模型(GMM)」(這可視為是HMM的子集合)以產生說話者模型，此等GMM代表一說話者的話語特性向量而按如許多Gaussian向量之混合的分佈，並且藉此可將許多話框池匯在一單一「泛型話語」模型內。對於此一系統，通常是利用一「通用背景模型(UBM)」以將泛型非說話者特定話語加以模型化。換言之，UBM係一潛在地代表世界上每個人的模型。一種對於該等GMM而可捕捉序列資訊並因此產生更緊密地聚焦於話語狀態之的然替代項目即為利用「隱藏Markov模型(HMM)」以進行說話者模型化處理。

在一統計框架下，可利用基本語言單元(即如音位)的基礎機率模型貯庫來建構字詞表示。可將一自所說發話中所擷取之音響參數序列視為是實現多個隱藏Markov模型(HMM)中所描述之基礎處理的接合結果。一HMM係一兩個隨機性處理程序的組合，即一隱藏Markov模型，其負責時間可變性；以及一可觀察處理程序，其係針對於音譜可變性。此組合之功能可足夠強大以克服多數的重要話語含糊性來源，並且足夠彈性以供產生具有含數萬字詞之字典的認證系統。

一隱藏Markov模型係經定義如一對隨機性處理程序(X,Y)。該X處理係一第一階Markov串鏈，並且無法直接觀察；該Y處理為一序列的隨機變數，而在音響參數，或觀察值，空間裡取值。兩個正式假定可特徵化HMM而運用於話語認證。該第一階Markov假設陳述若目前已為標定，則歷史對於該串鏈之未來演進並無影響，並且該輸出無關假設陳述若該X的目前值為已知，則串鏈演進或過往觀察值皆不影響目前觀察值。

HMM主要是運用於對待予認證的音響單元進行模型化處理。在HMM式說話者認證作業中，會需要對於背景雜訊及話語兩者的模型。為產生該「背景模型」，通常是會利用來自一龐大集組之冒用者說話者的話語資料以演訓一「通用背景模型(UBM)」。對一給定系統而言，該UBM通常為固定，並且關注於確保將目標說話者排除於其演訓資料。為模型化一說話者，S，可將模型參數(一般為Gaussian均值)調整於該說話者的演訓資料。然後再利用這些模型的組合以執行實際的認證作業。

2.2典型的話語認證系統

第2圖顯示一典型說話者認證系統。一典型說話者認證系統運用一經演訓之話語認證器200，其利用一輸入話語信號的特性206以及一身份宣稱202來決定該輸入話語信號是否為一說出一特定通行片語的給定說話者。這通常是利用該等特性206，藉由將該輸入話語信號/身份宣稱202比較於該說話者特定模型(該所宣稱說話者模型)及該背景說話者模型(非一給定說話者的模型或是冒用者的模型)208所完成。該所宣稱說話者模型及背景說話者模型208是由一組演訓樣本所建立。給定一序列的話語特性向量206，及一說話者202的所宣稱身份，即可由該話語認證器200根據該等相對應說話者模型208計算出一檢定分數210。然後，將該分數210比較於一或更多與該所宣稱說話者相關聯的閾值212，以利用該假設檢定214決定是否應接受或拒絕所宣稱的身份。然後一系統可接受該話語屬於該目標說話者的宣稱，或者予以拒絕並宣稱該發話是由一冒用者所產生。

本文字相關說話者認證技術是利用一混合式生成性-區分性框架。本文字相關說話者認證架構之一具體實施例300可如第3圖所示。該架構概為牽涉到一招入模組302及一認證模型304。

本文字相關說話者認證技術的招入模組302可如第4圖所詳示。一般說來，在招入的過程中，會調整系統參數以更佳地模型化說話者(使用者)。該招入模組包含對於該說話者S 的招入資料404。首先會要求一使用者S 複誦其密碼n 次。然後利用這些招入資料404以調整該說話者無關模型406 (Λ)，以產獲對於該說話者S 的說話者特定模型 (Λ^S )408。在一具體實施例裡，這是藉由透過一「最大可能性線性迴歸(MLLR)」模組410利用MLLR所完成。MLLR中基本的等式形式為Λ^S =A*Λ+b。可看出該矩陣A造成模型空間中的旋轉，並且增置此b 而獲致一轉位。此模型空間雖可被打破成多個互斥範圍，並且對於各個範圍估計不同的旋轉及轉位，然因調整資料量有限，故本文字相關說話者認證技術並不選擇如此進行。因而，本文字相關說話者認證技術是利用整體調整，亦即對於在認證器之內的所有均值估計一單一旋轉(A)及一轉位(b )。一旦完成說話者招入作業之後，即可獲用對於該說話者S的說話者特定模型。

第5圖中顯示一在本文字相關說話者認證技術中對於說話者招入作業所運用之處理的具體實施例。即如區塊502所示，要求一說話者複誦一密碼或通行片語。然後，一泛型說話者模型(一說話者無關模型/背景模型)係經調整以產生一說話者特定模型，即如區塊504所示。在一具體實施例裡，該泛型說話者模型係利用一「最大可能性線性迴歸」程序所調整。該說話者特定模型可在稍後運用於說話者認證處理。

第6圖中顯示該認證模組304的細節。宣稱為該「說話者」S 之「說話者」X 的一話語信號602被輸入至一「話語認證器」604。該「說話者」S 的特定模型606以及一「背景說話者模型/說話者無關模型」608亦輸入至該「話語認證器」604(在一工作環境裡是利用Microsoft Corporation 所建立的標準電話引擎以作為該生成性模型)。該話語認證器採取一由該使用者所說出的發話而作為輸入，並且取用一模型以用於發現在該發話中的隱藏字詞序列。除產生在該發話內的隱藏字詞序列以外，該認證器亦根據該發話是如何良好地匹配於該模型以輸出一分數(亦即分數愈高，則匹配結果愈佳)。在本文字相關說話者認證技術的一具體實施例裡，該認證器會運行兩次，這兩次皆以相同發話作為輸入，然各次是採用一不同模型而運行。在一次運行時本技術利用該說話者無關模型，而在後續運行時則是利用對於該說話者S 的模型。該認證器對這兩次運行所輸出的分數會被輸入至一後處理模組610。該後處理模組610類似於一決策器。其基本上收集該話語認證器所需提供的所有資訊，然後對該宣稱作出決策，亦即此發話究係由一合格使用者抑或一冒用者所說出。一簡易決策器為可能性比例檢定。而增強處理則為較為正確之決策器的另一範例。

一般說來，在本文字相關說話者認證技術之一具體實施例中所運用的認證處理可如第7圖所示。即如區塊702所示，一含有由一宣稱為該「說話者」S 之使用者X 所說出的通行片語之話語信號被輸入至該系統。自所輸入之話語信號中擷取出特性向量(區塊704)。其次，將該等特性向量及該泛型或說話者無關/背景模型輸入至一話語認證器，然後輸出一第一認證器分數(區塊706)。然後再將該等特性向量及該說話者特定模型輸入至該話語認證器並且輸出一第二認證器分數(區塊708)。接著，利用該等認證器分數以決定該通行片語是否確由該「說話者」S 所說出(即如藉由利用一簡易閾值檢定)(區塊710)。

除前述模式以外，亦可將由本文字相關說話者認證技術所運用的話語認證器用於一強制校準模式。在此情況下，對該認證器有兩項輸入，(a)由一使用者發出的發話，以及(b)一字詞序列。在此，該認證器輸出一對於由該發話所給定之字詞序列的分數，亦即若與由該使用者實際說出者之字詞序列相匹配則獲得一高分數，而不匹配則是產獲一低分數。

更詳細地說，按數學方式描述，在一具體實施例裡，於認證過程中會有兩項輸入：(a)一宣稱，像是「使用者X 宣稱其為使用者S 」，以及(b)該輸入話語信號，其中含有一由該使用者X 所述說的通行片語。此問題可重新改為接受/拒絕該假設H₀ ：該給定話語信號是由該使用者S 所說出，並且含有該使用者的通行片語。令O _1:T 為自該話語信號所擷取出的特性向量。除另加說明外，假定該使用者的通行片語是由一n 個字詞之序列所組成，即W={w ₁ ,w ₂ ,…,w _n }。該認證步驟牽涉到下列項目：1)利用該說話者無關模型Λ將該等特性向量O _1:T 強制校準於該使用者通行片語W(強制校準作業可藉由限制該自動話語認證系統於僅認證該輸入字詞序列以決定一發話中之音位的時間位置)。在此步驟中由該認證器所傳回的分數係標註如p (O _1:T ︱Λ,W)(等同於第7圖的區塊702、704、706)。

2)重複上述步驟，然將該說話者無關模型Λ替換成該說話者特定模型Λ'，在此令該分數為p(O _1:T ︱Λ^S ,W)(等同於第7圖的區塊702、704、708)。

3)最後，利用p (O _1:T ︱Λ,W)及p (O _1:T ︱Λ^S ,W)以接受或拒絕該假設(即如藉由一簡易閾值檢定)(等同於第7圖的區塊710)。

在圖式中，平行於該文字無關說話者認證，該說話者無關模型(Λ)是扮演與眾知之通用背景模型(UMB)相同的角色。假設檢定的古典方式係計算下式：其中L (Λ^S ,W︱O _1:T )代表給定該等觀察結果，該模型Λ^S 和該字詞序列W的可能性。一較為熟悉形式可為f =logF =logp (O _1:T ︱Λ^S ,W)-logp (O _1:T ︱Λ,W)=L (Λ^S ,W︱O _1:T )-L (Λ,W︱O _1:T )。然後再根據對於F (或f )的簡易閾值計算以接受或拒絕該假設。這就是所謂可能性比例檢定(LRT)。Neyman-Pearson定理說明，若該演訓及該檢定集合兩者皆為擷取自相同的底層分佈，則對於一給定顯著水準而言，並不會有比LRT功能更強大的檢定方法。

然而在實作上並無法總是適用該Neyman-Pearson定理。這是由於：(a)因為演訓資料量有限，所以不可能估計產生該資料(演訓及檢定)的真實底層分佈；以及(b)亦眾知HMM式話語模型為真實話語處理程序的近似結果。因此，沒有人可以宣稱LRT是最有力的假設檢定。

2.4加權可能性比例檢定及增強處理

本文字相關說話者認證技術可在該認證處理中，對一些相較於他者而能提供更高說話者區分性之字詞類別提供比起其他類別為更高的權值。在一具體實施例裡，這是藉由運用一增強程序所達成。尤其是，前節討論通常雖適用於LRT，然對於說話者認證作業來說存在一些內隱的LRT缺點。LRT中所利用之最終分數，其係在發話(語句)層級處的分數，為在一較為子發話層級處之分數的函數，例如狀態層級、或字音層級、或音節層級或甚字詞層級。該認證器基本上是將這些子單元分數對映到一在發話層級處的分數內。由於該認證器並未必然地經演訓以將該說話者認證效能最佳化，因此無法期望該者習知該等分數從子單元層級到發話層級的最佳化對映(自說話者認證觀點)。此外，若在一些字詞類別提供比起他者而為更高說話者區分性的情況下，則基本上這些字詞集合在該認證處理中相較於其他類別應獲得較大的權值。不過，在LRT的情況下，所有的分數係經給定相等的權值。可利用一簡易範例以說明前述要點：令W={w ₁ ,w ₂ ,…,w _n }並且w _i 產生，亦即若運行強制校準於W，則令t _s,i 及t _e,i 為第i 個字詞的開始及結束。因此可得到(若忽略語言模型機率)：f =logp (O _1:t ︱Λ^s )-logp (O _1:t ︱Λ)　　　(2)

可觀察到每個字詞獲得一相等權值。考量到如下目標函數其中權值λ={a _i ,b _i }，1 i n ，係經習知為最佳化整體說話者認證效能。直覺上，施加限項a _i ,b _i 0可為合理。此外，古典方式為僅一經加權列式的特殊情況，亦即若對所有i ，a _i =b _i =1，則f =f '。現在問題為是否可找到一種原理以習知該等權值λ。為此，可考量對前述項目進行些微修改。

這對於常用的習知方式而言具有特殊的顯著性。可將的各項視如一「弱」分類器，然後該最終分類則是基於這些弱分類器的加權總和。在其精神上，這非常類似於增強處理的方式。在增強處理中，可合併數個弱分類器以產生一強分類器。注意到前述討論雖是在該字詞層級處利用一加權總和，然而理論上確可在其他的子發話層級處，像是狀態、字音、音素等等，構成該總和。

增強處理係一種按一後續的分類器可補足先前者之缺陷的方式以循序地演訓並合併分類器集組的技術。在增強處理中，各個分類器通常稱為弱習者，亦即各個分類器依其本身是僅能產生一略微佳於機會性之輸出；然當合併於其他的分類器時可構成一強分類器。此增強處理係經運用於本文字相關說話者認證技術之一具體實施例，藉以選擇最佳地決定一給定話語樣本究係由一給定說話者或一冒用者所產生的特性。第8圖說明一用於本文字相關說話者認證技術之一具體實施例內的增強程序，並於後文中概要說明。

給定一演訓集合，其中x _i 為自該認證器所導出的特性向量(亦即生成性模型)，並且y _i {0,1}為標籤(參見後文)，初始化=。在此，D _i 表示該演訓集合中第i 個樣本上的權值。注意到若x _i 是產生自一有效說話者，則標籤y _i 被設定為1，而若x _i 是產生自一冒用者，則標籤y _i 被設定為0。然後，本文字相關說話者認證系統具體實施例進行下列疊代處理程序，其中p為疊代計數。

對於從1到P的疊代p，其中P為預定最大疊代數目(方框802、804)，1.根據經加權演訓誤差以演訓一弱習知器，並且令此分類器為h _p ，使得h _p (x _i ){0,1}。(方框804)

2.利用分類器h _p 以計算在該演訓集合內的誤差，其中該誤差ε_p 係經定義為。(方框806)

3.在上述的分類器h _p 中，可利用計算出該信心α_p 。(方框808)

4.利用以更新權值，其中f (m ,n )在當m =n 時傳回+1，否則為-1。(方框810)

5.將各樣本的權值隨機化，，其中該正範化常數。(方框812)

6.回到步驟1(亦即需要重複步驟1到5共P次)(方框802到814)。輸出該最終分類器，其由所給定。此分類器利用該等最佳特性以決定一話語樣本究係由一給定說話者或一冒用者所產生。(方框816)

本文字相關說話者認證技術是利用決策樹以作為弱習知器。在決策樹內的各節點基本上是一運作於x 之一單一維度上的決策株點(參照於增強演算法的步驟1)。換言之，在各次疊代，該技術選擇該特性向量x 的一個構件(維度)以及一相對應閾值，使得能夠將加權演訓誤差最小化。注意到該組對(維度及閾值)係經聯合地選擇以將加權誤差最小化。直覺上，此為區分性特性選擇策略。因而在此情況下，一特性的分類器h _p (x )=I (x ^p >K _p )，其中x ^p 為x 在第p 次疊代中所選定的一構件，K _p 為其相對應閾值，而I 為表示函數，若該條件為真則其傳回1，否則傳回0。從而，該最終決策函數可給定如。因此可利用增強處理以按一區分性方式習知該a _i (參見第4式)及一相關閾值。

2.5特性

在本節中將討論運用於本文字相關說話者認證技術之一具體實施例內的特性。即如前述，給定來自一說話者S的發話，該文字相關說話者認證技術利用該認證器進行兩次通行而產獲分數l (Λ^S ,W ︱O _1:T )及l (Λ,W ︱O _1:T )。此外，該文字相關說話者認證技術亦獲得該字詞層級分數，、，1 i n 。該文字相關說話者認證技術利用下列特性，

1)獲自於在字詞及發話層級處之各認證器通行的原始可能性。

2)在發話層級處該等原始可能性(LR)間的差異。

3)在字詞層級處該等原始可能性(LR)間的差異，以及字詞時段長度。

由於本文字相關說話者認證技術之一具體實施例並不利用發話層級時段長度，因此前述最後一點僅適用於字詞層級。此外，此具體實施例在所有的前述情況中亦增附經正範化之可能性(由數個話框所正範化)。在前述範例中所有可能性負項亦被增入於該特性向量。增入可能性負項的原因在於該基本分類器h _p (x )=I (x ^p >K _p )是利用單向式比較。而本文字相關說話者認證技術可增入該等特性的負項以獲得雙向式比較。例如，想像一對於一說話者總是小於(即如)0的特性。然而一分類器h _p (x )=I (x ^p >K _p )是無法將此現象模型化，不過-x會總是大於0。直覺上，一些如前所利用的特性雖或看似缺少該說話者區分功能性，然增強處理的基本特徵是可讓該文字相關說話者認證技術能夠選擇盡可能多的特性，然後令該增強程序按可區分方式挑選最佳特性。

3.0替代性具體實施例

在本文字相關說話者認證技術之一具體實施例裡，一使用者的話語被用來作為一無關生物量測值。亦即，該使用者說出的通行片語可不同於該使用者正常鍵入而獲以存取一安全系統的密碼。實際上，為獲得更高的安全性，該話語通行碼最好是異於鍵入密碼。在此情況下，即使當該通行碼被一第三方法偷聽到時，仍無法藉由鍵入方式以獲得存取該系統。

此外，在本技術之一具體實施例裡，該本文字相關說話者認證作業可在招入過程中自動地獲得該通行片語。在此具體實施例裡，本技術並不要求使用者在招入之前先遞交一通行片語，而是另為利用該話語認證器的輸出，因而減輕該使用者的負擔。由於在本具體實施例中該系統並不知曉通行片語，因此該認證器可能會出錯。為令該技術更為強固，在本文字相關說話者認證技術之一具體實施例裡會利用一受限制文法(即如該通行片語僅含4位數)。可藉由要求使用者自一弱通行片語(4位數)或是一強通行片語(8位數)中選擇一選項，藉以在招入處理開始處簡易地獲得此項資訊。本技術利用此項資訊以建構一用於該話語認證器的受限文法，因而改善該認證器的正確度。

不過，在許多其他具體實施例裡，該技術對該使用者提供選項以在招入之前先遞交一通行片語。

亦應注意到在全篇說明中的任何或所有前述具體實施例皆可按所欲以構成之額外混合具體實施例的任意組合而運用。

100‧‧‧計算裝置

102‧‧‧處理單元

104‧‧‧記憶體

106‧‧‧基本組態

108‧‧‧可移除儲存裝置

110‧‧‧不可移除儲存裝置

112‧‧‧通訊連接

114‧‧‧(多個)輸入裝置

116‧‧‧(多個)輸出裝置

200‧‧‧經演訓之話語認證器

202‧‧‧身份宣稱

206‧‧‧話語特性

208‧‧‧所宣稱之說話者/背景說話者模型

210‧‧‧檢定分數

212‧‧‧說話者閾值

214‧‧‧假設檢定

300‧‧‧本架構具體實施例

302‧‧‧招入模組

304‧‧‧認證模型

404‧‧‧招入資料

406‧‧‧說話者無關模型

408‧‧‧說話者特定模型

410‧‧‧「最大可能性線性迴歸(MLLR)」模組

602‧‧‧宣稱為說話者S 之說話者X 的話語信號

604‧‧‧話語認證器

606‧‧‧說話者S的模型

608‧‧‧背景說話者模型/說話者無關模型

610‧‧‧後處理模組

自後載說明、申請專利範圍及隨附圖式將更能瞭解本揭示之特定特性、特點及優勢，其中：第1圖係一圖式，其中說明一組成一示範性系統以實作本文字相關說話者認證技術元件之普通目的計算裝置。

第2圖係一示範性說話者認證系統的區塊圖。

第3圖係一描繪本文字相關說話者認證技術架構之具體實施例的區塊圖。

第4圖係一流程圖，其中描繪本文字相關說話者認證技術招入處理程序之一示範性具體實施例。

第5圖係一流程圖，其中描繪一用於本文字相關說話者認證技術之一具體實施例中所運用的說話者招入處理具體實施例。

第6圖係一描繪一本文字相關說話者認證技術架構之示範性具體實施例的區塊圖。

第7圖係一流程圖，其中描繪本文字相關說話者認證技術招入處理程序之一示範性具體實施例。

第8圖係一流程圖，其中描繪一可由本文字相關說話者認證技術之一具體實施例在決定一說話者究係為其所聲稱者或為一冒用者時加以運用的增強處理。

無(流程圖)

Claims

一種用以認證一說話者之身份的電腦實施方法，包含下列步驟：使用一計算裝置以用於：要求一說話者複誦一通行片語；藉由在一文字相關方法中之一最大可能性線性規劃程序，調整一經演訓之說話者無關模型，而不需要再演訓該經演訓之說話者無關模型，以建立一說話者特定模型，以用於認證該通行片語係由一特定說話者所說出；輸入一話語信號，其含有由宣稱為一特定說話者之使用者所說出的一通行片語，其中該說話者未被要求複誦該通行片語；自該話語信號擷取出特性；將該等特性及該說話者無關模型輸入至一話語認證器內，並且輸出一第一認證器分數；將該等特性及該說話者特定模型輸入至一話語認證器內，並且輸出一第二認證器分數；以及利用該等第一及第二認證器分數以決定該通行片語是否確為由該特定說話者所說出。
如申請專利範圍第1項所述之電腦實施方法，其中利用該等第一及第二認證器分數以決定該通行片語是否確為由該特定說話者所說出之步驟是運用一閾值檢定。
如申請專利範圍第1項所述之電腦實施方法，其中當利用該等第一及第二認證器分數以決定該通行片語是否確為由該特定說話者所說出時，會對該輸入話語信號中含有該通行片語的特定部分加權。
如申請專利範圍第1項所述之電腦實施方法，其中該認證器運用隱藏Markov模型。
如申請專利範圍第1項所述之電腦實施方法，其中運用一增強程序，以針對較能區分決定該通行片語是否由該特定說話者所說出之話語子單元的特定類別，給予相較於其他類別較高的一權值。
如申請專利範圍第5項所述之電腦實施方法，其中該話語的子單元係如下之至少一者：字詞；音位(Phoneme)；或音素(Tri-phone)。
如申請專利範圍第5項所述之電腦實施方法，其中該增強程序包含下列步驟：對於一給定疊代次數，利用一特性演訓資料集合以演訓一分類器；利用該分類器以計算一經加權演訓誤差；計算對該分類器的信心；更新在該演訓資料集合內之各個特性的權值；正範化在該演訓資料集合內之各個特性的權值；以及輸出一最終分類器，其利用下列特性：針對較能區分決定一通行片語是否由一特定說話者或一冒用者所說出之話語子單元類別，給予較高權值。
如申請專利範圍第1項所述之電腦實施方法，其中該特性係下列之一者：獲自於各個認證器通行的原始可能性；該等原始可能性之間的差異以及所運用之話語子單元的時段長度。
如申請專利範圍第1項所述之電腦實施方法，其中該使用者所說出之通行片語係不同於一使用者鍵入藉以進行身份認證的密碼。
如申請專利範圍第1項所述之電腦實施方法，其中該說話者的身份被用以存取下列一者：金融機構的電話存取，資料庫服務，購物服務，語音郵件，或對安全設備的存取。
如申請專利範圍第1項所述之電腦實施方法，其中該說話者特定模型係一區分性模型，並且校正在該說話者無關模型之內的誤差。
如申請專利範圍第1項所述之電腦實施方法，其中該說話者無關模型是運用隱藏Markov模型。
一種電腦可讀取儲存媒體，其具有用以執行如申請專利範圍第1項所述之電腦實施方法的電腦可執行指令，該電腦可執行指令係永久儲存於該電腦可讀取儲存媒體內。
一種用以認證一說話者之身份的系統，其中包含：一普通目的計算裝置；一電腦程式，其含有可由該普通目的計算裝置執行的程式模組，其中該計算裝置係經該電腦程式的程式模組導引以：調整一說話者無關模型，以建立一說話者特定模型而用以認證一說話者之身分；輸入與一給定說話者相關之一預定通行片語；輸入一話語信號，其含有由一宣稱為該特定說話者之使用者所說出的一通行片語；自該話語信號擷取出特性；將該等特性及該說話者無關模型輸入至一話語認證器內，並且輸出一第一認證器分數；將該等特性及該說話者特定模型輸入至一話語認證器內，並且輸出一第二認證器分數；以及在一文字相關方法中，利用該等第一及第二認證器分數以決定該通行片語是否為該預定通行片語，及該通行片語是否確為由該相關給定說話者所說出。
如申請專利範圍第14項所述之系統，更包含一程式模組以識別該特定說話者。
如申請專利範圍第14項所述之系統，其中在輸入一含有一由該使用者所說出之通行片語的話語信號前，先利用該話語認證器以自動地獲得一通行片語，及其中被自動獲得之該通行片語係用以決定由該說話者所說出的通行片語是否由該使用者所說出。
如申請專利範圍第16項所述之系統，其中利用受限文法以決定由該說話者所說出的通行片語是否由該特定說話者所說出。
一種用以認證一宣稱為一特定人士之說話者確為該特定人士的系統，包含：一普通目的計算裝置；一電腦程式，其含有可由該普通目的計算裝置執行的程式模組，其中該計算裝置係經該電腦程式的程式模組導引以：將一由一宣稱為一給定人士之說話者所說出的片語音訊信號輸入至一經演訓話語認證器，將說話者無關模型輸入至該經演訓話語認證器；將該給定人士之話語的說話者特定模型輸入至該經演訓話語認證器，其中該等說話者特定模型係藉由使用一最大可能性線性規劃程序以調整該等說話者無關模型所導算出；以及在一文字相關方法中，利用該經演訓話語認證器、該等所輸入之說話者無關模型和該等說話者特定模型，決定該片語的輸入音訊信號是否確由該給定人士所說出。