TW299437B

TW299437B -

Info

Publication number: TW299437B
Application number: TW085109041A
Authority: TW
Original assignee: At & T Corp
Priority date: 1995-07-31
Filing date: 1996-07-24
Publication date: 1997-03-01
Also published as: EP0757342A2; EP0757342B1; JPH09106296A; US5960393A; CA2180392C; DE69614789D1; EP0757342A3; CA2180392A1; DE69614789T2

Description

經濟部中央標準局員工消費合作社印製 A7 B7 五、發明説明（i ) 發明背景 1. 發明領域本發明係有關於語言識別及在連貫性的語言中之命令檢測。 2. 技術背景命令識別系統（Command Spotting Systems)對於人類的語音是敏感的，在廣泛的消費產品中，是有高度需求。在電訊裝置中，典型的運作像開/關，傳送/接收，音量大小，按鍵撥號，語言識別器訓練，及電話回話裝置功能，可藉監聽一個語音輸入頻道，每當特定語調（命令）出現時，即採取適切的動作來完成。對於每個此系統識別之命令而言，可主張一個統計模型如技術界所熟知的隱藏式馬可夫模型（hidden Markov model，HMM)。在操作過程中，傳統的命令識別系統在目前觀察的輸入中，連續產生關於命令字之位置及同一性的推測 (conjectures)或假説（hypotheses)。每個假説對比一個個別命令模型來測試，並可產生其個別可能性（likelihood)之分數（score)。分數可藉傳統的Viterbi計算而得。如果分數超過門限値T，假説就會視爲被接受的，並且相關的動作就開始，否則，此假説就被否決。無論一個正確或錯誤的假説，其分數之機率分佈（probability distribution)取決於不同的行爲者，包括説話者，轉換器，及語音環境。固定門限値T通常設定得很高，以保證對大量的使用者來説，整個運作範園中，有一個可接受的低錯誤警告率（false alarm -4- 本紙張尺度適用中國國家橾準（CNS ) A4規格（210X 297公釐） (請先閲讀背面之注意事項再填寫本頁) 装. A7 B7 經濟部中央標準局員工消費合作社印製五、發明説明（2 ) rate)。不幸的是，由於使用者語音特徵及環境狀況有很大的差異存在，所選定的門限對有些使用者會運作得較其他使用者爲佳。不易超出門限之使用者，一般而言會被系統所忽略。經常被否決的使用者之問題的解決，其技術專注於降低門限値。然而，如門限設得太低，對一般使用者會導致大量無法接受之錯誤正向假説。發明概述根據本發明，先前技術上述之缺陷，可藉一個變動準則語 & 識別（a variable criteria speech recognition)技術來避免，其適用於命令識別及單獨字識別β 一個識別準則或一組識別準則，是由使用者從數個識別準則或多組識別準則中挑選而來。將語調和一個或多個諸兵模型相比較，可決定每次比較之相似性度量。藉著此一個或多個相似性度量可決定最匹配此語調之語言模型。將對應於最匹配語言模型的相似性度量作分析，可決定是否此相似性度量滿足所選之識別準則組。有些識別準則用來增加識別之門限，其他則用來減低識別之門限。根據本發明的解説性具體實施例，使用本發明語S識別系統及方法之一個裝置的諸使用者，有能力去選擇一組應用於聲音語調的識別準則。舉例來説，選擇裝置可包括一特徵選項或一切換設定。一組識別準則的選擇可以每個使用者爲主來執行，以每個命令爲主來執行，以每個命令群爲主來執行，或以所有的組合來執行。本案指出本發明的各種新穎特性，特別在附屬並形成部 -5 - 本紙張尺度適國家標準（c ^ (請先閲讀背面之注意事項再填寫本頁) 装· 訂 1— I I- I ^1— 經濟部中央標準局員工消費合作社印製發明説明（分揭示的申請專利範固。爲了更了解本發明、其操作優點及其使料獲㈣制目的，應該參考伴隨㈣s及敛述 ’其中列舉及説明幾個本發明的具應實施例。附圈簡述當連帶閲覽附圈時，接下來詳細的説明，會使得本發明的特徵及優點變得更容易瞭解，其中；圈1是一解説性裝置的方塊圈，其配置用以使用本發明之使用者可選擇多重門限準則；圈2描述一方塊流程躅，其描述語言識別的性能，用以提供一個囷1的解説性裝置的控制界面；及圖3顯示一方塊流程圖，其描述使用者根據本發明的具體實施例，手動選擇一組準則的處理過程。本發明之詳細説明爲了清楚解釋起見，本案提出本發明的解説性具體實施例，包括個別的功能性方塊（包括標記爲"處理器，，的功能性方塊）。這些方塊所代表的功能可透過共用或專用硬趙來實行，其硬體包括但不限定於可以執行軟體之硬體。例如，圖1之處理器的功能可藉著如數位信號處理器（DSP)的單一共用處理器來實行。然而，應該注意的是，這裡使用的名詞"處理器”並非專指可執行軟體之硬體。圖1提出本發明之解説性具體實施例，是有關於一使用語言識別之電話回答装置。然而，期待的是本發明的敎示是同等應用於任何需要語音運作控制界面的裝置。例如，根據本發明在語音識別中使用可選擇多重門限準則，可輕 (請先閲讀背面之注意事項再填寫本頁) m ί ί _ 袈· -6 本紙張尺度適用中國國家標準（CNS ) Α4規格（21〇'Χ297公釐）經濟部中央標準局員工消費合作社印製 A7 ------- Β7 五、發明説明（4 ) 易延仲去控制傳統家庭和商業電話，㈣和蜂巢電話，個二數據編組器’傳眞機，電腦（例如個人電腦）及電腦終端如圈1所示，在任何事件中，裝置10包括一個麥克風12 ’用以接收來自使用者之輸入語言’一個語言識別系統η ，以及一個裝置控制處理器16，用以指示裝置1〇之各種功能性元件的運# 〇在解説性具艘實施例中，$置1〇是用來作爲一個回答機器，這些元件包括一音頻處理器18，一揚聲器20，一訊息儲存單元22，以及一線路界面（丨& interface) 24,用以藉—電話線(未示出）將音頻信號傳送至呼叫方（calling party)，以及從呼叫方接收音頻信號。

首頻處理器18是傳統的技術，且在裝置控制處理器“的控制下有不同的功能。例如，音頻處理器〗8接收來自麥克風12及線路介面24的音頻輸入信號》當這些信號被任何特定的電話系統所要求時，即被處理並以一適當的格式儲存在訊息儲存器22中，其格式可以是類比或數位的。處理器 18更將代表輸出訊息或接收自一呼叫方的訊息之語音輸出信號，分別送至線路介面24或揚聲器20。同時，音頻處理器將諸如裝置控制處理器16的語音提示之訊息，編竭成音頻信號並且將它們送至揚聲器20。 B 装置控制處理器16也可是傳統上的設計。如前面所指出的，處理器16控制電話呼叫程序及回答機裝置1〇的—般運作。裝置控制處理器16接收來自語言識別系統14及音頻處理器18的輸入，並且提送控制指令至語言識別系統14及音本纸張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） ---------f ·装------訂 (請先閲讀背面之注意事項再填寫本頁) A7 B7 ^9437 五、發明説明（頻處理器18 »處理器16亦接收來自準則選擇開關26的輸入。準則選擇開關26允許使用者從多重識別準則中選擇，以改善語言識別系統14的性能，其將在稍後詳述。響應於使用者選擇之輸入，裝置控制處理器16藉著傳送適當的指示，改變語言識別系統14的操作模式，敘述如下：參考圖1 ’可以看到語言識別系統14包括一個傳統的類比-數位（A/D)轉換器28，用以將麥克風12的所獲取之音頻信號，轉換成數位樣本流；一個數位信號處理器30，如 AT&T DSP 10A，將A/D轉換器28所產生的數位信號樣本作處理；一個ROM 32，其包含數位信號處理器3〇所執行之程式指令；一個RAM 34，其中暫時計算結果儲存在此；以及一個HMM參數記憶體36，它是一非易失性記憶體，如EEPROM，ROM，快閃RAM，附加電池RAM等，以及在解説性具體實施例中，包括至少兩組用以識別片語之隱藏馬可夫模型（HMM)的參數。如那些習知技術者所容易察知，一個或多個裝置28，30，32，34及36可設於相同的電子晶片上。語言識別系統14藉著來自處理器16的信號，設定在命令識別模式，顯示沒有由使用者所開啓的裝置控制動作目前是尚未決定的。在這個模式中，系統14檢查每個來自A/D 轉換器28的輸入語；語調，是否有命令片語的存在，其中，一個或多個HMMs是儲存在hmm參數記憶體36中。換句話説，在命令識別模式中，識別器14採用記憶體36中的 HMMs，其對應到命令片語，諸如"訊息播放，，，，，記錄輸出本紙張尺度適用中國國家標準（CNS ) Λ4規格（ ! 1^1 I n n ml —^1 ^^1 In I ιι Jn - . (請先閱讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 -8- 經濟部中央標準局員工消費合作社印裝 A7 _____B7_ 五、發明説明（6 ) 訊息"，"下個訊息"，"倒帶"等等。習知技術者當然容易察知的是，HMMs只是例舉那些可以採用的模型，且任何適當的模型都可使用。來自使用者的語調被接受爲一命令，如果此命令的存在是被系統14所證實。否則，此語調就否決。如果假設被接受，一個表示一特定命令片語已被偵測的信號就會由語言識別器14送至裝置控制處理器16。裝置控制處理器16然後開啓與此命令相關的操作。如果此語調被否決’就沒有訊息送到裝置控制處理器16。響應於接受命令的處理器16的操作，是傳統的技術。現在參考圈2，顯示的是語言識別系統14的數位信號處理器30的處理過程方塊流程圖。每個方塊代表—個不同的處理功能，其可以儲存於ROM 32的程式副程序來實施。語言識別牵涉到的四個基本步樣是：特性擷取，時間定位 ’圖樣相似性量測及決定策略。目前的語言識別系統使用各種技術來執行這些基本步驟。每個方法有其性能及混合成本。典型的語言識別策略是連續"掃瞄"輸入的語言數據，執行動態程式’計算一相似性量測或説出的語調和错存的參考圈樣之間的·•距離"，及決定是否此相似性量測足夠接近一預期値，以宣稱此語調被識別。繼續參考圈2，看到的是A/D轉換器28提供的語言樣本由傳統的語言擷取器40所處理，以產生一語言特徵向量流，典型的頻率是100向量/秒到200向量/秒。現在有各種信號處理技術藉著有利於語言識別的時變參數來代表一語言信號。適當的信號處理轉換例爲直接頻譜量測（居間的是一 -9 - 本紙張尺度適用中國國家標準（CNS )八4祕（21〇χ297公釐） --- -I ^^1 ^—^1 —^1-------- - (錆先閱讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 A7 _________ B7 五、發明説明（7 ) 組帶通濾波器或一離散傅立葉轉換），能量頻譜及一組逋當的線性預測模型（LPC)參數（查照J.D. Markel和A.H. Gray， Jr.,"線性語言預測"，Springer-Verlag, New York (1976))。在圈2的解説性具體實施例中，每個向量包括10到30的語言特徵成分，其語言特徵是有關於語言能量，增量（deUa， △)語言能量，能量頻譜係數及增量（delta, Δ )能量頻譜係數。特徵向量流經由傳統終端點偵測器42所處理，其偵測器決定語言中的語調起點與終點。終端點偵測器的輸出包括有限的語言向量序列，其中每個向量序列對應到單一個語調。在特徵擷取/終端點偵測之後，下個基本步驟是一相似性量測的計算，其相似性量測是介於一儲存參考和擷取自語調的時間標準化（time-normalized)參數之間。最後，假設器43接收輸出自終端點偵測器42的語言向量序列，且產生一有關言辭内容的假設。在這種情況下，當片語模型參數方塊44指示時，假設器43使用片語的HMM模型，其片語參數被儲存起來，當背景模型參數方塊45指示時，假設器 43使用HMM背景模型，其參數被儲存起來。名詞"背景"指的是靜止、雜音或任何不是命令片語的語言。實質上，這些模型全都位於圈1的HMM參數記憶體36中。假設器43製造兩種假設。第—種假設（被稱爲"背景假設，，) 假設特徵向量序列共包括背景。第二種假設（被稱爲"片語假設”）假設特徵向量序列包括一個命令字，可能有背景在之前或之後。對這二個假設的每一個而言，假設器應用一 -10- 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） ~ (請先閱讀背面之注意事項再填寫本頁) *vs 經濟部中央標準局員工消費合作社印製 A7 _____B7 五、發明説明（8 ) 個傳統動態程式最佳化程序，如Viterbi解碼（或計算） (Viterbi decoding (or scoring))，其程序決定最可能的假設及一個此假設的估計可能性的相對數値（或分數〉。此外，動態程式程序產生一些額外的片語假設參數，其參數被稱爲”匹配參數"。最可能片語假設期望片語期間和對應於最可能片語假設的語調的假設器決定之片語期間，兩個片語期間的差異產生第一匹配參數。最可能假設的期望HMM狀態期間和假設器43決定的狀態期間，兩者之間 r 的差的絕對値平均，產生第二匹配參數。最佳片語假設和次佳片語假設，兩者的最可能假設的可能性分數之差產生第三匹配參數。如熟知技術者所能輊易探知的，使用在產生匹配參數中的數據是可獲得作爲傳統採用HMMs和 Viterbi計算的語言識別處理過程一部分。假設器43的輸出包括，一最可能片語假設；一相對應的分數，其是片語假設可能性估計和背景假設可能性估計的對數差；和匹配參數。確認器46接收假設器43的輸出，並且檢查每個匹配參數是否在一相對應的預定範固之内。確認器檢查第一匹配參數是否在-1/2到1之間的範園内。確認器46檢查第二匹配參數是否在1〇〇毫秒的範困内。確認器也檢查第三匹配參數是否在最佳假設分數的百分之十的範圍内（任何這些範圍可變動以適應特殊的操作環境）。如果匹配參數是在預定的範固内，確認器會將此假設及其個別分數送至決定器47。否則，此假設會被否決。決定器47決定是否接受或否決最可能片語假設。如果假 -11 - 本紙張尺度適用中國國家標率（CNS ) A4規格（210'乂297公釐1 '~~' I I I I I ^ ^ I I n 訂 I I I I I A {請先閲讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 A7 ———_____ B7_ 五、發明説明（9 ) 設是被決定器47接受，此假設就被報告到圖1的裝置控制處理器16。決定器47作其決定的方法可解釋爲圖3的方塊流程圖。圖3的流程圈開始於步驟5〇，其中接收到的是假設片語及其相對應分數。根據本發明的簡化具體實施例，控制是專注於方塊52，其中門限T是設爲數個儲存在記憶體中的固定値ΤΙ，T2，T3，T4或T5中的一個，其記憶體可爲 RAM 34或ROM 32。在正常的情況下’對一個”普通"的使用者而言，在傳統的方式中，T3是一個運作得很好的内定値。T2和T1値是選擇來獲得一增加的正向識別可能性（如 20%及40%分別相對於内定値的設定的更高機率），代價是錯誤正向警告的增加，而T4和T5値是選擇來獲得一減少的正向識別機率（如-15%及-30%，分別相對於内定値的設定），代價是錯失命令的增加。對應於所選擇的識別準則的値設定爲Ts，且和獲得的假設分數作比較（方塊5 4)。如果分數超過Ts，假設就會被接受（方塊56)。如果分數就會被否決（方塊58)。如方塊60所指示的，接受/否決的決定會以傳統的方式輸出爲裝置控制處理器16所用。在本發明的更複雜具體實施例中，從數個準則組中選擇一組門限或準則組，在方塊5 2所表示的操作中，每組準則相較於内定的一組準則，使得一個命令更可能或更不可能被識別，其取決於所選的特別組別。關於此事，要注意的是’由於輸入字被識別成產生最大可能性的模型，藉著計算以每個儲存字模型來產生一未知輸入工作圏樣之可能性 -12- 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） --------,衣------訂------《I (請先閱讀背面之注意事項再填寫本頁) 10 、發明説明（ ’ p以το成HMM單字識別。模型的正確性可被如下的準則影響，如語調終端點的位置，語調持續期間，及每個敘述中的訊枢（frames)數目。在傳統的方法中，這些準則的每個叩個別依照使用者輸入的選擇來調整，以便達成一增加的識別可能性’代價是就普通使用者而言’更頻繁的錯誤正向結果，或是就少數使用者而言，要有較大的正確性，代價就是一減少的識別可能性。每個準則的内定値以傳統的方式最佳化’在正常的環境下提供普通的使用者最佳的結果，其内定値可在缺乏輸入使用者選擇的情沉下使用。藉由額外的例子，其中電訊裝置1〇配置成無線電話，語 s識別系統14藉著來自裝置控制處理器14的信號，可從命令識別模式切換成播號模式，其表示使用者已開啓一撥號程序。此撥號程序可藉著按一按鍵按鈕或説出一啓動撥號操作的命令片語（如”撥號來開啓，在這個模式中，識別器14使用名字片語（name phraseswHMMs(而不是上述命令識別模式中的命令片語），其令每個名字片語與一相對應的電話號碼有關。這樣的名字片語HMMs和相關的電話號碼是儲存於記憶體34中。如果識別器14接受名字片語的語調，表示名字片語識別已接受的訊息就送到裝置控制處理器16。裝置控制處理器16然後撥與已識別的名字片語有關的電話號碼，並通知使用者名字已正確識別。然而，如果語言識別器14否決語調，它依然送—訊息到裝置控制處理器16，表示語調已被否決。裝置控制微處理器然後提醒使用者重複此語調。藉著在一適當聲音訊息的音頻重製之後 ^ ^------訂------《丨 (請先閱讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印裝 -13-

A7 B7 五、發明説明（·η ) 的不同單音，可完成此通知和提醒。從上述可以容易探知的是，本發明並不限於上述提出作爲例子的具體實施例，而可在後附之申請專利範圍所定義的延伸保護範圍内，以各種方式修改。 --------,衣------訂------4 丨 (請先閲讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 -14- 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐）

Claims

Α8 Β8 C8 D8 τ、申請專利範圍 1 種語言識別器裝置，用以基於一語調來識別一個至少包括一個單字的片語，此裝置的特徵爲： —選擇模組2 6，用以從數個識別準則的儲存等級之一中’選擇至少一個識別準則，對一給定之語調，每個儲存等級聯想到一相對應識別機率； —比較器模組43，對於選擇模組的反應迅速，用以決定對應於一最匹配之語言模型的相似性度量，是否滿足所選擇的識別準則；及 —識別器模組47，當所選擇的識別準則能滿足時，用以將語調識別爲對應於該最匹配之語言模型的片語。 2_如申請專利範圍第1項的裝置，其特徵爲一語言模型反映一個或多個預定字。 3·如申請專利範困第2項的裝置，其特徵爲一預定字包括 —使用裝置之一命令字。 4·如申請專利範園第2項的裝置，其特徵爲一使用裝置。 5. 如申請專利範固第4項的裝置，其特徵爲此使用裝置是 —具電話。 6. 如申請專利範圍第4項的裝置，其特徵爲此使用裝置是 —回答裝置。 7 ·如申請專利範固第2項的裝置，其特徵爲每個識別準則包括一門限，及其中比較器模組是將對應於該最匹配之語言模型的相似性度量和所選擇的準則組之C限作比較〇 8_如申請專利範固第7項的裝置，其特歡爲該識別準則之 -15 * 本紙張尺度適用中國國家標準（CNS ) Α4規格（210X25»7公釐〉 (請先閲讀背面之注意事項再填寫本頁) 訂經濟部中央標準局員Η消費合作社印製 A8 B8 C8

經濟部中央標準局員工消費合作社印製错存等級包括一内定等級，在正常的情況下被最佳化以作一個普通使用者之用，至少有一個等級的識別機率大於該内定等級，及至少有一個等級的識別機率小於該内定等級，且其中選擇裝置可由使用者所操作，以選擇諸識別準則等級之一。 9. 一種型式包括一麥克風12的電訊裝置，該電訊裝置的特徵爲： —語言識別1 4 ’用以基於一語調來識別一個包括至少一個字的片語，此語言識別器包括：一選擇模組2 6，用以從數個識別準則的儲存等級之一中’選擇至少一識別準則，每個儲存等級是有闞於—個給定語調的一相對應識別機率； —比較器模組43，響應於用以選擇之選擇模组，用以決定對應於一最匹配的語言模型的一相似性度量，是否滿足所選擇的準則；及 —裝置控制電路16，藉該語言識別器響應於一語調之識別。 10_如申請專利範圍第9項的電訊裝置，其特徵在於，該裝置控制電路16是一電話電路，用以提供反應一語詞識別的電話運作。 11.如申請專利範固第1〇項的電訊裝置，其特徵在於： —無線電收發訊機；及 —音頻處理器，用以作爲麥克風和電話電路，兩者與收發訊機間的界面，此音頻處理器響應於電話電路提供 -16- 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） 1111Λ衣訂— I ^I » f請先閱讀背面之注意事項再填寫本頁} ABCD 六、申請專利範圍之諸控制信號。 12_如申請專利範固第10項的電訊裝置，其特徵在於該裝置控制電路是一回答機器電路，用以音頻重製儲存之訊息，來響應一語調的識別。 13· —種基於一語調識別包括至少一個字的片語之方法，此方法之特徵爲下列步驟：將此語調和一個或多個語言模型作比較，以決定每次比較之一相似性度量；第一個決定步驟，基於在該比較步驟中獲得的一個或多個相似性度量，決定那一個語言模型最匹配此語調；從數個識別準則儲存等級之一中，選擇至少一個識別準則，對於一給定的語調，每個儲存等級是有關於一相對應的識別機率；第二決定步樣’決定對應於最匹配之語言模型的相似性度量，是否滿足所選擇的識別準則；以及當所選擇的識別準則是被滿足時，將此語調識別爲對應於該最匹配之語言模型的片語。 (請先閲讀背面之注意事項再填寫本頁) 、1T 經濟部中央標準局員工消費合作社印製 -17- 本紙張尺度適用中國國家標準（c叫八4祕（21〇χ297公釐了