TW299437B - - Google Patents
Download PDFInfo
- Publication number
- TW299437B TW299437B TW085109041A TW85109041A TW299437B TW 299437 B TW299437 B TW 299437B TW 085109041 A TW085109041 A TW 085109041A TW 85109041 A TW85109041 A TW 85109041A TW 299437 B TW299437 B TW 299437B
- Authority
- TW
- Taiwan
- Prior art keywords
- recognition
- criterion
- language
- intonation
- item
- Prior art date
Links
- 238000000034 method Methods 0.000 claims description 17
- 238000011524 similarity measure Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241001417495 Serranidae Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/64—Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
經濟部中央標準局員工消費合作社印製 A7 B7 五、發明説明(i ) 發明背景 1. 發明領域 本發明係有關於語言識別及在連貫性的語言中之命令檢 測。 2. 技術背景 命令識別系統(Command Spotting Systems)對於人類的語 音是敏感的,在廣泛的消費產品中,是有高度需求。在電 訊裝置中,典型的運作像開/關,傳送/接收,音量大小, 按鍵撥號,語言識別器訓練,及電話回話裝置功能,可藉 監聽一個語音輸入頻道,每當特定語調(命令)出現時,即 採取適切的動作來完成。對於每個此系統識別之命令而言 ,可主張一個統計模型如技術界所熟知的隱藏式馬可夫模 型(hidden Markov model,HMM)。 在操作過程中,傳統的命令識別系統在目前觀察的輸入 中,連續產生關於命令字之位置及同一性的推測 (conjectures)或假説(hypotheses)。每個假説對比一個個別 命令模型來測試,並可產生其個別可能性(likelihood)之分 數(score)。分數可藉傳統的Viterbi計算而得。如果分數超 過門限値T,假説就會視爲被接受的,並且相關的動作就 開始,否則,此假説就被否決。無論一個正確或錯誤的假 説,其分數之機率分佈(probability distribution)取決於不 同的行爲者,包括説話者,轉換器,及語音環境。固定門 限値T通常設定得很高,以保證對大量的使用者來説,整 個運作範園中,有一個可接受的低錯誤警告率(false alarm -4- 本紙張尺度適用中國國家橾準(CNS ) A4規格(210X 297公釐) (請先閲讀背面之注意事項再填寫本頁) 装. A7 B7 經濟部中央標準局員工消費合作社印製 五、發明説明(2 ) rate)。不幸的是,由於使用者語音特徵及環境狀況有很大 的差異存在,所選定的門限對有些使用者會運作得較其他 使用者爲佳。不易超出門限之使用者,一般而言會被系統 所忽略。經常被否決的使用者之問題的解決,其技術專注 於降低門限値。然而,如門限設得太低,對一般使用者會 導致大量無法接受之錯誤正向假説。 發明概述 根據本發明,先前技術上述之缺陷,可藉一個變動準則 語 & 識別(a variable criteria speech recognition)技術來避免 ,其適用於命令識別及單獨字識別β 一個識別準則或一組識別準則,是由使用者從數個識別 準則或多組識別準則中挑選而來。將語調和一個或多個諸 兵模型相比較,可決定每次比較之相似性度量。藉著此一個 或多個相似性度量可決定最匹配此語調之語言模型。將對 應於最匹配語言模型的相似性度量作分析,可決定是否此 相似性度量滿足所選之識別準則組。 有些識別準則用來增加識別之門限,其他則用來減低識 別之門限。根據本發明的解説性具體實施例,使用本發明 語S識別系統及方法之一個裝置的諸使用者,有能力去選 擇一組應用於聲音語調的識別準則。舉例來説,選擇裝置 可包括一特徵選項或一切換設定。一組識別準則的選擇可 以每個使用者爲主來執行,以每個命令爲主來執行,以每 個命令群爲主來執行,或以所有的組合來執行。 本案指出本發明的各種新穎特性,特別在附屬並形成部 -5 - 本紙張尺度適國家標準(c ^ (請先閲讀背面之注意事項再填寫本頁) 装· 訂 1— I I- I ^1— 經濟部中央標準局員工消費合作社印製 發明説明( 分揭示的申請專利範固。爲了更了解本發明、其操作優點 及其使料獲㈣制目的,應該參考伴隨㈣s及敛述 ’其中列舉及説明幾個本發明的具應實施例。 附圈簡述 當連帶閲覽附圈時,接下來詳細的説明,會使得本發明 的特徵及優點變得更容易瞭解,其中; 圈1是一解説性裝置的方塊圈,其配置用以使用本發明 之使用者可選擇多重門限準則; 圈2描述一方塊流程躅,其描述語言識別的性能,用以 提供一個囷1的解説性裝置的控制界面;及 圖3顯示一方塊流程圖,其描述使用者根據本發明的具 體實施例,手動選擇一組準則的處理過程。 本發明之詳細説明 爲了清楚解釋起見,本案提出本發明的解説性具體實施 例,包括個別的功能性方塊(包括標記爲"處理器,,的功能性 方塊)。這些方塊所代表的功能可透過共用或專用硬趙來 實行,其硬體包括但不限定於可以執行軟體之硬體。例如 ,圖1之處理器的功能可藉著如數位信號處理器(DSP)的單 一共用處理器來實行。然而,應該注意的是,這裡使用的 名詞"處理器”並非專指可執行軟體之硬體。 圖1提出本發明之解説性具體實施例,是有關於一使用 語言識別之電話回答装置。然而,期待的是本發明的敎示 是同等應用於任何需要語音運作控制界面的裝置。例如, 根據本發明在語音識別中使用可選擇多重門限準則,可輕 (請先閲讀背面之注意事項再填寫本頁) m ί ί _ 袈· -6 本紙張尺度適用中國國家標準(CNS ) Α4規格(21〇'Χ297公釐) 經濟部中央標準局員工消費合作社印製 A7 ------- Β7 五、發明説明(4 ) 易延仲去控制傳統家庭和商業電話,㈣和蜂巢電話,個 二數據編組器’傳眞機,電腦(例如個人電腦)及電腦終端 如圈1所示,在任何事件中,裝置10包括一個麥克風12 ’用以接收來自使用者之輸入語言’一個語言識別系統η ,以及一個裝置控制處理器16,用以指示裝置1〇之各種功 能性元件的運# 〇在解説性具艘實施例中,$置1〇是用來 作爲一個回答機器,這些元件包括一音頻處理器18,一揚 聲器20,一訊息儲存單元22,以及一線路界面(丨& interface) 24,用以藉—電話線(未示出)將音頻信號傳送至 呼叫方(calling party),以及從呼叫方接收音頻信號。
首頻處理器18是傳統的技術,且在裝置控制處理器“的 控制下有不同的功能。例如,音頻處理器〗8接收來自麥克 風12及線路介面24的音頻輸入信號》當這些信號被任何特 定的電話系統所要求時,即被處理並以一適當的格式儲存 在訊息儲存器22中,其格式可以是類比或數位的。處理器 18更將代表輸出訊息或接收自一呼叫方的訊息之語音輸出 信號,分別送至線路介面24或揚聲器20。同時,音頻處理 器將諸如裝置控制處理器16的語音提示之訊息,編竭成音 頻信號並且將它們送至揚聲器20。 B 装置控制處理器16也可是傳統上的設計。如前面所指出 的,處理器16控制電話呼叫程序及回答機裝置1〇的—般運 作。裝置控制處理器16接收來自語言識別系統14及音頻處 理器18的輸入,並且提送控制指令至語言識別系統14及音 本纸張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) ---------f ·装------訂 (請先閲讀背面之注意事項再填寫本頁) A7 B7 ^9437 五、發明説明( 頻處理器18 »處理器16亦接收來自準則選擇開關26的輸入 。準則選擇開關26允許使用者從多重識別準則中選擇,以 改善語言識別系統14的性能,其將在稍後詳述。響應於使 用者選擇之輸入,裝置控制處理器16藉著傳送適當的指示 ,改變語言識別系統14的操作模式,敘述如下: 參考圖1 ’可以看到語言識別系統14包括一個傳統的類 比-數位(A/D)轉換器28,用以將麥克風12的所獲取之音頻 信號,轉換成數位樣本流;一個數位信號處理器30,如 AT&T DSP 10A,將A/D轉換器28所產生的數位信號樣本作 處理;一個ROM 32,其包含數位信號處理器3〇所執行之 程式指令;一個RAM 34,其中暫時計算結果儲存在此; 以及一個HMM參數記憶體36,它是一非易失性記憶體, 如EEPROM,ROM,快閃RAM,附加電池RAM等,以及在 解説性具體實施例中,包括至少兩組用以識別片語之隱藏 馬可夫模型(HMM)的參數。如那些習知技術者所容易察知 ,一個或多個裝置28,30,32,34及36可設於相同的電子 晶片上。 語言識別系統14藉著來自處理器16的信號,設定在命令 識別模式,顯示沒有由使用者所開啓的裝置控制動作目前 是尚未決定的。在這個模式中,系統14檢查每個來自A/D 轉換器28的輸入語;語調,是否有命令片語的存在,其中 ,一個或多個HMMs是儲存在hmm參數記憶體36中。換句 話説,在命令識別模式中,識別器14採用記憶體36中的 HMMs,其對應到命令片語,諸如"訊息播放,,,,,記錄輸出 本紙張尺度適用中國國家標準(CNS ) Λ4規格( ! 1^1 I n n ml —^1 ^^1 In I ιι Jn - . (請先閱讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 -8- 經濟部中央標準局員工消費合作社印裝 A7 _____B7_ 五、發明説明(6 ) 訊息","下個訊息","倒帶"等等。習知技術者當然容易察 知的是,HMMs只是例舉那些可以採用的模型,且任何適 當的模型都可使用。來自使用者的語調被接受爲一命令, 如果此命令的存在是被系統14所證實。否則,此語調就否 決。如果假設被接受,一個表示一特定命令片語已被偵測 的信號就會由語言識別器14送至裝置控制處理器16。裝置 控制處理器16然後開啓與此命令相關的操作。如果此語調 被否決’就沒有訊息送到裝置控制處理器16。響應於接受 命令的處理器16的操作,是傳統的技術。 現在參考圈2,顯示的是語言識別系統14的數位信號處 理器30的處理過程方塊流程圖。每個方塊代表—個不同的 處理功能,其可以儲存於ROM 32的程式副程序來實施。 語言識別牵涉到的四個基本步樣是:特性擷取,時間定位 ’圖樣相似性量測及決定策略。目前的語言識別系統使用 各種技術來執行這些基本步驟。每個方法有其性能及混合 成本。典型的語言識別策略是連續"掃瞄"輸入的語言數據 ,執行動態程式’計算一相似性量測或説出的語調和错存 的參考圈樣之間的·•距離",及決定是否此相似性量測足夠 接近一預期値,以宣稱此語調被識別。 繼續參考圈2,看到的是A/D轉換器28提供的語言樣本由 傳統的語言擷取器40所處理,以產生一語言特徵向量流, 典型的頻率是100向量/秒到200向量/秒。現在有各種信號 處理技術藉著有利於語言識別的時變參數來代表一語言信 號。適當的信號處理轉換例爲直接頻譜量測(居間的是一 -9 - 本紙張尺度適用中國國家標準(CNS )八4祕(21〇χ297公釐) --- -I ^^1 ^—^1 —^1-------- - (錆先閱讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 A7 _________ B7 五、發明説明(7 ) 組帶通濾波器或一離散傅立葉轉換),能量頻譜及一組逋 當的線性預測模型(LPC)參數(查照J.D. Markel和A.H. Gray, Jr.,"線性語言預測",Springer-Verlag, New York (1976))。 在圈2的解説性具體實施例中,每個向量包括10到30的語 言特徵成分,其語言特徵是有關於語言能量,增量(deUa, △)語言能量,能量頻譜係數及增量(delta, Δ )能量頻譜係 數。特徵向量流經由傳統終端點偵測器42所處理,其偵測 器決定語言中的語調起點與終點。終端點偵測器的輸出包 括有限的語言向量序列,其中每個向量序列對應到單一個 語調。 在特徵擷取/終端點偵測之後,下個基本步驟是一相似性 量測的計算,其相似性量測是介於一儲存參考和擷取自語 調的時間標準化(time-normalized)參數之間。最後,假設 器43接收輸出自終端點偵測器42的語言向量序列,且產生 一有關言辭内容的假設。在這種情況下,當片語模型參數 方塊44指示時,假設器43使用片語的HMM模型,其片語 參數被儲存起來,當背景模型參數方塊45指示時,假設器 43使用HMM背景模型,其參數被儲存起來。名詞"背景"指 的是靜止、雜音或任何不是命令片語的語言。實質上,這 些模型全都位於圈1的HMM參數記憶體36中。 假設器43製造兩種假設。第—種假設(被稱爲"背景假設,,) 假設特徵向量序列共包括背景。第二種假設(被稱爲"片語 假設”)假設特徵向量序列包括一個命令字,可能有背景在 之前或之後。對這二個假設的每一個而言,假設器應用一 -10- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) ~ (請先閱讀背面之注意事項再填寫本頁) *vs 經濟部中央標準局員工消費合作社印製 A7 _____B7 五、發明説明(8 ) 個傳統動態程式最佳化程序,如Viterbi解碼(或計算) (Viterbi decoding (or scoring)),其程序決定最可能的假設 及一個此假設的估計可能性的相對數値(或分數〉。 此外,動態程式程序產生一些額外的片語假設參數,其 參數被稱爲”匹配參數"。最可能片語假設期望片語期間和 對應於最可能片語假設的語調的假設器決定之片語期間, 兩個片語期間的差異產生第一匹配參數。最可能假設的期 望HMM狀態期間和假設器43決定的狀態期間,兩者之間 r 的差的絕對値平均,產生第二匹配參數。最佳片語假設和 次佳片語假設,兩者的最可能假設的可能性分數之差產生 第三匹配參數。如熟知技術者所能輊易探知的,使用在產 生匹配參數中的數據是可獲得作爲傳統採用HMMs和 Viterbi計算的語言識別處理過程一部分。 假設器43的輸出包括,一最可能片語假設;一相對應的 分數,其是片語假設可能性估計和背景假設可能性估計的 對數差;和匹配參數。確認器46接收假設器43的輸出,並 且檢查每個匹配參數是否在一相對應的預定範固之内。確 認器檢查第一匹配參數是否在-1/2到1之間的範園内。確認 器46檢查第二匹配參數是否在1〇〇毫秒的範困内。確認器 也檢查第三匹配參數是否在最佳假設分數的百分之十的範 圍内(任何這些範圍可變動以適應特殊的操作環境)。如果 匹配參數是在預定的範固内,確認器會將此假設及其個別 分數送至決定器47。否則,此假設會被否決。 決定器47決定是否接受或否決最可能片語假設。如果假 -11 - 本紙張尺度適用中國國家標率(CNS ) A4規格(210'乂297公釐1 '~~' I I I I I ^ ^ I I n 訂 I I I I I A {請先閲讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 A7 ———_____ B7_ 五、發明説明(9 ) 設是被決定器47接受,此假設就被報告到圖1的裝置控制 處理器16。決定器47作其決定的方法可解釋爲圖3的方塊 流程圖。 圖3的流程圈開始於步驟5〇,其中接收到的是假設片語 及其相對應分數。根據本發明的簡化具體實施例,控制是 專注於方塊52,其中門限T是設爲數個儲存在記憶體中的 固定値ΤΙ,T2,T3,T4或T5中的一個,其記憶體可爲 RAM 34或ROM 32。在正常的情況下’對一個”普通"的使 用者而言,在傳統的方式中,T3是一個運作得很好的内定 値。T2和T1値是選擇來獲得一增加的正向識別可能性(如 20%及40%分別相對於内定値的設定的更高機率),代價是 錯誤正向警告的增加,而T4和T5値是選擇來獲得一減少的 正向識別機率(如-15%及-30%,分別相對於内定値的設定) ,代價是錯失命令的增加。對應於所選擇的識別準則的値 設定爲Ts,且和獲得的假設分數作比較(方塊5 4)。如果分 數超過Ts,假設就會被接受(方塊56)。如果分數就會被否 決(方塊58)。如方塊60所指示的,接受/否決的決定會以傳 統的方式輸出爲裝置控制處理器16所用。 在本發明的更複雜具體實施例中,從數個準則組中選擇 一組門限或準則組,在方塊5 2所表示的操作中,每組準則 相較於内定的一組準則,使得一個命令更可能或更不可能 被識別,其取決於所選的特別組別。關於此事,要注意的 是’由於輸入字被識別成產生最大可能性的模型,藉著計 算以每個儲存字模型來產生一未知輸入工作圏樣之可能性 -12- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) --------,衣------訂------《I (請先閱讀背面之注意事項再填寫本頁) 10 、發明説明( ’ p以το成HMM單字識別。模型的正確性可被如下的準則 影響,如語調終端點的位置,語調持續期間,及每個敘述 中的訊枢(frames)數目。在傳統的方法中,這些準則的每 個叩個別依照使用者輸入的選擇來調整,以便達成一增加 的識別可能性’代價是就普通使用者而言’更頻繁的錯誤 正向結果,或是就少數使用者而言,要有較大的正確性, 代價就是一減少的識別可能性。每個準則的内定値以傳統 的方式最佳化’在正常的環境下提供普通的使用者最佳的 結果,其内定値可在缺乏輸入使用者選擇的情沉下使用。 藉由額外的例子,其中電訊裝置1〇配置成無線電話,語 s識別系統14藉著來自裝置控制處理器14的信號,可從命 令識別模式切換成播號模式,其表示使用者已開啓一撥號 程序。此撥號程序可藉著按一按鍵按鈕或説出一啓動撥號 操作的命令片語(如”撥號來開啓,在這個模式中,識別 器14使用名字片語(name phraseswHMMs(而不是上述命令 識別模式中的命令片語),其令每個名字片語與一相對應 的電話號碼有關。這樣的名字片語HMMs和相關的電話號 碼是儲存於記憶體34中。如果識別器14接受名字片語的語 調,表示名字片語識別已接受的訊息就送到裝置控制處理 器16。裝置控制處理器16然後撥與已識別的名字片語有關 的電話號碼,並通知使用者名字已正確識別。然而,如果 語言識別器14否決語調,它依然送—訊息到裝置控制處理 器16,表示語調已被否決。裝置控制微處理器然後提醒使 用者重複此語調。藉著在一適當聲音訊息的音頻重製之後 ^ ^------訂------《丨 (請先閱讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印裝 -13-
A7 B7 五、發明説明(·η ) 的不同單音,可完成此通知和提醒。 從上述可以容易探知的是,本發明並不限於上述提出作 爲例子的具體實施例,而可在後附之申請專利範圍所定義 的延伸保護範圍内,以各種方式修改。 --------,衣------訂------4 丨 (請先閲讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 -14- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐)
Claims (1)
- Α8 Β8 C8 D8 τ、申請專利範圍 1 種語言識別器裝置,用以基於一語調來識別一個至少 包括一個單字的片語,此裝置的特徵爲: —選擇模組2 6,用以從數個識別準則的儲存等級之一 中’選擇至少一個識別準則,對一給定之語調,每個儲 存等級聯想到一相對應識別機率; —比較器模組43,對於選擇模組的反應迅速,用以決 定對應於一最匹配之語言模型的相似性度量,是否滿足 所選擇的識別準則;及 —識別器模組47,當所選擇的識別準則能滿足時,用 以將語調識別爲對應於該最匹配之語言模型的片語。 2_如申請專利範圍第1項的裝置,其特徵爲一語言模型反 映一個或多個預定字。 3·如申請專利範困第2項的裝置,其特徵爲一預定字包括 —使用裝置之一命令字。 4·如申請專利範園第2項的裝置,其特徵爲一使用裝置。 5. 如申請專利範固第4項的裝置,其特徵爲此使用裝置是 —具電話。 6. 如申請專利範圍第4項的裝置,其特徵爲此使用裝置是 —回答裝置。 7 ·如申請專利範固第2項的裝置,其特徵爲每個識別準則 包括一門限,及其中比較器模組是將對應於該最匹配之 語言模型的相似性度量和所選擇的準則組之C限作比較 〇 8_如申請專利範固第7項的裝置,其特歡爲該識別準則之 -15 * 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X25»7公釐〉 (請先閲讀背面之注意事項再填寫本頁) 訂 經濟部中央標準局員Η消費合作社印製 A8 B8 C8經濟部中央標準局員工消費合作社印製 错存等級包括一内定等級,在正常的情況下被最佳化以 作一個普通使用者之用,至少有一個等級的識別機率大 於該内定等級,及至少有一個等級的識別機率小於該内 定等級,且其中選擇裝置可由使用者所操作,以選擇諸 識別準則等級之一。 9. 一種型式包括一麥克風12的電訊裝置,該電訊裝置的特 徵爲: —語言識別1 4 ’用以基於一語調來識別一個包括至少 一個字的片語,此語言識別器包括: 一選擇模組2 6,用以從數個識別準則的儲存等級之一 中’選擇至少一識別準則,每個儲存等級是有闞於—個 給定語調的一相對應識別機率; —比較器模組43,響應於用以選擇之選擇模组,用以 決定對應於一最匹配的語言模型的一相似性度量,是否 滿足所選擇的準則;及 —裝置控制電路16,藉該語言識別器響應於一語調之 識別。 10_如申請專利範圍第9項的電訊裝置,其特徵在於,該裝 置控制電路16是一電話電路,用以提供反應一語詞識別 的電話運作。 11.如申請專利範固第1〇項的電訊裝置,其特徵在於: —無線電收發訊機;及 —音頻處理器,用以作爲麥克風和電話電路,兩者與 收發訊機間的界面,此音頻處理器響應於電話電路提供 -16- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 1111Λ衣 訂— I ^I » f請先閱讀背面之注意事項再填寫本頁} ABCD 六、申請專利範圍 之諸控制信號。 12_如申請專利範固第10項的電訊裝置,其特徵在於該裝置 控制電路是一回答機器電路,用以音頻重製儲存之訊息 ,來響應一語調的識別。 13· —種基於一語調識別包括至少一個字的片語之方法,此 方法之特徵爲下列步驟: 將此語調和一個或多個語言模型作比較,以決定每次 比較之一相似性度量; 第一個決定步驟,基於在該比較步驟中獲得的一個或 多個相似性度量,決定那一個語言模型最匹配此語調; 從數個識別準則儲存等級之一中,選擇至少一個識別 準則,對於一給定的語調,每個儲存等級是有關於一相 對應的識別機率; 第二決定步樣’決定對應於最匹配之語言模型的相似 性度量,是否滿足所選擇的識別準則;以及 當所選擇的識別準則是被滿足時,將此語調識別爲對 應於該最匹配之語言模型的片語。 (請先閲讀背面之注意事項再填寫本頁) 、1T 經濟部中央標準局員工消費合作社印製 -17- 本紙張尺度適用中國國家標準(c叫八4祕(21〇χ297公釐了
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US50968195A | 1995-07-31 | 1995-07-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW299437B true TW299437B (zh) | 1997-03-01 |
Family
ID=24027660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW085109041A TW299437B (zh) | 1995-07-31 | 1996-07-24 |
Country Status (6)
Country | Link |
---|---|
US (1) | US5960393A (zh) |
EP (1) | EP0757342B1 (zh) |
JP (1) | JPH09106296A (zh) |
CA (1) | CA2180392C (zh) |
DE (1) | DE69614789T2 (zh) |
TW (1) | TW299437B (zh) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3761937B2 (ja) * | 1995-09-18 | 2006-03-29 | キヤノン株式会社 | パターン認識方法及び装置及びコンピュータ制御装置 |
US6167252A (en) * | 1996-08-27 | 2000-12-26 | Nec Electronics, Inc. | Security for a mobile or personal communications device having an identification code |
DE19635754A1 (de) * | 1996-09-03 | 1998-03-05 | Siemens Ag | Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung |
KR19990087167A (ko) * | 1996-12-24 | 1999-12-15 | 롤페스 요하네스 게라투스 알베르투스 | 음성 인식 시스템 훈련 방법 및 그 방법을실행하는 장치,특히, 휴대용 전화 장치 |
FI972723A0 (fi) * | 1997-06-24 | 1997-06-24 | Nokia Mobile Phones Ltd | Mobila kommunikationsanordningar |
GB9822931D0 (en) * | 1998-10-20 | 1998-12-16 | Canon Kk | Speech processing apparatus and method |
US6374221B1 (en) * | 1999-06-22 | 2002-04-16 | Lucent Technologies Inc. | Automatic retraining of a speech recognizer while using reliable transcripts |
JP4520619B2 (ja) * | 1999-10-29 | 2010-08-11 | パナソニック株式会社 | 音声認識入力音声の音程正規化装置 |
CN1141698C (zh) * | 1999-10-29 | 2004-03-10 | 松下电器产业株式会社 | 对输入语音进行语音识别的音程标准化装置 |
US6594630B1 (en) * | 1999-11-19 | 2003-07-15 | Voice Signal Technologies, Inc. | Voice-activated control for electrical device |
FR2802690A1 (fr) * | 1999-12-17 | 2001-06-22 | Thomson Multimedia Sa | Procede et dispositif de reconnaissance vocale, dispositif de telecommande associe |
US7099855B1 (en) * | 2000-01-13 | 2006-08-29 | International Business Machines Corporation | System and method for electronic communication management |
US8290768B1 (en) | 2000-06-21 | 2012-10-16 | International Business Machines Corporation | System and method for determining a set of attributes based on content of communications |
US9699129B1 (en) | 2000-06-21 | 2017-07-04 | International Business Machines Corporation | System and method for increasing email productivity |
US6408277B1 (en) | 2000-06-21 | 2002-06-18 | Banter Limited | System and method for automatic task prioritization |
KR100349656B1 (ko) * | 2000-12-20 | 2002-08-24 | 한국전자통신연구원 | 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및그 방법 |
US7644057B2 (en) | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
JP2003091299A (ja) * | 2001-07-13 | 2003-03-28 | Honda Motor Co Ltd | 車載用音声認識装置 |
JP2003108187A (ja) * | 2001-09-28 | 2003-04-11 | Fujitsu Ltd | 類似性評価方法及び類似性評価プログラム |
US7013276B2 (en) * | 2001-10-05 | 2006-03-14 | Comverse, Inc. | Method of assessing degree of acoustic confusability, and system therefor |
EP1575031A3 (en) * | 2002-05-15 | 2010-08-11 | Pioneer Corporation | Voice recognition apparatus |
KR20040044257A (ko) * | 2002-11-20 | 2004-05-28 | (주)지에스텔레텍 | 화자인식을 이용한 통신단말기용 보안방법 및 그 장치 |
US7389230B1 (en) | 2003-04-22 | 2008-06-17 | International Business Machines Corporation | System and method for classification of voice signals |
US8495002B2 (en) | 2003-05-06 | 2013-07-23 | International Business Machines Corporation | Software tool for training and testing a knowledge base |
US20050187913A1 (en) | 2003-05-06 | 2005-08-25 | Yoram Nelken | Web-based customer service interface |
US7986974B2 (en) * | 2003-05-23 | 2011-07-26 | General Motors Llc | Context specific speaker adaptation user interface |
GB0327416D0 (en) * | 2003-11-26 | 2003-12-31 | Ibm | Directory dialler name recognition |
AT414283B (de) * | 2003-12-16 | 2006-11-15 | Siemens Ag Oesterreich | Verfahren zur optimierung von spracherkennungsprozessen |
US7065343B2 (en) * | 2004-01-30 | 2006-06-20 | Lucent Technologies Inc. | Method and system for synchronization of network-based voicemail and multimedia mail |
US7580837B2 (en) * | 2004-08-12 | 2009-08-25 | At&T Intellectual Property I, L.P. | System and method for targeted tuning module of a speech recognition system |
WO2008024800A2 (en) * | 2006-08-21 | 2008-02-28 | Western Slope Utilities, Inc. | Systems and methods for swab transport in pipeline rehabilitation |
US20090063148A1 (en) * | 2007-03-01 | 2009-03-05 | Christopher Nelson Straut | Calibration of word spots system, method, and computer program product |
US8725512B2 (en) * | 2007-03-13 | 2014-05-13 | Nuance Communications, Inc. | Method and system having hypothesis type variable thresholds |
WO2010108033A1 (en) * | 2009-03-18 | 2010-09-23 | Inxile Entertainment, Inc. | Gaming voice reaction system |
CN113945265B (zh) * | 2019-04-30 | 2024-08-27 | 阿波罗智联(北京)科技有限公司 | 一种多声音区域的音频隔离度检测方法、装置及系统 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4297528A (en) * | 1979-09-10 | 1981-10-27 | Interstate Electronics Corp. | Training circuit for audio signal recognition computer |
US4319085A (en) * | 1980-04-08 | 1982-03-09 | Threshold Technology Inc. | Speech recognition apparatus and method |
US4394538A (en) * | 1981-03-04 | 1983-07-19 | Threshold Technology, Inc. | Speech recognition system and method |
JPS5834498A (ja) * | 1981-08-26 | 1983-02-28 | 株式会社東芝 | 音声認識方式 |
JPS5965899A (ja) * | 1982-10-08 | 1984-04-14 | トヨタ自動車株式会社 | 車両用音声認識方式 |
IT1160148B (it) * | 1983-12-19 | 1987-03-04 | Cselt Centro Studi Lab Telecom | Dispositivo per la verifica del parlatore |
JPS6173200A (ja) * | 1984-09-18 | 1986-04-15 | 株式会社リコー | 音声認識装置 |
JPS61238100A (ja) * | 1985-04-16 | 1986-10-23 | 株式会社日立製作所 | 音声入出力装置 |
JPS6344699A (ja) * | 1986-08-11 | 1988-02-25 | 日本電信電話株式会社 | 音声認識装置 |
JPS63169699A (ja) * | 1987-01-07 | 1988-07-13 | 日本電信電話株式会社 | 音声認識装置 |
JP2644494B2 (ja) * | 1987-06-08 | 1997-08-25 | 株式会社リコー | 不特定話者音声認識装置 |
JPH0197044A (ja) * | 1987-10-08 | 1989-04-14 | Nec Corp | 音声ダイヤル装置 |
EP0311414B2 (en) * | 1987-10-08 | 1997-03-12 | Nec Corporation | Voice controlled dialer having memories for full-digit dialing for any users and abbreviated dialing for authorized users |
JPH01108837A (ja) * | 1987-10-21 | 1989-04-26 | Nec Corp | 音声ダイヤル装置 |
US4870686A (en) * | 1987-10-19 | 1989-09-26 | Motorola, Inc. | Method for entering digit sequences by voice command |
US4984177A (en) * | 1988-02-05 | 1991-01-08 | Advanced Products And Technologies, Inc. | Voice language translator |
JP2553173B2 (ja) * | 1988-11-17 | 1996-11-13 | 沖電気工業株式会社 | 音声認識リジェクト閾値設定方式 |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5187735A (en) * | 1990-05-01 | 1993-02-16 | Tele Guia Talking Yellow Pages, Inc. | Integrated voice-mail based voice and information processing system |
US5365574A (en) * | 1990-05-15 | 1994-11-15 | Vcs Industries, Inc. | Telephone network voice recognition and verification using selectively-adjustable signal thresholds |
US5127043A (en) * | 1990-05-15 | 1992-06-30 | Vcs Industries, Inc. | Simultaneous speaker-independent voice recognition and verification over a telephone network |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
JPH05257493A (ja) * | 1992-03-13 | 1993-10-08 | Toshiba Corp | 音声認識装置 |
JP2709237B2 (ja) * | 1992-05-12 | 1998-02-04 | シャープ株式会社 | コードレス電話機 |
JPH0653015A (ja) * | 1992-07-28 | 1994-02-25 | Toto Ltd | ワンタッチ式アナログ情報入力装置および該装置に用いる可変抵抗器 |
GB9223066D0 (en) * | 1992-11-04 | 1992-12-16 | Secr Defence | Children's speech training aid |
JPH075890A (ja) * | 1993-06-16 | 1995-01-10 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話装置 |
TW323364B (zh) * | 1993-11-24 | 1997-12-21 | At & T Corp | |
JPH08235316A (ja) * | 1995-02-27 | 1996-09-13 | Fujitsu Ltd | 文字認識装置 |
US5684924A (en) * | 1995-05-19 | 1997-11-04 | Kurzweil Applied Intelligence, Inc. | User adaptable speech recognition system |
US5842161A (en) * | 1996-06-25 | 1998-11-24 | Lucent Technologies Inc. | Telecommunications instrument employing variable criteria speech recognition |
-
1996
- 1996-07-03 CA CA002180392A patent/CA2180392C/en not_active Expired - Fee Related
- 1996-07-23 DE DE69614789T patent/DE69614789T2/de not_active Expired - Lifetime
- 1996-07-23 EP EP96305372A patent/EP0757342B1/en not_active Expired - Lifetime
- 1996-07-24 TW TW085109041A patent/TW299437B/zh not_active IP Right Cessation
- 1996-07-31 JP JP8201536A patent/JPH09106296A/ja active Pending
-
1997
- 1997-06-12 US US08/873,613 patent/US5960393A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0757342A2 (en) | 1997-02-05 |
EP0757342B1 (en) | 2001-08-29 |
JPH09106296A (ja) | 1997-04-22 |
US5960393A (en) | 1999-09-28 |
CA2180392C (en) | 2001-02-13 |
DE69614789D1 (de) | 2001-10-04 |
EP0757342A3 (en) | 1998-06-17 |
CA2180392A1 (en) | 1997-02-01 |
DE69614789T2 (de) | 2002-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW299437B (zh) | ||
CA2117932C (en) | Soft decision speech recognition | |
US5842161A (en) | Telecommunications instrument employing variable criteria speech recognition | |
EP1019904B1 (en) | Model enrollment method for speech or speaker recognition | |
US5832063A (en) | Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases | |
AU667871B2 (en) | Voice controlled messaging system and processing method | |
US6925154B2 (en) | Methods and apparatus for conversational name dialing systems | |
US6691089B1 (en) | User configurable levels of security for a speaker verification system | |
TW557443B (en) | Method and apparatus for voice recognition | |
US5664058A (en) | Method of training a speaker-dependent speech recognizer with automated supervision of training sufficiency | |
CN110610707A (zh) | 语音关键词识别方法、装置、电子设备和存储介质 | |
US8032380B2 (en) | Method of accessing a dial-up service | |
US20080154596A1 (en) | Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack | |
EP3989217A1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
JP4643011B2 (ja) | 音声認識除去方式 | |
US20030163309A1 (en) | Speech dialogue system | |
WO2001020597A1 (en) | Automatic speech recognition to control integrated communication devices | |
JP6616182B2 (ja) | 話者認識装置、判別値生成方法及びプログラム | |
JP2001265385A (ja) | 話者認識装置 | |
JP2000122678A (ja) | 音声認識機器制御装置 | |
US20020120446A1 (en) | Detection of inconsistent training data in a voice recognition system | |
EP1385148B1 (en) | Method for improving the recognition rate of a speech recognition system, and voice server using this method | |
CN112151070B (zh) | 一种语音检测的方法、装置及电子设备 | |
CN116798408A (zh) | 语音识别方法、终端设备及计算机可读存储介质 | |
Thomson et al. | Automatic speech recognition in the Spanish telephone network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |