TW323364B - - Google Patents

Download PDF

Info

Publication number
TW323364B
TW323364B TW083102745A TW83102745A TW323364B TW 323364 B TW323364 B TW 323364B TW 083102745 A TW083102745 A TW 083102745A TW 83102745 A TW83102745 A TW 83102745A TW 323364 B TW323364 B TW 323364B
Authority
TW
Taiwan
Prior art keywords
speech
patent application
item
application scope
phrase
Prior art date
Application number
TW083102745A
Other languages
English (en)
Original Assignee
At & T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by At & T Corp filed Critical At & T Corp
Application granted granted Critical
Publication of TW323364B publication Critical patent/TW323364B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Description

A7 B7 五、發明説明(1 ) 發明部份 本發明一般係有關語音辨識部份,且例如,係有關偵 測連縯語音中之命令。 發明背景 —命令觀察系統爲一語音辨識系統,此監視一聲頻输 入波道,及每當输入中出現一特定之發話(命令)時,即 採取一預定之行動。输入可包含自由語音,雜音,音樂等 ,且大體並不符合任何既知之模型。對欲由該系統辨識之 每一命令,該系統保持一統計上之模型(例如,一樣板或 本藝中所热悉之一隱藏Markov模型HMM),此界定输 入之一特定節段中包含該命令發話之可能性。在其操作之 期間中,一普通命令觀察系統不斷產生有關現所觀察之输 入中之命令辭之本體及位置之推測(或假設)。此等假設 各由一各別之命令模型檢驗,並產生其各別可能性之評分 。此評分例如可由普通Viterbi評分法決定。如評分超 過一臨限T,則該假設視爲可接受,且實施其有關之行動 。否則,拒絕該推測。 經濟部中央標準局員工消費合作社印製 正確或虛僞假設之評分之可能率分佈取決於多種因素 ,包括揚聲器,轉換器,及聲音環境。臨限T通常設定充 分高,以確保在預期之操作情況之整個範圍上獲得可接受 低之僞警率。故此,在各種惡劣之情況中,正確假設之評 分具有超過該臨限之低可能率。故此,在此等情況中,該 系統似乎%忽視'使用者。降低該臨限可解決此等'"本地 83. 3.10,000 (請先聞讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公嫠) 經濟部中央標準局貝工消費合作社印製 A7 B7 五、發明説明(2 ) "問題,然而,亦會增加整個僞警率。故此,一般言之, 此法之用途有限。 發明概要 本發明之目的爲一語音辨識方法,適用於在一操作情 況範園中之命令観察,及其他應用上。本發明利用一事實 ,即當一第一次發出之片語未能由一特定之語音辨識系統 辨識時,骸語音辨識系統之使甩者可能重覆該同一片語( 不管有無提示)。故此,例如,假定一語音辨識系統逋用 於命令觀察上,一使用者可能發出一命令片語,此片語未 能獲得充分髙之評分,以便被接受爲一命令。在此情況下 ,使用者可能認爲該片語未被辨識,且隨後重覆該命令。 本發明之一例解實施例使用第一及箪覆發出之命令,以辨 識該命令。故此,可例如由比較連績發話之二評分及一較 低之臨限來達成辨識工作,此臨限較之單獨一發話上所用 者爲低。 依據本發明,發出之一片語(此可包含一或更多之辭 )由如下辨識:比較一第一發話及一或更多之語音模型, 以決定每一此比較之一相似性衡童;根據一或更多之相似 性衡置,決定何語音模型最密切匹配該第一發話:決定與 最密切匹配語音模型相對應之相似性衡量是否滿足一第一 辨識檩準;比較一第二發話及最密切匹配之語音模型,以 決定一第二發話相似性衡量;決定第二發話之相似性衡量 是否滿足一第二辨識檫準;當第一及第二辨識檩準滿足時 本紙張尺度適用中國國家揉準(CNS ) A4規格(210X297公釐) 83. 3.10,000 (請先閱讀背面之注意事項再填寫本頁) -訂 A7 B7 圖4顯示由圖1 3^〇864 五、發明説明(3 ) ,根搛最密切匹配之語音模型,辨識該第二發話。 附圖簡述 圓1顯示本發明之一例解單胞電話機實施例。 圚2顯示圖1之語音辨識系統之數位信號處理器之處 理之方塊流程圖。 圖3顯示圖2之決定器方塊之處理之方塊流程圖。 之例解實施例所執行之辨識處理 之一例。 圖5顯示辨識蛊參數値及辨識器性能間之關係曲線。 (請先聞讀背面之注意事項再填寫本頁) 經濟部中央標準局貝工消費合作社印装 詳細說明 序言 爲求說明清楚,本發明之例解實施例以 方塊(包括標以'處理器'之功能方塊)來 此等方塊之功能可由使用共用或專用之硬髖 ,但'不限於能執行軟雅之硬髋。例如,圖1 之功能可由一單共用處理器提供。( '處理 用不應解釋爲專指能執行軟髖之硬馥。) 例解之實施例可包含數位信號處理器( ,諸如 AT&T DSP 或 DSP 3 2 C ; ROM),用以儲存執行下述操作之軟體; 憶器(RAM),用以儲存DSP結果。亦 型稹體(VLSI)硬體實施例,以及訂製 別功能 所示之 ,包括 所示之處理器 辭之使 含有個 顯示。 來提供
器'一 D S P 僅讀記 及隨意 可設置 之V L )硬體 憶器( 進出記 非常大 S I電 83. 3.10,000 本紙張尺度適用中國國家標準(CNS > A4規格(210X297公釐) 經濟部中央樣準局貝工消費合作社印製 328364 五、發明説明(4 ) 路與通用DSP結合。 例解之實施例 圖1顯示本發明之一例解資施例,此係有關使用語音 辨識之一單胞電話機。例解之單胞電話機包含一免手持之 微音器1 3,一語音辨識系統3,一電話控制處理器2及 有關之I/O周邊設備2 1、2 2,一聲頻處理器1,無 線電收發機1 4,一免手持揚聲器1 2,及手持話筒1 1 Ο 聲頻處理器1爲本藝中普通者,並在m話控制微處理 器2之控制下執行各種功能。例如,聲頻處理器1接收來 自話筒1 1,微音器1 3,及收發機1 4之聲頻输入信號 。此等信號各依需要由現行之單胞通信棵準(例如I S -5 4 )以及任何特定之電話系統需求處理。處理器1引導 聲頻输出信號至話筒1 1,免手持揚聲器1 2,及收發機 1 4。處理器1產生各種可聞信號,供引導使用者之用( 例如電話響鈴),及對收發機1 4所接收之控制信息(例 如忙線信號)解碼,俾由電話控制微處理器2使用。而且 ,聲頻處理器1對由電話擯制微處理器2所接收之信息解 碼爲聲頻信號,並發送該信號至收發機1 4。 電路控制處理器2亦可爲本藝中之普通型式。處理器 2控制單胞電話機之電話呼叫處理及一般操作。處理器2 接收來自鍵墊2 1,語音辨識系統3,及聲頻處理器1之 輸入,並發送控制指令給顯示器2 2,聲頻處理器1,及 ----------^------訂------線f I V - (請先閲讀背面之注$項再填寫本頁) 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 83. 3.10,000 經濟部中央標準局貝工消費合作社印製 A7 B7 五、發明説明(5 ) 語音辨識系統3。語音辨識系統3對電話控制微處理器里 現如一控制输入來源,與鍵墊2 1相似。電話控制微處理 器2可由發送適當之指令而改變語音辨識系統之操作模式 ,如下述。 語音辨識系統3包含一普通之類比至數位(A/D) 變換器31,此變換由微音器13所拾起之聲頻信號爲一 數位樣品流:一數位信號處理器3 2,諸如AT&T DSP 16A,此處理由A/D變換器3 1所產生之數 位信號樣品;一 R0M3 3,此含有由數位信號處理器 3 2所執行之程式指令(閱圖2及3 ) :— HMM參數記 憶器35 (此爲不消滅之記憶器,諸如EEPROM, ROM,閃爍RAM,電池支持之RAM等),此含有隱 藏之Markov模式(HMM),用於欲辨識之片語上;及 —RAM3 4,其中儲存暫時計算之結果。在一些實施例 中,若干組成件31,32,33,34,35)可實際 置於同一電子晶方上。 HMM參數記憶器3 5儲存HMM,此相當於欲由系 統3辨識之片語。例如,此等片辭包含可用以操作電話機 之命令片語(例如·離鈎',^撥號#,*掛上'等), 以及欲呼叫之人或地之名字之電話號碼表(例如德利,麥 特,克來斯,家,等)。代表語音數字之模型(例如 ",、二,,……,'九"等)亦可儲存。此等模型之訓 練及儲存爲本藝內之普通者。 雖本發明以單胞電話機來作例解說明,但普通精於本 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 83. 3.10,000 ----------狀------訂------線一 I * (請先閲讀背面之注意事項再填寫本頁) 經濟部中央標準局負工消費合作社印製 A7 B7 五、發明説明(6 ) 藝之人士知道,該單胞電話機僅爲能使用本發明之語音辨 識能量之例解性裝置。其他之此類使用裝置例如包括普通 家庭及商業電話機,無線電話機,個人通信機,個人呼叫 裝置,個人資料組織機,電腦(諸如個人電腦),及電腦 終端機。而且,本發明可應用於電傳通訊網路基礎之服務 上,此由語音辨識裝置或系統進出或控制。 辨識模式 例解實施例之語音辨識系統3在數位僧號處理器3 2 之控制下依以下模式操作。此等模式可由電話控制處理器 2選擇。 命令觀察模式 語音辨識系統3由來自處理器2之一信號置於命令觀 察模式中,表示目前無由使用者所發動之m話控制操作待 辦。在此模式中,系統3檢査來自A/D變換器3 1之每 一進來之語音發話是否有出現HMM參數記憶器3 5中所 儲存之一或更多之HMM之命令片語。換言之,在命令觀 察模式中,辨識器使用記憶器3 5中與命令片語相當之 HMM。如系統3證實有此一命令片語出現,則接受使用 者之發話爲一命令。否則拒絕該發話。如語音辨識器3接 受該發話,則發送一信號至電話微處理器2表示偵得一特 定之命令片語。電話控制微處理器2,表示偵得一特定之 命令片語。電話控制微處理器2然後發動該命令有關之操 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 83. 3.10,000 I 款 ————— —訂 n 線 一 I (請先聞讀背面之注意事項再填寫本頁) pfS64_^_ 五、發明説明(7 ) 作(例如掛上)。如發話被拒絕,則無信息送至處理器2 。處理器2反應接受之命令之操作在本藝內爲普通者。 撥號模式 語音辨識系統3由來自處理器2之一信號置於撥號模 式,表示使用者已發動一撥號程序。此撥號程序可由按下 一鍵墊鈕或由說出一命令片語(例如%撥號^ )發動,此 引起撥號操作。在此模式中,辨識器3使用名字片語之 HMM (而非命令觀察模式中之命令片語),其中,每一 名字片語與一對應之電話號碼相關連。此名字片語HMM 及所觸之電話號碼儲存於記億器3 5中。 如口發之一名字片語爲辨識器3所接受,則表示已接 受一名字片語之辨識之一信息發送至處理器2。電話控制 處理器2然後撥發經辨識之名字片語有關之電話號碼,並 告知使用者該名字已正確辨認。 經濟部中央揉準局負工消費合作社印製 如語音辨識器3拒絕一發話,仍發送一信息至電話控 制微處理器2,表示拒絕一發話。電話控制微處理器然後 提示使用者重覆該發話。該告知及提示普通在放出一適當 之語音信息後由一清晰之音調執行。 辨識器操作 爲在圖1之例解實施例之範困中簡單討論本發明,本 發明將以辨識系統3在命令模式中之方式提出。精於本藝 之普通人士明瞭,由本討論所例解之本發明可應用於撥號 83.3.10,000 (請先閲讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家樑準(CNS > A4規格(210X297公釐) 經濟部中央標準局員工消費合作社印製 A 7 B7 五、發明説明(8 ) 模式中之辨識器操作。 圖2爲由語音辨識系統3之數位信號處理器3 2所執 行之處理之方塊流程圖。該圚中之方塊各包含一不同之處 理功能,此普通以R0M3 3中所儲存之程式之次常式資 施0 依搛該圖,由A/D變換器3 1所提供之語音樣品由 普通特色抽取器4 0處理,以產生語音特色之一向量流, 普通速率爲5 0至1 5 0向量/秒。此等向量各包含語音 特色之1 0至3 0組成份,與語音能置,語音能量增量, 對數倒頻譜係數,及對數倒頻譜係數增置有關。 該特色向置流由普通端點偵測器4 2處理,此決定語 音中所藏之發話之起點及終點。端點偵測器輸出包含有限 之特色向量序列,其中,毎一向量序列包含一單發話。 假設器4 3接收此等特色向置序列,並產生有關其言 辭內容之假設。在如此進行中,假設器使用片語之HMM 模型,其參數儲存於片語模型參數方塊4 4中;及一 HMM背景模型,其參數儲存於背景模型參數方塊4 5中 。背景'一辭指靜寂,雜音,或並非命令片語之任何語 音。所有此等模型實際置於圖1之HMM參數記憶器3 5 中 Ο 假設器4 3作二式假設。第一式假設(稱爲 ' 背景假 設# )假定該特色向量序列僅包含背景。第二式假設(稱 爲 '片語假設假定該特色序列包含一命令辭,可能後 或前帶有背景。對此二假設,假設器各實施一普通動態程 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 83. 3.10,000 -----------敌'------訂------線I I A (請先閲讀背面之注意事項再填寫本頁) 11 經濟部中央標準局員工消費合作社印製 A7 B7 五、發明説明(9 ) 式最佳化程序,諸如Viterbi解碼(或評分),此決定 該式之最可能假設,及該假設之估計可能性之一對應數値 (或評分)° 而且,該動態程式程序產生該片語假設之一些額外參 數,稱爲%匹配參數'。一第一匹配參數由製造最可能片 語假設之一預期片語持績時間及由假設器對該最可能片語 假設之對應之發話所決定之片語持績時間之間之差所產生 。一第二匹配參數由製造最可能假設之預期之HMM狀態 持績時間及由假設器4 3所測定之狀態持縯時間之間之差 之絕對値之平均値所產生。一第三匹配參數由製造最佳片 語假設及次佳片語假設之最可能假設之相似性評分間之差 所產生。如精於本藝之普通人士所熟悉,用以產生匹配參 數之資料可作爲使用例如HMM及Viterbi評分之普通 語音辨識程序之一部份提供。 假設器43之輸出包含(i )最可能片語假設,(i i ) 一對應之評分,此爲片語假設相似性估計及背景假設相似 性估計之記錄之差;及(i i i)匹配參數。 鑑定器4 6接收假設器4 3之输出,並檢査每一匹配 參數是否在對應之規定範園內。鑑定器4 6檢査第一匹配 參數是否在一1/2至1之範圍內。鑑定器4 6檢査第二 匹配參數是否在1 〇 〇ms之範圍內。鑑定器4 6並檢査 第三匹配參數是否在最佳假設評分之10 %以內。(此等 範圍任一均可改變,以適應特定之操作環境。)。如各匹 配參數均在範圍內,則鑑定器4 6通過該假設及其各別評 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 83. 3.10,000 ----------故.丨— (請先聞讀背面之注意事項再填寫本頁) 訂 線一 -12 - 經濟部中央標準局貝工消費合作社印製 Α7 Β7 五、發明説明(10 ) 分至決定器47。否則,拒絕該假設。 決定器4 7決定是否接受或拒絕該最可能片語假設。 如決定器4 7接受設假設,則呈報設假設至圖1之電話控 制處理器2 (在名字撥號模式中,亦呈報拒絕)。決定器 4 7之操作方法利用I —片語之注意時程'之構想。 決定器4 7以不同之方式處理一最可能片語假設,此 視該片語是發生於該片語之一注意時程之內或外而定。一 注意時程爲一時段,開始於一預定時刻,並具有一預定之 持績時間。當最可能假設之評分超過其一臨限時,建立一 注意時程。該時程之情形爲,在該時程中,必窬收到同一 片語之第二次發出,俾由本實施例辨識(當第二次發話之 評分亦超過該臨限時)。起先,並不界定注意時程。在決 定器4 7操作之過程中,可建立,撤消,或終止特定片語 之各種注意時程。決定器4 7作決定及其界定注意時程之 方法在圖3之流程圖中說明。 圖3之流程圖開始於步驟5 0,在此接收假設之片語 及其對應之評分。步驟5 2檢査假設之片語是否在一對應 之注意時程內發生。如爲是,則控制指向方塊5 3,在其 中,一臨限設定於一固定値T2 。如爲否,則控制指方方 塊5 1,在其中,臨限Τ設定於一固定値!^ 。例如,
Tl > Τ 2 ° 步驟5 4比較假設之片語之評分及臨限Τ。如假設之 評分大於Τ,則控制移至步驟5 5,此接受該假設。控制 然後移至步騍5 7,此消除去該假設之片語之任何現有之 本紙張尺度適用中國國家標準(CNS ) Α4规格(210X297公釐) 83.3.10,000 ----------狀 _ (請先聞讀背面之注意事項再填寫本頁) 訂 線一 -13 - 經濟部中央標準局員工消費合作社印製 A7 B7 五、發明説明(11 ) 注意時程。最後,步驟6 0產生一输出信號給處理器2, 表示接受該假設。 如該假設之評分不大於T,則控制移至步驟5 6,此 拒絕該假設。在此情形,控制移至步騍5 8,此決定是否 應對該假設之片語建立一注意時程。此由檢査該假設之評 分是否大於一臨限TA而行之。臨限TA代表一最低之可 信程度,在此以下時,不應嘗試接受該片語。例如,臨限 Τα可採取小於或等於Τ2之任一所瞽之値。如該假設之 評分大於Τα ,則控制移至步驟5 9。 步驟5 9對該假設之片語建立一注意時程,由設定該 時程之開始及終止時刻,並使片語本身與該時程相關連而 成。在例解之命令檢査模式中,開始及終止時刻設定於較 之系統3收到假設之命令片語時延後固定之時刻(在例解 之撥號模式中,開始及終止時刻可設定於較之發出氰話提 示要求使用者重覆输入時延後一固定時刻)。在例解之命 令觀察模式中,經建立之一注意時程開始於1秒之延遲及 終止於5秒之延遲。 延遲時間可由系統設計者依以下之考慮設定。假定片 語假設爲正確(即正確辨識爲語音片語),但仍爲辨識系 統3所拒絕,則該系統之使用者一旦知道該系統並不接受 該輸入時,彼可能重覆該片語。注意時程應界定爲使用者 在該假定情況下可能重覆該命令之時間。在例解之命令觀 察模式中,要注意時程開始前之延遲時間應爲該系統對接 受之發話反應之時間加上使用者需注意該系統未能反應之 本紙張尺度適用中國團家標準(CNS > Α4規格(210Χ297公釐) 83.3.10,000 (請先閣讀背面之注意事項再填寫本頁) 訂 線一 -14 - 經濟部中央樣準局貝工消费合作社印製 B7 五、發明説明(12 ) 時間。在例解之名字撥號模式中,該延遲時間應設定等於 使用者對提示重覆該名字之估計反應時間。任一注意時程 之持縯時間應涵蓋使用者人群間之各不同之反應時間。 例如,步驟5 9可用以建立數個注意時程,同時對不 同之片語或相同之片語資施。如由於處理之複雜性而不需 要此情況,則步驟5 9可修改,俾當一新時程建立時,撤 消所有先前建立之注意時程。 如步驟5 8之決定爲否,則控制到達步驟6 0 ;否則 ,如決定爲是,則控制通過步驟5 9後到達步驟6 0。在 任一情形,步驟6 0產生一输出信號,表示拒絕該假設。 僅在撥號模式中,拒絕信號亦送至處理器2。 圖2之決定器4 7之操作另可由檢討圖4所示之實例 而獲得明瞭。在本實例中,該系統在命令觀察模式中。例 如,該系統經設計來辨識一單命令(例如 '離鈎')。圖 4之水平軸線表示時間,而垂直軸線則表示辨識評分。臨 限丁: * T 2 ,TA顯示爲水平虛線。注意時程顯示爲在 時間軸線下之水平節段。單命令之每一假設顯示爲垂直節 段。節段之高度表示設假設之評分。垂直節段之水平位置 代表發話發生之時刻。經接受之命令假設在其頂端由箭頭 標不0 如顯示於圖4,假設Α並不在一對應之注意時程內( 尙未發生用以界定一注意時程之情事)。依據圖3之步驟 52-54 >Τ = Τι ,評分>1^ ,及該假設被接受。 假設B亦不在一對應之注意時程內。故此,依據步驟 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公嫠) 83. 3.10,000 ----------^------訂------線一 I a' (請先閱讀背面之注意事項再填寫本頁) -15 - A7 B7 經濟部中央標準局員工消費合作社印製 五、 發明説明 ( 13 ) 1 I 5 2 及 5 1 9 T = T 1 Ο 然 而 9 由 於假設 B 之評 分 並 不 超 1 | 過 T 1 9 故 假 設 B 被 拒 絕 ( 閱 步 驟 5 4及 5 6 ) 〇 然 而 9 1 1 由 於 假 設 B 之 評 分 超 過 T A 9 故 建 立 一注 意 時程 I B ( 閱 1 I 請 1 步 騄 ( 5 8 — 5 9 ) 0 先 聞 1 I 程 讀 1 •假 設 C 發 生 於 前 對 命令 片 語 所 建 立之 對 應注 意 時 背 面 1 I I B 內 0 故 此 9 依 據 步 驟 5 2 及 5 3 ,T 二 T 2 0 由 於 該 乏 注 意 1 1 1 假 設 評 分 超 過 T 2 9 故 該 假 設 被 接 受 ,且 注 Μ時 程 I B 被 事 項 再 1 1 撤 消 ( 閱 步 驟 5 4 9 5 5 9 及 5 7 ; 注意 該 時程 I B 顯 示 % 寫 太 1 狀 如 其 建 立 時 者 假 設 C 之 接 受 在 接 受 時切 除 去I B ) 〇 頁 1 I 假 設 D 顯 示 發 生 於 原 注 意 時 段 I B內 0 然而 9 由 於 1 I I B 已 由 假 設 C 撤 消 9 故 不 管 時 程 I B 0 故 此, T = T 1 1 1 I ( 閱 步 驟 5 2 及 5 1 ) 〇 由 於假 設 D 之評 分 並不 超過 T 1 1 訂 9 故 假 設 D 被 拒絕 〇 然 而 9 由 於 其評 分超過 T A 9 故 建 立 1 1 注 意 時 程 I D ( 閱 步 踩 5 8 及 5 9 ) 0 1 | 假設 E 發 生 於注 意 時 程 I D 終 止 之後 〇 故此 , T — 1 | T 1 ( 依 據 步 騄 5 2 及 5 1 ) 9 由 於假設 E 之評 分 並 不 超 缕 過 T 1 9 故假設 E 被拒絕 ( 閱 步驟 5 4及 5 6 ) 〇 而 且 9 1 由 於 其 評 分 並 不 超 過 T A 9 故 並 不 建 立一 注 意時程 ( 閱 步 1 1 騍 5 8 ) 〇 1 | 臨 限 T 1 9 T 2 9 T A 之 特定値 可依據 手邊 之 辨 顆 工 1 作 選 擇 〇 例 如 9 正 常 化 之 臨 限 値如 下 :T 1 =2 • 5 9 1 1 I T 2 1 * 5 9 及 T A — 1 0 圖 5 顯 不有 關 決定命令觀察 1 之 臨 限 之 一 些 考 慮 〇 同 樣 之 考 慮 可 用 於撥 號 模式 上 〇 1 1 圖 5 顯 示 —~- 曲 線 ren 圖 9 其 中 9 主 軸 線表 示 該系 統 之 二 主 1 1 1 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 83.3.10,000 -16 - 經濟部中央標準局員工消費合作社印製 A7 B7 五、發明説明(14 ) 要性能參數。水平軸線表示假警率(每單位時間之假接受 數),及垂直軸線表示漏失偵測之可能率(即拒絕含有命 令片語之一發話之可能率)。由原點及點(Fc ,Me ) 所界定之方形區域代表可接受性能之區域。曲線Cl及η分 別描繪在靜寂及嘈雜環境中之系統性能。每一曲線上之毎 一點相當於在臨限Τα之特定値上之系統性能,假定Τα = 〇〇(即從未界定注意時程,故此恒Τ = ΤΑ )。各曲線 由實驗獲得,由含有命令片語之發話及不含命令片語之發 話之收集統計而得。 靜寂環境曲線g通過可接受性能區。故此,可選擇一 値1'1 ,俾該系統之性能烏可接受者。使Q上之點<31相 當於此Ti 。嘈雜環境曲線η並不通過可接受性能區。明 確言之,與所選之臨限Τα相當之點Ni具有一可接受假 警率,但一不可接受之高漏失偵測可能率。現可界定T2 及Τα ,俾在第二發出之命令辭中漏失偵測之可能率與在 靜寂情況下第一發出之命令辭之偵測之可能率相同,且該 系統之整個假警率與Να者相同。 假定D爲一注意時程之持績時間,及Να爲η上具有 坐標(Fa ,Μα )之點,俾FaD<<1 (故此,由一 假設所產生之一注意時程中之一時間點之可能率微不足道 ),及μα <<1 (故此,被拒絕之正確假設不產生一注 意時程之可能率微不足道)。在實際上,常可發現到此點 。N2選擇爲η上之一點,具有與(31相同之漏失偵測之 可能率。Τ2 ,ΤΑ選擇爲分別與Ν2 ,Να相對應之臨 本紙張尺度適用中國國家標準(CNS ) A4规格(210X297公釐) 83. 3.10,000 ----------狀------訂------線f I (請先聞讀背面之注意事項再填寫本頁) -17 - 經濟部中央標準局貝工消费合作社印製 〇^3864 五、發明説明(15 ) 限。如一正確之命令片語被拒絕,則幾乎確可界定一注意 時程。故此,在第二次附近中漏失偵測之可能率接近該 Qi 。如無命令片語,則注意時程之累稹持績時間相對於 語音之總持縯時間而言爲微不足道。故此,在幾乎整個時 間中均使用臨限丁1 ,且假警率與1^1者相同。 雖例解實施例之說明係有關並不隨欲辨識之片語而變 化之臨限値,但精於本藝之普通人士明瞭,可使用不同之 臨限來辨識不同之片語。一些辭或命令(即片語)對一使 用裝e可具有較其他辭或命令爲重要或深逮之影響。故此 ,可能僅當決定該辨識至較高之可信度時,分需辨識此' 較重要'之辭或命令。此較髙之可信程度可由使用較之用 於較不重要之片語上者爲高之辨識臨限來確保。 此構想亦可延伸至使用裝置操作之狀態上。即是,一 特定之片語在使用裝置在一第一狀態中時可具有一低度之 重要性,及在使用裝e在一第二狀態中時可具有一較高程 度之重要性。故此,辨識臨限可依語音辨識器所在之環境 (即使用裝置之狀態)設定。 在本發明之一些實施例中,一個以上之模型可與一單 片語對應(例如各別之模型用於不同之方言上)。在此情 形,一注意時程可由一模型之評分建立,而在該注意時程 內之一發話之接受則可根_同一片語之一不同模型(即不 同方言中之同一片語)之評分。 雖此處已顯示及說明本發明之一特定實施例,但應明 瞭本實施例僅爲例解可應用本發明之原理設計之許多可能 本紙張尺度適用中國國家標準(CNS > A4規格(210X297公釐) 83.3.10,000 ----------狄------訂------線| I (請先聞讀背面之注意事項再填寫本頁) -18 - 經濟部中央標準局員工消費合作社印製 A7 B7 五、發明説明(16 ) 之特定裝置。精於本藝之人士可依據此等原理設計出許多 不同之其他裝置,而不脫離本發明之精神及範圍。 狀 訂 線( I (請先聞讀背面之注意事項再填寫本頁) 83. 3.10,000 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -19 -

Claims (1)

  1. C8 D8 、申請專利範圍 附件1:第83102745號專利申請案 中文申請專利範圍修正本 民國8 6年8月修正 1.一種辨識發話片語的方法,該片語包含一或更多 之辭,方法包括以下步驟: 執行第一語音辨識程序,以試圖辨識片語之第一次發 話’此第一程序運用第一語音辨識標準,但造成辨識第一 發話之失敗; 建立容許接受該片語之另 如果在該時段中收到另一 識程序以試圖辨識該另一次發 音辨識標準較第一語音辨識標 2 ·如申請專利範圍第1 程序包含以下步驟: 一次發話的時段;及 次發話,便執行第二語音辨 話,該第二程序所運用之語 準更寬容。 項所述之方法,其中該第一 之比較,而爲每一 請 Λ 閲 讀 背 面 之 注 意 事 項 再 填 寫 本 頁 訂 經濟部中央標準局®C工消費合作社印製 根據第一發話與一或更多語音模型 語音模型決定一第一相似性衡量;及 判斷是否有任何第一相似性衡量滿 3·如申請專利範圍第2項所述之 音模型反映一或多個預定辭。 4 ·如申請專利範圍第3項所述之方法,其中該語音 模型還反映一聲音背景。 5 ·如申請專利範圍第2項所述之 辨識標準包含判定第一相似性衡量是否 足第一辨識標準。 方法,其中一個語r 方法,其中該第一 超過第一臨限值。 本紙張尺度逋用中國國家標準(CNS ) Α4規格(210X297公釐) 88. 8, 經濟部中央標準局員工消費合作社印製 ^^〇8β4 i ______ D8六、申請專利範圍 6 ·如申請專利範圍第1項所述之方法,其中該第二 程序包含以下步驟: 根據第二發話與一或更多語音模型之比較,而爲每— 語音模型決定一第二相似性衡量; 判斷第二相似性衡量何者滿足所述較寬容之語音辨識 標準;及 辨識第二發話爲與滿足較寬容辨識標準之特定第二相 似性衡量相對應的片語。 7 ·如申請專利範圍第6項所述之方法,其中該第一 辨識標準包含判定第一相似性衡量是否超過第一臨限值, 且其中該較寬容辨識標準包含判定第二相似性衡量是否超 過比第一臨限值低的第二臨限值。 8 ·如申請專利範圍第1項所述之方法,更包含將第 一發話與一反映聲音背景之模型予以比較的步驟。 9 ·如申請專利範圍第1項所述之方法,其中該片語 包含對一使用裝置之命令片語。 10.如申請專利範圍第1項所述之方法,另包括接 收第一發話之步驟,且其中,該預定時段開始於第一發話 之接收後之一預定時刻》 1 1 .如申請專利範圍第1項所述之方法,另包括發 出第二發話之提示的步驟,且其中,該預定時程開始於發 出該提示後之一預定時刻。 1 2 .如申請專利範圍第1項所述之方法,其中,該 片語相當於一孤立之辭。 (請先聞讀背面、之注意事項再填寫本頁) 本紙張尺度適用中國國家梂準(CNS ) A4規格(2丨0X297公釐) -2 - A8 B8 C8 D8 經濟部中央標準局貝工消費合作社印製 々、申請專利範圍 1 3 .如申請專利範圍第1項所述之方法,其中,第 一辨識標準係根據欲辨識之片語。 14.如申請專利範圍第1項所述之方法,其中,該 較寬容之辨識標準係根據欲辨識之片語。 1 5 .如申請專利範圍第1項所述之方法,其中,第 一辨識標準係根據使用裝置之狀態。 1 6 .如申請專利範圍第1項所述之方法,其中,該 較寬容之辨識標準係根據使用裝置之狀態。 1 7 .如申請專利範圍第1項所述之方法,其中,該 等步驟實施於電傳通訊網路上,以方便網路服務之操作。 18.如申請專利範圍第1項所述之方法,其中,該 等步驟實施於電腦上,以方便電腦之操作。 1 9 種辨識發話片語的設備,該片語包含一或更 多之辭,設備包含: 執行第一語音辨識程序,以試圖辨識片語之第一次發 話的裝置,該第一程序運用第一語音辨識標準; 建立容許接受該片語另一次發話的時段之裝置;及 如臬在該時段中收到另一次發話,便執行第二語音辨 識程序以試圖辨識該另一次發話的裝置,該第二程序所運 用之語音辨識標準較第一語音辨識標準更寬容。 2 0 ·如申請專利範圍第1 9項所述之設備,其中該 第一程序執行裝置包含: 根據第一發話與一或更多語音模型之比較,而爲每一 語音模型決定一第一相似性衡量的裝置;及 ----------^ II (請先閲讀背面之注意事項再填寫本頁) 、νβ 本紙張尺度逍用中國國家標準(CNS ) Α4規格(210X297公釐) A8 B8 C8 D8 32S864 六、申請專利範圍 判斷是否有任何第一相似性衡量滿足第一辨識檩準, 2 1 ·如申請專利範圍第2 0項所述之設備,其中一 個語音模型反映一或多個預定辭· 2 2 ·如申請專利範圍第2 1項所述之設備,其中該 語音模型還反映一聲音背景。 2 3 ·如申請專利範圍第2 0項所述之設備,其中該 第一辨識標準包含判定第一相似性衡量是否超過第一臨限 值。 2 4 ·如申請專利範圍第1 9項所述之設備,其中該 第二程序執行裝置包含: 根據第二發話與一或更多語音模型之比較,而爲每— 語音模型決定一第二相似性衡量的裝置; 判斷第二相似性衡量何者滿足所述較寬容之語音辨識 標準的裝置;及 辨識第二發話爲與滿足較寬容辨識標準之特定第二相 似性衡量相對應的片語之裝置。 2 5 ·如申請專利範圔第2 4項所述之設備,其中該 第一辨識標準包含判定第一相似性衡量是否超過第一臨限 值,且其中該較寬容辨識標準包含判定第二相似性衡量是 否超過比第一臨限值低的第二臨限值。 2 6 ·如申請專利範圍第1 9項所述之設備,更包含 將第一發話與一反映聲音背景之模型予以比較的裝置。 2 7 ·如申請專利範圍第1 9項所述之設備,其中該 片語包含對一使用裝置之命令片語* 本紙張尺度適用中國國家標準(CNS ) Μ規格(210X297公釐) (請先閎讀背面之注意事項再填寫本頁) 訂 經濟部中央標準局員工消費合作社印製 -4 - 經濟部中央標準局貝工消費合作社印策 32S864 i D8六、申請專利範圍 28.如申請專利範圍第19項所述之設備,另包括 接收第一發話之裝置,且其中,該預定時段開始於第一發 話之接收後之一預定時刻。 2 9 .如申請專利範圍第1 9項所述之設備,另包括 發出第二發話之提示的裝置,且其中,該預定時程開始於 發出該提示後之一預定時刻。 30.如申請專利範圍第19項所述之設備,其中, 該片語相當於一孤立之辭。 3 1 .如申請專利範圍第1 9項所述之設備,其中, 第一辨識標準係根據欲辨識之片語。 3 2 .如申請專利範圍第1 9項所述之設備,其中, 該較寬容之辨識標準係根據欲辨識之片語。 3 3 .如申請專利範圍第1 9項所述之設備,其中, 第一辨識標準係根據使用裝置之狀態。 3 4 .如申請專利範圍第1 9項所述之設備,其中, 該較寬容之辨識標準係根據使用裝置之狀態。 3 5 .—種電話機,包含: (1 ). 一微音器; (2)· —語音辨識器,與微音器連接,以供辨識一 發話片語,該片語包含一或更多之辭,該語音辨識器包含 執行第一語音辨識程序,以試圚辨識片語之第一次發 話*此第一程序運用第一語音辨識標準; 建立容許接受該片語另一次發話的時段之裝置;及 如果在該時段中收到另一次發話,便執行第二語音辨 ----------Y-------1T------4 (請先閱讀背面.之注意事項再填寫本頁) 本紙張尺度適用中國國家捸準(CNS ) A4规格(210X297公釐) 325364 | D8 々、申請專利範圍 識程序以試圖辨識該另一次發話的裝置,該第二程序所運 用之語音辨識標準較第一語音辨識標準更寬容;以及 (3)·—電話電路,用以反應該經辨識之第二發話 而提供電話機操作。 3 6 .如申請專利範圍第3 5項所述之電話機,另包 含: 一無線電收發機;及 聲頻處理裝置,用以介面連接微音器及電話電路 至收發機,該聲頻處理裝置反應由電話電路所提供之控制 信號。 3 7 .如申請專利範圍第3 5項所述之電話機,其中 ,該微音器爲免手持之微音器。 3 8 .如申請專利範圔第3 5項所述之電話機’其中 ,該微音器爲手持微音器》 3 9 .如申請專利範圍第3 5項所述之電話機,另包 含一無線電收發機,連接至該電話機,以提供無線電話通 信。 (請先聞讀背面.之注意事項再填寫本頁) 、\5 經濟部中央標準局貝工消费合作社印装 本紙張尺度適用中國國家標準(CNS ) A4規格(2ί〇Χ297公釐) 6
TW083102745A 1993-11-24 1994-03-30 TW323364B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US15809693A 1993-11-24 1993-11-24

Publications (1)

Publication Number Publication Date
TW323364B true TW323364B (zh) 1997-12-21

Family

ID=22566668

Family Applications (1)

Application Number Title Priority Date Filing Date
TW083102745A TW323364B (zh) 1993-11-24 1994-03-30

Country Status (8)

Country Link
US (1) US5737724A (zh)
EP (1) EP0655732B1 (zh)
JP (1) JP3363630B2 (zh)
KR (1) KR100321011B1 (zh)
CA (1) CA2117932C (zh)
DE (1) DE69426969T2 (zh)
ES (1) ES2156890T3 (zh)
TW (1) TW323364B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8655655B2 (en) 2010-12-03 2014-02-18 Industrial Technology Research Institute Sound event detecting module for a sound event recognition system and method thereof

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2180392C (en) * 1995-07-31 2001-02-13 Paul Wesley Cohrs User selectable multiple threshold criteria for voice recognition
US5903864A (en) * 1995-08-30 1999-05-11 Dragon Systems Speech recognition
US5950160A (en) 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
US6023676A (en) * 1996-12-12 2000-02-08 Dspc Israel, Ltd. Keyword recognition system and method
US6490561B1 (en) * 1997-06-25 2002-12-03 Dennis L. Wilson Continuous speech voice transcription
DE19754957A1 (de) * 1997-12-11 1999-06-17 Daimler Chrysler Ag Verfahren zur Spracherkennung
US6775652B1 (en) * 1998-06-30 2004-08-10 At&T Corp. Speech recognition over lossy transmission systems
FI116991B (fi) * 1999-01-18 2006-04-28 Nokia Corp Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin
JP2000244625A (ja) * 1999-02-23 2000-09-08 Nec Saitama Ltd 携帯電話機における音声認識起動方法及び音声認識携帯電話装置
US6374221B1 (en) 1999-06-22 2002-04-16 Lucent Technologies Inc. Automatic retraining of a speech recognizer while using reliable transcripts
US7158935B1 (en) * 2000-11-15 2007-01-02 At&T Corp. Method and system for predicting problematic situations in a automated dialog
AU2002246550A1 (en) * 2000-11-30 2002-08-06 Enterprise Integration Group, Inc. Method and system for preventing error amplification in natural language dialogues
US6785650B2 (en) * 2001-03-16 2004-08-31 International Business Machines Corporation Hierarchical transcription and display of input speech
GB2383459B (en) * 2001-12-20 2005-05-18 Hewlett Packard Co Speech recognition system and method
US7003158B1 (en) * 2002-02-14 2006-02-21 Microsoft Corporation Handwriting recognition with mixtures of Bayesian networks
KR20040001828A (ko) * 2002-06-28 2004-01-07 주식회사 케이티 음성인식 시스템에서 중복명칭 처리 방법
US20040158468A1 (en) * 2003-02-12 2004-08-12 Aurilab, Llc Speech recognition with soft pruning
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US8185400B1 (en) 2005-10-07 2012-05-22 At&T Intellectual Property Ii, L.P. System and method for isolating and processing common dialog cues
KR100738414B1 (ko) 2006-02-06 2007-07-11 삼성전자주식회사 텔레매틱스 환경에서 음성 인식의 성능을 향상시키기 위한방법 및 상기 방법을 수행하는 장치
JP5426363B2 (ja) * 2006-04-03 2014-02-26 ヴォコレクト・インコーポレーテッド 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム
US7899674B1 (en) * 2006-08-11 2011-03-01 The United States Of America As Represented By The Secretary Of The Navy GUI for the semantic normalization of natural language
US8725492B2 (en) * 2008-03-05 2014-05-13 Microsoft Corporation Recognizing multiple semantic items from single utterance
JP5024154B2 (ja) * 2008-03-27 2012-09-12 富士通株式会社 関連付け装置、関連付け方法及びコンピュータプログラム
JP5049930B2 (ja) * 2008-09-09 2012-10-17 株式会社日立製作所 分散型音声認識システム
US8965765B2 (en) * 2008-09-19 2015-02-24 Microsoft Corporation Structured models of repetition for speech recognition
US8386251B2 (en) * 2009-06-08 2013-02-26 Microsoft Corporation Progressive application of knowledge sources in multistage speech recognition
US8639513B2 (en) * 2009-08-05 2014-01-28 Verizon Patent And Licensing Inc. Automated communication integrator
EP2339576B1 (en) 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
JP5533042B2 (ja) * 2010-03-04 2014-06-25 富士通株式会社 音声検索装置、音声検索方法、プログラム及び記録媒体
US20150279354A1 (en) * 2010-05-19 2015-10-01 Google Inc. Personalization and Latency Reduction for Voice-Activated Commands
US9118669B2 (en) 2010-09-30 2015-08-25 Alcatel Lucent Method and apparatus for voice signature authentication
US9123339B1 (en) 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9093075B2 (en) 2012-04-20 2015-07-28 Google Technology Holdings LLC Recognizing repeated speech in a mobile computing device
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
DE112013001772B4 (de) * 2013-11-29 2020-02-13 Mitsubishi Electric Corporation Spracherkennungssystem
US9899021B1 (en) * 2013-12-20 2018-02-20 Amazon Technologies, Inc. Stochastic modeling of user interactions with a detection system
EP3100259A4 (en) * 2014-01-31 2017-08-30 Hewlett-Packard Development Company, L.P. Voice input command
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
WO2016039847A1 (en) * 2014-09-11 2016-03-17 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup
GB2535766B (en) * 2015-02-27 2019-06-12 Imagination Tech Ltd Low power detection of an activation phrase
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
KR102509821B1 (ko) * 2017-09-18 2023-03-14 삼성전자주식회사 Oos 문장을 생성하는 방법 및 이를 수행하는 장치
US10872599B1 (en) * 2018-06-28 2020-12-22 Amazon Technologies, Inc. Wakeword training
WO2020139121A1 (en) * 2018-12-28 2020-07-02 Ringcentral, Inc., (A Delaware Corporation) Systems and methods for recognizing a speech of a speaker
US11830486B2 (en) * 2020-10-13 2023-11-28 Google Llc Detecting near matches to a hotword or phrase

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE625775C (de) * 1933-09-20 1936-02-15 Briggs Mfg Co Elektrische Punktschweissmaschine
US4348550A (en) * 1980-06-09 1982-09-07 Bell Telephone Laboratories, Incorporated Spoken word controlled automatic dialer
US4489434A (en) * 1981-10-05 1984-12-18 Exxon Corporation Speech recognition method and apparatus
JPS5879300A (ja) * 1981-11-06 1983-05-13 日本電気株式会社 パタ−ン距離計算方式
US4618984A (en) * 1983-06-08 1986-10-21 International Business Machines Corporation Adaptive automatic discrete utterance recognition
NL8500339A (nl) * 1985-02-07 1986-09-01 Philips Nv Adaptief responderend systeem.
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US4827520A (en) * 1987-01-16 1989-05-02 Prince Corporation Voice actuated control system for use in a vehicle
FI97919C (fi) * 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
US5452397A (en) * 1992-12-11 1995-09-19 Texas Instruments Incorporated Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8655655B2 (en) 2010-12-03 2014-02-18 Industrial Technology Research Institute Sound event detecting module for a sound event recognition system and method thereof

Also Published As

Publication number Publication date
EP0655732A3 (en) 1997-06-18
JPH07199985A (ja) 1995-08-04
US5737724A (en) 1998-04-07
JP3363630B2 (ja) 2003-01-08
CA2117932C (en) 1998-12-15
EP0655732A2 (en) 1995-05-31
KR950015199A (ko) 1995-06-16
DE69426969T2 (de) 2001-10-25
DE69426969D1 (de) 2001-05-03
ES2156890T3 (es) 2001-08-01
EP0655732B1 (en) 2001-03-28
CA2117932A1 (en) 1995-05-25
KR100321011B1 (ko) 2002-06-20

Similar Documents

Publication Publication Date Title
TW323364B (zh)
US9787830B1 (en) Performing speech recognition over a network and using speech recognition results based on determining that a network connection exists
TW557443B (en) Method and apparatus for voice recognition
KR100856358B1 (ko) 음성 인에이블 장치용 구두 사용자 인터페이스
US6882973B1 (en) Speech recognition system with barge-in capability
CN108766441B (zh) 一种基于离线声纹识别和语音识别的语音控制方法及装置
JP3080388B2 (ja) 不明人物の同一性検証方法
US8447599B2 (en) Methods and apparatus for generating, updating and distributing speech recognition models
US6493670B1 (en) Method and apparatus for transmitting DTMF signals employing local speech recognition
US20050043948A1 (en) Speech recognition method remote controller, information terminal, telephone communication terminal and speech recognizer
US6687673B2 (en) Speech recognition system
JPH09106296A (ja) 音声認識装置及び方法
JP4852584B2 (ja) 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ
WO2001008384A1 (fr) Telephone cellulaire
CN110024027A (zh) 说话人识别
CN106791210A (zh) 一种手机来电接听装置及来电接听方法
US20030163309A1 (en) Speech dialogue system
JP5251588B2 (ja) 携帯電話端末装置及び通話伝達の判断方法
KR100467593B1 (ko) 음성인식 키 입력 무선 단말장치, 무선 단말장치에서키입력 대신 음성을 이용하는 방법 및 그 기록매체
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
JP2005348240A (ja) 電話装置
JP2000122678A (ja) 音声認識機器制御装置
JPH0823369A (ja) 音声操作電話装置およびその音声による操作指示受付方法
JP3278595B2 (ja) 携帯電話
JP3959083B2 (ja) 音声情報要約装置、及び、音声情報要約方法