TWI427620B - A speech recognition result correction device and a speech recognition result correction method, and a speech recognition result correction system - Google Patents
A speech recognition result correction device and a speech recognition result correction method, and a speech recognition result correction system Download PDFInfo
- Publication number
- TWI427620B TWI427620B TW098113352A TW98113352A TWI427620B TW I427620 B TWI427620 B TW I427620B TW 098113352 A TW098113352 A TW 098113352A TW 98113352 A TW98113352 A TW 98113352A TW I427620 B TWI427620 B TW I427620B
- Authority
- TW
- Taiwan
- Prior art keywords
- error
- identification
- vocabulary
- unit
- recording
- Prior art date
Links
Landscapes
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
本發明係有關於將語音辨識過之資料加以訂正的語音辨識結果訂正裝置及語音辨識結果訂正方法,以及語音辨識結果訂正系統。
於行動終端上將所輸入之語音輸出至伺服器,於該當伺服器上辨識語音,將其辨識結果發送至行動終端,藉此而可於行動終端上取得語音結果的技術,已如日本特開2003-295893號公報(專利文獻1)所記載而為習知。
然而,當伺服器上所被辨識的辨識結果有錯誤時,並未考慮進行其訂正。一般而言,當辨識結果有錯誤時,是考慮讓使用者以手動輸入進行操作來進行訂正,但這非常麻煩。例如,使用者要先了解辨識結果的文章,辨識出錯誤,指定該有錯誤的地方,然後訂正,這些都很麻煩。
於是,本發明的目的在於提供一種,當辨識結果有錯誤時,不對使用者造成麻煩就能訂正辨識錯誤的語音辨識結果訂正裝置及語音辨識結果訂正方法,以及語音辨識結果訂正系統。
為了解決上述課題,本發明的語音辨識結果訂正裝置,係具備:輸入手段,係用以輸入語音;和算出手段,係用以基於被前記輸入手段所輸入之語音,而算出特徵量資料;和記憶手段,係用以記憶被前記算出手段所算出之特徵量資料;和取得手段,係用以取得對前記輸入手段所輸入之語音的辨識結果;和指定手段,係用以於前記取得手段所辨識之辨識結果中,指定出有發生辨識錯誤的錯誤區間;和訂正手段,係用以從前記記憶手段中所記憶之特徵量資料,抽出已被前記指定手段所指定之錯誤區間所對應之特徵量資料,並使用該當已抽出之特徵量資料來進行再辨識,藉此以執行前記取得手段所得到之辨識結果的訂正。
又,本發明的語音辨識結果訂正方法,係具備:輸入步驟,係用以輸入語音;和算出步驟,係用以基於被前記輸入步驟所輸入之語音,而算出特徵量資料;和記憶步驟,係用以記憶被前記算出步驟所算出之特徵量資料;和取得步驟,係用以取得對前記輸入步驟所輸入之語音的辨識結果;和指定步驟,係用以於前記取得步驟所辨識之辨識結果中,指定出有發生辨識錯誤的錯誤區間;和訂正步驟,係用以從前記記憶步驟中所記憶之特徵量資料,抽出已被前記指定手段所指定之錯誤區間所對應之特徵量資料,並使用該當已抽出之特徵量資料來進行再辨識,藉此以執行前記取得步驟所得到之辨識結果的訂正。
若依據本發明,則會將所被輸入的語音的特徵量資料加以記憶,並在對該語音所辨識的辨識結果中,指定出有發生辨識錯誤的錯誤區間。然後,藉由將已被指定之錯誤區間中的特徵量資料,進行再辨識,以訂正辨識結果。藉此,在辨識的結果當中,將有必要的部分進行訂正,可簡易地進行訂正處理,同時,可獲得正確的辨識結果。藉此,就可不對使用者造成負擔,可簡單地進行訂正處理,可獲得正確的語音辨識結果。
又,於本發明的語音辨識結果訂正裝置中,前記取得手段,係由送訊手段,係用以將前記輸入手段所輸入之語音,發送至語音辨識裝置;和收訊手段,係用以接收前記語音辨識裝置上所辨識出來的辨識結果所構成;前記指定手段,係於前記收訊手段所接收到的辨識結果中,指定出有發生辨識錯誤的錯誤區間,較為理想。
若依據此發明,則將所被輸入之語音,發送至語音辨識裝置,並將該語音辨識裝置上進行辨識後的辨識結果,予以接收。然後,在所接收到的辨識結果中,指定出有發生辨識錯誤的錯誤區間,將所被指定之錯誤區間中的辨識結果,加以訂正。藉此,在辨識的結果當中,將有必要的部分進行訂正,可簡易地訂正語音辨識之錯誤,可獲得正確的辨識結果。
又,於本發明的語音辨識結果訂正裝置中,前記指定手段,係藉由受理使用者操作,以指定錯誤區間,較為理想。
若依據本發明,則可藉由受理使用者操作,以指定錯誤區間,可較簡易地指定錯誤區間,並且可獲得正確的語音辨識結果。
又,於本發明的語音辨識結果訂正裝置中,前記指定手段,係基於前記辨識結果中所被賦予的辨識結果之信賴度來判斷錯誤區間,並指定該當判斷出來之錯誤區間,較為理想。
若依據本發明,則基於辨識結果中所被賦予的辨識結果之信賴度來判斷錯誤區間,並指定該當判斷出來之錯誤區間,藉此就可自動地指定錯誤區間,可較簡易地指定錯誤區間。
又,於本發明的語音辨識結果訂正裝置中,前記指定手段,係計算前記辨識結果之信賴度,基於該當信賴度來判斷錯誤區間,並指定該當判斷出來之錯誤區間,較為理想。
若依據本發明,則可計算辨識結果之信賴度,基於該當信賴度來判斷錯誤區間,並指定該當判斷出來之錯誤區間,而可較簡易地指定錯誤區間。甚至,在使伺服器裝置等進行語音辨識的情況時,亦可設計成從該伺服器裝置來就不計算信賴度,可提供更便於使用的裝置。
又,本發明的語音辨識結果訂正裝置,係更具備:特定手段,係用以特定,被前記指定手段所指定之錯誤區間的前方的至少一個字彙、或是後方的至少一個字彙、或是前記前方字彙及後方字彙之雙方之任一者加以形成的辨識結果;前記訂正手段,係將已被前記特定手段所特定之辨識結果,視為拘束條件,依照該拘束條件,將錯誤區間之前方字彙、後方字彙加以包含之區間所對應的特徵量資料,從前記記憶手段中予以抽出,對已抽出之特徵量資料,進行辨識處理,較為理想。
若依據本發明,則將已被指定之錯誤區間的前方的至少一個字彙、或是後方的至少一個字彙、或是前記前方字彙及後方字彙之雙方之任一者加以形成的辨識結果,加以特定,將已被特定之辨識結果視為拘束條件,依照該拘束條件,來進行預先記憶之特徵量資料的辨識處理。藉此,就進行較正確的辨識處理,因此可獲得正確的語音辨識結果。
又,本發明的語音辨識結果訂正裝置,係更具備:特定手段,係用以特定,被前記指定手段所指定之錯誤區間的前方的至少一個字彙、或是後方的至少一個字彙、或是前記前方字彙及後方字彙之雙方之任一者加以形成的辨識結果;前記訂正手段,係將已被前記特定手段所特定之辨識結果,視為拘束條件,依照該拘束條件,將錯誤區間所對應的特徵量資料,從前記記憶手段中予以抽出,對已抽出之特徵量資料,進行辨識處理,較為理想。
若依據本發明,則將已被指定之錯誤區間的前方的至少一個字彙、或是後方的至少一個字彙、或是前記前方字彙及後方字彙之雙方之任一者加以形成的辨識結果,加以特定,將已被特定之辨識結果視為拘束條件,依照該拘束條件,來進行預先記憶之特徵量資料的辨識處理。亦即,在本發明中,是可僅使用錯誤區間的特徵量資料,來進行辨識處理。藉此,就進行較正確的辨識處理,因此可獲得正確的語音辨識結果。
又,本發明的語音辨識結果訂正裝置,係更具備:字彙資訊特定手段,係用以特定:將被前記指定手段所指定之錯誤區間的前方的至少一個字彙予以特定所需之資訊亦即字彙資訊、或是後方的至少一個字彙的字彙資訊、或是前記前方字彙的字彙資訊及後方字彙的字彙資訊之雙方之任一者加以形成的辨識結果中之字彙的字彙資訊;前記訂正手段,係將已被前記字彙資訊特定手段所特定之字彙資訊,視為拘束條件,依照該拘束條件,將錯誤區間之前方字彙、後方字彙加以包含之區間所對應的特徵量資料,從前記記憶手段中予以抽出,對已抽出之特徵量資料,進行辨識處理,較為理想。
若依據本發明,則可將用來特定出字彙用的字彙資訊當作拘束條件,來進行訂正處理,藉此可進行較正確的辨識處理。
例如,作為字彙資訊,係含有:表示字彙之詞性的詞性資訊、及表示字彙之念法的讀音資訊,之任1者或複數者,較為理想。
又,本發明的語音辨識結果訂正裝置,係更具備:未知詞判定手段,係基於前記字彙資訊來判定,被前記指定手段所指定之錯誤區間的前方的至少一個字彙、或是後方的至少一個字彙、或是前記前方字彙及後方字彙之雙方之任一者加以形成的辨識結果的字彙,是否為未知詞;若藉由前記未知詞判定手段而判定了前記辨識結果的字彙是未知詞,則前記訂正手段係以前記字彙資訊為基礎,來進行辨識結果的訂正處理,較為理想。
若依據本發明,則當係未知詞時,則藉由將字彙資訊當成拘束條件來進行辨識處理,就可獲得較正確的語音辨識結果。
又,本發明的語音辨識結果訂正裝置,係更具備:連接機率記憶手段,係用以記憶字彙彼此的連接機率;前記訂正手段,係根據訂正處理已進行過之事實,而作成該當錯誤區間之字彙及與其前後或其中一方之字彙的連接機率,使用該當連接機率來更新前記連接機率記憶手段中所記憶的連接機率,較為理想。
若依據本發明,則會將字彙彼此的連接機率予以記憶,每次將其作訂正處理時,連接機率就會改變,因此藉由計算該連接機率而進行更新,就可獲得較正確的語音辨識結果。
又,本發明的語音辨識結果訂正裝置,係更具備:拘束條件記憶手段,係用以將前記字彙資訊特定手段所特定出來的字彙資訊或前記特定手段所特定出來的字彙,當作拘束條件而加以記憶;前記訂正手段,係依照前記拘束條件記憶手段中所記憶之拘束條件,來進行訂正處理,較為理想。
藉此,會將作為拘束條件的字彙或字彙資訊加以記憶,可因應需要而依照所記憶的拘束條件來進行訂正處理,不必每次進行訂正處理就生成拘束條件,可進行迅速的訂正處理(語音辨識處理)。
又,本發明的語音辨識結果訂正裝置,係更具備:受理手段,係用以從使用者受理文字資訊;前記訂正手段,係將前記受理手段所受理到的文字資訊,視為拘束條件,來進行錯誤區間中的辨識結果的訂正處理,較為理想。
若依據本發明,則使用者可直接指定用來作為拘束條件的文字,可進行較正確的辨識處理,因此可獲得正確的語音辨識結果。
又,本發明的語音辨識結果訂正裝置,係更具備:時間資訊算出手段,係用以基於收訊手段所接收到之辨識結果與前記記憶手段中所記憶之特徵量資料,來算出辨識結果的經過時間;前記指定手段,係基於前記時間資訊算出手段所算出之時間資訊,來指定錯誤區間,較為理想。
若依據本發明,則可基於已被接收到的辨識結果與所記憶的特徵量資料,來算出辨識結果的經過時間,基於該時間資訊來指定錯誤區間。藉此,當辨識結果中沒有包含時間資訊時,也可將錯誤區間所對應之適切的特徵量資料,予以抽出。
又,本發明的語音辨識結果訂正裝置,係更具備:顯示手段,係用以顯示已被前記訂正手段所訂正過的辨識結果;前記顯示手段,係不顯示前記取得手段所取得之辨識結果,較為理想。藉此,由於有辨識錯誤可能性的辨識結果不會顯示,因此不會對使用者造成誤解。
又,本發明的語音辨識結果訂正裝置,係當前記訂正手段經由再辨識而得到之辨識結果、和前記取得手段所取得到之辨識結果是相同時,或這些辨識結果分別所含有之時間資訊是有差異時,則判斷為辨識錯誤,前記顯示手段就不顯示辨識結果,較為理想。藉此,可防止顯示出錯誤的辨識結果。
又,於本發明的語音辨識結果訂正裝置中,前記指定手段,係藉由使用者操作而指定錯誤區間之起點,基於前記取得手段所取得到之辨識結果中所被賦予的辨識結果之信賴度,來指定錯誤區間之終點,較為理想。藉此,可實現符合於使用者輸入習慣的訂正方法,可提供便於使用的裝置。
又,於本發明的語音辨識結果訂正裝置中,前記指定手段,係藉由使用者操作而指定錯誤區間之起點,根據該當起點而遠離所定辨識單位數而指定錯誤區間之終點,較為理想。藉此,可實現符合於使用者輸入習慣的訂正方法,可提供便於使用的裝置。
又,於本發明的語音辨識結果訂正裝置中,前記指定手段,係藉由使用者操作而指定錯誤區間之起點,基於前記取得手段所取得到之辨識結果中的所定之發音記號,來指定錯誤區間之終點,較為理想。藉此,可實現符合於使用者輸入習慣的訂正方法,可提供便於使用的裝置。
又,於本發明的語音辨識結果訂正裝置中,前記取得手段,係在取得辨識結果之際,取得複數辨識候補來作為辨識結果;前記指定手段,係藉由使用者操作而指定錯誤區間之起點,基於前記取得手段所取得到之辨識候補之數目,來指定終點,較為理想。藉此,就可基於辨識結果的信賴度來指定終點,可實現有效率的訂正處理。
又,於本發明的語音辨識結果訂正裝置中,更具備:算出手段,係用以算出,已被前記算出手段所算出之特徵量資料的錯誤區間加以包含之區間的平均值;前記訂正手段,係將已抽出之特徵量資料,減去前記算出手段所算出之平均值,將該減算所得之資料,視為特徵量資料而進行再辨識處理,較為理想。藉此,可對已經去除了麥克風等輸入聲音之收音裝置之特性的聲音,進行訂正處理,可實現較正確的訂正(語音辨識)。
又,於本發明的語音辨識結果訂正裝置中,具備:輸入手段,係用以輸入語音;和取得手段,係用以取得對前記輸入手段所輸入之語音的辨識結果;和指定手段,係用以於前記取得手段所辨識之辨識結果中,指定出有發生辨識錯誤的錯誤區間;和通知手段,係藉由將已被前記指定手段所指定之錯誤區間通知給外部伺服器,以向前記外部伺服器請求該當錯誤區間的再辨識處理;和收訊手段,係用以接收,回應於前記通知手段所作之請求而於前記外部伺服器中所再辨識而成之錯誤區間的辨識結果。
又,於本發明的語音辨識結果訂正方法中,具備:輸入步驟,係用以輸入語音;和取得步驟,係用以取得對前記輸入步驟所輸入之語音的辨識結果;和指定步驟,係用以於前記取得步驟所辨識之辨識結果中,指定出有發生辨識錯誤的錯誤區間;和通知步驟,係藉由將已被前記指定步驟所指定之錯誤區間通知給外部伺服器,以向前記外部伺服器請求該當錯誤區間的再辨識處理;和收訊步驟,係用以接收,回應於前記通知步驟所作之請求而於前記外部伺服器中所再辨識而成之錯誤區間的辨識結果。
又,本發明的語音辨識結果訂正裝置,係具備:詞根區間指定手段,係用以於前記取得手段所取得到的辨識結果中,指定詞根區間;前記訂正手段,係於前記指定手段所指定之錯誤區間中,再將前記詞根區間指定手段所指定之詞根區間所對應的特徵量資料,從前記記憶手段中抽出,使用該當已抽出之特徵量資料來進行再辨識,藉此以執行前記取得手段所得到之辨識結果的訂正,較為理想。
藉此,就可使用詞根區間所對應之特徵量資料來執行辨識結果的訂正,可進行較正確的訂正處理。亦即,可依照被稱作詞根區間的未知詞之區間來進行再辨識。
又,本發明的語音辨識結果訂正裝置,係更具備:分割手段,係依照前記詞根區間指定手段所指定的詞根區間,而將從前記取得手段所取得到的辨識結果,分割成複數區間;前記訂正手段,係對前記分割手段所分割出來的每一分割區間,執行辨識結果的訂正,較為理想。
藉此,藉由將辨識結果分割成複數區間,就可縮短辨識對象,可進行較正確的辨識處理。
又,本發明的語音辨識結果訂正裝置中的分割手段,係將詞根區間的終點視為一分割區間的終點,並且將詞根區間的起點視為前記一分割區間的下一分割區間的起點,以此方式來分割辨識結果,較為理想。
藉此,詞根區間就會被包含在分割區間之任一者。因此,在辨識處理之際必定會包含詞根區間,藉此就可將詞根字串視為拘束條件來進行辨識處理。
又,本發明的語音辨識結果訂正裝置的訂正手段,係對前記分割手段所分割出來的每一分割區間,執行辨識結果的訂正,並且將前記詞根區間,視為各分割區間之訂正時的拘束條件,較為理想。
藉此,在辨識處理之際必定會包含詞根區間,因此可將詞根字串視為拘束條件來進行辨識處理。
又,於本發明的語音辨識結果訂正裝置中,訂正手段,係將前記詞根區間指定手段所指定之詞根區間中所描述之詞根字串加以含有的假說,當作辨識的探索過程而予以保持,從該當假說中選擇出最終的辨識結果,以執行訂正,較為理想。
藉此,就可必定使用詞根字串來進行辨識處理。
又,本發明的語音辨識結果訂正裝置,係更具備:字典追加手段,係用以將前記詞根區間指定手段所指定之詞根區間中的詞根字串,追加至辨識處理所需之字典資料庫中,較為理想。
藉此,就可累積詞根字串,在今後的辨識處理中有效運用,可進行較正確的辨識處理。
本發明的語音辨識結果訂正裝置,係更具備:由使用者所生成之字典資料庫;前記訂正手段,係使用將詞根字串依照前記字典資料庫所轉換過的字串,來進行訂正處理,較為理想。
藉此,就可累積詞根字串,在今後的辨識處理中有效運用,可進行較正確的辨識處理。
又,本發明的語音辨識結果訂正系統,係具備:上述語音辨識結果訂正裝置;和伺服器裝置,係基於從前記語音辨識結果訂正裝置所發送來的語音而進行語音辨識,並作成辨識結果而發送至前記語音辨識結果訂正裝置。該語音辨識結果訂正系統,係僅在於標的之不同而已,在作用效果上均和上述語音辨識結果訂正裝置相同。
若依據本發明,則可在辨識的結果當中,將有必要的部分進行訂正,可簡易地進行訂正處理,同時,可獲得正確的辨識結果。
參照添附圖面,說明本發明的實施形態。在可能的情況下,同一部分係標示同一符號,並省略說明。
<第1實施形態>
圖1係本實施形態的語音辨識結果訂正裝置亦即客戶端裝置110,及將從客戶端裝置110所發送來的語音加以辨識,將其結果回送至客戶端裝置110的伺服器裝置120,具備該兩者的通訊系統的系統構成圖。在本實施形態中,客戶端裝置110係例如為行動電話等之行動終端,可將使用者所發聲的語音加以輸入,將所輸入之語音,使用無線通訊而發送至伺服器裝置120,並可接收來自伺服器裝置120之回訊亦即辨識結果。
伺服器裝置120,係具備語音辨識部,會將所被輸入的語音,使用音響模型、言語模型等之資料庫來進行語音辨識,並將其辨識結果回送至客戶端裝置110。
接著,說明該客戶端裝置110的構成。圖2係客戶端裝置110之機能的區塊圖。該客戶端裝置110,係含有:特徵量算出部210(輸入手段、算出手段)、特徵量壓縮部220、送訊部225(取得手段、送訊手段)、特徵量保存部230(記憶手段)、收訊部235(取得手段、收訊手段)、錯誤區間指定部240(指定手段)、錯誤區間前後文脈指定部250(特定手段)、錯誤區間特徵量抽出部260、訂正部270(訂正手段)、音響模型保持部281、言語模型保持部282、字典保持部283、統合部280、顯示部290所構成。
圖3係客戶端裝置110的硬體構成圖。圖2所示的客戶端裝置110,實體上而言,係如圖3所示,是以含有:CPU11、屬於主記憶裝置的RAM12及ROM13、屬於輸入裝置的鍵盤及滑鼠等之輸入裝置14、顯示器等之輸出裝置15、網路卡等屬於資料收送訊裝置的通訊模組16、硬碟等之輔助記憶裝置17等的電腦系統之方式而被構成。於圖2中所說明的各機能,係藉由將所定之電腦軟體讀入至圖3所示的CPU11、RAM12等硬體上,以在CPU11的控制下,促使輸入裝置14、輸出裝置15、通訊模組16作動,並且進行RAM12或輔助記憶裝置17中的資料之讀出及寫入,藉此而加以實現。以下,基於圖2所示的機能區塊,來說明各機能區塊。
特徵量算出部210,係將從麥克風(未圖示)所輸入的使用者的聲音,加以輸入,根據該當輸入的聲音,算出語音辨識頻譜、亦即表示音響特徵的特徵量資料用的部分。例如,特徵量算出部210係算出,例如MFCC(Mel Frequency Cepstrum Coefficient)這類以頻率來表示音響特徵的特徵量資料。
特徵量壓縮部220,係將特徵量算出部210中所算出之特徵量資料,予以壓縮用的部分。
送訊部225,係將特徵量壓縮部220中所壓縮過的壓縮特徵量資料,發送至伺服器裝置120用的部分。該送訊部225,係使用HTTP(Hyper Text Transfer Protocol)、MRCP(Media Resource Control Protocol)、SIP(SessionInitiation Protocol)等,來進行送訊處理。又,在該伺服器裝置120上,係使用這些協定來進行收訊處理,或進行回送處理。然後,在該伺服器裝置120上,可將壓縮特徵量資料予以解壓縮,可使用特徵量資料來進行語音辨識處理。該特徵量壓縮部220,係用來為了減輕通訊流量而進行資料壓縮用的部分,因此該送訊部225係也可不進行壓縮而直接將特徵量資料予以發送。
特徵量保存部230,係將特徵量算出部210中所算出之特徵量資料,予以暫時記憶用的部分。
收訊部235,係將從伺服器裝置120所回送的語音辨識結果加以接收用的部分。該語音辨識結果中係含有文字資料、時間資訊、及信賴度資訊,時間資訊係表示文字資料的每一辨識單位的經過時間,信賴度資訊係表示該辨識結果的正確度用的資訊。
例如,作為辨識結果,接收了圖4(a)所示的資訊。在圖4(a)中,雖然有發聲內容、辨識內容、語音區間、信賴度是被建立對應而記載,但實際上是不含有發聲內容。此處,在語音區間中所示的數字,係表示框架的索引,是表示該辨識單位的最初框架的索引。此處,1框架係相當於10msec程度。又,信賴度係表示於伺服器裝置120上所辨識出來之語音辨識結果的每一辨識單位的信賴度,是表示正確程度如何的數值。這是對於辨識結果使用機率等所生成的數值,於伺服器裝置120上,被附加在所被辨識之字彙單位的數值。例如,作為信賴度的生成方法,係記載於以下的參考文獻。
參考文獻:李晃伸、河原達也、鹿野清宏,「2-passs探索演算法下基於高速字彙事後機率的信賴度算出法」,資訊處理學會研究報告,2003-SLP-49-48,2003-12。
在圖4(a)中係圖示了,例如,辨識結果的「賣(売)」(urete),是由33框架至57框架所構成,其信賴度係為0.86。
錯誤區間指定部240,係基於被收訊部235所接收到的語音辨識結果,來指定錯誤區間用的部分。該錯誤區間指定部240,例如,係可基於從伺服器裝置120所發送來的語音辨識結果中所含之信賴度資訊,來指定錯誤區間。
例如,在圖4(a)中,作為辨識結果係表示了,文字資料係為905(kyuumarugo),時間資訊係為9框架(90msec),其信賴度係為0.59,又,在另一地點,辨識結果的「哪()」(doko)的信賴度係為0.04。然後,該錯誤區間指定部240,係可把信賴度在所定閾值以下者,判斷為有錯誤,可把該區間指定成為錯誤區間。例如,當設定為信賴度在0.2以下者就為有誤的情況下“”(doko)、“”(de)、“豆腐”(doufu)的部分就判斷為有誤,可將該部分指定成為錯誤區間。該閾值係為可在客戶端裝置110側預先設定的數值。此外,亦可隨著語音的個人差異、雜音(雜訊)的量、或信賴度的計算方法而作可變設定。亦即,當雜音較多時,由於信賴度會更加降低,因此將閾值設定得較低;又,當對語音辨識結果所附加的信賴度整體而言均很低時,或反之均很高時,則亦可隨著其信賴度的高低來作設定。例如,可基於信賴度的中央值來設定閾值,或亦可基於平均值來設定閾值。圖4(b)係圖示了中文的發音例子作為參考。
此外,客戶端裝置110,係具備用來計算辨識結果之信賴度資訊的信賴度計算部(未圖示),錯誤區間指定部240,係亦可基於在客戶端裝置110內所計算出來的信賴度資訊,來設定錯誤區間。
錯誤區間前後文脈指定部250,係基於錯誤區間指定部240上所指定的錯誤區間,來指定該當錯誤區間前後所被辨識之字彙(至少一辨識單位)用的部分。以下就僅使用前後1字彙的情況為例來說明。在圖5(a)中,圖示了於錯誤區間之前後所被辨識之一辨識單位(錯誤區間前後文脈)加以指定時的概念圖。如圖5(a)所示,在辨識結果的錯誤區間之前後,指定錯誤區間前之字彙的語音區間、錯誤區間後之字彙的語音區間。
錯誤區間特徵量抽出部260,係將已被錯誤區間前後文脈指定部250所指定的錯誤區間(亦可包含前後至少一辨識單位)的特徵量資料,從特徵量保存部230中加以抽出用的部分。
訂正部270,係將已被錯誤區間特徵量抽出部260所抽出之特徵量資料,進行再度語音辨識用的部分。該訂正部270,係使用音響模型保持部281、言語模型保持部282、及字典保持部283,來進行語音辨識。然後,該訂正部270,係將已被錯誤區間前後文脈指定部250所指定之前後的語音區間所示的字彙(前後文脈),視為拘束條件來進行語音辨識。圖5(b)係圖示了,基於已被錯誤區間前後文脈指定部250所指定之字彙來進行辨識處理時的概念圖。如圖5(b)所示,當把錯誤區間的前面區間的字彙W1與後面區間的字彙W2視為拘束條件時,辨識候補就會變成有限。因此,可提升辨識的精度。在圖5(b)的例子中,作為辨識候補可過濾成A~Z,可從該已被過濾之候補之中選擇出適切的候補,可有效率地進行辨識處理。
又,訂正部270,係亦可基於與前後字彙的修辭關係、活用形(字尾變化)等來進行訂正處理。例如,訂正部270係亦可將對錯誤區間之字彙的辨識候補A~Z予以複數抽出,基於其前後字彙W1與W2的修辭之關係,來算出每一訂正候補的分數,將分數高的訂正候補,視為辨識結果。
又,訂正部270係即使當前面區間的字彙W1或後面區間的字彙W2是未被包含在言語模型保持部282或字典保持部283中時,仍可將用來特定該字彙用的字彙資訊或用來特定前後字彙用的字彙資訊視為拘束條件,來進行訂正處理(再度語音辨識處理)。
例如,客戶端裝置110,係作為字彙資訊,將表示字彙W1、字彙W2各自之詞性用的詞性資訊,從伺服器裝置120予以接收,訂正部270係將字彙W1、字彙W2各自之詞性資訊,當成拘束條件而進行訂正處理。藉此,就可進行較正確的訂正處理,亦即語音辨識處理。具體而言,於收訊部235上所接收到的語音辨識結果中所被附加之字彙資訊當中,錯誤區間指定部240會將錯誤區間的前後(或是任一方)的字彙資訊予以抽出,輸出至訂正部270。在訂正部270中,會將該字彙資訊視為拘束條件而將所指定之部分進行訂正處理。其概念圖示於圖24。如圖24
所示,對應於字彙W1係有詞性資訊A(例如,助詞),對應於字彙W2係有詞性資訊B(例如,動詞),被當成拘束條件而設定。訂正部270,係藉由滿足各個詞性資訊A及詞性資訊B的方式來進行訂正處理,就可進行較正確的語音辨識處理。
此外,作為字彙資訊,並不限定於詞性資訊,亦可為例如念法等字彙以外的用來特定字彙所需之資訊。
又,當必要的字彙資訊未被包含在語音辨識結果中時,則藉由將屬於辨識對象的文章,使用周知的語素解析系統(例如“茶筅”、“Mecab”)、日本語修辭解析工具(例如“南瓜”)等來進行解析,就可生成字彙資訊。亦即,於圖25中所示的客戶端裝置110的變形例中,係新附加有字彙資訊解析部251,字彙資訊解析部251係由如上述的周知的語素解析系統、日本語修辭解析工具等所構成,可將語音辨識結果予以解析。然後,將解析後的結果,輸出至錯誤區間前後文脈指定部250,錯誤區間前後文脈指定部250係可基於該字彙資訊來抽出錯誤區間前後字彙的字彙資訊,輸出至訂正部270。
上記生成字彙資訊的處理,係可在客戶端裝置110或伺服器裝置120上進行,但設計成對伺服器裝置120發出指示令其進行之,然後接收處理結果的方式,可降低在客戶端裝置110上的處理量。
上述處理係在字彙W1及W2是未知詞時,特別有效。所謂未知詞,係指未被包含在言語模型保持部282或字典保持部283中的字彙。例如,訂正部270(未知詞判定手段)係判斷字彙W1及W2是否為未知詞,若為未知詞時,則將從伺服器裝置120所送出的辨識結果中所含有的字彙資訊視為拘束條件,來進行訂正處理。
又,於客戶端裝置110上,亦可將該拘束條件予以登錄。亦即,於圖25所示的客戶端裝置110的變形例中,亦可將已被指定之錯誤區間的字彙及其前後(或至少一方)之字彙、或與其字彙資訊成組者,視為拘束條件,令其記憶至拘束條件記憶部285(拘束條件記憶手段)。藉此,訂正部270係當與錯誤區間指定部240中所被指定之錯誤區間的字彙相同、或是其前後字彙為相同時,就可依照拘束條件記憶部285中所被記憶的拘束條件,來進行訂正處理。藉此,就可迅速地進行該處理。亦即,從下次以後,即使偵測出未知詞,也只需立刻讀出已有登錄的拘束條件,就能適用拘束條件。由於不需要重新作成拘束條件,因此可以用較少的處理來設定拘束條件。
又,於訂正部270上,亦可依照已訂正之結果,將該錯誤區間的字彙及其前後的字彙的連接機率,加以更新。亦即,亦可設計成,連接機率,係被記憶在作為連接機率記憶手段而發揮機能的言語模型保持部282及字典保持部283中,每次有適宜的訂正處理時就於訂正部270上所被計算、作成的連接機率,係於言語模型保持部282及字典保持部283中被更新。
又,訂正部270係判斷再辨識後之辨識結果、與該錯誤區間被伺服器裝置120所辨識之辨識結果是否為相同,此時,辨識結果係不輸出至統合部280,不在顯示部290上顯示辨識結果,較為理想。
又,在訂正部270中進行辨識所得到之辨識結果、和該錯誤區間於伺服器裝置120上所被辨識之辨識結果之間,即使發生一辨識單位之誤差時也同樣地判斷為辨識錯誤,就不將辨識結果輸出至統合部280,不在顯示部290上顯示辨識結果,較為理想。
例如,當圖4(a)中的語音區間與辨識結果的對應關係有所不同時,更具體而言,係於語音區間中,伺服器裝置120上的辨識結果為,框架索引是0-9,而此時係為“905(kyuumarugo)”的情況下,於訂正部270上的再辨識時,變成了框架索引為0-15、“90555(kyuumarugogogo)”的這種情況時,則該語音區間與辨識結果的對應關係,在辨識結果與再辨識結果之間就發生誤差。因此,可判斷為辨識錯誤。此情況下,訂正部270係使顯示部290上不顯示辨識結果,進行不輸出等之處理。
甚至,亦可設計成,訂正部270,係當已經判斷上述辨識錯誤的情況下,若在從使用者受理文字資訊的受理部(未圖示)上有文字輸入,則訂正部270係將所受理到的文字(例如日文假名)當作拘束條件,來進行錯誤區間的辨識結果之訂正處理。亦即,亦可對於錯誤區間的辨識結果,有任何文字輸入時,則以該文字為前提,來進行剩餘部分的辨識處理。此情況下,若有辨識錯誤之判斷時,則使受理部可以接受文字輸入。
此外,訂正部270,係藉由進行與伺服器裝置120上所進行之辨識處理不同的語音辨識處理,就可防止再度進行有誤的辨識。例如,改變音響模型、言語模型、字典來進行辨識處理。
音響模型保持部281,係將音素與其頻譜,建立對應而加以記憶的資料庫。言語模型保持部282,係將字彙、文字等之連鎖機率加以表示的統計性資訊,加以記憶用的部分。字典保持部283,係將音素與文字的資料庫加以保持,是記憶例如HMM(Hidden Marcov Model)用的部分。
統合部280,係將收訊部235上所接收到的語音辨識結果當中,錯誤區間外的文字資料、和訂正部270上被再辨識過之文字資料,加以統合用的部分。該統合部280,係依照訂正部270上所被再辨識過的文字資料加以統合用之位置加以表示的錯誤區間(時間資訊),來進行統合。
顯示部290,係將統合部280上進行統合所得到之文字資料,加以顯示用的部分。此外,顯示部290係被構成為,將伺服器裝置120上進行辨識後的結果,當作顯示內容,較為理想。又,當訂正部270上再辨識後的結果、和錯誤區間在伺服器裝置120上所被辨識之結果相同時,使該辨識結果不被顯示地進行顯示,較為理想;又,此情況下亦可顯示出無法辨識之意旨。再者,當訂正部270上再辨識所得之辨識結果、和伺服器裝置120上辨識所得到之辨識結果之間,具有時間資訊上的誤差時,也因為有錯誤之可能性而不作顯示,或是令無法辨識之意旨被顯示,較為理想。
又,亦可不需要總是執行再辨識處理,可隨著錯誤區間的長度,判斷是否進行再辨識處理。例如,當錯誤區間是1文字時,則不進行再辨識處理,而是以文字輸入等其他的方法來作訂正。
說明如此構成之客戶端裝置110的動作。圖6係客戶端裝置110之動作的流程圖。透過麥克風所被輸入之語音,係藉由特徵量算出部210而將其特徵資料予以抽出(S101)。然後,在特徵量保存部230中係保存有特徵量資料(S102)。接著,藉由特徵量壓縮部220將特徵量資料進行壓縮(S103)。已被壓縮的壓縮特徵量資料,係被送訊部225發送至伺服器裝置120(S104)。
接著,於伺服器裝置120上進行語音辨識,從伺服器裝置120發送辨識結果,被收訊部235所接收(S105)。然後,根據語音辨識結果,錯誤區間指定部240會指定錯誤區間,基於該所被指定之錯誤區間,來指定前後文脈(S106)。基於將該前後文脈予以包含的錯誤區間,錯誤區間特徵量抽出部260會將特徵量資料從特徵量保存部230中抽出(S107)。此處,基於所抽出的特徵量資料,藉由訂正部270而進行再度語音辨識,生成錯誤區間的文字資料(S108)。然後,錯誤區間的文字資料、和收訊部235上所接收到的文字資料會進行統合,經過正確辨識所得到之文字資料,會被顯示在顯示部290上(S109)。
接著,再詳細說明上述S106~S108中的處理。圖7係表示該詳細處理的流程圖。適宜地參照圖5(a)來說明。
錯誤區間指定部240會基於辨識結果來指定錯誤區間(S201(S106))。基於該錯誤區間,錯誤區間前後文脈指定部250會指定錯誤區間的前面字彙W1(圖5(a)),並保存之(S202)。又,藉由錯誤區間前後文脈指定部250,錯誤區間的後面字彙W2(圖5(a))會被指定而記憶(S203)。接著,藉由錯誤區間前後文脈指定部250,指定該字彙W1的開始時間T1(圖5(a))(S204),並指定字彙W2的結束時間T2(圖5(a)),然後分別保存之(S205)。
如此,對錯誤區間再各自加上其前後一字彙(一辨識單位)而得到的錯誤區間亦即開始時間T1至結束時間T2的區間的特徵量資料,係被錯誤區間特徵量抽出部260所抽出(S206(S107))。以字彙W1為起點、字彙W2為終點的拘束條件之設定,會在訂正部270中進行(S207)。然後,依照該拘束條件,訂正部270進行對特徵量資料之辨識處理,執行訂正處理(S208)。
如以上所說明,說明本實施形態中的客戶端裝置110的作用效果。於該客戶端裝置110中,特徵量算出部210會算出所被輸入之語音的特徵量資料,特徵量壓縮部220係將特徵量資料發送至語音辨識裝置亦即伺服器裝置120。另一方面,特徵量保存部230係將特徵量資料予以保存。
然後,於伺服器裝置120上進行辨識處理,收訊部235係從伺服器裝置120接收辨識結果。錯誤區間指定部240,係於所收到的辨識結果中,指定出有發生辨識錯誤的錯誤區間。該錯誤區間指定部240,係可基於信賴度來加以判斷。然後,錯誤區間特徵量抽出部260係將錯誤區間的特徵量資料予以抽出,訂正部270係將所抽出之錯誤區間的辨識結果,進行再辨識處理,以進行訂正處理。亦即,於統合部280中,會將再辨識後的結果、和收訊部235上所接收到的辨識結果,進行統合,以進行訂正處理,顯示部290就可顯示已被訂正過的辨識結果。藉此,在辨識的結果當中,將有必要的部分進行訂正,可簡易地訂正語音辨識之錯誤,可獲得正確的辨識結果。例如,可將錯誤字彙最多削減70%。又,可將未知詞所造成的錯誤訂正達60%以上。此外,信賴度係亦可從伺服器裝置120接收,或可於客戶端裝置110上進行計算。
甚至,該客戶端裝置110係可使用錯誤區間前後文脈指定部250,依照拘束條件來進行訂正處理(再辨識處理)。亦即,將錯誤區間的前後字彙予以固定,依照該固定的字彙來進行辨識處理,就可獲得精度較佳的辨識結果。
此外,本實施形態或其之後所示的其他實施形態中,雖然第1次辨識處理是在伺服器裝置120上進行,但並非限定於此,亦可第1次辨識處理是在客戶端裝置110中進行,使第2次辨識處理在伺服器裝置120上進行。此時,想當然爾,錯誤區間的指定處理等是在伺服器裝置120上進行。例如,此情況下,客戶端裝置110係具備,基於特徵量算出部210上所算出的特徵量資料來進行辨識處理用的辨識處理部,又,送訊部225係將此處的辨識結果與特徵量資料,發送至伺服器裝置120。
在伺服器裝置120上,係具備相當於客戶端裝置110中的錯誤區間指定部240、錯誤區間前後文脈指定部250、特徵量保存部230、錯誤區間特徵量抽出部260、訂正部270之各部分,從客戶端裝置110所發送來的特徵量資料,係被記憶在特徵量保存部中,基於辨識結果來進行錯誤區間之指定、錯誤區間前後文脈之指定,基於這些而進行之前所保存的特徵量資料的訂正處理(辨識處理)。如此處理好的辨識結果,係被發送至客戶端裝置110。
又,於本實施形態或其之後所示的其他實施形態中,雖然使用已被錯誤區間前後文脈指定部250所定好的拘束條件來進行再辨識(訂正處理);但在本例子的情況下,是僅利用錯誤區間的特徵量資料。亦可不像這樣使用拘束條件,就進行再辨識處理。
又,將伺服器裝置120上的辨識方法、和本實施形態(或以下所示的其他實施形態)中的辨識方法,加以改變,較為理想。亦即,於伺服器裝置120上,因為必須要辨識不特定多數使用者的語音,因此必須要具有通用性。例如,伺服器裝置120中所採用的音響模型保持部、言語模型保持部、字典保持部的各模型數、字典數是設成大容量,音響模型中的音素之數目設為較多,言語模型中的字彙數目設定得較大等等,將各模型數、字典數都設成較大容量,以使其能夠對應任何的使用者。
另一方面,客戶端裝置110上的訂正部270,就不需要對應於任何使用者,可使用符合該客戶端裝置110之使用者的語音的音響模型、言語模型、字典。因此,該客戶端裝置110,係必須要將訂正處理、辨識處理、或郵件作成時的文字輸入處理作為參考,適宜地更新各模型、字典。
又,客戶端裝置110,係更具備用以顯示已被訂正部270所訂正過的辨識結果用的顯示部290,於伺服器裝置120上所辨識的辨識結果,係不會被顯示在該顯示部290。藉此,由於有辨識錯誤可能性的辨識結果不會顯示,因此不會對使用者造成誤解。
又,客戶端裝置110,係當訂正部270上再辨識所得之辨識結果、和收訊部235所接收到的辨識結果為相同時,或這些辨識結果分別所含有之時間資訊是有差異時,則訂正部270係判斷為辨識錯誤,顯示部290係不顯示辨識結果。藉此,可防止顯示出錯誤的辨識結果。具體而言,可將錯誤字彙最多削減70%。又,可將未知詞所造成的錯誤訂正達60%以上。
<第2實施形態>
接著,說明不是基於信賴度來自動判斷錯誤區間,而是藉由使用者手動判斷所構成之客戶端裝置110a。圖8係藉由使用者輸入而受理錯誤區間的客戶端裝置110a之機能的區塊圖。如圖8所示,該客戶端裝置110a,係含有:特徵量算出部210、特徵量壓縮部220、特徵量保存部230、送訊部225、收訊部235、操作部236、結果保存部237、使用者輸入偵測部238、錯誤區間指定部240a、錯誤區間前後文脈指定部250、錯誤區間特徵量抽出部260、訂正部270、統合部280、音響模型保持部281、言語模型保持部282、字典保持部283、顯示部290所構成。該客戶端裝置110a,係和客戶端裝置110同樣地藉由圖3所示的硬體所實現。
該客戶端裝置110a,係與客戶端裝置110,在具備操作部236、結果保存部237、使用者輸入偵測部238、錯誤區間指定部240a這點是不同的。以下就該相異點為中心來說明。
操作部236,係受理使用者輸入用的部分。使用者係可一面確認顯示部290上所顯示的辨識結果,一面指定錯誤區間。操作部236,係可受理該指定。
結果保存部237,係將收訊部235所接收到的語音辨識結果加以保存用的部分。保存的語音辨識結果,係以使用者可目視的方式顯示在顯示部290。
使用者輸入偵測部238,係用來偵測操作部236所受理到的使用者輸入用的部分,係將已被輸入的錯誤區間,輸出至錯誤區間指定部240a。
錯誤區間指定部240a,係依照從使用者輸入偵測部238所輸入之錯誤區間來指定該區間用的部分。
接著,說明如此所被構成的客戶端裝置110a之處理。圖9係客戶端裝置110a之處理的流程圖。透過麥克風所被輸入之語音,係藉由特徵量算出部210而將其特徵資料予以抽出(S101)。然後,在特徵量保存部230中係保存有特徵量資料(S102)。接著,藉由特徵量壓縮部220將特徵量資料進行壓縮(S103)。已被壓縮的壓縮特徵量資料,係被送訊部225發送至伺服器裝置120(S104)。
接著,於伺服器裝置120上進行語音辨識,從伺服器裝置120發送辨識結果,被收訊部235所接收,被暫時保存,同時該辨識結果係被顯示在顯示部290(S105a)。然後,使用者係基於顯示部290上所顯示的辨識結果,來判斷錯誤區間,將該錯誤區間予以輸入。然後,藉由使用者輸入偵測部238而偵測該輸入,藉由錯誤區間指定部240來指定錯誤區間。然後,基於該已被指定之錯誤區間,來指定前後文脈(S106a)。基於將該前後文脈予以包含的錯誤區間,錯誤區間特徵量抽出部260會將特徵量資料予以抽出(S107),藉由訂正部270而進行再度語音辨識,生成錯誤區間的文字資料(S108)。然後,錯誤區間的文字資料、和收訊部235上所接收到的文字資料會進行統合,正確的文字資料,會被顯示在顯示部290上(S109)。
接著,再詳細說明上述S105a~S108中的處理。圖10係客戶端裝置110a上的藉由使用者輸入而指定錯誤區間時的詳細處理的流程圖。
收訊部235會接收辨識結果,並顯示在顯示部290(S301)。使用者係一面確認顯示部290上所顯示的辨識結果,一面指定錯誤區間,藉由使用者輸入偵測部238偵測該錯誤區間的起點位置,並予以暫時保存(S302)。然後,錯誤區間前後文脈指定部250會指定錯誤區間的前面字彙W1、並保存之(S303),已被保存的字彙W1的開始時間T1會被指定、保存(S304)。
又,使用者所指定錯誤區間的終點位置會被使用者輸入偵測部238所測出,並予以暫時保存(S305)。然後,錯誤區間前後文脈指定部250會指定錯誤區間的後面字彙W2、並保存之(S306),已被保存的字彙W2的結束時間T2會被指定、保存(S307)。
這些處理之後,從開始時間T1至結束時間T2的特徵量資料,係被錯誤區間特徵量抽出部260所抽出(S308)。以字彙W1為起點、字彙W2為終點的拘束條件之設定,會在訂正部270中進行(S309)。然後,依照該拘束條件,訂正部270進行對特徵量資料之辨識處理,執行訂正處理(S310)。
藉由如此處理,就可藉由使用者輸入來指定錯誤區間,藉此可進行再辨識而進行辨識結果的訂正處理。
於此種客戶端裝置110a中,顯示部290會顯示辨識結果,使用者係目視確認之,並且,使用者藉由操作操作部236,就可指定錯誤區間,亦即欲訂正的地點。藉此,在辨識的結果當中,將有必要的部分進行訂正,可簡易地進行訂正處理,同時,可獲得正確的辨識結果。
<第3實施形態>
接著說明,當從伺服器裝置120所發送來的辨識結果中不含有時間資訊時,可正確指定錯誤區間的客戶端裝置110b。圖11係該客戶端裝置110b之機能的區塊圖。該客戶端裝置110b,係含有:特徵量算出部210、特徵量壓縮部220、送訊部225、特徵量保存部230、收訊部235、時間資訊算出部239、錯誤區間指定部240、錯誤區間特徵量抽出部260、錯誤區間前後文脈指定部250、訂正部270、音響模型保持部281、言語模型保持部282、字典保持部283所構成。該客戶端裝置110b,係和第1實施形態的客戶端裝置110同樣地藉由圖3所示的硬體所實現。
又,與第1實施形態的客戶端裝置110之相異點係為,此客戶端裝置110b係從伺服器裝置120接收不含有經過資訊的辨識結果,然後,於時間資訊算出部239中基於辨識結果亦即文字資料來自動算出經過時間(框架索引)這點。以下就該相異點為中心來說明客戶端裝置110b。
時間資訊算出部239,係使用收訊部235上所接收到的辨識結果當中的文字資料及特徵量保存部230中所記憶的特徵量資料,算出文字資料的經過時間用的部分。更具體而言,係時間資訊算出部239,係藉由比較所被輸入的文字資料、和特徵量保存部230中所記憶的特徵量資料,將文字資料的一字彙或一辨識單位轉換成頻率資料時,判斷與特徵量資料一致到哪個部分,藉此就可算出文字資料的經過時間。例如,當特徵量資料的10框架部分為止是和文字資料的一字彙一致時,則該一字彙就具有10框架的經過時間。
錯誤區間指定部240b,係可使用被時間資訊算出部239所算出的經過時間及文字資料,來指定錯誤區間。該錯誤區間指定部240b,係基於辨識結果中所含有之信賴度資訊來判斷錯誤區間。此外,亦可如第2實施形態那樣,藉由使用者輸入來指定錯誤區間。
如此,基於已被錯誤區間指定部240b所指定的錯誤區間,錯誤區間前後文脈指定部250係指定含有前後上下文的錯誤區間,錯誤區間特徵量抽出部260係將該錯誤區間的語音資料予以抽出,然後訂正部270係進行再度辨識處理,就可進行訂正處理。
接著,說明該客戶端裝置110b的處理。圖12係客戶端裝置110b之處理的流程圖。透過麥克風所被輸入之語音,係藉由特徵量算出部210而將其特徵資料予以抽出(S101)。然後,在特徵量保存部230中係保存有特徵量資料(S102)。接著,藉由特徵量壓縮部220將特徵量資料進行壓縮(S103)。已被壓縮的壓縮特徵量資料,係被送訊部225發送至伺服器裝置120(S104)。
接著,於伺服器裝置120上進行語音辨識,從伺服器裝置120發送辨識結果(不含經過時間),被收訊部235所接收(S105)。然後,根據語音辨識結果及特徵量保存部230的特徵量資料,藉由時間資訊算出部239而算出經過時間,使用該經過時間及語音辨識結果,藉由錯誤區間指定部240而指定錯誤區間。藉由錯誤區間前後文脈指定部250,基於該已被指定之錯誤區間,來指定前後文脈(S106b)。基於將該前後文脈予以包含的錯誤區間,錯誤區間特徵量抽出部260會將特徵量資料予以抽出(S107),藉由訂正部270而進行再度語音辨識,生成錯誤區間的文字資料(S108)。然後,錯誤區間的文字資料、和收訊部235上所接收到的文字資料會進行統合,正確的文字資料,會被顯示在顯示部290上(S109)。
接著,說明包含S106b的更詳細之處理。圖13係S105至S108的詳細處理的流程圖。
藉由收訊部235接收不含經過時間的辨識結果(S401),於時間資訊算出部239上算出文字資料中的經過時間(S402)。藉由錯誤區間指定部240,從辨識結果中指定出錯誤區間(S403)。基於該錯誤區間,錯誤區間前後文脈指定部250會指定錯誤區間的前面字彙W1(圖5(a)),並保存之(S404)。又,藉由錯誤區間前後文脈指定部250,錯誤區間的後面字彙W2(圖5(a))會被指定而記憶(S405)。接著,藉由錯誤區間前後文脈指定部250,指定該字彙W1的開始時間T1(圖5(a))(S406),並指定字彙W2的結束時間T2(圖5(a))(S407)。
如此,對錯誤區間再各自加上其前後一字彙而得到的錯誤區間亦即開始時間T1至結束時間T2的區間的特徵量資料,係被錯誤區間特徵量抽出部260所抽出(S408)。以字彙W1為起點、字彙W2為終點的拘束條件之設定,會在訂正部270中進行(S409)。然後,依照該拘束條件,訂正部270進行對特徵量資料之辨識處理,執行訂正處理(S410)。
若依據此客戶端裝置110b,則基於被收訊部235所接收到的辨識結果與特徵量保存部230中所記憶的特徵量資料,時間資訊算出部239會算出辨識結果的經過時間。然後,錯誤區間指定部240,就可基於該時間資訊,來指定錯誤區間。此處,基於已指定的錯誤區間來指定其前後文脈,然後,基於其特徵量資料來進行訂正處理。藉此,當辨識結果中沒有包含時間資訊時,也可指定適切的錯誤區間。
<第4實施形態>
接著,說明僅根據於伺服器裝置120上進行語音辨識所得到的辨識結果,來進行訂正處理的客戶端裝置110c。圖14係客戶端裝置110c之機能的區塊圖。該客戶端裝置110c,係含有:特徵量算出部210、特徵量壓縮部220、錯誤區間指定部240、錯誤區間前後文脈指定部250、訂正部270a、及言語DB保持部284所構成。該客戶端裝置110c,係和客戶端裝置110同樣地藉由圖3所示的硬體所實現。
該客戶端裝置110c,係相較於客戶端裝置110,在不將語音輸入所得之特徵量資料予以記憶,且在該特徵量資料訂正處理之際不再度使用之構成這點,有所不同,具體而言,係不具備特徵量保存部230、錯誤區間特徵量抽出部260、音響模型保持部281、言語模型保持部282、字典保持部283這點,有所不同。以下,基於相異點加以說明。
特徵量算出部210,係根據語音輸入而算出特徵量資料,特徵量壓縮部220,係將特徵量資料予以壓縮,發送至伺服器裝置120。然後,收訊部235,係從伺服器裝置120接收辨識結果。錯誤區間指定部240,係藉由信賴度資訊或使用者操作來指定錯誤區間,錯誤區間前後文脈指定部250係指定其前後文脈,然後指定錯誤區間。
訂正部270a,係將已被含前後文脈之錯誤區間所指定的文字資料,基於言語DB保持部284中所記憶的資料庫,來進行轉換處理。該言語DB保持部284,係記憶著與言語模型保持部282大致相同的資訊,是記憶著每一音節的連鎖機率。
然後,該訂正部270a,係將有發生錯誤區間之可能性的字彙列w(Wi,Wi+1…Wj),加以列出。此處,也會將字彙列w的數目限制為K。關於限制的數目K,係設成和錯誤字彙數P相同,或是接近P的一定範圍(K=P-c至P+c)。
然後,訂正部270a係計算出,將所被列出的所有字彙列限定成前後字彙W1與W2時的似然(Likelihood)。亦即,對所有的W序列,利用終端內所保存的言語DB,使用以下的式(1)來求出似然。
字彙列(W1 w W2)的似然P(w1 w w2)=P(W1,Wi,Wi+1…Wj,W2)=P(W1)*P(Wi/W1)…*P(W2/Wj) ‧‧‧(1)
然後計算錯誤區間之字彙列與候補的距離,也時也會加上該距離。此情況下就變成以下的式(2)之計算式。
字彙列(W1 w W2)的似然P(w1 w w2)=P(W1,Wi,Wi+1…Wj,W2)*P(Wi,Wi+1…Wj,Werror) ‧‧‧(2)
P(Wi,Wi+1…Wj,Werror)係表示錯誤字彙列Werror與候補列Wi,Wi+1…Wj間的距離。
該式的P(Wn/Wm)係在N-gram模型當中將Bi-gram視為對象者,是表示Wm之後出現Wn之機率。此處雖然是以Bi-gram的例子來說明,但亦可利用其他的N-gram模型。
統合部280,係將如此已被訂正部270a所轉換的文字資料,與所接收到的辨識結果中的文字資料加以統合,顯示部290係將統合並訂正過的文字資料,予以顯示。此外,亦可在統合之前,將使用訂正部270a所算出的似然來排序過的候補予以列出,讓使用者來選擇之,也可自動決定似然最高的候補。
接著,說明如此所被構成的客戶端裝置110c之處理。圖15係客戶端裝置110c之處理的流程圖。基於語音輸入的語音資料,特徵量算出部210會算出特徵量資料,被特徵量壓縮部220壓縮過的特徵量資料,係被發送至伺服器裝置120(s502)。
接著,於伺服器裝置120上進行語音辨識後的辨識結果,係被收訊部235所接收(S502),藉由錯誤區間指定部240而指定出錯誤區間(S503)。此處,錯誤區間之指定,係可基於信賴度來為之,也可藉由使用者輸入來指定。
其後,錯誤區間前後文脈指定部250會指定錯誤區間的前後文脈(字彙)(S504)。然後,藉由訂正部270a,進行再度轉換處理,此時錯誤區間的候補會被列出(S505)。此處,藉由訂正部270a而計算出各候補的似然(S506),基於似然來進行排序處理(S507),排序處理過的候補群會被顯示在顯示部290(S508)。
於該客戶端裝置110c中,特徵量算出部210會根據所輸入之語音而算出特徵量資料,特徵量壓縮部220會將其予以壓縮,送訊部225會將其發送至伺服器裝置120。在伺服器裝置120上,會進行語音辨識,收訊部235會接收其辨識結果。然後,錯誤區間指定部240,係基於錯誤區間前後文脈指定部250上所指定的錯誤區間,而由訂正部270a來進行訂正處理。然後,統合部280所作的統合處理之後,顯示部290就會顯示訂正後的辨識結果。藉此,在辨識的結果當中,將有必要的部分進行訂正,可簡易地訂正語音辨識之錯誤,可獲得正確的辨識結果。此外,在本實施形態中,相較於第1實施形態,因為可不記憶特徵量資料,且在再辨識處理中不使用該特徵量資料這點,所以其構成可變得較為簡易。
<第5實施形態>
接著,說明不是使伺服器裝置120進行語音辨識的分散型處理,而是於客戶端裝置110d上,進行第一語音辨識及第二語音辨識之形態。
圖16係客戶端裝置110d之機能構成的區塊圖。客戶端裝置110d,係含有:特徵量算出部210、第一辨識部226(取得手段)、言語模型保持部227、字典保持部228、音響模型保持部229、特徵量保存部230、錯誤區間指定部240、錯誤區間前後文脈指定部250、錯誤區間特徵量抽出部260、訂正部270、音響模型保持部281、言語模型保持部282、字典保持部283、統合部280、顯示部290所構成。該客戶端裝置110d,係和客戶端裝置110同樣地藉由圖3所示的硬體所實現。
該客戶端裝置110d,係與第1實施形態的客戶端裝置110,在沒有用來與伺服器裝置120通訊之構成這點,以及具備第一辨識部226、言語模型保持部227、字典保持部228、音響模型保持部229這點,有所不同。以下就相異點為中心來說明。
第一辨識部226,係對特徵量算出部210上所算出之特徵量資料,使用言語模型保持部227、字典保持部228、及音響模型保持部229來進行語音辨識。
言語模型保持部227,係將字彙、文字等之連鎖機率加以表示的統計性資訊,加以記憶用的部分。字典保持部228,係將音素與文字的資料庫加以保持,是記憶例如HMM(Hidden Marcov Model)用的部分。音響模型保持部229,係將音素與其頻譜,建立對應而加以記憶的資料庫。
錯誤區間指定部240,係將上述的錯誤區間指定部240中所辨識出來的辨識結果予以輸入,並指定錯誤區間。錯誤區間特徵量抽出部260,係指定錯誤區間的前後文脈,錯誤區間特徵量抽出部260係將含前後文脈之錯誤區間的特徵量資料,予以抽出。然後,訂正部270係基於特徵量資料來進行再度辨識處理。此訂正部270,係成為第二辨識部而發揮機能。
然後,一旦統合部280所作的統合處理進行後,則顯示部290就可顯示已被訂正過的辨識結果。
接著,說明該客戶端裝置110d的動作。圖17係客戶端裝置110d之處理的流程圖。藉由特徵量算出部210而算出所被輸入之語音的特徵量資料(S601),所被算出的特徵量資料,係被保存在特徵量保存部230中(S602)。與該保存處理平行地,藉由第一辨識部226來陣型語音辨識(S603)。
被第一辨識部226所語音辨識過的辨識結果的錯誤區間,係被錯誤區間指定部240及錯誤區間前後文脈指定部250所指定(S604)。該已被指定之錯誤區間(含前後文脈)的特徵量資料,係從特徵量保存部230被錯誤區間特徵量抽出部260所抽出(S605)。然後,藉由訂正部270而再度辨識錯誤區間的語音(S606)。此處,已被辨識的辨識結果,係被統合部280所統合,藉由顯示部290而顯示出辨識結果(S607)。
如此,在客戶端裝置110d內,會藉由第一辨識部226及第二辨識部(訂正部)270來進行辨識處理,因此可進行較正確的語音辨識。此外,第一辨識部226與第二辨識部係採用不同的辨識方法,較為理想。藉此,對於第一辨識部226中所未能辨識的語音,仍可於第二辨識部270中進行補救,整體而言可期待正確的語音辨識之結果。
若依據客戶端裝置110d,則於特徵量算出部210上根據所輸入之語音來算出特徵量資料,於特徵量保存部230中將其記憶。另一方面,第一辨識部226,係基於特徵量資料來進行語音辨識處理,錯誤區間指定部240及錯誤區間前後文脈指定部250係於已被辨識的辨識結果中,指定有發生辨識錯誤的錯誤區間。然後,訂正部270(第二辨識部),係將已被指定之錯誤區間的辨識結果,予以訂正。藉此,在辨識的結果當中,將有必要的部分進行訂正,可簡易地進行訂正處理,同時,可獲得正確的辨識結果。又,藉由在客戶端裝置110d內進行二度辨識處理,就不需要使用伺服器裝置120。
<第6實施形態>
接著,說明第2實施形態的變形例亦即第6實施形態。若依據該實施形態,則可自動判斷錯誤區間之終點,具有如此特徵。
圖18係第6實施形態的客戶端裝置110f之機能構成的區塊圖。客戶端裝置110f,係含有:特徵量算出部210、特徵量壓縮部220、特徵量保存部230、送訊部225、收訊部235、操作部236、結果保存部237、使用者輸入偵測部238、錯誤區間指定部240c、終點判斷部241、錯誤區間前後文脈指定部250、錯誤區間特徵量抽出部260、訂正部270、統合部280、音響模型保持部281、言語模型保持部282、字典保持部283、顯示部290所構成。該客戶端裝置110f,係和客戶端裝置110同樣地藉由圖3所示的硬體所實現。
該客戶端裝置110f,係於錯誤區間指定部240c中僅受理錯誤區間之起點,終點判斷部241係基於所定之條件來判斷錯誤區間之終點這點,是與第2實施形態不同。以下,基於圖18所示的區塊圖,以與第2實施形態之相異點為中心來進行說明。
和第2實施形態所示之構成同樣地,客戶端裝置110f,係將伺服器裝置120上所辨識出之辨識結果,以收訊部235進行接收,結果保存部237會保存該辨識結果。然後,該辨識結果會被顯示在顯示部290,同時使用者係一面觀看該顯示部290上所顯示的辨識結果,一面操作著操作部236,藉此以指定錯誤區間之起點。使用者輸入偵測部238,係偵測該起點,將其輸出至錯誤區間指定部240c。
錯誤區間指定部240c,係依照由使用者所指定的起點及終點判斷部241中所判斷的終點,來指定錯誤區間。在判斷錯誤區間之終點之際,錯誤區間指定部240c係一旦偵測有從使用者指定了起點,則將該意旨輸出至終點判斷部241,指示終點之判斷。
終點判斷部241,係依照來自錯誤區間指定部240c之指示,自動判斷錯誤區間之終點用的部分。例如,終點判斷部241,係將收訊部235上所接收、被保存於結果保存部237中的語音辨識結果中所含之信賴度資訊,和預先設定的閾值進行比較,將信賴度超過閾值的字彙(或信賴度最高的字彙),判斷為錯誤的終點。然後,終點判斷部241,係將已判斷之終點,輸出至錯誤區間指定部240c,錯誤區間指定部240c就可指定錯誤區間。
例如用以下的語音為例來說明。此外,這裡為了說明上的方便,假設是指定“活性化”這個詞來作為錯誤區間之起點。
「目標達成、皆協力必要 。」
(kono mokuhyou wo tassei suru tame ni wa, mina san no kyouryouku ga hituyou desu。)
中譯:「為了達成此目標,需要各位的協力。」
「目標活性化、皆協力必要 。」
(kono mokuhyou wo kasseika no tame ni wa,mina san no kyouryouku ga hituyou desu。)
中譯:「為了活性化此目標,需要各位的協力。」
此處,將語音辨識結果,切割成字彙單位來看。此外,“/”係表示字彙的區隔。
「/目標//活性化/、/皆///協力//必要/。」
(kono/mokuhyou/wo/kasseika/no/tame/ni/wa,/mina/san/no/kyouryouku/ga/hituyou/desu。)
中譯:「為了/活性化/此/目標/,/需要/各位/的/協力/。」作為該語音辨識結果,“活性化(kasseika)”的信賴度為0.1、“(no)”的信頼度為0.01、“(tame)”的信頼度為0.4、“(ni)”的信頼度為0.6的情況下,若閾值設為0.5,則可判斷“活性化///(kasseika/no/tame/ni)”中的“(ni)”是終點。
此外,終點判斷部241,雖然也可將信賴度為閾值以上的字彙的前一個(上面的例子中係為“(tame)”)判斷為終點,但在錯誤區間的指定上,只要結果而言有包含到錯誤的部分即可,因此可採取任一方法。
此種錯誤區間的指定方法,由於是按照使用者平常的訂正習慣而為之,因此很便於使用。亦即,例如在漢字變換時,使用者指定錯的情況下,首先輸入了起點,接著刪除錯誤,然後輸入正確字彙列,是一般常用的慣例。上述的錯誤區間之指定方法也是,輸入了起點後,就自動地定出終點,因此符合該操作方法,對使用者而言可沒有異樣感地進行操作。
又,終點判斷部241,係在判斷終點之際,不限定於上述方法。例如,亦可為依照特定的發音記號來判斷終點的方法,或是將錯誤起點開始後第n個字彙視為終點之方法。此處,所謂依照發音記號之方法,係係為基於發話中的停頓來進行判斷之方法,亦可為基於出現在語句交界的短停頓(逗點)、出現在發話最後的長停頓(句點)來進行判斷。藉此,以文章的區隔來進行判斷,就可期待較正確的語音辨識。
以下說明其具體例。作為語音是以和上述相同內容的以下內容為例來說明。
「目標達成、皆協力必要 。」
(kono mokuhyou wo tassei suru tame ni wa,mina san no kyouryouku ga hituyou desu。)
中譯:「為了達成此目標,需要各位的協力。」
「目標活性化、皆協力必要 。」
(kono mokuhyou wo kasseika no tame ni wa,mina san no kyouryouku ga bituyou desu。)
中譯:「為了活性化此目標,需要各位的協力。」
使用者係藉由操作著操作部236,將“目標(kono mokuhyou wo)”之後設定為錯誤區間之起點,則終點判斷部241係將最靠近該部分的停頓(逗點部分),判斷為終點。錯誤區間指定部240c,係可基於該終點來指定錯誤區間。上述的例子中,作為錯誤區間之終點,係指定了“、(tame ni wa,)”中的“、”之部分。此外,“、”的部分實際上並非語音,而是一瞬間有停頓之狀態。
此外,作為特定的發音係除了逗點、句點以外,亦可為“~(e-)”、“~(ano-)”這類發語詞發音,或是“(masu)”、“(desu)”這類結尾詞字彙。
接著,例示將錯誤起點平移的第M個字彙視為終點的方法之例子。以下所示的文章,係為區分成字彙單位之狀態。此外,“/”係表示字彙的區隔。
「/目標//活性化/、/皆//協力//必要/。」
(kono/mokuhyou/wo/kasseika/no/tame/ni/wa,/mina/san/no/kyouryouku/ga/hituyou/desu。)
中譯:「為了/活性化/此/目標/,/需要/各位/的/協力/。」
例如,將起點設為“活性化(kasseika)”時,且M=3的情況下,“活性化(kasseika/no/tame)”中的“(tame)”就成為終點的字彙。因此,錯誤區間指定部240c,係可將“活性化(kasseika/no/tame)”,指定為錯誤區間。此外,當然M=3以外也行。
接著,說明將辨識結果的候補數(衝突數)較少的字彙設為終點的方法之例子。例如,用以下的例子來說明。在「/目標//活性化((kono/mokuhyou/wo/kasseika/no/tame)」中,可舉除以下的候補。
「活性化(kasseika)」:“(dare)”、“沢山(takusan)”、‘‘(osusume)”「(no)」:“(ka)”、“(aru)”「(tame)」:-(無候補)
作為參考,中文的發音及其候補例例示如下。
北海道:柔道 拜見 別的
如期:突起 路基 提起 體積
舉行:舉行
該候補的數目,係反映出該區間的模糊性,信賴性越低則會有越多的候補會被從伺服器裝置120發送過來。此外,在此例中係被構成為,於伺服器裝置120上,不會發送信賴度資訊,改成將基於信賴度資訊所得到之其他候補,直接發送至客戶端裝置110。
此情況下,關於「(tame)」,由於沒有候補,所以可想成它的信賴度就是那麼高。因此,在此例中,作為錯誤區間就可將其前面的“(no)”判斷為錯誤區間之終點。此外,作為錯誤區間之終點,並不限定於其緊臨的前方,亦可帶有某種程度的幅度。
如以上所述,可考量將終點地點以基於信賴度之方法、利用特定發音記號(或發音)之方法、將起點至第M個字彙視為錯誤區間之方法,但亦可將這些方法加以組合,亦即,將這些複數方法的訂正結果,作為N-best的形式或從複數方法的辨識結果中選擇初一者的形式。此情況下,亦可依照辨識結果的分數高低順序而將辨識結果予以清單顯示,讓使用者從該清單中選擇任意的辨識結果。
如此,基於錯誤區間指定部240c所指定的錯誤區間,錯誤區間前後文脈指定部250會指定包含其前後之區間,錯誤區間特徵量抽出部260係將其特徵量資料從特徵量保存部230中予以抽出,訂正部270係對該特徵量資料進行再辨識處理,以進行訂正處理。
接著,說明如此所被構成的客戶端裝置110f之動作。圖19係客戶端裝置110f之處理的流程圖。
透過麥克風所被輸入之語音,係藉由特徵量算出部210而將其特徵資料予以抽出(S101)。然後,在特徵量保存部230中係保存有特徵量資料(S102)。接著,藉由特徵量壓縮部220將特徵量資料進行壓縮(S103)。已被壓縮的壓縮特徵量資料,係被送訊部225發送至伺服器裝置120(S104)。
接著,於伺服器裝置120上進行語音辨識,從伺服器裝置120發送辨識結果,被收訊部235所接收,被暫時保存,同時該辨識結果係被顯示在顯示部290(S105a)。然後,使用者係基於顯示部290上所顯示的辨識結果,來判斷錯誤區間之起點,該起點,藉由操作一操作部236來加以指定。然後,一旦藉由使用者輸入偵測部238而偵測出起點已被指定之事實,則藉由終點判斷部241就會自動地判斷錯誤區間之終點。例如,基於語音辨識結果中所含信賴度來進行判斷,或是將預定的發音記號所出現之地點,判斷為終點,然後從起點起第M個(M係預先定好的任意值)判斷為終點。
然後藉由錯誤區間指定部240c而如此指定出起點及終點。然後,基於該已被指定之錯誤區間,來指定前後文脈(S106c)。基於將該前後文脈予以包含的錯誤區間,錯誤區間特徵量抽出部260會將特徵量資料予以抽出(S107),藉由訂正部270而進行再度語音辨識,生成錯誤區間的文字資料(S108)。然後,錯誤區間的文字資料、和收訊部235上所接收到的文字資料會進行統合,正確的文字資料,會被顯示在顯示部290上(S109)。
此外,含有S106c的S105a~108之處理,係和圖10所示的流程圖進行大致相e之處理,但關於S305之處理,終點判斷部241係自動地判斷錯誤區間之終點地點並將其保存這點,有所不同。
如以上所述,若依據此實施形態,則此種錯誤區間之指定方法,係可依循使用者平常的訂正習慣,可提供非常便於使用的裝置。
<第7實施形態>
接著,說明第7實施形態。若依據本實施形態,則錯誤區間中,使用者指定開頭之文字,藉此就可以該指定之文字作為拘束條件來使其進行較正確的語音辨識。
圖20係第7實施形態的客戶端裝置110g之機能構成的區塊圖。客戶端裝置110g,係含有:特徵量算出部210、特徵量壓縮部220、特徵量保存部230、送訊部225、收訊部235、操作部236、結果保存部237、使用者輸入偵測部238、錯誤區間指定部240a、錯誤區間前後文脈指定部250a、錯誤區間特徵量抽出部260、訂正部270、統合部280、音響模型保持部281、言語模型保持部282、字典保持部283、顯示部290所構成。該客戶端裝置110g,係和客戶端裝置110同樣地藉由圖3所示的硬體所實現。
該客戶端裝置110g,係由操作部236從使用者接受錯誤區間中的訂正後之文字來作為拘束條件,錯誤區間前後文脈指定部250a會在錯誤區間前後指定文脈,和操作部236上所受理到的訂正後之文字,訂正部270係將這些錯誤區間前後文脈與訂正後之文字視為拘束條件,來進行再辨識處理,以進行訂正處理,這點是具有特徵。
亦即,操作部236,係從使用者受理用來指定錯誤區間之輸入,其後,會受理錯誤區間中的訂正後之文字輸入。
錯誤區間前後文脈指定部250a,係進行和上述第1實施形態中的錯誤區間前後文脈指定部250大致相同之處理,於錯誤區間之前後,指定已被辨識之字彙(一辨識單位),並且將已於操作部236上所受理到的訂正後之文字,予以指定。
訂正部270係基於,已於錯誤區間特徵量抽出部260中所被抽出之特徵量資料及已於錯誤區間前後文脈指定部250a中所被指定之拘束條件,來進行再辨識處理,就可執行訂正處理。
例如,基於以下的例子來說明上述處理。
「目標達成、皆協力必要 。」
(kono mokuhyou wo tassei suru tame ni wa,mina san no kyouryouku ga hituyou desu。)
中譯:「為了達成此目標,需要各位的協力。」
「目標活性化、皆協力必要 。」
(kono mokuhyou wo kasseika no tame ni wa,mina san no kyouryouku ga hituyou desu。)
中譯:「為了活性化此目標,需要各位的協力。」
這種情況下,使用者係藉由操作著操作部236,在錯誤區間的起點(上述例子中係為“目標(kono mokuhyou wo)”的下一位置),輸入正確的文字內容。應輸入之平假名列係為“(tassei suru tame ni)”。以下的例子,係以將輸入開頭之一部分的“(ta)”加以輸入之情形為例來說明。此外,假設錯誤區間之起點與終點,係藉由和上述同樣之方法而已決定或將被決定。
一旦使用者透過了操作部236而輸入了“(ta)”,則錯誤區間前後文脈指定部250a係將作為前後文脈的“目標(kono mokuhyou wo)”,和作為輸入文字的“(ta)”,視為拘束條件;亦即,將“目標 (kono mokuhyou wo ta)”,視為在辨識特徵量資料之際的拘束條件,而加以設定。
如此,將使用者的文字輸入內容視為拘束條件而進行再度語音辨識的辨識結果,提示給使用者,就可提示較正確的辨識結果。此外,訂正方法,係亦可除了語音辨識以外,倂用按鍵文字輸入方法。例如,作為按鍵文字輸入方法係可考量日文假名漢字變換。在日文假名漢字變換中係具有,將輸入文字內容與字典進行比較,並預測其變換結果之機能。例如,一旦輸入了“(ta)”,則從資料庫中依序列出以“(ta)”為首的字彙,提示給使用者。
此處,亦可利用這種機能,將假名漢字變換的資料庫之候補與語音辨識所得之候補予以清單顯示,基於這些清單,使用者可選擇任意之候補。清單顯示的順序,係可依照被賦予至變換結果或辨識結果之分數順序來為之,亦可將基於假名漢字變換之候補與語音辨識所致之候補進行比較,關於完全一致或部分一致的候補,係亦可將各自所被賦予的分數進行核計,基於該分數來排序。例如,假名漢字變換的候補A1“達成(tassei)”的分數是50,語音辨識結果的候補B1“達成(tassei suru)”的分數是80的情況下,由於候補A1與候補B1是有部分一致,因此亦可對各分數,乘算所定之係數,基於核計所得之分數來進行顯示。此外,完全一致的情況下,則不需要進行乘算係數之類的調整處理。又,亦可在使用者已選擇了假名漢字變換的候補A1“達成(tassei)”的階段下,以“目標達成(kono mokuhyou wo tassei)”為拘束條件,將尚未被確定的剩下之“(suru)”所相當之特徵量資料,進行再度辨識,來顯示候補清單。
接著,說明如此所被構成的客戶端裝置110g之動作。圖21係客戶端裝置110g之處理的流程圖。
透過麥克風所被輸入之語音,係藉由特徵量算出部210而將其特徵資料予以抽出(S101)。然後,在特徵量保存部230中係保存有特徵量資料(S102)。接著,藉由特徵量壓縮部220將特徵量資料進行壓縮(S103)。已被壓縮的壓縮特徵量資料,係被送訊部225發送至伺服器裝置120(S104)。
接著,於伺服器裝置120上進行語音辨識,從伺服器裝置120發送辨識結果,被收訊部235所接收,被暫時保存,同時該辨識結果係被顯示在顯示部290(S105a)。然後,使用者係基於顯示部290上所顯示的辨識結果,來指定錯誤區間(S106d)。然後,使用者係對操作部236,進行用來訂正錯誤區間之辨識結果所需之文字輸入。在操作部236上,一旦接受了文字輸入,便對錯誤區間前後文脈指定部250a進行輸出,錯誤區間前後文脈指定部250a係基於所被輸入之文字,還有該已被指定之錯誤區間,來指定前後文脈。基於將該前後文脈予以包含的錯誤區間,錯誤區間特徵量抽出部260會將特徵量資料予以抽出(S107),藉由訂正部270而進行再度語音辨識,生成錯誤區間的文字資料(S108)。然後,錯誤區間的文字資料、和收訊部235上所接收到的文字資料會進行統合,正確的文字資料,會被顯示在顯示部290上(S109)。
此外,關於含有S106d之S105a~108之處理,係進行和圖10所示的流程圖進行大致相同之處理。甚至,於本實施形態中,除了圖10的流程圖中的各處理外,還必須要加上,於S309中,將操作部236上所受理到的文字當成拘束條件而加以設定之處理。此外,在到達S309以前,必須要完成拘束條件的文字輸入受理。
如以上所述,若依據此實施形態,則作為拘束條件是除了前後文脈還設定了從使用者所指定的文字,藉此就可進行較正確的語音辨識。
<第8實施形態>
接著,說明第8實施形態。若依據本實施形態,則於訂正部270上再辨識後之結果,會是不同於再辨識前之辨識結果的辨識結果。
圖22係第8實施形態的客戶端裝置110h之機能構成的區塊圖。客戶端裝置110h,係含有:特徵量算出部210、特徵量壓縮部220、特徵量保存部230、送訊部225、收訊部235、操作部236、結果保存部237、使用者輸入偵測部238、錯誤區間指定部240a、錯誤區間前後文脈指定部250、錯誤區間特徵量抽出部260、訂正部270、統合部280、音響模型保持部281、言語模型保持部282、字典保持部283、顯示部290所構成。該客戶端裝置110h,係和客戶端裝置110同樣地藉由圖3所示的硬體所實現。以下,就與圖2中的客戶端裝置110之相異點為中心來說明。
訂正部270b,係和圖3中的訂正部270同樣地是進行再辨識處理等用之部分。然後,訂正部270b,係基於結果保存部237中所記憶之辨識結果,以使得同樣辨識錯誤不再發生的方式,進行再辨識處理。亦即,訂正部270b係與已於錯誤區間指定部240a中所指定之錯誤區間中的辨識結果進行比較,為了使其不得到相同的辨識結果,於再辨識的探索過程中,將包含錯誤區間中之辨識結果的路徑,從候補中予以排除在外,進行如此處理。作為除外處理,訂正部270b係對錯誤區間的特徵量資料,乘算所定之係數,以使候補中的假說的機率設成極小化,藉此,結果而言,就不會去選擇極小的候補。此外,上述方法中,雖然是將再辨識時有發生錯誤之可能性的候補(例如“活性化”),從辨識結果候補中除外,但並不限定於此,亦可於再辨識辨識結果提示之際,不顯示出有錯誤可能性之辨識結果的一候補(例如“活性化”)。
此外,該客戶端裝置110h,係執行和圖8所示流程圖大致相同之處理。此外,關於S108中的錯誤區間之辨識處理,係為了不顯示同樣的辨識結果,而進行從候補中予以除外的辨識處理,這點有所不同。
如以上所述,由於訂正對象的字彙有錯誤,因此不應該對再辨識後的結果,輸出已經是訂正對象的字彙,因此在本實施形態中,可使此種訂正結果不被顯示。
<第9實施形態>
接著,說明第9實施形態。若依據此實施形態,則於錯誤區間特徵量抽出部260上所抽出的特徵量資料的錯誤區間中,算出平均值,使用特徵量資料減去該平均值後的資料來進行再辨識處理。
關於該具體構成,進行說明。圖23係第9實施形態的客戶端裝置110i之機能的區塊圖。該客戶端裝置110i,係含有:特徵量算出部210、特徵量壓縮部220、特徵量保存部230、送訊部225、收訊部235、錯誤區間指定部240、錯誤區間前後文脈指定部250、錯誤區間特徵量抽出部260、平均值計算部261(算出手段)、特徵正規化部262(訂正手段)、訂正部270(訂正手段)、統合部280、音響模型保持部281、言語模型保持部282、字典保持部283、顯示部290所構成。該客戶端裝置110i,係和客戶端裝置110同樣地藉由圖3所示的硬體所實現。以下,就與圖2中的客戶端裝置110之相異點、亦即平均值計算部261及特徵正規化部262為中心來說明。
平均值計算部261,係用來算出,已於錯誤區間特徵量抽出部260上所被抽出之特徵量資料中的錯誤區間之平均值(或含錯誤區間前後之平均值)用的部分。更具體而言,平均值計算部261係將錯誤區間中的各辨識單位之每一頻率的輸出值(大小),予以累積加算。然後,將累積加算所得到之輸出值,除以其辨識單位數,以算出平均值。例如,“活性化/(kasseika/no/tame)”的錯誤區間中的辨識單位,係為被斜線“/”所區隔的部分。每一辨識單位亦即辨識框架n,係由頻率fn1~fn12所構成,若假設其輸出值為gn1~gn12,則頻率f1的平均值可用g1=Σ gn1/n(上述的例子中,n=1至3)來表示。
亦即,假設構成“活性化(kasseika)”的頻率f11~f112(輸出值為g11~g112),構成“(no)”的頻率f21~f212(輸出值為g21~g212),構成“(tame)”的頻率f31~f312(輸出值為g31~g312)的情況下,頻率f1的平均值係可藉由(g11+g21+g31)/3而算出。
特徵正規化部262,係進行減算處理,將已於平均值計算部261上所算出之各頻率的平均值,從由各頻率所構成之特徵量資料中予以減去。然後,訂正部270係可對減算所得到之資料,進行再辨識處理,以進行訂正處理。
在本實施形態中,藉由使用已於平均值計算部261上所算出之平均值來修正特徵量資料,就可獲得將例如對特徵量算出部210輸入語音所需之麥克風等收音裝置之特性加以去除後的資料。亦即,可去除麥克風收音時的雜訊,可對較正確的語音,進行訂正(辨識處理)。此外,於上述實施形態中,雖然對於已在錯誤區間特徵量抽出部260上所抽出之錯誤區間進行適用,但亦可利用包含該錯誤區間之一定長度之區間的特徵量資料。
又,上述平均值計算部261及特徵正規化部262,係可對上述第2實施形態至第8實施形態分別適用。
<第10實施形態>
上述第1實施形態至第9實施形態中所記載之語音辨識結果訂正裝置亦即客戶端裝置110~110i中,雖然是由訂正部270來進行訂正處理(再辨識處理),但並非限定於此。亦即,亦可藉由構成為,將錯誤區間指定部240所指定之錯誤區間,通知給伺服器裝置120,於伺服器裝置120上進行再度訂正處理,由收訊部235來接收其訂正結果之構成。伺服器裝置120上的再訂正處理係設計為上述的客戶端裝置110的訂正部270中的訂正處理。作為客戶端裝置110中的通知處理之具體例,係可考慮,將已被錯誤區間指定部240上所被指定之錯誤區間的時間資訊、或包含其前後之字彙的時間資訊,由錯誤區間指定部240來計算之,由送訊部225將該時間資訊通知給伺服器裝置120。於伺服器裝置120上,藉由進行異於最初進行過之辨識處理的語音辨識裝置,以防止再度進行有誤的辨識。例如,改變音響模型、言語模型、字典來進行辨識處理。
<第11實施形態>
接著,說明第11實施形態的客戶端裝置110k。該第11實施形態中的客戶端裝置110k,係辨識詞根區間,使用該當詞根區間中所被描述的詞根字串,來進行訂正處理。圖26係該當客戶端裝置110k之機能的區塊圖。
該客戶端裝置110k,係含有:特徵量算出部210、特徵量壓縮部220、送訊部225、特徵量保存部230、收訊部235、錯誤區間指定部240、詞根區間指定部242、分割部243、錯誤區間特徵量抽出部260、字典追加部265、訂正部270、統合部280、音響模型保持部281、言語模型保持部282、字典保持部283及顯示部290所構成。
與第1實施形態,在含有詞根區間指定部242、分割部243、及字典追加部265這點,是有所不同。以下就該相異點為中心來說明其構成。
詞根區間指定部242,係從已於錯誤區間指定部240上所被指定之錯誤區間中,指定出含有詞根字串之區間用的部分。對於詞根字串,作為其屬性資訊,係附加有表示其係未知詞的“subword”之意旨,詞根區間指定部242係可基於其屬性資訊來指定詞根區間。
例如,在圖28(a)中係圖示了,於伺服器裝置120上,基於發話內容所辨識成的辨識結果。若依照圖28(a),則對“(sanyoumusen)”附加“subword”來作為屬性資訊,詞根區間指定部242係可基於該屬性資訊而將“(sanyoumusen)”辨識成為詞根字串,將該字串部分指定成為詞根區間。
此外,於圖28(a)中,依照發話內容而對已被辨識之辨識結果的辨識單位,附加了框架索引。和上述同樣地,1框架係為10msec程度。又,於圖28(a)中,錯誤區間指定部240係可依照和上述同樣的處理,來指定錯誤區間,可將“(dewa)”(第2個辨識單位)至“(ga)”(第8個辨識單位),指定為錯誤區間。在圖28(b)中係圖示了中文的發音例子作為參考。
分割部243,係將詞根區間指定部242所指定之詞根區間中所含有的詞根字串視為交界,將已被錯誤區間指定部240所指定之錯誤區間加以分割用的部分。若以圖28(a)所示的例子為基礎,則基於詞根字串亦即“ (sanyoumusen)”,而分割成區間1和區間2。亦即,第2個辨識單位的“(dewa)”至第5個辨識單位的“(sanyoumusen)”,亦即,以框架索引而言的100msec至500msec,是被分割成區間1,第5個辨識單位的“(sanyoumusen)”至第8個辨識單位的“(ga)”,亦即300msec至660msec,是被分割成區間2。
字典追加部265,係將已被詞根區間指定部242所指定之詞根字串,追加至字典保持部283用的部分。在圖28(a)的例子中,是將“(sanyoumusen)”當成一個新的字彙而追加至字典保持部283。又,對該字典保持部283追加詞根的讀音,並且對言語模型保持部282中,追加詞根與其他字彙的連接機率。言語模型保持部282中的連接機率的值,係利用事前準備的詞根專用的級別(class)即可。又,詞根模型的字串,因為幾乎都是專有名詞,所以利用了名詞(專有名詞)之級別的值即可。
藉由如此構成,錯誤區間特徵量抽出部260,係依照被分割部243所分割而得到的區間1及區間2,而將特徵量保存部230中所保持的特徵量資料,予以抽出。然後,訂正部270係對各個區間所對應之特徵量資料,進行再辨識處理,以執行訂正處理。具體而言,若為圖28(a)之例子,則區間1的訂正結果係為“電気一(dewa denki me-ka no sanyoumusen)”,區間2的訂正結果係為“製品評判(sanyoumusen no seihin wa hyouban ga)”。
統合部280,係基於以被訂正部270訂正所得到之辨識結果(區間1及區間2)為交界的詞根字串來進行統合處理,並且與已於收訊部235上所接收到的辨識結果進行統合,令其顯示在顯示部290。若以圖28(a)為例,則統合後的結果,最終錯誤區間的文字就會成為“電気製品評判(dewa denki me-ka no sanyoumusen no seihin ha hyouban ga)”。
接著,說明如此所被構成的客戶端裝置110k之動作。圖27係客戶端裝置110k之動作的流程圖。
從S101至S105,係進行和圖6所示客戶端裝置110同樣的處理。亦即,透過麥克風所被輸入之語音,係藉由特徵量算出部210而將其特徵資料予以抽出(S101)。然後,在特徵量保存部230中係保存有特徵量資料(S102)。接著,藉由特徵量壓縮部220將特徵量資料進行壓縮(S103)。已被壓縮的壓縮特徵量資料,係被送訊部225發送至伺服器裝置120(S104)。然後,於伺服器裝置120上進行語音辨識,從伺服器裝置120發送辨識結果,被收訊部235所接收(S105)。然後,根據語音辨識結果,藉由錯誤區間指定部240來指定錯誤區間(S106)。此外,亦可基於該已被指定之錯誤區間,來指定前後文脈。
接著,詞根區間係被詞根區間指定部242所指定、確定(S701)。此外,此時,位於詞根區間中的詞根字串,是有位於客戶端裝置110k中所具備之使用者字典(例如,假名漢字變換字典中的使用者所登錄之字彙、或有被登錄在連絡人清單、電話簿中的名字等)情況下,亦可進行置換成該字彙的處理。然後,藉由分割部243,以詞根區間為交界而分割出錯誤區間(S702)。進行該分割處理的同時,藉由字典追加部265,將已被指定的詞根字串,保持在字典保持部283中(S703)。
其後,藉由錯誤區間特徵量抽出部260,將錯誤區間的特徵量資料及詞根區間的特徵量資料予以抽出(S107a),藉由訂正部270而將錯誤區間及詞根區間的特徵量資料予以再辨識,以進行訂正處理(S108a)。然後,錯誤區間的文字資料、和收訊部235上所接收到的文字資料會進行統合,經過正確辨識所得到之文字資料,會被顯示在顯示部290上(S109)。此外,在統合之際,以交界的字彙為基準,而將區間1與區間2的結果,加以連結。又,訂正部270,係當上述詞根字串是基於使用者字典而被變換的情況下,亦可將變換過的字串當成拘束條件來進行語音辨識處理,使其進行訂正處理。
在本實施形態中,雖然是以詞根的字串係位於伺服器的辨識結果中為前提來說明,但該詞根的字串係亦可在客戶端裝置110k中生成。此情況下,在圖27的處理S106中的錯誤區間指定處理之後,先生成詞根字串,然後進行詞根區間確定處理。又,在客戶端裝置100k中的上述圖27之處理,係亦可在伺服器或其他裝置上進行。甚至,雖然說明了訂正方法係藉由辨識而進行之方法,但亦可用其他做法例如基於字串間類似度的方法。此時就不需要特徵量保存部230及將音響特徵量資料予以保存之處理(S102)、錯誤區間特徵量抽出部260、訂正部270及以音響特徵來進行辨識(S108a)。
甚至,當詞根的字串係有在字典保持部283中時,則亦可利用字典保持部283中的資訊。例如在字典保持部283中有對應於“(sanyoumusen)”的字彙、例如“三洋無線”時,則亦可不追加至詞根字典。
又,在之前的例子中雖然在分割區間時,區間1與區間2係都有包含詞根區間,但這並非必須如此,亦可在各分割區間中不包含詞根。亦即,亦可將第二個字彙“(dewa)”至第5個詞根字串之開始為止,分割成區間1;將第5個詞根字串結束至第8個字彙的“(ga)”,分割成區間2。此情況下,就不需要將詞根的字串對字典追加之處理。
接著,說明本實施形態的客戶端裝置110k的作用效果。於該客戶端裝置110k中,收訊部235係將辨識結果,從伺服器裝置120進行接收,錯誤區間指定部240係將錯誤區間予以指定。然後,詞根區間指定部242,係指定錯誤區間中的詞根區間。此係可藉由從伺服器裝置120所發送之辨識結果中所被附加的屬性資訊來判斷。然後,訂正部270係將已被詞根區間指定部242所指定之詞根區間所對應之特徵量資料,從特徵量保存部230中抽出,使用該當已抽出之特徵量資料來進行再辨識,以執行辨識結果之訂正。藉此,針對詞根這類未知詞,就可進行訂正處理。亦即,可依照被稱作詞根區間的未知詞之區間來進行再辨識。
又,於本實施形態的客戶端裝置110k中,分割部243係依照已被詞根區間指定部240所指定的詞根區間,來將辨識結果予以分割成複數區間。然後,訂正部270係對已被分割部243所分割之每一分割區間,執行辨識結果的訂正。藉此,就可縮短辨識對象,可進行較正確的辨識處理。
又,於客戶端裝置110k中,分割部243係將詞根區間的終點視為一分割區間的終點,並且將詞根區間的起點視為前記一分割區間的下一分割區間的起點,以此方式來分割辨識結果。然後,訂正部270,係對已被分割部243所分割之每一分割區間,執行辨識結果的訂正,並且將詞根區間,視為各分割區間之訂正時的拘束條件。藉此,詞根區間就會被包含在分割區間之任一者。因此,在辨識處理之際必定會包含詞根區間,藉此就可將詞根字串視為拘束條件來進行辨識處理。
又,於本實施形態的客戶端裝置110k中,字典追加部265係將已被詞根區間指定部242所指定的詞根區間中的詞根字串,追加至辨識處理所需之字典保持部283。藉此,就可累積詞根字串,在今後的辨識處理中有效運用,可進行較正確的辨識處理。
<第12實施形態>
在第11實施形態中雖然說明了以詞根字串為交界來進行分割之方法,但在本實施形態則是說明,即使不分割仍進行再辨識時,必定使用詞根字串之方法。本實施形態,係和上述第11實施形態為同樣的裝置構成。
圖29係語音辨識時的探索過程之概念圖,在圖29(a)中係圖示了含有詞根字串“(sanyoumusen)”的探索過程,圖29(b)係以詞根字串為拘束條件,圖示複數區間中的探索過程之概念圖。
一般而言,語音辨識探索過程中,會計算所有的路徑的假說之似然,將中途的結果予以保存,最終會按照似然由大而小之順序而生成結果。實際上,考慮到成本面,會利用在中途將探索的範圍縮減成一定範圍以內的方法。在本實施形態中,當已被詞根區間指定部242所指定之詞根區間是位於所定區間(例如2秒至3秒之間)時,則訂正部270係使用該詞根區間中所被描述的詞根字串,在探索的過程中,使詞根字串有出現的路徑的順位高於其他路徑,最終會優先輸出包含詞根字串的辨識結果的方式,來進行辨識處理。例如,以下的探索路徑是被訂正部270所獲得、保持。
路徑1:最近(saikin)/(dewa)/玄関(kenkan)/(de)/待(machiawase)
路徑2:昨日(kinou)/(no)/会議(kaigi)/(wa)/世界(sekai)/中(cyuu)/
路徑3:最近(saikin)/(dewa)/単価(tanka)/高(takai)/(sanyoumusen)
路徑4:最近(saikin)/(dewa)/電気(denkime-ka)/(no)/(sanyoumusen)
其中的路徑3與路徑4中具有“(sanyoumusen)“,因此訂正部270會進行使這二個路徑的順位高於路徑1、路徑2之處理。若在此處縮減範圍,則不會留下路徑1及路徑2,而是留下路徑3及路徑4。然後再判斷“(sanyoumusen)”的出現位置,將路徑篩選成,限定在接近原本辨識結果中所存在的“(sanyoumusen)”之出現位置(300ms至500ms)之一定範圍即可。又,亦可使得最終的辨識結果中,有出現“(sanyoumusen)”的候補是較未出現“(sanyoumusen)”的候補優先輸出。
如以上所述,在客戶端裝置110k中,訂正部270係將已被詞根區間指定部242所指定之詞根區間中所描述之詞根字串加以含有的假說,當作辨識的探索過程而提高優先順位而加以保持,從該當假說中選擇出最終的辨識結果,以執行訂正。藉此,就可必定使用詞根字串來進行辨識處理。
11...CPU
12...RAM
13...ROM
14...輸入裝置
15...輸出裝置
16...通訊模組
17...輔助記憶裝置
101(110a~110k)...客戶端裝置
120...伺服器裝置
210...特徵量算出部
220...特徵量壓縮部
225...送訊部
226...第一辨識部
227...言語模型保持部
228...字典保持部
229...音響模型保持部
230...特徵量保存部
235...收訊部
236...操作部
237...結果保存部
238...使用者輸入偵測部
239...時間資訊算出部
240(240a~240c)...錯誤區間指定部
241...終點判斷部
242...詞根區間指定部
243...分割部
250,250a...錯誤區間前後文脈指定部
251...字彙資訊解析部
260...錯誤區間特徵量抽出部
261...平均值計算部
262...特徵正規化部
265...字典追加部
270,270a,270b...訂正部
280...統合部
281...音響模型保持部
282...言語模型保持部
283...字典保持部
284‧‧‧言語DB保持部
285‧‧‧拘束條件記憶部
290‧‧‧顯示部
T1‧‧‧開始時間
T2‧‧‧結束時間
W1,W2‧‧‧字彙
NW‧‧‧網路
[圖1]本實施形態之含有語音辨識結果訂正裝置亦即客戶端裝置110(包含110a~110k)的通訊系統的系統構成圖。
[圖2]客戶端裝置110之機能的區塊圖。
[圖3]客戶端裝置110的硬體構成圖。
[圖4]語音辨識結果中所含之各種資訊之概念的概念圖。
[圖5](a)當指定了錯誤區間前後文脈時的概念圖,(b)基於拘束條件來進行辨識處理之際之概念的概念圖。
[圖6]客戶端裝置110之動作的流程圖。
[圖7]包含錯誤區間之指定的訂正處理之詳細處理的流程圖。
[圖8]藉由使用者輸入而受理錯誤區間的客戶端裝置110a之機能的區塊圖。
[圖9]客戶端裝置110a之處理的流程圖。
[圖10]客戶端裝置110a上的藉由使用者輸入而指定錯誤區間時的詳細處理的流程圖。
[圖11]該客戶端裝置110b之機能的區塊圖。
[圖12]客戶端裝置110b之處理的流程圖。
[圖13]客戶端裝置110b上的錯誤區間指定時的詳細處理的流程圖。
[圖14]客戶端裝置110c之機能的區塊圖。
[圖15]客戶端裝置110c之處理的流程圖。
[圖16]客戶端裝置110d之機能的區塊圖。
[圖17]客戶端裝置110d之處理的流程圖。
[圖18]客戶端裝置110f之機能的區塊圖。
[圖19]客戶端裝置110f之處理的流程圖。
[圖20]客戶端裝置110g之機能的區塊圖。
[圖21]客戶端裝置110g之處理的流程圖。
[圖22]客戶端裝置110h之機能的區塊圖。
[圖23]客戶端裝置110i之機能的區塊圖。
[圖24]將字彙資訊視為拘束條件而指定之部分進行訂正處理時之概念的概念圖。
[圖25]客戶端裝置110之變形例的區塊圖。
[圖26]客戶端裝置110k之機能的區塊圖。
[圖27]客戶端裝置110k之動作的流程圖。
[圖28]發話內容、辨識結果、分割區間之對應的說明用說明圖。
[圖29]語音辨識中的探索過程之概念圖。
110...客戶端裝置
210...特徵量算出部
220...特徵量壓縮部
225...送訊部
230...特徵量保存部
235...收訊部
240...錯誤區間指定部
250...錯誤區間前後文脈指定部
260...錯誤區間特徵量抽出部
270...訂正部
280...統合部
281...音響模型保持部
282...言語模型保持部
283...字典保持部
290...顯示部
Claims (32)
- 一種語音辨識結果訂正裝置,其特徵為,具備:輸入手段,係用以輸入語音;和算出手段,係用以基於被前記輸入手段所輸入之語音,而算出特徵量資料;和記憶手段,係用以記憶被前記算出手段所算出之特徵量資料;和取得手段,係用以取得對前記輸入手段所輸入之語音的辨識結果;和指定手段,係用以於前記取得手段所辨識之辨識結果中,指定出有發生辨識錯誤的錯誤區間;和訂正手段,係用以從前記記憶手段中所記憶之特徵量資料,抽出已被前記指定手段所指定之該錯誤區間所對應之特徵量資料,並使用該當已抽出之特徵量資料來進行再辨識,藉此以執行前記取得手段所得到之辨識結果的訂正。
- 如申請專利範圍第1項所記載之語音辨識結果訂正裝置,其中,前記取得手段,係由以下所構成:送訊手段,係用以將前記輸入手段所輸入之語音,發送至語音辨識裝置;和收訊手段,係用以接收前記語音辨識裝置上所辨識出來的辨識結果;前記指定手段,係於前記收訊手段所接收到的辨識結 果中,指定出有發生辨識錯誤的錯誤區間。
- 如申請專利範圍第1項或第2項所記載之語音辨識結果訂正裝置,其中,前記指定手段,係藉由受理使用者操作,以指定錯誤區間。
- 如申請專利範圍第1項或第2項所記載之語音辨識結果訂正裝置,其中,前記指定手段,係基於前記辨識結果中所被賦予的辨識結果之信賴度來判斷錯誤區間,並指定該當判斷出來之錯誤區間。
- 如申請專利範圍第1項或第2項所記載之語音辨識結果訂正裝置,其中,前記指定手段,係計算前記辨識結果之信賴度,基於該當信賴度來判斷錯誤區間,並指定該當判斷出來之錯誤區間。
- 如申請專利範圍第1項或第2項所記載之語音辨識結果訂正裝置,其中,更具備:特定手段,係用以特定,被前記指定手段所指定之錯誤區間的前方的至少一個字彙、或是後方的至少一個字彙、或是前記前方字彙及後方字彙之雙方之任一者加以形成的辨識結果;前記訂正手段,係將已被前記特定手段所特定之辨識結果,視為拘束條件,依照該拘束條件,將錯誤區間之前方字彙、後方字彙加以包含之區間所對應的特徵量資料,從前記記憶手段中予以抽出,對已抽出之特徵量資料,進行辨識處理。
- 如申請專利範圍第1項或第2項所記載之語音辨識 結果訂正裝置,其中,更具備:特定手段,係用以特定,被前記指定手段所指定之錯誤區間的前方的至少一個字彙、或是後方的至少一個字彙、或是前記前方字彙及後方字彙之雙方之任一者加以形成的辨識結果;前記訂正手段,係將已被前記特定手段所特定之辨識結果,視為拘束條件,依照該拘束條件,將錯誤區間所對應的特徵量資料,從前記記憶手段中予以抽出,對已抽出之特徵量資料,進行辨識處理。
- 如申請專利範圍第1項或第2項所記載之語音辨識結果訂正裝置,其中,更具備:字彙資訊特定手段,係用以特定:將被前記指定手段所指定之錯誤區間的前方的至少一個字彙予以特定所需之資訊亦即字彙資訊、或是後方的至少一個字彙的字彙資訊、或是前記前方字彙的字彙資訊及後方字彙的字彙資訊之雙方之任一者加以形成的辨識結果中之字彙的字彙資訊;前記訂正手段,係將已被前記字彙資訊特定手段所特定之字彙資訊,視為拘束條件,依照該拘束條件,將錯誤區間之前方字彙、後方字彙加以包含之區間所對應的特徵量資料,從前記記憶手段中予以抽出,對已抽出之特徵量資料,進行辨識處理。
- 如申請專利範圍第8項所記載之語音辨識結果訂正裝置,其中,前記字彙資訊,係含有:表示字彙之詞性的 詞性資訊、及表示字彙之念法的讀音資訊,之任1者或複數者。
- 如申請專利範圍第8項所記載之語音辨識結果訂正裝置,其中,更具備:未知詞判定手段,係基於前記字彙資訊來判定,被前記指定手段所指定之錯誤區間的前方的至少一個字彙、或是後方的至少一個字彙、或是前記前方字彙及後方字彙之雙方之任一者加以形成的辨識結果的字彙,是否為未知詞;若藉由前記未知詞判定手段而判定了前記辨識結果的字彙是未知詞,則前記訂正手段係以前記字彙資訊為基礎,來進行辨識結果的訂正處理。
- 如申請專利範圍第1項或第2項所記載之語音辨識結果訂正裝置,其中,更具備:連接機率記憶手段,係用以記憶字彙彼此的連接機率;前記訂正手段,係根據訂正處理已進行過之事實,而作成該當錯誤區間之字彙及與其前後或其中一方之字彙的連接機率,使用該當連接機率來更新前記連接機率記憶手段中所記憶的連接機率。
- 如申請專利範圍第6項所記載之語音辨識結果訂正裝置,其中,更具備:拘束條件記憶手段,係用以將前記字彙資訊特定手段所特定出來的字彙資訊或前記特定手段所特定出 來的字彙,當作拘束條件而加以記憶;前記訂正手段,係依照前記拘束條件記憶手段中所記憶之拘束條件,來進行訂正處理。
- 如申請專利範圍第1項或第2項所記載之語音辨識結果訂正裝置,其中,更具備:受理手段,係用以從使用者受理文字資訊;前記訂正手段,係將前記受理手段所受理到的文字資訊,視為拘束條件,來進行錯誤區間中的辨識結果的訂正處理。
- 如申請專利範圍第1項或第2項所記載之語音辨識結果訂正裝置,其中,更具備:時間資訊算出手段,係用以基於收訊手段所接收到之辨識結果與前記記憶手段中所記憶之特徵量資料,來算出辨識結果的經過時間;前記指定手段,係基於前記時間資訊算出手段所算出之時間資訊,來指定錯誤區間。
- 如申請專利範圍第1項或第2項所記載之語音辨識結果訂正裝置,其中,更具備:顯示手段,係用以顯示已被前記訂正手段所訂正過的辨識結果;前記顯示手段,係不顯示前記取得手段所取得之辨識結果。
- 如申請專利範圍第15項所記載之語音辨識結果訂正裝置,其中,當前記訂正手段經由再辨識而得到之辨識 結果、和前記取得手段所取得到之辨識結果是相同時,或這些辨識結果分別所含有之時間資訊是有差異時,則判斷為辨識錯誤,前記顯示手段就不顯示辨識結果。
- 如申請專利範圍第3項所記載之語音辨識結果訂正裝置,其中,前記指定手段,係藉由使用者操作而指定錯誤區間之起點,基於前記取得手段所取得到之辨識結果中所被賦予的辨識結果之信賴度,來指定錯誤區間之終點。
- 如申請專利範圍第3項所記載之語音辨識結果訂正裝置,其中,前記指定手段,係藉由使用者操作而指定錯誤區間之起點,從該當起點起遠離所定辨識單位數而指定錯誤區間之終點。
- 如申請專利範圍第3項所記載之語音辨識結果訂正裝置,其中,前記指定手段,係藉由使用者操作而指定錯誤區間之起點,基於前記取得手段所取得到之辨識結果中的所定之發音記號,來指定錯誤區間之終點。
- 如申請專利範圍第3項所記載之語音辨識結果訂正裝置,其中,前記取得手段,係在取得辨識結果之際,取得複數辨識候補來作為辨識結果;前記指定手段,係藉由使用者操作而指定錯誤區間之起點,基於前記取得手段所取得到之辨識候補之數目,來指定終點。
- 如申請專利範圍第1項或第2項所記載之語音辨 識結果訂正裝置,其中,更具備:算出手段,係用以算出,已被前記算出手段所算出之特徵量資料的錯誤區間加以包含之區間的平均值,前記訂正手段,係將已抽出之特徵量資料,減去前記算出手段所算出之平均值,將該減算所得之資料,視為特徵量資料而進行再辨識處理。
- 一種語音辨識結果訂正裝置,其特徵為,具備:輸入手段,係用以輸入語音;和取得手段,係用以取得對前記輸入手段所輸入之語音的辨識結果;和指定手段,係用以於前記取得手段所辨識之辨識結果中,指定出有發生辨識錯誤的錯誤區間;和通知手段,係藉由將已被前記指定手段所指定之該錯誤區間通知給外部伺服器,以向前記外部伺服器請求該當錯誤區間的再辨識處理;和收訊手段,係用以接收,回應於前記通知手段所作之請求而於前記外部伺服器中所再辨識而成之該錯誤區間的辨識結果。
- 一種語音辨識結果訂正方法,其特徵為,具備:輸入步驟,係用以輸入語音;和算出步驟,係用以基於被前記輸入步驟所輸入之語音,而算出特徵量資料;和記憶步驟,係用以記憶被前記算出步驟所算出之特徵 量資料;和取得步驟,係用以取得對前記輸入步驟所輸入之語音的辨識結果;和指定步驟,係用以於前記取得步驟所辨識之辨識結果中,指定出有發生辨識錯誤的錯誤區間;和訂正步驟,係用以從前記記憶步驟中所記憶之特徵量資料,抽出已被前記指定步驟所指定之該錯誤區間所對應之特徵量資料,並使用該當已抽出之特徵量資料來進行再辨識,藉此以執行前記取得步驟所得到之辨識結果的訂正。
- 一種語音辨識結果訂正方法,其特徵為,具備:輸入步驟,係用以輸入語音;和取得步驟,係用以取得對前記輸入步驟所輸入之語音的辨識結果;和指定步驟,係用以於前記取得步驟所辨識之辨識結果中,指定出有發生辨識錯誤的錯誤區間;和通知步驟,係藉由將已被前記指定步驟所指定之該錯誤區間通知給外部伺服器,以向前記外部伺服器請求該當錯誤區間的再辨識處理;和收訊步驟,係用以接收,回應於前記通知步驟所作之請求而於前記外部伺服器中所再辨識而成之該錯誤區間的辨識結果。
- 如申請專利範圍第1項或第2項所記載之語音辨識結果訂正裝置,其中, 具備:詞根區間指定手段,係用以於前記取得手段所取得到的辨識結果中,指定詞根區間;前記訂正手段,係於前記指定手段所指定之錯誤區間中,再將前記詞根區間指定手段所指定之詞根區間所對應的特徵量資料,從前記記憶手段中抽出,使用該當已抽出之特徵量資料來進行再辨識,藉此以執行前記取得手段所得到之辨識結果的訂正。
- 如申請專利範圍第25項所記載之語音辨識結果訂正裝置,其中,更具備:分割手段,係依照前記詞根區間指定手段所指定的詞根區間,而將從前記取得手段所取得到的辨識結果,分割成複數區間;前記訂正手段,係對前記分割手段所分割出來的每一分割區間,執行辨識結果的訂正。
- 如申請專利範圍第26項所記載之語音辨識結果訂正裝置,其中,前記分割手段,係將詞根區間的終點視為一分割區間的終點,並且將詞根區間的起點視為前記一分割區間的下一分割區間的起點,以此方式來分割辨識結果。
- 如申請專利範圍第27項所記載之語音辨識結果訂正裝置,其中,前記訂正手段,係對前記分割手段所分割出來的每一分割區間,執行辨識結果的訂正,並且將前記詞根區間,視為各分割區間之訂正時的拘束條件。
- 如申請專利範圍第25項所記載之語音辨識結果訂 正裝置,其中,前記訂正手段,係將前記詞根區間指定手段所指定之詞根區間中所描述之詞根字串加以含有的假說,當作辨識的探索過程而予以保持,從該當假說中選擇出最終的辨識結果,以執行訂正。
- 如申請專利範圍第25項所記載之語音辨識結果訂正裝置,其中,更具備:字典追加手段,係用以將前記詞根區間指定手段所指定之詞根區間中的詞根字串,追加至辨識處理所需之字典資料庫中。
- 如申請專利範圍第25項所記載之語音辨識結果訂正裝置,其中,更具備:由使用者所生成之字典資料庫;前記訂正手段,係使用將詞根字串依照前記字典資料庫所轉換過的字串,來進行訂正處理。
- 一種語音辨識結果訂正系統,其特徵為,是由以下所構成:如申請專利範圍第1項至第22項、或第25項至第31項之任1項所記載之語音辨識結果訂正裝置;和伺服器裝置,係基於從前記語音辨識結果訂正裝置所發送來的語音而進行語音辨識,並作成辨識結果而發送至前記語音辨識結果訂正裝置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008111540 | 2008-04-22 | ||
JP2008198486 | 2008-07-31 | ||
JP2008285550A JP4709887B2 (ja) | 2008-04-22 | 2008-11-06 | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム |
Publications (2)
Publication Number | Publication Date |
---|---|
TW200951940A TW200951940A (en) | 2009-12-16 |
TWI427620B true TWI427620B (zh) | 2014-02-21 |
Family
ID=42070988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW098113352A TWI427620B (zh) | 2008-04-22 | 2009-04-22 | A speech recognition result correction device and a speech recognition result correction method, and a speech recognition result correction system |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP4709887B2 (zh) |
CN (1) | CN101567189B (zh) |
TW (1) | TWI427620B (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5004863B2 (ja) * | 2008-04-30 | 2012-08-22 | 三菱電機株式会社 | 音声検索装置および音声検索方法 |
JP5231484B2 (ja) * | 2010-05-19 | 2013-07-10 | ヤフー株式会社 | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 |
JP5160594B2 (ja) * | 2010-06-17 | 2013-03-13 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識装置および音声認識方法 |
JP5480760B2 (ja) * | 2010-09-15 | 2014-04-23 | 株式会社Nttドコモ | 端末装置、音声認識方法および音声認識プログラム |
JP5409931B2 (ja) * | 2010-11-30 | 2014-02-05 | 三菱電機株式会社 | 音声認識装置及びナビゲーション装置 |
JP6150268B2 (ja) * | 2012-08-31 | 2017-06-21 | 国立研究開発法人情報通信研究機構 | 単語登録装置及びそのためのコンピュータプログラム |
KR101364774B1 (ko) * | 2012-12-07 | 2014-02-20 | 포항공과대학교 산학협력단 | 음성 인식의 오류 수정 방법 및 장치 |
CN103076893B (zh) * | 2012-12-31 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 一种用于实现语音输入的方法与设备 |
JP2014137430A (ja) * | 2013-01-16 | 2014-07-28 | Sharp Corp | 電子機器及び掃除機 |
TWI508057B (zh) * | 2013-07-15 | 2015-11-11 | Chunghwa Picture Tubes Ltd | 語音辨識系統以及方法 |
CN104978965B (zh) * | 2014-04-07 | 2019-04-26 | 三星电子株式会社 | 电子装置及利用电子装置和服务器的语音识别执行方法 |
CN105469801B (zh) * | 2014-09-11 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种修复输入语音的方法及其装置 |
CN105869632A (zh) * | 2015-01-22 | 2016-08-17 | 北京三星通信技术研究有限公司 | 基于语音识别的文本修订方法和装置 |
CN104933408B (zh) * | 2015-06-09 | 2019-04-05 | 深圳先进技术研究院 | 手势识别的方法及系统 |
CN105513586A (zh) * | 2015-12-18 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别结果的显示方法和装置 |
KR101804765B1 (ko) * | 2016-01-08 | 2018-01-10 | 현대자동차주식회사 | 차량 및 그 제어방법 |
JP6675078B2 (ja) * | 2016-03-15 | 2020-04-01 | パナソニックIpマネジメント株式会社 | 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム |
WO2018016139A1 (ja) | 2016-07-19 | 2018-01-25 | ソニー株式会社 | 情報処理装置、および情報処理方法 |
JP6597527B2 (ja) * | 2016-09-06 | 2019-10-30 | トヨタ自動車株式会社 | 音声認識装置および音声認識方法 |
JP6526608B2 (ja) * | 2016-09-06 | 2019-06-05 | 株式会社東芝 | 辞書更新装置およびプログラム |
JP7088645B2 (ja) * | 2017-09-20 | 2022-06-21 | 株式会社野村総合研究所 | データ変換装置 |
CN107945802A (zh) * | 2017-10-23 | 2018-04-20 | 北京云知声信息技术有限公司 | 语音识别结果处理方法及装置 |
CN108597495B (zh) * | 2018-03-15 | 2020-04-14 | 维沃移动通信有限公司 | 一种处理语音数据的方法及装置 |
JP7143665B2 (ja) * | 2018-07-27 | 2022-09-29 | 富士通株式会社 | 音声認識装置、音声認識プログラムおよび音声認識方法 |
CN109325239A (zh) * | 2018-11-05 | 2019-02-12 | 北京智启蓝墨信息技术有限公司 | 学生课堂表现管理方法及系统 |
CN110956959B (zh) * | 2019-11-25 | 2023-07-25 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
CN111192586B (zh) * | 2020-01-08 | 2023-07-04 | 北京小米松果电子有限公司 | 语音识别方法及装置、电子设备、存储介质 |
JP2021135453A (ja) * | 2020-02-28 | 2021-09-13 | パナソニックIpマネジメント株式会社 | テキスト音源位置表示システムおよびテキスト音源位置表示装置 |
CN112382285B (zh) | 2020-11-03 | 2023-08-15 | 北京百度网讯科技有限公司 | 语音控制方法、装置、电子设备和存储介质 |
CN112951238B (zh) * | 2021-03-19 | 2024-08-27 | 河南蜂云科技发展有限公司 | 一种基于语音处理的科技法庭智能管理方法、系统及存储介质 |
JP2023007960A (ja) * | 2021-07-02 | 2023-01-19 | 株式会社アドバンスト・メディア | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
CN116894442B (zh) * | 2023-09-11 | 2023-12-05 | 临沂大学 | 一种纠正引导发音的语言翻译方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW219993B (en) * | 1992-05-21 | 1994-02-01 | Ind Tech Res Inst | Speech recognition system |
JP2000056795A (ja) * | 1998-08-03 | 2000-02-25 | Fuji Xerox Co Ltd | 音声認識装置 |
TW420959B (en) * | 1998-03-30 | 2001-02-01 | Motorola Inc | Voice recognition system in a radio communication system and method therefor |
JP2001092494A (ja) * | 1999-09-24 | 2001-04-06 | Mitsubishi Electric Corp | 音声認識装置、音声認識方法および音声認識プログラム記録媒体 |
JP2003099091A (ja) * | 2001-09-21 | 2003-04-04 | Nec Corp | 音声認識装置及び音声認識方法 |
TW575868B (en) * | 2001-07-06 | 2004-02-11 | Koninkl Philips Electronics Nv | Fast search in speech recognition |
JP2004258531A (ja) * | 2003-02-27 | 2004-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 認識誤り訂正方法、装置、およびプログラム |
JP2005234136A (ja) * | 2004-02-18 | 2005-09-02 | Ntt Docomo Inc | 音声認識サーバ、音声入力システム、及び、音声入力方法 |
TW200601264A (en) * | 2004-06-02 | 2006-01-01 | America Online Inc | Multimodal disambiguation of speech recognition |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3111997B2 (ja) * | 1998-09-04 | 2000-11-27 | 三菱電機株式会社 | 音声認識システムおよび単語辞書作成装置 |
JP4736478B2 (ja) * | 2005-03-07 | 2011-07-27 | 日本電気株式会社 | 音声書き起こし支援装置およびその方法ならびにプログラム |
-
2008
- 2008-11-06 JP JP2008285550A patent/JP4709887B2/ja not_active Expired - Fee Related
-
2009
- 2009-04-22 TW TW098113352A patent/TWI427620B/zh not_active IP Right Cessation
- 2009-04-22 CN CN2009101350590A patent/CN101567189B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW219993B (en) * | 1992-05-21 | 1994-02-01 | Ind Tech Res Inst | Speech recognition system |
TW420959B (en) * | 1998-03-30 | 2001-02-01 | Motorola Inc | Voice recognition system in a radio communication system and method therefor |
JP2000056795A (ja) * | 1998-08-03 | 2000-02-25 | Fuji Xerox Co Ltd | 音声認識装置 |
JP2001092494A (ja) * | 1999-09-24 | 2001-04-06 | Mitsubishi Electric Corp | 音声認識装置、音声認識方法および音声認識プログラム記録媒体 |
TW575868B (en) * | 2001-07-06 | 2004-02-11 | Koninkl Philips Electronics Nv | Fast search in speech recognition |
JP2003099091A (ja) * | 2001-09-21 | 2003-04-04 | Nec Corp | 音声認識装置及び音声認識方法 |
JP2004258531A (ja) * | 2003-02-27 | 2004-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 認識誤り訂正方法、装置、およびプログラム |
JP2005234136A (ja) * | 2004-02-18 | 2005-09-02 | Ntt Docomo Inc | 音声認識サーバ、音声入力システム、及び、音声入力方法 |
TW200601264A (en) * | 2004-06-02 | 2006-01-01 | America Online Inc | Multimodal disambiguation of speech recognition |
Also Published As
Publication number | Publication date |
---|---|
JP2010055044A (ja) | 2010-03-11 |
TW200951940A (en) | 2009-12-16 |
JP4709887B2 (ja) | 2011-06-29 |
CN101567189A (zh) | 2009-10-28 |
CN101567189B (zh) | 2012-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI427620B (zh) | A speech recognition result correction device and a speech recognition result correction method, and a speech recognition result correction system | |
CN109493850B (zh) | 成长型对话装置 | |
CN106663424B (zh) | 意图理解装置以及方法 | |
US8275618B2 (en) | Mobile dictation correction user interface | |
CN110675855B (zh) | 一种语音识别方法、电子设备及计算机可读存储介质 | |
US20060149551A1 (en) | Mobile dictation correction user interface | |
JP4816409B2 (ja) | 認識辞書システムおよびその更新方法 | |
US11024298B2 (en) | Methods and apparatus for speech recognition using a garbage model | |
US20150073792A1 (en) | Method and system for automatically detecting morphemes in a task classification system using lattices | |
US20130289993A1 (en) | Speak and touch auto correction interface | |
US20060184360A1 (en) | Adaptive multi-pass speech recognition system | |
JP5824829B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
CN106713111B (zh) | 一种添加好友的处理方法、终端及服务器 | |
US20020065651A1 (en) | Dialog system | |
US20080065371A1 (en) | Conversation System and Conversation Software | |
JP4089861B2 (ja) | 音声認識文章入力装置 | |
Rose et al. | Integration of utterance verification with statistical language modeling and spoken language understanding | |
JP2010048890A (ja) | クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム | |
JP6233867B2 (ja) | 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム | |
JP5238395B2 (ja) | 言語モデル作成装置および言語モデル作成方法 | |
CN110895938B (zh) | 语音校正系统及语音校正方法 | |
CN113096667A (zh) | 一种错别字识别检测方法和系统 | |
JP2010197709A (ja) | 音声認識応答方法、音声認識応答システム、及びそのプログラム | |
CN112447176B9 (zh) | 信息处理装置、关键词检测装置以及信息处理方法 | |
CN112447176B (zh) | 信息处理装置、关键词检测装置以及信息处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |