TWI539440B

TWI539440B - 互動式語音識別電子裝置及方法

Info

Publication number: TWI539440B
Application number: TW100113846A
Authority: TW
Inventors: 熊雨凱; 陸欣; 翁世芳; 呂東生; 李新華; 張玉勇; 朱健健
Original assignee: 鴻海精密工業股份有限公司
Priority date: 2011-04-15
Filing date: 2011-04-21
Publication date: 2016-06-21
Also published as: CN102737631A; TW201241822A; US8909525B2; US20120265527A1

Description

互動式語音識別電子裝置及方法

本發明涉及一種互動式語音識別電子裝置及方法。

現在的語音識別技術主要是預先建立一語音庫，該語音庫中記錄各種問題對應的答案。當電子裝置接收到用戶輸入的語音，並將其轉換為文本資訊後，在語音庫中查找與該文本資訊相似的問題，當找到後，則將語音庫中該問題的答案轉換為語音後輸出，但由於每個用戶在輸入語音時，方言，發音的不同，使電子裝置所識別的問題有誤，在語音庫中找不到該問題，從而使電子裝置無法與用戶進行交互。

有鑒於此，故需要提供一種互動式語音識別電子裝置及方法，使電子裝置在語音庫中找不到對應語音時，可與用戶交互進行確認。

該互動式語音識別電子裝置包括一語音採集單元，一存儲單元，一語音輸出單元，該語音採集單元用於採集用戶輸入的語音信號，該存儲單元中存儲一語音庫，該語音庫中記錄了不同的語音文本所對應的應答文本，該語音文本即由語音資訊轉換的文本資訊，該語音輸出單元用於將由文本資訊轉換的語音資訊輸出，該電子裝置還包括：一語音接收模組，獲取由該語音採集單元所採集的語音信號；一語音識別模組，將語音接收模組所接收的語音信號轉換為文本資訊，在語音庫中確定有沒有與該文本資訊對應的語音文本，如果有，則將該語音文本作為識別文本，如果沒有，則從語音庫中獲取與該文本資訊相似的預設個數的語音文本，然後將預設個數的語音文本依次轉換為語音資訊後，由該語音輸出單元輸出，根據用戶的輸入選擇一語音文本作為識別文本；一應答模組，從語音庫中獲取該識別文本對應的應答文本，並將該應答文本轉換為語音資訊後由該語音輸出單元輸出。

在應用於一電子裝置的互動式語音識別方法中，該電子裝置存儲一語音庫，該語音庫中記錄了不同的語音文本所對應的應答文本，該方法包括：獲取由該語音採集單元所採集的語音信號；將所接收的語音信號轉換為文本資訊，在語音庫中確定有沒有與該文本資訊對應的語音文本；如果有，則將該語音文本作為識別文本；如果沒有，則從語音庫中獲取與該文本資訊相似的預設個數的語音文本，然後將預設個數的語音文本依次轉換為語音資訊後，由該語音輸出單元輸出，根據用戶的輸入選擇一語音文本作為識別文本；從語音庫中獲取該識別文本對應的應答文本，並將該應答文本轉換為語音資訊後由該語音輸出單元輸出。

相較於現有技術，本發明的電子裝置在用戶輸入語音後，在語音庫中找不到輸入語音對應的語音時，通過最大擬合算法找到預設數量的相似語音，然後輸出供用戶選擇，並在用戶確認後，輸出所確認語音對應的應答，如此，提高電子裝置的語音識別的效率。

1‧‧‧電子裝置

11‧‧‧語音採集單元

12‧‧‧存儲單元

121‧‧‧基本語音庫

122‧‧‧擴展語音庫

13‧‧‧處理單元

131‧‧‧語音接收模組

132‧‧‧語音識別模組

133‧‧‧應答模組

134‧‧‧語音庫擴展模組

14‧‧‧語音輸出單元

S201‧‧‧接收語音資訊

S202‧‧‧將該語音資訊轉換為文本資訊

S203‧‧‧確定語音庫中有沒有與該文本資訊對應的語音文本？

S204‧‧‧從語音庫中獲取該語音文本對應的應答文本，並將該應答文本轉換為語音信號後由輸出

S205‧‧‧利用從語音庫中獲取與該文本資訊最相似的預設個數的語音文本，然後將預設個數的語音文本依次轉換為語音資訊後輸出

S206‧‧‧根據用戶的輸入從預設個數的語音文本中選擇一個語音文本作為識別文本

S207‧‧‧從識別文本所在的語音庫中獲取該識別文本對應的應答文本，並將該應答文本轉換為語音資訊後由輸出

S208‧‧‧所接收的語音信號轉換的文本資訊與用戶選擇的識別文本對應的應答文本存儲在擴展語音庫中

圖1為本發明互動式語音識別電子裝置的方塊圖。

圖2為應用圖1所示電子裝置的互動式語音識別方法的流程圖。

如圖1所示，為本發明互動式語音識別電子裝置的方塊圖。該電子裝置1包括一語音採集單元11、一存儲單元12、一處理單元13及一語音輸出單元14。該語音採集單元11用於採集用戶輸入的語音信號。該存儲單元12中存儲一基本語音庫121及一擴展語音庫122。該基本語音庫121中存儲的為預設的語音文本對應的應答文本，該擴展語音庫122中存儲的為使用過程中，用戶與電子裝置1交互後所獲取的用戶語音對應的語音文本及該語音文本對應的應答文本。該語音文本即由語音資訊轉換的文本資訊。該語音輸出單元14用於將由文本資訊轉換的語音資訊輸出。本實施方式中，該語音採集單元11為麥克風，該語音輸出單元14為喇叭。

該處理單元13包括一語音接收模組131、一語音識別模組132、一應答模組133及一語音庫擴展模組134。該語音接收模組131接收該語音採集單元採集的語音信號。該語音識別模組132將所接收的語音信號轉換為文本資訊，並在基本語音庫121及擴展語音庫122中確定有沒有與該文本資訊對應的語音文本，如果有，則將該語音文本作為識別文本，如果沒有，則利用最大擬合算法從基本語音庫121及擴展語音庫122語音庫中獲取與該文本資訊最相似的預設個數的語音文本，然後將預設個數的語音文本依次轉換為語音資訊後，由該語音輸出單元14輸出，然後接收用戶的輸入，根據用戶的輸入從預設個數的語音文本中選擇一個語音文本作為識別文本。

例如，用戶輸入語音時，可能由於發音不標準，或者方言的原因，使電子裝置1所識別的語音即將所接收的語音資訊所轉換的文本資訊與用戶的輸入的語音資訊不一致，如用戶輸入的語音為“請問從龍華汽車站到觀瀾汽車站怎麼走”，而電腦所識別的資訊為“請問從弄化汽車站到拐來汽車站怎麼走”。由於所識別的文本資訊不存在於語音庫中，則語音識別模組即調用最大擬合算法計算出語音庫中與所識別的文本資訊最相似的預定個數(如3個)的語音文本，如“從龍華汽車站到觀瀾汽車站怎麼走”，“從龍安汽車站到觀瀾汽車站怎麼走”，從“從龍安汽車站到關賴汽車站怎麼走”，並將上述語音文本轉換為語音信號後依次通過該語音輸出單元14輸出，在輸出時，還可以加上其他預設語音，如“請確定您的問題是1…..,2……,3……”。如此，用戶可根據上述提示語音輸入或手動輸入正確的語音文本，如此該語音識別模組132即可確定識別文本。

在該語音識別模組132確定了識別文本後，該應答模組133從該識別文本所在的語音庫中獲取該識別文本對應的應答文本，並將該應答文本轉換為語音資訊後由該語音輸出單元14輸出。

當基本語音庫121及擴展語音庫122中不存在與所接收的語音信號對應的語音文本時，該語音庫擴展模組134將所接收的語音信號轉換的文本資訊與經與用戶選擇的識別文本對應的應答文本存儲在擴展語音庫122中。如仍以上述例子為例，該語音庫擴展模組134將“請問從弄化汽車站到拐來汽車站怎麼走”及“請問從龍華汽車站到觀瀾汽車站怎麼走”對應的應答文本存儲在擴展語音庫122中，如此，若下次電子裝置1還接收到同樣的語音，即可直接從擴展語音庫122中獲取應答文本進行輸出，而無需再次與用戶進行交互。

本實施方式中，若基本語音庫121及擴展語音庫122中不存在與所接收的語音信號相似的語音文本，則輸入一預設語音，如“對不起，無法識別您的輸入，請您重新輸入”以提示用戶進行重新輸入。

如圖2所示，為應用圖1所示電子裝置的互動式語音識別方法的流程圖。在步驟S201中，該語音接收模組131接收該語音採集單元採集的語音信號。

在步驟S202中，該語音識別模組132將所接收的語音信號轉換為文本資訊。

在步驟S203中，該語音識別模組132在基本語音庫121及擴展語音庫122中確定有沒有與該文本資訊對應的語音文本，如果有，則執行步驟S204，如果沒有，則執行步驟S205。

在步驟S204中，該應答模組133從語音庫中獲取該語音文本對應的應答文本，並將該應答文本轉換為語音信號後由語音輸出單元14輸出。

在步驟S205中，該語音識別模組132利用最大擬合算法從基本語音庫121及擴展語音庫122語音庫中獲取與該文本資訊最相似的預設個數的語音文本，然後將預設個數的語音文本依次轉換為語音資訊後，由該語音輸出單元14輸出。

在步驟S206中，該語音識別模組132接收用戶的輸入，根據用戶的輸入從預設個數的語音文本中選擇一個語音文本作為識別文本。

在步驟S207中，該應答模組133從該識別文本所在的語音庫中獲取該識別文本對應的應答文本，並將該應答文本轉換為語音資訊後由該語音輸出單元14輸出。

在步驟S208中，該語音庫擴展模組134將所接收的語音信號轉換的文本資訊與用戶選擇的識別文本對應的應答文本存儲在擴展語音庫122中。

本技術領域的普通技術人員應當認識到，以上的實施方式僅是用來說明本發明，而並非用作為對本發明的限定，只要在本發明的實質精神範圍之內，對以上實施例所作的適當改變和變化都落在本發明要求保護的範圍之內。

S201‧‧‧接收語音資訊

S202‧‧‧將該語音資訊轉換為文本資訊

S203‧‧‧將該語音資訊轉換為文本資訊

Claims

一種互動式語音識別電子裝置，該電子裝置包括一語音採集單元，一存儲單元，一語音輸出單元，該語音採集單元用於採集用戶輸入的語音信號，該存儲單元中存儲一語音庫，該語音庫中記錄了不同的語音文本所對應的應答文本，該語音文本即由語音資訊轉換的文本資訊，該語音輸出單元用於將由文本資訊轉換的語音資訊輸出，其改良在於，該電子裝置還包括：一語音接收模組，獲取由該語音採集單元所採集的語音信號；一語音識別模組，將語音接收模組所接收的語音信號轉換為文本資訊，在語音庫中確定有沒有與該文本資訊對應的語音文本，如果有，則將該語音文本作為識別文本，如果沒有，則從語音庫中獲取與該文本資訊相似的預設個數的語音文本，然後將預設個數的語音文本依次轉換為語音資訊後，由該語音輸出單元輸出，根據用戶的輸入選擇一語音文本作為識別文本；一應答模組，從語音庫中獲取該識別文本對應的應答文本，並將該應答文本轉換為語音資訊後由該語音輸出單元輸出。
如申請專利範圍第1項所述的互動式語音識別電子裝置，其中，該語音庫包括一基本語音庫及一擴展語音庫，該基本語音庫中存儲的為預設的語音文本對應的應答文本，該擴展語音庫中存儲的為使用過程中，用戶與電子裝置交互後所獲取的用戶語音對應的語音文本及該語音文本對應的應答文本，該電子裝置還包括一語音庫擴展模組，當語音庫中不存在與所接收的語音信號對應的語音文本時，該語音庫擴展模組將所接收的語音信號轉換的語音文本與用戶選擇的識別文本對應的應答文本存儲在擴展語音庫中。
如申請專利範圍第1項所述的互動式語音識別電子裝置，其中，該語音識別模組通過最大擬合算法從語音庫中獲取與該文本資訊相似的預設個數的語音文本。
一種應用於一電子裝置的互動式語音識別方法，該電子裝置存儲一語音庫，該語音庫中記錄了不同的語音文本所對應的應答文本，其改良在於，該方法包括：獲取由該語音採集單元所採集的語音信號；將所接收的語音信號轉換為文本資訊，在語音庫中確定有沒有與該文本資訊對應的語音文本；如果有，則將該語音文本作為識別文本；如果沒有，則從語音庫中獲取與該文本資訊相似的預設個數的語音文本，然後將預設個數的語音文本依次轉換為語音資訊後，由該語音輸出單元輸出，根據用戶的輸入選擇一語音文本作為識別文本；從語音庫中獲取該識別文本對應的應答文本，並將該應答文本轉換為語音資訊後由該語音輸出單元輸出。
如申請專利範圍第4項所述的應用於一電子裝置的互動式語音識別方法，其中，該語音庫包括一基本語音庫及一擴展語音庫，該基本語音庫中存儲的為預設的語音文本對應的應答文本，該擴展語音庫中存儲的為使用過程中，用戶與電子裝置交互後所獲取的用戶語音對應的語音文本及該語音文本對應的應答文本，該方法還包括當語音庫中不存在與所接收的語音信號對應的語音文本時，將所接收的語音信號轉換的語音文本與用戶選擇的識別文本對應的應答文本存儲在擴展語音庫中。
如申請專利範圍第4項所述的應用於一電子裝置的互動式語音識別方法，其中，通過最大擬合算法從語音庫中獲取與該文本資訊相似的預設個數的語音文本。