TW201643863A

TW201643863A - 語音辨識裝置及方法

Info

Publication number: TW201643863A
Application number: TW104117693A
Authority: TW
Inventors: 林海興
Original assignee: 鴻海精密工業股份有限公司
Priority date: 2015-06-01
Filing date: 2015-06-01
Publication date: 2016-12-16
Also published as: US20160351185A1; TWI579828B

Abstract

本發明提供一種語音辨識裝置及方法，該裝置包括存儲單元及處理單元，該存儲單元存儲有第一資料庫及第二資料庫，該第一資料庫用於存儲預設數量段的語音、每段語音的特徵值及各用戶的語音特徵平均值，該第二資料庫用於存儲歷史語音資料，該處理單元包括第一訓練模組，當第一資料庫中新存儲有一段語音時，對所有語音進行語音訓練；轉移模組，在所有語音完成語音訓練時，將第一資料庫中最早存儲的一段語音轉移存儲至第二資料庫；及第二訓練模組，在該最早存儲的一段語音轉移存儲至第二資料庫時，對第二資料庫中的所有語音進行語音訓練。

Description

語音辨識裝置及方法

本發明涉及一種語音辨識裝置及方法。

在習知的辨識語音發音人的技術中，通常會建立一個用於存儲發音人範本語音及對應語音特徵值的資料庫，從而通過對比發音人語音的特徵值與範本語音的特徵值辨識出發音人的身份。每當用戶輸入一段新的範本語音時，一般需要在該資料庫中進行語音訓練，而將該段語音及語音特徵值存儲於資料庫中。然而當資料庫中的語音資料量比較大時，執行一次語音訓練需要花費大量時間。

有鑒於此，有必要提供一種語音辨識裝置及方法，以解決上述的技術問題。

本發明提供一種語音辨識裝置，該裝置包括一存儲單元及一處理單元，該存儲單元存儲有一第一資料庫及一第二資料庫，該第一資料庫用於存儲預設數量段的語音、每段語音的特徵值及各用戶的語音特徵平均值，該第二資料庫用於存儲該第一資料庫未存儲的歷史語音資料，該處理單元包括：

第一訓練模組，用於當第一資料庫中新存儲有一段語音時，對該段新存儲的語音在內的所有語音進行語音訓練；

轉移模組，用於在所有語音完成語音訓練時，將第一資料庫中最早存儲的一段語音轉移存儲至第二資料庫；及

第二訓練模組，用於在該最早存儲的一段語音轉移存儲至第二資料庫時，對第二資料庫中的所有語音進行語音訓練。

本發明還提供一種語音辨識方法，該方法應用於一語音辨識裝置中，該裝置包括一存儲單元，該存儲單元存儲有一第一資料庫及一第二資料庫，該第一資料庫用於存儲預設數量段的語音、每段語音的特徵值及各用戶的語音特徵平均值，該第二資料庫用於存儲該第一資料庫未存儲的歷史語音資料，該方法包括以下步驟：

當第一資料庫中新存儲有一段語音時，對該段新存儲的語音在內的所有語音進行語音訓練；

在所有語音完成語音訓練時，將第一資料庫中最早存儲的一段語音轉移存儲至第二資料庫；及

在該最早存儲的一段語音轉移存儲至第二資料庫時，對第二資料庫中的所有語音進行語音訓練。

相較於習知技術，本發明的語音辨識裝置及方法設置有第一資料庫及第二資料庫，第一資料庫用於較少的語音資料，第二資料庫用於存儲所有歷史語音資料，用戶輸入的待訓練語音在資料量較少的第一資料庫中進行訓練，從而可以減少語音訓練所花費的時間。

圖1為本發明語音辨識裝置較佳實施方式的應用結構圖。

圖2為圖1所示語音辨識裝置中的模組的子模組圖。

圖3a為本發明語音辨識裝置提供的語音訓練介面的示意圖。

圖3b為本發明語音辨識裝置提供的語音辨識介面的示意圖。

圖4a為本發明語音辨識方法較佳實施方式中語音訓練的流程圖。

圖4b為本發明語音辨識方法較佳實施方式中語音辨識的流程圖。

請參考圖1，為本發明語音辨識裝置1較佳實施方式的應用結構圖。該語音辨識裝置1用於執行語音訓練及語音辨識，其中，語音辨識為對語音的發音人的身份進行辨識。在本實施方式中，該語音辨識裝置1可為個人電腦、智慧手機、機器人或雲端伺服器等具有語音輸入及語音處理功能的電子裝置，該語音辨識裝置1可以在裝置內部對輸入的語音進行語音訓練或語音辨識。在一實施方式中，該語音辨識裝置1也可以通過互聯網或局域網的方式連接至雲端伺服器，在雲端伺服器內進行語音訓練或語音辨識。在另一實施方式中，該語音辨識裝置1也可以通過互聯網或局域網的方式連接至雲端伺服器，在雲端伺服器內進行語音訓練，然後將訓練的結果回傳至該語音辨識裝置1，使得該語音辨識裝置1在裝置內部進行語音辨識。

該語音辨識裝置1包括一存儲單元10、一處理單元20、一顯示單元30及一語音輸入單元40。該存儲單元10存儲有一第一資料庫101及一第二資料庫102，該第一資料庫101用於存儲預設數量段的語音、每段語音的特徵值及各用戶的語音特徵平均值，該第二資料庫102用於存儲該第一資料庫101未存儲的歷史語音資料，其中，該歷史語音資料包括多段語音、每段語音的特徵值及各用戶的語音特徵平均值。在本實施方式中，該第一資料庫101存儲的語音的數量可為預設數值，例如30段，也可由用戶設置為其他數值。其中，每一段語音可為一單獨的語音檔或一單獨的資料包。

該顯示單元30用於顯示該語音辨識裝置1執行語音訓練或語音辨識的結果。該語音輸入單元40用於接收用戶輸入的語音。

請一併參考圖2，該處理單元20包括介面提供模組21、第一訓練模組22、轉移模組23、第二訓練模組24、群組劃分模組25、第一辨識模組26及第二辨識模組27，該處理單元20還包括特徵值提取模組201、相似值獲取模組202、比對模組203、刪除模組204、輸出模組205、命名模組206及更新模組207。其中，該些模組201-207為可被模組22-27調用的子模組。在本實施方式中，該些模組為可被該處理單元20調用執行的程式化的軟體指令。在其他實施方式中，該些模組也可為固化於該處理單元20中的程式指令或固件（Firmware）。

請參考圖3a，該介面提供模組21用於回應用戶的語音訓練請求操作而提供一語音訓練介面50，供用戶登錄後進行語音訓練。其中，用戶可通過用戶名和密碼登錄該語音訓練介面50，在其他實施方式中，用戶也可通過臉部辨識或指紋辨識等方式進行登錄。在本實施方式中，該語音訓練介面50顯示有一“開始訓練”選項51，用戶可通過點擊該選項開始語音訓練。在其他實施方式中，該語音辨識裝置1包括重力感應器（圖中未示）及接近感應器（圖中未示），在用戶登錄該語音訓練介面50後，通過感應器產生的感應信號確定當該語音辨識裝置1靠近用戶的嘴時，而自動開始語音訓練。另外，用戶也可通過該語音輸入單元40輸入“開始訓練”的語音而開始語音訓練。

該第一訓練模組22用於當第一資料庫101中新存儲有一段語音時，對該段新存儲的語音在內的所有語音進行語音訓練。具體的，該第一訓練模組22通過調用模組201-207而對所有語音進行語音訓練。

該特徵值提取模組201用於獲取登錄用戶輸入的一段語音，將該獲取的語音暫存於第一資料庫101中，並提取該段新輸入的語音的特徵值。其中，該段新輸入的語音可為用戶提前錄製的語音，也可為通過該語音輸入單元40臨時輸入的語音。在本實施方式中，用戶輸入的語音的時長需超過一預設時長，其中，該預設時長為一預設值，例如15秒。關於語音特徵值的提取方法為語音辨識領域中常見的技術，在此不作詳細描述。

該相似值獲取模組202用於將該段新輸入的語音的特徵值分別與第一資料庫101中各用戶的語音特徵平均值進行比對，而得到多個語音相似值，並從該多個語音相似值中選取一最高語音相似值。在本實施方式中，語音相似值的預設區間為[-1,1]，當語音相似值越接近1，則說明兩段語音的相似度越高，當語音相似值越接近-1，則說明兩段語音的相似度越低。

該比對模組203用於將該最高語音相似值與一預設的高臨界值進行比對。在本實施方式中，該預設的高臨界值為用於確定新輸入的一段語音是否需要進行訓練的臨界相似值，由用戶設定或系統預設。

該刪除模組204用於當該最高語音相似值大於該預設的高臨界值時，刪除該段新輸入的語音。具體的，當最高語音相似值大於該預設的高臨界值時，說明在第一資料庫101中存儲有與該段新輸入的語音相似度很高的語音，對該段新輸入的語音進行訓練不能明顯更新該用戶的語音特徵，故將該段語音刪除。

該輸出模組205用於輸出一該段語音被刪除的資訊於該顯示單元30。

該命名模組206用於當該最高語音相似值小於或等於該預設的高臨界值時，命名該段新輸入的語音，並將該段命名後的語音存儲於第一資料庫101中。具體的，當該最高語音相似值小於或等於該預設的高臨界值時，說明在第一資料庫101中未存儲有與該段語音相似度很高的語音，該段語音可以體現該用戶的語音特徵，故有必要對該段語音進行訓練。需要說明的是，當用戶設定該預設高臨界值為1時，而最高語音相似值必然小於或等於1，表明用戶希望新輸入的每段語音都要進行訓練。

在本實施方式中，該命名模組206對新段輸入的語音進行命名的格式為name_n_time，其中，name代表用戶登錄該語音訓練介面50所用的用戶名；n代表該段新輸入的語音在存儲於第一資料庫101及第二資料庫102中該用戶的所有語音中的段數序號。例如，若第一資料庫101中已經存儲有該用戶的兩段語音及第二資料庫102中已經存儲有該用戶的三段語音，則該命名模組206確定該段新輸入的語音為該用戶的第六段語音，則確定n的數值為6，其他依次類推；time代表命名該段新輸入的語音並存儲至第一資料庫101的具體時間。

該更新模組207用於提取該新段輸入的語音在內的所有語音的特徵值，並重新計算得到各用戶的語音特徵平均值，將所有語音的特徵值及重新計算得到的各用戶的語音特徵平均值存儲於第一資料庫101中。

進一步地，該比對模組203還用於將該最高語音相似值與一預設的低臨界值進行比對。在本實施方式中，該預設的低臨界值為用於確定新輸入的一段語音能否被辨識成功的臨界相似值，由用戶設定或系統預設。

該輸出模組205還用於當該最高語音相似值大於或等於該預設的低臨界值時，輸出一該段新輸入的語音能被辨識的結果及該最高語音相似值於該顯示單元30。在本實施方式中，當輸出的最高語音相似值較低時，說明該用戶的該段新輸入的語音雖然能被辨識，但是與第一資料庫101中存儲的語音的相似度較低，表明被辨識的準確度並不是很高，該用戶需要進行更多的語音訓練，以便於該用戶以後的待辨識語音能更準確地被辨識。

該輸出模組205還用於當該最高語音相似值小於該預設的低臨界值時，輸出一該段新輸入的語音不能被辨識的結果及該最高語音相似值於該顯示單元30。在本實施方式中，當該段語音不能被辨識成功時，說明該段語音與第一資料庫101中存儲的語音的相似度很低，表明該用戶需要進行更多的語音訓練，以便於該用戶以後的待辨識語音能被辨識。

該轉移模組23用於在所有語音完成語音訓練時，將第一資料庫101中最早存儲的一段語音轉移存儲至第二資料庫102。在本實施方式中，該第一資料庫101最早存儲的語音轉移存儲至第二資料庫102指將該第一資料庫101最早存儲的語音剪切至第二資料庫102中，因此，第一資料庫101最早存儲的語音轉移存儲至第二資料庫102後不再存儲於第一資料庫101中。

該第二訓練模組24用於在該最早存儲的一段語音轉移存儲至第二資料庫102時，對第二資料庫102中的所有語音進行語音訓練。在本實施方式中，該第二訓練模組24通過與該第一訓練模組22相同的方法對第二資料庫102中的所有語音進行語音訓練。

進一步地，該處理單元20還包括一群組劃分模組25，該群組劃分模組25用於將該第一資料庫101及第二資料庫102中存儲的多個用戶的語音、每段語音的特徵值及各用戶的語音特徵平均值劃分為相同的多個群組，每個群組均包括多個用戶的語音、每段語音的特徵值及各用戶的語音特徵平均值。例如，當該第一資料庫101包括群組A、群組B及群組C時，該第二資料庫也包括群組A、群組B及群組C。在一實施方式中，該群組劃分模組25根據每個用戶所位於的區域或者部門等因素將該第一資料庫101及第二資料庫102中存儲的多個用戶的語音、每段語音的特徵值及各用戶的語音特徵平均值劃分至相應的群組。例如，群組A中為位於北京的用戶的語音、每段語音的特徵值及各用戶的語音特徵平均值，群組B中為位於南京的用戶的語音、每段語音的特徵值及各用戶的語音特徵平均值，等等。

該第一訓練模組22還用於當第一資料庫101對應的群組中新存儲有一段語音時，對該群組中該段新存儲的語音在內的所有語音進行語音訓練。該轉移模組23還用於在該群組中所有語音完成語音訓練時，將第一資料庫101中最早存儲的一段語音轉移存儲至第二資料庫102對應的群組。例如，若該段轉移的語音原先存儲於第一資料庫101的群組A中，轉移至第二資料庫102後，也存儲於第二資料庫102的群組A中。該第二訓練模組24還用於在該最早存儲的一段語音轉移存儲至第二資料庫102對應的群組時，對第二資料庫102對應的群組中的所有語音進行語音訓練。

具體的，該特徵值提取模組201還用於基於登錄用戶的登錄資訊確定該段新輸入的語音對應的用戶在第一資料庫101中所屬的群組，並將該段新輸入的語音暫存於該所屬群組中，並提取該段新輸入的語音的特徵值。在本實施方式中，登錄用戶的登錄資訊包括用戶名及密碼，其中，該特徵值提取模組201可根據用戶名確定該登錄用戶所屬的群組。該相似值獲取模組202還用於將該段新輸入的語音的特徵值與所屬群組中各用戶的語音特徵平均值進行比對，並從得到的多個語音相似值中選取一最高語音相似值。

該命名模組206還用於當該最高語音相似值小於或等於該預設高臨界值時，通過前述的方式命名該段新輸入的語音，即將該段新輸入的語音以name_n_time的格式進行命名，並將該段語音存儲於該所屬群組中。該更新模組207還用於提取該所屬群組中該段新輸入的語音在內的所有語音的特徵值，並重新計算得到各用戶的語音特徵平均值，將所有語音的特徵值及重新計算得到的各用戶的語音特徵平均值存儲於第一資料庫101對應的群組中。

在本實施方式中，在第一資料庫101及第二資料庫102中設置群組可彙集相同群體內（例如相同區域或一個公司內的相同部門）多個用戶的語音資料，當一用戶需要進行語音訓練或語音辨識時，該用戶的待訓練語音或待辨識語音的特徵值只需與該用戶所屬群組內各用戶的語音特徵平均值作比對，從而減少語音訓練及語音辨識所花費的時間。

進一步地，請參考圖3b，該介面提供模組21還用於回應用戶的辨識請求操作而提供一語音辨識介面60，供用戶登錄後通過該語音輸入單元40輸入待辨識的語音至該語音辨識介面60，從而進行語音辨識。在本實施方式中，該語音辨識介面60顯示有一“開始辨識”選項61，用戶可通過點擊該“開始辨識”選項61開始語音辨識。在其他實施方式中，用戶也可通過該語音輸入單元40輸入“開始辨識”的語音而開始語音辨識。

該第一辨識模組26用於當第一資料庫101對應的群組中新存儲有一段待辨識語音時，基於第一資料庫101中對應的群組對該段待辨識語音的發音人的身份進行辨識。具體的，該第一辨識模組26通過調用特徵值提取模組201、相似值獲取模組202、比對模組203及輸出模組205而對該段待辨識語音的發音人的身份進行辨識。

該特徵值提取模組201用於獲取一登錄用戶輸入的一段待辨識語音，將該待辨識語音暫存於第一資料庫101中該用戶所屬的群組，並提取該段待辨識語音的特徵值。其中，該段待辨識語音為通過該語音輸入單元40臨時輸入的語音。

該相似值獲取模組202用於將該段待辨識語音的特徵值分別與對應群組下各用戶的語音特徵平均值進行比對，而得到多個語音相似值，並從該多個語音相似值中選取一最高語音相似值。

該比對模組203用於將該最高語音相似值與一預設值進行比對。在本實施方式中，該預設值為待辨識語音的發音人的身份能否被辨識成功的臨界相似值，且為一預設值。

該輸出模組205用於當該最高語音相似值大於或等於該預設值時，輸出一辨識成功的結果及該段待辨識語音的發音人的身份於該顯示單元30。

該第二辨識模組27用於在該段待辨識語音的發音人的身份無法被第一辨識模組26辨識成功時，基於第二資料庫102中對應的群組對該段待辨識語音的發音人的身份進行辨識。在本實施方式中，該第二辨識模組27通過調用特徵值提取模組201、相似值獲取模組202、比對模組203及輸出模組205而將該段待辨識語音的發音人的身份進行辨識。

該特徵值提取模組201用於在該段待辨識語音的發音人的身份無法被辨識成功時，獲取該段待辨識語音，並基於第二資料庫102中對應的群組提取該段待辨識語音的特徵值。

該相似值獲取模組202用於將該段待辨識語音的特徵值與第二資料庫102相同群組中各用戶的語音特徵平均值進行比對，而得到多個語音相似值，並從該多個語音相似值中選取一最高語音相似值。該比對模組203用於將該最高語音相似值與該預設值進行比對。該輸出模組205用於當該最高語音相似值大於或等於該預設值時，輸出一辨識成功的結果及該段待辨識語音的發音人的身份於該顯示單元30。該輸出模組205還用於當該最高語音相似值小於該預設值時，輸出一辨識失敗的結果於該顯示單元30。

在本實施方式中，該語音辨識裝置1通過上述的方法在裝置內部進行語音訓練及語音辨識。在一實施方式中，該第一資料庫101及第二資料庫102可存儲於雲端伺服器（圖中未示）中，該語音辨識裝置1可連接至該雲端伺服器，並在該雲端伺服器中通過上述的方法進行語音訓練或語音辨識。此時該雲端伺服器運行有模組22-27及模組201-206，而該語音辨識裝置1只需執行語音輸入及結果顯示的動作。

在另一實施方式中，該語音辨識裝置1及雲端伺服器均存儲有第一資料庫101及第二資料庫102，該語音辨識裝置1可連接至該雲端伺服器，並在該雲端伺服器中通過上述的方法進行語音訓練，該雲端伺服器在語音訓練完成後將兩個資料庫中的訓練結果（即所有語音的特徵值及各用戶的語音特徵平均值）對應回傳至該語音辨識裝置1的兩個資料庫中，使得該語音辨識裝置1可基於回傳的訓練結果通過上述方法對輸入的待辨識語音進行語音辨識。此時該雲端伺服器中運行有模組22-25及模組201-204、模組206-207，該語音辨識裝置1運行有介面提供模組21、第一辨識模組26及第二辨識模組27，以及特徵值提取模組201、相似值獲取模組202、比對模組203、輸出模組205。

請參考圖4a，為本發明語音辨識方法中語音訓練的流程圖。

步驟S101，當第一資料庫101中新存儲有一段語音時，對該段新存儲的語音在內的所有語音進行語音訓練。

步驟S102，在所有語音完成語音訓練時，將第一資料庫101中最早存儲的一段語音轉移存儲至第二資料庫102。

步驟S103，在該最早存儲的一段語音轉移存儲至第二資料庫102時，對第二資料庫102中的所有語音進行語音訓練。

其中，步驟S101具體包括：獲取登錄用戶輸入的一段語音，將該獲取的語音暫存於第一資料庫101中，並提取該段新輸入的語音的特徵值；將該段新輸入的語音的特徵值分別與第一資料庫101中各用戶的語音特徵平均值進行比對，而得到多個語音相似值，並從該多個語音相似值中選取一最高語音相似值；將該最高語音相似值與一預設的高臨界值進行比對；當該最高語音相似值大於該預設的高臨界值時，刪除該段新輸入的語音；輸出一該段語音被刪除的資訊於該顯示單元30；當該最高語音相似值小於或等於該預設的高臨界值時，命名該段新輸入的語音，並將該段命名後的語音存儲於第一資料庫101中；及提取該段新輸入的語音在內的所有語音的特徵值，並重新計算得到各用戶的語音特徵平均值，將所有語音的特徵值及重新計算得到的各用戶的語音特徵平均值存儲於第一資料庫101中。

進一步地，步驟S101還包括：將該最高語音相似值與一預設的低臨界值進行比對；當該最高語音相似值大於或等於該預設的低臨界值時，輸出一該段新輸入的語音能被辨識的結果及該最高語音相似值於該顯示單元30；當該最高語音相似值小於該預設的低臨界值時，輸出一該段新輸入的語音不能被辨識的結果及該最高語音相似值於該顯示單元30。

進一步地，該語音辨識方法還包括步驟：將該第一資料庫101及第二資料庫102中存儲的多個用戶的語音、每段語音的特徵值及各用戶的語音特徵平均值劃分為相同的多個群組；當第一資料庫101對應的群組中新存儲有一段語音時，對該群組中該段新存儲的語音在內的所有語音進行語音訓練；在該段語音完成語音訓練時，將第一資料庫101中最早存儲的一段語音轉移存儲至第二資料庫102對應的群組；及在該最早存儲的一段語音轉移存儲至第二資料庫102對應的群組時，對第二資料庫102對應的群組中的所有語音進行語音訓練。

請參考圖4b，為本發明語音辨識方法中語音辨識的流程圖。

步驟S201，當第一資料庫101對應的群組中新存儲有一段待辨識語音時，基於第一資料庫101中對應的群組對該段待辨識語音的發音人的身份進行辨識。

步驟S202，在該段待辨識語音的發音人的身份無法被辨識成功時，基於第二資料庫102中對應的群組對該段待辨識語音的發音人的身份進行辨識。

其中，步驟S201具體包括：獲取一登錄用戶輸入的一段待辨識語音，將該待辨識語音暫存於第一資料庫101中該用戶所屬的群組，並提取該段待辨識語音的特徵值；將該段待辨識語音的特徵值分別與對應群組下各用戶的語音特徵平均值進行比對，而得到多個語音相似值，並從該多個語音相似值中選取一最高語音相似值；將該最高語音相似值與一預設值進行比對；當該最高語音相似值大於或等於該預設值時，輸出一辨識成功的結果及該段待辨識語音的發音人的身份於該顯示單元30。

其中，步驟S202具體包括：在該段待辨識語音的發音人的身份無法被辨識成功時，獲取該段待辨識語音，並基於第二資料庫102中對應的群組提取該段待辨識語音的特徵值；將該段待辨識語音的特徵值與該第二資料庫102相同群組中各用戶的語音特徵平均值進行比對，而得到多個語音相似值，並從該多個語音相似值中選取一最高語音相似值；將該最高語音相似值與該預設值進行比對；當該最高語音相似值大於或等於該預設值時，輸出辨識成功的結果及該段待辨識語音的發音人的身份於該顯示單元30；當該最高語音相似值小於該預設值時，輸出一辨識失敗的結果於該顯示單元30。

最後應說明的是，以上實施例僅用以說明本發明的實施方案而非限制，儘管參照較佳實施例對本發明進行了詳細說明，本領域的普通技術人員應當理解，可以對本發明的技術方案進行修改或者等同替換，而不脫離本發明技術方案的精神和範圍。

1‧‧‧語音辨識裝置

10‧‧‧存儲單元

101‧‧‧第一資料庫

102‧‧‧第二資料庫

20‧‧‧處理單元

21‧‧‧介面提供模組

22‧‧‧第一訓練模組

23‧‧‧轉移模組

24‧‧‧第二訓練模組

25‧‧‧群組劃分模組

26‧‧‧第一辨識模組

27‧‧‧第二辨識模組

201‧‧‧特徵值提取模組

202‧‧‧相似值獲取模組

203‧‧‧比對模組

204‧‧‧刪除模組

205‧‧‧輸出模組

206‧‧‧命名模組

207‧‧‧更新模組

30‧‧‧顯示單元

40‧‧‧語音輸入單元

50‧‧‧語音訓練介面

51‧‧‧“開始訓練”選項

60‧‧‧語音辨識介面

61‧‧‧“開始辨識”選項

無