TWI587281B

TWI587281B - Voice control system and its method

Info

Publication number: TWI587281B
Application number: TW103138698A
Authority: TW
Inventors: Chih Chieh Fang
Original assignee: Papago Inc
Priority date: 2014-11-07
Filing date: 2014-11-07
Publication date: 2017-06-11
Also published as: TW201618076A

Description

語音控制系統及其方法

本發明是有關於一種語音控制系統及其方法，且特別是有關於一種可透過網路連結控制、個人化且具學習能力之語音辨識裝置及其方法。

近年來，由於無線行動裝置以及各種型態的電子裝置等智慧型消費電子產品市場蓬勃發展，不論是在硬體設計上裝置的改良，或是在系統平台端的軟體網路服務等都逐漸提升其功能性，其中技術層次越高之產品對於智慧型功能的需求越高。因此，語音辨識功能由於具有方便的使用性、提高效率、節省時間成本、廣泛應用、趣味性等特性與優勢，近年更成為熱門的產品功能之一。

在語音辨識的核心技術在於其軟體運算架構用以增加其辨識度、精準度以及正確性。一般而言在進行語音辨識前需要先安裝語音軟體置電子裝置上並進行語音特徵值的訓練，並且將不同使用者之特徵值儲存於電子裝置中，當使用者對電子裝置輸入指令之語音片段時，將輸入指令之語音片段進行多個特徵值進行比對，再輸出語音片段對應的特徵值。

然而，各種語音複雜性、語音片段辨識的容錯程度、訊噪比以及環境干擾程度常會導致語音辨識上的困難，往往經過一連串的計算過程完成後，其辨識之結果仍不符合使用者之需求。

本發明提供一種語音控制系統及其方法，其特色在於透過語音特徵辨識模組、語音校正模組以及語音判斷模組，可以透過系統內建、使用者輸入或經驗學習法則等經過每次的辨識結果與使用者互動中不斷修正與加強語音辨識效能，並透過指令集的建立快速比對出簡單指令，讓使用者更為便利之外更可以加速語音控制的時間成本並減少軟體運算的負擔。

因此根據上述，本發明提出一種語音控制系統，包括一語音輸入單元；一語音特徵辨識模組，取得該語音輸入單元之一語音片段並拆解成複數個語音詞組，分析該些語音詞組的該些特徵值，並將該些特徵值與一語音資料庫進行配對，當有符合時則產生一第一辨識結果，傳送該第一辨識結果至一語音判斷模組，當沒有符合時，則將該些語音詞組傳送至一語音校正模組。

該語音校正模組將該些語音詞組進行校正調整，透過一參數庫進行比較分析並產生一第二辨識結果，並將該第二辨識結果與該語音資料庫進行配對，當有符合時則產生一第三辨識結果，傳送該第三辨識結果至該語音判斷模組，當沒有符合時，將該第二辨識結果傳送至一語音判斷模組。

其中語音判斷模組具有一指令集，係將該第一辨識結果、該第二辨識結果、及該第三辨識結果其中之一者與該指令集進行比對運算後，產生一最終語音辨識結果，其中，更包括一命令執行單元，執行該最終語音辨識結果。

根據上述，本發明提出一種語音控制方法，包括透過一語音特徵辨識模組，取得一語音輸入單元輸入之一語音片段並拆解成複數個語音詞組，分析該些語音詞組的該些特徵值，並將該些特徵值與一語音資料庫進行配對，當有符合時則產生一第一辨識結果，傳送該第一辨識結果至一語音判斷模組，當沒有符合時，則將該些語音詞組傳送至一語音校正模組。

藉由該語音校正模組將該些語音詞組進行校正調整，透過一參數庫進行比較分析並產生一第二辨識結果，並將該第二辨識結果與該語音資料庫進行配對，當有符合時則產生一第三辨識結果，傳送該第三辨識結果至該語音判斷模組，當沒有符合時，將該第二辨識結果傳送至該語音判斷模組。

最後透過該語音判斷模組，將該第一辨識結果、該第二辨識結果、及該第三辨識結果其中之一者與一指令集進行比對運算後，產生一最終語音辨識結果，其中，透過一命令執行單元，執行該最終語音辨識結果。

為使本發明之上述內容更明顯易懂，下文特與較佳實施例並且配合所附圖式以作為詳細說明。

100‧‧‧語音輸入電路

110‧‧‧系統整合晶片

120‧‧‧語音輸出電路

130‧‧‧驅動電路

140‧‧‧負載端

200‧‧‧語音控制系統

300‧‧‧語音輸入單元

400‧‧‧語音特徵辨識模組

500‧‧‧語音校正模組

600‧‧‧語音判斷模組

700‧‧‧命令執行單元

S301~S306‧‧‧流程

S401~S407‧‧‧流程

圖1是習知之一種語音控制系統之硬體架構方塊圖。

圖2 繪示本發明之語音控制系統之元件方塊示意圖。

圖3 繪示本發明之語音控制系統之基本原理流程圖。

圖4 繪示本發明之語音控制系統之詳細步驟流程圖。

依照本發明的語音控制系統及其方法，請一併參閱圖1係為習知之一種語音控制系統之硬體架構方塊示意圖。語音控制技術已成為廣泛應用和研究的重要技術之一，對於人機互動的智慧型系統開發具有重要的參考價值。目前，實現語音控制的架構考量其性能、結構、價格以及其實現之價值之不同，可以利用單晶片、數字信號處理器或語音辨別專用晶片完成此開發架構。

於本實施例中，一種語音控制系統200，主要是由包括語音輸入電路100、系統整合晶片110、語音輸出電路120、驅動電路130以及負載端140等硬體架構所組成。其中，系統整合晶片110係為整個語音控制系統200的核心，通過識別使用者所輸入的語音控制命令，輸出適合的控制信號，並經驅動電路130控制系統作出正確的動作，同時可透過部分程度的設定，使系統達到與使用者溝通的目的。

根據上述，語音控制系統200具有語音輸入單元300、語音特徵辨識模組400、語音校正模組500、語音判斷模組 600以及命令執行單元700。

其中本發明之語音控制系統200，其中更具有一電子裝置，該電子裝置與該語音輸入單元300電性連結，該電子裝置可以為IP Camera、WiFi Camera以及行車紀錄器等電子裝置，並且可以連結網路與該命令執行單元700電性連結，使得該電子裝置執行該最終語音辨識結果。

其中本發明之語音控制系統200之語音輸入單元300可以讓使用者透過不同方式輸入複數個語音片段，例如揚聲器、麥克風等多媒體裝置，其中該語音片段並不限定任意之語言模式。

本發明之語音控制系統200更包括一語音特徵辨識模組400，當取得該語音輸入單元300之一個語音片段後，並拆解成複數個語音詞組，透過該語音特徵辨識模組400更包括前置處理模組，係用以將該語音片段經過數位化處理形成複數個音框，該些音框係為一種數位訊號格式。前置處理模組的重要性在於可以將雜訊以及真正欲分析的語音詞組分析區別出來以供語音特徵辨識模組400進行後續的分析運算。

該語音特徵辨識模組400透過運算處理分析，將上述語音片段之該些語音詞組的特徵值加以分解出來，其中該特徵值可以利用傅立葉轉換、濾波器處理、線性預測等方法組成，將輸入之語音詞組相關資訊進行分析，例如語音詞組之振幅、頻率與聲波等。

該語音特徵辨識模組400更包括特徵模式庫，其中特徵模式庫可以為系統內建、使用者建立、經驗法則、模糊建模、推理機制、類神經網路以及演算法等方法組成。語音特徵辨識模組400，分析該語音片段之該特徵值，係用以比較該特徵值之間的差異性並儲存於該特徵模式庫以提供使用者往後使用並且儲存不同使用者的使用記錄，增加語音控制系統200的學習能力。

該語音特徵辨識模組400將該些特徵值與一語音資料庫進行配對，當有符合時則產生一第一辨識結果，傳送該第一辨識結果至一語音判斷模組600，當沒有符合時，則將該些語音詞組傳送至一語音校正模組。

其中，上述該語音特徵辨識模組400之語音資料庫，包括預先儲存在語音控制系統200之複數個語音詞組，更包括後續使用者陸續增加的語音詞組、相關演算法以及藉由網路之學習功能所自動增加的語音詞組。

該語音校正模組500將該些語音詞組進行校正調整，透過一系列的參數庫進行比較分析之後，並產生第二辨識結果，並將該第二辨識結果與該語音資料庫進行配對，當有符合時則產生一第三辨識結果，傳送該第三辨識結果至該語音判斷模組600，當沒有符合時，將該第二辨識結果傳送至該語音判斷模組600進行後續的判斷。

上述該語音判斷模組600更具有一指令集，其中該指令集可以藉由系統內建、使用者建立、經驗法則、模糊建模、推理機制儲存於語音控制系統200當中，指令集提供語音控制系統200一種快速篩選的指令集以及參考模式，係將該第一辨識結果、該第二辨識結果、及該第三辨識結果其中之一者與該指令集進行比對運算後，產生該最終語音辨識結果。

其中，語音控制系統200之該語音判斷模組600，接收到該第二辨識結果或該第三辨識結果，經由該語音判斷模組600處理運算其與該語音資料庫之該語音詞組，判斷適合執行之命令，最後，語音控制系統200更包括一命令執行單元，用以執行一最終語音辨識結果，當語音控制系統200收到最終語音辨識結果之後，會以電性連結該電子裝置用以控制並傳送命令於命令執行單元。

根據上述，語音控制系統200之該命令執行單元，更具有一語音播放單元，藉由該語音播放單元將最終語音辨識結果播放用以提供一外部指令判斷該語音辨識結果是否符合，當判斷符合時執行該最終語音辨識結果，透過部分程度的系統設定，使系統達到與使用者溝通的目的，其中，該命令執行單元可以透過軟體程式連結無線網路或有線網路，使得該電子裝置可以透過網路連結執行該最終語音辨識結果。

綜上所述，本發明提供一種語音控制系統及其方法，其特色在於透過語音特徵辨識模組400、語音校正模組500以及語音判斷模組600交叉比對，並且可以透過系統內建、使用者輸入或經驗學習法則等經過每次的辨識結果與使用者互動中不斷修正與加強語音辨識效能，並透過指令集的建立快速比對出簡單指令，讓使用者更為便利之外更可以加速語音控制的時間成本並減少軟體運算的負擔。

雖然本發明以前述實施例揭露如上，然其並非用以限定本發明，任何熟習相像技藝者，在不脫離本發明之精神和範圍內，所作更動與潤飾之等效替換，仍為本發明之專利保護範圍內。