TWI587281B - Voice control system and its method - Google Patents

Voice control system and its method Download PDF

Info

Publication number
TWI587281B
TWI587281B TW103138698A TW103138698A TWI587281B TW I587281 B TWI587281 B TW I587281B TW 103138698 A TW103138698 A TW 103138698A TW 103138698 A TW103138698 A TW 103138698A TW I587281 B TWI587281 B TW I587281B
Authority
TW
Taiwan
Prior art keywords
voice
identification result
module
feature
control system
Prior art date
Application number
TW103138698A
Other languages
English (en)
Other versions
TW201618076A (zh
Inventor
Chih Chieh Fang
Original Assignee
Papago Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Papago Inc filed Critical Papago Inc
Priority to TW103138698A priority Critical patent/TWI587281B/zh
Publication of TW201618076A publication Critical patent/TW201618076A/zh
Application granted granted Critical
Publication of TWI587281B publication Critical patent/TWI587281B/zh

Links

Landscapes

  • Telephonic Communication Services (AREA)

Description

語音控制系統及其方法
本發明是有關於一種語音控制系統及其方法,且特別是有關於一種可透過網路連結控制、個人化且具學習能力之語音辨識裝置及其方法。
近年來,由於無線行動裝置以及各種型態的電子裝置等智慧型消費電子產品市場蓬勃發展,不論是在硬體設計上裝置的改良,或是在系統平台端的軟體網路服務等都逐漸提升其功能性,其中技術層次越高之產品對於智慧型功能的需求越高。因此,語音辨識功能由於具有方便的使用性、提高效率、節省時間成本、廣泛應用、趣味性等特性與優勢,近年更成為熱門的產品功能之一。
在語音辨識的核心技術在於其軟體運算架構用以增加其辨識度、精準度以及正確性。一般而言在進行語音辨識前需要先安裝語音軟體置電子裝置上並進行語音特徵值的訓練,並且將不同使用者之特徵值儲存於電子裝置中,當使用者對電子裝置輸入指令之語音片段時,將輸入指令之語音片段進行多個特徵值進行比對,再輸出語音片段對應的特徵值。
然而,各種語音複雜性、語音片段辨識的容錯程度、訊噪比以及環境干擾程度常會導致語音辨識上的困難,往往經過一連串的計算過程完成後,其辨識之結果仍不符合使用者之需求。
本發明提供一種語音控制系統及其方法,其特色在於透過語音特徵辨識模組、語音校正模組以及語音判斷模組,可以透 過系統內建、使用者輸入或經驗學習法則等經過每次的辨識結果與使用者互動中不斷修正與加強語音辨識效能,並透過指令集的建立快速比對出簡單指令,讓使用者更為便利之外更可以加速語音控制的時間成本並減少軟體運算的負擔。
因此根據上述,本發明提出一種語音控制系統,包括一語音輸入單元;一語音特徵辨識模組,取得該語音輸入單元之一語音片段並拆解成複數個語音詞組,分析該些語音詞組的該些特徵值,並將該些特徵值與一語音資料庫進行配對,當有符合時則產生一第一辨識結果,傳送該第一辨識結果至一語音判斷模組,當沒有符合時,則將該些語音詞組傳送至一語音校正模組。
該語音校正模組將該些語音詞組進行校正調整,透過一參數庫進行比較分析並產生一第二辨識結果,並將該第二辨識結果與該語音資料庫進行配對,當有符合時則產生一第三辨識結果,傳送該第三辨識結果至該語音判斷模組,當沒有符合時,將該第二辨識結果傳送至一語音判斷模組。
其中語音判斷模組具有一指令集,係將該第一辨識結果、該第二辨識結果、及該第三辨識結果其中之一者與該指令集進行比對運算後,產生一最終語音辨識結果,其中,更包括一命令執行單元,執行該最終語音辨識結果。
根據上述,本發明提出一種語音控制方法,包括透過一語音特徵辨識模組,取得一語音輸入單元輸入之一語音片段並拆解成複數個語音詞組,分析該些語音詞組的該些特徵值,並將該些特徵值與一語音資料庫進行配對,當有符合時則產生一第一辨識結果,傳送該第一辨識結果至一語音判斷模組,當沒有符合時,則將該些語音詞組傳送至一語音校正模組。
藉由該語音校正模組將該些語音詞組進行校正調整,透過一參數庫進行比較分析並產生一第二辨識結果,並將該第二辨識結果與該語音資料庫進行配對,當有符合時則產生一第三辨識結果,傳送該第三辨識結果至該語音判斷模組,當沒有符合時,將該第二辨識結果傳送至該語音 判斷模組。
最後透過該語音判斷模組,將該第一辨識結果、該第二辨識結果、及該第三辨識結果其中之一者與一指令集進行比對運算後,產生一最終語音辨識結果,其中,透過一命令執行單元,執行該最終語音辨識結果。
為使本發明之上述內容更明顯易懂,下文特與較佳實施例並且配合所附圖式以作為詳細說明。
100‧‧‧語音輸入電路
110‧‧‧系統整合晶片
120‧‧‧語音輸出電路
130‧‧‧驅動電路
140‧‧‧負載端
200‧‧‧語音控制系統
300‧‧‧語音輸入單元
400‧‧‧語音特徵辨識模組
500‧‧‧語音校正模組
600‧‧‧語音判斷模組
700‧‧‧命令執行單元
S301~S306‧‧‧流程
S401~S407‧‧‧流程
圖1是習知之一種語音控制系統之硬體架構方塊圖。
圖2 繪示本發明之語音控制系統之元件方塊示意圖。
圖3 繪示本發明之語音控制系統之基本原理流程圖。
圖4 繪示本發明之語音控制系統之詳細步驟流程圖。
依照本發明的語音控制系統及其方法,請一併參閱圖1係為習知之一種語音控制系統之硬體架構方塊示意圖。語音控制技術已成為廣泛應用和研究的重要技術之一,對於人機互動的智慧型系統開發具有重要的參考價值。目前,實現語音控制的架構考量其性能、結構、價格以及其實現之價值之不同,可以利用單晶片、數字信號處理器或語音辨別專用晶片完成此開發架構。
於本實施例中,一種語音控制系統200,主要是由包括語音輸入電路100、系統整合晶片110、語音輸出電路120、驅動電路130以及負載端140等硬體架構所組成。其中,系統整合晶片110係為整個語音控制系統200的核心,通過識別使用者所輸入的語音控制命令,輸出適合的控制信號,並經驅動電路130控制系統作出正確的動作,同時可透過部分程度的設定,使系統達到與使用者溝通的目的。
根據上述,語音控制系統200具有語音輸入單元300、語音特徵辨識模組400、語音校正模組500、語音判斷模組 600以及命令執行單元700。
其中本發明之語音控制系統200,其中更具有一電子裝置,該電子裝置與該語音輸入單元300電性連結,該電子裝置可以為IP Camera、WiFi Camera以及行車紀錄器等電子裝置,並且可以連結網路與該命令執行單元700電性連結,使得該電子裝置執行該最終語音辨識結果。
其中本發明之語音控制系統200之語音輸入單元300可以讓使用者透過不同方式輸入複數個語音片段,例如揚聲器、麥克風等多媒體裝置,其中該語音片段並不限定任意之語言模式。
本發明之語音控制系統200更包括一語音特徵辨識模組400,當取得該語音輸入單元300之一個語音片段後,並拆解成複數個語音詞組,透過該語音特徵辨識模組400更包括前置處理模組,係用以將該語音片段經過數位化處理形成複數個音框,該些音框係為一種數位訊號格式。前置處理模組的重要性在於可以將雜訊以及真正欲分析的語音詞組分析區別出來以供語音特徵辨識模組400進行後續的分析運算。
該語音特徵辨識模組400透過運算處理分析,將上述語音片段之該些語音詞組的特徵值加以分解出來,其中該特徵值可以利用傅立葉轉換、濾波器處理、線性預測等方法組成,將輸入之語音詞組相關資訊進行分析,例如語音詞組之振幅、頻率與聲波等。
該語音特徵辨識模組400更包括特徵模式庫,其中特徵模式庫可以為系統內建、使用者建立、經驗法則、模糊建模、推理機制、類神經網路以及演算法等方法組成。語音特徵辨識模組400,分析該語音片段之該特徵值,係用以比較該特徵值之間的差異性並儲存於該特徵模式庫以提供使用者往後使用並且儲存不同使用者的使用記錄,增加語音控制系統200的學習能力。
該語音特徵辨識模組400將該些特徵值與一語音資料庫進行配對,當有符合時則產生一第一辨識結果,傳送該第一辨識結果至一語音判斷模組600,當沒有符合時,則將該些語音詞組傳送至一語音校正模組。
其中,上述該語音特徵辨識模組400之語音資料庫,包括 預先儲存在語音控制系統200之複數個語音詞組,更包括後續使用者陸續增加的語音詞組、相關演算法以及藉由網路之學習功能所自動增加的語音詞組。
該語音校正模組500將該些語音詞組進行校正調整,透過一系列的參數庫進行比較分析之後,並產生第二辨識結果,並將該第二辨識結果與該語音資料庫進行配對,當有符合時則產生一第三辨識結果,傳送該第三辨識結果至該語音判斷模組600,當沒有符合時,將該第二辨識結果傳送至該語音判斷模組600進行後續的判斷。
上述該語音判斷模組600更具有一指令集,其中該指令集可以藉由系統內建、使用者建立、經驗法則、模糊建模、推理機制儲存於語音控制系統200當中,指令集提供語音控制系統200一種快速篩選的指令集以及參考模式,係將該第一辨識結果、該第二辨識結果、及該第三辨識結果其中之一者與該指令集進行比對運算後,產生該最終語音辨識結果。
其中,語音控制系統200之該語音判斷模組600,接收到該第二辨識結果或該第三辨識結果,經由該語音判斷模組600處理運算其與該語音資料庫之該語音詞組,判斷適合執行之命令,最後,語音控制系統200更包括一命令執行單元,用以執行一最終語音辨識結果,當語音控制系統200收到最終語音辨識結果之後,會以電性連結該電子裝置用以控制並傳送命令於命令執行單元。
根據上述,語音控制系統200之該命令執行單元,更具有一語音播放單元,藉由該語音播放單元將最終語音辨識結果播放用以提供一外部指令判斷該語音辨識結果是否符合,當判斷符合時執行該最終語音辨識結果,透過部分程度的系統設定,使系統達到與使用者溝通的目的,其中,該命令執行單元可以透過軟體程式連結無線網路或有線網路,使得該電子裝置可以透過網路連結執行該最終語音辨識結果。
綜上所述,本發明提供一種語音控制系統及其方法,其特色在於透過語音特徵辨識模組400、語音校正模組500以及語音判斷模組600交叉比對,並且可以透過系統內建、使用者輸入 或經驗學習法則等經過每次的辨識結果與使用者互動中不斷修正與加強語音辨識效能,並透過指令集的建立快速比對出簡單指令,讓使用者更為便利之外更可以加速語音控制的時間成本並減少軟體運算的負擔。
雖然本發明以前述實施例揭露如上,然其並非用以限定本發明,任何熟習相像技藝者,在不脫離本發明之精神和範圍內,所作更動與潤飾之等效替換,仍為本發明之專利保護範圍內。
200‧‧‧語音控制系統
300‧‧‧語音輸入單元
400‧‧‧語音特徵辨識模組
500‧‧‧語音校正模組
600‧‧‧語音判斷模組
700‧‧‧命令執行單元

Claims (18)

  1. 一種語音控制系統,包括:一語音輸入單元;一語音特徵辨識模組,取得該語音輸入單元之一語音片段並拆解成複數個語音詞組,分析該些語音詞組的一特徵值,並將該些特徵值與一語音資料庫進行配對,當有符合時則產生一第一辨識結果,傳送該第一辨識結果至一語音判斷模組,當沒有符合時,則將該些語音詞組傳送至一語音校正模組;該語音校正模組將該些語音詞組進行校正調整,透過一參數庫進行比較分析並產生一第二辨識結果,並將該第二辨識結果與該語音資料庫進行配對,當有符合時則產生一第三辨識結果,傳送該第三辨識結果至該語音判斷模組,當沒有符合時,將該第二辨識結果傳送至該語音判斷模組;以及該語音判斷模組具有一指令集,係將該第一辨識結果、該第二辨識結果、及該第三辨識結果其中之一者與該指令集進行比對運算後,產生一最終語音辨識結果,其中,更包括一命令執行單元,執行一最終語音辨識結果,其中,更具有一電子裝置,該電子裝置與該語音輸入單元電性連結,並且與一命令執行單元電性連結,使得該電子裝置執行該最終語音辨識結果。
  2. 如申請專利範圍第1項所述之語音控制系統,其中該語音特徵辨識模組更包括一前置處理模組,係用以將該語音片段經過數位化處理形成一音框,該音框係為一種數位訊號格式。
  3. 如申請專利範圍第1項所述之語音控制系統,其中該特徵值可以利用傅立葉轉換、濾波器處理、線性預測等方法組成。
  4. 如申請專利範圍第1項所述之語音控制系統,其中該語音特徵辨識模組更具有一特徵模式庫可以為系統內建、使用者建立、經驗法則、模糊建模、推理機制、類神經網路以及演算法等方法組成。
  5. 如申請專利範圍第1項所述之語音控制系統,其中該語音判斷模組之該指令集可以為系統內建、使用者建立、經驗法則、模糊建模、推 理機制、類神經網路以及演算法等方法組成。
  6. 如申請專利範圍第4項所述之語音控制系統,其中語音特徵辨識模組,分析該語音片段之該特徵值,比較該特徵值之間的差異性並儲存於該特徵模式庫。
  7. 如申請專利範圍第1項所述之語音控制系統,其中該語音資料庫,包括複數個語音詞組。
  8. 如申請專利範圍第1項所述之語音控制系統,其中該語音判斷模組,接收該第二辨識結果或該第三辨識結果經由處理運算其與該語音資料庫之該語音詞組。
  9. 如申請專利範圍第1項所述之語音控制系統,其中該命令執行單元,更具有一語音播放單元,藉由該語音播放單元將最終語音辨識結果播放用以提供一外部指令判斷該語音辨識結果是否符合,當判斷符合時執行該最終語音辨識結果。
  10. 如申請專利範圍第9項所述之語音控制系統,其中該命令執行單元可以透過軟體程式連結無線網路或有線網路,使得該電子裝置執行該最終語音辨識結果。
  11. 一種語音控制方法,包括:透過一語音特徵辨識模組,取得一語音輸入單元輸入之一語音片段並拆解成複數個語音詞組,分析該些語音詞組的一特徵值,並將該些特徵值與一語音資料庫進行配對,當有符合時則產生一第一辨識結果,傳送該第一辨識結果至一語音判斷模組,當沒有符合時,則將該些語音詞組傳送至一語音校正模組;藉由該語音校正模組將該些語音詞組進行校正調整,透過一參數庫進行比較分析並產生一第二辨識結果,並將該第二辨識結果與該語音資料庫進行配對,當有符合時則產生一第三辨識結果,傳送該第三辨識結果至該語音判斷模組,當沒有符合時,將該第二辨識結果傳送至該語音判斷模組;以及透過該語音判斷模組,將該第一辨識結果、該第二辨識結果、及該第三辨識結果其中之一者與一指令集進行比對運算後,產生該最終語音辨識結果,其中,透過一電子裝置,該電子裝置與該語音輸入單元電性 連結,並且與一命令執行單元電性連結,使得該電子裝置執行該最終語音辨識結果。
  12. 如申請專利範圍第11項所述之語音控制方法,其中該語音特徵辨識模組更包括一前置處理模組,係用以將該語音片段經過數位化處理形成一音框,該音框係為一種數位訊號格式。
  13. 如申請專利範圍第11項所述之語音控制方法,其中該特徵值可以利用傅立葉轉換、濾波器處理、線性預測等方法組成。
  14. 如申請專利範圍第11項所述之語音控制方法,其中語音特徵辨識模組,分析該語音片段之該特徵值,比較該特徵值之間的差異性並儲存於一特徵模式庫。
  15. 如申請專利範圍第14項所述之語音控制方法,其中該特徵模式庫可以為系統內建、使用者建立、經驗法則、模糊建模、推理機制、類神經網路以及演算法等方法組成。
  16. 如申請專利範圍第11項所述之語音控制方法,其中該語音判斷模組之該指令集可以為系統內建、使用者建立、經驗法則、模糊建模、推理機制、類神經網路以及演算法等方法組成。
  17. 如申請專利範圍第11項所述之語音控制方法,其中該命令執行單元,更具有一語音播放單元,藉由該語音播放單元將最終語音辨識結果播放用以提供一外部指令判斷該語音辨識結果是否符合,當判斷符合時執行該最終語音辨識結果。
  18. 如申請專利範圍第11項所述之語音控制方法,其中該命令執行單元可以透過軟體程式連結無線網路或有線網路,使得該電子裝置執行該最終語音辨識結果。
TW103138698A 2014-11-07 2014-11-07 Voice control system and its method TWI587281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW103138698A TWI587281B (zh) 2014-11-07 2014-11-07 Voice control system and its method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW103138698A TWI587281B (zh) 2014-11-07 2014-11-07 Voice control system and its method

Publications (2)

Publication Number Publication Date
TW201618076A TW201618076A (zh) 2016-05-16
TWI587281B true TWI587281B (zh) 2017-06-11

Family

ID=56509045

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103138698A TWI587281B (zh) 2014-11-07 2014-11-07 Voice control system and its method

Country Status (1)

Country Link
TW (1) TWI587281B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI776799B (zh) * 2017-01-24 2022-09-11 香港商阿里巴巴集團服務有限公司 一種設定操作的執行方法及裝置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW449735B (en) * 1999-07-27 2001-08-11 Ibm Error correction for Chinese speech recognition with alternative input methods
TWI242729B (en) * 2004-01-16 2005-11-01 Micro Star Int Co Ltd Speech database establishment and recognition method and system thereof
TW200538969A (en) * 2004-02-11 2005-12-01 America Online Inc Handwriting and voice input with automatic correction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW449735B (en) * 1999-07-27 2001-08-11 Ibm Error correction for Chinese speech recognition with alternative input methods
TWI242729B (en) * 2004-01-16 2005-11-01 Micro Star Int Co Ltd Speech database establishment and recognition method and system thereof
TW200538969A (en) * 2004-02-11 2005-12-01 America Online Inc Handwriting and voice input with automatic correction

Also Published As

Publication number Publication date
TW201618076A (zh) 2016-05-16

Similar Documents

Publication Publication Date Title
TWI682325B (zh) 辨識系統及辨識方法
JP6465077B2 (ja) 音声対話装置および音声対話方法
US11776530B2 (en) Speech model personalization via ambient context harvesting
US20180190268A1 (en) Speech recognizing method and apparatus
US11017781B2 (en) Reverberation compensation for far-field speaker recognition
US10854182B1 (en) Singing assisting system, singing assisting method, and non-transitory computer-readable medium comprising instructions for executing the same
CN110310623A (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
US11495235B2 (en) System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks
TW201503107A (zh) 語音控制系統、電子裝置及語音控制方法
JPWO2003015076A1 (ja) 鳴声の音声的特徴分析に基づく犬の感情判別装置及びその方法
CN113330511B (zh) 语音识别方法、装置、存储介质及电子设备
US20180033427A1 (en) Speech recognition transformation system
Islam et al. Soundsifter: Mitigating overhearing of continuous listening devices
KR20210042523A (ko) 전자 장치 및 이의 제어 방법
CN113611318A (zh) 一种音频数据增强方法及相关设备
KR102194194B1 (ko) 암묵 신호 분리를 위한 방법, 장치 및 전자 장치
TWI587281B (zh) Voice control system and its method
KR20190125668A (ko) 반려동물의 감정상태 분석장치 및 방법
CN117198335A (zh) 一种语音交互方法、装置、计算机设备及智能家居系统
Binh et al. A high-performance speech-recognition method based on a nonlinear neural network
US20240112676A1 (en) Apparatus performing based on voice recognition and artificial intelligence and method for controlling thereof
US11893982B2 (en) Electronic apparatus and controlling method therefor
CN117688344B (zh) 一种基于大模型的多模态细粒度倾向分析方法及系统
KR102171441B1 (ko) 손동작 분류 장치
KR101499606B1 (ko) 음성신호의 특징정보를 이용한 흥미점수 산출 시스템 및 방법, 그를 기록한 기록매체

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees