TWI539440B - 互動式語音識別電子裝置及方法 - Google Patents

互動式語音識別電子裝置及方法 Download PDF

Info

Publication number
TWI539440B
TWI539440B TW100113846A TW100113846A TWI539440B TW I539440 B TWI539440 B TW I539440B TW 100113846 A TW100113846 A TW 100113846A TW 100113846 A TW100113846 A TW 100113846A TW I539440 B TWI539440 B TW I539440B
Authority
TW
Taiwan
Prior art keywords
voice
text
library
speech
information
Prior art date
Application number
TW100113846A
Other languages
English (en)
Other versions
TW201241822A (en
Inventor
熊雨凱
陸欣
翁世芳
呂東生
李新華
張玉勇
朱健健
Original Assignee
鴻海精密工業股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 鴻海精密工業股份有限公司 filed Critical 鴻海精密工業股份有限公司
Publication of TW201241822A publication Critical patent/TW201241822A/zh
Application granted granted Critical
Publication of TWI539440B publication Critical patent/TWI539440B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Description

互動式語音識別電子裝置及方法
本發明涉及一種互動式語音識別電子裝置及方法。
現在的語音識別技術主要是預先建立一語音庫,該語音庫中記錄各種問題對應的答案。當電子裝置接收到用戶輸入的語音,並將其轉換為文本資訊後,在語音庫中查找與該文本資訊相似的問題,當找到後,則將語音庫中該問題的答案轉換為語音後輸出,但由於每個用戶在輸入語音時,方言,發音的不同,使電子裝置所識別的問題有誤,在語音庫中找不到該問題,從而使電子裝置無法與用戶進行交互。
有鑒於此,故需要提供一種互動式語音識別電子裝置及方法,使電子裝置在語音庫中找不到對應語音時,可與用戶交互進行確認。
該互動式語音識別電子裝置包括一語音採集單元,一存儲單元,一語音輸出單元,該語音採集單元用於採集用戶輸入的語音信號,該存儲單元中存儲一語音庫,該語音庫中記錄了不同的語音文本所對應的應答文本,該語音文本即由語音資訊轉換的文本資訊,該語音輸出單元用於將由文本資訊轉換的語音資訊輸出,該電 子裝置還包括:一語音接收模組,獲取由該語音採集單元所採集的語音信號;一語音識別模組,將語音接收模組所接收的語音信號轉換為文本資訊,在語音庫中確定有沒有與該文本資訊對應的語音文本,如果有,則將該語音文本作為識別文本,如果沒有,則從語音庫中獲取與該文本資訊相似的預設個數的語音文本,然後將預設個數的語音文本依次轉換為語音資訊後,由該語音輸出單元輸出,根據用戶的輸入選擇一語音文本作為識別文本;一應答模組,從語音庫中獲取該識別文本對應的應答文本,並將該應答文本轉換為語音資訊後由該語音輸出單元輸出。
在應用於一電子裝置的互動式語音識別方法中,該電子裝置存儲一語音庫,該語音庫中記錄了不同的語音文本所對應的應答文本,該方法包括:獲取由該語音採集單元所採集的語音信號;將所接收的語音信號轉換為文本資訊,在語音庫中確定有沒有與該文本資訊對應的語音文本;如果有,則將該語音文本作為識別文本;如果沒有,則從語音庫中獲取與該文本資訊相似的預設個數的語音文本,然後將預設個數的語音文本依次轉換為語音資訊後,由該語音輸出單元輸出,根據用戶的輸入選擇一語音文本作為識別文本;從語音庫中獲取該識別文本對應的應答文本,並將該應答文本轉換為語音資訊後由該語音輸出單元輸出。
相較於現有技術,本發明的電子裝置在用戶輸入語音後,在語音庫中找不到輸入語音對應的語音時,通過最大擬合算法找到預設數量的相似語音,然後輸出供用戶選擇,並在用戶確認後,輸出所確認語音對應的應答,如此,提高電子裝置的語音識別的效率。
1‧‧‧電子裝置
11‧‧‧語音採集單元
12‧‧‧存儲單元
121‧‧‧基本語音庫
122‧‧‧擴展語音庫
13‧‧‧處理單元
131‧‧‧語音接收模組
132‧‧‧語音識別模組
133‧‧‧應答模組
134‧‧‧語音庫擴展模組
14‧‧‧語音輸出單元
S201‧‧‧接收語音資訊
S202‧‧‧將該語音資訊轉換為文本資訊
S203‧‧‧確定語音庫中有沒有與該文本資訊對應的語音文本?
S204‧‧‧從語音庫中獲取該語音文本對應的應答文本,並將該應答文本轉換為語音信號後由輸出
S205‧‧‧利用從語音庫中獲取與該文本資訊最相似的預設個數的語音文本,然後將預設個數的語音文本依次轉換為語音資訊後輸出
S206‧‧‧根據用戶的輸入從預設個數的語音文本中選擇一個語音文本作為識別文本
S207‧‧‧從識別文本所在的語音庫中獲取該識別文本對應的應答文本,並將該應答文本轉換為語音資訊後由輸出
S208‧‧‧所接收的語音信號轉換的文本資訊與用戶選擇的識別文本對應的應答文本存儲在擴展語音庫中
圖1為本發明互動式語音識別電子裝置的方塊圖。
圖2為應用圖1所示電子裝置的互動式語音識別方法的流程圖。
如圖1所示,為本發明互動式語音識別電子裝置的方塊圖。該電子裝置1包括一語音採集單元11、一存儲單元12、一處理單元13及一語音輸出單元14。該語音採集單元11用於採集用戶輸入的語音信號。該存儲單元12中存儲一基本語音庫121及一擴展語音庫122。該基本語音庫121中存儲的為預設的語音文本對應的應答文本,該擴展語音庫122中存儲的為使用過程中,用戶與電子裝置1交互後所獲取的用戶語音對應的語音文本及該語音文本對應的應答文本。該語音文本即由語音資訊轉換的文本資訊。該語音輸出單元14用於將由文本資訊轉換的語音資訊輸出。本實施方式中,該語音採集單元11為麥克風,該語音輸出單元14為喇叭。
該處理單元13包括一語音接收模組131、一語音識別模組132、一應答模組133及一語音庫擴展模組134。該語音接收模組131接收該語音採集單元採集的語音信號。該語音識別模組132將所接收的語音信號轉換為文本資訊,並在基本語音庫121及擴展語音庫122中確定有沒有與該文本資訊對應的語音文本,如果有,則將該語音文本作為識別文本,如果沒有,則利用最大擬合算法從基本語音庫121及擴展語音庫122語音庫中獲取與該文本資訊最相似的預設個數的語音文本,然後將預設個數的語音文本依次轉換為語音資訊後,由該語音輸出單元14輸出,然後接收用戶的輸入,根據用戶的輸入從預設個數的語音文本中選擇一個語音文本作為 識別文本。
例如,用戶輸入語音時,可能由於發音不標準,或者方言的原因,使電子裝置1所識別的語音即將所接收的語音資訊所轉換的文本資訊與用戶的輸入的語音資訊不一致,如用戶輸入的語音為“請問從龍華汽車站到觀瀾汽車站怎麼走”,而電腦所識別的資訊為“請問從弄化汽車站到拐來汽車站怎麼走”。由於所識別的文本資訊不存在於語音庫中,則語音識別模組即調用最大擬合算法計算出語音庫中與所識別的文本資訊最相似的預定個數(如3個)的語音文本,如“從龍華汽車站到觀瀾汽車站怎麼走”,“從龍安汽車站到觀瀾汽車站怎麼走”,從“從龍安汽車站到關賴汽車站怎麼走”,並將上述語音文本轉換為語音信號後依次通過該語音輸出單元14輸出,在輸出時,還可以加上其他預設語音,如“請確定您的問題是1…..,2……,3……”。如此,用戶可根據上述提示語音輸入或手動輸入正確的語音文本,如此該語音識別模組132即可確定識別文本。
在該語音識別模組132確定了識別文本後,該應答模組133從該識別文本所在的語音庫中獲取該識別文本對應的應答文本,並將該應答文本轉換為語音資訊後由該語音輸出單元14輸出。
當基本語音庫121及擴展語音庫122中不存在與所接收的語音信號對應的語音文本時,該語音庫擴展模組134將所接收的語音信號轉換的文本資訊與經與用戶選擇的識別文本對應的應答文本存儲在擴展語音庫122中。如仍以上述例子為例,該語音庫擴展模組134將“請問從弄化汽車站到拐來汽車站怎麼走”及“請問從龍華汽車站到觀瀾汽車站怎麼走”對應的應答文本存儲在擴展語音 庫122中,如此,若下次電子裝置1還接收到同樣的語音,即可直接從擴展語音庫122中獲取應答文本進行輸出,而無需再次與用戶進行交互。
本實施方式中,若基本語音庫121及擴展語音庫122中不存在與所接收的語音信號相似的語音文本,則輸入一預設語音,如“對不起,無法識別您的輸入,請您重新輸入”以提示用戶進行重新輸入。
如圖2所示,為應用圖1所示電子裝置的互動式語音識別方法的流程圖。在步驟S201中,該語音接收模組131接收該語音採集單元採集的語音信號。
在步驟S202中,該語音識別模組132將所接收的語音信號轉換為文本資訊。
在步驟S203中,該語音識別模組132在基本語音庫121及擴展語音庫122中確定有沒有與該文本資訊對應的語音文本,如果有,則執行步驟S204,如果沒有,則執行步驟S205。
在步驟S204中,該應答模組133從語音庫中獲取該語音文本對應的應答文本,並將該應答文本轉換為語音信號後由語音輸出單元14輸出。
在步驟S205中,該語音識別模組132利用最大擬合算法從基本語音庫121及擴展語音庫122語音庫中獲取與該文本資訊最相似的預設個數的語音文本,然後將預設個數的語音文本依次轉換為語音資訊後,由該語音輸出單元14輸出。
在步驟S206中,該語音識別模組132接收用戶的輸入,根據用戶 的輸入從預設個數的語音文本中選擇一個語音文本作為識別文本。
在步驟S207中,該應答模組133從該識別文本所在的語音庫中獲取該識別文本對應的應答文本,並將該應答文本轉換為語音資訊後由該語音輸出單元14輸出。
在步驟S208中,該語音庫擴展模組134將所接收的語音信號轉換的文本資訊與用戶選擇的識別文本對應的應答文本存儲在擴展語音庫122中。
本技術領域的普通技術人員應當認識到,以上的實施方式僅是用來說明本發明,而並非用作為對本發明的限定,只要在本發明的實質精神範圍之內,對以上實施例所作的適當改變和變化都落在本發明要求保護的範圍之內。
S201‧‧‧接收語音資訊
S202‧‧‧將該語音資訊轉換為文本資訊
S203‧‧‧將該語音資訊轉換為文本資訊
S204‧‧‧從語音庫中獲取該語音文本對應的應答文本,並將該應答文本轉換為語音信號後由輸出
S205‧‧‧利用從語音庫中獲取與該文本資訊最相似的預設個數的語音文本,然後將預設個數的語音文本依次轉換為語音資訊後輸出
S206‧‧‧根據用戶的輸入從預設個數的語音文本中選擇一個語音文本作為識別文本
S207‧‧‧從識別文本所在的語音庫中獲取該識別文本對應的應答文本,並將該應答文本轉換為語音資訊後由輸出
S208‧‧‧所接收的語音信號轉換的文本資訊與用戶選擇的識別文本對應的應答文本存儲在擴展語音庫中

Claims (6)

  1. 一種互動式語音識別電子裝置,該電子裝置包括一語音採集單元,一存儲單元,一語音輸出單元,該語音採集單元用於採集用戶輸入的語音信號,該存儲單元中存儲一語音庫,該語音庫中記錄了不同的語音文本所對應的應答文本,該語音文本即由語音資訊轉換的文本資訊,該語音輸出單元用於將由文本資訊轉換的語音資訊輸出,其改良在於,該電子裝置還包括:一語音接收模組,獲取由該語音採集單元所採集的語音信號;一語音識別模組,將語音接收模組所接收的語音信號轉換為文本資訊,在語音庫中確定有沒有與該文本資訊對應的語音文本,如果有,則將該語音文本作為識別文本,如果沒有,則從語音庫中獲取與該文本資訊相似的預設個數的語音文本,然後將預設個數的語音文本依次轉換為語音資訊後,由該語音輸出單元輸出,根據用戶的輸入選擇一語音文本作為識別文本;一應答模組,從語音庫中獲取該識別文本對應的應答文本,並將該應答文本轉換為語音資訊後由該語音輸出單元輸出。
  2. 如申請專利範圍第1項所述的互動式語音識別電子裝置,其中,該語音庫包括一基本語音庫及一擴展語音庫,該基本語音庫中存儲的為預設的語音文本對應的應答文本,該擴展語音庫中存儲的為使用過程中,用戶與電子裝置交互後所獲取的用戶語音對應的語音文本及該語音文本對應的應答文本,該電子裝置還包括一語音庫擴展模組,當語音庫中不存在與所接收的語音信號對應的語音文本時,該語音庫擴展模組將所接收的語音信號轉換的語音文本與用戶選擇的識別文本對應的應答文本存儲在擴 展語音庫中。
  3. 如申請專利範圍第1項所述的互動式語音識別電子裝置,其中,該語音識別模組通過最大擬合算法從語音庫中獲取與該文本資訊相似的預設個數的語音文本。
  4. 一種應用於一電子裝置的互動式語音識別方法,該電子裝置存儲一語音庫,該語音庫中記錄了不同的語音文本所對應的應答文本,其改良在於,該方法包括:獲取由該語音採集單元所採集的語音信號;將所接收的語音信號轉換為文本資訊,在語音庫中確定有沒有與該文本資訊對應的語音文本;如果有,則將該語音文本作為識別文本;如果沒有,則從語音庫中獲取與該文本資訊相似的預設個數的語音文本,然後將預設個數的語音文本依次轉換為語音資訊後,由該語音輸出單元輸出,根據用戶的輸入選擇一語音文本作為識別文本;從語音庫中獲取該識別文本對應的應答文本,並將該應答文本轉換為語音資訊後由該語音輸出單元輸出。
  5. 如申請專利範圍第4項所述的應用於一電子裝置的互動式語音識別方法,其中,該語音庫包括一基本語音庫及一擴展語音庫,該基本語音庫中存儲的為預設的語音文本對應的應答文本,該擴展語音庫中存儲的為使用過程中,用戶與電子裝置交互後所獲取的用戶語音對應的語音文本及該語音文本對應的應答文本,該方法還包括當語音庫中不存在與所接收的語音信號對應的語音文本時,將所接收的語音信號轉換的語音文本與用戶選擇的識別文本對應的應答文本存儲在擴展語音庫中。
  6. 如申請專利範圍第4項所述的應用於一電子裝置的互動式語音識別方法,其中,通過最大擬合算法從語音庫中獲取與該文本資訊相似的預設個數的語音文本。
TW100113846A 2011-04-15 2011-04-21 互動式語音識別電子裝置及方法 TWI539440B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100955343A CN102737631A (zh) 2011-04-15 2011-04-15 互功式语音识别电子装置及方法

Publications (2)

Publication Number Publication Date
TW201241822A TW201241822A (en) 2012-10-16
TWI539440B true TWI539440B (zh) 2016-06-21

Family

ID=46993005

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100113846A TWI539440B (zh) 2011-04-15 2011-04-21 互動式語音識別電子裝置及方法

Country Status (3)

Country Link
US (1) US8909525B2 (zh)
CN (1) CN102737631A (zh)
TW (1) TWI539440B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI739286B (zh) * 2020-01-21 2021-09-11 國立臺灣師範大學 互動學習系統

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101493006B1 (ko) * 2013-03-21 2015-02-13 디노플러스 (주) 멀티미디어 콘텐츠 편집장치 및 그 방법
US9626354B2 (en) * 2014-01-21 2017-04-18 Lenovo (Singapore) Pte. Ltd. Systems and methods for using tone indicator in text recognition
US9946704B2 (en) 2014-07-18 2018-04-17 Lenovo (Singapore) Pte. Ltd. Tone mark based text suggestions for chinese or japanese characters or words
KR20160060243A (ko) * 2014-11-19 2016-05-30 한국전자통신연구원 고객 응대 서비스 장치 및 방법
CN104538034B (zh) * 2014-12-31 2018-08-28 深圳雷柏科技股份有限公司 一种语音识别方法及系统
US10595090B2 (en) * 2016-09-02 2020-03-17 Sony Corporation System and method for optimized and efficient interactive experience
CN106680774A (zh) * 2016-12-13 2017-05-17 安徽乐年健康养老产业有限公司 一种智能跟随和记录装置
CN107580109B (zh) * 2017-08-10 2021-05-28 Tcl移动通信科技(宁波)有限公司 一种移动终端的信息回复参考方法、存储装置及移动终端
US20190114358A1 (en) * 2017-10-12 2019-04-18 J. J. Keller & Associates, Inc. Method and system for retrieving regulatory information
CN107909995B (zh) * 2017-11-16 2021-08-17 北京小米移动软件有限公司 语音交互方法和装置
CN109284505A (zh) * 2018-11-07 2019-01-29 江苏中润普达信息技术有限公司 一种用于车载的自然语言语义分析方法
CN110824940A (zh) * 2019-11-07 2020-02-21 深圳市欧瑞博科技有限公司 控制智能家居设备的方法、装置、电子设备及存储介质
CN112908296A (zh) * 2021-02-18 2021-06-04 上海工程技术大学 一种方言识别方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010039493A1 (en) * 2000-04-13 2001-11-08 Pustejovsky James D. Answering verbal questions using a natural language system
US7248678B2 (en) * 2003-02-07 2007-07-24 Avaya Technology Corp. Methods and apparatus for routing and accounting of revenue generating calls using natural language voice recognition
JP2005157494A (ja) * 2003-11-20 2005-06-16 Aruze Corp 会話制御装置及び会話制御方法
JP3944159B2 (ja) * 2003-12-25 2007-07-11 株式会社東芝 質問応答システムおよびプログラム
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
US20080133245A1 (en) * 2006-12-04 2008-06-05 Sehda, Inc. Methods for speech-to-speech translation
CN101075435B (zh) * 2007-04-19 2011-05-18 深圳先进技术研究院 一种智能聊天系统及其实现方法
CN101334999A (zh) * 2008-07-10 2008-12-31 上海言海网络信息技术有限公司 中文语音识别系统及其语音识别方法
JP5377430B2 (ja) * 2009-07-08 2013-12-25 本田技研工業株式会社 質問応答データベース拡張装置および質問応答データベース拡張方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI739286B (zh) * 2020-01-21 2021-09-11 國立臺灣師範大學 互動學習系統

Also Published As

Publication number Publication date
CN102737631A (zh) 2012-10-17
TW201241822A (en) 2012-10-16
US8909525B2 (en) 2014-12-09
US20120265527A1 (en) 2012-10-18

Similar Documents

Publication Publication Date Title
TWI539440B (zh) 互動式語音識別電子裝置及方法
US10708425B1 (en) Voice and speech recognition for call center feedback and quality assurance
US10593333B2 (en) Method and device for processing voice message, terminal and storage medium
CN109346059B (zh) 一种方言语音的识别方法及电子设备
CN104252864B (zh) 实时语音分析方法和系统
JP5124573B2 (ja) 音声認識機能を使用した応答マシンの検出
US8909534B1 (en) Speech recognition training
TWI711967B (zh) 播報語音的確定方法、裝置和設備
CN108986826A (zh) 自动生成会议记录的方法、电子装置及可读存储介质
RU2015120954A (ru) Поддержание контекстной информации между пользовательскими взаимодействиями с голосовым помощником
RU2012149444A (ru) Создание заметок с использованием голосового потока
CN108903521B (zh) 一种应用于智能画框的人机交互方法、智能画框
CN110111778B (zh) 一种语音处理方法、装置、存储介质及电子设备
CN103635962A (zh) 声音识别系统、识别字典登记系统以及声学模型标识符序列生成装置
WO2016136207A1 (ja) 音声対話装置、音声対話システム、音声対話装置の制御方法、および、プログラム
KR20160081244A (ko) 자동 통역 시스템 및 이의 동작 방법
CN107452398B (zh) 回声获取方法、电子设备及计算机可读存储介质
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP2013088552A (ja) 発音トレーニング装置
JP6081906B2 (ja) 議論支援装置および議論支援プログラム
JP6384681B2 (ja) 音声対話装置、音声対話システムおよび音声対話方法
WO2022199461A1 (zh) 语音交互系统的测试方法、音频识别方法及相关设备
CN111161718A (zh) 语音识别方法、装置、设备、存储介质及空调
JP2013182353A (ja) 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム