TWI584270B - 語音控制系統及其方法 - Google Patents
語音控制系統及其方法 Download PDFInfo
- Publication number
- TWI584270B TWI584270B TW105118754A TW105118754A TWI584270B TW I584270 B TWI584270 B TW I584270B TW 105118754 A TW105118754 A TW 105118754A TW 105118754 A TW105118754 A TW 105118754A TW I584270 B TWI584270 B TW I584270B
- Authority
- TW
- Taiwan
- Prior art keywords
- audio
- unit
- module
- audio data
- control system
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Description
本發明乃是關於一種語音控制系統及其方法,特別是指一種允許使用者說出喚醒語句後,無需等待系統喚醒即可接續說出控制語句之語音控制系統及其方法。
隨著科技的發展,語音控制功能已逐漸地實現於各種電子裝置,使得人們的生活越趨便利。一般來說,電子裝置若要實現語音控制功能並且兼顧低功耗,通常會透過語音喚醒的機制來啟動語音控制功能。理由在於,若沒有透過語音喚醒的機制來啟動語音控制功能,語音控制系統便需要持續地將所接收音訊資料傳送至處理器以進行辨識。儘管以此方式電子裝置確實能實現語音控制功能,但卻十分耗電。
因此,目前多數的語音控制系統會透過語音喚醒的機制來啟動語音控制功能,如此一來,當語音控制系統運作於休眠模式下,便只須運作部分用以實現語音喚醒機制的電路,待該些電路偵測到喚醒語句後,再喚醒整個語音控制系統,以對語音控制語句進行辨識,進而控制電子裝置。
然而,於實際操作上,語音控制系統從休眠模式被喚醒並進入工作模式須經過一段時間,因此使用者並不能於輸入喚醒語句後即刻地輸入控制語句,而必須等待一個提示獲知語音控制系統進入工作模式後,才能輸入控制語句來控制電子裝置。
本發明實施例提供一種語音控制系統,適用於一電子裝置。此語音控制系統運作於一休眠模式與一工作模式,並包括音訊偵測模組、音訊編解碼模組與控制模組。音訊編解碼模組連接於音訊偵測模組,且控制模組連接於音訊編解碼模組與音訊偵測模組。於休眠模式下,音訊偵測模組持續地偵測一收音單元所接收之第一音訊資料中是否存在喚醒語句。當音訊偵測模組偵測到喚醒語句,即產生第一提示訊號,並暫存喚醒語句後之第一音訊資料。控制模組由第一提示訊號喚醒後,語音控制系統進入工作模式。於工作模式下,控制模組驅動音訊編解碼模組讀取並解碼暫存於音訊偵測模組之第一音訊資料,以辨識第一音訊資料中的控制語句,進而控制電子裝置。
本發明實施例亦提供一種語音控制方法,適用於一語音控制系統。此語音控制系統運作於一休眠模式與一工作模式,並包括音訊偵測模組、音訊編解碼模組與控制模組。音訊編解碼模組連接於音訊偵測模組,且控制模組連接於音訊編解碼模組與音訊偵測模組。此語音控制方法包括:於休眠模式下,透過音訊偵測模組,持續偵測一收音單元所接收之第一音訊資料中是否存在喚醒語句;當音訊偵測模組偵測到喚醒語句,即產生第一提示訊號至控制模組,並暫存喚醒語句後之第一音訊資料;透過第一提示訊號,控制模組被喚醒,使得語音控制系統進入工作模式;以及於工作模式下,控制模組驅動音訊編解碼模組讀取並解碼暫存於音訊偵測模組之第一音訊資料,以辨識第一音訊資料中的控制語句,進而控制電子裝置。
綜上所述,由於在本發明所提供之語音控制系統及其方法中,音訊偵測模組能暫存音訊資料,因此使用者於說出喚醒語句
後,無需停頓與確認系統已被喚醒,便可即刻地接續說出控制語句,十分方便。
為使能更進一步瞭解本發明之特徵及技術內容,請參閱以下有關本發明之詳細說明與附圖,但是此等說明與所附圖式僅係用來說明本發明,而非對本發明的權利範圍作任何的限制。
1、2‧‧‧語音控制系統
10‧‧‧音訊偵測模組
11‧‧‧辨識單元
11a‧‧‧計時器
13‧‧‧提示單元
15‧‧‧緩衝單元
17‧‧‧取樣頻率轉換單元
20‧‧‧音訊編解碼模組
21‧‧‧第一音訊輸入單元
22‧‧‧第二音訊輸入單元
23‧‧‧音訊編解碼單元
25‧‧‧音訊輸出單元
30‧‧‧控制模組
31‧‧‧睡眠喚醒單元
33‧‧‧控制單元
SPK‧‧‧揚聲器
MIC‧‧‧收音單元
MIC-L‧‧‧來自收音單元之左聲道的音訊資料
MIC-R‧‧‧來自收音單元之右聲道的音訊資料
SPK-L‧‧‧來自揚聲器之左聲道的音訊資料
SPK-R‧‧‧來自揚聲器之右聲道的音訊資料
A-mar、B-mar‧‧‧標記資料
400、500A、500B‧‧‧語音控制方法
S410~S480‧‧‧步驟
S431、S470a、S471a、S471b、S472b‧‧‧步驟
圖1為根據本發明例示性實施例所繪示之語音控制系統之方塊圖。
圖2為根據本發明另一例示性實施例所繪示之語音控制系統之方塊圖。
圖3為根據本發明例示性實施例所繪示之儲存於緩衝單元之音訊資料的示意圖。
圖4為根據本發明例示性實施例所繪示之語音控制方法之流程圖。
圖5A與圖5B為根據本發明其他例示性實施例所繪示之語音控制方法之流程圖。
在下文將參看隨附圖式更充分地描述各種例示性實施例,在隨附圖式中展示一些例示性實施例。然而,本發明概念可能以許多不同形式來體現,且不應解釋為限於本文中所闡述之例示性實施例。確切而言,提供此等例示性實施例使得本發明將為詳盡且完整,且將向熟習此項技術者充分傳達本發明概念的範疇。在諸圖式中,類似數字始終指示類似元件。
首先,以下將以多個實施例說明本發明之語音控制系統。此種語音控制系統適用於多種電子裝置,如:智慧型手機、平板電腦…等。使用者可藉由說出喚醒語句來喚醒此語音控制系統,再
藉由說出控制語句使得此語音控制系統根據控制語句來對電子裝置進行控制,如:撥打電話、對電子裝置進行定位…等。
〔語音控制系統的實施例〕
請參照圖1,圖1為根據本發明例示性實施例所繪示之語音控制系統之方塊圖。語音控制系統1運作於一休眠模式與一工作模式。如圖1所示,語音控制系統1包括音訊偵測模組10、音訊編解碼模組20與控制模組30。音訊編解碼模組20連接於音訊偵測模組10,且控制模組30連接於音訊編解碼模組20與音訊偵測模組10,其中音訊偵測模組10連接於一收音單元MIC,以接收音訊資料,如:使用者所發出的各種語句。舉例來說,收音單元可以是內建於電子裝置之麥克風…等,本發明於此並不限制。
進一步說明,音訊偵測模組10包括辨識單元11、提示單元13與緩衝單元15。提示單元13連接於辨識單元11與控制模組30,且緩衝單元15連接於收音單元MIC與音訊編解碼模組20。控制模組30包括睡眠喚醒單元31與控制單元33。睡眠喚醒單元31連接於音訊偵測模組10之提示單元13,且控制單元33連接睡眠喚醒單元31。音訊編解碼模組20包括第一音訊輸入單元21與音訊編解碼單元23。第一音訊輸入單元21連接於音訊偵測模組10之緩衝單元15,且音訊編解碼單元23連接於第一音訊輸入單元21與控制模組30之控制單元33。
當語音控制系統1運作於休眠模式,多數模組裡的電路均運作於休眠模式,惟前述之音訊偵測模組10以及控制模組30之睡眠喚醒單元31係正常工作,以持續地透過收音單元MIC接收音訊資料(為便於說明,將其定義為第一音訊資料)並偵測使用者是否發出喚醒語句。
喚醒語句可為任何語種的語句,如:「Hello,computer!」或者任何系統設計者所設定的語句,本發明於此並不限制。當辨識單元11於第一音訊資料中偵測到喚醒語句時,便會控制提示單元13
產生第一提示訊號至睡眠喚醒單元31,同時辨識單元11也會將喚醒語句之後所偵測到的第一音訊資料暫存於緩衝單元15中。
一般來說,收音單元MIC所輸出的第一音訊資料可為兩種,一種是類比訊號,另一種是數位訊號。於收音單元MIC所輸出的第一音訊資料為類比訊號之情況下第一音訊資料會先經由一類比數位轉換器(未圖示)轉換成數位訊號,此第一音訊資料之資料格式(即第一取樣率,如:16kHz)乃根據此類比數位轉換器本身的時脈以及一數位濾波器(未圖示)的速度而決定。另一方面,於收音單元MIC所輸出的第一音訊資料為數位訊號之情況下,一數位濾波器(未圖示)會將此第一音訊資料轉換為脈衝編碼調變(Pulse-Code Modulation;PCM)訊號,且此第一音訊資料之資料格式(即第一取樣率,如:16kHz)乃根據此數位濾波器的速度而決定。以上音訊處理為本領域之技術人員所熟知,故不予贅述。
復如前述,當語音控制系統1處於休眠模式,控制模組30之睡眠喚醒單元31仍會正常工作,以持續地偵測音訊偵測模組10之提示單元13是否傳來第一提示訊號。若睡眠喚醒單元31接收到第一提示訊號,即表示音訊偵測模組10偵測到使用者所發出的喚醒語句,於是睡眠喚醒單元31便會喚醒控制單元33,使得控制單元33驅動整個語音控制系統1進入工作模式。
於音訊偵測模組10之提示單元13產生第一提示訊號至控制模組30之睡眠喚醒單元31的同時,音訊偵測模組10之辨識單元11也會將喚醒語句之後所偵測到的第一音訊資料暫存於音訊偵測模組10之緩衝單元15中。也就是說,使用者說完喚醒語句後接續說出的語句均會被暫存至緩衝單元15中。接著,當控制模組30之控制單元33由第一提示訊號喚醒,並驅動語音控制系統1進入工作模式時,控制單元33便控制第一音訊輸入單元21讀取暫存於緩衝單元15中的第一音訊資料,且控制單元33驅動音訊編解碼單元23解碼
被讀取之第一音訊資料,以辨識第一音訊資料中的控制語句,進而控制電子裝置。
也就是說,由於音訊偵測模組10中設置有緩衝單元15,當使用者在說完喚醒語句後不作停頓地說出控制語句時,辨識單元11能夠將於喚醒語句之後所偵測到的第一音訊資料均暫存至此緩衝單元15。簡言之,使用者在說完喚醒語句後,無需停頓一段時間等待以判斷語音控制系統1已被喚醒,才說出控制語句。
於是,在使用者於行駛車輛或步行時…等較難留意語音控制系統是否已被喚醒的情況下,本實施例所提供之語音控制系統1能讓使用者流暢地對電子裝置進行語音控制,相當便利。
〔語音控制系統的另一實施例〕
請參照圖2,圖2為根據本發明另一例示性實施例所繪示之語音控制系統之方塊圖。本實施例所提供之語音控制系統2與圖1所繪示之實施例所提供之語音控制系統1具有相似的架構,故於接下來的敘述中,將描述不同於上述圖1所繪示之實施例的部分,且其餘省略部分與上述圖1所繪示之實施例相同。此外,為方便說明,相似之參考數字或標號指示相似之元件。
本實施例所提供之語音控制系統2與圖1所繪示之實施例所提供之語音控制系統1的其中一個差異處在於,如圖2所示,於語音控制系統2中,音訊偵測模組10之辨識單元11包括有計時器11a。
當控制單元33由第一提示訊號喚醒,並驅動語音控制系統2進入工作模式時,計時器11a便會開始計時,其目的係為了判斷語音控制系統2是否有必要停止運作並回到休眠模式,以減少電子裝置的耗電量。詳細地說,語音控制系統2一進入工作模式,計時器11a便會開始計時一段預設時間,如:3秒或5秒…等。若使用者說完喚醒語句後,於此預設時間內都沒有說出控制語句,使得辨識單元11在偵測到喚醒語句後的一段預設時間內都未偵測到第一音訊資料,則辨識單元11就會控制提示單元13傳送第二提示訊號至睡
眠喚醒單元31。睡眠喚醒單元31將根據第二提示訊號停止控制單元33之運作,使得語音控制系統2回到休眠模式。
再者,本實施例所提供之語音控制系統2與圖1所繪示之實施例所提供之語音控制系統1的另一個差異處在於,復如圖2所示,於語音控制系統2中,音訊偵測模組10更包括有取樣頻率轉換單元17,其中取樣頻率轉換單元17連接於緩衝單元15與音訊編解碼模組20之音輸訊出單元25之間,且音訊編解碼模組20更包括音訊輸出單元25,其中音訊輸出單元25連接於音訊編解碼單元23。
於本實施例中,語音控制系統2能夠支援電子裝置之音訊資料播放。於此情況下,控制模組30會傳送欲播放的音訊資料(為便於說明,將其定義為第二音訊資料)至音訊編解碼單元23,並驅動音訊編解碼單元23將此第二音訊資料進行編碼。接著,由音訊輸出單元25將經編碼之第二音訊資料輸出至一揚聲器SPK以進行播放。值得注意地是,於此同時,此第二音訊資料亦會被傳送至取樣頻率轉換單元17,由取樣頻率轉換單元17將此第二音訊資料的資料格式由第二取樣率(如:48kHz)轉換為與第一音訊資料之資料格式相同的第一取樣率(如:16kHz),接著取樣頻率轉換單元17再將經轉換之該第二音訊資料暫存於緩衝單元15,目的在於將此第二音訊資料作為參考音訊資料,以利進行相關的語音處理。
於一實施例中,在使用者發出控制語句以透過語音控制系統2控制電子裝置的過程中,透過音訊輸出單元25輸出至揚聲器SPK進行播放的第二音訊資料也會經由收音單元MIC收錄,成為第一音訊資料中的雜訊,使得控制模組30在對第一音訊資料中之控制語句進行辨識時受到干擾。故於本實施例中,為了有效地消除第一音訊資料中來自第二音訊資料的雜訊,音訊編解碼模組20經由音訊輸出單元25將第二音訊資料傳送至取樣頻率轉換單元17進行資料格式轉換後,將其暫存於緩衝單元15,再由控制模組30驅動音訊編解碼單元23讀取並解碼暫存於緩衝單元15之第一音訊資料與
第二音訊資料。接著,控制模組30會將第二音訊資料當作是參考音訊資料,據以將第一音訊資料中與參考音訊資料相符的部分消除。如此一來,便能減少控制模組30對控制語句誤判的機率。
於另一實施例中,類似地,第二音訊資料也會被暫存於緩衝單元15,以作為參考音訊資料。辨識單元11接收包含有來自第二音訊資料的第一音訊資料後,會先根據參考音訊資料,將第一音訊資料中與參考音訊資料相符的部分消除,以有效地消除第一音訊資料中來自第二音訊資料的雜訊。接著,辨識單元11再將經處理之第一音訊資料暫存於緩衝單元15,待控制模組30透過音訊編解碼模組20取得並辨識經處理之第一音訊資料中的控制語句,進而控制電子裝置。
須說明地是,比較前述兩實施例,若是由辨識單元11對第一音訊資料進行語音處理,辨識單元11需具有較高的運算能力。此外,由於音訊偵測模組10在休眠模式下須進行來自收音單元MIC之第一音訊資料與來自揚聲器SPK之第二音訊資料的資料處理,故語音控制系統2的整體耗電量將較大,但卻能相對地縮短控制模組30辨識控制語句的運算量。
若是由控制模組30對第一音訊資料進行語音處理,系統整體耗電量會較低,則此語音控制系統2便能應用於可攜式電子裝置,如:智慧型手機、平板電腦…等。另一方面,若是由辨識單元11對第一音訊資料進行語音處理,系統整體耗電量較大,則此語音控制系統2會比較適合應用於通常以市電作為供應電源的家電設備,如:智慧型電冰箱…等。
除此之外,由於在使用者發出控制語句以透過語音控制系統2控制電子裝置的過程中,透過音訊輸出單元25輸出至揚聲器SPK進行播放的第二音訊資料也會經由收音單元MIC收錄。因此,收音單元MIC所收錄的第一音訊資料(包含第二音訊資料)便至少包括有來自收音單元MIC之左右聲道的音訊資料以及來自揚聲器SPK
之左右聲道的音訊資料。簡言之,於本實施例中,收音單元MIC所收錄的第一音訊資料實質上將至少包括有四個聲道的音訊資料。
於實際操作上,緩衝單元15的資料儲存空間有限,以48kHz的取樣率以及16位元的資料長度作為暫存資料格式來說,暫存收音單元MIC之左右聲道1秒鐘的音訊資料就需要192KB儲存空間。考量到一般對於人聲特徵的辨識,其取樣頻率最低使用8kHz即可接受,故本實施例所提供之語音控制系統2選擇以16kHz的取樣率作為暫存資料格式,以儲存多個聲道的音訊資料。相較於以48kHz的取樣率作為暫存資料格式來儲存多個聲道的音訊資料之作法來說,緩衝單元15所需的儲存空間較小。
請參照圖3,圖3為根據本發明例示性實施例所繪示之儲存於緩衝單元之音訊資料的示意圖。於本實施例中,語音控制系統2係以16kHz的取樣率以及16位元的資料長度作為暫存資料格式以儲存來自收音單元MIC之左右聲道的音訊資料MIC-L與MIC-R與來自揚聲器SPK之左右聲道的音訊資料SPK-L與SPK-R,以此暫存資料格式儲存的音訊資料即可如圖3所示。
然而,一般來說,數位音訊介面(如:本實施中的音訊編解碼單元23)的取樣頻率多高於16kHz,如:44.1kHz或48kHz…等。為了因應音訊編解碼單元23高於16kHz的取樣率,語音控制系統2會利用取樣頻率轉換單元17將音訊輸出單元25輸出之第二音訊資料的資料格式由第二取樣率(如:48kHz)轉換為第一取樣率(如:16kHz)。
如圖3所示,收音單元MIC之左右聲道的音訊資料MIC-L與MIC-R,以及揚聲器SPK之左右聲道的音訊資料SPK-L與SPK-R係以固定順序重複地排列,其中於收音單元MIC之左右聲道的音訊資料MIC-L與MIC-R之前排列有固定格式的標記資料A-mar與B-mar。如此一來,控制模組30便能藉由讀取到標記資料A-mar與
B-mar,判斷出接續讀取之音訊資料係來自收音單元MIC之左聲道與右聲道,且再接續讀取之音訊資料係來自揚聲器SPK之左聲道與右聲道;另一方面,控制模組30也能藉由標記資料A-mar與B-mar將來自收音單元MIC之左右聲道與來自揚聲器SPK之左右聲道的音訊資料作重組。
最後,本實施例所提供之語音控制系統2與圖1所繪示之實施例所提供之語音控制系統1的又一個差異處在於,復如圖2所示,於語音控制系統2中,音訊編解碼模組20還包括第二音訊輸入單元22,其中第二音訊輸入單元22連接於收音單元MIC與音訊編解碼單元23。當控制模組30控制電子裝置啟動通話模式、錄音模式或者任何僅需收發音訊資料而無需根據所接收之音訊資料對電子裝置進行控制的模式時,控制模組30便會驅動第二音訊輸入單元22直接由收音單元MIC接收第一音訊資料,並於音訊編解碼單元23解碼第一音訊資料後,由控制模組30對經解碼之第一音訊資料進行語音處理。也就是說,於此情況下,第一音訊資料無須被暫存於緩衝單元15中。
相較於前述實施例所提供之語音控制系統1,本實施例所提供之語音控制系統2除了能讓使用者在說完喚醒語句後不作停頓地說出控制語句以對電子裝置進行控制外,透過將背景音訊資料(即,前述之第二音訊資料)暫存以作為參考音訊資料,還能消除第一音訊資料中的雜訊。另外,藉由將音訊資料以低取樣率之資料格式進行暫存並以高取樣率之資料格式進行讀取的方式,便能於有限的儲存空間內儲存多個聲道的音訊資料。
〔語音控制方法的一實施例〕
本實施例提供一種語音控制方法,適用於前述語音控制系統1與2,然而關於語音控制系統1與2之架構於此便不再贅述。請參照圖4,圖4為根據本發明例示性實施例所繪示之語音控制方法之流程圖。
如圖4所示,本實施例所提供之語音控制方法400主要是透過以下步驟具體實現。當語音控制系統運作於休眠模式下,於步驟S410中,音訊偵測模組會持續偵測收音單元所接收之第一音訊資料中是否存在喚醒語句。接著,於步驟S420中,當音訊偵測模組偵測到喚醒語句時,即產生第一提示訊號至控制模組,並暫存喚醒語句後之第一音訊資料。透過第一提示訊號,於步驟S430中,控制模組會被喚醒,使得語音控制系統進入工作模式。
為了判斷語音控制系統是否有必要停止運作並回到休眠模式,接著進入步驟S440,以於工作模式下,透過音訊偵測模組計時一預設時間以偵測喚醒語句後是否存在有第一音訊資料。若於此預設時間內,音訊偵測模組未偵測到喚醒語句後之第一音訊資料,則進入步驟S450。於步驟S450中,音訊偵測模組傳送第二提示訊號至控制模組以停止控制模組之運作,使得語音控制系統回到休眠模式。另一方面,若於此預設時間內,音訊偵測模組偵測到喚醒語句後之第一音訊資料,則進入步驟S460。於步驟S460中,音訊偵測模組暫存喚醒語句後之第一音訊資料。
接著進入步驟S470,由控制模組驅動音訊編解碼模組讀取並解碼暫存於音訊偵測模組之第一音訊資料,以辨識第一音訊資料中的控制語句,進而控制電子裝置。
值得注意地是,若於步驟S470後,電子裝置受控制模組控制而啟動通話模式、錄音模式或者任何僅需收發音訊資料而無需繼續根據所接收之音訊資料對電子裝置進行控制的模式,則會進入步驟S480。於步驟S480中,控制模組會驅動第二音訊輸入單元直接由收音單元接收第一音訊資料,並於音訊編解碼單元解碼第一音訊資料後,由控制模組對經解碼之第一音訊資料進行語音處理。也就是說,此時,第一音訊資料已無須被暫存於緩衝單元15中。
〔語音控制方法的其他實施例〕
以下兩個實施例分別提供了語音控制方法500A與500B,請參照圖5A與圖5B,圖5A與圖5B為根據本發明其他例示性實施例所繪示之語音控制方法之流程圖。語音控制方法500A與500B之步驟大致類似於前述實施例所提供之語音控制方法400,故於接下來的敘述中,將描述不同於上述圖4所繪示之實施例的部分,且其餘省略部分與上述圖4所繪示之實施例相同。此外,為方便說明,相似之參考數字或標號指示相似之步驟。
語音控制方法500A與圖4所示之語音控制方法400的差異處在於,於步驟S430後,語音控制方法500A更包括了步驟S431。由於前述實施例各語音控制系統均能夠支援電子裝置之音訊資料播放,故於步驟S431中,控制模組便會傳送第二音訊資料(即,欲播放的音訊資料)至音訊編解碼模組以進行編碼,接著再透過音訊編解碼模組將經編碼之第二音訊資料輸出至一揚聲器以進行播放。
接著,不同於語音控制方法400中的步驟S470,於步驟S431與S460後,語音控制方法500A便進入步驟S470a。當音訊編解碼模組將經編碼之第二音訊資料輸出至一揚聲器進行播放時,於步驟S470a中,音訊編解碼模組也將經編碼之第二音訊資料傳送至音訊偵測模組,以轉換其資料格式並暫存經轉換之第二音訊資料,以作為參考音訊資料。須說明的是,音訊編解碼模組係將第二音訊資料的資料格式由一第二取樣率轉換為一第一取樣率,其中第二取樣率(如:48kHz)大於第一取樣率(如:16kHz)。接著於步驟S471a中,控制模組驅動音訊編解碼單元讀取並解碼第一音訊資料與參考音訊資料,以根據經解碼之參考音訊資料對經解碼之第一音訊資料進行語音處理,來辨識第一音訊資料中的控制語句,進而控制電子裝置。
類似於語音控制方法500A,語音控制方法500B也包括了步驟S431,並且於步驟S431與S460後,語音控制方法500B亦進入步驟S470a。然而,語音控制方法500B與語音控制方法500A的差異處在
於,於步驟S470a後,語音控制方法500B便進入步驟S471b,以由音訊偵測模組根據經解碼之參考音訊資料對經解碼之第一音訊資料進行語音處理,並將經處理之第一音訊資料暫存於緩衝單元。接著再進入步驟S472b,將經處理之第一音訊資料透過音訊編解碼模組傳送至控制模組,以辨識經處理之第一音訊資料中的控制語句,進而控制電子裝置。
〔實施例的可能功效〕
綜上所述,本發明所提供之語音控制系統及其方法能夠讓使用者藉由說出喚醒語句與控制語句來對電子裝置進行控制,並至少具有以下優點:首先,本發明所提供之語音控制系統與方法能讓使用者於行駛車輛或步行時…等較難留意語音控制系統是否已被喚醒的情況下仍能流暢地對電子裝置進行語音控制。
再者,本發明所提供之語音控制系統與方法透過將背景音訊資料暫存以作為參考音訊資料的方式,便能消除收音單元所接收之音訊資料中的雜訊。
此外,本發明所提供之語音控制系統與方法藉由將音訊資料以低取樣率之資料格式輸入並以高取樣率之資料格式讀取的方式,能夠在有限的儲存空間內儲存多個聲道的音訊資料。
以上所述僅為本發明之實施例,其並非用以侷限本發明之專利範圍。
1‧‧‧語音控制系統
10‧‧‧音訊偵測模組
11‧‧‧辨識單元
13‧‧‧提示單元
15‧‧‧緩衝單元
20‧‧‧音訊編解碼模組
21‧‧‧第一音訊輸入單元
23‧‧‧音訊編解碼單元
25‧‧‧音訊輸出單元
30‧‧‧控制模組
31‧‧‧睡眠喚醒單元
33‧‧‧控制單元
SPK‧‧‧揚聲器
MIC‧‧‧收音單元
Claims (10)
- 一種語音控制系統,適用於一電子裝置,並運作於一休眠模式與一工作模式,包括:一音訊偵測模組,於該休眠模式下,該音訊偵測模組持續偵測一收音單元所接收之一第一音訊資料中是否存在一喚醒語句,其中當該音訊偵測模組偵測到該喚醒語句,即產生一第一提示訊號,並暫存該喚醒語句後所偵測到之該第一音訊資料;一音訊編解碼模組,連接於該音訊偵測模組;以及一控制模組,連接於該音訊編解碼模組與該音訊偵測模組;其中,該控制模組由該第一提示訊號喚醒後,該語音控制系統進入該工作模式,於該工作模式下,該控制模組驅動該音訊編解碼模組讀取並解碼暫存於該音訊偵測模組之該第一音訊資料,以辨識該第一音訊資料中的該控制語句,進而控制該電子裝置。
- 如請求項1所述之語音控制系統,其中該音訊偵測模組包括:一辨識單元,於該休眠模式下,接收並偵測該第一音訊資料中的該喚醒語句;一提示單元,連接於該辨識單元與該控制模組;以及一緩衝單元,連接於該收音單元與該音訊編解碼模組;其中,當該辨識單元偵測到該喚醒語句,便控制該提示單元產生並傳送該第一提示訊號至該控制模組,同時該緩衝單元暫存該喚醒語句後之該第一音訊資料。
- 如請求項2所述之語音控制系統,其中該控制模組包括:一睡眠喚醒單元,連接於該音訊偵測模組之該提示單元;以及 一控制單元,連接該睡眠喚醒單元;其中於該休眠模式下,該睡眠喚醒單元持續偵測該第一提示訊號,當該睡眠喚醒單元接收到該第一提示訊號時,該睡眠喚醒單元喚醒該控制單元,使該語音控制系統進入該工作模式。
- 如請求項3所述之語音控制系統,其中該音訊編解碼模組包括:一第一音訊輸入單元,連接於該音訊偵測模組之該緩衝單元,讀取暫存於該緩衝單元之該第一音訊資料;以及一音訊編解碼單元,連接於該第一音訊輸入單元與該控制模組之該控制單元,其中於該工作模式下,該控制單元驅動該音訊編解碼單元解碼該第一音訊輸入單元所讀取之該第一音訊資料,以辨識該第一音訊資料中的該控制語句,進而控制該電子裝置。
- 如請求項4所述之語音控制系統,其中該音訊編解碼模組更包括一音訊輸出單元,該音訊輸出單元連接於該音訊編解碼單元,其中該控制模組傳送一第二音訊資料至該音訊編解碼單元,並驅動該音訊編解碼單元將該第二音訊資料進行編碼,該音訊輸出單元將經編碼之該第二音訊資料輸出至一揚聲器以進行播放。
- 如請求項5所述之語音控制系統,其中該音訊偵測模組更包括一取樣頻率轉換單元,該取樣頻率轉換單元連接於該緩衝單元與該音訊編解碼模組之該音輸訊出單元之間,用以將該音輸訊出單元輸出之該第二音訊資料的資料格式由一第二取樣率轉換為該第一取樣率,並將經轉換之該第二音訊資料暫存於該緩衝單元,以作為一參考音訊資料,其中該第一取樣率即為該第一音訊資料的資料格式,且該第二取樣率大於該第一取樣率。
- 如請求項6所述之語音控制系統,其中該控制模組驅動該音訊編解碼單元讀取並解碼暫存於該緩衝單元之該第一音訊資料與該參考音訊資料,並根據經解碼之該參考音訊資料對經解碼之該第一音訊資料進行語音處理,以辨識該第一音訊資料中的該控制語句,進而控制該電子裝置。
- 如請求項6所述之語音控制系統,其中該辨識單元根據經解碼之該參考音訊資料對經解碼之該第一音訊資料進行語音處理,再將經處理之該第一音訊資料暫存於該緩衝單元,經處理之該第一音訊資料透過該音訊編解碼模組被傳送至該控制模組,以辨識該第一音訊資料中的該控制語句,進而控制該電子裝置。
- 如請求項1所述之語音控制系統,其中該音訊編解碼模組包括一第二音訊輸入單元,該第二音訊輸入單元連接於該收音單元與該音訊編解碼單元,其中當該控制模組控制該電子裝置啟動一通話模式或一錄音模式時,該控制模組驅動該第二音訊輸入單元直接由該收音單元接收該第一音訊資料,並於該音訊編解碼單元解碼該第一音訊資料後,由該控制模組對經解碼之該第一音訊資料進行語音處理。
- 一種語音控制方法,適用於一語音控制系統,該語音控制系統運作於一休眠模式與一工作模式且包括一音訊偵測模組、一音訊編解碼模組與一控制模組,該音訊編解碼模組連接於該音訊偵測模組,該控制模組連接於該音訊編解碼模組與該音訊偵測模組,該語音控制方法包括:於該休眠模式下,透過該音訊偵測模組,持續偵測一收音單元所接收之一第一音訊資料中是否存在一喚醒語句;當該音訊偵測模組偵測到該喚醒語句,即產生一第一提示 訊號至該控制模組,並暫存該喚醒語句後所偵測到之該第一音訊資料;透過該第一提示訊號,該控制模組被喚醒,使得該語音控制系統進入該工作模式;以及於該工作模式下,該控制模組驅動該音訊編解碼模組讀取並解碼暫存於該音訊偵測模組之該第一音訊資料,以辨識該第一音訊資料中的該控制語句,進而控制該電子裝置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW105118754A TWI584270B (zh) | 2016-06-15 | 2016-06-15 | 語音控制系統及其方法 |
US15/622,455 US10573305B2 (en) | 2016-06-15 | 2017-06-14 | Voice control system and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW105118754A TWI584270B (zh) | 2016-06-15 | 2016-06-15 | 語音控制系統及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI584270B true TWI584270B (zh) | 2017-05-21 |
TW201743319A TW201743319A (zh) | 2017-12-16 |
Family
ID=59367698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW105118754A TWI584270B (zh) | 2016-06-15 | 2016-06-15 | 語音控制系統及其方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10573305B2 (zh) |
TW (1) | TWI584270B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109955270A (zh) * | 2017-12-22 | 2019-07-02 | 威刚科技股份有限公司 | 语音选项选择系统与方法以及使用其的智能机器人 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10395650B2 (en) * | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
US20190172457A1 (en) * | 2017-11-30 | 2019-06-06 | Compal Electronics, Inc. | Notebook computer and driving method of voice assistant system |
US10636416B2 (en) * | 2018-02-06 | 2020-04-28 | Wistron Neweb Corporation | Smart network device and method thereof |
TWI657355B (zh) * | 2018-05-16 | 2019-04-21 | 中孚創聯科技有限公司 | 語音控制連接不同雲端伺服器的方法與系統 |
CN109493857A (zh) * | 2018-09-28 | 2019-03-19 | 广州智伴人工智能科技有限公司 | 一种自动休眠唤醒机器人系统 |
CN109450747B (zh) * | 2018-10-23 | 2020-03-27 | 珠海格力电器股份有限公司 | 一种唤醒智能家居设备的方法、装置及计算机存储介质 |
CN110459218A (zh) * | 2019-08-23 | 2019-11-15 | 珠海格力电器股份有限公司 | 一种应用于烹饪家电的语音交互控制方法及系统 |
CN110493123B (zh) * | 2019-09-16 | 2022-06-28 | 腾讯科技(深圳)有限公司 | 即时通讯方法、装置、设备及存储介质 |
JP7465700B2 (ja) * | 2020-03-27 | 2024-04-11 | 株式会社デンソーテン | 車載装置および車載装置における音声処理方法 |
KR20210125356A (ko) | 2020-04-08 | 2021-10-18 | 삼성전자주식회사 | 전자 장치 및 그 동작 방법 |
CN114125143B (zh) * | 2020-08-31 | 2023-04-07 | 华为技术有限公司 | 一种语音交互方法及电子设备 |
CN112637654B (zh) * | 2020-12-29 | 2023-08-29 | 深圳创维-Rgb电子有限公司 | 一种电视机、语音控制系统及其控制方法 |
CN113689865A (zh) * | 2021-08-24 | 2021-11-23 | 广东优碧胜科技有限公司 | 采样率切换方法、装置、电子设备以及语音系统 |
CN113990311A (zh) * | 2021-10-15 | 2022-01-28 | 深圳市航顺芯片技术研发有限公司 | 语音采集装置、控制器、控制方法及语音采集控制系统 |
CN114143669B (zh) * | 2021-12-08 | 2023-09-08 | 深圳市冠旭电子股份有限公司 | 语音控制系统及音频设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201248495A (en) * | 2011-05-24 | 2012-12-01 | Hon Hai Prec Ind Co Ltd | Voice control system and method thereof |
TW201440037A (zh) * | 2013-04-10 | 2014-10-16 | Via Tech Inc | 語音操控方法、行動終端裝置及語音操控系統 |
TW201439896A (zh) * | 2013-04-10 | 2014-10-16 | Via Tech Inc | 語音操控方法與行動終端裝置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI475814B (zh) * | 2008-07-04 | 2015-03-01 | Twinhead Int Corp | To prevent the sound generated by the audio output device |
US20100057473A1 (en) * | 2008-08-26 | 2010-03-04 | Hongwei Kong | Method and system for dual voice path processing in an audio codec |
US8996381B2 (en) * | 2011-09-27 | 2015-03-31 | Sensory, Incorporated | Background speech recognition assistant |
BR112015018905B1 (pt) * | 2013-02-07 | 2022-02-22 | Apple Inc | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico |
US9842489B2 (en) * | 2013-02-14 | 2017-12-12 | Google Llc | Waking other devices for additional data |
-
2016
- 2016-06-15 TW TW105118754A patent/TWI584270B/zh active
-
2017
- 2017-06-14 US US15/622,455 patent/US10573305B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201248495A (en) * | 2011-05-24 | 2012-12-01 | Hon Hai Prec Ind Co Ltd | Voice control system and method thereof |
TW201440037A (zh) * | 2013-04-10 | 2014-10-16 | Via Tech Inc | 語音操控方法、行動終端裝置及語音操控系統 |
TW201439896A (zh) * | 2013-04-10 | 2014-10-16 | Via Tech Inc | 語音操控方法與行動終端裝置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109955270A (zh) * | 2017-12-22 | 2019-07-02 | 威刚科技股份有限公司 | 语音选项选择系统与方法以及使用其的智能机器人 |
Also Published As
Publication number | Publication date |
---|---|
US10573305B2 (en) | 2020-02-25 |
US20170365257A1 (en) | 2017-12-21 |
TW201743319A (zh) | 2017-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI584270B (zh) | 語音控制系統及其方法 | |
CN107527614B (zh) | 语音控制系统及其方法 | |
US11676600B2 (en) | Methods and apparatus for detecting a voice command | |
US8972252B2 (en) | Signal processing apparatus having voice activity detection unit and related signal processing methods | |
JP7354110B2 (ja) | オーディオ処理システム及び方法 | |
TWI576825B (zh) | 一種機器人系統的聲音識別系統及方法 | |
US9549273B2 (en) | Selective enabling of a component by a microphone circuit | |
US9940936B2 (en) | Methods and apparatus for detecting a voice command | |
US9361885B2 (en) | Methods and apparatus for detecting a voice command | |
CN104247280A (zh) | 话音控制的通信连接 | |
WO2017012511A1 (zh) | 语音控制方法、装置及投影仪设备 | |
KR102029820B1 (ko) | 음성 인식을 이용하여 전원을 제어하는 전자 장치 및 이의 전원 제어 방법 | |
CN105009204A (zh) | 语音识别功率管理 | |
CN106463112A (zh) | 语音识别方法、语音唤醒装置、语音识别装置及终端 | |
US20030130852A1 (en) | Headset with radio communication function for speech processing system using speech recognition | |
CN103021409A (zh) | 一种语音启动拍照系统 | |
JP3000999B1 (ja) | 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体 | |
CN108093350B (zh) | 麦克风的控制方法和麦克风 | |
JP2006023773A (ja) | 音声処理システム | |
CN210265228U (zh) | 一种基于ai语音芯片的风扇控制器 | |
CN112637543A (zh) | 基于语音控制的音视频会议方法及装置 | |
JP2000089780A (ja) | 音声認識方法および音声認識装置 | |
CN111028832B (zh) | 麦克风静音模式控制方法、装置及存储介质和电子设备 | |
US11783818B2 (en) | Two stage user customizable wake word detection | |
Dong et al. | Speech interface ASIC of SOC architecture for embedded application |