TWI727521B - 動態語音辨識方法及其裝置 - Google Patents

動態語音辨識方法及其裝置 Download PDF

Info

Publication number
TWI727521B
TWI727521B TW108143281A TW108143281A TWI727521B TW I727521 B TWI727521 B TW I727521B TW 108143281 A TW108143281 A TW 108143281A TW 108143281 A TW108143281 A TW 108143281A TW I727521 B TWI727521 B TW I727521B
Authority
TW
Taiwan
Prior art keywords
processing circuit
stage
voice
memory
power consumption
Prior art date
Application number
TW108143281A
Other languages
English (en)
Other versions
TW202121397A (zh
Inventor
王美華
陳慶隆
Original Assignee
瑞昱半導體股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 瑞昱半導體股份有限公司 filed Critical 瑞昱半導體股份有限公司
Priority to TW108143281A priority Critical patent/TWI727521B/zh
Priority to US16/942,195 priority patent/US11417334B2/en
Application granted granted Critical
Publication of TWI727521B publication Critical patent/TWI727521B/zh
Publication of TW202121397A publication Critical patent/TW202121397A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

本案提供一種動態語音辨識方法及其裝置。動態語音辨識方法包含執行一第一階段:利用數位麥克風偵測聲音資料並儲存在第一記憶體、於聲音資料中偵測到人聲而產生人聲偵測訊號,及藉由第一處理電路根據總有效資料量、數位麥克風之傳輸位元速率及辨識間隔時間,選擇性決定執行第二階段或第三階段。欲執行第二階段時,第一處理電路輸出第一指令至第二處理電路,第二處理電路根據第一指令令記憶體存取電路轉移聲音資料至第二記憶體並儲存為語音資料。欲執行第三階段時,第一處理電路輸出第二指令至第二處理電路,第二處理電路根據第二指令令記憶體存取電路轉移聲音資料至第二記憶體並儲存為語音資料,且第二處理電路確認語音資料是否匹配預設語音指令。

Description

動態語音辨識方法及其裝置
本案係有關一種語音偵測辨識技術,特別是關於一種動態語音辨識方法及其裝置。
在現有電子設備中,語音助理(voice assistant)技術廣泛應用於各領域中,且支援語音喚醒功能。在語音助理處於待機模式(standby mode)下,仍然需要聽令於熱詞並在有熱詞出現時給予對應回應,因此語音助理必須定期喚醒,語音助理之處理系統會在待機模式下啟動,以利用語音活動偵測電路偵測是否有人聲,並在有人聲出現時才進一步進入語音辨識,以確認人聲中是否有熱詞(hot words)存在,進而據此判斷是否執行電子設備的系統開機或執行對應操作。
然而,等頻率的定期喚醒語音助理進行偵測,其靈敏度較差。同時,語音助理之處理系統也需滿足低功率的操作,以符合能源要求的相關規範。
有鑒於此,本案提出一種動態語音辨識方法,包含執行一第一階段:利用數位麥克風偵測聲音資料並儲存在第一記憶體;於聲音資料中偵測到人聲而產生人聲偵測訊號;及藉由第一處理電路根據總有效資料量、數位麥克風之傳輸位元速率及辨識間隔時間,選擇性決定執行第二階段或第三階段。執行第二階段,第一處理電路輸出第一指令至第二處理電路,第二處理電路根據第一指令使記憶體存取電路轉移聲音資料至第二記憶體並儲存為語音資料。執行第三階段,第一處理電路輸出第二指令,第二處理電路根據第二指令使記憶體存取電路轉移聲音資料至第二記憶體並儲存為語音資料,且第二處理電路確認第二記憶體中的語音資料是否匹配一預設語音指令。
本案另提出一種動態語音辨識裝置,包含數位麥克風、第一記憶體、語音活動偵測電路、記憶體存取電路、第二記憶體、第一處理電路及第二處理電路。數位麥克風用以偵測一聲音資料。第一記憶體電性連接數位麥克風,用以儲存聲音資料。語音活動偵測電路電性連接數位麥克風,用以偵測聲音資料並產生一人聲偵測訊號。記憶體存取電路電性連接第一記憶體,用以根據第一指令轉移聲音資料至第二記憶體,以儲存為語音資料。第一處理電路電性連接語音活動偵測電路。第二處理電路電性連接第一處理電路、第二記憶體及記憶體存取電路。其中,此動態語音辨識裝置用以執行前述之動態語音辨識方法。
依據一些實施例,第一處理電路接收到人聲偵測訊號時,第一處理電路於辨識間隔時間後輸出第一指令或第二指令。
依據一些實施例,辨識間隔時間係由一預算關係值決定,預算關係值小於等於目標平均功率消耗*前一週期時間*1/3時,辨識間隔時間係為2秒;預算關係值大於目標平均功率消耗*前一週期時間*1/3且小於等於目標平均功率消耗*前一週期時間*2/3時,辨識間隔時間係為1.5秒;以及預算關係值大於目標平均功率消耗*前一週期時間*2/3時,辨識間隔時間係為1秒。
依據一些實施例,預算關係值係為目標平均功率消耗*前一週期時間-(第一階段之第一平均功率消耗*第一階段之第一時間+第二階段之第二平均功率消耗*第二階段之第二時間+第三階段之第三平均功率消耗*第三階段之第三時間),其中前一週期時間等於第一時間、第二時間及第三時間之總和。
依據一些實施例,如第三平均功率消耗大於第二平均功率消耗,且第二平均功率消耗大於第一平均功率消耗。
依據一些實施例,在產生人聲偵測訊號之後,該第一處理電路判斷第一記憶體是否已存滿聲音資料,並在存滿聲音資料時繼續進行下一步驟。
綜上所述,本案在進行動態語音辨識時,將使用者經驗考慮在內,並在待機模式下觸發搜尋預設語音指令(熱詞)時,可以降低平均功率消耗,提供一個靈敏度較佳的方法。
圖1係根據本案一實施例之電子裝置的方塊示意圖,請參閱圖1所示,電子裝置10包含有一動態語音辨識裝置20、一影音處理電路30、數個核心處理電路31~33及數個第三記憶體34~36,且數個核心處理電路31~33皆電性接至第三記憶體34~36。在動態語音辨識裝置20在待機模式(standby mode)下辨識到預設語音指令時,電子裝置10會執行系統開機程序,使影音處理電路30、數個核心處理電路31~33及數個第三記憶體34~36可以彼此協同運作,以播放電子裝置10接收到的影音訊號。在一實施例中,電子裝置10可以是電視,但不限於此。
動態語音辨識裝置20係包含一數位麥克風21、一第一記憶體22、一語音活動偵測電路23、一記憶體存取電路24、一第一處理電路25、一第二處理電路26以及一第二記憶體27。數位麥克風21係用以偵測一聲音資料SD1。第一記憶體22係電性連接數位麥克風21,用以儲存聲音資料SD1。在一實施例中,第一記憶體22可以是但不限於靜態隨機存取記憶體(SRAM)。
語音活動偵測電路23電性連接數位麥克風21,用以偵測聲音資料SD1並產生一人聲偵測訊號SS。在一實施例中,語音活動偵測電路23可以是但不限於語音識別晶片或語音識別處理電路。
記憶體存取電路24電性連接第一記憶體22及第二記憶體27,用以根據一第一指令轉移聲音資料SD1至第二記憶體27,以將聲音資料SD1儲存為一語音資料SD2。在一實施例中,記憶體存取電路24可以是但不限於直接記憶體存取(Direct Memory Acess,DMA)電路,第二記憶體27可以是但不限於動態隨機存取記憶體(DRAM)。
第一處理電路25電性連接語音活動偵測電路23,用以根據人聲偵測訊號SS對應產生第一指令C1或第二指令C2。第二處理電路26係電性連接第一處理電路25、第二記憶體27及記憶體存取電路24,第二處理電路26根據第一指令C1使記憶體存取電路24轉移聲音資料SD1至第二記憶體27並儲存為語音資料SD2;或是第二處理電路26根據第二指令C2使記憶體存取電路24轉移聲音資料SD1至第二記憶體27並儲存為語音資料SD2,且確認第二記憶體27中的語音資料SD2是否匹配一預設語音指令。在一實施例中,第一處理電路25可以使用功率消耗較低的微控制器,例如,8051微控制器,但本案並不以此為限。第二處理電路26則可以使用一般的微處理器、微控制器、中央處理器等各種類型的處理電路,但本案並不以此為限。
在一實施例中,第一指令C1或是第二指令C2係為修改共享狀態的指令。
圖2係根據本案一實施例之動態語音辨識方法的流程示意圖,圖3係根據本案實施例之動態語音辨識裝置的波形示意圖,請同時參閱圖1、圖2及圖3所示,動態語音辨識方法包含利用動態語音辨識裝置20執行一第一階段ST1(步驟S10~步驟S18、步驟S22)及執行一第二階段ST2(步驟S20)或一第三階段ST3(步驟S24~步驟S26),以下係針對各階段詳細說明。
在執行第一階段ST1(純待機階段)中,如步驟S10所示,利用數位麥克風21偵測聲音資料SD1,並將聲音資料SD1儲存在第一記憶體22中。如步驟S12所示,語音活動偵測電路23係偵測聲音資料SD1是否有人聲出現,並在聲音資料SD1中偵測到人聲時會被觸發而產生人聲偵測訊號SS,並將人聲偵測訊號SS傳輸出至第一處理電路25。如步驟S14所示,第一處理電路25判斷第一記憶體22是否已經存滿聲音資料SD1,並在存滿聲音資料SD1時繼續進行下一步驟S16,以確保有足夠的聲音資料SD1可以進行後續步驟。如步驟S16所示,第一處理電路25根據一總有效資料量、數位麥克風21之傳輸位元速率及一辨識間隔時間Ti,選擇性決定執行第二階段ST2(DMA階段)或第三階段ST3(語音辨識階段)。
在一實施例中,已知有目標平均功率消耗、第一階段ST1之第一平均功率消耗、第二階段ST2之第二平均功率消耗及第三階段ST3之第三平均功率消耗,並已得到前一週期時間T中,各階段所佔的時間,包含第一階段ST1之第一時間Ta、第二階段ST2之第二時間Tb及第三階段ST3之第三時間Tc,其中前一週期時間T等於第一時間Ta、第二時間Tb及第三時間Tc之總和,亦即T=Ta+Tb+Tc。在一實施例中,此週期時間T可以是但不限於16秒。因此藉由前面各參數可以得到有關功率使用的一預算關係值(Budget),此預算關係值係為目標平均功率消耗*前一週期時間T-(第一階段ST1之第一平均功率消耗*第一階段ST1之第一時間Ta+第二階段ST2之第二平均功率消耗*第二階段ST2之第二時間Tb+第三階段ST3之第三平均功率消耗*第三階段ST3之第三時間Tc)。
在取得預算關係值之後,即可根據預算關係值動態決定辨識間隔時間Ti。詳言之,當預算關係值小於等於目標平均功率消耗*前一週期時間T*1/3時,決定辨識間隔時間Ti係為2秒。當預算關係值大於目標平均功率消耗*前一週期時間T*1/3且小於等於目標平均功率消耗*前一週期時間T*2/3時,決定辨識間隔時間Ti係為1.5秒。當預算關係值大於目標平均功率消耗*前一週期時間T*2/3時,則決定辨識間隔時間Ti係為1秒。接著,已知總有效資料量係為第一記憶體22之有效資料量及第二記憶體27之有效資料量的總和,以及數位麥克風21之傳輸位元速率,因此,當總有效資料量小於數位麥克風21之傳輸位元速率與辨識間隔時間之乘積時,第一處理電路25決定執行第二階段ST2之DMA階段。當總有效資料量大於等於數位麥克風21之傳輸位元速率與辨識間隔時間之乘積時,第一處理電路25決定執行第三階段ST3之語音辨識階段。
當第一處理電路25決定執行第二階段ST2時,如步驟S18所示,第一處理電路25會先喚醒第二處理電路26,然後進入到第二階段ST2。在第二階段ST2中,如步驟S20所示,第一處理電路25輸出第一指令C1至第二處理電路26,第二處理電路26根據第一指令C1使記憶體存取電路24轉移第一記憶體22內的聲音資料SD1至第二記憶體27,以儲存為語音資料SD2。在第二階段ST2中僅透過記憶體存取電路24轉換語音資料SD2到第二記憶體27中,而不需進行語音辨識。
當第一處理電路25決定執行第三階段ST3時,如步驟S22所示,第一處理電路25會先喚醒第二處理電路27,然後進入到第三階段ST3。在第三階段ST3中,如步驟S24所示,第一處理電路25輸出第二指令C2至第二處理電路26,第二處理電路26再根據第二指令C2使記憶體存取電路24轉移第一記憶體22內的聲音資料SD1至第二記憶體27,以儲存為語音資料SD2,並確認第二記憶體27中的語音資料SD2是否匹配預設語音指令。如步驟S26所示,第二處理電路26判斷第二記憶體27中的語音資料SD2是否有匹配預設語音指令,若語音資料SD2確認有匹配預設語音指令時,即如步驟S28所示執行系統開機程序,以喚醒其他電路,包含影音處理電路30、核心處理電路31~33及第三記憶體34~36等來進行系統開機。
圖4係根據本案另一實施例之動態語音辨識方法的流程示意圖,請同時參閱圖1、圖3及圖4所示,動態語音辨識方法包含利用動態語音辨識裝置20執行一第一階段ST1(步驟S10~步驟S16)及執行一第二階段ST2(步驟S30)或一第三階段ST3(步驟S32~步驟S34),以下係針對各階段詳細說明。
在執行第一階段ST1(純待機階段)中,如步驟S10所示,利用數位麥克風21偵測聲音資料SD1,並將聲音資料SD1儲存在第一記憶體22中。如步驟S12所示,語音活動偵測電路23係偵測聲音資料SD1是否有人聲出現,並在偵測到人聲時會被觸發而產生人聲偵測訊號SS傳輸出至第一處理電路25。如步驟S14所示,第一處理電路25判斷第一記憶體22是否已經存滿聲音資料SD1,並在存滿聲音資料SD1時繼續進行下一步驟S16,以確保有足夠的聲音資料SD1可以進行後續步驟。如步驟S16所示,第一處理電路25根據一總有效資料量、數位麥克風21之傳輸位元速率及一辨識間隔時間Ti,選擇性決定執行第二階段ST2(DMA階段)或第三階段ST3(語音辨識階段)。
當第一處理電路25決定執行第二階段ST2時,如步驟S30所示,在第二階段ST2中,第一處理電路25輸出第一指令C1並喚醒第二處理電路26,第二處理電路26根據第一指令C1使記憶體存取電路24轉移第一記憶體22內的聲音資料SD1至第二記憶體27,以儲存為語音資料SD2。
當第一處理電路25決定執行第三階段ST3時,如步驟S32所示,在第三階段ST3中,第一處理電路25輸出第二指令C2並喚醒第二處理電路26,第二處理電路26根據第二指令C2使記憶體存取電路24轉移第一記憶體22內的聲音資料SD1至第二記憶體27,以儲存為語音資料SD2,並確認第二記憶體27中的語音資料SD2是否匹配預設語音指令。如步驟S34所示,第二處理電路26判斷第二記憶體27中的語音資料SD2是否有匹配預設語音指令,若語音資料SD2確認有匹配預設語音指令時,即如步驟S28所示執行系統開機程序,以喚醒所有電路進行系統開機。
上述動態語音辨識方法的多個步驟(S10~S26及S30~S34)僅為示例,並非限於上述示例的順序執行。在不違背本案之精神與範圍下,在動態語音辨識方法下的各種操作當可適當地增加、替換、省略或以不同順序執行。
在一實施例中,當第一處理電路25接收到人聲偵測訊號SS時,第一處理電路25會於辨識間隔時間Ti後輸出第一指令C1或第二指令C2。如圖1及圖3所示,第一處理電路25於時間T1接收到人聲偵測訊號SS時,第一處理電路25會在辨識間隔時間Ti後的時間T2輸出第一指令C1或第二指令C2,其中,此辨識間隔時間Ti可基於前述方式來動態決定,以確保接收到的聲音資料SD1足以反映預設語音指令後才致能第二處理電路26與第二記憶體27,故可滿足低功率的操作,以符合能源要求的相關規範。
在一實施例中,若預設語音指令所設置的關鍵詞為『Hi, TV』時,請參閱圖1及圖3所示,於時間T1時,數位麥克風21偵測到外界聲音,並產生聲音資料SD1,且第一記憶體22儲存此聲音資料SD1,例如,數位麥克風21偵測到使用者對動態語音辨識裝置20說出『Hi, TV…』等語音指令。同時,語音活動偵測電路23判斷出此聲音資料SD1具有人聲而輸出人聲偵測訊號SS。於時間T2時,第一處理電路25輸出第一指令C1或第二指令C2。第二處理電路26與第二記憶體27也被致能,此時,第二處理電路26根據第一指令C1或第二指令C2使記憶體存取電路24被致能,以轉移聲音資料SD1至第二記憶體27並儲存為語音資料SD2。因此,第二處理電路26可分析語音資料SD2,以確認語音資料SD2是否匹配於預設語音指令『Hi, TV』,並在第二處理電路26確認語音資料SD2匹配於預設語音指令,以喚醒其他電路來執行系統開機程序。
在一實施例中,第一階段ST1係使用到動態語音辨識裝置20中的數位麥克風21、第一記憶體22、語音活動偵測電路23及第一處理電路25。第二階段ST2係使用動態語音辨識裝置20中的數位麥克風21、第一記憶體22、語音活動偵測電路23、記憶體存取電路24、第一處理電路25、部分第二處理電路26(僅有啟動第二記憶體的部分功能)及第二記憶體27。第三階段ST3係使用動態語音辨識裝置20中的數位麥克風21、第一記憶體22、語音活動偵測電路23、記憶體存取電路24、第一處理電路25、第二處理電路26及第二記憶體27等全部電路。因此,第三階段ST3之第三平均功率消耗大於第二階段ST2之第二平均功率消耗,且第二平均功率消耗大於第一階段ST1之第一平均功率消耗。例如,第一階段ST1所對應的消耗功率約為0.5瓦特,第三階段ST3所對應的消耗功率為4瓦特,則第二階段ST2所對應消耗功率則介於兩者之間。
因此,本案可以根據前一週期時間T內各階段所佔用的時間(第一時間、第二時間及第三時間)以及各階段的平均功率消耗來決定預算關係值,以根據預算關係值動態決定辨識間隔時間Ti的長短,進而據此判斷是否需要進行語音資料的辨識(執行第二階段ST2或第三階段ST3),故可根據實際運作的功率消耗來動態進行語音辨識。所以,本案可以在進行動態語音辨識時,將使用者經驗考慮在內,並在待機模式下觸發搜尋預設語音指令時,可以降低平均功率消耗,以提供一個靈敏度較佳的方法。
以上所述之實施例僅係為說明本案之技術思想及特點,其目的在使熟悉此項技術者能夠瞭解本案之內容並據以實施,當不能以之限定本案之專利範圍,即大凡依本案所揭示之精神所作之均等變化或修飾,仍應涵蓋在本案之專利範圍內。
10:電子裝置 20:動態語音辨識裝置 21:數位麥克風 22:第一記憶體 23:語音活動偵測電路 24:記憶體存取電路 25:第一處理電路 26:第二處理電路 27:第二記憶體 30:影音處理電路 31~33:核心處理電路 34~36:第三記憶體 C1:第一指令 C2:第二指令 SD1:聲音資料 SD2:語音資料 SS:人聲偵測訊號 ST1:第一階段 ST2:第二階段 ST3:第三階段 T:週期時間 T1~T2:時間 Ti:辨識間隔時間 S10~S28:步驟 S30~S36:步驟
圖1係根據本案一實施例之電子裝置的方塊示意圖。 圖2係根據本案一實施例之動態語音辨識方法的流程示意圖。 圖3係根據本案實施例之動態語音辨識裝置的波形示意圖。 圖4係根據本案另一實施例之動態語音辨識方法的流程示意圖。
S10~S16:步驟
S30~S36:步驟
ST1:第一階段
ST2:第二階段
ST3:第三階段

Claims (10)

  1. 一種動態語音辨識方法,包含:執行一第一階段:利用一數位麥克風偵測一聲音資料並儲存在一第一記憶體;於該聲音資料中偵測到人聲而產生一人聲偵測訊號;及藉由一第一處理電路根據一總有效資料量、該數位麥克風之傳輸位元速率及一辨識間隔時間,選擇性決定執行一第二階段或一第三階段,其中該總有效資料量小於該數位麥克風之該傳輸位元速率與該辨識間隔時間之乘積時,該第一處理電路決定執行該第二階段;以及該總有效資料量大於等於該數位麥克風之該傳輸位元速率與該辨識間隔時間之乘積時,該第一處理電路決定執行該第三階段;執行該第二階段:該第一處理電路輸出一第一指令至一第二處理電路,該第二處理電路根據該第一指令使一記憶體存取電路轉移該聲音資料至一第二記憶體並儲存為一語音資料;以及執行該第三階段:該第一處理電路輸出一第二指令至該第二處理電路,該第二處理電路根據該第二指令使該記憶體存取電路轉移該聲音資料至該第二記憶體並儲存為該語音資料,且該第二處理電路確認該第二記憶體中的該語音資料是否匹配一預設語音指令。
  2. 如請求項1所述之動態語音辨識方法,其中該總有效資料量係為該第一記憶體之有效資料量及該第二記憶體之有效資料量的總和。
  3. 如請求項2所述之動態語音辨識方法,其中該第一處理電路接收到該人聲偵測訊號時,該第一處理電路於該辨識間隔時間後輸出該第一指令或該第二指令。
  4. 如請求項3所述之動態語音辨識方法,其中該辨識間隔時間係由一預算關係值決定,該預算關係值小於等於目標平均功率消耗*前一週期時間*1/3時,該辨識間隔時間係為2秒;該預算關係值大於該目標平均功率消耗*該前一週期時間*1/3且小於等於該目標平均功率消耗*該前一週期時間*2/3時,該辨識間隔時間係為1.5秒;以及該預算關係值大於該目標平均功率消耗*該前一週期時間*2/3時,該辨識間隔時間係為1秒。
  5. 如請求項4所述之動態語音辨識方法,其中該預算關係值係為該目標平均功率消耗*該前一週期時間-(該第一階段之第一平均功率消耗*該第一階段之第一時間+該第二階段之第二平均功率消耗*該第二階段之第二時間+該第三階段之第三平均功率消耗*該第三階段之第三時間),其中該前一週期時間等於該第一時間、該第二時間及該第三時間之總和。
  6. 如請求項5所述之動態語音辨識方法,其中該第三平均功率消耗大於該第二平均功率消耗,且該第二平均功率消耗大於該第一平均功率消耗。
  7. 如請求項1所述之動態語音辨識方法,其中在產生該人聲偵測訊號之步驟後,更包括:判斷該第一記憶體是否已存滿該聲音資料,並在存滿該聲音資料時繼續進行下一步驟。
  8. 如請求項1所述之動態語音辨識方法,其中在執行該第一階段中,在選擇性決定執行該第二階段或該第三階段之步驟後,更包括:該第一處理電路喚醒該第二處理電路。
  9. 如請求項1所述之動態語音辨識方法,其中在該第一處理電路輸出該第一指令或該第二指令時,該第一處理電路喚醒該第二處理電路。
  10. 一種動態語音辨識裝置,包含:一數位麥克風,用以偵測一聲音資料;一第一記憶體,電性連接該數位麥克風,用以儲存該聲音資料;一語音活動偵測電路,電性連接該數位麥克風,用以偵測該聲音資料並產生一人聲偵測訊號;一記憶體存取電路,電性連接該第一記憶體,該記憶體存取電路轉移該聲音資料至一第二記憶體,以儲存為一語音資料;一第一處理電路,電性連接該語音活動偵測電路;以及一第二處理電路,電性連接該第一處理電路、該第二記憶體及該記憶體存取電路;其中,該動態語音辨識裝置用以執行下列步驟:執行一第一階段:利用該數位麥克風偵測該聲音資料並儲存在該第一記憶體; 該語音活動偵測電路於該聲音資料中偵測到人聲而產生該人聲偵測訊號;及藉由該第一處理電路根據一總有效資料量、該數位麥克風之傳輸位元速率及一辨識間隔時間,選擇性決定執行一第二階段或一第三階段,其中該總有效資料量小於該數位麥克風之該傳輸位元速率與該辨識間隔時間之乘積時,該第一處理電路決定執行該第二階段;以及該總有效資料量大於等於該數位麥克風之該傳輸位元速率與該辨識間隔時間之乘積時,該第一處理電路決定執行該第三階段;執行該第二階段:該第一處理電路輸出一第一指令至該第二處理電路,該第二處理電路根據該第一指令使該記憶體存取電路轉移該聲音資料至該第二記憶體並儲存為該語音資料;以及執行該第三階段:該第一處理電路輸出一第二指令至該第二處理電路,該第二處理電路根據該第二指令使該記憶體存取電路轉移該聲音資料至該第二記憶體並儲存為該語音資料,且該第二處理電路確認該第二記憶體中的該語音資料是否匹配一預設語音指令。
TW108143281A 2019-11-27 2019-11-27 動態語音辨識方法及其裝置 TWI727521B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW108143281A TWI727521B (zh) 2019-11-27 2019-11-27 動態語音辨識方法及其裝置
US16/942,195 US11417334B2 (en) 2019-11-27 2020-07-29 Dynamic speech recognition method and apparatus therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108143281A TWI727521B (zh) 2019-11-27 2019-11-27 動態語音辨識方法及其裝置

Publications (2)

Publication Number Publication Date
TWI727521B true TWI727521B (zh) 2021-05-11
TW202121397A TW202121397A (zh) 2021-06-01

Family

ID=75975465

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108143281A TWI727521B (zh) 2019-11-27 2019-11-27 動態語音辨識方法及其裝置

Country Status (2)

Country Link
US (1) US11417334B2 (zh)
TW (1) TWI727521B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI713016B (zh) * 2019-01-03 2020-12-11 瑞昱半導體股份有限公司 語音偵測處理系統與語音偵測方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038864A (zh) * 2013-03-08 2014-09-10 亚德诺半导体股份有限公司 带有语音识别的麦克风电路总成和系统
TW201636808A (zh) * 2015-03-02 2016-10-16 蘋果公司 螢幕讀取器使用者介面
US20190163437A1 (en) * 2016-08-16 2019-05-30 Sony Corporation Information processing device, information processing method, and program
CN110096865A (zh) * 2019-05-13 2019-08-06 北京三快在线科技有限公司 下发验证方式的方法、装置、设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9112989B2 (en) * 2010-04-08 2015-08-18 Qualcomm Incorporated System and method of smart audio logging for mobile devices
CN113470640B (zh) * 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9703350B2 (en) * 2013-03-15 2017-07-11 Maxim Integrated Products, Inc. Always-on low-power keyword spotting
WO2014144579A1 (en) * 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9613626B2 (en) * 2015-02-06 2017-04-04 Fortemedia, Inc. Audio device for recognizing key phrases and method thereof
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition
US10083395B2 (en) * 2015-05-21 2018-09-25 Google Llc Batch processing in a neural network processor
US9721569B2 (en) * 2015-05-27 2017-08-01 Intel Corporation Gaussian mixture model accelerator with direct memory access engines corresponding to individual data streams
US10949736B2 (en) * 2016-11-03 2021-03-16 Intel Corporation Flexible neural network accelerator and methods therefor
TWI643123B (zh) * 2017-05-02 2018-12-01 瑞昱半導體股份有限公司 具有語音喚醒功能的電子裝置及其操作方法
US20220122592A1 (en) * 2018-09-14 2022-04-21 Aondevices, Inc. Energy efficient custom deep learning circuits for always-on embedded applications
US10650807B2 (en) * 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
TWI713016B (zh) * 2019-01-03 2020-12-11 瑞昱半導體股份有限公司 語音偵測處理系統與語音偵測方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038864A (zh) * 2013-03-08 2014-09-10 亚德诺半导体股份有限公司 带有语音识别的麦克风电路总成和系统
TW201636808A (zh) * 2015-03-02 2016-10-16 蘋果公司 螢幕讀取器使用者介面
US20190163437A1 (en) * 2016-08-16 2019-05-30 Sony Corporation Information processing device, information processing method, and program
CN110096865A (zh) * 2019-05-13 2019-08-06 北京三快在线科技有限公司 下发验证方式的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
TW202121397A (zh) 2021-06-01
US20210158817A1 (en) 2021-05-27
US11417334B2 (en) 2022-08-16

Similar Documents

Publication Publication Date Title
US11862173B2 (en) Always-on audio control for mobile device
TWI669710B (zh) 音箱的控制方法、控制裝置、存儲介質及電子設備
TWI713016B (zh) 語音偵測處理系統與語音偵測方法
US10601599B2 (en) Voice command processing in low power devices
JP6401870B2 (ja) 常時オンの構成要素におけるクロック切り替え
CN109192208B (zh) 一种电器设备的控制方法、系统、装置、设备及介质
JP2008287873A5 (zh)
US10891945B2 (en) Method and apparatus for judging termination of sound reception and terminal device
TWI727521B (zh) 動態語音辨識方法及其裝置
CN112927685A (zh) 动态语音辨识方法及其装置
CN111414071B (zh) 处理系统与语音检测方法
JP2002245794A (ja) Sdramリフレッシュ回路
WO2020103032A1 (zh) 进程运行控制方法、装置、存储介质及电子设备