TWI727521B

TWI727521B - 動態語音辨識方法及其裝置

Info

Publication number: TWI727521B
Application number: TW108143281A
Authority: TW
Inventors: 王美華; 陳慶隆
Original assignee: 瑞昱半導體股份有限公司
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2021-05-11
Also published as: TW202121397A; US20210158817A1; US11417334B2

Abstract

本案提供一種動態語音辨識方法及其裝置。動態語音辨識方法包含執行一第一階段：利用數位麥克風偵測聲音資料並儲存在第一記憶體、於聲音資料中偵測到人聲而產生人聲偵測訊號，及藉由第一處理電路根據總有效資料量、數位麥克風之傳輸位元速率及辨識間隔時間，選擇性決定執行第二階段或第三階段。欲執行第二階段時，第一處理電路輸出第一指令至第二處理電路，第二處理電路根據第一指令令記憶體存取電路轉移聲音資料至第二記憶體並儲存為語音資料。欲執行第三階段時，第一處理電路輸出第二指令至第二處理電路，第二處理電路根據第二指令令記憶體存取電路轉移聲音資料至第二記憶體並儲存為語音資料，且第二處理電路確認語音資料是否匹配預設語音指令。

Description

動態語音辨識方法及其裝置

本案係有關一種語音偵測辨識技術，特別是關於一種動態語音辨識方法及其裝置。

在現有電子設備中，語音助理（voice assistant）技術廣泛應用於各領域中，且支援語音喚醒功能。在語音助理處於待機模式（standby mode）下，仍然需要聽令於熱詞並在有熱詞出現時給予對應回應，因此語音助理必須定期喚醒，語音助理之處理系統會在待機模式下啟動，以利用語音活動偵測電路偵測是否有人聲，並在有人聲出現時才進一步進入語音辨識，以確認人聲中是否有熱詞（hot words）存在，進而據此判斷是否執行電子設備的系統開機或執行對應操作。

然而，等頻率的定期喚醒語音助理進行偵測，其靈敏度較差。同時，語音助理之處理系統也需滿足低功率的操作，以符合能源要求的相關規範。

有鑒於此，本案提出一種動態語音辨識方法，包含執行一第一階段：利用數位麥克風偵測聲音資料並儲存在第一記憶體；於聲音資料中偵測到人聲而產生人聲偵測訊號；及藉由第一處理電路根據總有效資料量、數位麥克風之傳輸位元速率及辨識間隔時間，選擇性決定執行第二階段或第三階段。執行第二階段，第一處理電路輸出第一指令至第二處理電路，第二處理電路根據第一指令使記憶體存取電路轉移聲音資料至第二記憶體並儲存為語音資料。執行第三階段，第一處理電路輸出第二指令，第二處理電路根據第二指令使記憶體存取電路轉移聲音資料至第二記憶體並儲存為語音資料，且第二處理電路確認第二記憶體中的語音資料是否匹配一預設語音指令。

本案另提出一種動態語音辨識裝置，包含數位麥克風、第一記憶體、語音活動偵測電路、記憶體存取電路、第二記憶體、第一處理電路及第二處理電路。數位麥克風用以偵測一聲音資料。第一記憶體電性連接數位麥克風，用以儲存聲音資料。語音活動偵測電路電性連接數位麥克風，用以偵測聲音資料並產生一人聲偵測訊號。記憶體存取電路電性連接第一記憶體，用以根據第一指令轉移聲音資料至第二記憶體，以儲存為語音資料。第一處理電路電性連接語音活動偵測電路。第二處理電路電性連接第一處理電路、第二記憶體及記憶體存取電路。其中，此動態語音辨識裝置用以執行前述之動態語音辨識方法。

依據一些實施例，第一處理電路接收到人聲偵測訊號時，第一處理電路於辨識間隔時間後輸出第一指令或第二指令。

依據一些實施例，辨識間隔時間係由一預算關係值決定，預算關係值小於等於目標平均功率消耗*前一週期時間*1/3時，辨識間隔時間係為2秒；預算關係值大於目標平均功率消耗*前一週期時間*1/3且小於等於目標平均功率消耗*前一週期時間*2/3時，辨識間隔時間係為1.5秒；以及預算關係值大於目標平均功率消耗*前一週期時間*2/3時，辨識間隔時間係為1秒。

依據一些實施例，預算關係值係為目標平均功率消耗*前一週期時間-（第一階段之第一平均功率消耗*第一階段之第一時間+第二階段之第二平均功率消耗*第二階段之第二時間+第三階段之第三平均功率消耗*第三階段之第三時間），其中前一週期時間等於第一時間、第二時間及第三時間之總和。

依據一些實施例，如第三平均功率消耗大於第二平均功率消耗，且第二平均功率消耗大於第一平均功率消耗。

依據一些實施例，在產生人聲偵測訊號之後，該第一處理電路判斷第一記憶體是否已存滿聲音資料，並在存滿聲音資料時繼續進行下一步驟。

綜上所述，本案在進行動態語音辨識時，將使用者經驗考慮在內，並在待機模式下觸發搜尋預設語音指令（熱詞）時，可以降低平均功率消耗，提供一個靈敏度較佳的方法。

圖1係根據本案一實施例之電子裝置的方塊示意圖，請參閱圖1所示，電子裝置10包含有一動態語音辨識裝置20、一影音處理電路30、數個核心處理電路31～33及數個第三記憶體34～36，且數個核心處理電路31～33皆電性接至第三記憶體34～36。在動態語音辨識裝置20在待機模式（standby mode）下辨識到預設語音指令時，電子裝置10會執行系統開機程序，使影音處理電路30、數個核心處理電路31～33及數個第三記憶體34～36可以彼此協同運作，以播放電子裝置10接收到的影音訊號。在一實施例中，電子裝置10可以是電視，但不限於此。

動態語音辨識裝置20係包含一數位麥克風21、一第一記憶體22、一語音活動偵測電路23、一記憶體存取電路24、一第一處理電路25、一第二處理電路26以及一第二記憶體27。數位麥克風21係用以偵測一聲音資料SD1。第一記憶體22係電性連接數位麥克風21，用以儲存聲音資料SD1。在一實施例中，第一記憶體22可以是但不限於靜態隨機存取記憶體（SRAM）。

語音活動偵測電路23電性連接數位麥克風21，用以偵測聲音資料SD1並產生一人聲偵測訊號SS。在一實施例中，語音活動偵測電路23可以是但不限於語音識別晶片或語音識別處理電路。

記憶體存取電路24電性連接第一記憶體22及第二記憶體27，用以根據一第一指令轉移聲音資料SD1至第二記憶體27，以將聲音資料SD1儲存為一語音資料SD2。在一實施例中，記憶體存取電路24可以是但不限於直接記憶體存取（Direct Memory Acess，DMA）電路，第二記憶體27可以是但不限於動態隨機存取記憶體（DRAM）。

第一處理電路25電性連接語音活動偵測電路23，用以根據人聲偵測訊號SS對應產生第一指令C1或第二指令C2。第二處理電路26係電性連接第一處理電路25、第二記憶體27及記憶體存取電路24，第二處理電路26根據第一指令C1使記憶體存取電路24轉移聲音資料SD1至第二記憶體27並儲存為語音資料SD2；或是第二處理電路26根據第二指令C2使記憶體存取電路24轉移聲音資料SD1至第二記憶體27並儲存為語音資料SD2，且確認第二記憶體27中的語音資料SD2是否匹配一預設語音指令。在一實施例中，第一處理電路25可以使用功率消耗較低的微控制器，例如，8051微控制器，但本案並不以此為限。第二處理電路26則可以使用一般的微處理器、微控制器、中央處理器等各種類型的處理電路，但本案並不以此為限。

在一實施例中，第一指令C1或是第二指令C2係為修改共享狀態的指令。

圖2係根據本案一實施例之動態語音辨識方法的流程示意圖，圖3係根據本案實施例之動態語音辨識裝置的波形示意圖，請同時參閱圖1、圖2及圖3所示，動態語音辨識方法包含利用動態語音辨識裝置20執行一第一階段ST1（步驟S10～步驟S18、步驟S22）及執行一第二階段ST2（步驟S20）或一第三階段ST3（步驟S24～步驟S26），以下係針對各階段詳細說明。

在執行第一階段ST1（純待機階段）中，如步驟S10所示，利用數位麥克風21偵測聲音資料SD1，並將聲音資料SD1儲存在第一記憶體22中。如步驟S12所示，語音活動偵測電路23係偵測聲音資料SD1是否有人聲出現，並在聲音資料SD1中偵測到人聲時會被觸發而產生人聲偵測訊號SS，並將人聲偵測訊號SS傳輸出至第一處理電路25。如步驟S14所示，第一處理電路25判斷第一記憶體22是否已經存滿聲音資料SD1，並在存滿聲音資料SD1時繼續進行下一步驟S16，以確保有足夠的聲音資料SD1可以進行後續步驟。如步驟S16所示，第一處理電路25根據一總有效資料量、數位麥克風21之傳輸位元速率及一辨識間隔時間Ti，選擇性決定執行第二階段ST2（DMA階段）或第三階段ST3（語音辨識階段）。

在一實施例中，已知有目標平均功率消耗、第一階段ST1之第一平均功率消耗、第二階段ST2之第二平均功率消耗及第三階段ST3之第三平均功率消耗，並已得到前一週期時間T中，各階段所佔的時間，包含第一階段ST1之第一時間Ta、第二階段ST2之第二時間Tb及第三階段ST3之第三時間Tc，其中前一週期時間T等於第一時間Ta、第二時間Tb及第三時間Tc之總和，亦即T＝Ta+Tb+Tc。在一實施例中，此週期時間T可以是但不限於16秒。因此藉由前面各參數可以得到有關功率使用的一預算關係值（Budget），此預算關係值係為目標平均功率消耗*前一週期時間T-（第一階段ST1之第一平均功率消耗*第一階段ST1之第一時間Ta+第二階段ST2之第二平均功率消耗*第二階段ST2之第二時間Tb+第三階段ST3之第三平均功率消耗*第三階段ST3之第三時間Tc）。

在取得預算關係值之後，即可根據預算關係值動態決定辨識間隔時間Ti。詳言之，當預算關係值小於等於目標平均功率消耗*前一週期時間T*1/3時，決定辨識間隔時間Ti係為2秒。當預算關係值大於目標平均功率消耗*前一週期時間T*1/3且小於等於目標平均功率消耗*前一週期時間T*2/3時，決定辨識間隔時間Ti係為1.5秒。當預算關係值大於目標平均功率消耗*前一週期時間T*2/3時，則決定辨識間隔時間Ti係為1秒。接著，已知總有效資料量係為第一記憶體22之有效資料量及第二記憶體27之有效資料量的總和，以及數位麥克風21之傳輸位元速率，因此，當總有效資料量小於數位麥克風21之傳輸位元速率與辨識間隔時間之乘積時，第一處理電路25決定執行第二階段ST2之DMA階段。當總有效資料量大於等於數位麥克風21之傳輸位元速率與辨識間隔時間之乘積時，第一處理電路25決定執行第三階段ST3之語音辨識階段。

當第一處理電路25決定執行第二階段ST2時，如步驟S18所示，第一處理電路25會先喚醒第二處理電路26，然後進入到第二階段ST2。在第二階段ST2中，如步驟S20所示，第一處理電路25輸出第一指令C1至第二處理電路26，第二處理電路26根據第一指令C1使記憶體存取電路24轉移第一記憶體22內的聲音資料SD1至第二記憶體27，以儲存為語音資料SD2。在第二階段ST2中僅透過記憶體存取電路24轉換語音資料SD2到第二記憶體27中，而不需進行語音辨識。

當第一處理電路25決定執行第三階段ST3時，如步驟S22所示，第一處理電路25會先喚醒第二處理電路27，然後進入到第三階段ST3。在第三階段ST3中，如步驟S24所示，第一處理電路25輸出第二指令C2至第二處理電路26，第二處理電路26再根據第二指令C2使記憶體存取電路24轉移第一記憶體22內的聲音資料SD1至第二記憶體27，以儲存為語音資料SD2，並確認第二記憶體27中的語音資料SD2是否匹配預設語音指令。如步驟S26所示，第二處理電路26判斷第二記憶體27中的語音資料SD2是否有匹配預設語音指令，若語音資料SD2確認有匹配預設語音指令時，即如步驟S28所示執行系統開機程序，以喚醒其他電路，包含影音處理電路30、核心處理電路31～33及第三記憶體34～36等來進行系統開機。

圖4係根據本案另一實施例之動態語音辨識方法的流程示意圖，請同時參閱圖1、圖3及圖4所示，動態語音辨識方法包含利用動態語音辨識裝置20執行一第一階段ST1（步驟S10～步驟S16）及執行一第二階段ST2（步驟S30）或一第三階段ST3（步驟S32～步驟S34），以下係針對各階段詳細說明。

在執行第一階段ST1（純待機階段）中，如步驟S10所示，利用數位麥克風21偵測聲音資料SD1，並將聲音資料SD1儲存在第一記憶體22中。如步驟S12所示，語音活動偵測電路23係偵測聲音資料SD1是否有人聲出現，並在偵測到人聲時會被觸發而產生人聲偵測訊號SS傳輸出至第一處理電路25。如步驟S14所示，第一處理電路25判斷第一記憶體22是否已經存滿聲音資料SD1，並在存滿聲音資料SD1時繼續進行下一步驟S16，以確保有足夠的聲音資料SD1可以進行後續步驟。如步驟S16所示，第一處理電路25根據一總有效資料量、數位麥克風21之傳輸位元速率及一辨識間隔時間Ti，選擇性決定執行第二階段ST2（DMA階段）或第三階段ST3（語音辨識階段）。

當第一處理電路25決定執行第二階段ST2時，如步驟S30所示，在第二階段ST2中，第一處理電路25輸出第一指令C1並喚醒第二處理電路26，第二處理電路26根據第一指令C1使記憶體存取電路24轉移第一記憶體22內的聲音資料SD1至第二記憶體27，以儲存為語音資料SD2。

當第一處理電路25決定執行第三階段ST3時，如步驟S32所示，在第三階段ST3中，第一處理電路25輸出第二指令C2並喚醒第二處理電路26，第二處理電路26根據第二指令C2使記憶體存取電路24轉移第一記憶體22內的聲音資料SD1至第二記憶體27，以儲存為語音資料SD2，並確認第二記憶體27中的語音資料SD2是否匹配預設語音指令。如步驟S34所示，第二處理電路26判斷第二記憶體27中的語音資料SD2是否有匹配預設語音指令，若語音資料SD2確認有匹配預設語音指令時，即如步驟S28所示執行系統開機程序，以喚醒所有電路進行系統開機。

上述動態語音辨識方法的多個步驟（S10～S26及S30～S34）僅為示例，並非限於上述示例的順序執行。在不違背本案之精神與範圍下，在動態語音辨識方法下的各種操作當可適當地增加、替換、省略或以不同順序執行。

在一實施例中，當第一處理電路25接收到人聲偵測訊號SS時，第一處理電路25會於辨識間隔時間Ti後輸出第一指令C1或第二指令C2。如圖1及圖3所示，第一處理電路25於時間T1接收到人聲偵測訊號SS時，第一處理電路25會在辨識間隔時間Ti後的時間T2輸出第一指令C1或第二指令C2，其中，此辨識間隔時間Ti可基於前述方式來動態決定，以確保接收到的聲音資料SD1足以反映預設語音指令後才致能第二處理電路26與第二記憶體27，故可滿足低功率的操作，以符合能源要求的相關規範。

在一實施例中，若預設語音指令所設置的關鍵詞為『Hi, TV』時，請參閱圖1及圖3所示，於時間T1時，數位麥克風21偵測到外界聲音，並產生聲音資料SD1，且第一記憶體22儲存此聲音資料SD1，例如，數位麥克風21偵測到使用者對動態語音辨識裝置20說出『Hi, TV…』等語音指令。同時，語音活動偵測電路23判斷出此聲音資料SD1具有人聲而輸出人聲偵測訊號SS。於時間T2時，第一處理電路25輸出第一指令C1或第二指令C2。第二處理電路26與第二記憶體27也被致能，此時，第二處理電路26根據第一指令C1或第二指令C2使記憶體存取電路24被致能，以轉移聲音資料SD1至第二記憶體27並儲存為語音資料SD2。因此，第二處理電路26可分析語音資料SD2，以確認語音資料SD2是否匹配於預設語音指令『Hi, TV』，並在第二處理電路26確認語音資料SD2匹配於預設語音指令，以喚醒其他電路來執行系統開機程序。

在一實施例中，第一階段ST1係使用到動態語音辨識裝置20中的數位麥克風21、第一記憶體22、語音活動偵測電路23及第一處理電路25。第二階段ST2係使用動態語音辨識裝置20中的數位麥克風21、第一記憶體22、語音活動偵測電路23、記憶體存取電路24、第一處理電路25、部分第二處理電路26（僅有啟動第二記憶體的部分功能）及第二記憶體27。第三階段ST3係使用動態語音辨識裝置20中的數位麥克風21、第一記憶體22、語音活動偵測電路23、記憶體存取電路24、第一處理電路25、第二處理電路26及第二記憶體27等全部電路。因此，第三階段ST3之第三平均功率消耗大於第二階段ST2之第二平均功率消耗，且第二平均功率消耗大於第一階段ST1之第一平均功率消耗。例如，第一階段ST1所對應的消耗功率約為0.5瓦特，第三階段ST3所對應的消耗功率為4瓦特，則第二階段ST2所對應消耗功率則介於兩者之間。

因此，本案可以根據前一週期時間T內各階段所佔用的時間（第一時間、第二時間及第三時間）以及各階段的平均功率消耗來決定預算關係值，以根據預算關係值動態決定辨識間隔時間Ti的長短，進而據此判斷是否需要進行語音資料的辨識（執行第二階段ST2或第三階段ST3），故可根據實際運作的功率消耗來動態進行語音辨識。所以，本案可以在進行動態語音辨識時，將使用者經驗考慮在內，並在待機模式下觸發搜尋預設語音指令時，可以降低平均功率消耗，以提供一個靈敏度較佳的方法。

以上所述之實施例僅係為說明本案之技術思想及特點，其目的在使熟悉此項技術者能夠瞭解本案之內容並據以實施，當不能以之限定本案之專利範圍，即大凡依本案所揭示之精神所作之均等變化或修飾，仍應涵蓋在本案之專利範圍內。

10:電子裝置 20:動態語音辨識裝置 21:數位麥克風 22:第一記憶體 23:語音活動偵測電路 24:記憶體存取電路 25:第一處理電路 26:第二處理電路 27:第二記憶體 30:影音處理電路 31～33:核心處理電路 34～36:第三記憶體 C1:第一指令 C2:第二指令 SD1:聲音資料 SD2:語音資料 SS:人聲偵測訊號 ST1:第一階段 ST2:第二階段 ST3:第三階段 T:週期時間 T1～T2:時間 Ti:辨識間隔時間 S10～S28:步驟 S30～S36:步驟

圖1係根據本案一實施例之電子裝置的方塊示意圖。圖2係根據本案一實施例之動態語音辨識方法的流程示意圖。圖3係根據本案實施例之動態語音辨識裝置的波形示意圖。圖4係根據本案另一實施例之動態語音辨識方法的流程示意圖。

S10~S16:步驟

S30~S36:步驟

ST1:第一階段

ST2:第二階段

ST3:第三階段

Claims

一種動態語音辨識方法，包含：執行一第一階段：利用一數位麥克風偵測一聲音資料並儲存在一第一記憶體；於該聲音資料中偵測到人聲而產生一人聲偵測訊號；及藉由一第一處理電路根據一總有效資料量、該數位麥克風之傳輸位元速率及一辨識間隔時間，選擇性決定執行一第二階段或一第三階段，其中該總有效資料量小於該數位麥克風之該傳輸位元速率與該辨識間隔時間之乘積時，該第一處理電路決定執行該第二階段；以及該總有效資料量大於等於該數位麥克風之該傳輸位元速率與該辨識間隔時間之乘積時，該第一處理電路決定執行該第三階段；執行該第二階段：該第一處理電路輸出一第一指令至一第二處理電路，該第二處理電路根據該第一指令使一記憶體存取電路轉移該聲音資料至一第二記憶體並儲存為一語音資料；以及執行該第三階段：該第一處理電路輸出一第二指令至該第二處理電路，該第二處理電路根據該第二指令使該記憶體存取電路轉移該聲音資料至該第二記憶體並儲存為該語音資料，且該第二處理電路確認該第二記憶體中的該語音資料是否匹配一預設語音指令。
如請求項1所述之動態語音辨識方法，其中該總有效資料量係為該第一記憶體之有效資料量及該第二記憶體之有效資料量的總和。
如請求項2所述之動態語音辨識方法，其中該第一處理電路接收到該人聲偵測訊號時，該第一處理電路於該辨識間隔時間後輸出該第一指令或該第二指令。
如請求項3所述之動態語音辨識方法，其中該辨識間隔時間係由一預算關係值決定，該預算關係值小於等於目標平均功率消耗*前一週期時間*1/3時，該辨識間隔時間係為2秒；該預算關係值大於該目標平均功率消耗*該前一週期時間*1/3且小於等於該目標平均功率消耗*該前一週期時間*2/3時，該辨識間隔時間係為1.5秒；以及該預算關係值大於該目標平均功率消耗*該前一週期時間*2/3時，該辨識間隔時間係為1秒。
如請求項4所述之動態語音辨識方法，其中該預算關係值係為該目標平均功率消耗*該前一週期時間-(該第一階段之第一平均功率消耗*該第一階段之第一時間+該第二階段之第二平均功率消耗*該第二階段之第二時間+該第三階段之第三平均功率消耗*該第三階段之第三時間)，其中該前一週期時間等於該第一時間、該第二時間及該第三時間之總和。
如請求項5所述之動態語音辨識方法，其中該第三平均功率消耗大於該第二平均功率消耗，且該第二平均功率消耗大於該第一平均功率消耗。
如請求項1所述之動態語音辨識方法，其中在產生該人聲偵測訊號之步驟後，更包括：判斷該第一記憶體是否已存滿該聲音資料，並在存滿該聲音資料時繼續進行下一步驟。
如請求項1所述之動態語音辨識方法，其中在執行該第一階段中，在選擇性決定執行該第二階段或該第三階段之步驟後，更包括：該第一處理電路喚醒該第二處理電路。
如請求項1所述之動態語音辨識方法，其中在該第一處理電路輸出該第一指令或該第二指令時，該第一處理電路喚醒該第二處理電路。
一種動態語音辨識裝置，包含：一數位麥克風，用以偵測一聲音資料；一第一記憶體，電性連接該數位麥克風，用以儲存該聲音資料；一語音活動偵測電路，電性連接該數位麥克風，用以偵測該聲音資料並產生一人聲偵測訊號；一記憶體存取電路，電性連接該第一記憶體，該記憶體存取電路轉移該聲音資料至一第二記憶體，以儲存為一語音資料；一第一處理電路，電性連接該語音活動偵測電路；以及一第二處理電路，電性連接該第一處理電路、該第二記憶體及該記憶體存取電路；其中，該動態語音辨識裝置用以執行下列步驟：執行一第一階段：利用該數位麥克風偵測該聲音資料並儲存在該第一記憶體；該語音活動偵測電路於該聲音資料中偵測到人聲而產生該人聲偵測訊號；及藉由該第一處理電路根據一總有效資料量、該數位麥克風之傳輸位元速率及一辨識間隔時間，選擇性決定執行一第二階段或一第三階段，其中該總有效資料量小於該數位麥克風之該傳輸位元速率與該辨識間隔時間之乘積時，該第一處理電路決定執行該第二階段；以及該總有效資料量大於等於該數位麥克風之該傳輸位元速率與該辨識間隔時間之乘積時，該第一處理電路決定執行該第三階段；執行該第二階段：該第一處理電路輸出一第一指令至該第二處理電路，該第二處理電路根據該第一指令使該記憶體存取電路轉移該聲音資料至該第二記憶體並儲存為該語音資料；以及執行該第三階段：該第一處理電路輸出一第二指令至該第二處理電路，該第二處理電路根據該第二指令使該記憶體存取電路轉移該聲音資料至該第二記憶體並儲存為該語音資料，且該第二處理電路確認該第二記憶體中的該語音資料是否匹配一預設語音指令。