TWI637321B

TWI637321B - 用於音訊處理之方法、積體電路及系統

Info

Publication number: TWI637321B
Application number: TW105100590A
Authority: TW
Inventors: 馬努古拉堤; 吉爾伯特Ｈ赫貝克; 艾利克希Ｅ柯塞特; 吉洛特Ｗ瓊斯; 提摩西Ｊ麥利特
Original assignee: 美商蘋果公司
Priority date: 2015-02-12
Filing date: 2016-01-08
Publication date: 2018-10-01
Also published as: CN107210037B; US9653079B2; CN107210037A; EP3257045A4; TW201638776A; US20160240193A1; JP6401870B2; EP3257045B1; US20170213557A1; KR20170107492A; US9928838B2; EP3257045A1; KR101994569B1; JP2018513397A; WO2016130212A1

Abstract

在一實施例中，一系統單晶片(SOC)可包括一或多個中央處理單元(CPU)、一記憶體控制器及經組態以當該SOC之其餘部分電力切斷時保持通電的一電路。該電路可經組態以接收音訊樣本，且使彼等音訊樣本與一預定型樣匹配。在該SOC之其餘部分電力切斷的時間期間，該電路可根據一第一時脈操作。回應於在該等樣本中偵測到該預定型樣，該電路可使得該記憶體控制器及該等處理器電力開啟。在該電力開啟過程期間，相較於該第一時脈具有一或多個較佳特性的一第二時脈可變得可用。該電路可切換至該第二時脈，同時保留該等樣本或損失至多一個樣本或不超過臨限數目個樣本。

Description

用於音訊處理之方法、積體電路及系統

本文所揭示之實施例係關於行動裝置之領域，且更特定言之，係關於行動裝置之語音/音訊控制。

行動裝置已變得普遍存在。行動裝置可包括經設計以靠攜帶型電源(例如，電池)操作且易於由使用者攜帶的任何電子裝置。行動裝置可包括蜂巢式電話、「智慧型」電話、諸如iTouch^TM之個人數位助理(PDA)、諸如iPod^TM及MP3播放機之娛樂裝置、膝上型電腦、桌上型易網電腦(net top computer)、諸如iPad^TM及基於Windows®的平板電腦之平板裝置等。此等裝置中之大部分包括無線連接性(例如，WiFi、小區連接等)，且因此除提供可直接執行於該裝置上的各種本端應用程式之外，亦可用作資訊源。

可經由使用者介面(諸如觸控式螢幕、為裝置之部分或連接至裝置的鍵盤、各種指標裝置(例如，滑鼠、觸控板等)等)而控制行動裝置。最近，語音控制已開始變得愈加常見。舉例而言，Apple的i-裝置(iPhone^TM、iPad^TM等)中之一些已經由Siri^TM應用程式採用語音控制。使用者可拿起裝置，按住按鈕不放且等待Siri^TM回應。當Siri^TM回應時，使用者可口頭地詢問問題或提供命令，Siri^TM將解釋該問題且試圖滿足該命令。按住按鈕直至Siri^TM回應之動作用以喚醒裝置(若其處於閒置狀態下)、初始化作業系統且啟動Siri^TM應用程式以使得其準備好接受輸入。

當裝置閒置時，一些行動裝置已開始實施受限語音命令啟動功能。若裝置對使用者呈現為「關閉」(即使使用者因為裝置可接受電子通信(諸如電子郵件、電話呼叫或本文訊息)而知曉該裝置開啟)，則該裝置可為閒置的。閒置裝置一般並不開啟顯示螢幕，且可使多數內部組件電力切斷，且為了裝置充分行使功能需要將其初始化。在具有受限語音命令啟動功能之行動裝置中，使用者可說出關鍵字或片語以使得裝置「開啟」且接受進一步語音控制。舉例而言，用於Android智慧型電話之一個此類片語為「hey google now」。

在受限命令啟動之情況下，使用者在說出關鍵片語後必須暫停且等待該裝置準備好接受進一步輸入的視覺及/或音訊指示。儘管裝置閒置，但該裝置開啟麥克風且藉由離散數位信號處理器(DSP)收聽關鍵字/片語。一旦已辨識出關鍵字/片語，DSP即可用信號通知裝置之其餘部分初始化(或啟動)，且接著在就緒時回應於使用者。在說出關鍵字/片語與接著所要問題/命令之間的延遲使得介面不便利。因此，如上文所描述經由拿起裝置及按壓/按住按鈕之受限命令啟動僅為小的改良。

在一實施例中，一積體電路(例如，一系統單晶片或SOC)可包括一或多個中央處理單元(CPU)、一記憶體控制器及經組態以當該SOC之其餘部分電力切斷時保持通電的一電路。該電路可經組態以接收對應於藉由一麥克風所感測到之聲音的音訊樣本，且進一步經組態以使彼等音訊樣本與一預定型樣匹配以偵測來自包括該SOC之裝置之一使用者的可能命令。舉例而言，該預定型樣可表示該使用者之說出一關鍵字或片語之語音。在該SOC之其餘部分電力切斷的時間期間，該電路可根據一第一時脈操作。該第一時脈可為一低功率時脈，且可具有相較於其他時脈(例如，高相位雜訊、不大對稱之工作循環、高抖動等)為較低功率及較低效能的各種特性。回應於在該等樣本中偵測到該預定型樣，該電路可使得該記憶體控制器及該等處理器電力開啟，以使得可將音訊樣本儲存於該記憶體控制器耦接至且由該等處理器處理的記憶體中。在該電力開啟過程期間，相較於該第一時脈具有一或多個較佳特性的一第二時脈可變得可用。該電路可切換至該第二時脈，同時保留該等樣本。在一實施例中，該電路可能損失或損毀少於臨限數目個樣本。該臨限數目個樣本可能足夠小，使得在系統中所實施之話音辨識能夠準確地辨識由使用者說出的片語。舉例而言，可能丟失/損毀多至4個或5個樣本而仍准許正確辨識。在一實施例中，可能丟失至多一個樣本，因此符合該臨限值。在另一實施例中，可能不丟失樣本。

5‧‧‧裝置

10‧‧‧系統單晶片(SOC)

12‧‧‧記憶體

14‧‧‧中央處理單元(CPU)複合體

16‧‧‧音訊編解碼器

18A‧‧‧周邊組件

18B‧‧‧周邊組件

20‧‧‧電力管理單元(PMU)

22‧‧‧記憶體控制器(MC)

24‧‧‧音訊濾波器電路

26A‧‧‧麥克風

26B‧‧‧麥克風

26C‧‧‧揚聲器

26D‧‧‧揚聲器

27‧‧‧通信網狀架構

28‧‧‧電力管理器電路(PMGR)

30‧‧‧樣本緩衝器

34A‧‧‧參數

34B‧‧‧參數

36‧‧‧振盪器

38‧‧‧鎖相迴路(PLL)

40‧‧‧區塊

42‧‧‧區塊

44‧‧‧區塊

46‧‧‧區塊

48‧‧‧區塊

50‧‧‧區塊

52‧‧‧區塊

54‧‧‧區塊

56‧‧‧虛線

60‧‧‧控制電路

62‧‧‧多工器(mux)

64‧‧‧區塊

66‧‧‧區塊

68‧‧‧區塊

70‧‧‧關鍵片語

82‧‧‧樣本

84‧‧‧樣本

以下詳細描述參看現簡要描述之附圖。

圖1為裝置之一個實施例的方塊圖。

圖2為說明圖1中所展示之音訊濾波器電路的一個實施例之操作的流程圖。

圖3為說明根據一個實施例之針對音訊濾波器電路之時脈選擇的方塊圖。

圖4為說明圖3中所展示之控制電路之一個實施例之操作的流程圖。

圖5為儲存於記憶體12中的片語之一個實施例的方塊圖。

圖6為說明圖1中所展示之裝置的一個實施例之操作的時序圖。

儘管本發明中所描述之實施例可容易具有各種修改及替代形式，但其特定實施例在圖中藉由實例來展示且將在本文中詳細描述。然而，應理解，該等圖式及對其之詳細描述並非意欲將實施例限於所揭示之特定形式，而正相反，本發明意欲涵蓋屬於隨附申請專利範圍之精神及範疇內的所有修改、等效物及替代物。本文中所使用之標題僅為達成組織性目的，且不意欲用以限制該描述之範疇。如本申請案全篇中所使用，詞「可」係在允許意義(亦即，意謂有可能)而非強制意義(亦即，意謂必須)上使用。類似地，詞「包括」意謂包括(但不限於)。

可將各單元、電路或其他組件描述為「經組態以」執行一或多個任務。在此等上下文中，「經組態以」為一般意謂「具有電路，該電路」在操作期間執行該或該等任務的結構之寬泛敍述。因而，單元/電路/組件可經組態以執行任務，即使該單元/電路/組件當前未接通時亦如此。大體而言，形成對應於「經組態以」之結構的電路可包括硬體電路及/或儲存可執行以實施操作之程式指令的記憶體。記憶體可包括揮發性記憶體(諸如靜態或動態隨機存取記憶體)及/或非揮發性記憶體(諸如光碟或磁碟儲存器、快閃記憶體、可程式化唯讀記憶體等)。類似地，為了描述之方便起見，可將各種單元/電路/組件描述為執行一或多個任務。此等描述應解釋為包括片語「經組態以」。敍述經組態以執行一或多個任務之單元/電路/組件明確地意欲不援引35U.S.C.§ 112(f)之對彼單元/電路/組件之解釋。

本說明書包括對「一個實施例」或「一實施例」之引用。片語「在一個實施例中」或「在一實施例中」之出現未必指代同一實施例，但大體上涵蓋包括特徵之任何組合的實施例，除非本文中明確地否認。可以與本發明一致之任何適合方式來組合特定特徵、結構或特性。

現轉至圖1，展示裝置5之一個實施例的方塊圖。在所說明之實施例中，裝置5可包括積體電路(IC)10，在此實例中，積體電路(IC) 10可為SOC。SOC 10可耦接至記憶體12、外部音訊編碼器/解碼器(編解碼器)16及電力管理單元(PMU)20。音訊編解碼器16可耦接至一或多個音訊感測器(統稱為感測器26)。舉例而言，音訊編解碼器16可耦接至一或多個麥克風(mic)26A至26B及一或多個揚聲器(spkr)26C至26D。

顧名思義，SOC 10之組件可整合至單個半導體基板上而作為積體電路「晶片」。在一些實施例中，可將諸組件實施於系統中之兩個或兩個以上離散晶片上。另外，各組件可整合至任何積體電路上(亦即，其不必為SOC)。然而，將在本文中使用SOC 10作為實例。在所說明之實施例中，SOC 10之組件包括中央處理單元(CPU)複合體14、周邊組件(peripheral component)18A至18B(更簡要地，「周邊組件」(peripheral))、記憶體控制器22、音訊濾波器電路24、電力管理器電路(PMGR)28、晶片上振盪器36、鎖相迴路(PLL)38及通信網狀架構27。組件14、18A至18B、22、24及28可全部耦接至通信網狀架構27。記憶體控制器22在使用期間可耦接至記憶體12。類似地，周邊組件18A可為在使用期間耦接至音訊編解碼器16的介面單元(IFU)，音訊編解碼器16在使用期間進一步耦接至音訊感測器26。IFU 18A進一步耦接至音訊濾波器電路24。振盪器36及PLL 38耦接至音訊濾波器電路24，且PLL 38亦可耦接至SOC 10之剩餘部分。

裝置5可為任何類型之攜帶型電子裝置，諸如行動電話、智慧型電話、PDA、膝上型電腦、桌上型易網電腦、平板裝置、娛樂裝置等。在一些實施例中，裝置5亦可為諸如桌上型電腦之非攜帶型電子裝置。此類非攜帶型裝置亦可得益於本文所描述之音訊裝置控制特徵。

在裝置5閒置之時間期間，可使SOC 10之部分電力切斷。特定言之，可使CPU複合體14、記憶體控制器22、周邊組件18B、互連件 27、PLL 38及PMGR 28之部分電力切斷。另一方面，若裝置5閒置但未完全電力切斷，則音訊濾波器電路24可保持供電，如IFU 18A及振盪器36所可能之情況。當裝置5閒置時，可按需要使SOC 10外部之組件電力開啟或電力切斷。特定言之，記憶體12可保持供電，且因此能夠保留儲存於其中之資料。在記憶體12為各種類型中之一種DRAM的實施例中，可將記憶體12置於自再新模式以在裝置5閒置的時間期間保留所儲存的資料。

在所說明之實施例中，PLL 38及振盪器36可各自為時脈源，從而為SOC 10中之數位邏輯提供時脈。當使除音訊濾波器電路24、IFU 18A及振盪器38以外之SOC 10的部分通電時，PLL 38在操作期間可為時脈源。PLL 38可將高效能、高品質時脈提供至音訊濾波器電路24。PLL 38亦可將高效能、高品質時脈提供至SOC 10之其他部分。可提供一或多個時脈，且在一些情況下，提供至SOC 10中之不同組件的時脈可具有不同頻率。PLL 38因此可為多個PLL；或各種時脈除法器/乘法器可用於自PLL產生時脈，或可使用PLL與時脈除法器/乘法器之任何組合。另一方面，在SOC 10之部分電力切斷的閒置時間期間，振盪器36可將低功率時脈提供至音訊濾波器電路24。振盪器36可為相對簡單、低功率之電路，諸如環振盪器。在閒置之時間期間可對振盪器36供電，且亦時常使SOC 10之其他組件電力開啟，或當使其他組件電力開啟時可使振盪器36斷電(此係因為PLL 38在此等時間期間可能正在提供時脈)。

大體而言，可基於時脈至理想時脈的接近程度而將該時脈視為較高或較低之品質或效能。理想時脈可能為具有固定頻率及50%工作循環的方波。固定頻率可為可選擇的，但其在雜訊、溫度、電壓變動等方面可不變。換言之，頻率可為特定的，且上升及下降邊緣在時脈循環之間可不變。真實時脈與理想時脈相差不同程度，且相較於較低品質時脈，較高品質/效能時脈可與理想時脈相差較小量。

時脈之各種特性可指示其品質或效能。舉例而言，時脈之相位雜訊可為一特性。相位雜訊可為時脈之相位中之快速、短期、隨機波動的頻域表示。若具有大量相位雜訊之時脈被用於操作類比轉數位轉換器或數位轉類比轉換器，則可能使轉換器之音訊效能降級。來自PLL 38之時脈可相較於來自振盪器36之時脈具有較低相位雜訊。時脈的頻率之長期平均值的準確度(例如相比於國際時間標準)可為時脈之品質/效能的特性，此係因為不準確的頻率可導致音高之意外偏移。來自PLL 38之時脈可相較於來自振盪器36之時脈具有較佳頻率準確度。時脈之週期抖動可為該時脈之品質/效能的特性，此係因為在SOC 10之數位邏輯設計中，高週期抖動自時脈循環之有用部分減損。因此，低週期抖動可為高品質/效能時脈特性。來自PLL 38之時脈可相較於來自振盪器36之時脈具有較低週期抖動。時脈之工作循環可為時脈之品質/效能的特性。對稱工作循環(50%高，50%低)對於可包括繫結至時脈之一個或另一過渡之電路的設計可為較佳工作循環。因此，接近50%之工作循環可為高品質特性，此係因為時脈之高相位及低相位可在50%處平衡。來自PLL 38之時脈的工作循環可相較於來自振盪器36之時脈的工作循環更接近50%。

在閒置之時間期間，音訊濾波器電路24可經組態以經由IFU 18A自音訊編解碼器16接收音訊樣本，且可試圖在該等樣本中偵測預定型樣(例如，喚醒裝置5以服務由使用者說出之命令或請求的關鍵字/片語)。可將該預定型樣程式化至音訊濾波器電路24中，或可在音訊濾波器電路24中對其進行硬編碼。在一實施例中，可自使用者口頭地說出關鍵字/片語、就使用者之特定語音對裝置5進行訓練而擷取預定型樣。在另一實施例中，預定型樣為表示以多種語調變化、音調等說出的關鍵字/片語的通用型樣。可藉由來自振蕩器36的低功率時脈來執行關鍵片語之偵測。

回應於偵測到型樣，音訊濾波器24可經組態以使得記憶體控制器電力開啟且初始化(以使得可將匹配樣本及隨後樣本儲存於記憶體中)，且亦可經組態以使得CPU複合體14電力開啟以啟動作業系統(且取決於實施，可能啟動SOC 10之其他部分)。在一實施例中，記憶體控制器22可相對快速地電力開啟。PLL 38可鎖定，且記憶體控制器22可初始化，伴隨有短於作業系統之啟動的相當可預測之延遲。亦可使互連件27電力開啟，以使得音訊濾波器電路24可傳輸下文提及之參數及寫入記憶體操作以將樣本寫入至記憶體12。音訊濾波器電路24可包括樣本緩衝器30，且音訊濾波器電路24可經組態以暫時將樣本緩衝於樣本緩衝器30中用於與預定型樣比較，且一旦偵測到型樣，即進一步緩衝樣本，直至記憶體控制器22準備好接收對記憶體12之寫入。因此，樣本緩衝器30之大小可基於自偵測到型樣直至記憶體控制器22就緒之延遲。在一些實施例中，可將樣本緩衝器30設定大小以准許緩衝匹配預定型樣之樣本、基於延遲隨後所接收樣本(直至記憶體控制器就緒)，及在匹配預定型樣(亦即，關鍵字/片語/聲音)之樣本之前的一或多個樣本。可處理先前樣本以判定背景雜訊由麥克風擷取，此可輔助後續樣本之較準確處理。

一旦使PLL 38電力開啟且將其鎖定，音訊濾波器電路24可自來自振盪器36之低功率時脈切換至來自PLL 38之高效能、高品質時脈。該切換可無頻率突變，且可經由高品質時脈之少數(例如3個或更少)時脈循環出現。切換之時間段可比音訊樣本之樣本時間小得多。因此，在切換期間可能至多丟失一個音訊樣本(且丟失之機率可能低)。若一音訊樣本未包括於樣本中，則其可能丟失。亦可能損毀音訊樣本(亦即，該音訊樣本包括於樣本中但並非準確樣本)。在切換期間至多可損毀臨限數目個樣本。在一實施例中，可能丟失至多一個樣本。或者，音訊濾波器電路24可經組態以確保切換在不接近新樣本到達之時間產生，因此確保無樣本丟失。以高效能、高品質時脈進行操作可准許對音訊濾波器電路24中之樣本的額外處理，以及樣本至記憶體12之高頻寬傳輸等。

在一些實施例中，記憶體控制器22可支援進階DRAM技術，該等進階DRAM技術涉及訓練記憶體控制器22及記憶體12恰當地在其間的連結上同步。可直接由硬體經由訓練或由軟體將記憶體控制器22組態之參數程式化至記憶體控制器22中(參考數字34A)。為了更快速地將記憶體控制器22恢復至自音訊濾波器電路24操作，音訊濾波器電路24可遮蔽(shadow)參數(參考數字34B)。或者，參數34B可為已知用於跨越DRAM的所有版本及裝置10中之所有操作條件而適當起作用之一組保守參數。音訊濾波器電路24可將參數34B傳送至記憶體控制器22,以確保記憶體控制器準備寫入記憶體12。

CPU可開始作業系統之執行，且可判定SOC 10重新啟動之原因為音訊濾波器24偵測到關鍵字/片語。CPU可自記憶體12讀取樣本，且可驗證確實偵測到關鍵字/片語。舉例而言，在一些實施例中，音訊濾波器24可使用相較於可由CPU執行之程式碼支援的匹配程序更簡單且更粗粒度(更不準確)的匹配程序。CPU可驗證偵測到程式碼，且可繼續處理所接收音訊樣本之其餘部分，以判定在關鍵字/片語後說出之命令/請求。即使使用低功率時脈及高效能時脈接收樣本，亦可將所偵測到之樣本處理為樣本之連續串流用於藉由CPU處理。

在另一實施例中，可不與記憶體控制器22並行地喚醒CPU複合體14。舉例而言，在一些實施例中，音訊濾波器電路24可經組態以執行後續樣本之處理(但可使記憶體控制器22電力開啟以利用記憶體12中之空間來儲存樣本)。在另一實施例中，當裝置5閒置時，音訊濾波器電路24亦可經組態以執行其他操作，且音訊濾波器電路24可使用記憶體12用於儲存操作中之一些。在此等實施例中，可使記憶體控制器22電力開啟而不使CPU複合體14電力開啟。

使SOC 10之各組件電力開啟可包括與PMU 20通信。在一實施例中，音訊濾波器電路24可經組態以與PMU 20通信以使得其他SOC電路區段之電力開啟。或者，可實施晶片上功率閘控以使SOC 10之各組件電力開啟/電力切斷。內部PMGR 28可經組態以實施晶片上功率閘控，且音訊濾波器電路24可經組態以與PMGR 28通信以引起電力開啟。在其他實施例中，可使用PMGR 28與PMU 20之組合。在又一實施例中，PMGR 28可經組態以與PMU 20通信，且音訊濾波器電路24可將電力開啟請求傳達至PMGR 28，PMGR 28可視需要與PMU 20通信。

在樣本緩衝器30與記憶體12之間，在來自麥克風26A至26B之音訊資料中可能幾乎不存在樣本丟失。因此，使用者可說出關鍵字/片語且繼續而無需任何所需暫停來說出請求/命令。

在各種實施例中，音訊濾波器電路24可包括固定硬體及/或執行軟體之一個或多個處理器的任何組合。軟體可為包括於音訊濾波器電路24中(例如，儲存於音訊濾波器電路24中之非揮發性記憶體中)的韌體。或者，韌體可包括於裝置5中之其他非揮發性儲存器中，以可存取用於執行。若使用固定硬體實施，則樣本型樣仍可程式化為至固定硬體之輸入。此類可程式化性可允許對於待支援之多種語言使用不同關鍵字/片語/聲音，等。相較於執行軟體之處理器可提供之解決方案，實施固定硬體音訊濾波器電路24可為監視音訊樣本提供更具功率效益之解決方案。

應注意，儘管此處之描述可指可用以啟動命令模式之關鍵字或片語，但大體而言，在各種實施例中可使用任何聲音(例如，口哨、拍掌、非言語經口所產生之聲音等)。

如本文所使用，術語「電力開啟」可指將電力施加至當前電力切斷(或斷電)之電路。在一些實施例中，給定電路可支援一個以上功率狀態(例如，電壓與頻率組合)。電力開啟可指建立由電路支援的功率狀態中之任一者。電力開啟亦可稱作通電。術語「電力切斷」或「斷電」可指將電源電壓量值減小至零伏(相對於接地)。

音訊編解碼器16可為音訊資料之通用編碼器/解碼器。編解碼器可包括類比轉數位轉換器，該等類比轉數位轉換器經組態以將自麥克風26A至26B所接收之信號轉換成可傳輸至SOC 10的數位樣本。編解碼器可包括數位轉類比轉換器，該等數位轉類比轉換器經組態以自SOC 10接收數位音訊資料且將該等數位音訊資料轉換成待在揚聲器上播放的類比信號。在一實施例中，音訊編解碼器16可支援可在裝置5閒置之時間期間使用的一或多個低功率模式。舉例而言，音訊編解碼器16可減小接通(或「開啟」)之麥克風的數目，且可關斷揚聲器。在一些實施例中，在低功率模式中可減小音訊取樣率。

CPU複合體14可包括充當SOC 10之CPU的一或多個處理器。系統之CPU包括執行系統之主要控制軟體(諸如作業系統)之處理器。大體而言，在使用期間由CPU執行之軟體可控制裝置5/SOC 10之其他組件，以實現裝置5之所要功能性。CPU處理器亦可執行其他軟體，諸如應用程式。應用程式可提供使用者功能性，且可依賴於作業系統用於較低層級裝置控制。因此，CPU處理器亦可稱作應用程式處理器。CPU複合體可進一步包括其他硬體，諸如第2層級(L2)快取記憶體及/或至系統之其他組件的介面(例如，至通信網狀架構27之介面)。

周邊組件18A至18B可為包括於SOC 10中之額外硬體功能性的任何集合。更特定言之，周邊組件18A可為經組態以耦接至音訊編解碼器16的介面單元。可使用任何介面(例如，串列周邊介面(SPI)、串列埠或並列埠、用於音訊編解碼器16之專屬介面等)。周邊組件18B可包括視訊周邊組件，諸如視訊編碼器/解碼器、按比例調整器、旋轉器、摻合器、圖形處理單元、顯示器控制器等。周邊組件可包括用於SOC 10外部之各介面的介面控制器，該等介面包括諸如通用串列匯流排(USB)之介面、包括PCI Express(PCIe)之周邊組件互連(PCI)、串列埠及並列埠等。周邊組件可包括網路連接周邊組件，諸如媒體存取控制器(MAC)。可包括任何硬體集合。

記憶體控制器22可通常包括用於自SOC 10之其他組件接收記憶體請求及用於存取記憶體12以完成記憶體請求的電路。記憶體控制器22可經組態以存取任何類型之記憶體12。舉例而言，記憶體12可為靜態隨機存取記憶體(SRAM)、動態RAM(DRAM)(諸如同步DRAM(SDRAM)，包括雙資料速率(DDR、DDR2、DDR3等)DRAM)。可支援DDR DRAM之低功率/行動版本(例如，LPDDR、mDDR等)。在一些實施例中，可將記憶體12獨立於SOC 10進行封裝(例如，封裝於單列直插式記憶體模組(SIMM)、雙列直插式記憶體模組(DIMM)或安裝至安裝SOC 10至之電路板的一或多個DRAM晶片中)。在其他實施例中，記憶體12可與SOC 10封裝在一起(例如，以疊層封裝或疊層晶片組態)。

通信網狀架構27可為用於在SOC 10之組件之間通信的任何通信互連件及協定。通信網狀架構27可基於匯流排，包括共用匯流排組態、橫桿式組態及具有橋接器之階層式匯流排。通信網狀架構27亦可基於封包，且可為階層式(與橋接器)、橫桿式、點對點或其他互連件。

如上所述，電力管理器28可管理SOC 10內的內部電力定序。電力管理器28可經組態以在SOC 10內之各組件中建立各種功率/效能狀態，以平衡裝置5中之計算需求及功率消耗。電力管理器28可程式化有所要功率/效能狀態，且可基於經程式化狀態管理各組件之通電/斷電及時脈頻率設定。

PMU 20可通常負責將電力供應至裝置5之組件，包括SOC 10、音訊編解碼器16、周邊組件26A至26D及記憶體12。PMU 20可經耦接以自組件中之至少一些(例如SOC 10)接收電壓量值請求，且可包括經組態以供應所請求之電壓的電壓調節器。SOC 10可接收多個電壓(例如，用於CPU複合體14之CPU電壓、用於SOC 10中之諸如快取記憶體之記憶體陣列的記憶體電壓、用於SOC之其他組件的一或多個SOC電壓等)。

麥克風26A至26B可為能夠接收聲音且提供表示所接收聲音之輸出信號的任何裝置。在某些情況下，可能需要一個以上麥克風。舉例而言，在具有視訊能力之智慧型電話中，可能需要當使用者在進行語音通話時在其口部附近包括麥克風，且在接近視訊攝影機處包括一個麥克風以用於自所拍攝之主體擷取聲音。任意數目個麥克風可包括於各種實施例中，且當裝置5閒置時，任意數目個所包括的麥克風可接通。

揚聲器26C至26D可為能夠接收輸入信號且產生由該信號表示之聲音的任何裝置。在一些情況下，可能需要一個以上揚聲器。舉例而言，多個揚聲器可准許立體聲類型聲音效果，且多個揚聲器可准許基於裝置之定向而最佳化聲音產生。任意數目個揚聲器可包括於各種實施例中。

應注意，SOC 10之組件的數目(及用於圖1中所展示之彼等組件之子組件的數目(諸如在CPU複合體14內))可在實施例間變化。相較於圖1中所展示之數目，可能存在較多或較少之每一組件/子組件。類似地，在SOC 10外部但在裝置5中之組件的類型及數目可變化，且可包括圖1中未展示之其他組件(例如，用於為使用者提供視覺介面的顯示器，該顯示器可為觸控顯示器、網路連接組件、天線、諸如wifi之射頻組件或蜂巢式電話組件等)。

接下來轉至圖2，展示流程圖，其說明在使SOC 10(或至少CPU複合體14及記憶體控制器22)電力切斷以省電的時間期間(例如，當裝置5閒置時)音訊濾波器電路24及裝置5之某些其他部分之一個實施例的操作。儘管為易於理解起見以特定次序展示諸區塊，但可使用其他次序。可由音訊濾波器電路24中之組合性邏輯電路並行地執行若干區塊(包括圖2中明確並行展示之區塊，及可能的其他區塊)。區塊、區塊之組合及/或流程圖整體可遍及多個時脈循環而為管線式。在一些實施例中，可藉由執行軟體之處理器實施區塊，或該等區塊可為固定硬體或其任何組合。音訊濾波器電路24可經組態以實施圖2中所展示之操作。

音訊濾波器電路24可將一或多個音訊樣本自音訊編解碼器16接收至樣本緩衝器30中(區塊40)，且可比較樣本與用作關鍵字/片語/聲音以啟動裝置5中之語音命令模式的預定型樣(區塊42)。若不存在匹配(決策區塊44，「否」支路)，則音訊濾波器電路24可繼續將樣本接收至樣本緩衝器30中且比較該等樣本。一旦樣本緩衝器30充滿，樣本緩衝器30即可將最舊樣本覆寫為新樣本。亦即，具有N個樣本項(其中N為正整數)的樣本緩衝器30在任何給定時間點處可具有最新的N個樣本。

回應於偵測到匹配(決策區塊44，「是」支路)，音訊濾波器電路24可經組態以請求使CPU複合體14及記憶體控制器22電力開啟(區塊46)。取決於實施，可將該請求傳輸至PMU 20、PMGR 28或兩者之組合。如先前所提及，在其他實施例中，僅可對記憶體控制器22電力開啟。或者，可首先使記憶體控制器22電力開啟，且可隨後使CPU複合體14電力開啟。在與CPU複合體14並行地使記憶體控制器22(及網狀架構27)電力開啟在電力開啟期間可能具有超出可允許電流量的可能性(所謂的「湧入電流」)之情況下，可使用此類錯開式電力開啟。

可使記憶體控制器22電力開啟，且可將來自音訊濾波器電路24之記憶體控制器參數34B恢復成記憶體控制器22中之參數34A(區塊48)。若參數34B為在記憶體控制器22中正使用(在使記憶體控制器22電力切斷之前)之最新參數34A的遮蔽，則可「恢復」參數。如上所述，在另一些實施例中，參數34B可為將成功地准許對記憶體12之存取的一組「已知良好」保守參數，但為了最大效能可不加以最佳化。在此情況下，「恢復」參數可指將保守參數34B建立為參數34A。隨後，記憶體控制器22可經訓練以適應記憶體12，且可修改參數。在一實施例中，音訊濾波器電路24可經由記憶體控制器22將來自樣本緩衝器30之匹配樣本及後續樣本寫入至記憶體12，且可繼續寫入該等樣本直至由CPU複合體14終止操作(區塊50)。

另外，在電力開啟且重設之後，CPU複合體14中之處理器可啟動作業系統(區塊52)。在CPU複合體14上執行之作業系統可處理儲存於記憶體12中之樣本，以驗證確實偵測到關鍵字/片語/聲音且判定使用者之請求為何請求。裝置5可試圖執行命令/請求(區塊54)。

啟動作業系統可包括測試及程式化SOC 10之各組件，且相比於使記憶體控制器22電力開啟及恢復可為耗時任務。作業系統可經設計以檢查啟動之原因是否係歸因於在啟動程序中很早檢測到關鍵字/片語/聲音，且可至少處理表示關鍵字/片語/聲音之樣本以驗證該檢測。若作業系統判定音訊濾波器電路24之檢測為假，則作業系統可停止啟動程序，且使裝置5返回至閒置狀態(使CPU複合體14及記憶體控制器22斷電)。

可由以低功率時脈(高於圖2中之水平虛線56)操作的音訊濾波器電路執行流程圖之一部分，且可以高品質時脈執行其餘部分(低於虛線56)。一旦高品質時脈變得可用(例如，PLL 38已鎖定、頻率穩定等)，自低功率時脈至高品質時脈之實際過渡即可能出現。因此，舉例而言，該實際過渡可能出現於處理器重設(區塊52)及恢復記憶體參數(區塊48)的過程中。

圖3為說明振盪器36、PLL 38、多工器(mux)62及控制電路60之方塊圖。多工器62耦接至PLL 38及振盪器36之時脈輸出，且具有耦接至濾波器時脈(用於濾波器電路24之時脈)的輸出。控制電路耦接至用於多工器62之多工器選擇控制，且耦接至來自PLL 38之時脈就緒(Clk_Rdy)輸出。

控制電路60及多工器62可在PLL時脈與振盪器時脈之間在任一方向上無頻率突變地過渡。在PLL時脈再次變得可用之情況下，控制電路60可接收Clk_Rdy信號之確證，指示PLL已鎖定且藉由PLL 38之高品質時脈輸出係穩定的。控制電路60可經組態以確保兩時脈皆低，且接著可經組態以將選擇控制自振盪器36切換至PLL 38。高品質時脈之下一上升邊緣可出現，且隨後濾波器時脈可跟在高品質時脈之後。

以上操作在圖4之流程圖中加以說明。儘管為易於理解起見以特定次序展示諸區塊，但可使用其他次序。可在控制電路60中之組合性邏輯電路中並行地執行諸區塊。區塊、區塊之組合及/或流程圖整體可遍及多個時脈循環而為管線式。控制電路60可經組態以實施圖4中所展示之操作。若自PLL 38接收到時脈就緒確證(決策區塊64，「是」支路)，且來自振盪器電路36之振盪器時脈及來自PLL 38之PLL時脈兩者皆低(決策區塊66，「是」支路)，則控制電路60可經組態以經由多工器62選擇PLL時脈(高品質時脈)(區塊68)。

圖5為說明在已將由音訊濾波器電路擷取之音訊樣本寫入至記憶體12之後的記憶體之方塊圖。如在圖5中所說明，樣本包括形成「hey siri」關鍵片語(或若尚未完成驗證，則稱為關鍵片語)的樣本82以及形成片語之其餘部分的樣本84。如由樣本上方之大括號說明，可藉由低功率時脈擷取樣本82及初始樣本84(在高品質時脈可用之前擷取)中之一或多者，且可藉由高品質時脈擷取剩餘之樣本84。如由樣本82及84下方之大括號所說明，即使使用不同時脈擷取樣本，CPU亦可將樣本82與樣本84之組合作為整體加以處理(亦即，作為單一連續片語)。

現轉至圖6，展示說明裝置5的一個實施例之操作的時序圖。在圖6中，時間自左至右增大。在時序圖之開始處，在左邊，裝置5可閒置，且因此音訊濾波器電路24可能正監視音訊樣本。可使SOC 10之其他部分(諸如記憶體控制器22及CPU複合體14)斷電。"可藉由使用者說出橫跨該時序圖頂部之句子，且在此實例中，關鍵片語可為「Hey Siri」。然而，在各種實施例中可使用任何關鍵字/片語。

當回應於麥克風而產生之音訊樣本由音訊濾波器電路24處理時，音訊濾波器電路24可偵測關鍵片語(參考數字70)。回應於該偵測，音訊濾波器電路24可請求對記憶體控制器22及CPU複合體14電力開啟(參考數字72及74)。音訊濾波器電路24可自參數34B恢復記憶體控制器22，以使得記憶體控制器22可變得可用以接受寫入操作。隨後，音訊濾波器電路24可將匹配型樣及後續樣本之音訊樣本(表示「where is the closest pizza restaurant？」)寫入至記憶體(參考數字76)。

同時，CPU可使作業系統電力開啟、重設作業系統且啟動作業系統(參考編號74及參考編號78)。如在圖6中所說明，至音訊樣本處理可開始(參考數字80)之時刻，作業系統之啟動可相較於記憶體控制器22之恢復耗費更長時間。若作業系統僅在啟動之後才擷取字詞，則將不擷取由記憶體控制器接收且擷取之樣本(例如，緊隨關鍵字之一或多個字詞)。因此，可擷取使用者之連續說話，且(對使用者)較自然之介面可能可用。如先前所提及，在一些實施例中，CPU可不與記憶體控制器22並行地電力開啟。

對於熟習此項技術者而言，一旦完全瞭解上述揭示內容，眾多變化及修改將變得顯而易見。意欲將以下申請專利範圍解釋為涵蓋所有此等變化及修改。

Claims

一種用於音訊處理之方法，其包含：在使一積體電路之一其餘部分電力切斷的一時間期間監視該積體電路中之一第一組件中的音訊樣本，其中該第一組件在該時間期間通電且根據一第一時脈操作；藉由該第一組件偵測該等音訊樣本中之一關鍵片語；回應於該偵測而使該積體電路之至少一部分電力開啟；判定在該積體電路內使用的一第二時脈可用，在該第一組件中切換至該第二時脈，同時確保在該切換期間丟失或損毀不超過臨限數目個音訊樣本，其中該第二時脈具有向該積體電路指示比該第一時脈之一對應特性較高之效能/品質的至少一特性；藉由根據該第一時脈操作的該第一組件擷取該等音訊樣本中之第一複數個音訊樣本；藉由根據該第二時脈操作的該第一組件擷取第二複數個音訊樣本；將該第一複數個音訊樣本及該第二複數個音訊樣本寫入至該積體電路耦接至的一記憶體；及將來自該記憶體的該第一複數個音訊樣本及該第二複數個音訊樣本處理為一單一片語(single phrase)。
如請求項1之方法，其中該至少一特性包括相位雜訊。
如請求項1之方法，其中該至少一特性包括頻率準確度。
如請求項1之方法，其中該至少一特性包括工作循環。
如請求項1之方法，其中該至少一特性包括週期抖動。
如請求項1之方法，其中該處理係藉由一處理器執行，該處理器為回應於偵測到該關鍵片語而電力開啟之該積體電路之該至少一部分的一部分。
如請求項6之方法，其中該電力開啟包含在該處理器上啟動一作業系統。
如請求項1之方法，其進一步包含在該積體電路中之一振盪器中產生該第一時脈。
如請求項8之方法，其進一步包含在該積體電路中之一鎖相迴路(PLL)中產生該第二時脈。
一種用於音訊處理之積體電路，其包含：一或多個處理器；及一第一組件，其耦接至該一或多個處理器，其中該第一組件經組態以：在使該一或多個處理器電力切斷的時間期間保持電力開啟；接收在該一或多個處理器電力切斷的一時間期間藉由一或多個音訊輸入裝置擷取的第一複數個音訊樣本，其中在該一或多個處理器電力切斷的該時間期間，該第一組件根據一第一時脈操作；偵測該第一複數個音訊樣本中之一預定型樣；使得該一或多個處理器回應於偵測到該預定型樣而電力開啟，其中一第二時脈回應於該電力開啟而啟動；及回應於該第二時脈變得可操作而切換至該第二時脈，而不遺漏超過臨限數目個音訊樣本；其中該第一組件包含一緩衝器，其經組態以儲存在該電力開啟期間及在該電力開啟之後所接收的該第一複數個音訊樣本及一第二複數個音訊樣本，其中該第一組件經組態以將該第一複數個音訊樣本及該第二複數個音訊樣本寫入至一記憶體，及將來自該記憶體的該第一複數個音訊樣本及該第二複數個音訊樣本處理為一單一片語。
如請求項10之積體電路，其中該預定型樣表示包含一或多個字詞之一口頭發音的聲音。
如請求項10之積體電路，其進一步包含耦接至該第一組件的一記憶體控制器，其中該第一組件經組態以將一或多個記憶體控制器參數提供至該記憶體控制器，以程式化該記憶體控制器回應於該電力開啟而操作。
如請求項10之積體電路，其中該第二時脈在使用期間相較於該第一時脈具有一較低相位雜訊。
如請求項10之積體電路，其中該第二時脈相較於該第一時脈更接近於一50%工作循環。
如請求項10之積體電路，其中該第二時脈之一週期抖動低於該第一時脈之該週期抖動。
如請求項10之積體電路，其中該第二時脈之一頻率準確度高於該第一時脈之該頻率準確度。
一種用於音訊處理之系統，其包含：一音訊輸入裝置；一音訊編碼器/解碼器(編解碼器)，其耦接至該音訊輸入裝置且經組態以自藉由該音訊輸入裝置偵測到的聲音產生音訊樣本；一記憶體；及如請求項10之該積體電路，其中該積體電路係耦接至該音訊編碼器/解碼器(編解碼器)及該記憶體。
如請求項17之系統，其中該積體電路包括作為該第一時脈之源的一晶片上振盪器及作為該第二時脈之源的一鎖相迴路。