TWI820333B

TWI820333B - 方法，電腦程式，編碼器和監控裝置

Info

Publication number: TWI820333B
Application number: TW109117613A
Authority: TW
Inventors: 瑪莎地傑拉西可; 馬克斯譚得佛; 馬克斯喬得; 星范; 里卡得汪德洛夫
Original assignee: 瑞典商安訊士有限公司
Priority date: 2019-06-10
Filing date: 2020-05-27
Publication date: 2023-11-01
Also published as: TW202105363A; CN112151043B; KR102433582B1; EP3751567A1; US20200388290A1; US11545160B2; CN112151043A; JP7125447B2; KR20200141379A; JP2021006898A; EP3751567B1

Abstract

本發明揭示一種用於使用可變位元速率編碼一音訊信號之方法、電腦程式產品、編碼器及監控裝置，其中：接收包括複數個連續音訊訊框之一音訊信號；及針對該音訊訊號之各連續音訊訊框：在相對於複數個頻率副頻帶之一頻域中表示該音訊訊框；在各頻率副頻帶中使用該頻率副頻帶特定之一背景模型將該音訊訊框分類為背景或前景；編碼該音訊信號之各連續音訊訊框，其中針對該音訊訊框之各頻率副頻帶分配數個位元，其中針對一頻率副頻帶分配之位元數目在將該音訊訊框在該頻率副頻帶中分類為前景之情況下比在將該音訊訊框在該頻率副頻帶中分類為背景之情況下更高。

Description

方法，電腦程式，編碼器和監控裝置

本發明大體上係關於音訊信號編碼且更具體言之，係關於可變位元速率音訊信號編碼。

一音訊編解碼器可數位地編碼音訊資料且壓縮所得位元串流使得其可經有效地儲存或傳輸。在儲存或傳輸之後，相同音訊編解碼器可用於解碼使得可重新產生音訊。一些音訊編解碼器使用一恆定位元速率(CBR) (例如，256 Kbps)壓縮音訊資料。其他音訊編解碼器支援使用一可變位元速率(VBR)壓縮音訊資料。使用VBR編碼，經編碼音訊資料之位元速率可動態地變動。例如，位元速率可取決於音訊資料含有多少離散頻率而改變，其中較少離散頻率需要比一複雜信號更少之位元。因此，位元速率可隨著時間(例如)在65 Kbps與320 Kbps之間變動。VBR編碼之一優點係其通常產生比CBR編碼更少之資料。因此，經儲存音訊資料之儲存空間要求可降低。以一類似方式，經傳送音訊資料之頻寬要求可降低。

然而，在音訊編碼之領域中存在改良之空間以進一步減小輸出資料之大小。

本發明之一目的係提供音訊資料之一經改良編碼。本發明之一進一步目的係降低經傳送音訊資料之頻寬要求及/或降低經儲存音訊資料之儲存空間要求。

本發明之此等及其他目的至少部分由如在獨立技術方案中定義之本發明滿足。在附屬技術方案中闡述較佳實施例。

根據本發明之一第一態樣，提供一種用於使用可變位元速率編碼一音訊信號之方法，該方法包括：接收待編碼之一音訊信號，該音訊信號包括複數個連續音訊訊框；針對該音訊信號之各連續音訊訊框：在相對於複數個頻率副頻帶之一頻域中表示該音訊訊框；在各頻率副頻帶中使用該頻率副頻帶特定之一背景模型將該音訊訊框分類為背景或前景；編碼該音訊信號之各連續音訊訊框，其中針對該音訊訊框之各頻率副頻帶分配數個位元，其中針對一頻率副頻帶分配之位元數目在將該音訊訊框在該頻率副頻帶中分類為前景之情況下比在將該音訊訊框在該頻率副頻帶中分類為背景之情況下更高。

應理解，音訊信號可係任何類型之音訊信號，其可(例如)係由一監控裝置(諸如一監視攝影機或一麥克風)記錄之一音訊信號。音訊信號之各連續音訊訊框可具有一持續時間，例如，20 ms、60 ms或150 ms。音訊訊框可未經壓縮或經壓縮。

亦應理解，音訊訊框可在一頻域中(例如)藉由執行一傅立葉(Fourier)變換而表示。此可(例如)使用快速傅立葉變換(FFT)或經修改離散餘弦變換(MDCT)完成。在頻域中，音訊訊框之一特定頻率副頻帶可(例如)將出現在該音訊訊框中該特定頻率副頻帶內之一聲音表示為數個頻率分量。一頻率分量之量值可表示音訊訊框中之該頻率分量之響度。複數個頻率副頻帶可(例如)包括2、3、5、8、16等個頻率副頻帶。頻率副頻帶之邊界之間距可或可不等距。頻率副頻帶可經對數間隔，其中各副頻帶之寬度係先前副頻帶之兩倍。在一個實例中，存在經對數間隔之8個頻率副頻帶，具有最低頻率範圍之頻率副頻帶在本文中可涵蓋20至40 Hz。在另一實例中，最低頻率範圍開始於0 Hz。

亦應理解，背景模型可經組態以根據音訊訊框之頻率副頻帶含有之聲音之重要性分類音訊訊框之頻率副頻帶。在本文中可將重要聲音分類為前景而將不重要聲音分類為背景。例如，若音訊訊框之頻率副頻帶含有一重要聲音，則可將音訊訊框之頻率副頻帶分類為前景。在另一實例中，若音訊訊框之頻率副頻帶主要含有不重要聲音，則將其分類為背景。可基於一聲音包含於先前音訊訊框中之頻率副頻帶中之頻率判定此特定聲音之重要性。

亦應理解，背景模型可經組態以根據音訊訊框之頻率副頻帶含有之聲音之一預期值分類音訊訊框之頻率副頻帶。在本文中可將非預期聲音分類為前景而將預期聲音分類為背景。例如，若音訊訊框之頻率副頻帶含有一預期或常見聲音或完全無聲音，則可將音訊訊框之頻率副頻帶分類為背景。在另一實例中，若頻率副頻帶之內容不匹配一背景分類之要求，則將音訊訊框之頻率副頻帶分類為前景。

亦應理解，用於將音訊訊框之一頻率副頻帶分類為前景或背景之背景模型條件可在頻率副頻帶間變動，此係因為背景模型係頻率副頻帶特定的。例如，一監控裝置可監控其中一第一機器可運行或一第一機器及一第二機器可運行之一工場。在一特定頻率副頻帶內，在一第一位準下之一響度可表示第一機器正在運行且在一第二位準下之一響度可表示第一機器及第二機器正在運行。因此，若該頻率副頻帶中之音訊訊框顯示在一低位準、第一位準或第二位準下之一響度，則可將音訊訊框之頻率副頻帶分類為背景。此可構成不重要或預期聲音。然而，若該頻率副頻帶中之音訊訊框顯示介於此等位準之間或高於此等位準之一響度，則可將此分類為前景。此可構成重要或非預期聲音，例如，疊加在第一機器正在運行之聲音上之話音，或機器在運行時正在經歷困難，從而導致一音訊訊框中之一或多個副頻帶中之一不同響度。在一不同頻率副頻帶中，可不同地選取響度位準以反映何者應構成該頻率副頻帶內之前景聲音及背景聲音。背景模型亦可相對於除響度位準外之其他特徵特定於頻率副頻帶。例如，若一音訊訊框之一頻率副頻帶之頻率分量之相對量值對應於一不重要或預期聲譜，則此可導致一背景分類。在另一實例中，在一特定頻率副頻帶內之一個或若干關鍵頻率分量之出現可觸發音訊訊框中之該頻率副頻帶之一前景分類。例如，汽笛通常使用由三個鄰近完整音調構成之一三全音。因此，三個對應頻率分量之出現可視為指示汽笛已消失且觸發一前景分類之一頻譜指紋。

本發明實現藉由針對音訊訊框之各頻率副頻帶分配數個位元使得其中未發生重要或未預期事件之頻率副頻帶可經給定/分配較少位元且藉此壓縮至一高位準而促進一音訊信號之有效編碼。當可針對不同頻率副頻帶個別地設定位元數目時，分配至整個音訊訊框之總位元數目可係小的。相比之下，若在不區分不同頻率副頻帶之情況下逐訊框判定總位元數目，則可需要較大總數目個位元。

本發明進一步實現針對各自頻率副頻帶之各者使用一特定背景模型以判定其等各自分類進一步促進音訊信號之有效編碼，此係因為可針對各頻率副頻帶客製化位元分配條件。

因此，該方法之一優點係其促進經傳送音訊資料之經降低頻寬要求及/或經儲存音訊資料之經降低儲存空間要求。

另一優點係經解碼音訊信號之經感知品質高。方法可提供基於內容之壓縮，其中相較於可具有一不重要或預期特性之背景聲音，可具有一重要或非預期特性之前景聲音可經更不嚴重地壓縮。因此，方法可將給定頻寬或儲存空間資源集中於其中一高品質最重要之音訊信號之部分上，藉此一旦解碼音訊信號，便提供其之一高感知品質。

應理解，編碼步驟可將位元分配至音訊信號之頻率跨度，其中頻率跨度與分類步驟之頻率副頻帶相同或不同。在一第一實例中，編碼步驟中之兩個鄰近頻率跨度對應於分類步驟中之一個單一頻率副頻帶。在此情況中，若將單一頻率副頻帶分類為前景，則兩個鄰近頻率跨度可被賦予相同數目個位元，其中位元數目對應於由單一頻率副頻帶之前景分類判定之位元數目。在一第二實例中，編碼步驟中之一個單一頻率跨度對應於分類步驟中之兩個不同頻率副頻帶。在此情況中，頻率副頻帶之任一者之一前景分類或兩個頻率副頻帶之一前景分類可導致編碼步驟之頻率跨度被賦予對應於由前景分類判定之位元數目的數目個位元。

亦應理解，若分類步驟之頻率副頻帶及編碼步驟之頻率跨度不同，則可分解分類步驟之頻率副頻帶或編碼步驟之頻率跨度。在第一實例中，當將頻率副頻帶分類為前景時，其可經分解且使用匹配編碼步驟之頻率跨度之經分解頻率副頻帶經重新分析。此可經完成以判定編碼器頻率跨度之何者應被分配對應於一前景分類之數目個位元。在分類步驟中不使用與編碼器中相同之頻率副頻帶之一原因可係一不同頻率副頻帶分配給定更佳分類結果。在第二實例中，若一編碼器給出分解編碼器步驟之頻率跨度之概率，則可僅將位元分配至匹配分類步驟之一前景副頻帶之一經分解頻率跨度。

亦應理解，編碼步驟可將位元分配至音訊訊框，其中編碼步驟之音訊訊框持續時間與分類步驟之音訊訊框持續時間相同或不同。例如，分類步驟可具有60 ms之一音訊訊框持續時間而編碼步驟具有20 ms之一音訊訊框持續時間。

經分配用於編碼音訊訊框之一背景分類頻率副頻帶之位元數目可取決於音訊訊框之背景分類頻率副頻帶之一頻率範圍。替代地或另外，經分配用於編碼音訊訊框之一前景分類頻率副頻帶之位元數目可(例如)取決於音訊訊框之前景分類頻率副頻帶之一頻率範圍。

作為一實例，涵蓋20至40 Hz之頻率範圍之一頻率副頻帶在其被分類為前景之情況下可被分配5個位元/樣本且在其被分類為背景之情況下可被分配1個位元/樣本，而涵蓋80至160 Hz之頻率範圍之一頻率副頻帶在其被分類為前景之情況下可被分配7個位元/樣本且在其被分類為背景之情況下可被分配2個位元/樣本。

使用對於經分配位元數目之一頻率相依性之一優點係其促進音訊信號之一有效編碼。例如，可將更多位元分配至比其他頻率副頻帶更重要之頻率副頻帶。例如，一頻率副頻帶(其中預期一重要聲音出現在表示該頻率副頻帶或表示該頻率副頻帶之部分之一頻率範圍內)可在其被分類為前景時被分配大量位元。經分配之位元數目亦可取決於表示頻率副頻帶之頻率範圍之大小。例如，對應於一前景及一背景分類之位元數目兩者在頻率範圍大之情況下可比在頻率範圍小之情況下更高。

固定總數目個位元可用於分配至一音訊訊框之不同頻率副頻帶。固定總數目個位元可自一個訊框至一連續訊框恆定。在一個實例中，可將最小數目個位元或零個位元分配至具有一背景分類之頻率副頻帶。固定總數目個位元之剩餘部分可分佈於剩餘前景分類頻率副頻帶當中。

音訊信號可經編碼使得分配至一第一音訊訊框之一背景分類第一頻率副頻帶之位元數目在第一音訊訊框之前的一音訊訊框中之相同第一頻率副頻帶被分類為前景之情況下比在第一音訊訊框之前的音訊訊框中之相同第一頻率副頻帶被分類為背景之情況下更高。

作為一實例，在一第零音訊訊框中之一頻率副頻帶在其被分類為前景之情況下可被分配400個位元且在其被分類為背景之情況下可被分配50個位元。若第零音訊訊框中之頻率副頻帶被分類為背景且一後續第一音訊訊框中之相同頻率副頻帶亦被分類為背景，則第一音訊訊框中之相同頻率副頻帶亦可被分配50個位元。若代替性地，第零音訊訊框中之頻率副頻帶被分類為前景但一後續第一音訊訊框中之相同頻率副頻帶被分類為背景，則第一音訊訊框中之相同頻率副頻帶亦可被分配(例如) 350個位元。

具有不僅取決於當前音訊訊框之頻率副頻帶之分類而且亦取決於一先前音訊訊框之頻率副頻帶之分類之經分配數目個位元之一優點可係其促進穩健編碼。若考量一先前音訊訊框之頻率副頻帶之分類，則一錯誤背景分類之結果可較不嚴重。相較於當先前分類係背景時，當其係前景時，一背景分類更有可能係錯誤的。因此，當發生自一前景分類至一背景分類之一切換時，經分配位元數目可逐漸而非瞬時減小。此可減少歸因於基於錯誤分類之一高位準之壓縮之重要音訊分量之損耗。

另一優點可係經編碼音訊信號變得聽上去令人愉悅。壓縮位準之快速改變可按照在解碼之後重新產生之信號之感知之錯誤產生信號假影。

應理解，位元之經分配數目可不僅取決於前一個音訊訊框之分類。其亦可取決於再前一個音訊訊框之分類。例如，一背景至前景轉變可觸發經分配位元數目自一低值至一高值之一立即改變，而一前景至背景轉變可觸發經分配位元數目之一逐漸降低。在最後前景分類之後，經分配位元之減少可(例如)針對各新背景分類相同，直至達到低值。

經分配用於編碼該音訊訊框之一頻率副頻帶之位元數目可進一步取決於一心理聲學模型。

應理解，心理聲學模型可係聲音之人類感知之一模型。

心理聲學模型可(例如)按照聲音響度量度反映感知極限。心理聲學模型在本文中可係(例如)表示(例如)依據頻率而變化之一聲音壓力之一等響曲線，其中等響曲線上之不同音調由人耳感知為具有相同響度，即使其等聲音壓力不同。經分配用於編碼音訊訊框之一頻率副頻帶之位元數目在本文中在頻率副頻帶接近其中人耳最敏感之頻率之情況下比在其進一步遠離之情況下更高。經分配用於編碼音訊訊框之一頻率副頻帶之位元數目在此實施例中在頻率副頻帶接近等響曲線之最小值之情況下比在其進一步遠離之情況下更高。應理解，亦可使用按照聲音響度量度反映人耳之感知極限之其他量度。

心理聲學模型可(例如)反映遮蔽效應，其中一人耳是否可偵測具有一特定量值之一第一頻率分量取決於是否存在一第二不同頻率分量。當存在第二頻率分量時，第一頻率分量可經遮蔽且無法由人耳偵測。經分配用於編碼音訊訊框之一頻率副頻帶之位元數目根據此實施例在頻率副頻帶之內容經遮蔽之情況下比在其未經遮蔽之情況下更低。

根據一心理聲學模型分配位元數目之一優點可係其提供高品質壓縮。可將人耳不容易感知之音訊信號之部分壓縮至比人耳敏感之部分更高之一位準。

經分配用於編碼音訊訊框之一頻率副頻帶之位元數目可取決於根據一心理聲學模型的音訊訊框之頻率副頻帶之頻率範圍。

心理聲學模型可(例如)按照頻率量度反映人耳之感知極限。心理聲學模型可(例如)係巴克(Bark)量度，其可係模型化人類聽覺系統之解析度之一非線性頻率量度。巴克量度上之一個巴克距離在本文中可等於所謂的臨界頻寬，針對一些頻率，該臨界頻寬與頻率成對數比例。經分配用於編碼音訊訊框之一頻率副頻帶之位元數目在本文中可與在巴克距離中量測之頻率範圍成比例。應理解，亦可使用按照頻率量度反映人耳之感知極限之其他量度。

根據一心理聲學模型基於音訊訊框之頻率副頻帶之頻率範圍分配位元數目之一優點可係其提供高品質壓縮。相較於其中人耳具有一低頻解析度之一頻率副頻帶，可將更多位元分配至其中人耳具有一高頻解析度之一頻率副頻帶。

經分配用於編碼音訊訊框之一背景分類頻率副頻帶之位元數目可獨立於音訊訊框之背景分類頻率副頻帶表示之一頻率範圍，且經分配用於編碼音訊訊框之一前景分類頻率副頻帶之位元數目可獨立於音訊訊框之前景分類頻率副頻帶所屬之一頻率範圍。

此實施例之一優點可係其促進快速編碼。將相同低數目個位元分配至音訊訊框之全部背景分類頻率副頻帶可(例如)快於判定應針對各背景分類頻率副頻帶個別地分配多少位元。此外，將相同高數目個位元分配至音訊訊框之全部前景分類頻率副頻帶可(例如)快於判定應針對各前景分類頻率副頻帶個別地分配多少位元。

該方法亦可包括：針對該音訊信號之一音訊訊框：針對該音訊訊框之一頻率副頻帶；基於該音訊訊框之該頻率副頻帶之一頻率內容來更新對應於該音訊訊框之該頻率副頻帶之該頻率副頻帶特定之該背景模型。

頻率內容在本文中可係在頻率副頻帶中表示之聲音之一特性。頻率內容可係(例如)整個頻率副頻帶之功率譜密度(PSD)、頻率副頻帶內之一功率譜密度量測、頻率副頻帶內之一頻率分量之量值、頻率副頻帶內之複數個頻率分量之量值、頻率副頻帶內之頻率分量之一分佈或頻率副頻帶之一能階(訊框x之頻帶b 之副頻帶能量)。

更新背景模型之一優點可係其促進用於傳送經編碼音訊信號之頻寬要求之進一步降低及/或用於儲存經編碼音訊信號之儲存空間要求之降低及/或改良在解碼之後之音訊信號之經感知品質。

更新背景模型可導致可隨著時間改變之一適應性背景模型。因此，背景模型可適應音訊信號之記錄期間環境之改變。例如，當引入一新聲音時，可將其分類為前景，使得許多位元經分配用於編碼新聲音。然而，若聲音保持出現在後續音訊訊框中，則可能聲音無趣。可接著更新模型使得聲音在後續音訊訊框中經識別為背景。此可節約資源，此係因為聲音可變得經壓縮至一更高位準。

更新背景模型亦可在背景模型之部署期間節約資源。若使用一靜態模型，則在其可準確地分類不同聲音之前，其可需要經訓練。收集且選擇訓練資料在時間或金錢方面可係昂貴的。基於其分類之頻率副頻帶之內容來更新之一背景模型可訓練其自身。其可經部署為(例如)一通用模型且接著適應其工作環境，藉此節約時間及金錢。

頻率副頻帶特定之背景模型可包含一高斯混合模型(GMM)，該GMM包括各表示頻率副頻帶中之能階之一概率分佈的複數個高斯分佈。

能階或副頻帶能量在本文中可係在頻率副頻帶中表示之聲音之響度之一特性。能階可(例如)係整個頻率副頻帶之PSD、頻率副頻帶內之一PSD量測、頻率副頻帶中之一聲音之一子波能量、頻率副頻帶內之一頻率分量之量值、頻率副頻帶內之複數個頻率分量之經加總量值或頻率副頻帶內之全部頻率分量之經加總量值。一高斯分佈在本文中可(例如)由一平均值及一標準偏差或一平均值及一變異數表示。高斯分佈可或可不經正規化，其中一經正規化高斯分佈具有等於1之一整數。由一高斯分佈表示之概率分佈在本文中可提供頻率副頻帶中之一能階量測之不同可能結果之一概率。複數個高斯分佈可(例如)由3至6個高斯分佈或2至10個高斯分佈組成。

在一闡釋性實例中，各高斯分佈係一特定聲音之整個頻率副頻帶之PSD之一概率分佈。一第一高斯分佈可(例如)表示一第一背景聲音，例如，一第一機器正在運行之聲音。若一音訊訊框之整個頻率副頻帶之一PSD具有與第一高斯分佈之平均值相同的一值，則此可視為音訊訊框之頻率副頻帶之內容係第一機器之聲音之概率高之一指示。若一音訊訊框之整個頻率副頻帶之PSD具有稍微高於或稍微低於第一高斯分佈之平均值的一值，則此可指示頻率副頻帶之內容係第一聲音之概率稍微更低。因此，概率分佈可係將一頻率副頻帶之一經量測能階轉換為頻率副頻帶具有一特定內容(例如，含有第一機器之聲音)之一概率之一函數。內容係一背景聲音之一高概率可繼而指示可保證頻率副頻帶之一背景分類。然而，應理解，亦可存在判定分類之其他指示。

使用此一背景模型可係識別一頻率副頻帶之內容之一有效方式。因此，分類所需之處理功率可係低的。

此一背景模型亦係識別一頻率副頻帶之內容之一準確方式。概率分佈可係(例如)連續函數，其可係比(例如)僅比較一經量測能階與一臨限值更準確之判定內容之一方式。藉由使用複數個高斯分佈，可包含表示頻率副頻帶之不同內容之多個背景模型。因此，高斯分佈之混合可表示可描述(例如)頻率副頻帶之內容係若干不同聲音之任一者之概率之一複雜概率分佈。

此一背景模型亦可係用於實施一適應性模型之一有效方式。可將一音訊訊框之一頻率副頻帶視為建立不同聲音在該頻率副頻帶中之常見程度之統計值之一樣本。例如，若一經量測PSD值稍微低於一特定頻率副頻帶特定的一高斯分佈之平均值，則該高斯分佈之平均值可針對後續音訊訊框稍微減少。

若音訊訊框之一頻率副頻帶之一能階位於圍繞頻率副頻帶特定之背景模型之GMM之高斯分佈之一者之一平均值的預定數目個標準偏差內，且若該高斯分佈之一權重高於一臨限值，則可將音訊訊框之頻率副頻帶分類為背景，其中權重表示音訊訊框之頻率副頻帶之一能階將在圍繞該高斯分佈之平均值的預定數目個標準偏差內之一概率。

預定數目個標準偏差可係任何適合數目(例如，2、2.5或3)個標準偏差。

此實施例之一優點可係其促進頻率副頻帶之分類之一高準確度。儘管聲音(例如)隨著時間變動，然本文中可準確地分類各種聲音。例如，一特定背景聲音之響度可變動。背景聲音可(例如)係在一房間之背景中工作之人之一低語。該背景聲音之響度可接著取決於人之數目而變動。本文中可期望當響度在一特定範圍內時，將低語分類為背景。響度位準之預期範圍可接著由高斯分佈按照平均值及標準偏差定義。若音訊訊框之頻率副頻帶之一能階位於圍繞平均值之預定數目個標準偏差內，則此可指示頻率副頻帶之內容可能係背景聲音。然而，此可不足以觸發一背景分類。由該高斯分佈表示之背景模型可(例如)不確定。因此，高斯分佈可具有考量不確定性之一權重。背景模型應在指示頻率副頻帶之內容可能係一特定背景聲音時之極限程度可接著由預定數目個標準偏差調節。頻率副頻帶之內容可能係一特定背景聲音之一指示是否應導致一背景分類可接著由權重調節。當更新背景模型時，一經量測PSD值在圍繞一第一高斯分佈之一平均值的預定數目個標準偏差內可增加第一高斯分佈之權重(例如)達一預定值。替代地或另外，GMM之剩餘高斯分佈之權重可減小一預定值。

能階可係一功率譜密度(PSD)量測。

PSD在本文中可表示功率如何分佈於音訊信號之頻率分量當中。PSD可使用(例如)尤爾-沃克(Yule-Walker)回歸方法或巴勒(Bartlett)方法量測。PSD可(例如)係整個頻率副頻帶之一PSD量測或頻率副頻帶內(例如，針對頻率副頻帶內之一個頻率分量或數個頻率分量)之一PSD量測。

使用能階之此一定義之一優點係其促進頻率副頻帶之分類之一高準確度。一PSD值可係響度之一準確表示。此外，自一傅立葉變換計算一PSD值可運算上容易。藉此，分類所需之運算能力可係低的。

該方法可進一步包括：與後設資料一起傳輸該音訊信號之該等經編碼音訊訊框，其中該後設資料表示該等音訊訊框之該等頻率副頻帶之分類。

與經編碼音訊訊框一起傳輸後設資料之一優點可係其促進有效解碼。例如，不同方法可用於解碼前景及背景頻率副頻帶。若頻率副頻帶之分類使用後設資料標記，則哪一方法應應用至哪一頻率副頻帶可容易判定。此可節約處理資源。

音訊信號之編碼可藉由一Opus音訊編解碼器執行。

Opus音訊編解碼器可在內部判定至由編碼器編碼之不同頻率副頻帶之位元之分配。例如，在Opus中，稱為最大分配向量之機制可用於此目的。本發明可接著修改位元之分配而以被視為前景之頻帶中之位元為代價減小被視為背景之頻帶中之位元數目。應理解，亦可使用除Opus之外之編解碼器。

根據本發明概念之一第二態樣，提供一種電腦程式產品，其包括儲存電腦可讀指令之一電腦可讀媒體，該等電腦可讀指令在執行於一處理單元上時將引起該處理單元執行根據前述技術方案之任一項之方法。

此第二態樣之效應及特徵通常類似於上文結合第一態樣描述之效應及特徵。相對於第一態樣提及之實施例通常與第二態樣相容。

因此，此一電腦程式產品可提供安裝及執行程式以便獲得該方法之上文論述之優點之一概率。

根據本發明概念之一第三態樣，提供一種用於使用可變位元速率編碼一音訊信號之編碼器，該編碼器包括一接收器及一或多個處理器，其中該接收器經組態以接收待編碼之一音訊信號，該音訊信號包括複數個連續音訊訊框，且；其中該一或多個處理器經組態以：針對該音訊信號之各連續音訊訊框：在相對於複數個頻率副頻帶之一頻域中表示該音訊訊框；在各頻率副頻帶中使用該頻率副頻帶特定之一背景模型將該音訊訊框分類為背景或前景；編碼該音訊信號之各連續音訊訊框，其中針對該音訊訊框之各頻率副頻帶分配數個位元，其中針對一頻率副頻帶分配之位元數目在將該音訊訊框在該頻率副頻帶中分類為前景之情況下比在將該音訊訊框在該頻率副頻帶中分類為背景之情況下更高。

此第三態樣之效應及特徵通常類似於上文結合第一態樣描述之效應及特徵。相對於第一態樣提及之實施例通常與第三態樣相容。

應理解，編碼器可實體地連接至記錄音訊信號之一裝置。然而，亦應理解，編碼器可無線地連接至記錄音訊信號之裝置，編碼器可(例如)位於一伺服器中，其中伺服器與記錄音訊信號之裝置通信。

根據本發明概念之一第四態樣，提供一種監控裝置，其包括：一麥克風，其經組態以記錄一音訊信號；一根據第三態樣之編碼器，其經組態以自該麥克風接收該音訊信號且使用可變位元速率編碼該音訊信號。

此第四態樣之效應及特徵通常類似於上文結合第一態樣描述之效應及特徵。相對於第一態樣提及之實施例通常與第四態樣相容。

將一麥克風與一編碼器組合之一優點係監控裝置可以一大程度之自主性操作。例如，監控裝置可在無其他裝置或伺服器之支援之情況下將一經編碼音訊信號傳輸至一網路上。

與附圖協作，隨後根據非用於限制所主張範疇之一較佳實施例描述本發明之技術內容及詳細描述。本發明可以許多不同形式體現且不應理解為限於本文中闡述之實施例；實情係，此等實施例係為了透徹性及完整性提供，且將本發明之範疇完全傳達給熟習此項技術者。

圖1及圖2係包括一接收器12及一處理器14之一編碼器10之示意性圖解。在圖1中，編碼器10位於一監控裝置1中，該監控裝置1進一步包括經組態以記錄經傳遞至接收器12之一音訊信號30之一麥克風2。監控裝置1可或可不能夠另外記錄一視訊信號。在圖2中，編碼器10支援若干麥克風2。因此，編碼器10可係一獨立監控裝置之部分或一中央支援單元(例如，一網路視訊記錄器或一網路音訊記錄器)之部分。

編碼器10 (例如)自麥克風2接收音訊信號30，且藉由使用處理器14處理信號而編碼音訊信號30。接著，可(例如)經由一區域網路傳輸經編碼音訊信號。經編碼音訊信號亦可本端儲存於監控裝置1上或儲存於一遠端儲存媒體上。

自麥克風2傳遞至編碼器10之音訊信號30可係貫入在麥克風2上之聲波之一類比或數位表示。經接收音訊信號30包括複數個連續音訊訊框32。音訊信號30之各連續音訊訊框32可表示一特定持續時間(例如，60 ms)之音訊信號之一時間片段。音訊訊框32可(例如)藉由由一位元串表示之各時間片段明確地定義。音訊訊框32亦可(例如)藉由定義各音訊訊框32之開始之一訊框時脈隱含地定義。音訊訊框32可未經壓縮。然而，音訊訊框32亦可經壓縮。音訊信號30可(例如)已經預壓縮且編碼器10可接著添加一進一步壓縮。

圖1繪示透過其將音訊信號30傳遞至編碼器10之麥克風2與編碼器10之間之一有線連接。圖2繪示編碼器10與麥克風2之間之一無線連接。

圖3展示繪示用於使用可變位元速率編碼一音訊信號30之一方法100之一流程圖。方法100可(例如)由編碼器10使用以使用可變位元速率編碼音訊信號30。應理解，圖3不定義方法100之步驟之一特定順序。

根據方法100，接收S102音訊信號30，音訊信號30包括複數個連續音訊訊框32。

接著，在相對於複數個頻率副頻帶34 (結合圖4進一步參見下文)之頻域中表示S104各連續音訊訊框32。此可(例如)使用快速傅立葉變換(FFT)或經修改離散餘弦變換(MDCT)完成。一旦在頻域中表示一音訊訊框32，各頻率副頻帶34便可含有一或多個頻率分量。各頻率分量在本文中可係(例如)由頻率分量表示之頻率跨度之一能階。因此，在頻域中，音訊訊框32可係一光譜，其中能階描述音訊信號之功率如何在不同頻率副頻帶34之頻率分量內分佈。能階值可在本文中相對於頻率分量之頻率跨度正規化使得其變得獨立於光譜解析度。

在各頻率副頻帶34中使用頻率副頻帶34特定之一背景模型將各連續音訊訊框32進一步分類S106為背景或前景，如下文將描述。

進一步編碼S108音訊信號之各連續音訊訊框32，其中針對音訊訊框32之各頻率副頻帶34分配數個位元，其中針對一頻率副頻帶34分配之位元數目在將音訊訊框32在頻率副頻帶34中分類為前景之情況下比在將音訊訊框32在頻率副頻帶34中分類為背景之情況下更高。將在下文中進一步描述編碼S108。

可針對各音訊訊框32依序執行表示S104、分類S106及編碼S108之步驟。然而，不需要在繼續移動至下一音訊訊框32之前針對一個音訊訊框32完成全部步驟。例如，可針對各音訊訊框32依序執行表示S104及分類S106且一旦數個訊框已經分類且緩衝，便可編碼S108經緩衝音訊訊框32。

方法100進一步包括更新S110背景模型之選用步驟，其中針對音訊訊框32之一頻率副頻帶34基於音訊訊框32之頻率副頻帶34之頻率內容來更新背景模型。

方法100進一步包括與後設資料一起傳輸S112音訊信號30之經編碼音訊訊框32之選用步驟，其中後設資料表示音訊訊框32之頻率副頻帶34之分類36。

圖4示意性地繪示在一音訊信號30已在頻域中表示S104且經分類S106之後之其之一實例。音訊信號30可在本文中被視為在時域中被劃分為數個音訊訊框32且在頻域中被劃分為數個頻率副頻帶34。各音訊訊框32之各頻率副頻帶34具有用於判定在編碼S108步驟中欲針對頻率副頻帶34分配之位元數目之一分類36。在此圖中且在以下若干圖中，將一前景分類標記為FG且將一背景分類標記為BG。

此後，將進一步詳細描述分類S106一音訊訊框32之頻率副頻帶34之步驟。圖5展示在一些實施例中用作一頻率副頻帶34特定之一背景模型之一GMM 50。使用GMM判定一音訊訊框之一背景模型之概念在Moncrieff等人之「On-line Audio Background Determination for Complex Audio Environments」 [多媒體運算通信及應用程式之ACM交易(ACM Transactions on Multimedia Computing Communications and Applications) · 2007年5月]中進一步描述，其描述用於使用一背景模型化技術進行音訊之前景/背景分離之一方法。

所描繪GMM 50包括三個高斯分佈52，各高斯分佈52表示頻率副頻帶中之能階之一概率分佈。各頻率副頻帶34在本文中可具有模型化該頻率副頻帶34內之聲音應如何分類之其自身之高斯分佈52。圖中之各高斯分佈52具有一平均值及一標準偏差。圍繞平均值之預定義數目個標準偏差54在本文中定義各高斯分佈52之能階之一範圍。在一些實施例中，各高斯分佈52進一步與一權重相關聯，該權重表示音訊訊框32之頻率副頻帶34之一能階將在圍繞該高斯分佈52之平均值之預定數目個標準偏差54內之一概率。高斯分佈之權重可或可不經正規化。

在一些實施例中，若滿足兩個條件，則將一音訊訊框32之一頻率副頻帶34分類為背景。第一條件係頻率副頻帶34之一經量測能階56落在由高斯分佈52之一者之預定義數目個標準偏差54定義之能階之範圍內。在圖5中，頻率副頻帶34之一經量測能階56落在圍繞中間高斯分佈52之平均值之預定義數目個標準偏差54內。第二條件係該高斯分佈52具有高於一臨限值之一權重。在一些實施例中，頻率副頻帶34之一經量測能階56可落在由高斯分佈54之一者以上之預定義數目個標準偏差54定義之能階之範圍內。在此等情況中，頻率副頻帶34可接收對應於具有最高權重之高斯分佈52之分類。若最高權重高於臨限權重，則將頻率副頻帶34分類為背景。

在一些實施例中，基於音訊訊框32之頻率副頻帶34之頻率內容來更新背景模型。例如，在一些實施例中，可在圖5之GMM 50已用於一音訊訊框32之一頻率副頻帶34上之後更新該GMM 50。因此，可基於高斯分佈52及經量測能階56形成一經更新高斯分佈53。圖5繪示將用於一後續音訊訊框而非中間高斯分佈52之一經更新高斯分佈53。

在下文中，將描述更新之實例之一非窮舉清單。若經量測能階56匹配一高斯分佈52 (即，落在圍繞高斯分佈52之平均值之預定義數目個標準偏差54內)，則可更新經匹配高斯分佈52。例如，可調整經匹配高斯分佈52之平均值及/或標準偏差，例如，若經量測能階56低於經匹配高斯分佈52之平均值，則可降低平均值。亦可調整經匹配高斯分佈52之權重。經匹配高斯分佈52之權重可增加。不匹配經量測能階56之高斯分佈52之權重可降低。若經量測能階56不匹配任何高斯分佈52，則可使用具有等於經量測能階56之一平均值、一預定義標準偏差及一預定義(低)權重之一新高斯分佈52替換具有最低權重之高斯分佈52。應理解，在進行更新時亦可考量經匹配高斯分佈52之權重。亦應理解，若干高斯分佈52可匹配一個經量測能階56。亦可在背景模型之一個單一更新中調整若干高斯分佈52。

此後，將進一步詳細描述編碼S108一音訊訊框32之步驟。可使用支援針對不同頻率副頻帶34分配不同位元數目之一音訊編解碼器執行音訊訊框32之編碼S108。此一音訊編解碼器係(例如)Opus音訊編解碼器。可採用其他編解碼器，諸如MP3編解碼器、MPEG編解碼器或其他支援VBR之編解碼器。當編碼S108音訊訊框32時，針對音訊訊框32之一頻率副頻帶34分配之位元數目在將音訊訊框32在頻率副頻帶34中分類為前景之情況下比在將音訊訊框32在頻率副頻帶34中分類為背景之情況下更高。

經分配之位元數目可取決於(例如)在一漸進位元速率衰退壓縮58中之當前音訊訊框32之分類及先前音訊訊框32之分類兩者。圖6示意性地繪示一頻率副頻帶34之一漸進位元速率衰退壓縮58。圖繪示當經分配之位元數目取決於先前音訊訊框32之分類36時依據時間而變化之經分配之位元數目。在經繪示情境中，自一前景分類至一背景分類之一切換導致經分配位元數目逐漸而非瞬時減小。在自一前景分類至一背景分類之一切換之後，頻率副頻帶34中之音訊訊框32之各後續背景分類之經分配位元數目減小，直至達到一預設低值。相比之下，自一背景分類至一前景分類之一切換可導致經分配位元數目瞬時增加至一高值。

經分配之位元數目亦可獨立於先前音訊訊框32之分類。經分配之位元數目可(例如)設定為分類為前景之一音訊訊框32之各頻率副頻帶34之一高值。經分配之位元數目可(例如)設定為分類為背景之一音訊訊框32之各頻率副頻帶34之一低值。

在一些實施例中，低值及高值之組成部分在全部頻率副頻帶中相同。在一些實施例中，低值及高值之組成部分在頻率副頻帶間不同。經分配用於編碼音訊訊框32之一背景分類頻率副頻帶34之位元數目可(例如)取決於音訊訊框32之背景分類頻率副頻帶34之一頻率範圍。經分配用於編碼音訊訊框32之一前景分類頻率副頻帶34之位元數目可(例如)取決於音訊訊框32之前景分類頻率副頻帶34之一頻率範圍。經分配用於編碼一前景或背景分類頻率副頻帶34之位元數目亦可取決於一心理聲學模型。

一旦音訊訊框32已經編碼，其等便可經傳輸(例如，藉由編碼器10傳輸)。音訊訊框32可(例如)在一網路中經由一有線連接或無線地傳輸。音訊訊框32之頻率副頻帶34之分類在本文中可作為後設資料與經編碼音訊訊框一起傳輸。

在上文中，已主要參考有限數目個實例描述發明概念。然而，如熟習此項技術者容易瞭解，不同於上文揭示之實例之實例在如由隨附發明申請專利範圍界定之發明概念之範疇內同樣可行。

1:監控裝置 2:麥克風 10:編碼器 12:接收器 14:處理器 30:音訊信號 32:音訊訊框 34:頻率副頻帶 36:分類 50:高斯混合模型(GMM) 52:高斯分佈 53:經更新高斯分佈 54:標準偏差 56:經量測能階 58:漸進位元速率衰退壓縮 100:方法 S102:接收 S104:表示 S106:分類 S108:編碼 S110:更新 S112:傳輸

透過參考隨附圖式之以下闡釋性及非限制性詳細描述，將更佳理解本發明概念之上文以及額外目的、特徵及優點。在圖式中，相同元件符號將用於相同元件，除非另外陳述。

圖1係在一監控裝置中之一編碼器之一圖解。

圖2係無線地連接至麥克風之一編碼器之一圖解。

圖3係用於使用可變位元速率編碼一音訊信號之一方法之一流程圖。

圖4係在頻率中經表示且經分類之一音訊信號。

圖5係一高斯混合模型。

圖6係一漸進位元速率衰退壓縮之一示意性圖解。

100:方法

S102:接收

S104:表示

S106:分類

S108:編碼

S110:更新

S112:傳輸

Claims

一種由一編碼器實施以用於使用可變位元速率(variable bitrate)編碼一音訊信號(30)之方法(100)，該方法(100)包括：接收(S102)待編碼之一音訊信號(30)，該音訊信號(30)包括複數個連續音訊訊框(32)；針對該音訊信號(30)之各連續音訊訊框(32)：在一頻域中相對於複數個頻率副頻帶(34)表示(S104)該音訊訊框(32)；使用該頻率副頻帶(34)特定之一背景模型將該音訊訊框(32)之各頻率副頻帶(34)分類(S106)為背景或前景；編碼(S108)該音訊信號(30)之各連續音訊訊框(32)，其中針對該音訊訊框(32)之各頻率副頻帶(34)分配數個位元，其中針對一頻率副頻帶(34)分配之位元數目，在將該頻率副頻帶(34)分類為前景之情況下，比在將該頻率副頻帶(34)分類為背景之情況下，更高。
如請求項1之方法(100)，其中經分配用於編碼該音訊訊框(32)之一背景分類頻率副頻帶(34)之位元數目取決於該音訊訊框(32)之該背景分類頻率副頻帶(34)之一頻率範圍；及/或經分配用於編碼該音訊訊框(32)之一前景分類頻率副頻帶(34)之位元數目取決於該音訊訊框(32)之該前景分類頻率副頻帶(34)之一頻率範圍。
如請求項1之方法(100)，其中編碼該音訊信號(30)使得分配至一當前(current)音訊訊框之一頻率副頻帶之位元數目取決於該當前音訊訊框之該頻率副頻帶之分類及取決於一先前(preceding)音訊訊框之一頻率副頻帶之分類兩者。
如請求項1之方法(100)，其中經分配用於編碼(S108)該音訊訊框(32)之一頻率副頻帶(34)之位元數目進一步取決於一心理聲學模型。
如請求項2之方法(100)，其中經分配用於編碼(S108)該音訊訊框(32)之一頻率副頻帶(34)之該位元數目取決於根據一心理聲學模型的該音訊訊框(32)之該頻率副頻帶(34)之該頻率範圍。
如請求項1之方法(100)，其中經分配用於編碼(S108)該音訊訊框(32)之一背景分類頻率副頻帶(34)之該位元數目獨立於該音訊訊框(32)之該背景分類頻率副頻帶(34)表示之一頻率範圍且其中經分配用於編碼(S108)該音訊訊框(32)之一前景分類頻率副頻帶(34)之該位元數目獨立於該音訊訊框(32)之該前景分類頻率副頻帶(34)所屬之一頻率範圍。
如請求項1之方法(100)，該方法(100)進一步包括：針對該音訊信號(30)之一音訊訊框(32)：針對該音訊訊框(32)之一頻率副頻帶(34)：基於該音訊訊框(32)之該頻率副頻帶(34)之一頻率內容來更新(S110)對應於該音訊訊框(32)之該頻率副頻帶(34)之該頻率副頻帶 (34)特定之該背景模型。
如請求項1之方法(100)，其中該頻率副頻帶(34)特定之該背景模型包含一高斯混合模型(50)(GMM)，該GMM(50)包括各表示該頻率副頻帶(34)中之能階之一概率分佈的複數個高斯分佈(52)。
如請求項8之方法(100)，其中若該音訊訊框(32)之一頻率副頻帶(34)之一能階位於圍繞該頻率副頻帶(34)特定之該背景模型之該GMM(50)之該等高斯分佈(52)之一者之一平均值之預定數目個標準偏差(54)內，且若該高斯分佈(52)之一權重高於一臨限值，則將該音訊訊框(32)之該頻率副頻帶(34)分類為背景，其中該權重表示該音訊訊框(32)之該頻率副頻帶(34)之一能階將在圍繞該高斯分佈(52)之該平均值之該預定數目個標準偏差(54)內之一概率。
如請求項8之方法(100)，其中該能階係一功率譜密度(PSD)量測。
如請求項1之方法(100)，其中該方法進一步包括：與後設資料一起傳輸(S112)該音訊信號(30)之該等經編碼音訊訊框(32)，其中該後設資料指示該等音訊訊框(32)之該等頻率副頻帶(34)之分類(36)。
一種電腦可讀記錄媒體，其儲存電腦可讀指令，該等電腦可讀指令在執行於一處理器(14)上時將引起該處理器(14)執行如請求項1之方法 (100)。
一種用於使用可變位元速率編碼一音訊信號(30)之編碼器(10)，該編碼器(10)包括一接收器(12)及一或多個處理器(14)，其中該接收器(12)經組態以接收待編碼之一音訊信號(30)，該音訊信號(30)包括複數個連續音訊訊框(32)，且；其中該一或多個處理器(14)經組態以：針對該音訊信號(30)之各連續音訊訊框(32)：在相對於複數個頻率副頻帶(34)之一頻域中表示該音訊訊框(32)；使用該頻率副頻帶(34)特定之一背景模型將該音訊訊框(32)之各頻率副頻帶(34)分類為背景或前景；編碼該音訊信號(30)之各連續音訊訊框(32)，其中針對該音訊訊框(32)之各頻率副頻帶(34)分配數個位元，其中針對一頻率副頻帶(34)分配之位元數目，在將該頻率副頻帶(34)分類為前景之情況下，比在將該頻率副頻帶(34)分類為背景之情況下，更高。
一種監控裝置(1)，其包括：一麥克風(2)，其經組態以記錄一音訊信號(30)；一如請求項13之編碼器(10)，其經組態以自該麥克風(2)接收該音訊信號(30)且使用可變位元速率編碼該音訊信號(30)。