TWI709131B

TWI709131B - 音訊場景處理技術

Info

Publication number: TWI709131B
Application number: TW107146979A
Authority: TW
Inventors: 安蒂艾隆奈恩; 賈西Ａ萊班恩; 蘇吉特Ｓ麥特; 亞托萊赫奈米
Original assignee: 芬蘭商諾基亞科技公司
Priority date: 2017-12-27
Filing date: 2018-12-25
Publication date: 2020-11-01
Also published as: EP3506080B1; TW201928945A; WO2019130133A1; US20200401364A1; US11221821B2; EP3506080A1; CN111492342B; CN111492342A

Abstract

揭示一種設備，其包含用於從一音訊場景中之多個音訊物件識別一或多個受關注音訊物件之構件、以及用於處理與該多個物件相關聯之第一音訊信號以提供給一使用者裝置之構件。該處理可基於該使用者裝置在該音訊場景中之定位處。該處理可包含組合與該等音訊物件相關聯之該等第一音訊信號以形成組合式第一音訊信號、修改該等組合式第一音訊信號之振幅並且將該等組合式第一音訊信號之最大振幅限制於一第一位準、以及修改與該一或多個受關注音訊物件相關聯之一或多個個別第一音訊信號之振幅，該修改係獨立於用於該等組合式第一音訊信號之修改。

Description

音訊場景處理技術

本揭露係有關於用於音訊場景處理之方法及系統，尤其是但非排他地為了包含來自一或多個音訊物件之空間性音訊的虛擬實境(VR)及擴增實境(AR)內容而進行音訊場景處理。

虛擬實境(VR)是一種快速發展之技術領域，其中視訊及音訊內容其中一者或兩者被提供給一使用者裝置。可向該使用者裝置提供來自一內容來源之一即時摘要或已儲存摘要，該摘要代表一虛擬實境空間或世界，用於透過該使用者裝置進行沉浸式輸出。倘若提供音訊，該音訊可以是空間性音訊，其代表從多個音訊物件擷取或組成之音訊。一虛擬空間或虛擬世界係一空間之任何電腦產生版本，例如一擷取之真實世界空間，一使用者可透過諸如一虛擬實境頭戴式裝置之一使用者裝置沉浸於其中。該虛擬實境頭戴式裝置可被組配用以向該使用者提供虛擬實境視訊及空間性音訊內容其中一或多者，例如透過使用合併於該頭戴式裝置內之一對視訊螢幕及頭戴耳機來提供。

該使用者裝置之定位處及/或移動可增強沉浸式體驗。一些虛擬實境使用者裝置使用所謂的三自由度(3DoF)，其意味著測量偏航軸、俯仰軸及翻滾軸中之頭部移動，還意味著測定該使用者看到及聽到之內容。這有助於當該使用者轉動其頭部時，場景在單一位置中主要維持靜態。下一個階段可稱為3DoF+，其可促進歐幾里德空間中之平移受限於一位置周圍例如數十公分之範圍內。又再一階段係六自由度(6DoF)系統，其中使用者能夠在歐幾里德空間中自由移動，並且在偏航軸、俯仰軸及翻滾軸中轉動其頭部。六自由度系統及方法將能夠提供及消費容積性虛擬實境內容。

容積性虛擬實境內容包含從所有角度採用三維方式表示空間及/或物件之資料，讓使用者能夠完全在該等空間到處移動，及/或讓物件能夠從任何角度檢視及/或聽到他們。

為了避免疑惑，對虛擬實境(VR)之引用亦旨在涵蓋諸如擴增實境(AR)等相關技術。

一第一態樣提供一種設備，其包含：用於從一音訊場景中之多個音訊物件識別一或多個受關注音訊物件之構件；用於藉由以下操作處理與該多個物件相關聯之第一音訊信號以提供給一使用者裝置之構件：組合與至少一些該等音訊物件相關聯之第一音訊信號以形成組合式第一音訊信號；修改該等組合式第一音訊信號之振幅，並且將該等組合式第一音訊信號之最大振幅限制於一第一位準；以及修改與該一或多個受關注音訊物件相關聯之一或多個個別第一音訊信號之振幅，該修改係獨立於用於該等組合式第一音訊信號之修改。

該設備可更包含隨後用於將經受該第一位準限制之該等組合式第一音訊信號與該一或多個個別第一音訊信號組合並且將所產生信號提供給該使用者裝置之構件。

處理構件可在一第一處理路徑中，對該等組合式第一音訊信號施用第一動態範圍壓縮；以及可在一第二處理路徑中，對分別與該一或多個受關注物件相關聯之該一或多個個別第一音訊信號施用個別第二動態範圍壓縮。

該處理構件可進一步進行：於組合之前，在該第一處理路徑中放大該等第一音訊信號；以及於施用個別第二動態範圍壓縮之後，在該第二處理路徑中放大該一或多個個別第一音訊信號，該放大係基於該使用者裝置離該一或多個受關注音訊物件之距離。

該放大可藉由該使用者裝置離該一或多個受關注音訊物件之倒距離來測定。

多個受關注物件可藉由識別構件來識別，並且其中藉由該處理構件個別施用於各個別第一音訊信號之該第二動態範圍壓縮可具有不同動態範圍壓縮特性。

該處理構件可組配成使得分別與該一或多個受關注物件相關聯之一或多個第一音訊信號之比例係(i)於組合及施用第一動態範圍壓縮之前減小，以及(ii)於對該一或多個信號施用個別第二動態範圍壓縮之前同時增大。

該處理構件可組配成使得該等組合式第一音訊信號僅包含與該一或多個受關注音訊物件除外之音訊物件相關聯之第一音訊信號。

該處理構件可藉由求和將該等音訊信號組合。

該一或多個受關注物件可基於離該使用者裝置之距離來識別。

該一或多個受關注物件可基於該使用者裝置相對於該等物件之移動方向來識別。

該等音訊物件可包含處於一容積性虛擬場景中之虛擬物件。

該等個別第一音訊信號可受限於與該第一位準不同之一第二最大振幅位準，並且該等第一與第二最大振幅位準之間的差異可基於該使用者裝置在該音訊場景中之定位處來動態調整。

另一態樣提供一種方法，其包含：從一音訊場景中之多個音訊物件識別一或多個受關注音訊物件；處理與該多個物件相關聯之第一音訊信號以提供給一使用者裝置，其包含：組合與該等音訊物件相關聯之該等第一音訊信號以形成組合式第一音訊信號；修改該等組合式第一音訊信號之振幅，並且將該等組合式第一音訊信號之最大振幅限制於一第一位準；以及修改與該一或多個受關注音訊物件相關聯之一或多個個別第一音訊信號之振幅，該修改係獨立於用於該等組合式第一音訊信號之修改。

另一態樣提供一種上有儲存電腦程式碼之電腦可讀媒體，該等電腦可讀媒體及電腦程式碼被組配用以在至少一個處理器上運行時：從一音訊場景中之多個音訊物件識別一或多個受關注音訊物件；處理與該多個物件相關聯之第一音訊信號以提供給一使用者裝置，其包含：組合與該等音訊物件相關聯之該等第一音訊信號以形成組合式第一音訊信號；修改該等組合式第一音訊信號之振幅，並且將該等組合式第一音訊信號之最大振幅限制於一第一位準；以及修改與該一或多個受關注音訊物件相關聯之一或多個個別第一音訊信號之振幅，該修改係獨立於用於該等組合式第一音訊信號之修改。

另一態樣提供一種設備，該設備具有至少一個處理器、及上有儲存電腦可讀碼之至少一個記憶體，該電腦可讀碼在受執行時控制該至少一個處理器，用以：從一音訊場景中之多個音訊物件識別一或多個受關注音訊物件；處理與該多個物件相關聯之第一音訊信號以提供給一使用者裝置，其包含：組合與該等音訊物件相關聯之該等第一音訊信號以形成組合式第一音訊信號；修改該等組合式第一音訊信號之振幅，並且將該等組合式第一音訊信號之最大振幅限制於一第一位準；以及修改與該一或多個受關注音訊物件相關聯之一或多個個別第一音訊信號之振幅，該修改係獨立於用於該等組合式第一音訊信號之修改。

另一態樣提供一種上有儲存電腦可讀碼之非暫時性電腦可讀媒體，該電腦可讀碼在受至少一個處理器執行時，令該至少一個處理器進行一種方法，該方法包含：從一音訊場景中之多個音訊物件識別一或多個受關注音訊物件；處理與該多個物件相關聯之第一音訊信號以提供給一使用者裝置，其包含：組合與該等音訊物件相關聯之該等第一音訊信號以形成組合式第一音訊信號；修改該等組合式第一音訊信號之振幅，並且將該等組合式第一音訊信號之最大振幅限制於一第一位準；以及修改與該一或多個受關注音訊物件相關聯之一或多個個別第一音訊信號之振幅，該修改係獨立於用於該等組合式第一音訊信號之修改。

1:系統

10:空間性音訊擷取設備

12A~12C、101A~101B:音訊擷取裝置

13A~13C、300:使用者

14:音訊處理設備

102A~102G:視覺內容擷取裝置

201:虛擬實境顯示系統

210:虛擬實境媒體播放器

220:虛擬實境頭戴式裝置

222:俯仰

223:翻滾

224:偏航

225:左右軸

226:前後軸

227:上下軸

230:遠端內容提供者

240:資料網路

250:控制器

260:記憶體

262:RAM

264:ROM

266:作業系統

268:軟體應用程式

270:網路介面

272:天線

301~305:音訊物件

310:臨界點

312:最大振幅

8.1~8.6:操作

401~402:輸入節點

410~430:處理路徑

440:受關注物件測定模組

450:求和模組

460:主動態範圍壓縮模組

g_1,o、g_2,o、1-g_1,o:放大器

現將參照附圖藉由非限制實例的方式來說明實施例，其中：圖1根據本文中所述之各種實例，係可用於擷取音訊信號以供處理之一音訊擷取系統之一實例；圖2根據例示性實施例，係一虛擬實境顯示系統的一透視圖；圖3根據例示性實施例，係包括圖2虛擬實境顯示系統之一電腦網路的一方塊圖；圖4根據例示性實施例，係一媒體播放器之組件的一示意圖，該媒體播放器形成圖2虛擬實境顯示系統之部分；圖5係包含多音訊物件之一例示性音訊場景的一俯視平面圖，所示係有關於攜帶一虛擬實境頭戴式裝置之一使用者；圖6係展示一動態範圍壓縮特性之一例示性操作的一示意圖，其可運用於例示性實施例中；圖7係包含多音訊物件之一例示性音訊場景的一俯視平面圖，所示係有關於攜帶一虛擬實境頭戴式裝置之一使用者，該使用者在該音訊場景中平移；圖8根據例示性實施例，係展示可進行之處理操作的一流程圖；圖9係類似於圖7的一俯視平面圖，對於解釋圖8處理操作有用處；以及圖10係一電路或處理器的一示意圖，提供用以實施圖8處理操作之一方式。

在本說明及圖式中，相似參考符號在各處意指為相似元件。

總言之，實施例大致係有關於對來自一音訊場景中多個物件之音訊信號進行音訊處理，該音訊場景例如為虛擬實境(VR)音訊場景或擴增實境(AR)音訊場景，但本文中所述之方法及系統不受限於此。音訊場景可隨附一視訊場景，該視訊場景包含一視覺虛擬世界中物件之視覺效果，但這並非必要。使用者通常佩戴或攜帶諸如一虛擬實境頭戴式裝置具有一或多個顯示螢幕及耳機之一使用者裝置，可藉由移動來探索音訊及/或視訊場景，該探索可處於六自由度中，其中使用者能夠在歐幾里德空間自由移動，並且在偏航軸、俯仰軸及翻滾軸中轉動其頭部。

實施例尤其係有關於音訊處理方法及系統，藉此識別一或多個受關注物件，並且從這些受關注物件衍生出之音訊信號與來自其他物件之音訊信號係採用不同方式處理。可將音訊信號直接從音訊物件所攜帶之麥克風或拾音器提供、或從空間性擷取設備所產生之一複合音訊信號提取、或以上兩者之一組合。

舉例而言，佩戴或攜帶諸如一虛擬實境(VR)頭戴式裝置之一使用者裝置的一使用者可採用以下方式探索場景：其更靠近或更遠離一或多個聲音物件，例如正在產生聲音之一物件，諸如一歌手或一樂器。使用者隨著時間之定位處，從而隨著其移動，可藉由下面要說明之任何適合的定位處測定技巧來測定。為了提供一真實感，來自此一物件之聲音應該隨著使用者接近該物件而更大聲(振幅更高)，並且隨著使用者移動離開該物件而更安靜(振幅更低)。一最大振幅位準通常是為了此類音訊信號而設定，以避免干擾或壓迫使用者，但缺點在於如果在使用者非常靠近一特定物件之前便已達到此位準，則振幅將不再增大。這有損於真實感。避免此問題之一種方式是降低其他、背景聲音之振幅，以便使被接近物件之聲音振幅相對增大。然而，在複雜之音訊場景中、或在使用者相對於一物件前後移動之情況下，背景聲音之位準將會持續變化，這可能干擾及/或有損於真實性。

本文中之實施例提供一改善技術。

圖1根據本文中所述之各種實例，係可用於擷取音訊信號以供處理之一音訊擷取系統1之一實例。在這項實例中，系統1包含組配成用以擷取一空間性音訊信號之一空間性音訊擷取設備10、以及一或多個附加音訊擷取裝置12A、12B、12C。

空間性音訊擷取設備10包含多個音訊擷取裝置101A、101B(例如：定向或非定向麥克風)，其被布置成用以擷取可隨後以一音訊串流方式空間性呈現之音訊信號，使得收聽者將再生之聲音感知為源自至少一個虛擬空間性定位處。一般而言，由空間性音訊擷取設備10擷取之聲音係衍生自可相對於空間性音訊擷取設備10位於一或多個不同位置之多個不同音訊物件。由於擷取之空間性音訊信號包括衍生自多個不同聲音來源之分量，因此可將其稱為一複合音訊信號。雖然圖1中僅可見兩個音訊擷取裝置101A、101B，空間性音訊擷取設備10仍可包含超過兩個裝置101A、101B。舉例來說，在一些特定實例中，音訊擷取設備10可包含八個音訊擷取裝置。

在圖1之實例中，空間性音訊擷取設備10亦被組配用以藉由多個視覺內容擷取裝置102A至102G(例如：相機)來擷取視覺內容(例如：影片)。空間性音訊擷取設備10之多個視覺內容擷取裝置102A至102G可被組配用以從該設備周圍之各種不同方向擷取視覺內容，藉此提供沉浸式內容(或虛擬實境內容)供使用者消費。在圖1之實例中，空間性音訊擷取設備10係一存在性擷取裝置，諸如Nokia之OZO相機。然而，如將會了解的是，空間性音訊擷取設備10可以是另一類型之裝置，及/或可由多個實體分離裝置所構成。舉例而言，空間性音訊擷取設備10可僅記錄音訊而不記錄視訊。如亦將會了解的是，雖然所擷取之內容可能適合作為沉浸式內容提供，但其亦可例如經由一智慧型手機或平板電腦以一常規之非VR格式提供。

如前述，在圖1之實例中，空間性音訊擷取系統1更包含一或多個附加音訊擷取裝置12A至12C。附加音訊擷取裝置12A至12C各可包含至少一個麥克風，並且在圖1之實例中，附加音訊擷取裝置12A至12C係組配成用於擷取衍生自一相關聯使用者13A至13C之音訊信號的領夾式麥克風。使用者13A至13C因為產生聲音而在此上下文中代表聲音或音訊物件。舉例來說，在圖1中，附加音訊擷取裝置12A至12C各藉由以某種方式貼附至使用者而與一不同使用者相關聯。然而，將了解的是，在其他實例中，附加音訊擷取裝置12A至12C可採用不同形式，及/或可位於一音訊擷取環境內之固定、預定位置。

附加音訊擷取裝置12A至12C及/或空間性音訊擷取設備10在音訊擷取環境內之位置可由音訊擷取系統1(例如：音訊處理設備14)知悉、或測定。舉例來說，以行動音訊擷取設備來說明，該等設備可包括用於使該等設備之位置能夠被測定之位置測定組件。在一些特定實例中，可運用諸如高準確度室內定位(High Accuracy Indoor Positioning)之一射頻位置測定系統，藉此附加音訊擷取裝置12A至12C(在一些實例中還有空間性音訊擷取設備10)傳送用於使一位置伺服器能夠對附加音訊擷取裝置在音訊擷取環境中之位置進行測定之訊息。在其他實例中，例如當附加音訊擷取裝置12A至12C處於靜態時，該等位置可由形成音訊擷取系統1之部分的一實體(例如：音訊處理設備14)預先儲存。

在圖1之實例中，音訊擷取系統1更包含音訊處理設備14。音訊處理設備14被組配用以接收及儲存由空間性音訊擷取設備10及一或多個附加音訊擷取裝置12A至12C所擷取之信號。可在擷取音訊信號期間於音訊處理設備14處即時接收該等信號，或可隨後例如經由一中間儲存裝置來接收該等信號。在此類實例中，音訊處理設備14可位於音訊擷取環境本機處，或可在地理上位於內有提供音訊擷取設備10及裝置12A至12C之音訊擷取環境遠距處。在一些實例中，音訊處理設備14甚至可形成空間性音訊擷取設備10之部分。

由音訊信號處理設備14接收之音訊信號可包含一擴音器格式之多聲道音訊輸入。此類格式可包括，但不限於一立體聲信號格式、一4.0信號格式、5.1信號格式以及一7.1信號格式。在此類實例中，由圖1之系統所擷取之信號可已經從其原本的原始格式預處理成擴音器格式。替代地，在其他實例中，由音訊處理設備14接收之音訊信號可呈一多麥克風信號格式，諸如一原始八聲道輸入信號。在一些實例中，原始多麥克風信號可由音訊處理設備14使用空間性音訊處理技巧來預處理，藉此將已接收信號轉換成擴音器格式或雙耳格式。

在一些實例中，音訊處理設備14可被組配用以將衍生自一或多個附加音訊擷取裝置12A至12C之信號與衍生自空間性音訊擷取設備10之信號混波。舉例來說，附加音訊擷取裝置12A至12C之位置可用於將衍生自附加音訊擷取裝置12A至12C之信號混波成衍生自空間性音訊擷取設備10之空間性音訊內之正確空間性定位處。音訊處理設備14對信號進行之混波可為部分自動化或全自動化。

音訊處理設備14更可被組配用以在附加音訊擷取裝置12A至12C擷取之音訊物件之空間性音訊擷取設備10擷取之空間性音訊內進行(或允許進行)空間性重新定位。

可進行音訊物件之空間性重新定位而能夠在未來於三維空間中呈現自由觀點音訊，其中一使用者可自由地選擇一新收聽定位處。亦可將空間性重新定位用於將諸音訊物件分離，藉此使該等音訊物件更具有個別相異性。類似的是，空間性重新定位可用於藉由修改其空間性定位處來強調/去強音訊混波中之某些來源。空間性重新定位之其他使用可包括，但當然不限於將某些音訊物件置放到一所欲空間性位置，藉此使收聽者注意(這些可稱為音訊提示)、限制音訊物件之移動以符合某一臨界、以及藉由加寬各種音訊物件之空間性位置來加寬混合音訊信號。用於進行空間性重新定位之各種技巧在所屬技術領域中屬於已知，因此本文中不再詳述。

圖2係代表使用者端裝備之一虛擬實境顯示系統201的一示意圖。虛擬實境系統201包括形式為一虛擬實境頭戴式裝置220之一使用者裝置，用於顯示一虛擬實境空間之視覺資料，還包括一虛擬實境媒體播放器210，用於在虛擬實境頭戴式裝置220上呈現視覺資料。在一些例示性實施例中，一分離使用者控件(圖未示)可與虛擬實境顯示系統1(例如：一掌上型控制器)相關聯。

在本說明書之上下文中，一虛擬空間或世界係一空間之任何電腦產生版本，例如一擷取之真實世界空間，使用者可沉浸於其中。在一些例示性實施例中，虛擬空間可完全由電腦產生，亦即不從圖1空間性音訊擷取設備擷取及接收。虛擬實境頭戴式裝置220可為任何適合的類型。虛擬實境頭戴式裝置220可被組配用以向一使用者提供虛擬實境視訊及/或音訊內容資料。如此，使用者可沉浸在虛擬空間中。

虛擬實境頭戴式裝置220從一虛擬實境媒體播放器210接收虛擬實境內容資料。虛擬實境媒體播放器210可以是藉由一有線或無線連接來連接至虛擬實境頭戴式裝置220之一分離裝置之部分。舉例而言，虛擬實境媒體播放器210可包括一遊戲主控台、或被組配用以將視覺資料傳遞至虛擬實境頭戴式裝置220之一PC。

替代地，虛擬實境媒體播放器210可形成虛擬實境頭戴式裝置220之部分。

在這裡，虛擬實境媒體播放器210可包含被組配用以透過其顯示器來播放內容之一行動電話、智慧型手機或平板電腦。舉例而言，虛擬實境媒體播放器210可以是在裝置之一主要表面上方具有一大型顯示器之一觸控螢幕裝置，可透過該觸控螢幕裝置顯示視訊內容。可將虛擬實境媒體播放器210插入一虛擬實境頭戴式裝置220之一托座。憑藉此類虛擬實境頭戴式裝置220，一智慧型手機或平板電腦可顯示經由虛擬實境頭戴式裝置220中之各別鏡頭向一使用者之眼睛提供之視覺資料。虛擬實境顯示系統1亦可包括被組配用以將裝置轉換成操作為虛擬實境顯示系統201之部分的硬體。替代地，可將虛擬實境媒體播放器210整合到虛擬實境頭戴式裝置220內。可在軟體中實施虛擬實境媒體播放器210。在一些例示性實施例中，包含虛擬實境媒體播放器軟體之一裝置稱為虛擬實境媒體播放器210。

虛擬實境顯示系統201可包括用於對使用者之空間性定位處及/或使用者頭部之方位進行測定之構件。這可藉由對虛擬實境頭戴式裝置220之空間性定位處及/或方位進行測定之構件來進行。因此，可在接續時框內計算並儲存一移動度量。此類構件可包含虛擬實境媒體播放器210之部分。替代地，該構件可包含虛擬實境頭戴式裝置220之部分。舉例而言，虛擬實境頭戴式裝置20可合併可包括陀螺儀、加速計及結構化光系統其中一或多者之動作追蹤感測器。這些感測器產生定位處資料，隨著使用者(從而虛擬實境頭戴式裝置220)變更定位處及/或方位，從該定位處資料測定並更新一目前視覺視場(FOV)。虛擬實境頭戴式裝置220可包含兩個數位螢幕，用於在使用者之各別眼睛前面顯示虛擬世界之立體視訊影像，還可包含兩個頭戴耳機、耳機或揚聲器，用於遞送音訊。本文中之例示性實施例不受限於一特定類型之虛擬實境頭戴式裝置220。

在一些例示性實施例中，虛擬實境顯示系統201可使用上述六自由度方法來測定使用者頭部之空間性定位處及/或方位。如圖1所示，這些包括俯仰222、翻滾223及偏航224之測量結果，還包括歐幾里得空間中沿著左右、前後及上下軸225、226、227之平移。

虛擬實境顯示系統201可被組配用以基於虛擬實境頭戴式裝置之空間性定位處及/或方位，向虛擬實境頭戴式裝置220顯示虛擬實境內容資料。一檢測到的空間性定位處及/或方位變化(即一移動形式)可導致一對應之視覺及/或音訊資料變化，以參照內有視覺資料投射之空間，反映使用者之一定位處或方位變換。這允許隨著使用者經歷一3D虛擬實境環境，消費虛擬實境內容資料。

在容積性虛擬實境空間或世界之上下文中，這意味著可相對於容積性虛擬實境內容裡提供之內容來檢測使用者之定位處，例如以使得使用者可在一給定之虛擬實境空間或世界裡、在個別物件或物件群組周圍自由移動，並且可取決於其頭部之轉動，從不同角度檢視及/或收聽物件。在要於稍後說明之例示性實施例中，使用者亦可檢視及探索多個不同虛擬實境空間或世界，並且從一個虛擬實境空間或世界移動到另一者。

可向作為虛擬實境頭戴式裝置220之部分而設置之頭戴耳機提供音訊資料。音訊資料可代表空間性音源內容，及/或可代表來自圖1所示附加音訊擷取裝置12A至12C之信號。空間性音訊可意指為虛擬實境空間或世界中之音訊定向呈現，使得一檢測到之使用者空間性定位處變化或其頭部方位變化可導致一對應之空間性音訊呈現，以參照內有呈現空間性音訊資料之空間反映一變換。

可透過虛擬實境頭戴式裝置220觀測或聽到之環境之角範圍稱為視覺或聽覺視場(FOV)。一使用者在視覺方面觀測之實際FOV取決於眼距，並且取決於虛擬實境頭戴式裝置220之鏡片與使用者之眼睛之間的距離，但是當使用者正在佩戴虛擬實境頭戴式裝置時，對於一給定顯示裝置之所有使用者，FOV可視為大約相同。

請參照圖3，一遠端內容提供者230可以是圖1所示之音訊處理設備14，可儲存及傳送串流虛擬實境內容資料，其在例示性實施例之上下文中，係供輸出至虛擬實境頭戴式裝置220之容積性虛擬實境內容資料。回應於接收或下載由虛擬實境媒體播放器210發送之請求，內容提供者230透過一資料網路240串流處理虛擬實境資料，資料網路240可以是任何網路，例如一IP網路，諸如網際網路。

遠端內容提供者230可以是或可不是擷取、建立及/或處理虛擬實境視訊之位置或系統。

為了說明性目的，我們可假設內容提供者230亦擷取、編碼及儲存虛擬實境內容，以及回應於來自虛擬實境顯示系統201之信號對其進行串流處理。

圖4係虛擬實境媒體播放器210之組件的一示意圖。這假設本文中之實施例是在虛擬實境媒體播放器210內進行處理，但應了解的是，可在虛擬實境頭戴式裝置220內處理實施例，這種狀況中將存在對應之組件。

虛擬實境媒體播放器210可具有一控制器250、密切耦合至該控制器並且包含一RAM 262與ROM 264之一記憶體260、以及一網路介面270。其可另外但非必然包含一顯示器及硬體鍵。控制器250係連接至各其他組件以控制其操作。

網路介面270可被組配用於連接至網路240，例如可為有線或無線之一數據機。展示用於無線連接之一天線272，該無線連接舉例而言，可使用WiFi及/或藍牙。與虛擬實境頭戴式裝置220之定位處有關之資料可藉於網路介面270來接收，並且可藉由此網路介面將視訊及/或音訊資料傳送至虛擬實境頭戴式裝置220。

記憶體260可包含一硬碟機(HDD)或一固態驅動機(SSD)。記憶體260之ROM 264還儲存一作業系統266，並且可儲存一或多個軟體應用程式268。RAM 262係由控制器250用於暫時儲存資料。作業系統266可含有符碼，該符碼在搭配RAM 262受控制器250執行時，控制各硬體組件之操作。

控制器250可採取任何適合的形式。舉例來說，其可以是一微控制器、多個微控制器、一處理器、或多個處理器。

在一些例示性實施例中，虛擬實境媒體播放器210亦可與外部軟體應用程式相關聯。這些可以是儲存在一遠端伺服器裝置上之應用程式，並且可部分地或排他地在該遠端伺服器裝置上運行。這些應用程式可稱為雲端託管應用程式或資料。虛擬實境媒體播放器210可與該遠端伺服器裝置通訊，以便利用儲存在那裡之軟體應用程式。

現將參照實施例更詳細地說明本文中之實施例。要在下文說明之處理操作可藉由設置在記憶體260上之軟體應用程式268來進行，用於基於受佩戴虛擬實境頭戴式裝置220之使用者關注之一或多個物件來控制如何處理音訊。如前述，此一軟體應用程式268可替代地設置在虛擬實境頭戴式裝置220本身、或適用於處理音訊之任何其他形式之使用者裝置中。

圖5展示俯視平面圖中所示之一例示性虛擬世界場景，以舉例方式，該虛擬世界包含三個音訊物件301、303、305。各音訊物件301、303、305可以是任何形式之擷取或產生之音訊物件。在這項實例中，第一音訊物件301可代表發出引擎噪音之一第一車輛，第二音訊物件303可代表發出一不同引擎噪音之一第二車輛、以及第三音訊物件305可代表正在講話或唱歌之一人員。為方便起見，還展示與第一至第三音訊物件301、303、305有關之佩戴上述虛擬實境頭戴式裝置220之一使用者300的定位處。

在操作時，將基於使用者定位處，以數位形式將來自各該第一至第三音訊物件301、303、305之音訊信號呈現給虛擬實境頭戴式裝置220之頭戴耳機。因此，來自第三音訊物件305之音訊信號可比來自第一及第二音訊物件301、303之其他音訊信號更顯著，例如呈現更高增益，因為其更靠近使用者300。該音訊信號之定位處也將處於使用者之前方，而來自第一及第二音訊物件301、303之音訊信號將在其各自偏心定位處被感知。

在一些實施例中，增益是藉以控制音訊信號振幅之因子。我們可將音訊信號樣本與一增益係數(例如：介於0與1之間)相乘，其導致一信號振幅變化。該振幅變化在由系統實施時，可藉由乘以某一增益係數來進行。

當使用者300接近第一至第三音訊物件301、303、305其中一者時，各別音訊信號之振幅將變得更大聲，以便以一真實度呈現。依照習知，可施用稱為動態範圍壓縮(DRC)之一形式之音訊信號處理，以限制最大振幅，並且因此限制呈現給虛擬實境頭戴式裝置220之音量。

圖6展示用於施用下壓縮之一典型動態範圍壓縮特性。如將看到者，由於以分貝為單位之輸入位準增大，以分貝為單位之輸出位準也以一對應速率增大。然而，在臨界點310處，輸入位準之一持續增大導致輸出位準增大速率降低，這意味著振幅或音量仍將增大，但卻是以更低速率增大。點312處指示最大振幅，該點處防止輸出位準進一步增大。

圖7係與圖5類似的一視圖。在這裡，所示為使用者300處於從一第一定位處A到一第二定位處B然後再到一第三定位處C之三個平移階段期間的狀況。定位處A代表如圖5所示之一開始定位處。使用者300可接著開始探索虛擬世界，聽到其前面之第一至第三音訊物件301、303、305。第一至第三音訊物件301、303、305之音訊信號之各別音量於此點可能相當大，可能與圖中更遠處且不可見之其他物件有關。一到達第二定位處B，來自第一至第三音訊物件301、303、305之音訊信號將變得更大聲，可能有施用圖6動態範圍壓縮，並且於此點假設達到最大振幅。在使用者300進一步前進至第三定位處C時，第一至第三音訊物件301、303、305之所呈現音訊信號將維持在相同位準，與因為定位處B達到最大振幅而前移無關。在一些實施例中，可減小第一及第二物件301、303之振幅，以基於各別定位處使第三物件305聽起來更靠近使用者300，但這具有如上述之缺點。

因此，在一實施例中，提供一種根據圖8所示操作進行操作之設備及方法。圖8可代表採用軟體、硬體或以上的組合進行之處理操作。在本文中之實施例中，我們假設圖8之操作係藉由圖4所示之一軟體應用程式268採用軟體進行。

一第一操作8.1可包含識別一音訊場景中之一或多個受關注音訊物件。

另一操作8.2可包含處理與音訊物件相關聯之第一音訊信號，以供基於使用者裝置在音訊場景中之定位處提供給一使用者裝置。後續步驟8.3至8.5係可包含操作8.2之例示性處理操作。

操作8.3可包含組合該等第一音訊信號，其可以是該等第一音訊信號之全部或一子集。舉例而言，可僅組合來自不包括該一或多個受關注物件在內之物件的諸第一音訊信號。舉例而言，與其餘物件相比，可採用不同方式予以處置用於一或多個受關注物件之第一音訊信號，例如採用不同方式調整其振幅或增益，或採用不同方式處置比例。

操作8.4可包含將出自操作8.3之組合式第一音訊信號限制於第一振幅位準。

可(但不必然)與操作8.3及8.4平行進行之操作8.5包含許可受關注物件之個別音訊信號之各別振幅獨立於操作8.4中使用之組合式第一音訊信號之振幅(例如：有限第一振幅位準)而增大或減小。

另一操作8.6可包含組合操作8.4及8.5產生之信號。

舉例而言，可修改最大振幅或(諸)個別音訊信號之振幅，例如最高增大到比操作8.4中使用之第一振幅位準更大之第二振幅位準。然而，狀況可能並非總是如此。重要的是，即使組合式信號受限而無法進一步增大，舉例而言，仍基於使用者300與相關聯音訊物件之間減少的距離，藉由增大一個別音訊信號之增益，採用與組合式音訊信號不同的方式，來修改或處置個別音訊信號。

在一些實施例中，組合可包含求和，即加法。

應知，圖8所示之操作屬於說明性，並且某些操作可予以重排序、循序進行，而不是平行進行，反之亦然。在一些實施例中，可省略某些操作及/或新增其他操作。

從上文將了解的是，對某些音訊物件許可附加淨空，亦即超過使組合式信號受限之附加信號修改，該等某些音訊物件係受測定為受關注物件，以便許可其各自音量振幅位準增大，與對其他音訊物件施用之最大位準如何無關。發現這得以使結果改善，如將解釋者。

為了測定一或多個受關注物件，存在已知方法，並且該等已知方法可基於以下一或多個實例：- 最靠近之物件係該受關注物件(基於距離)； - 最靠近之n個物件係該等受關注物件，其中n>1(基於距離)；- 使用者裝置之一預定直徑範圍內之一或多個物件係該等受關注物件(基於距離)；- 使用者裝置之一視場(FOV)範圍內之一或多個物件係受關注物件(基於注視)；- 使用者裝置正在移動朝向之一或多個物件係受關注物件(基於定位處或移動)；- 使用者正在與之互動之一或多個物件係受關注物件(基於互動)；以及- 諸如人類等屬於某一或某些類別之一或多個物件(基於類別)。

本揭露不受限於此類實例。

圖9係與圖7類似的一視圖。類似於圖7，所示為使用者300處於從一第一定位處A1到一第二定位處B1然後再到一第三定位處C1之三個移動階段期間的狀況。定位處A1代表如圖5所示之一開始定位處。使用者300可接著開始探索虛擬世界，聽到其前面之第一至第三音訊物件301、303、305。第一至第三音訊物件301、303、305之音訊信號之各別音量於此點可能相當大，可能與圖中更遠處且不可見之其他物件有關。使用圖8之操作，第三物件305可基於其最靠近使用者裝置220而受測定係唯一受關注物件。

如此，可組合例如由第一及第二音訊物件 301、303產生之音訊信號。在一些實施例中，由第三物件305產生之音訊信號亦可與這些信號組合，儘管比例較小。組合式信號受限於第一振幅位準。許可修改與第三音訊物件305相關聯之音訊信號，而與如何修改組合式音訊信號無關。舉例而言，與第三音訊物件305相關聯之音訊信號之增益可增大或減小；當增大時，所產生之振幅甚至可超出此第一振幅位準。如果受識別之受關注物件多於一個，則可獨立於第一振幅位準或無論該第一振幅位準如何，都允許其各別音訊信號中之各者變更。

因此，於定位處B1，假設達到第一振幅位準，來自第一及第二音訊物件301、303之組合式音訊信號之振幅可不再進一步增大。然而，來自第三音訊物件305之個別音訊信號之振幅可進一步增大，使得此受關注物件對使用者300似乎基於朝向使用者300之前進移動而變得更大聲。隨著使用者300更靠近第三定位處C1接近，振幅可再進一步增大。在一些狀況中，這可能增大，直到達到一第二振幅最大值為止。

因此，當非常靠近物件移動或更遠離物件移動時，允許使用者300感知音量變化。這是在不產生背景聲音位準(有時稱為聲音床)之惱人變化之情況下達成。

圖10根據一例示性實施例，係用於進行圖8程序之一音訊處理設備400的一示意圖。

在音訊處理設備400中，對各別輸入節點401、402施用來自第一及第二音訊物件之音訊信號。所示一第三輸入節點402指出可對音訊處理設備施用來自更大量音訊物件之進一步音訊信號。可迎合任何數量之附加音訊物件。

如將會了解的是，音訊信號可呈數位化形式，因此對音訊信號之參照等同於音訊資料。

如所示，可將音訊處理設備400布置為第一及第二處理路徑410、420。第一、更低處理路徑410係用於處置一組合式信號上之主動態範圍壓縮。第二、上處理路徑420係用於處置來自一或多個受識別之受關注物件之個別信號上之個別動態範圍壓縮，係經由輸入節點401、402等予以接收。

來自第一及第二處理路徑420、430之經處理輸出信號係藉由一求和模組430來組合，之後將經處理音訊提供給例如虛擬實境頭戴式裝置220之頭戴耳機。

第一處理路徑410包含一主動態範圍壓縮模組460，其從輸入節點401、402等接收所選擇及組合式音訊信號。為此目的，提供一組合器或求和模組450。主動態範圍壓縮模組460可沿著與圖6所示特性相似之線路，以最大許可之第一位準312施用第一動態範圍壓縮。可在輸入節點401、402等與求和模組450之間提供一或多個第一放大器g_1,o，用於控制經由輸入節點401、402接收之信號之增益或衰減。可繼第一放大器g_1,o提供一第二放大器g_2,o，用於提供一距離規則增益，稍後將作說明。在兩者中，「o」意指為物件索引，例如1、2等。

第二處理路徑420包含用於經由輸入節點401、402等接收之各信號的個別第二動態範圍壓縮模組470。各第二動態範圍壓縮模組470與第一動態範圍壓縮模組460相比，可施用不同、第二動態範圍壓縮。這並不是說各第二動態範圍壓縮模組470具有相同特性；舉例而言，第二動態範圍壓縮模組470中之不同者可具有不同最大位準。

可在輸入節點401、402等與各第二動態範圍壓縮模組470之間提供一放大器1-g_1,o，用於在施用第二動態範圍壓縮之前，先控制經由輸入節點401、402等接收之信號之增益或衰減。可在各第二動態範圍壓縮模組470與求和模組430之間提供放大器g_2,o，用於基於距離規則增益，控制來自各別第二動態範圍壓縮模組470之信號之增益或衰減。該距離規則增益可藉由使用者裝置離一或多個受關注音訊物件之倒距離來測定，亦即，以使得隨著距離減小，增益隨之增大，反之亦然。

提供受關注物件測定模組440，用於控制對各種放大器施用之增益/衰減，如所示。目的是要控制對第一及第二處理路徑410、420各者之動態範圍控制器460、470施加之信號之比例，這可以是一硬選擇，來自一或多個受關注物件之信號藉以從第一處理路徑受到抑制，藉此旁通主動態範圍壓縮460，而反言之，僅這些信號進入第二處理路徑，並不是來自其他物件之其他信號。

在第一處理路徑410中，一信號路徑中之各第一放大器稱為g_1,o，並且相同信號路徑中之各第二放大器稱為g_2,o，其中o係物件索引。將了解的是，第一處理路徑410造成輸入節點401、402處接收之已放大/已衰減信號之求和，以產生通道床，該通道床舉例而言，代表與經測定受關注之音訊內容有別之音訊內容。

第二動態範圍壓縮模組470之目的是要使來自個別受關注物件之音訊信號之音量位準保持在控制範圍內。這實屬必要，因為通過第二處理路徑420之音訊未通過主動態範圍控制器模組460。如果該音訊具有一高音量峰值，則可能發生輸出削波。第二動態範圍壓縮是在藉由g_2,o進行放大之前施用，以使得距離感知不受影響。

為了闡明，受關注物件測定模組440測定一或多個受關注物件。對於該或各受關注物件(例如對於第一物件)，可同時使g_1,1之增益減小並使1-g_1,1之增益增大。這意味著物件音訊將以較大比例經過第二處理路徑420傳遞，並且以較小比例經過第一處理路徑410傳遞。用於此第一物件音訊之第二動態範圍壓縮模組470可與主動態範圍壓縮模組460具有一類似壓縮形狀，以使得其壓縮更大輸入位準。

如上述，增益g_1,o可被組配成用於藉由將其設定為1(物件不重要，因此是以主動態範圍壓縮模組460來處置)、或設定為0(物件重要，因此是以第二動態範圍壓縮模組470來個別處置)來硬選擇是使用第一還是第二處理路徑410、420。

另一方面，放大器g_2,o根據一距離規則來控制增益，舉例而言，根據一倒距離或1/距離規則來控制增益。當其是在對信號施用第二動態範圍壓縮模組470之後才施用時，即使物件聲音大，仍可感知其效應。如果由於除使用者靠近物件外之其他理由而使物件變大聲，則施用第二動態範圍壓縮模組470以抑制其響度。

當使用者更遠離物體移動時，增益g_1,o減小並且增益1-g_1,o增大。這意味著再次透過正常處理傳遞音訊物件。可施用交叉衰減，以使得增益g_1,o逐漸減小，這意味著1-g_1,o逐漸增大，以使得信號順利移動到正常處理路徑而無聽覺效應。

在一些實施例中，容積性音訊場景之不同部分對於主動態範圍壓縮及/或第二動態範圍壓縮模組470可具有不同設定。舉例而言，音訊場景有些部分可受施用強壓縮，而有些部分則較低。

在一些實施例中，為受關注物件保留之淨空量可取決於容積性場景之位置；對於場景之不同部分，受關注物件選擇邏輯或識別方法可不同。舉例而言，在一些部分中，可選擇最靠近之物件，而在其他部分中，該選擇可基於使用預定規則，例如識別高重要性之特定物件。

在上述實施例中，組合式第一信號之修改、及個別第一信號之修改可基於使用者裝置有關於一或多個音訊物件之定位處。然而，在其他實施例中，修改舉例而言，可基於一些其他互動裝置之一定位處變化。舉例而言，使用者可與一觸控螢幕互動以變更定位處，而不是實際在一空間內移動。

可在軟體、硬體、應用邏輯或軟體、硬體與應用邏輯之一組合中實施本文中所述之實例。軟體、應用邏輯及/或硬體可駐留在記憶體、或任何電腦媒體上。在一例示性實施例中，應用邏輯、軟體或一指令集係維持於各種習知的電腦可讀媒體其中任何一者上。在本文件之上下文中，一「記憶體」或「電腦可讀媒體」可以是可含有、儲存、傳遞、傳播或輸送指令之任何媒體或構件，該等指令係供一指令執行系統、設備、或裝置使用、或與之搭配使用，諸如一電腦。

倘若相關，應將對「電腦可讀儲存媒體」、「電腦程式產品」、「有形地具體實現之電腦程式」等、或一「處理器」或「處理電路系統」等之參照理解為不僅含括具有諸如單/多處理器架構及定序器/平行架構等不同架構之電腦，還含括諸如可現場規劃閘陣列FPGA、應用指定電路ASIC、信號處理裝置及其他裝置等專用電路。應將對電腦程式、指令、符碼等之參照理解為表達用於一可規劃處理器韌體之軟體，諸如一硬體裝置之可規劃內容，作為用於一處理器之指令，或予以組配，或用於一固定功能裝置、閘陣列、可規劃邏輯裝置等之組態設定。

「電路系統」一詞於本申請書中使用時，意指為以下全部：(a)唯硬體電路實作態樣(諸如僅在類比及/或數位電路系統中實施之實作態樣)，及(b)電路與軟體(及 /或韌體)之組合，諸如(如適用)：(i)一處理器組合，或(ii)(諸)處理器/軟體之部分(包括一起運作以令諸如一行動電話或伺服器之一設備進行各種功能之(諸)數位信號處理器、軟體、及(諸)記憶體)，以及(c)電路，諸如一(諸)微處理器或一(諸)微處理器之一部分，即使軟體或韌體並非實體存在，該電路仍需要該軟體或韌體才能操作。

「電路系統」之定義適用於本申請書中該用語之所有使用，包括申請專利範圍任何請求項中該用語之所有使用。舉進一步實例而言，「電路系統」於本申請書中使用時，亦涵蓋僅一處理器(或多個處理器)、或一處理器之部分、以及其隨附軟體及/或韌體之一實作態樣。「電路系統」一詞舉例而言、及如果適用於特定主張元件，亦涵蓋用於一行動電話之一基頻積體電路或應用處理器積體電路、或伺服器、一蜂巢式網路裝置、或其他網路裝置中之一類似積體電路。

視所期望者，本文中所論述之不同功能可採用一不同順序來進行、及/或彼此並行進行。再者，視所期望者，可任選或可組合上述功能之一或多者。

雖然申請專利範圍獨立項中載明各項態樣，其他態樣仍包含出自所述實施例及/或附屬項之特徵與獨立項之特徵的其他組合，不是只有申請專利範圍中明確載明的組合而已。本文中亦註記的是，儘管上文說明各種實例，仍不應該以一限制概念來審視這些說明。反而，有數種變例及修改可不脫離如隨附申請專利範圍中所界定本發明之範疇來施作。

1:系統

10:空間性音訊擷取設備

12A~12C、101A~101B:音訊擷取裝置

13A~13C:使用者

14:音訊處理設備

102A~102G:視覺內容擷取裝置

Claims

一種用於音訊場景處理之設備，其包含有：用於從一音訊場景中之多個音訊物件識別一或多個受關注音訊物件之構件；用於藉由以下操作處理與該多個物件相關聯之第一音訊信號以提供給一使用者裝置之構件：組合與至少一些該等音訊物件相關聯之第一音訊信號以形成組合式第一音訊信號；修改該等組合式第一音訊信號之振幅，並且將該等組合式第一音訊信號之最大振幅限制於一第一位準；以及修改與該一或多個受關注音訊物件相關聯之一或多個個別第一音訊信號之振幅，該修改係獨立於用於該等組合式第一音訊信號之修改。
如請求項1之設備，其更包含隨後用以組合已受該第一位準限制之該等組合式第一音訊信號與該一或多個個別第一音訊信號、並且提供所產生信號給該使用者裝置之構件。
如請求項1或2之設備，其中處理構件：在一第一處理路徑中，對該等組合式第一音訊信號施用第一動態範圍壓縮；以及在一第二處理路徑中，對分別與該一或多個受關注物件相關聯之該一或多個個別第一音訊信號施用個別第二動態範圍壓縮。
如請求項3之設備，其中該處理構件進一步進行：於組合之前，在該第一處理路徑中放大該等第一音訊信號；以及於施用個別第二動態範圍壓縮之後，在該第二處理路徑中放大該一或多個個別第一音訊信號，該放大係基於該使用者裝置離該一或多個受關注音訊物件之距離。
如請求項4之設備，其中該放大係藉由該使用者裝置離該一或多個受關注音訊物件之倒距離來決定。
如請求項3之設備，其中多個受關注物件係藉由識別構件來識別，並且其中藉由該處理構件個別施用於各個別第一音訊信號之該第二動態範圍壓縮具有不同動態範圍壓縮特性。
如請求項3之設備，其中該處理構件被組配成使得分別與該一或多個受關注物件相關聯之一或多個第一音訊信號之比例係(i)於組合及施用第一動態範圍壓縮之前減小，以及(ii)於對該一或多個信號施用個別第二動態範圍壓縮之前同時增大。
如請求項1或2之設備，其中處理構件被組配成使得該等組合式第一音訊信號僅包含與該一或多個受關注音訊物件以外之音訊物件相關聯之第一音訊信號。
如請求項1或2之設備，其中該處理構件藉由求和來將該等音訊信號組合。
如請求項1或2之設備，其中該一或多個受關注物件係基於離該使用者裝置之距離來識別。
如請求項1或2之設備，其中該一或多個受關注物件係基於該使用者裝置相對於該等物件之移動方向來識別。
如請求項1或2之設備，其中該等音訊物件包含處於一容積性虛擬場景中之虛擬物件。
如請求項12之設備，其中該等個別第一音訊信號受限於與該第一位準不同之一第二最大振幅位準，並且該等第一與第二最大振幅位準之間的差異可基於該使用者裝置在該音訊場景中之位置來動態調整。
一種用於音訊場景處理之方法，其包含：從一音訊場景中之多個音訊物件識別一或多個受關注音訊物件；處理與該多個物件相關聯之第一音訊信號以提供給一使用者裝置，其包含：組合與該等音訊物件相關聯之該等第一音訊信號以形成組合式第一音訊信號；修改該等組合式第一音訊信號之振幅，並且將該等組合式第一音訊信號之最大振幅限制於一第一位準；以及修改與該一或多個受關注音訊物件相關聯之一或多個個別第一音訊信號之振幅，該修改係獨立於用於該等組合式第一音訊信號之修改。
如請求項14之方法，其更包含隨後組合已受該第一位準限制之該等組合式第一音訊信號與該一或多個個別第一音訊信號，並且提供所產生信號提供給該使用者裝置。
如請求項14或15之方法，其更包含：在一第一處理路徑中，對該等組合式第一音訊信號施用第一動態範圍壓縮；以及在一第二處理路徑中，對分別與該一或多個受關注物件相關聯之該一或多個個別第一音訊信號施用個別第二動態範圍壓縮。
如請求項16之方法，其更包含：於組合之前，在該第一處理路徑中放大該等第一音訊信號；以及於施用個別第二動態範圍壓縮之後，在該第二處理路徑中放大該一或多個個別第一音訊信號，其中該在該第二處理路徑中放大係基於該使用者裝置離該一或多個受關注音訊物件之距離。
如請求項17之方法，其中該放大係藉由該使用者裝置離該一或多個受關注音訊物件之倒距離來決定。
如請求項16之方法，其中多個受關注物件受到識別，並且其中個別施用於各個別第一音訊信號之該第二動態範圍壓縮對於該等個別第一音訊信號具有不同動態範圍壓縮特性。
一種儲存有電腦程式碼之電腦可讀媒體，該電腦可讀媒體及電腦程式碼被組配來用以在至少一個處理器上運行時：從一音訊場景中之多個音訊物件識別一或多個受關注音訊物件；處理與該多個物件相關聯之第一音訊信號以提供給一使用者裝置，其包含：組合與該等音訊物件相關聯之該等第一音訊信號以形成組合式第一音訊信號；修改該等組合式第一音訊信號之振幅，並且將該等組合式第一音訊信號之最大振幅限制於一第一位準；以及修改與該一或多個受關注音訊物件相關聯之一或多個個別第一音訊信號之振幅，該修改係獨立於用於該等組合式第一音訊信號之修改。