TWI604738B

TWI604738B - 處理空間音訊之方法，系統及製造物品

Info

Publication number: TWI604738B
Application number: TW104139978A
Authority: TW
Inventors: 金萊軒; 拉格胡佛沛瑞; 艾瑞克維瑟
Original assignee: 高通公司
Priority date: 2015-01-02
Filing date: 2015-11-30
Publication date: 2017-11-01
Also published as: US9578439B2; US20160198282A1; CN107113528B; EP3241360A1; CN107113528A; WO2016109065A1; TW201630441A

Description

處理空間音訊之方法，系統及製造物品

根據35 U.S.C.§ 119指定主張優先權

本專利申請案主張2015年1月2日申請之標題為「具有使用者可組態之聲聚焦的多通道聲重現(Multi-Channel Sound Reproduction With User Configurable Sound Focus)」之臨時申請案第62/099,395號的優先權，且藉此將該臨時申請案以其全文引用的方式明確地併入本文中，猶如完全在本文中闡述一般。

本發明大體而言係關於音訊系統且，更特定而言，係關於一種可動態地組態之多通道音訊系統。

習知多通道記錄通常在播放環境中假定固定擴音器位置；且因此，一些習知多通道音效系統基於標準擴音器組態處理並儲存音訊信號。標準多通道擴音器組態包括習知L-R立體聲、5.1環場音效及7.1環場音效以及其他音效。然而，在使用者之聲學空間(例如，起居室、汽車或其類似者)中，擴音器位置與藉由標準指定之彼等擴音器位置不匹配並不少見。此外，若使用者想要動態地組態擴音器設定或聚焦於聲源或方向，則應考慮實際設定及/或使用者或裝置選擇以用於恰當之音訊處理。舉例而言，若一個擴音器出於諸如電池不足問題或非標準位置之某種原因而為非理想的，則音訊播放系統應獲得此資訊並即時反映此等差異以用於恰當之音訊處理。

存在用以使用經編碼聲源形成虛擬擴音器位置以補償擴音器位置不匹配的一些已知方法，但此等方法可引起不可避免之聲源位置不匹配，此係因為該等方法中之一些方法試圖重新映射經處理之輸出以形成虛擬擴音器。

為了解決前述缺點，本文中所揭示之技術可處理經方向性編碼音訊以考慮收聽者播放環境之實體特性，諸如實際擴音器位置。本發明技術亦可處理經方向性編碼音訊以准許對音訊場景中來自特定方向的聲音進行聚焦/散焦。所揭示技術之優點在於：可在播放時更準確地重現所記錄音訊場景，而不管輸出擴音器設定(亦即，擴音器之實體組態及佈局)。另一優點在於：技術可准許使用者動態地組態音訊資料以使得其更好地符合使用者之特定擴音器佈局及/或使用者之對音訊場景中的特定對象或區域之所要聚焦。

根據所揭示技術之態樣，一種處理音訊之方法包括：接收對應於場景之音訊資料。該音訊資料包括指示該場景中之一或多個聲源之一或多個方向的空間資訊。基於識別播放環境之一或多個空間特性之輸入資料而修改該音訊資料。

根據另一態樣，一種系統包括經組態以接收對應於場景之音訊資料的介面。該音訊資料包括指示場景中之一或多個聲源之一或多個方向的空間資訊。該系統亦包括處理器，該處理器經組態以基於識別播放環境之一或多個空間特性之輸入資料而修改該音訊資料。

根據又一態樣，一種系統包括用於接收對應於場景之音訊資料之構件，其中該音訊資料包括指示場景中之一或多個聲源之一或多個方向的空間資訊；及用於基於識別播放環境之一或多個空間特性之輸入資料而修改音訊資料的構件。

根據又一態樣，一種體現可由一或多個處理器執行之指令集的電腦可讀媒體儲存用於接收對應於場景之音訊資料的程式碼，其中該音訊資料包括指示場景中之一或多個聲源之一或多個方向的空間資訊。該電腦可讀媒體亦儲存用於基於識別播放環境之一或多個空間特性之輸入資料而修改音訊資料的程式碼。

前述概述並不界定對所附申請專利範圍之限制。在檢查以下各圖及詳細描述後，熟習此項技術者即將顯而易見或將變得顯而易見其他態樣、特徵及優點。意欲將所有此等額外特徵、態樣及優點包括於此描述內且受隨附申請專利範圍保護。

100‧‧‧音訊輸出空間/音訊空間

102a‧‧‧區段

102b‧‧‧區段

102c‧‧‧區段

102d‧‧‧區段

102e‧‧‧區段

104a‧‧‧區段邊界

104b‧‧‧區段邊界

104c‧‧‧區段邊界

104d‧‧‧區段邊界

104e‧‧‧區段邊界

106a‧‧‧音訊遮蔽窗

106b‧‧‧音訊遮蔽窗

106c‧‧‧音訊遮蔽窗

106d‧‧‧音訊遮蔽窗

106e‧‧‧音訊遮蔽窗/區段5

108a‧‧‧擴音器

108b‧‧‧擴音器

108c‧‧‧擴音器

108d‧‧‧擴音器

108e‧‧‧擴音器

110a‧‧‧標準擴音器位置

110b‧‧‧標準擴音器位置

110c‧‧‧標準擴音器位置

110d‧‧‧標準擴音器位置

110e‧‧‧標準擴音器位置

200‧‧‧曲線圖

201‧‧‧遮蔽窗函數

202‧‧‧x軸

203‧‧‧y軸

204‧‧‧單位一

206a‧‧‧分段餘弦函數

206b‧‧‧分段餘弦函數

300‧‧‧音訊輸出空間/音訊空間

302‧‧‧區段

304‧‧‧邊界

306a‧‧‧實際擴音器/實際擴音器位置

306b‧‧‧實際擴音器/實際擴音器位置

306c‧‧‧實際擴音器/實際擴音器位置

306d‧‧‧實際擴音器/實際擴音器位置

306e‧‧‧實際擴音器/實際擴音器位置

308a‧‧‧所推薦擴音器位置

308b‧‧‧所推薦擴音器位置

308c‧‧‧所推薦擴音器位置

308d‧‧‧所推薦擴音器位置

308e‧‧‧所推薦擴音器位置

400‧‧‧音訊輸出空間/音訊空間/音訊輸出場

401‧‧‧區/經啟用區/頂部區

402a‧‧‧使用者可選擇區/第一可選擇區/第一區

402b‧‧‧使用者可選擇區/第二可選擇區

402c‧‧‧使用者可選擇區/第三可選擇區

402d‧‧‧使用者可選擇區/第四可選擇區

403‧‧‧區

404a‧‧‧邊界

404b‧‧‧邊界

404c‧‧‧邊界

404d‧‧‧邊界

405‧‧‧左通道區段/區段/通道區段

406‧‧‧區段邊界

407‧‧‧右通道區段/區段/通道區段

408a‧‧‧左擴音器

408b‧‧‧右擴音器

500‧‧‧音訊輸出空間

502a‧‧‧區/使用者啟用區/區/第一經啟用區

502b‧‧‧區/使用者啟用區/第二經啟用區

503a‧‧‧邊界

503b‧‧‧邊界

503c‧‧‧邊界

503d‧‧‧邊界

504a‧‧‧區

504b‧‧‧區

600‧‧‧多通道音訊場景空間/空間/音訊場景

600a‧‧‧操作情境/第一操作情境

600b‧‧‧操作情境/第二操作情境

600c‧‧‧操作情境/第三操作情境

600d‧‧‧操作情境/第四操作情境

600e‧‧‧操作情境

600f‧‧‧操作情境

600g‧‧‧操作情境

600h‧‧‧操作情境

602‧‧‧裝置

604a‧‧‧麥克風

604b‧‧‧麥克風

604c‧‧‧麥克風

606a‧‧‧區段邊界

606b‧‧‧區段邊界

606c‧‧‧區段邊界

606d‧‧‧區段邊界

606e‧‧‧區段邊界

607‧‧‧螢幕

608‧‧‧區/左側區/經啟用區/經停用區

610‧‧‧區/經停用區/頂部區/經啟用區

612‧‧‧區/右側區/經啟用區/經停用區

614‧‧‧區/經停用區/底部區/經啟用區

620a‧‧‧中心通道擴音器

620b‧‧‧右通道擴音器

620c‧‧‧環場右通道擴音器

620d‧‧‧環場左通道擴音器

620e‧‧‧左通道擴音器

700‧‧‧立體聲音訊場景空間/空間/音訊空間

700a‧‧‧操作情境/第一操作情境

700b‧‧‧操作情境/第二操作情境

700c‧‧‧操作情境/第三操作情境

700d‧‧‧操作情境/第四操作情境

700e‧‧‧操作情境

700f‧‧‧操作情境

700g‧‧‧操作情境

700h‧‧‧操作情境

712‧‧‧區段邊界

720‧‧‧左通道擴音器

722‧‧‧右通道擴音器揚聲器

800‧‧‧音訊場景

802‧‧‧手持式裝置/裝置/俘獲裝置

804‧‧‧顯示螢幕

806‧‧‧麥克風

808‧‧‧後置攝影機/攝影機

810‧‧‧可選擇區

812‧‧‧可選擇區/頂部區

814‧‧‧可選擇區

816‧‧‧可選擇區

818‧‧‧邊界

820‧‧‧左通道擴音器

821‧‧‧遮蔽窗函數

822‧‧‧右通道擴音器

823‧‧‧遮蔽窗函數

900‧‧‧音訊輸出空間

902‧‧‧前置攝影機

1000‧‧‧系統

1001‧‧‧裝置

1002‧‧‧音訊處理器

1004‧‧‧圖形使用者介面

1005‧‧‧遮罩產生器

1006‧‧‧音訊播放模組/模組

1008‧‧‧音訊揚聲器/揚聲器

1010‧‧‧經方向性編碼(空間)音訊資料/經方向性編碼音訊

1050‧‧‧對數位音訊資料進行塑形之方法

1100‧‧‧系統

1102‧‧‧裝置

1104a‧‧‧第一麥克風

1104b‧‧‧第二麥克風

1104c‧‧‧第三麥克風

1106‧‧‧顯示器

1108‧‧‧輸入信號

1108a‧‧‧第一輸入信號

1108b‧‧‧第二輸入信號

1108c‧‧‧第三輸入信號

1110‧‧‧音訊信號

1114‧‧‧音訊分析器

1118‧‧‧使用者

1120‧‧‧圖形使用者介面

1130‧‧‧選擇

1140‧‧‧可選擇選項

1150‧‧‧圖形使用者介面資料

1190‧‧‧波束成形器

1204d‧‧‧第四麥克風

1204e‧‧‧第五麥克風

1206‧‧‧攝影機

1208‧‧‧聽筒

1210a‧‧‧第一擴音器

1210b‧‧‧第二擴音器

1220‧‧‧正視圖

1230‧‧‧後視圖

1240‧‧‧側視圖

1300a‧‧‧遠場模型

1300b‧‧‧麥克風置放

1400‧‧‧麥克風配置

1600‧‧‧場景/收聽空間

1602a‧‧‧擴音器/揚聲器/左通道揚聲器

1602b‧‧‧擴音器

1602c‧‧‧擴音器

1602d‧‧‧擴音器

1602e‧‧‧擴音器

1602f‧‧‧擴音器

1602g‧‧‧擴音器

1604‧‧‧使用者裝置

1606‧‧‧使用者

S01‧‧‧來源

應理解，圖式僅用於說明之目的且並不界定對所附申請專利範圍之限制。此外，諸圖中之組件未必按比例繪製。在諸圖中，相似參考數字貫穿不同視圖指明對應零件。

圖1為說明實例音訊輸出空間之概念圖，其中將音訊遮蔽窗應用於經方向性編碼音訊資料以補償不匹配之擴音器位置。

圖2為說明例示性遮蔽窗函數之曲線圖。

圖3為說明經劃分成26個區段之另一實例音訊輸出空間的概念圖。

圖4為說明實例音訊輸出空間之概念圖，其中音訊空間之一區由使用者啟用且音訊空間之其他區經停用。

圖5為說明實例音訊輸出空間之概念圖，其中音訊空間之兩個區由使用者啟用且音訊空間之其他區經停用。

圖6A至圖6B為說明不同操作情境期間之實例多通道音訊空間的概念圖，其中各種音訊場景區由使用者選擇性地啟用或停用。

圖7A至圖7B為說明不同操作情境期間之實例立體聲音訊空間的概念圖，其中各種音訊場景區由使用者選擇性地啟用或停用。

圖8為說明手持式裝置周圍之實例音訊場景空間的概念圖，其中對應於手持式裝置之後置攝影機之音訊區經啟用。

圖9為說明手持式裝置周圍之實例音訊場景空間的概念圖，其中對應於手持式裝置之前置攝影機之音訊區經啟用。

圖10為根據本文中所揭示技術之用於對音訊進行塑形之例示性系統的方塊圖。

圖11為說明根據本文中所揭示技術之對音訊進行塑形之方法的流程圖。

圖12為可操作以執行多通道音訊產生及方向性編碼所接收音訊之實例系統的圖。

圖13為可操作以實施圖12之系統之裝置的實例之多個視圖的圖。

圖14A為相對於圖12之系統之麥克風對的平面波傳播之實例遠場模型的圖。

圖14B為可對應於圖12之系統之麥克風的實例麥克風置放的圖。

圖15為可包括於圖12之系統中的麥克風之替代例示性配置的圖。

圖16為說明用於校準播放系統之擴音器的實際位置以使得可根據本文中所描述之技術對音訊資料進行塑形以考慮實際揚聲器位置的技術之概念圖。

參看圖式且併有圖式之以下詳細描述描述並說明音訊處理技術之一或多個特定實例。充分詳細地展示及描述並非為了限制而提供而僅用以舉例說明及教示所揭示內容而提供的此等技術，以使得熟習此項技術者能夠實踐所揭示技術。因此，在適於避免混淆技術之情況下，描述可省略熟習此項技術者已知的某些資訊。

詞「例示性」貫穿本申請案用於意謂「用作實例、例子或說明」。本文中描述為「例示性」之任何系統、方法、裝置、技術、特徵或其類似者未必應被解釋為較其他特徵較佳或有利。

本文中所揭示之音訊處理技術之優點在於：可經由圖形使用者介面(GUI)自訂音訊俘獲以考慮任意或非標準擴音器佈局。因此，可對基於標準通道俘獲之數位音訊資料進行「塑形」以考慮非標準擴音器組態。可如實重現聲音之空間印象而不管距所推薦標準位置之擴音器偏移。在本創新之前，對於自訂音訊俘獲及/或播放，並不存在此類靈活性及穩健性。已知之音訊俘獲及/或播放係針對固定標準擴音器位置，例如，環場音效5.1、環場音效7.1、立體聲、單聲道或其類似者。

使用者可能想要在播放時儘可能類似地重現所記錄音訊場景，而不管其輸出擴音器設定(亦即，擴音器之實體組態及佈局)。所揭示音訊處理技術准許使用者動態地組態音訊資料以使得其分別更好地符合使用者之特定擴音器佈局。

另外，所揭示音訊處理技術結合透明方向性音訊場景重現提供對來自特定方向之聲音進行聚焦/散焦的能力。所揭示音訊處理技術可在(例如)成對/基於向量之振幅平移(panning)之內容脈絡內提供所記錄聲源與所重現源位置之間的透明匹配。因此，所揭示技術提供使用者可調整之聲音聚焦/散焦能力，同時維持對所重現音訊場景內之聲音之方向性感知。

所揭示技術亦可在播放/處理時動態地執行位置聲音編碼以使得音效系統可基於實際位置及可用擴音器之數目、基於關於此等擴音器之先驗位置資訊而達成互易性。

本文中參考二維音訊空間(場景)描述音訊處理技術。然而，可藉由沿z軸添加一或多個麥克風(用於俘獲處理程序)及擴音器(用於播放) 而將所揭示技術擴展至三維音訊場景。

圖1為說明表示向一或多個收聽者播放音訊之播放環境的實例音訊輸出空間100(輸出場景)的概念圖。在所展示之實例中，使用五個輸出音訊通道，其中在實際擴音器108a至108e上播放音訊。例示性組態為環場音效系統5.1，其中擴音器108a對應於左(L)通道，擴音器108b對應於中心(C)通道，擴音器108c對應於右(R)通道，擴音器108d對應於環場右(SR)通道，擴音器108e對應於環場左(SL)通道。然而，如圖1中所展示，使用者之真實擴音器108a至108e的實際位置偏離標準擴音器位置110a至110e。在實例中，標準擴音器位置110a至110e對應於藉由環場音效5.1指定之彼等位置。

如概念上所說明，由音效系統(圖1中未展示)將音訊遮蔽窗106a至106e應用於經方向性編碼音訊資料以補償不匹配之擴音器位置。為了完成遮蔽，將音訊空間100劃分成五個使用者可組態之區段102a至102e。藉由區段邊界104a至104e描繪區段102a至102e。邊界位置可為使用者界定的，如下文結合圖4及圖10至圖11進一步描述。因此，使用者可藉由界定每一區段之邊界來界定每一區段之區。儘管可使用任何合適方法或量測來界定邊界及區段，但出於說明之目的，可將邊界界定為自空間之中心發出之徑向線，其中單位圓角界定邊界104a至104e中之每一者之位置。舉例而言，區段5 106e之邊界104a、104e分別位於0度及90度。邊界及區段為可用以描述播放環境的空間特性之資料或資訊之實例。

每一區段102a至102e可對應於各別擴音器108a至108e之實際位置。在一些情況中，擴音器可居中定位於邊界之間在其各別區段內。

此處所描述之音訊處理技術可適用於具有任何合適數目個區段之音訊空間，且區段之大小及形狀可變化，且其大小或形狀可能均勻或可能不均勻。

遮蔽窗106a至106e可為應用於經方向性編碼輸入音訊資料以根據播放音訊空間100之擴音器組態對輸出音訊進行「塑形」之增益函數。每一遮蔽窗函數可使用基於頻率區間之遮蔽及時間-頻域平滑化。

針對每一所俘獲音訊訊框，按照頻率區間估計到達方向(DOA)，從而產生經方向性編碼音訊訊框。可將每一訊框之方向資訊(DOA)連同描述訊框之其他音訊資料(諸如，頻譜資訊)一起保留。下文結合圖12至圖15描述用於估計輸入音訊之DOA的技術。基於輸入音訊之所估計DOA，計算每一輸出通道108a至108e之遮蔽窗增益。一般而言，針對每一音訊訊框計算M個遮蔽增益(對應於M個音訊輸出通道)，其中M為整數。

在圖1之實例音訊空間100中，M=5，且因此，針對音訊之每一訊框計算五個遮蔽增益。以另一實例說明，考慮M=2，其可為表示立體聲輸出之音訊空間。因此，針對每一音訊訊框，基於每一頻率區間之DOA，計算兩個遮蔽增益，一個遮蔽增益用於左通道且另一個遮蔽增益用於右通道。儘管本說明中描繪雙通道及五通道音訊場景，但本文中所描述之音訊處理技術可適用於具有任何合適數目(M)個通道之場景。

圖2為說明例示性遮蔽窗函數201之曲線圖200。遮蔽窗函數201為分段餘弦函數。曲線圖x軸202表示DOA，且曲線圖y軸203表示增益。在所展示之實例中，增益在0與1(單位一)之間變化。

實例函數201說明僅啟用一個音訊區段且區段邊界為225度及315度之狀況。遮蔽窗經設計成區段之中心(270度)具有單位增益。移動遠離中心，增益可在「衰減開始」角度(其為為調諧參數之度數值)之前維持為單位一204。

遮蔽函數之結束具有零增益。此等結束之位置可藉由使用「衰減結束」角度來調諧。

介於單位一增益與零增益之間的窗之部分可為分段餘弦函數(在圖2中參考為206a至206b)。為了計算具有按音訊訊框之所估計DOA角度θ(以度為單位)應用之增益的音訊輸出，可使用以下廣義函數：其中「增益」為遮蔽窗函數輸出(音訊輸出信號)，「衰減結束」等於衰減結束(例如，參見圖2)時介於零增益與單位一增益之間的度數，且p₂為藉由訊框表示之輸入音訊信號之振幅。

參看圖1，遮蔽窗函數可經組態以使得每一實際擴音器位置108a至108e處之增益為單位一，且在每一區段邊界104a至104e處，增益為1/sqrt(2)以確保邊界處之平滑音訊過渡。邊界處之增益為可調諧的。

可使用其他合適之遮蔽窗函數，包括基於成對平移規則之彼等函數，如緊接著在下文所描述。

針對成對平移規則，大體上遵循關於平移之正弦定律。

舉例而言，參看圖1，在左通道108a與中心通道108b之間，存在30度角距離，且自左擴音器位置量測聲源DOA角θ產生：

其中Left₂為左通道擴音器108a之輸出且Center₂為中心通道揚聲器108b之輸出，且p₂為輸入音訊振幅。

可使用各別角距離及DOA角對每一對擴音器執行類似計算。一旦進行每一對之此等計算，便將其加總在一起以獲得每通道之最終輸出。舉例而言，針對圖1之左揚聲器108a，可執行以下計算：其中N等於揚聲器對之數目且Left_final為左通道輸出。

亦可藉由取決於收聽者與特定擴音器之間的直線距離而引入每通道超過一個增益因子來考慮自收聽者至每一擴音器之距離不匹配。

舉例而言，為了考慮圖1之收聽者與左通道揚聲器108a之間的實際距離，可使用以下等式：Left _final=gain _Left．Left _final (等式5)

其中Distance _Max可為收聽者與擴音器108a之間的標準的預期距離，且Distance _Left為收聽者與擴音器108a之間的實際距離。在圖100之實例空間100中，收聽者可位於圖之中心中。

可替代地將基於向量之平移規則用於遮蔽窗，諸如於2013年3月14日申請之標題為「合作音效系統(Collaborative Sound System)」之美國專利申請案第13/831,515號中所描述的彼規則。

圖3為說明經劃分成26個區段之第二實例音訊輸出空間300的概念圖。在此狀況下，區段之數目N等於26。音訊空間300係藉由26個等大小之區段302(藉由邊界304劃定)表示。在輸出場景300中，藉由實際擴音器306a至306e播放音訊，每一實際擴音器輸出環場音效5.1之各別通道。擴音器306a至306e之位置可能與環場音效5.1之所推薦擴音器位置308a至308e不匹配，如所展示。

可記錄來自輸入音訊場景之音訊且接著如上文結合圖1至圖2所描述將其關於實際擴音器位置306a至306e後處理成多通道音訊輸出(在圖3之實例中，五個通道)。舉例而言，將區段1中具有DOA之音訊訊框指派給由擴音器306a輸出之中心通道。取決於所使用之平移規則或遮蔽窗函數且基於區段2中佔優勢聲源之DOA角，將區段2中具有DOA之音訊訊框指派給中心通道306a及左通道306b。取決於所使用之平移規則或遮蔽窗函數且基於區段3中佔優勢聲源之DOA角，將區段3中出現的具有DOA之音訊訊框指派給中心通道306a及左通道306b。將區段4中具有所估計DOA之音訊訊框指派給左通道306b，等等。

在具有任意數目(N)個區段之情況下，處理技術可處置任何數目(M)個擴音器，其中MN，而不失一般性。

區段302不需要具有相等角距離及大小，如圖3中所描繪。

圖4為說明實例音訊輸出空間400之概念圖，其中音訊空間400之區401由使用者啟用且音訊空間400之其他區403經停用。在此實例中，不僅取決於音訊之DOA而藉由遮蔽窗函數或平移規則(如圖1至圖3中所說明)對經方向性編碼音訊進行塑形，而且基於音訊空間400之使用者所選擇區對經方向性編碼音訊進一步進行塑形。此情形准許使用者將音訊播放聚焦於音訊空間中之所要區上。

該等區可對應於內部定位有聲源且經受由音訊系統記錄之音訊場景中之區域及方向。

實例音訊空間400描繪具有兩個通道區段(左通道區段405及右通道區段407)之場景，該等通道區段具有概念上在90度與270度之間延行以劃分區段405、407之區段邊界406。左擴音器408a提供左通道音訊輸出，且右擴音器408b提供左通道音訊輸出。此通道配置可表示立體聲輸出。

存在藉由邊界404a至404d分離之四個使用者可選擇區402a至402d。使用者可選擇區402a至402d之數目、邊界位置及大小可由使用者經由圖形使用者介面(GUI)來組態，該圖形使用者介面可以單位圓方式顯示音訊場景，諸如圖1、圖2及圖4中所說明。如實例中所展示，第一可選擇區402a在225°與315°之間延伸；第二可選擇區402b在120°與225°之間延伸；第三可選擇區402c在60°與120°之間延伸；且第四可選擇區402d在315°與60°之間延伸。可使用任何合適數目個通道區段及使用者可選擇區。

實例空間400展示第一區402a經選擇(經啟用)，且其他三個區 402b至402d經停用。

為了完成圖4中所描繪之音訊處理，由使用者經由GUI輸入兩種類型之參數。此等參數為：

區段邊界及區邊界一此等邊界可為按區段邊界及區邊界所位於的單位圓之度數計的鍵入角。此等邊界可由使用者在音訊記錄期間或在音訊播放期間即時改變。

區啟用一關於是否啟用特定區之資訊。使用者可在記錄期間或在播放期間即時選擇或不選擇區。

基於來自GUI之區啟用資訊，針對經啟用區段中之每一者產生遮蔽窗。判定哪些區段或其部分經啟用需要將經啟用區映射至區段。此情形取決於區段邊界及區邊界。在已知來自GUI之使用者組態的情況下，可根據以下方法做出經啟用區屬於某一通道區段抑或其組合之決策。參看圖4之音訊空間400說明該方法。因此，如下文所論述，方法決定經啟用區401屬於左通道區段405、右通道區段407抑或兩者之組合。

例示性方法如下進行。首先針對每一角度以1度為步長將區啟用資訊轉換成0及1。舉例而言，考慮以下狀況：其中，藉由如圖4中所展示之區段邊界406組態僅啟用圖4之頂部區401。

如下產生360×1矩陣：

若角度為經啟用區之部分，則彼角度下之矩陣=1

若角度並非經啟用區之部分，則彼角度下之矩陣=0。

以此方式，基於經啟用區資訊產生0及1之360×1矩陣。該矩陣可儲存於音訊處理系統中且供一或多個軟體程式用於執行方法。

接著，針對每一通道區段405、407，需要獲得遮蔽窗之開始點及結束點。為了對右通道區段407進行此操作，方法自90度邊界開始且向上遞增1度地搜尋矩陣，直至其命中(hit)儲存於矩陣中之第一個1 為止。在實例空間400中，第一個1可見於矩陣中225度之角度。方法將此點視為用於右通道區段之遮蔽窗之開始點。接下來，方法繼續依序搜尋矩陣中之0，直至其到達270度之第二區段邊界(該邊界為右通道區段邊界)為止。將出現第一個0之角度視為用於右通道之遮蔽窗的結束。若直至270度邊界之後矩陣中仍未出現0，則將左通道區段之開始點(在此狀況下為315度)視為右通道區段遮蔽窗之結束點。

以類似方式，執行左通道遮蔽窗之開始點及結束點。可自270度之區段邊界開始，逆時針方向地執行對左通道區段之依序矩陣搜尋以獲得1之第一次命中及0之第一次命中，直至到達90度邊界為止。

若經啟用區401共用區段邊界(如同在圖4中之情形)，則方法將所連接區段視為一個區段。在此狀況下，最外經啟用區邊界變成區段邊界。因此，根據方法，區段邊界在某一情況下可重疊。舉例而言，在圖4之音訊輸出場景400中，出於計算左通道遮蔽窗之目的，將左通道區段邊界擴展至225度而非270度。相反地，出於計算右通道遮蔽窗之目的，將右通道區段邊界擴展至315度而非270度。

接下來，在判定區段邊界之情況下，使用遮蔽窗計算每頻率區間每訊框之增益，如上文結合圖1至圖3所論述。在圖4之實例音訊空間中，可針對具有介於225°與315°之間的DOA θ的音訊訊框計算以0度為中心之左通道遮蔽函數；且可針對具有介於225°與315°之間的相關聯DOA θ的音訊訊框計算以180度為中心之右通道遮蔽函數。

圖5為說明實例音訊輸出空間500之概念圖，其中音訊空間500之兩個不相交區502a、502b由使用者啟用且音訊空間之其他區504a、504b經停用。經使用者啟用區藉由邊界503a至503d界定。此處存在屬於左通道區段405之兩個經使用者啟用區502a、502b及屬於右通道區段407之一個區502a。GUI可用以鍵入關於區及區段邊界以及區啟用之資訊，如結合圖4所描述。上文結合圖4所描述之矩陣搜尋方法可用以判定左通道遮蔽窗及右通道遮蔽窗兩者之開始點及結束點。

在此狀況下，如上文結合圖4所論述般產生右通道遮蔽窗。針對左通道，產生兩個遮蔽窗，每一經啟用區502a至502b一個遮蔽窗。接著將應用於左通道之累積遮蔽窗增益計算為，Gain _Left=Gain ₁+Gain ₂ (等式7)

Gain ₁一根據第一經啟用區502a之增益，如使用左通道遮蔽窗函數計算。

Gain ₂一根據第二經啟用區502b之增益，如使用左通道遮蔽窗函數計算。

在此情境中，針對任一給定DOA，兩個左通道增益中之一者或兩者始終為零。

針對圖4及圖5之上述描述假定立體聲輸出。然而，此等圖中所描繪之音訊處理技術可應用於M個輸出通道(例如，區段)，例如，可根據類似於上文所論述之彼等技術之技術產生五通道或七通道環場音效輸出。差異為：代替計算兩個遮蔽窗增益(左通道及右通道各一個遮蔽窗增益)，計算五個或七個遮蔽窗增益，對應通道中之每一者一個遮蔽窗增益。

圖6A至圖6B為說明八個不同操作情境600a至600h期間之實例多通道音訊場景空間600的概念圖，其中各個區608、610、612、614由使用者選擇性地啟用或停用。用於根據本文中所描述之方法記錄及處理音訊之裝置602居中定位於空間600內。裝置可為具有用於顯示GUI之螢幕607及多個麥克風604a至604c的諸如蜂巢式電話或智慧型電話之手持式裝置。GUI可供使用者用以輸入關於區段、區段邊界、區、區邊界及區啟用選擇之資訊。

在藉由圖6A至圖6B描繪之實例中，裝置602可根據由裝置602之使用者設定之組態劃分音訊場景600。在所展示之實例中，將音訊場景600劃分成五個通道區段，如藉由區段邊界606a至606e指示。區段組態對應於五通道環場音效系統，其具有中心(C)通道擴音器620a、右(R)通道擴音器620b、環場右(SR)通道擴音器620c、環場左(SL)通道擴音器620d、左(L)通道擴音器620e。可使用其他區段(擴音器)組態，諸如七通道輸出。

根據結合圖1至圖5及圖10至圖11所描述之技術，藉由一或多個遮蔽窗函數處理經使用者啟用區(經聚焦區域)。遮蔽窗中之每一者可對對應區段擴音器之位置給予單位一增益且可給予恰當衰減(諸如，圖2之分段餘弦函數)以抑制來自屬於其他擴音器通道區段之經停用區或方向的聲音。

在第一操作情境600a中，左側區608(黑暗陰影)經啟用以用於音訊俘獲/播放，且其他區610至614(線陰影)經停用。可(例如)由使用者經由GUI輸入來完成啟用/停用選擇，如參看圖4所描述。結合圖4所描述之方法可用以判定此情境中欲應用於所記錄音訊之遮蔽窗函數的開始點及結束點。接著可將遮蔽窗應用於音訊，如結合圖1至圖3所描述。以此方式，將位於經啟用區608中之聲源聚焦，同時抑制經停用區中之聲源。

在第二操作情境600b中，左側區608及右側區612(均為黑暗陰影)經啟用以用於音訊俘獲/播放，且其他區610、614(線陰影)經停用。可(例如)由使用者經由GUI輸入來完成啟用/停用選擇，如參看圖4所描述。結合圖4所描述之方法可用以判定此情境中欲應用於所記錄音訊之遮蔽窗函數的開始點及結束點。接著可將遮蔽窗應用於音訊，如結合圖1至圖3所描述。以此方式，將位於經啟用區608、612中之聲源聚焦，同時抑制經停用區610、614中之聲源。

在第三操作情境600c中，頂部區610及底部區614(黑暗陰影)經啟用以用於音訊俘獲/播放，且其他區608、612(線陰影)經停用。可(例如)由使用者經由GUI輸入來完成啟用/停用選擇，如參看圖4所描述。結合圖4至圖5所描述之方法可用以判定此情境中欲應用於所記錄音訊之遮蔽窗函數的開始點及結束點。接著可將遮蔽窗應用於音訊，如結合圖1至圖3所描述。以此方式，將位於經啟用區610、614中之聲源聚焦，同時抑制經停用區608、612中之聲源。

在第四操作情境600d中，左側區608、頂部區610及右側區612(黑暗陰影)經啟用以用於音訊俘獲/播放，且剩餘區614(線陰影)經停用。可(例如)由使用者經由GUI輸入來完成啟用/停用選擇，如參看圖4所描述。結合圖4所描述之方法可用以判定此情境中欲應用於所記錄音訊之遮蔽窗函數的開始點及結束點。接著可將遮蔽窗應用於音訊，如結合圖1至圖3所描述。以此方式，將位於經啟用區608至612中之聲源聚焦，同時抑制經停用區614中之聲源。

應以類似於先前所描述之情境600a至600d的方式來理解圖6B之剩餘操作情境600e至600h，其中實心陰影區描繪經啟用區且線陰影區描繪停用區。

圖7A至圖7B為說明八個不同操作情境700a至700h期間之實例立體聲音訊場景空間700的概念圖，其中各個區608至614由使用者選擇性地啟用或停用。用於根據本文中所描述之方法記錄及處理音訊之裝置602居中定位於空間700內。裝置GUI可供使用者用以輸入關於區段、區段邊界、區、區邊界及區啟用選擇之資訊。

在藉由圖7描繪之實例中，裝置602根據經由裝置GUI組態之使用者邊界選擇將音訊空間700劃分成兩個通道區段(立體聲輸出)，如藉由區段邊界712指示。區段分別對應於左(L)通道擴音器720及右(R)通道擴音器722。

根據結合圖1至圖4及圖10至圖11所描述之技術，藉由一或多個遮蔽窗處理經使用者啟用區(經聚焦區域)。遮蔽窗中之每一者可對對應區段擴音器之位置給予單位一增益且可給予恰當衰減(諸如，圖2之分段餘弦函數)以抑制來自屬於其他擴音器通道區段之經停用區或方向的聲音。

在第一操作情境700a中，左側區608(黑暗陰影)經啟用以用於音訊俘獲/播放，且其他區610至614(線陰影)經停用。可(例如)由使用者經由GUI輸入來完成啟用/停用選擇，如參看圖4所描述。結合圖4所描述之方法可用以判定此情境中欲應用於所記錄音訊之遮蔽窗函數的開始點及結束點。接著可將遮蔽窗應用於音訊，如結合圖1至圖3所描述。以此方式，可將位於經啟用區608中之聲源聚焦，同時抑制經停用區610至614中之彼等聲源。

在第二操作情境700b中，左側區608及右側區612(黑暗陰影)經啟用以用於音訊俘獲/播放，且其他區610、614(線陰影)經停用。可(例如)由使用者經由GUI輸入來完成啟用/停用選擇，如參看圖4所描述。結合圖4所描述之方法可用以判定此情境中欲應用於所記錄音訊之遮蔽窗函數的開始點及結束點。接著可將遮蔽窗應用於音訊，如結合圖1至圖3所描述。以此方式，將位於經啟用區608、612中之聲源聚焦，同時抑制經停用區610、614中之聲源。

在第三操作情境700c中，頂部區610及底部區614(黑暗陰影)經啟用以用於音訊俘獲/播放，且其他區608、612(線陰影)經停用。可(例如)由使用者經由GUI輸入來完成啟用/停用選擇，如參看圖4所描述。結合圖4至圖5所描述之方法可用以判定此情境中欲應用於所記錄音訊之遮蔽窗函數的開始點及結束點。接著可將遮蔽窗應用於音訊，如結合圖1至圖3所描述。以此方式，將位於經啟用區610、614中之聲源聚焦，同時抑制經停用區608、612中之聲源。

在第四操作情境700d中，左側區608、頂部區610及右側區612(黑暗陰影)經啟用以用於音訊俘獲/播放，且剩餘區614(線陰影)經停用。可(例如)由使用者經由GUI輸入來完成啟用/停用選擇，如參看圖4所描述。結合圖4所描述之方法可用以判定此情境中欲應用於所記錄音訊之遮蔽窗函數的開始點及結束點。接著可將遮蔽窗應用於音訊，如結合圖1至圖3所描述。以此方式，將位於經啟用區608至612中之聲源聚焦，同時抑制經停用區614中之聲源。

將以類似於先前所描述之情境700a至700d的方式理解圖7B之剩餘操作情境700e至700h，其中實心陰影區描繪經啟用區且線陰影區描繪停用區。

依據保留區域化提示進行經改良場景重現可能為有可能的，其中立體聲降頻混頻另外供圖7之場景700中所展示之裝置602使用。

可將上文所描述之方法擴展至立體聲降頻混頻，其限制條件為：用於立體聲脈衝回應之資料庫足夠密集以足夠圍繞裝置602進行360度取樣。由於本文中所揭示之技術可針對任何種類之擴音器設定產生多通道音訊輸出，因此可將此音訊輸出用作至立體聲降頻混頻之輸入。藉由降頻混頻計算各自在所指明擴音器位置處之對應立體聲回應。

圖8為說明手持式裝置802周圍之實例音訊場景800的概念圖，其中對應於手持式裝置802之後置攝影機808之音訊區經啟用。裝置802可為蜂巢式電話或智慧型電話，或任何其他行動裝置。在此實例中，裝置802充當記錄用於立體聲輸出之音訊之方向性編碼的音訊俘獲裝置。方向性編碼係基於攝影機操作。

裝置802包括用於俘獲場景中之音訊之多個麥克風806及用於顯示GUI之顯示螢幕804，GUI經組態以允許使用者操作攝影機808，包括諸如鏡頭推拉功能之攝影機特徵。攝影機808可為靜態攝影機或視訊攝影機。

在場景800中，邊界818界定具有左(L)通道擴音器820之左通道區段及具有右(R)通道擴音器822之右通道區段。在音訊俘獲/播放期間，裝置802應用遮蔽窗函數821、823，如結合圖1至圖3所描述。可取決於攝影機808之操作而啟用或停用可選擇區810、812、814及816。在所展示之實例中，當攝影機808經啟動時，頂部區812經啟用(實心陰影)，而其他區810、814及816經停用(線陰影)。此情形聚焦攝影機前方之場景上的音訊記錄且抑制其他區中之聲音。結合圖4所描述之方法可用以將經啟用區映射至左通道區段及右通道區段。

如圖9中所展示，裝置802可由使用者在後置攝影機808與前置攝影機902之間切換。因此，音訊之塑形係基於俘獲裝置802之操作模式。基於後置/前置攝影機選擇，裝置802在頂部區812與底部區816之間切換經聚焦音訊區。圖9為說明裝置802周圍之實例音訊輸出空間900的概念圖，其中對應於手持式裝置82之前置攝影機902之音訊區816由於前置攝影機902經啟動而經啟用。

前置攝影機及後置攝影機808、902兩者可具有鏡頭推拉特徵。裝置802可經組態以使得頂部區812及底部區816之角寬度可取決於攝影機鏡頭推拉操作。舉例而言，當後置攝影機808經啟動時，鏡頭推近(zooming-in)可使得經啟用頂部區812之角寬度減小，以使得音訊記錄更狹窄地聚焦於鏡頭推拉操作之物件上。相反地，當攝影機808經鏡頭拉遠(zoomed-out)時，經啟用頂部區812之角寬度可增加。替代地/另外，取決於攝影機鏡頭推拉操作，可將額外增益應用於音訊通道。藉由應用額外增益，隨著推拉增加，立體聲音訊變得更像具有居中定位之影像之單聲道。針對前置攝影機902，同樣可包括相同的音訊推拉功能。

圖10為根據本文中所揭示技術的用於對音訊輸出進行塑形之例示性系統1000的方塊圖。系統1000包括耦接至一或多個音訊揚聲器1008之裝置1001。裝置1001可為音訊俘獲裝置、音訊處理裝置或兩種類型裝置之組合。舉例而言，裝置1001可為機上盒、影院音效系統、汽車音效系統、行動裝置(諸如，蜂巢式電話或智慧型電話)、視訊攝影機、靜態攝影機、兩種類型之攝影機之組合或其類似者。裝置1001包括與GUI 1004及音訊播放模組1006通信之音訊處理器1002。音訊處理器1002包括遮罩產生器1005。音訊處理器1002根據上文結合圖1至圖5所描述之方法及技術接收及處理經方向性編碼(空間)音訊資料1010。遮罩產生器1005可根據本文中所描述之方法產生一或多個遮蔽窗函數及此等函數之音訊輸出。

經方向性編碼音訊1010可由裝置1001產生或由其他記錄裝置或系統提供。裝置可包括用於儲存經方向性編碼音訊1010之記憶體(未展示)。

GUI 1004可呈現於包括於裝置1001中之顯示器(未展示)上。GUI 1004可准許使用者執行如本文中所描述之功能及控制操作(包括鍵入資料，諸如區段邊界、區邊界及經啟用區選擇)，以及音訊處理器1002及播放模組1006之控制操作。因此，GUI 1004基於使用者輸入(例如，示意動作、捏合、觸摸或其類似者)而准許使用本文中所描述方法進行自訂音訊塑形。GUI 1004亦可提供使用者介面以控制其他裝置操作，諸如攝影機操作，包括結合圖8至圖9所描述之彼等操作。

播放模組1006自音訊處理器1002接收經處理之音訊資料且將其處理成適合於由揚聲器1008輸出之形式。模組1006可包括一或多個音訊D/A轉換器、濾波器、音訊放大器及其類似者。

圖11為說明根據本文中所揭示技術的對數位音訊資料進行塑形之方法1050的流程圖。方法1050大體上描述圖10中所展示之音訊處理器1002之操作。在方框1052中，接收經方向性編碼音訊。所接收音訊資料包括用於在合適聲音重現系統上播放音訊之資訊，及關於音訊場景中之聲源之位置的資訊。可使用結合圖12至圖15所描述之技術方向性地編碼音訊。經方向性編碼或空間音訊可包括識別所接收每一音訊訊框之DOA的資訊。

在方框1054中，接收音訊區段邊界。可由使用者經由GUI(諸如，GUI 1004)輸入音訊區段邊界。區段邊界可指示單位圓上之角位置，如(例如)圖1至圖2中所說明。

在方框1056中，接收一或多個經啟用區選擇。經啟用區選擇可由使用者經由GUI(諸如，GUI 1004)輸入。經啟用區可指示單位圓上之角位置，如結合圖4至圖5所描述。替代地，經啟用區選擇可基於裝置之操作模式(例如，如圖8至圖9中所展示)，其中經啟用區取決於啟用裝置之前置攝影機抑或後置攝影機，或攝影機之鏡頭推拉設定。

在方框1058中，根據結合圖1至圖3所描述之方法，基於區段邊界產生一或多個遮蔽窗函數。

在方框1060中，基於經啟用區(如結合圖4至圖5所描述)將遮蔽窗應用於所接收的經方向性編碼音訊以產生經聚焦或經塑形音訊輸出。接著可處理經聚焦音訊輸出資料以用於經由擴音器、耳機或任何其他合適重現構件播放。

參看圖12，展示可操作以執行多通道音訊產生及判定聲源到達方向(DOA)之系統1100的特定說明性實例。系統1100可用以產生經方向性編碼音訊資料1010。因此，系統1100可與裝置1002或本文中所描述之其他裝置602、802、1604中之任一者組合或結合其一起使用。

系統1100包括裝置1102。裝置1102可包括或耦接至複數個麥克風(例如，多麥克風陣列)。舉例而言，多麥克風陣列可包括第一麥克風1104a、第二麥克風1104b及第三麥克風1104c。儘管圖12說明三個麥克風，但裝置1102可耦接至大於三個麥克風。裝置1102輸出經方向性編碼或空間音訊資料作為音訊信號1110。

多麥克風陣列可與空間選擇性濾波器一起用以針對一或多個來源方向中之每一者產生單聲道聲音。更重要地，多麥克風陣列亦可用以支援以二維或三維方式進行之空間、方向性音訊編碼。可藉由如本文中所描述之多麥克風陣列支援的空間音訊編碼方法之實例包括5.1環場、7.1環場、杜比(Dolby)環場、杜比專業邏輯環場(Dolby Pro-Logic)或任何其他相位振幅矩陣立體聲格式；杜比數位、DTS或任何離散多通道格式；及波場合成。五通道編碼之一個實例包括左通道、右通道、中心通道、左環場通道及右環場通道。

儘管圖12說明耦接至三個麥克風之裝置1102，但裝置1102可耦接至或可包括大於三個麥克風。裝置1102可包括或耦接至顯示器1106、耳機或顯示器1106與耳機兩者。裝置1102可包括音訊分析器1114及GUI資料1150。

在操作期間，音訊分析器1114可自麥克風(例如，麥克風1104a至1104c)接收第一複數個輸入信號(例如，輸入信號1108)。舉例而言，音訊分析器1114可自第一麥克風1104a接收第一輸入信號1108a，可自第二麥克風1104b接收第二輸入信號1108b，且可自第三麥克風1104c接收第三輸入信號1108c。輸入信號1108可對應於音訊場景中之一或多個聲源。舉例而言，使用者118可能在海灘上正握持裝置1102(例如，行動裝置)。輸入信號1108可對應於波浪聲、風聲、交通聲、人聲、狗聲等。

音訊分析器1114可產生圖形使用者介面(GUI)1120。舉例而言，使用者118可藉由選擇顯示器1106處所顯示之特定圖示或藉由講出語音命令來啟動音訊產生應用程式或音訊處理應用程式。音訊分析器1114可回應於接收到對特定圖示之選擇或回應於接收到語音命令而產生GUI 1120。GUI 1120可為互動式的。舉例而言，GUI 1120可包括一或多個可選擇選項(例如，可選擇選項1140)。使用者1118可選擇可選擇選項中之至少一者且音訊分析器1114可基於該選擇自輸入信號1108 產生音訊信號1110。舉例而言，可選擇選項1140可包括雜訊抑制選項，可對應於特定通道圖示，可包括刪除選項，可包括方向選項，可包括特定增益選項，可包括數個通道選項，可包括耳機選項，或其組合。GUI 1120可與本文中所揭示之其他GUI(例如，圖10之GUI 104)組合或結合該等其他GUI操作。

音訊分析器1114可將GUI 1120提供至顯示器1106。使用者1118可選擇可選擇選項1140。舉例而言，音訊分析器1114可經由輸入裝置(例如，滑鼠、鍵盤、觸控式螢幕等)自使用者1118接收選擇1130。在一個組態中，音訊分析器1114可將音訊信號1110作為經方向性編碼音訊1010提供及/或將其提供至耳機。使用者1118可使用耳機來監控音訊信號1110。舉例而言，使用者1118可偵測音訊信號1110之靜態雜訊位準且可選擇對應於雜訊抑制選項之可選擇選項1140以降低隨後產生的音訊信號1110之靜態雜訊位準。

音訊分析器1114可使用2013年3月15日申請之標題為「用於映射源位置之系統及方法(SYSTEMS AND METHODS FOR MAPPING A SOURCE LOCATION)」之美國專利申請案第13/833,867號(下文中稱作「'867專利申請案」)中所描述的技術來判定輸入信號1108之到達方向資訊及產生輸入信號1108之角度圖表示。

舉例而言，諸如由音訊分析器1114執行的產生經方向性編碼多通道信號(例如，音訊信號1110)之方法可包括：針對所接收多通道輸入信號(例如，輸入信號1108)之複數個不同頻率分量中之每一者，計算所接收多通道信號之第一對通道(例如，第一輸入信號1108a與第二輸入信號1108b)中之每一者的頻率分量之相位之間的差，以獲得複數個相位差。方法亦可包括：針對複數個候選方向中之每一者，估計候選方向與基於複數個相位差之向量之間的誤差。複數個相位差可指示所觀察之相位差。音訊分析器1114可判定對應於候選方向之候選相位差。所估計誤差可指示所觀察之相位差與候選相位差之間的差。此方法亦可包括：自複數個候選方向當中，選擇對應於所估計誤差當中之最小者之候選方向。在此方法中，該第一對通道中之每一者係基於由第一對麥克風(例如，麥克風1104a及1104c)中之對應麥克風產生之信號(例如，第一輸入信號1108a、第二輸入信號1108b或第三輸入信號1108c)，且不同頻率分量中之至少一者具有小於第一對之麥克風之間的距離的兩倍的波長。

可假定：在所發出聲場之近場區及遠場區中，所發出聲場之波前分別為球形的及平面的。可將近場定義為距聲音接收器(例如，包括麥克風1104a至1104c之麥克風陣列)達小於一個波長之空間區。在此定義下，至區之邊界的距離與頻率成反比地變化。舉例而言，在兩百、七百或兩千赫茲之頻率下，至一波長邊界之距離分別為約170公分、49公分及17公分。考慮以下情形可為有用的：近場/遠場邊界位於距麥克風陣列特定距離處(例如，距陣列中之麥克風或距陣列之形心達50公分，或距陣列中之麥克風或距陣列之形心達1公尺或1.5公尺)。

除判定傳入音訊之DOA之外，音訊分析器1114亦可對輸入信號1108執行進一步處理以產生音訊信號1110。舉例而言，音訊分析器1114可使用2012年10月31日申請之標題為「通話期間之三維聲音壓縮及空中傳輸(THREE-DIMENSIONAL SOUND COMPRESSION AND OVER-THE-AIR TRANSMISSION DURING A CALL)」之美國專利申請案第13/664,687號(下文中稱作「'687專利申請案」)的參看至少圖10至圖17所描述之技術來處理輸入信號1108。在此狀況下，音訊分析器1114可自輸入信號1108產生數個不同方向通道(例如，音訊信號1110)，諸如，以對輸入信號1108進行增頻混頻(upmix)。舉例而言，輸入信號1108可對應於與第一數目個(例如，三個)麥克風(例如，麥克風1104a至1104c)相關聯之第一數目個通道。音訊信號1110可對應於第二數目個通道且第二數目可高於第一數目。舉例而言，針對5.1環場音效方案，音訊信號1110可對應於五個通道。音訊分析器1114可對輸入信號1108進行增頻混頻以產生音訊信號110，以使得可使用具有第二數目個揚聲器之揚聲器陣列中的不同揚聲器來播放音訊信號1110中之每一信號(或通道)。音訊分析器1114可在對應方向上應用空間濾波(例如，一或多個波束成形器)以獲得經增頻混頻之通道(例如，音訊信號1110)。音訊分析器1114可將多通道編碼方案應用於經增頻混頻之通道(例如，杜比環場之一版本)。

又，音訊分析器1114可另外藉由在對應方向上應用空間濾波來處理輸入信號1108以獲得經降頻混頻之通道(例如，音訊信號1110)。舉例而言，輸入信號1108可對應於第三數目個麥克風且第三數目可大於第二數目。

在一些組態中，音訊分析器1114亦可藉由將波束成形器1190應用於輸入信號1108以產生音訊信號1110之每一特定音訊信號(或通道)。波束成形器1190可對應於與特定音訊信號(或通道)相關聯之特定方向。舉例而言，音訊分析器1114可將第一波束成形器(例如，波束成形器1190)應用於對應於第一方向(例如，中心)之輸入信號1108以產生音訊信號1110之第一音訊信號(例如，中心通道)，可將第二波束成形器(例如，波束成形器1190)應用於對應於第二方向(例如，右方)之輸入信號1108以產生音訊信號1110之第二音訊信號(例如，右通道)，等等。

音訊分析器1114可藉由基於接收到選擇1130而對輸入信號1108進行濾波以產生經濾波之信號。在此實例中，音訊分析器1114可處理(例如，增頻混頻或降頻混頻)經濾波之信號以產生音訊信號1110。

GUI資料1150可包括GUI 1120、輸入信號1108、音訊信號1110或其組合。音訊分析器1114可將GUI資料1150儲存於耦接至裝置1102或包括於裝置1102中之記憶體中。音訊信號1110可經壓縮且與輸入信號 1108相比較而言可佔據較少記憶體。舉例而言，若使用者118預期經由特定數目個揚聲器播放所俘獲音訊，則使用者1118可基於通道數目選項產生對應於特定數目個揚聲器(或通道)之音訊信號1110，可包括儲存於記憶體中之GUI資料1150中之音訊信號1110，且可能並不將輸入信號1108儲存於記憶體中(例如，刪除對應於輸入信號1108之記憶體或將該記憶體標記用於刪除)以節省記憶體使用量。

因此，系統1100可使得使用者能夠選擇圖形使用者介面之特定可選擇選項以自經由複數個麥克風接收之輸入信號以互動方式產生多通道音訊信號。使用者可接收關於所產生之音訊信號之反饋。舉例而言，使用者可經由耳機或擴音器聽見音訊信號，或可經由GUI接收反饋。使用者可基於反饋挑選GUI之可選擇選項以改變產生音訊信號之方式。因此，可改良所產生音訊信號之使用者體驗及品質。

參看圖13，展示裝置1102之多個視圖。該等視圖包括正視圖1220、後視圖1230及側視圖1240。正視圖1220可對應於裝置1102的包括顯示器1106之第一側。第一側可包括第一麥克風1104a、第二麥克風1104b、第三麥克風1104c、聽筒1208、第一擴音器1210a及第二擴音器1210b。

後視圖1230可對應於裝置1102的與第一側對置之第二側。第二側可包括攝影機1206、第四麥克風1204d及第五麥克風1204e。側視圖1240可對應於裝置1102的連接第一側及第二側之第三側。

裝置1102(或圖12之音訊分析器1114)可經組態以藉由以下步驟來判定源信號之到達方向(DOA)：針對每一頻率區間量測麥克風通道(例如，第一輸入信號1108a與第二輸入信號1108b)之間的差(例如，相位差)以獲得方向之指示(或估計)，及在所有頻率區間上對方向指示取平均值以判定所估計方向在所有頻率區間上是否一致。可用於追蹤之頻率區間的範圍可受對應麥克風對(例如，第一麥克風1104a及第二麥克風1104b)之空間混疊頻率約束。可將範圍之上限界定為源信號之波長為麥克風1104a至1104b之間的距離d的兩倍時所處之頻率。

如上文所論述，音訊分析器1114可使用'867專利申請案中所描述之技術來判定對應於麥克風1104a至1104c及麥克風1204d至1204e之輸入信號1108的到達方向資訊及產生輸入信號1108之角度圖表示。

舉例而言，可藉由增加可靠頻率區間之數目來獲得估計針對同時多個聲音事件的音訊信號之每一訊框的三維到達方向(DOA)之穩健性。可適當地將如本文中所描述之成對一維(1-D)方法併入至任何麥克風幾何佈置中。

音訊分析器1114可使用可用頻率區間(高至奈奎斯特頻率且低至較低頻率)來追蹤聲音之來源(例如，藉由支援具有較大麥克風間距離之麥克風對之使用)。並非限於使用單一對用於追蹤，而是可實施此類方法以選擇所有可用對當中之最佳對。此類方法可用以甚至在遠場情境(高達3公尺至5公尺或更大之距離)中亦支援來源追蹤，及提供更高DOA解析度。其他可能特徵包括獲得有效來源之確切2-D表示。

音訊分析器1114可計算多通道輸入信號(例如，輸入信號1108)之一對通道之間的差。舉例而言，多通道信號之每一通道可基於由對應麥克風(例如，麥克風1104a至1104c、1204d至1204e中之一者)產生之信號(例如，輸入信號1108中之第一輸入信號)。針對複數個(K個)候選方向當中之每一者，音訊分析器1114可計算基於所計算差之對應方向性誤差。基於K個方向性誤差，音訊分析器1114可選擇候選方向。

音訊分析器1114可將多通道輸入信號(例如，輸入信號1108)處理為一系列片段或「訊框」。片段長度之範圍可為自約五或十毫秒至約四十或五十毫秒，且片段可為重疊的(例如，其中鄰近片段重疊達25%或50%)或不重疊的。在一特定實例中，將多通道信號(例如，輸入信號1108)劃分成一系列不重疊片段或訊框，每一者具有10毫秒之長度。在另一特定實例中，每一訊框具有二十毫秒之長度。如由音訊分析器1114處理之片段亦可為如藉由不同操作處理之較大片段之片段(亦即，「子訊框」)，或反之亦然。

輸入通道(例如，第一輸入信號1108a與第二輸入信號1108b)之間的差之實例包括增益差或比率、到達時間差及相位差。舉例而言，音訊分析器1114可將一對輸入信號(例如，第一輸入信號1108a與第二輸入信號1108b)之通道之間的差計算為通道之對應增益值之間的差或比率(例如，量值或能量之差)。

音訊分析器1114可計算多通道信號(例如，輸入信號1108)之片段在時域中(例如，針對該信號之複數個子頻帶中之每一者)或在頻域中(例如，針對該信號在變換域(諸如，快速傅立葉變換(FFT)、離散餘弦變換(DCT)或經修改之DCT(MDCT)域)中之複數個頻率分量中的每一者)之增益的度量。此等增益度量之實例包括但不限於以下各者：總量值(例如，樣本值之絕對值總和)、平均量值(例如，每樣本)、均方根(RMS)振幅、中位量值、峰值量值、峰值能量、總能量(例如，樣本值之平方和)及平均能量(例如，每樣本)。

為了用增益差技術獲得準確結果，可相對於彼此校準兩個麥克風通道(例如，第一輸入信號1108a與第二輸入信號1108b)之回應。音訊分析器1114可將低通濾波器應用於多通道信號(例如，輸入信號1108)以使得增益度量之計算限於多通道信號(例如，輸入信號1108)之音訊頻率分量。

音訊分析器1114可將增益之間的差計算為多通道信號(例如，輸入信號1108)之每一通道在對數域中之對應增益度量值(例如，以分貝為單位之值)之間的差，或等效地，計算為線性域中之增益度量值之間的比率。針對經校準之麥克風對(例如，麥克風1104a至1104b)，可採用零增益差來指示來源距每一麥克風等距(亦即，位於該對之邊射方向上)，可採用具有大的正值之增益差來指示來源較接近於一個麥克風(亦即，位於該對之一個端射方向上)，且可採用具有大的負值之增益差來指示該來源較接近於另一麥克風(亦即，位於該對之另一端射方向上)。

在另一實例中，音訊分析器1114可對輸入通道(例如，第一輸入信號1108a及第二輸入信號1108b)執行交叉相關以諸如藉由基於多通道信號(例如，輸入信號1108)之通道之間的遲滯(lag)計算到達時間差來判定差。

在又一實例中，音訊分析器1114可將一對(例如，第一輸入信號1108a與第二輸入信號1108b)之通道之間的差計算為每一通道(例如，信號之特定頻率分量下)之相位之間的差。如本文中所描述，可對複數個頻率分量當中之每一者執行此計算。

針對藉由一對麥克風(例如，麥克風1104a至1104b)直接自相對於該麥克風對(例如，麥克風1104a至1104b)之軸線的特定到達方向(DOA)上之點源接收的信號，相位延遲可針對每一頻率分量而不同且亦可取決於麥克風1104a至1104b之間的間距。音訊分析器1114可將特定頻率分量(或「頻率區間」)下之相位延遲之所觀察值計算為複數FFT係數之虛數項對複數FFT係數之實數項之比率的反正切(inverse tangent，亦稱為arctangent)。

參看圖14A，展示平面波傳播之遠場模型之圖且大體上將其指明為1300a。在圖14B中，展示麥克風置放之實例之圖且大體上將其指明為1300b。麥克風置放1300b可對應於圖12之麥克風1104a至1104c及圖13之第四麥克風1204d的置放。

音訊分析器1114可使用'867專利申請案中所揭示之技術來判定對應於麥克風1104a至1104c及1204d之輸入信號1108的到達方向資訊及產生輸入信號1108之角度圖表示。

舉例而言，遠場模型1300a說明：特定頻率f下用於至少一個麥克風(例如，麥克風1104a至1104b)之來源S01的相位延遲值△φ _f在遠場(亦即，平面波)假定下可與來源DOA有關，如，其中d表示麥克風1104a至1104b之間的距離(以公尺為單位)，θ表示相對於正交於陣列軸線之方向的到達角(以弧度為單位)，f表示頻率(以赫茲(Hz)為單位)，且c表示聲速(以公尺/秒為單位)。可將本文中所描述之DOA估計原理擴展至線性陣列中之多個麥克風對(例如，如圖14B中所展示)。針對無混響之單一點源之狀況，相位延遲對頻率之比率△φ _f將在所有頻率上具有相同值。相對於麥克風對(例如，麥克風1104a至1104b)而言之DOA θ為界定空間中之錐體之表面的一維量測值(例如，使得錐體之軸線為陣列之軸線)。

話音信號在時間-頻率域中可為稀疏的。若輸入信號1108之來源在頻域中不相交，則音訊分析器1114可同時追蹤兩個來源。若來源在時域中不相交，則音訊分析器1114可在相同頻率下追蹤兩個來源。裝置1102之麥克風陣列可包括至少等於欲在任一時間加以區分之不同來源方向之數目的數目個麥克風。麥克風(例如，圖12之麥克風1104a至1104c及麥克風1204d至1204e)可為全向性的(例如，對於蜂巢式電話或專用會議裝置而言)或方向性的(例如，對於諸如機上盒之裝置而言)。

音訊分析器1114可計算針對所接收多通道輸入信號(例如，輸入信號1108)之訊框之DOA估計。音訊分析器1114可在每一頻率區間下計算每一候選角相對於所觀察角之誤差，其藉由相位延遲指示。彼頻率區間下之目標角可為具有最小(或最少)誤差之候選者。在一實例中，可跨越頻率區間對誤差進行加總以獲得關於候選者之可能性的度量。在另一實例中，可將跨越所有頻率區間最頻繁出現之目標DOA候選者中之一或多者識別為針對給定訊框的DOA估計(或若干個估計)。

音訊分析器1114可獲得實質上瞬時追蹤結果(例如，具有小於1個訊框之延遲)。延遲可取決於FFT大小及重疊程度。舉例而言，針對具有50%重疊及16千赫(kHz)之取樣頻率之512點FFT，所得256樣本延遲可對應於十六毫秒。音訊分析器1114可支援高達二至三公尺或甚至高達五公尺的來源-陣列距離之來源方向之差異化。

亦可將誤差視為方差(亦即，個別誤差偏離預期值之程度)。將時域接收信號轉換成頻域(例如，藉由應用FFT)具有對每一頻率區間中之頻譜取平均值之效應。若音訊分析器1114使用子頻帶表示(例如，梅爾(mel)標度或巴克(Bark)標度)，則此取平均值可為更有效的。另外，音訊分析器1114可對DOA估計執行時域平滑化(例如，藉由應用回歸平滑器，諸如一階無限脈衝回應濾波器)。音訊分析器1114可降低誤差計算操作之計算複雜性(例如，藉由使用搜尋策略，諸如二元樹，及/或應用已知資訊，諸如來自一或多個先前訊框之DOA候選者選擇)。

即使可依據相位延遲來量測方向資訊，但音訊分析器1114可獲得指示來源DOA之結果。因此，音訊分析器1114可依據DOA而非依據相位延遲計算K個DOA候選者之詳細目錄(inventory)中之每一者在頻率f下的方向性誤差。

參看圖15，展示麥克風之特定替代配置且大體上將其指明為1400。配置1400可對應於圖12之系統1100之麥克風。在此麥克風配置1400之情況下，音訊分析器1114可使用'687專利申請案中所描述之技術自對應於麥克風1104a至1104c及1204d之輸入信號1108產生音訊信號1110。

舉例而言，圖12之音訊分析器1114可使用配置1400來使用四麥克風(例如，麥克風1104a至1104c及麥克風1204d)設定近似對空間寫碼之一階俘獲。可藉由如本文中所描述之多麥克風陣列支援之空間音訊編碼方法的實例亦可包括最初可意欲與特定麥克風(諸如，立體混響B格式或高階立體混響格式)一起使用之方法。舉例而言，立體混響編碼方案之經處理之多通道輸出可包括關於量測點之三維泰勒擴展，可使用三維定位之麥克風陣列(例如，對應於配置1400)來將其近似至少高達一階。在更多麥克風之情況下，可增加近似階數。根據實例，第二麥克風1104b可在z方向上與第一麥克風1104a分離達距離△z。第三麥克風1104c可在y方向上與第一麥克風1104a分離達距離△y。第四麥克風1204d可在x方向上與第一麥克風1104a分離達距離△x。

總之，可基於使用者選擇1130處理使用麥克風1104a至1104c及/或1204d至1204e俘獲之音訊信號或/及對其進行濾波(如參看圖12至圖15所描述)，以獲得音訊訊框之DOA，且接著亦根據參看圖1至圖11所描述之技術對其「進行塑形」。可在環場音效系統、耳機或其他設定中播放經塑形之音訊信號以產生身臨其境的音效體驗。

圖16為說明用於藉由擴音器1602a至1602g在播放系統中之實際位置來校準音效重現系統以使得可根據本文中所描述之技術對音訊進行塑形以考慮實際揚聲器位置的技術之概念圖。場景1600中所展示之系統為環場音效7.1系統。可使用以下方法校準具有不同數目個擴音器之其他系統。

用於在記錄位點與收聽空間1600之間進行透明空間重現之校準方法如下進行：

1.經由左通道揚聲器1602a發送左通道校準信號。校準信號可為預先定義之載頻調。

2.藉由使用者1606所握持之使用者裝置1604獲得左擴音器1602a之DOA，且藉由裝置1604記錄信號延遲以估計裝置1604與揚聲器1602a之間的距離。裝置1102及結合圖12至圖15所描述之技術可包括於裝置1604中以使得可判定擴音器1602a之DOA。

3.對其他通道1602b至1602g重複步驟1至2。

4.將關於每一擴音器1602a至1602g之DOA及距離資訊傳遞至環場音效記錄(SSR)系統。舉例而言，可將擴音器距離及DOA(位置)資訊提供至裝置602、802、1001、1102中之任一者，該等裝置中之任一者可包括於裝置1604中。

5.當使用者藉由(例如)裝置1604處理、儲存或播放所記錄音訊剪輯時，可藉由此擴音器位置資訊即時處理該音訊剪輯。即時處理可在音訊重現階段中或在記錄階段進行。

應注意，藉由此程序，音效系統可依據方向性重現聽覺場景，該方向性具有由使用者用相同裝置記錄之實際音效場景的高得多的方向保真度。

在習知系統中，校準僅旨在補償擴音器位置不匹配且其在實際源位置與經補償之源位置之間引起不可避免的非線性映射失真。不同於習知音效系統，本文中所描述之系統1600及技術以互易(reciprocal)方式解決此問題，且因此，不存在非線性源位置映射不匹配。此情形改良所記錄音訊場景與所重現音訊場景之間的透明性。

應理解，取決於實例，本文中所描述之諸方法中之任一者的某些動作或事件可以不同順序執行，可添加、合併或完全省去某些動作或事件(例如，並非所有所描述動作或事件為實踐方法所必要的)。此外，在某些實例中，可(例如)經由多執行緒處理、中斷處理或多個處理器同時地而非依序地執行動作或事件。另外，雖然出於清晰之目的將本發明之某些態樣描述為由單一模組或組件執行，但應理解，本發明之技術可由與音效系統相關聯之組件或模組之任何合適組合來執行。

在一或多個實例中，所描述功能可以硬體、軟體、韌體或其任何合適組合來實施。若以軟體實施，則功能可作為一或多個指令或程式碼儲存於電腦可讀媒體上且由基於硬體之處理單元執行。電腦可讀媒體可包括任何電腦可讀儲存媒體，包括資料儲存媒體，其可為可由一或多個電腦或一或多個處理器存取以擷取用於實施本發明中所描述之技術之指令、程式碼及/或資料結構之任何可用媒體。電腦程式產品可包括電腦可讀媒體。

以實例說明且並非限制，此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存裝置、快閃記憶體或可用於以指令或資料結構之形式儲存所要程式碼且可由電腦存取之任何其他媒體。如本文中所使用之磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位影音光碟(DVD)、軟碟及藍光光碟，其中磁碟通常以磁性方式再生資料，而光碟藉由雷射以光學方式再生資料。上述各者之組合亦應包括於電腦可讀媒體之範疇內。

指令或程式碼可由一或多個處理器執行，諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效積體或離散邏輯電路系統。因此，如本文中所使用之術語「處理器」可指前述結構或適合於實施本文中所描述之技術之任何其他結構中的任一者。另外，在一些態樣中，本文中所描述之功能性可提供於經組態以用於編碼及解碼或併入於組合式編碼解碼器中之專用硬體及/或軟體模組內。又，技術可完全實施於一或多個電路(包括邏輯電路及/或邏輯元件)中。

本發明之技術可在廣泛多種裝置或設備(包括無線手機、個人電腦、機上盒、會議系統、積體電路(IC)或IC組(例如，晶片組))中實施。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之裝置之功能態樣，而未必需要由不同硬體單元實現。確切而言，如上文所描述，各種單元可組合於硬體單元中或藉由互操作性硬體單元(包括如上文所描述之一或多個處理器)之集合結合合適軟體及/ 或韌體提供。

已描述各種技術。此等及其他技術在以下申請專利範圍之範疇內。