TW201820898A

TW201820898A - 用以再生空間分散聲音之方法

Info

Publication number: TW201820898A
Application number: TW106132102A
Authority: TW
Inventors: 拉菲爾 N. 格瑞夫; 洪叢楚法姆
Original assignee: Ａ沃利特公司
Priority date: 2016-09-19
Filing date: 2017-09-19
Publication date: 2018-06-01
Also published as: CN110089134A; EP3297298B1; US20180084364A1; CN110089134B; US10536793B2; WO2018050905A1; TWI770059B; US20180084367A1; US20190208349A1; EP3297298A1; US10085108B2

Abstract

本發明係有關於一種用以再生多聲道音訊訊號的空間分散聲音之方法，包含：接收時間相依輸入音訊訊號和執行一時間頻率變換；對於各時間頻率瓦片，從用於該時間頻率瓦片的不同輸入聲道之時間頻率表示型態決定一有功方向向量

和一無功方向向量

，從該有功方向向量

和該無功方向向量

Description

用以再生空間分散聲音之方法

本發明係有關於一種用以再生多聲道音訊訊號的空間分散聲音之方法。

音訊是用來傳達任何資訊，特別是聲音方向資訊的重要媒介。事實上，對於監察工作，人類的聽覺系統比視覺系統更為有效。由於多聲道音訊格式的發展，空間化已成為電影、視訊遊戲、虛擬實境、音樂等所有音訊領域的常見特徵。

通常，這樣的聲音是混合到多個音訊聲道上，其中每個聲道被饋送到專用揚聲器。對不同聲道的聲音分配要針對專用播放系統的配置（揚聲器的位置）予以調適，以便再生該聲音的預期方向性。

因此，多聲道音訊串流需要在合適的揚聲器佈局上播放。例如，五聲道格式的音訊訊號的每個聲道與其在五個揚聲器陣列內的對應揚聲器相關聯。圖1展示國際電信聯盟（ITU）為5.1環繞聲音配置推薦的五聲道揚聲器佈局的範例。其中有左揚聲器L、右揚聲器R、中央揚聲器C、環繞左揚聲器LS和環繞右揚聲器RS，圍繞作為推薦的收聽者位置之參考收聽點O來佈置。以該參考收聽點O為中心，標明此等揚聲器的中心方向之間的相對角度距離。

因此，多聲道音訊訊號是根據專用於指定的空間配置的音訊檔案格式來編碼，其中將揚聲器相對於參考收聽點佈置在各指定位置。實際上，多聲道音訊訊號的每個時間相依輸入音訊訊號與一個通道相關聯，每個通道對應於揚聲器的指定位置。

如果透過適當的聲音系統播放多聲道音訊，即具有所需數量的揚聲器和它們之間的正確角度距離，則正常聽力的收聽者能夠探知組成此多聲道音訊混合的聲源位置。然而，如果實際的聲音系統呈現不適當的特徵，例如揚聲器太少或其角度距離不正確，則音訊內容的方向資訊可能不會被合適地傳遞給收聽者。

專利申請案第WO2008/113428號揭露一種在任意多聲道格式之間進行轉換的技術。一種輸入多聲道表示型態被轉換成空間音訊訊號的一不同輸出多聲道表示型態。此空間音訊訊號的一中間表示型態被導出，該中間表示型態具有指示空間音訊訊號的一部分之原點方向之方向參數。空間音訊訊號的輸出多聲道表示型態係使用空間音訊訊號的該中間表示型態來生成。

本方法旨在提供一種用以使用一音訊系統再生多聲道音訊訊號的空間分散聲音之方法，該音訊系統包含在一實際空間組態中的多個揚聲器，此實際空間組態不同於與該多聲道音訊訊號的格式相關聯的指定空間組態。

根據本發明之第一層面，藉由一種用以使用多個電聲轉換器來再生多聲道音訊訊號的空間分散聲音之方法達成此目的，該等電聲轉換器以一實際空間組態相對於一參考收聽點放置在多個實際位置，其中該多聲道音訊訊號包括多個時間相依輸入音訊訊號，各時間相依輸入音訊訊號與一輸入聲道相關聯，各聲道對應於一電聲轉換器在一指定空間組態中相對於該參考收聽點的一指定位置，該方法包含以下步驟：接收該等時間相依輸入音訊訊號，執行該等時間相依輸入音訊訊號的一時間頻率變換，用於將該等時間相依輸入音訊訊號中的每一個轉換為用於與該時間相依輸入音訊訊號相關聯的輸入聲道的多個時間頻率表示型態，各時間頻率表示型態對應於由一時框和一頻率次頻帶定義的一時間頻率瓦片，多個時間頻率瓦片對於該等不同的輸入聲道而言係同等的，對於各時間頻率瓦片，從用於該時間頻率瓦片的多個不同輸入聲道之多個時間頻率表示型態，決定一有功方向向量和一無功方向向量，其中該有功方向向量從一複數強度向量之一實部來決定，而該無功方向向量從該複數強度向量之一虛部來決定；對於各時間頻率瓦片，從該有功方向向量和該無功方向向量，決定在一虛擬空間組態中相對於該參考收聽點的多個虛擬聲音來源之位置，且決定針對各虛擬聲音來源的多個頻率訊號值，基於該虛擬空間組態中的該等虛擬聲音來源的位置與一實際空間組態中多個電聲轉換器的實際位置之間的一比較，分散該等虛擬聲音來源的多個時間頻率訊號值到該等電聲轉換器，基於分散到該等電聲轉換器的該等時間頻率訊號值，透過該實際空間組態的該等電聲轉換器產生聲音。

本發明之方法的其它較佳但非限制性的層面如下，它們係可分離或可成技術上可行組合：一時間頻率瓦片之有功方向向量表示，在參考收聽點處用於該時間頻率瓦片之該時框和頻率次頻帶的聲音能量流，而其中，無功方向向量代表在參考收聽點處相對於該聲音能量流的聲學擾動；各輸入聲道與一聲音方向相關聯，該聲音方向係指定義在該參考收聽點和與該輸入聲道相關聯的揚聲器之指定位置之間者，且聲速向量作為由與該聲音方向相關聯的輸入聲道對應的時間頻率表示型態加權的每個聲音方向的總和之函數來決定，該聲速向量用來決定該有功方向向量和該無功方向向量；由不同輸入聲道之該等時間頻率表示型態之總和所定義之一聲壓值，用來決定該有功方向向量和該無功方向向量；複數強度向量從用於一時間頻率瓦片的該聲壓值的共軛與用於該時間頻率瓦片的該聲速向量之間的一複數乘積產生；為了決定每一個虛擬聲音來源的多個時間頻率訊號值，多個虛擬麥克風訊號被決定，各虛擬麥克風訊號與一虛擬聲音來源相關聯、且與將獲得佈置在該參考收聽點處且定向於朝向該虛擬聲音來源的位置的方向之一虛擬麥克風的一訊號相對應；一虛擬聲音來源之該時間頻率訊號值係藉由在與該虛擬聲音來源相關聯的該虛擬麥克風訊號中，抑制來自其他虛擬聲音來源的干擾來決定；基於該有功方向向量之方向和無功方向向量之方向，時間頻率訊號值針對各該虛擬聲音來源而受影響；該等虛擬聲音來源係佈置在以參考收聽點為中心的圓上；基於虛擬空間組態中的該等虛擬聲音來源的位置與一實際空間組態中電聲轉換器的實際位置之間的一比較，分散該等虛擬聲音來源的該等時間頻率訊號值到該等電聲轉換器，其包含有：對於各時間頻率瓦片，藉由將用於與一電聲轉換器相關聯的輸出聲道的各虛擬聲音來源之個別貢獻量加總，計算出一時間頻率音訊輸出聲道訊號，以及轉換時間頻率音訊輸出聲道訊號為多個時間相依輸出聲道訊號；各時間相依輸出聲道訊號饋送到各對應的電聲轉換器；針對各時間頻率瓦片有三個虛擬聲音來源，各虛擬聲音來源有相對於該參考收聽點的一個位置，其中：一第一虛擬聲音來源的一位置和該參考收聽點定義出與起自該參考收聽點的該有功方向向量的方向共線的一方向，一第二虛擬聲音來源的一位置和該參考收聽點定義出以一第一方位與該無功方向向量的方向共線的一方向，一第三虛擬聲音來源的一位置和該參考收聽點定義出以一第二方位與該無功方向向量的方向共線的一方向，該第二方位與該第一方位相反；針對各時間頻率瓦片有兩個虛擬聲音來源，各虛擬聲音來源有相對於該參考收聽點的一個位置，而其中：一第一虛擬聲音來源的一位置和該參考收聽點，定義出從該有功方向向量和由一正係數加權的該無功方向向量之總和產生的一方向，以及一第二虛擬聲音來源的一位置與該參考收聽點，定義出從該有功方向向量和由一負係數加權的該無功方向向量之總和產生的一方向。

根據本發明的第二層面，提供一種具現有多個電腦可執行指令的非暫時性實體電腦可讀媒體，此等指令在由一電腦執行時，即執行根據第一層面的此方法。

根據本發明的第三層面，提供一種用以再生多聲道音訊訊號的空間分散聲音之系統，該系統包含：一個用以接收用於多個輸入聲道的多個時間相依輸入音訊訊號之輸入，一處理器和一記憶體，用以：執行該等時間相依輸入音訊訊號之一時間頻率變換，用以將各該時間相依輸入音訊訊號轉換為用於與該時間相依輸入音訊訊號相關聯的該輸入聲道之多個時間頻率表示型態，各時間頻率表示型態對應於由一時框和一頻率次頻帶定義的一時間頻率瓦片，對於不同的該等輸入聲道，時間頻率瓦片是同等的，對於各時間頻率瓦片，從用於該時間頻率瓦片的多個不同輸入聲道之多個時間頻率表示型態，決定一有功方向向量和一無功方向向量，其中該有功方向向量從一複數強度向量之一實部來決定，而該無功方向向量從該複數強度向量之一虛部來決定，對於各時間頻率瓦片，從該有功方向向量和該無功方向向量，決定在一虛擬空間組態中相對於參考收聽點的多個虛擬聲音來源之位置，且決定針對各虛擬聲音來源的多個時間頻率訊號值，基於該虛擬空間組態中的該等虛擬聲音來源的該等位置與一實際空間組態中多個電聲轉換器的多個實際位置之間的一比較，將該等虛擬聲音來源的該等時間頻率訊號值分散到該等電聲轉換器；以及一個用以傳遞時間相依輸出聲道訊號到多個電聲轉換器的輸出，該等電聲轉換器以一實際空間組態相對於一參考收聽點放置在多個實際位置。

該系統係組配來實現根據本發明之方法。

本方法可以藉由一種用以再生多聲道音訊訊號的空間分散聲音之系統來實行，該系統包含有：一個用以接收用於多個輸入聲道的時間相依輸入音訊訊號之輸入，組配來實行此發明之方法的一處理器和一記憶體，一個用以將時間相依輸出聲道訊號傳遞到多個電聲轉換器的輸出，該等電聲轉換器以一實際空間組態相對於一參考收聽點放置在多個實際位置。

一輸入接收包含用於多個輸入聲道的時間相依輸入音訊訊號的多聲道音訊訊號（步驟S01）。各時間相依輸入音訊訊號與一輸入聲道相關聯。各輸入聲道對應於一電聲轉換器在一指定空間組態中相對於一參考收聽點的一指定位置。例如，在圖1所示的指定空間組態中，有五個輸入聲道，各聲道對應一個揚聲器LS、L、C、R、RS。

在平面波模型假設型態下，一聲音來源的位置（例如，每個揚聲器的位置）可以僅由聲音來源相對於參考收聽點的方向來定義。然後，一單一向量就足以定位聲音來源。因此，各指定位置定義表示聲音方向的一單一向量，此向量從參考收聽點起始並指向每個揚聲器的方向。結果，每個輸入聲道與定義在參考收聽點和與該輸入聲道相關聯的揚聲器之指定位置之間的聲音方向相關聯。例如，在圖1所示的指定空間組態中，揚聲器C的位置藉由源自參考收聽點O並朝向揚聲器C在一么正圓(unitary circle)上的位置之聲音向量來定義。此聲音向量在該收聽點前方延伸。以類似的方式，該揚聲器L的位置藉由源自參考收聽點O並朝向揚聲器L在么正圓上的位置之聲音向量來定義。在本例中，聲音向量與聲音向量的方向成30°角。

然而，旨在播放多聲道音訊訊號的實際音訊系統包括以一實際空間組態相對於參考收聽點放置在實際位置的電聲轉換器。用以再生多聲道音訊訊號的空間分散聲音之本方法於下文參照圖2和圖3來描述。圖2展示本方法作時間上組織的步驟，而圖3展示本方法之數學論理。頻率分析

接收的時間相依輸入音訊訊號可以是類比的，但它們較佳地是數位訊號。其中輸入音訊訊號和輸入聲道一樣多。在頻率分析期間（步驟S10），該等時間相依輸入音訊訊號藉由進行時間頻率轉換而變換到頻域（步驟S02）。通常，時間頻率轉換使用諸如短時傅立葉變換（STFT）的傅立葉相關變換，其用於確定當訊號隨時間變化時該訊號的局部區段之正弦頻率和相位內容。

更準確地說，每個時間相依輸入音訊訊號被轉換為用於與該時間相依輸入音訊訊號相關聯的輸入聲道之多個時間頻率表示型態。每個時間頻率表示型態對應於由一時框和一頻率次頻帶定義的時間頻率瓦片(tile)。轉換是以逐框的基礎來進行。

較佳地，時框長度係包括在5ms及80ms之間。較佳地，該頻率次頻帶之寬度係包括在10Hz和200Hz之間。較佳地，時框間之間隔係包括在時框長度的1/16和1/2之間。例如，對於48kHz的採樣率和基於FFT的STFT處理架構，此時框長度可以是1024個樣本，搭配46.875Hz的一相關頻率次頻帶寬度（或筐段寬度）和512個樣本的時框間間隔。對於不同的輸入聲道，時間頻率瓦片是相同的。

在下文中，用作為頻率次頻帶的頻率指數，是時框指數，因此時間頻率表示型態是代表與輸入聲道的訊號之第個頻率次頻帶和第個時框相關聯的複數。

然後，時間頻率表示型態和聲音方向用在時間頻率處理中(步驟S03)，其中處理時間頻率瓦片之資料。空間分析

空間分析(步驟S11)從時間頻率瓦片之時間頻率表示型態和聲音方向來執行。對於各時間頻率瓦片，一有功(active)方向向量和一無功(reactive)方向向量由用於該時間頻率瓦片的不同輸入聲道之時間頻率表示型態來決定(步驟S31)。

一時間頻率瓦片之有功方向向量與有功聲學強度向量成正比，該有功聲學強度向量表示在參考收聽點處用於該時間頻率瓦片之時框和頻率次頻帶的聲音能量流。更具體地，該有功方向向量對應於有功聲學強度向量，藉由參考收聽點O處的聲能和之和來標稱化，有一添加的負號來使它從參考收聽點O朝向么正圓。亦可以使用不同的標稱化方法或省略負號，在這種情況下，向量將指向參考收聽點O。

無功方向向量與無功聲學強度向量成正比，該無功聲學強度向量代表在參考收聽點處相對於用於相同時間頻率瓦片的聲音能量流的聲學擾動。更具體地，該無功方向向量對應於無功聲學強度向量，由參考收聽點O處的聲能和之和來標稱化。一負號也被添加但可以省略。如同對於有功方向向量，亦可以使用不同的標稱化方法。

從感知的觀點來看，如果有功方向向量可以與主要方向音場相關，則無功方向向量與周圍擴散音場有關。此外，無功方向向量之方向資訊使周圍音場之空間特性能夠被處置，且因此它不僅可以用於描述完全擴散的周圍音場，而且還可以用於描述部分擴散的周圍音場。

本新方法本質上更加健全，因為它利用有功方向向量的可靠性，此有功方向向量為真實聲學空間線索（與屬於經驗性感知線索的葛容(Gerzon)向量相比），而且還利用了聲音通過無功方向向量的擴散。

已發現有功方向向量和無功方向向量的組合可以用以識別聲音來源的位置，如圖4所示。在此圖4中，聲音分配由佈置在以參考收聽點O為中心的么正圓上的兩個虛擬聲音來源VS1和VS2來表示。有功方向向量源自參考收聽點O，並且沿著主聲流來指向。在本例中，兩個不相關的聲音來源VS1、VS2具有相等的能量（對於該時間頻率瓦片而言）。於是，在參考收聽點O處的感知聲能流即來自該兩個聲音來源VS1、VS2的中間，且因此有功方向向量在兩個聲音來源VS1、VS2之間延伸。無功方向向量在這裡垂直於有功方向向量，且一聲音來源VS1、VS2的位置對應於有功方向向量和無功方向向量或和無功方向向量的相反向量的和。

然而，大多數時候，聲音來源VS1、VS2並不完全不相關。已經發現，無論兩個聲音來源VS1、VS2的確實位置如何，當聲源訊號完全不相關時，無功強度最大。反過來說，當聲源訊號完全相關時，無功強度最小。以類似的方式來說，當聲音來源訊號完全不相關時，在來源方向相對於參考收聽點O在空間上呈負相關（即相反）時，無功強度最大。反過來說，當來源方向相對於參考收聽點在空間上相關（即在相同方向）時，無功強度是最小的。

為了決定有功方向向量和無功方向向量，使用揚聲器相對於參考收聽點O在指定空間組態中的指定位置。如上所述，每個輸入聲道與一聲音方向相關聯，該聲音方向定義在參考收聽點O和與該輸入聲道相關聯的揚聲器之指定位置之間。

用於一時間頻率瓦片的聲壓值，由就該時間頻率瓦片而言同等的不同輸入聲道之時間頻率表示型態之和來定義，被決定為：

用於該時間頻率瓦片的聲速向量被決定，該聲速向量與由與每個聲音方向相關聯的輸入聲道對應的時間頻率表示型態加權的該每個聲音方向的和成正比：其中：其中，、和是用作為用於虛擬空間組態的參考框架之坐標系的單一向量，為空氣密度且為聲速。例如，在20°C乾燥空氣中的聲速為每秒343.2公尺，其可取近似值為340公尺/秒。在海平面且15°C時，空氣密度約為1.225公斤/立方公尺，其可取近似值為1.2公斤/立方公尺。也可以使用其他值。

從用於時間頻率瓦片的聲壓值的共軛與用於該時間頻率瓦片的聲速向量之間的複數乘積產生一複數強度向量，由下式來決定：，且用來決定該時間頻率瓦片的有功方向向量和無功方向向量。更準確地說，有功方向向量從複數乘積的實部決定，且無功方向向量從複數乘積的虛部決定。

該有功方向向量和該無功方向向量可以計算如下：其中：。應注意，有功方向向量和無功方向向量在這裡藉由能量和標稱化，但亦可以其他方式計算。應注意，有功方向向量和無功方向向量的表示式中可加上負號，來使它們從參考收聽點O朝向么正圓。負號亦可省略，在這種情況下，此等向量將指向參考收聽點O。

一旦決定了有功方向向量、無功方向向量、聲壓值和聲速向量(或其等效者)，可以執行音訊來源提取（步驟S12）用來決定虛擬聲音來源的位置和時間頻率訊號值（步驟S32）。音訊來源提取

本方法需要確定虛擬聲音來源之屬性（位置和時間頻率訊號值），其將在之後使用來決定實際空間組態的電聲轉換器之訊號。

對於各時間頻率瓦片，使用有功方向向量和無功方向向量來決定虛擬聲音來源於虛擬空間組態中相對於參考收聽點之位置（步驟S32）。

所決定之虛擬聲音來源的位置、有功方向向量、無功方向向量、聲壓值和聲速向量用來決定虛擬一階方向麥克風訊號（步驟S122），其對應於將由被佈置在參考收聽點O處並指向每個虛擬聲音來源的虛擬麥克風獲取的聲音。其中虛擬麥克風與虛擬聲音來源一樣多。

虛擬麥克風訊號是聲壓值和聲速向量與聲源方向中的一單一向量之間的純量積之和的函數，其中可能由空氣密度和聲速加權。例如，與佈置於由定義的方向中之虛擬聲音來源相關聯的虛擬心形麥克風訊號，可以計算如下：。虛擬麥克風訊號以在參考收聽點O處感知到的對應虛擬聲音來源的聲音為主，但是還包含來自其他虛擬聲音來源的干擾。然而，對每個虛擬聲音來源定義虛擬麥克風訊號，允許識別出每個虛擬聲音來源的虛擬聲源訊號。

應注意，可以藉由修改虛擬聲音來源的位置來執行空間操控。因為保持了最初的主要/周圍能量比，所以此方法比修改定義該等指定位置的輸入聲道資料端要安全得多。

然而，聲源提取程序的細節會視虛擬聲音來源的數量而變化。該音訊來源提取程序估計在指定組態中產生與由時間相依輸入音訊訊號定義的聲場相同的聲場特性之虛擬聲音來源的位置和頻率訊號值。來源相關的聲場模型需要被定義，因為該音訊來源提取程序在一種模型下與另一種模型下可能高度不同。實際上，因為分析是基於對聲學強度的有功和無功成分兩者的利用，所以兩個模型是可靠的，一模型具有兩個聲音來源而一模型具有三個聲音來源。

“雙聲源”模型處置擴散（且從而利用無功成分）作為一聲音來源的感知寬度或局部擴散之一指標。兩個聲音來源足以模擬一較寬的聲音來源，它們的空間和訊號相關性定義了此複合聲音來源的感知寬度。

“三聲源”模型處置擴散（且從而利用無功成分）作為聲音場景中周圍位準或全域擴散之一指標。兩個相反方向的不相關的聲音來源即適合模擬這種周圍成分。

下面解釋如何以兩個虛擬聲音來源或三個虛擬聲音來源來進行。聲源提取：兩個虛擬聲音來源

在以參考收聽點O為中心的么正圓之空間組態中，該等虛擬聲音來源係放置於么正圓上。因此，虛擬聲音來源的位置在么正圓與從參考收聽點延伸的方向直線之交點處。每個虛擬聲音來源的位置可以由起自參考收聽點的一單一聲源方向向量來定義。這顯示在圖5中。

如上所述，聲源提取的第一步包含決定兩個虛擬聲音來源的位置（步驟S121）。如圖5所示，每個單一聲源方向向量透過有功方向向量和無功方向向量來定義。更準確地說，一虛擬聲音來源係位在以下項目之交點處：該么正圓和與無功方向向量共線且通過起自參考收聽點的有功方向向量的尖端之一直線。

如果分析的聲場由兩個不相關的聲音來源（不一定具相等能量）產生，則本技術能夠擷取這兩個聲音來源的確實位置。如果用來產生聲場的兩個聲音來源傾向於同相（非絕對地反相），那麼它們的確實位置就再也不能被擷取。本技術過度估計（非絕對地低估）兩個聲音來源方向之間的空間相關性。然而，訊號相關性和空間相關性之間的這種關係在感知上是同調的。

確定兩個虛擬聲音來源VS1、VS2的位置，相當於求解一直線與一圓（或三維聲場的球體）的交點之幾何問題。求解此問題相當於求解二階方程，其解為：其中：

應注意的是：第一虛擬聲音來源VS1的位置相對於參考收聽點O定義出從有功方向向量和由正係數加權的無功方向向量之和產生的一方向，以及第二虛擬聲音來源VS2的位置相對於參考收聽點O定義出從有功方向向量和由負係數加權的無功方向向量之和產生的一方向。

因此，我們即有第一虛擬聲音來源VS1的聲源方向向量和第二虛擬聲音來源VS2的聲源方向向量。如圖5所示，這些聲源方向向量、把虛擬聲音來源VS1、VS2定位在以參考收聽點O為中心的么正圓上。

如上所述，在計算了兩個虛擬聲音來源VS1、VS2的方向之後，可以藉由將聲壓值和聲速向量與該等聲源方向向量、組合，以產生兩個虛擬方向麥克風。如圖5所示，這兩個虛擬方向麥克風可以在聲源方向向量、的方向上具有心形方向性型樣VM1、VM2。然後，在這兩個方向上的虛擬麥克風拾取內容可以由定義如下的虛擬麥克風訊號、來估計：

如上所述，每個虛擬麥克風訊號以在參考收聽點O處感知到的對應虛擬聲音來源VS1、VS2的聲音訊號為主，但是還包含來自另一虛擬聲音來源的干擾：其中：，其中是第一虛擬聲音來源VS1的時間頻率訊號值，而是第二虛擬聲音來源VS2的時間頻率訊號值。最後一個處理步驟容許藉由分開來自該等虛擬麥克風訊號的聲源訊號(將其解除混合)，來提取每個虛擬聲音來源的時間頻率訊號值、（步驟S123）：其中：

由聲源方向向量和定義的兩個虛擬聲音來源VS1、VS2的位置，及它們各自的時間頻率訊號值和即告確定。

應注意的是，兩個虛擬聲音來源VS1、VS2是等同的，因為它們都包含主要成分（透過有功方向向量）和周圍成分（透過無功方向向量）兩者。可以執行一周圍提取處理用以實現額外的精細化。音訊來源提取：三個虛擬聲音來源

如前所述，此音訊來源提取的第一步包含透過由有功方向向量和無功方向向量定義的單一聲源方向向量來決定三個虛擬聲音來源的位置。在以參考收聽點O為中心的么正圓之空間組態中，該等虛擬聲音來源係放置於么正圓上。因此，一虛擬聲音來源的位置在么正圓與從參考收聽點延伸的一方向直線之交點處。每個虛擬聲音來源的位置可以由起自參考收聽點的一單一聲源方向向量來定義。此單一聲源方向向量透過有功方向向量和無功方向向量來定義。這顯示在圖7中。

如前已說明地，有功方向向量表示主感知聲音事件方向，無功強度表示“最大感知擴散之方向”。因此，使用三個虛擬聲音來源VS1、VS2、VS3顯露出適於形成聲場屬性的近似表示型態：一虛擬聲音來源VS1在有功方向向量的方向上表示主聲流的重建型態，和負空間相關的兩個虛擬聲音來源VS2、VS3分別在無功方向向量的方向及其相反方向上表示聲場的聲學擾動。

結果便有：第一虛擬聲音來源VS1的位置和參考收聽點O定義出與起自參考收聽點的有功方向向量的方向共線的一方向，第二虛擬聲音來源VS2的位置和參考收聽點O定義出以第一方位與起自參考收聽點的無功方向向量的方向共線的一方向，第三虛擬聲音來源VS3的位置和參考收聽點O定義出以第二方位與起自參考收聽點的無功方向向量的方向共線的一方向，該第二方位與第一方位相反。

實際上，決定虛擬聲音來源VS1、VS2、VS3的位置，對於三聲源模型來說比雙聲源模型要簡單得多，因為它們的聲源方向向量是直接從有功方向向量和無功方向向量來計算：，其中有第一虛擬聲音來源VS1的第一聲源方向向量、第二虛擬聲音來源VS2的第二聲源方向向量、與第三虛擬聲音來源VS3的第三聲源方向向量。如圖7所示，這些聲源方向向量把虛擬聲音來源VS1、VS2、VS3定位在以參考收聽點O為中心的么正圓上。

如上所述，在計算了三個虛擬聲音來源VS1、VS2、VS3的方向之後，可以藉由將聲壓值和聲速向量與聲源方向向量組合，以產生三個虛擬方向麥克風。如圖7所示，這三個虛擬方向麥克風可以在聲源方向向量、、的方向上具有心形方向性型樣VM1、VM2、VM3。然後，在這三個方向上的虛擬麥克風拾取內容可以由定義如下的虛擬麥克風訊號來估計：

如上所述，每個虛擬麥克風訊號,,以在參考收聽點O處感知到的對應虛擬聲音來源VS1、VS2、VS3的聲音為主，但是還包含來自其他虛擬聲音來源VS1、VS2、VS3的干擾。更準確地說，由於第二聲源向量和第三聲源向量的方向相反，所以第二虛擬聲音來源VS2與第三虛擬聲音來源VS3之間的干擾可以忽略不計，然而它們都會干擾第一虛擬聲音來源VS1：其中：

最後一個處理步驟（步驟S123）容許藉由分開該等聲源時間頻率值(將其解除混合)，來提取每個虛擬聲音來源的時間頻率訊號值：

與採用兩個虛擬聲音來源的模型相對，該等三個虛擬聲音來源已經在主要成分和周圍成分之間有分別：第一個虛擬聲音來源VS1對應於主要成分，以及第二虛擬聲音來源VS2和第三虛擬聲音來源VS3對應於周圍成分。結果，可以直接實現進一步的精細化，而不需要額外的周圍提取處理。聲音合成

一旦確定了虛擬聲音來源的屬性（位置和時間頻率訊號值），就可以執行聲音合成（步驟S13）。該等虛擬聲音來源的時間頻率訊號值可以基於虛擬空間組態中的虛擬聲音來源的位置與實際空間組態中電聲轉換器的實際位置之間的比較，而分散（步驟S33）到該等電聲轉換器。這可以稱為空間合成。

為了這樣做，使用相對於每個電聲轉換器之實際位置的空間資料。如圖6和圖8所示，空間資料係以起自參考收聽點O且指向每個電聲轉換器的方向的實際聲源方向向量（其中）為例。圖6和圖8都展示出三個電聲轉換器AET1、AET2、AET3相對於參考收聽點O放置在實際位置之相同的實際空間組態。第一電聲轉換器AET1在由第一實際聲源方向向量表示的方向上，佈置於參考收聽點O的前方。第二電聲轉換器AET2在由與第一實際聲源方向向量成直角的第二實際聲源方向向量表示的方向上，佈置於參考收聽點O的左側。第三電聲轉換器AET3在與第二實際聲源方向向量相反的第三實際聲源方向向量所表示的方向上，佈置於參考收聽點O的右側。這只不過是一個範例，並且此方法不限於該等電聲轉換器的一種特定空間佈局或特定數量的電聲轉換器。電聲轉換器可以是揚聲器，也可以是耳機。

對於各時間頻率瓦片，與虛擬聲源方向向量相關聯的各種時間頻率訊號值，配合實際聲源方向向量使用來導出平移增益。對於時間頻率瓦片，平移增益定義出饋送到電聲轉換器的輸出聲道內的每個虛擬聲音來源的聲音位準（及可能也定義出相位）。

平移增益是藉由考慮所考量的虛擬聲音來源之虛擬聲源方向向量與一電聲轉換器的實際聲源方向向量之間的幾何關係來決定。為了簡單起見，該虛擬聲源方向向量以某種方式投射到該實際聲源方向向量上。例如，在圖6中，比起其他電聲轉換器AET1、AET3，第二虛擬聲音來源VS2更接近第二電聲轉換器AET2。平移增益將大於或。當然，實行上，可以使用更複雜的三角算式推導或基於向量的算式推導。例如，可以使用基於向量的幅度平移（VBAP），如由Ville Pulkki在音訊工程學會公司1997年“使用基於向量之幅度平移的虛擬聲音來源定位”一文中所公開者。

應注意，也可以實現頭部相關傳輸函數（HRTF）處理來合成一雙耳聲音。因為HRTF可以視虛擬聲音來源位置而定，所以可以存儲一組預定的HRTF，且基於虛擬聲音來源的位置選擇要使用的HRTF，如由Michael M.Goodwin和Jean-Marc Jot在2007年紐約州紐約市音訊工程學會第123屆會議“基於空間音訊場景編碼的雙耳3D音訊渲染”一文所解說者。

對於相同的頻率筐段，一虛擬聲源方向向量可能在從一時框到下一時框時迅速改變。因此，平移增益也可能在從一時框到下一時框突然改變。該等平移增益可以藉由組合相同頻率筐段的至少兩個時間上連續的平移增益來平滑化，例如：，其中為0和1之間的一實數。

然後，對於各時間頻率瓦片，藉由將用於輸出聲道的每個虛擬聲音來源之個別貢獻量加總，來計算時間頻率音訊輸出聲道訊號：

然後，將時間頻率音訊輸出聲道訊號轉換回時間相依輸出聲道訊號。逆短時傅立葉變換（ISTFT）可用於此目的。

最後，將每個時間相依輸出聲道訊號饋送到每個對應的電聲轉換器，即該輸出聲道的電聲轉換器。然後，電聲轉換器從接收到的時間相依輸出聲道訊號產生聲音（步驟S04）。

如上所述的本發明之方法可以作為程式來實現，且存儲到例如CD-ROM、ROM、硬碟等的非暫時的實體電腦可讀媒體中，此類媒體上具現有電腦可執行指令，此等指令在由一電腦執行時，即執行根據本發明的該方法。

雖然本發明已就某些較佳實施例加以描述，但是對於熟於此技者顯而易見的是，在不偏離如後附請求項定義的本發明之範圍的情況下，可以進行各種改變和修改。

L‧‧‧左揚聲器/揚聲器

R‧‧‧右揚聲器/揚聲器

C‧‧‧中央揚聲器/揚聲器

LS‧‧‧環繞左揚聲器/揚聲器

RS‧‧‧環繞右揚聲器/揚聲器

S01~S04、S10~S13、S31~S33、S121~S123‧‧‧步驟

O‧‧‧參考收聽點

VS1~VS3‧‧‧虛擬聲音來源/聲音來源

VM1~VM3‧‧‧心形方向性型樣

AET1~AET3‧‧‧電聲轉換器

在閱讀以下對本發明的較佳實施例的詳細描述時，本發明的其它層面、目的和優點將變得更加明顯，此等詳細描述係作為一非限制性範例給出，且係參照附圖作成，其中：圖1已於前文述及，顯示出了用於多聲道音訊系統的指定空間組態中相對於參考收聽點的揚聲器的指定位置之範例；圖2是顯示本方法之步驟的示意圖；圖3是顯示此方法中訊號處理之階段的示意圖；圖4概要地顯示出有功方向向量及無功方向向量與虛擬聲音來源的位置之間的關係之範例；圖5概要地顯示出有兩個虛擬聲音來源、和有功方向向量和無功方向向量、以及兩個對應的虛擬麥克風的心形之虛擬空間組態的範例；圖6概要地顯示出三個電聲轉換器的實際空間組態和圖5的兩個虛擬聲音來源之範例；圖7概要地顯示出有三個虛擬聲音來源、和三個相應的虛擬麥克風的心形、以及有功方向向量和無功方向向量的虛擬空間組態之範例；圖8概要地顯示出三個電聲轉換器的實際空間組態和圖7的三個虛擬聲音來源之範例。

Claims

一種用以使用以一實際空間配置相對於一參考收聽點放置在實際位置的電聲轉換器來再生多聲道音訊訊號的空間分散聲音之方法，其中該多聲道音訊訊號包括多個時間相依輸入音訊訊號，各時間相依輸入音訊訊號與一輸入聲道相關聯，各聲道對應於一電聲轉換器在一指定空間配置中相對於該參考收聽點的一指定位置，該方法包含以下步驟：接收該等時間相依輸入音訊訊號，執行該等時間相依輸入音訊訊號的一時間頻率轉換，用於將該等時間相依輸入音訊訊號中的每一個轉換為用於與該時間相依輸入音訊訊號相關聯的該輸入聲道的多個時間頻率表示型態，各時間頻率表示型態對應於由一時框和一頻率次頻帶定義的一時間頻率瓦片，多個時間頻率瓦片對於該等不同的輸入聲道而言係同等的，對於各時間頻率瓦片，從用於該時間頻率瓦片的多個不同輸入聲道之多個時間頻率表示型態，決定一有功方向向量和一無功方向向量，其中該有功方向向量從一複數強度向量之一實部來決定，而該無功方向向量從該複數強度向量之一虛部來決定，對於各時間頻率瓦片，從該有功方向向量和該無功方向向量，決定在一虛擬空間組態中相對於該參考收聽點的多個虛擬聲音來源之位置，且決定針對各虛擬聲音來源的多個頻率訊號值，基於該虛擬空間組態中的該等虛擬聲音來源的該等位置與一實際空間組態中多個電聲轉換器的多個實際位置之間的一比較，分散該等虛擬聲音來源的多個時間頻率訊號值到該等電聲轉換器，基於分散到該等電聲轉換器的該等時間頻率訊號值，透過該實際空間組態的該等電聲轉換器產生聲音。
如請求項1之方法，其中一時間頻率瓦片之該有功方向向量表示在該參考收聽點處用於該時間頻率瓦片之該時框和頻率次頻帶的聲音能量流，及其中該無功方向向量表示在該參考收聽點處相對於該聲音能量流的聲學擾動。
如請求項1或2之方法，其中各輸入聲道與一聲音方向相關聯，該聲音方向定義在該參考收聽點和與該輸入聲道相關聯的揚聲器之指定位置之間，且一聲速向量作為由與該聲音方向相關聯的該輸入聲道對應的該時間頻率表示型態加權的各聲音方向的總和之一函數來決定，該聲速向量用來決定該有功方向向量和該無功方向向量。
2或3之方法，其中由該等不同輸入聲道之該等時間頻率表示型態之總和所定義之一聲壓值，用來決定該有功方向向量和該無功方向向量。
如請求項3和4之方法，其中該複數強度向量從用於一時間頻率瓦片的該聲壓值的共軛與用於該時間頻率瓦片的該聲速向量之間的一複數乘積產生。
2、3、4或5之方法，其中為了決定每一個虛擬聲音來源的多個時間頻率訊號值，多個虛擬麥克風訊號被決定，各虛擬麥克風訊號與一虛擬聲音來源相關聯、且與將獲得佈置在該參考收聽點處且定向於朝向該虛擬聲音來源的位置的方向之一虛擬麥克風的一訊號相對應。
如請求項6之方法，其中一虛擬聲音來源之該時間頻率訊號值係藉由在與該虛擬聲音來源相關聯的該虛擬麥克風訊號中，抑制來自其他虛擬聲音來源的干擾來決定。
如請求項6或7之方法，其中該等虛擬聲音來源係佈置在以該參考收聽點為中心的圓上，且一虛擬麥克風訊號與將獲得一虛擬心形麥克風的訊號相對應，該虛擬心形麥克風具有成與以該參考收聽點為中心的該圓相切的一心形之形狀的一心形方向性型樣。
2、3、4、5、6、7或8之方法，其中基於該虛擬空間組態中的該等虛擬聲音來源的該等位置與一實際空間組態中該等電聲轉換器的該等實際位置之間的一比較，分散該等虛擬聲音來源的該等時間頻率訊號值到該等電聲轉換器，包含有：對於各時間頻率瓦片，藉由將用於與一電聲轉換器相關聯的輸出聲道的各虛擬聲音來源之個別貢獻量加總，計算出一時間頻率音訊輸出聲道訊號，以及將時間頻率音訊輸出聲道訊號轉換為多個時間相依輸出聲道訊號。
如請求項9之方法，其中將各時間相依輸出聲道訊號饋送到各對應的電聲轉換器。
2、3、4、5、6、7、8、9或10之方法，其中針對各時間頻率瓦片有三個虛擬聲音來源，各虛擬聲音來源有相對於該參考收聽點的一個位置，其中：一第一虛擬聲音來源的一位置和該參考收聽點定義出與起自該參考收聽點的該有功方向向量的方向共線的一方向，一第二虛擬聲音來源的一位置和該參考收聽點定義出以一第一方位與該無功方向向量的方向共線的一方向，一第三虛擬聲音來源的一位置和該參考收聽點定義出以一第二方位與該無功方向向量的方向共線的一方向，該第二方位與該第一方位相反。
2、3、4、5、6、7、8、9、10或11之方法，其中針對各時間頻率瓦片有兩個虛擬聲音來源，各虛擬聲音來源有相對於該參考收聽點的一個位置，而其中：一第一虛擬聲音來源的一位置和該參考收聽點，定義出從該有功方向向量和由一正係數加權的該無功方向向量之和產生的一方向，以及一第二虛擬聲音來源的一位置和該參考收聽點，定義出從該有功方向向量和由一負係數加權的該無功方向向量之和產生的一方向。
一種具現有多個電腦可執行指令的非暫時性實體電腦可讀媒體，此等指令在由一電腦執行時，即執行如請求項1、2、3、4、5、6、7、8、9、10、11或12之方法。
一種用以再生多聲道音訊訊號的空間分散聲音之系統，該系統包含：一個用以接收用於多個輸入聲道的多個時間相依輸入音訊訊號之輸入，一處理器和一記憶體，用以：執行該等時間相依輸入音訊訊號之一時間頻率變換，用以將各該時間相依輸入音訊訊號轉換為用於與該時間相依輸入音訊訊號相關聯的該輸入聲道之多個時間頻率表示型態，各時間頻率表示型態對應於由一時框和一頻率次頻帶定義的一時間頻率瓦片，對於不同的該等輸入聲道，時間頻率瓦片是同等的，對於各時間頻率瓦片，從用於該時間頻率瓦片的多個不同輸入聲道之多個時間頻率表示型態，決定一有功方向向量和一無功方向向量，其中該有功方向向量從一複數強度向量之一實部來決定，而該無功方向向量從該複數強度向量之一虛部來決定，對於各時間頻率瓦片，從該有功方向向量和該無功方向向量，決定在一虛擬空間組態中相對於參考收聽點的多個虛擬聲音來源之位置，且決定針對各虛擬聲音來源的多個時間頻率訊號值，基於該虛擬空間組態中的該等虛擬聲音來源的該等位置與一實際空間組態中多個電聲轉換器的多個實際位置之間的一比較，將該等虛擬聲音來源的該等時間頻率訊號值分散到該等電聲轉換器；以及一個用以將時間相依輸出聲道訊號傳遞到多個電聲轉換器的輸出，該等電聲轉換器以一實際空間組態相對於一參考收聽點放置在多個實際位置。