TWI424756B - 多聲道音訊信號之雙耳演示技術 - Google Patents
多聲道音訊信號之雙耳演示技術 Download PDFInfo
- Publication number
- TWI424756B TWI424756B TW098132269A TW98132269A TWI424756B TW I424756 B TWI424756 B TW I424756B TW 098132269 A TW098132269 A TW 098132269A TW 98132269 A TW98132269 A TW 98132269A TW I424756 B TWI424756 B TW I424756B
- Authority
- TW
- Taiwan
- Prior art keywords
- signal
- binaural
- downmix
- target
- information
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims description 65
- 238000009877 rendering Methods 0.000 title description 3
- 239000011159 matrix material Substances 0.000 claims description 91
- 238000002156 mixing Methods 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 16
- 238000012546 transfer Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000036962 time dependent Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 38
- 238000012360 testing method Methods 0.000 description 21
- 238000007781 pre-processing Methods 0.000 description 15
- 230000000875 corresponding effect Effects 0.000 description 14
- 230000003595 spectral effect Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000005259 measurement Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 4
- 210000003128 head Anatomy 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- TVZRAEYQIKYCPH-UHFFFAOYSA-N 3-(trimethylsilyl)propane-1-sulfonic acid Chemical compound C[Si](C)(C)CCCS(O)(=O)=O TVZRAEYQIKYCPH-UHFFFAOYSA-N 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 210000003454 tympanic membrane Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S3/004—For headphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S1/005—For headphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Description
本應用有關於多聲道音訊信號的雙耳演示。
許多音訊編碼演算法已遭提出,以有效地編碼或壓縮單一聲道的音訊資料,即單音訊信號。使用心理聲學,音訊樣本予以適當地調節、量化或甚至設為零,以將不相關性從例如PCM經編碼音訊信號中移除。也執行冗餘的移除。
更進一步地,在立體聲音訊信號的左聲道與右聲道之間的類似性已予以使用,以有效地編碼/壓縮立體聲音訊信號。
然而,即將的應用引起對音訊編碼演算法的進一步需求。例如,在電信會議、電腦遊戲、音樂性能等中,部分地或甚至完全不相關聯的多個音訊信號必須並行地予以發送。為了保持用以編碼此等音訊信號所需要的位元率足夠低,以與低位元率的發送應用相容,近來已提出將多個輸入音訊信號降混為一降混信號(諸如一立體聲或甚至單降混信號)的音訊編解碼器。例如,MPEG環繞標準以該標準所指示的方式將該等輸入聲道降混為降混信號。該降混藉由所謂的OTT-1
及TTT-1
方塊的使用來執行,該等OTT-1
及TTT-1
方塊分別用以將二個信號降混為一個信號且將三個信號降混為二個信號。為了降混多於三個的信號,此等方塊的一階層結構予以使用。除了輸出單降混信號,每一OTT-1
方塊輸出在二個輸入聲道之間的聲道位準差、及表示在二個輸入聲道之間的相干性或互相關性的聲道內相干性參數/互相關性參數。該等參數與MPEG環繞資料流中的MPEG環繞編碼器的降混信號一起輸出。類似地,每一TTT-1
方塊發送能夠從產生的立體聲降混信號中恢復該等三個輸入聲道的聲道預測係數。該等聲道預測係數也作為MPEG環繞資料流中的旁側資訊予以發送。該MPEG環繞解碼器藉由經發送的旁側資訊的使用升混該降混信號,且恢復輸入至該MPEG環繞編碼器中的原始聲道。
然而,不幸的是,MPEG環繞不能滿足許多應用的所有需要。例如,該MPEG環繞解碼器專用於升混該MPEG環繞編碼器的降混信號,使得MPEG環繞編碼器的輸入聲道恢復成原先的樣子。換句話說,該MPEG環繞資料流專用於藉由已用以編碼的揚聲器組態的使用,或藉由像立體聲的典型組態來播放。
然而,根據一些應用,如果揚聲器的組態可在解碼器端自由地改變,將是有利的。
為了處理後者的需要,當前設計了空間音訊目標編碼(SAOC)標準。每一聲道作為一個別的目標來對待,且將所有的目標降混為一降混信號。也就是說,該等目標以彼此獨立,不依附於任何特定的揚聲器組態,但能夠任意地將(虛擬的)揚聲器定位於解碼器端的音訊信號來處理。該等個別的目標可包含個別的聲源,例如樂器或聲道。不同於MPEG環繞解碼器,SAOC解碼器可自由地個別升混該降混信號,以在任何揚聲器組態上重播該等個別的目標。為了使SAOC解碼器能夠恢復已編碼於SAOC資料流中的個別目標,目標位準差和對於一起形成一立體聲(或多聲道)信號之目標的目標內互相關參數作為SAOC位元流中的旁側資訊予以發送。除此之外,SAOC解碼器/轉碼器被提供揭示如何將個別目標降混為降混信號的資訊。因而,在解碼器端,藉由使用受使用者控制的演示資訊來恢復該等個別SAOC聲道,且在任何揚聲器組態上演示此等信號,是可能的。
然而,雖然上述的編解碼器(即MPEG環繞及SAOC)能夠在具有多於二個揚聲器的揚聲器組態上發送及演示多聲道音訊內容,但是以耳機作為音訊再生系統的需求日益增加,迫使此等編解碼器也必須能夠在耳機上演示音訊內容。對比於揚聲器的播放,藉由耳機所再現的立體聲音訊內容在其頭部內側予以感知。在某些實體位置處,不存在從聲源至耳膜的聲學路徑的影響,致使空間影像因為判定一聲音源的所感知的方位、高度及距離的提示本質上缺失了或極其不準確,而聽起來不自然。因而,為了解決在耳機上由於不準確或缺少聲源定位提示所導致的不自然的聲音階段,已經提出各種技術來模擬一虛擬的揚聲器裝備。概念是將聲源定位的提示加至每一揚聲器信號上。如果空間聲學特性包括於此等量測資料中,那麼這透過由所謂的頭部相關轉換函數(HRTF)或雙耳空間脈衝響應(BRIR)來過濾音訊信號而獲實現。然而,由上述的函數來過濾每一揚聲器信號將使在解碼器/再生端,必須有一顯著較高量的運算能力。特別的是,在“虛擬”揚聲器位置上演示多聲道音訊信號必須予以首先執行,接著,其中所獲得的每一揚聲器信號從而由各自的轉換函數或脈衝響應來過濾,以獲得雙耳輸出信號的左聲道及右聲道。更糟糕的是:由於為了實現虛擬揚聲器信號,一相當大量的合成去相關信號將必須混合至該等升混信號中,以補償在原始不相關音訊輸入信號之間的相關性(該相關性由將該等音訊輸入信號降混為降混信號而產生),所獲得的雙耳輸出信號從而將具有一差的音訊品質。
在目前的SAOC編解碼器版本中,旁側資訊內的SAOC參數允許使用者使用原則上包括耳機的任何播放裝備,來交互地空間演示音訊目標。對耳機的雙耳演示允許使用頭部相關轉換函數(HRTF)參數,來在3D空間中空間控制虛擬的目標位置。例如,在SAOC中的雙耳演示可藉由限制此種情況為單降混的SAOC情況(其中將輸入信號均等地混合至單聲道中),而予以實現。不幸的是,單降混迫使所有音訊信號必須混合為一共同的單降混信號,使得最大程度地失去在原始音訊信號之間的原始相關性特性,因而雙耳演示輸出信號的演示品質不是最佳的。
因而,本發明的目的是提供用以雙耳演示一多聲道音訊信號的一方案,使得雙耳演示的結果獲得改良,同時避免對由原始音訊信號組成降混信號的自由度的限制。
此目的藉由根據申請專利範圍第1項所述之裝置及根據申請專利範圍第10項所述之方法來實現。
本發明以下的基本觀點之一是,自一立體聲降混信號開始雙耳演示一多聲道音訊信號,較自一單降混音訊信號開始雙耳演示多聲道音訊信號更加有利,因為由於極少的目標存在於立體聲降混信號中的事實,在個別音訊信號之間的去相關量被更佳地保存,且因為在編碼器端在立體聲降混信號的二個聲道之間選擇的可能性,使不同降混聲道中的音訊信號之間的相關性特性能夠予以部分地保存。換句話說,由於編碼器的降混,目標內相干性被退化,這在解碼端必須考量,在解碼端雙耳輸出信號的聲道內相干性對於虛擬聲源寬度的感知是一重要的測量,而使用立體聲降混代替單降混降低了退化量,使得藉由雙耳演示立體聲降混信號來恢復/產生適當量的聲道內相干性,能實現更佳的品質。
本申請案的另一主要觀點是,前述ICC(ICC=聲道內相干性)控制可藉由一去相關信號來實現,該去相關信號形成對立體聲降混信號之降混聲道的一單降混的一感知等效物,然而是與該單降混去相關。因而,立體聲降混信號代替一單降混信號的使用保存了該等音訊信號的一些相關性特性,而這些特性在使用一單降混信號時會失去,雙耳演示可基於表示第一及第二降混聲道二者的一經去相關信號,從而與單獨地去相關每一立體聲降混聲道相比,減少了去相關或合成信號處理量。
參照圖式,其等更詳細地描述本申請案的較佳實施例,其中該等圖式為:第1圖顯示可供本發明之該等實施例實施的一SOAC編碼器/解碼器安排的一方塊圖;第2圖顯示一單音訊信號的一頻譜表示的一示意及說明圖;第3圖顯示根據本發明之一實施例之能夠雙耳演示的一音訊解碼器的一方塊圖;第4圖顯示根據本發明之一實施例之第3圖的降混預處理方塊的一方塊圖;第5圖顯示根據一第一替代方式,由第3圖之SAOC參數處理單元42所執行的步驟的一流程圖;第6圖顯示說明該等收聽測試結果的一圖形。
在以下更詳細地描述本發明之實施例前,先說明SAOC編解碼器及一SAOC位元流中所發送的SAOC參數,以使能夠更容易理解下面所更詳細描述的特定實施例。
第1圖顯示一SAOC編碼器10及一SAOC解碼器12的一大致安排。該SAOC編碼器10接收作為輸入的N個目標,即音訊信號141
至14N
。特別的是,編碼器10包含一降混器16,該降混器16接收該等降混信號141
至14N
且將其等降混為一降混信號18。在第1圖中,該降混信號示範地顯示為一立體聲降混信號。然而,該編碼器10及解碼器12也可能以一單模式來操作,在這種情況下,該降混信號將是一單降混信號。然而,下面的描述專注於立體聲降混的情況。立體聲降混信號18的聲道被表示為LO及RO。
為了使SAOC解碼器12能夠恢復個別目標141
至14N
,降混器16向SAOC解碼器12提供包括SAOC參數的旁側資訊,該等SAOC參數包括目標位準差(OLD)、目標內互相關參數(IOC)、降混增益值(DMG)及降混聲道位準差(DCLD)。包括該等SAOC參數的旁側資訊20,與該降混信號18一起形成由SAOC解碼器12所接收的SAOC輸出資料流21。
該SAOC解碼器12包含接收降混信號18及旁側資訊20的一升混器22,以藉由輸入至SAOC解碼器12的演示資訊26及HRTF參數27所指定的演示,來在任何使用者所選定的聲道組241
至24M’
上恢復及演示該等音訊信號141
及14N
,其意思在下面予以更詳細地描述。下面的描述專注於雙耳演示,其中M’=2,且輸出信號特別地專用於耳機的再現,儘管解碼12也能夠根據使用者輸入26中的指令而在其他(非雙耳)揚聲器組態上演示。
該等音訊信號141
至14N
可以任何編碼域(例如以時域或頻譜域)輸入至降混器16中。在實例中,音訊信號141
至14N
以時域(諸如PCM編碼)輸入至降混器16中,降混器16使用諸如一混合QMF組的一濾波器組,例如具有對於最低頻帶尼奎斯特濾波器擴展以增加其頻率解析度的一組複指數調變濾波器,以將該等信號轉換至頻譜域中,其中該等音訊信號在一特定的濾波器組解析度下,表現於與不同頻譜部分相關聯的多個子帶中。如果該等音訊信號141
至14N
已在降混器16所期望的表示中,那麼同樣地不必執行頻譜分解。
第2圖顯示在上述的頻譜域中的一音訊信號。如所見的,音訊信號表示為多個子帶信號。每一子帶信號301
至30P
由一序列的子帶值組成,該序列子帶值由小方框32指出。如所見的,該等子帶信號301
至30P
的子帶值32於時間上互相同步,使得對於每一個連續濾波器組的時槽34,每一子帶301
至30P
恰好包含一子帶值32。如頻率軸35所繪示,該等子帶信號301
至30P
與不同的頻率區域相關聯,且如時間軸37所繪示,該等濾波器組的時槽34於時間中連續配置。
如上所述,降混器16運算來自輸入音訊信號141
至14N
的SAOC參數。降混器16以一時間/頻率解析度來執行此運算,該時間/頻率解析度可相對於由濾波器組的時槽34及子帶分解所判定之原始的時間/頻率解析度而降低某一量,其中此量可藉由各自的語法元素bsFrameLength及bsFreqRes,在旁側資訊20中發信至解碼器側。例如,連續濾波器組的時槽34的群組可分別形成一音框36。換句話說,音訊信號可分割為例如在時間中交疊或在時間中相鄰的音框。在這種情況下,bsFrameLength可定義每個音框之時槽38參數的數目,即供諸如OLD及IOC之SAOC參數於一SAOC音框36中被運算的時間單元,且bsFreqRes可定義SAOC參數被運算的處理頻帶的數目,即頻域被細分割且該等SAOC參數被判定及發送之頻帶的數目。藉由此方式,每一音框分割為在第2圖中由虛線所示範表示的時間/頻率瓦片39。
該降混器16根據下面的公式計算SAOC參數。特別的是,降混器16對每一目標i運算目標位準差,為
其中和及指數n及k分別貫穿所有濾波器組的時槽34,及屬於某一時間/頻率瓦片39之所有濾波器組的子帶30。因而,一音訊信號或目標i之所有子帶值xi
的能量被加總,且以所有目標或音訊信號中的瓦片最高能量值正規化。
而且,SAOC降混器16能夠運算不同輸入目標141
至14N
對之相對應時間/頻率瓦片的一相似性測量。雖然SAOC降混器16可運算在所有的輸入目標141
至14N
對之間的相似性測量,但是降混器16也可抑制相似性測量的發信或限制相似性測量的運算為形成一共同立體聲聲道的左聲道或右聲道的音訊目標141
至14N
。在任何情況下,該相似性測量被稱為目標內互相關參數IOCi
,j
。該運算如下
其中增益指數n及k貫穿屬於某一時間/頻率瓦片39的所有子帶值,且i及j表示音訊目標141
至14N
的某一對。
降混器16藉由用於每一目標141
至14N
之增益因素的使用,降混該等目標141
至14N
。
在一立體降混信號的情況(此情況在第1圖中予以示範地表示)下,一增益因素D1
,i
用於目標i,且接著對所有經此等增益放大的目標計算總和,以獲得左降混聲道L0,且增益因素D2
,i
用於目標i,且接著對該等經增益放大的目標計算總和,以獲得右降混聲道R0。因而,因數D1
,i
及D2
,i
形成大小為2xN的一降混矩陣D,其中
此降混指示藉由降混增益DMGi
發信至解碼器側,且在一立體聲降混信號的情況下,藉由降混聲道位準差DCLDi
而發信至解碼器側。
該等降混增益予以計算,根據:
其中ε是低於最大信號輸入之諸如10-9
或96dB的一小數目。
對於DCLDs
使用下面的公式:
降混器16產生立體聲降混信號,根據:
因而,在上述的公式中,參數OLD及IOC是該等音訊信號的一函數,且參數DMG及DCLD是D的一函數。同時,應注意的是D可在時間中變化。
在雙耳演示(在此所描述的解碼器操作模式)的情況下,輸出信號自然地包含二個聲道,即M’=2。然而,上述的演示資訊26指示的是如何將該等輸入信號141
至14N
分散至虛擬的揚聲器位置1至M上,其中M可高於2。因而,該演示資訊可包含指示如何將該等輸入目標obji
分散至虛擬的揚聲器位置j上,以獲得虛擬揚聲器信號vsj
的一演示矩陣 M
,其中j在1與M之間,且i在1與N之間,其中
該演示資訊可以任何方式由使用者提供或輸入。更有可能的是,演示資訊26包含於SAOC流21自身的旁側資訊中。當然,可允許該演示資訊隨時間變化。例如,時間解析度可等於音框解析度,即可為每一音框36來定義 M
。即使頻率上的 M
變化也是可能的。例如,可為每一瓦片39來定義 M
。下面,例如將用於表示 M
,其中m
表示頻帶且l表示參數時間片段38。
最後,在下面中,將提及HRTF 27。此等HRTF描述如何將一虛擬揚聲器信號j分別在左耳及右耳上演示,使得雙耳提示獲得保存。換句話說,對於每一虛擬揚聲器位置j,存在二個HRTF,即一個對應於左耳,且另一個對應於右耳。如下面更詳細的描述,可能的是,解碼器被提供HRTF參數27,該等HRTF參數27包含對於每一虛擬揚聲器位置j,描述在由雙耳所接收的信號之間且來自於同一聲源j的一相移偏移量Φ j
,及分別對應於右耳及左耳,描述由於收聽者的頭部而產生雙耳衰減的二個振幅放大/衰減P i ,R
及P i ,L
。該HRTF參數27可是關於時間的常數,而在可能等於該SAOC參數解析度的某一頻率解析度(即每個頻帶)下來定義。在下面中,HRTF參數以、及所給定,其中m
表示頻帶。
第3圖更詳細地顯示第1圖中的SAOC解碼器12。如所示,解碼器12包含一降混預處理單元40及一SAOC參數處理單元42。該降混預處理單元40受組配用以接收該立體聲降混信號18,且將其轉換為雙耳輸出信號24。該降混預處理單元40以一由SAOC參數處理單元42所控制的方式來執行此轉換。特別的是,該SAOC參數處理單元42向降混預處理單元40提供一演示指示資訊44,該演示指示資訊44是該SAOC參數處理單元42由SAOC旁側資訊20及演示資訊26推導出的。
第4圖更詳細地顯示根據本發明之一實施例的降混預處理單元40。特別的是,根據第4圖,該降混預處理單元40包含並行連接於輸入(此處接收立體聲降混信號18,即 X n , k
)與單元40之一輸出(此處輸出雙耳輸出信號)之間的二個路徑,即稱為乾式路徑46(供一乾式演示單元串列連接)的一路徑及一濕式路徑48(供一去相關信號產生器50及一濕式演示單元52串列連接),其中一混合階段53將二路徑46及48的輸出相混合以獲得最終的結果,即雙耳輸出信號24。
如下面將更詳細的描述,該乾式演示單元47受組配以由立體聲降混信號18運算出一初步雙耳輸出信號54,其中該初步雙耳輸出信號54表示該乾式演示路徑46的輸出。該乾式演示單元47基於由該SAOC參數處理單元42所提供的一乾式演示指定來執行其運算。在下面所描述的特定實施例中,該演示指定由一乾式演示矩陣 G n,k
來定義。上述的提供在第4圖中藉由一虛線箭頭來說明。
該去相關信號產生器50受組配以透過降混由該立體聲降混信號18產生一經去相關信號,使得其是對該立體聲降混信號18之右及左聲道的單降混的一感知等效物,然而是對單降混去相關。如第4圖所示,該經去相關產生器50可包含一相加器56,其用以在例如比率1:1下或在例如某一其他的固定比率下,對該立體聲降混信號18的左及右聲道求和,以獲得各自的單降混58,該相加器56之後是一去相關器60,其用以產生前述的經去相關信號。該去相關器60可例如包含一或多個延遲級,以由經延遲版本或該單降混58之經延遲版本的一加權和或甚至關於該單降混58與單降混之一個(多個)經延遲版本的一加權和,形成該經去相關信號。當然,對於去相關器60存在許多的替代方式。實際上,分別由去相關器60及去相關信號產生器50所執行的去相關趨於降低在藉由上述相對應於目標內互相關的公式測量時,該經去相關信號62與該單降混58之間的聲道內相干性,以在對於目標位準差藉由上述公式來測量時實質上維持其等的目標位準差。
該濕式演示單元52受組配以由該經去相關信號62運算出一校正雙耳輸出信號64,從而所獲得之校正的雙耳輸出信號64表示該濕式演示路徑48的輸出。該濕式演示單元52使其運算基於一濕式演示指示,該濕式演示指示依據由乾式演示單元47所使用的乾式演示指示而定,如下所述。因此,在第4圖中表示為P2 n,k
的濕式演示指示從SAOC參數處理單元42中獲得,如第4圖中由虛線箭頭所指出的。
該混合階段53將乾式及濕式演示路徑46及48的雙耳輸出信號54及64二者相混合,以獲得最終的雙耳輸出信號24。如第4圖所示,該混合階段53受組配以將該等雙耳輸出信號54及56的左及右聲道個別地相混合,且因此可分別包含用以對其等左聲道求和的一相加器66,及用以對其等右聲道求和的一相加器68。
在描述完SAOC解碼器12的結構及降混預處理單元40的內部結構之後,下面來描述其等的功能。特別的是,下面所描述的詳細實施例對於SAOC參數處理單元42呈現出不同的替代方式,來推導出演示指示資訊44,從而控制雙耳輸出信號24的聲道內相干性。換句話說,該SAOC參數處理單元42不僅運算出該演示指示資訊44,還同時控制混合率,藉由該混合率,將初步及校正雙耳信號55及64混合為最終的雙耳輸出信號24。
根據一第一替代方式,該SAOC參數處理單元42受組配以控制上述的混合率,如第5圖所示。特別的是,在步驟80中,該初步雙耳輸出信號54的一實際雙耳聲道內的相干性值藉由單元42來判定或評估。在步驟82中,SAOC參數處理單元42判定一目標雙耳聲道內相干性值。從而基於此等經判定的聲道內相干性值,在步驟84中,該SAOC參數處理單元42設定上述的混合率。特別的是,步驟84可包含,該SAOC參數處理單元42基於分別在步驟80及82中所判定出的聲道內相干性值,分別適當地運算出由乾式演示單元42所使用的乾式演示指示,及由濕式演示單元52所使用的濕式演示指示。
在下面中,上述的替代方式將在一數學的基礎上來描述。該等替代方式在SAOC參數處理單元42判定演示指示資訊44方面相互不同,該演示指示資訊44包括固有地控制乾式與濕式演示路徑46與48之間之混合率的乾式演示指示及濕式演示指示。根據第5圖所述之第一替代方式,該SAOC參數處理單元42判定一目標雙耳聲道內的相干性值。如下面將更詳細的描述,單元42可基於一目標相干性矩陣 F=A‧E‧A
*的成分來執行此判定,其中“*”表示共軛轉置, A
是一目標雙耳演示矩陣,該目標雙耳演示矩陣使該等目標/音訊信號1...N分別相關於雙耳輸出信號24及初步雙耳輸出信號54的右聲道及左聲道,且由演示資訊26及HRTF參數27推導出,且 E
是一矩陣,該矩陣的係數由IOCij l,m
及目標位準差OLD i l,m
推導出。該運算可執行於該等SAOC參數的空間/時間解析度中,即對於每一(l
,m)
。然而,更可能的是,在各自的結果之間內插的一較低的解析度中執行該運算。後者的陳述對於下面提出的後續運算也是適合的。
因為目標雙耳演示矩陣 A
使輸入目標1...N分別相關於該雙耳輸出信號24及初步雙耳輸出信號54的左聲道與右聲道,所以其大小為2xN,即
上述矩陣 E
的大小為NxN,其中其等係數定義為
因而,該矩陣 E
為
具有沿著其對角線的目標位準差,即
e ii
=OLD i
因為對於i
=j
,IOC ij
=1,而矩陣 E
具有在其對角線外的矩陣係數,該等矩陣係數表示分別由目標內互相關測量IOC ij
加權(大於0時設為IOC ij
,否則係數設為0)之目標i及j的目標位準差的幾何平均值。
與此進行比較,下面所描述的第二及第三替代方式藉由找出方程式之最小平方意義上的最佳匹配,力求獲得該等演示矩陣,該方程式藉由乾式演示矩陣 G
將立體聲降混信號18映射於初步雙耳輸出信號54上,以使目標演示方程式經由矩陣 A
將該等輸入目標映射於該“目標”雙耳輸出信號24上,其中該第二及第三替代方式在最佳匹配形成方面及濕式演示矩陣選擇方面相互不同。
為了能夠更容易地理解下面的替代,在數學上重新描述上述的第3及4圖的描述。如上所述,立體聲降混信號18 X n , k
與該等SAOC參數20及使用者所定義的演示資訊26一起到達SAOC解碼器12。而且,SAOC解碼器12及SAOC參數處理單元42分別如箭頭所指示,對一HRTF資料庫27進行存取。該等經發送的SAOC參數包含對於所有N個目標i、j的目標位準差、目標內互相關值、降混增益及降混聲道的位準差,其中“l,m
”表示各自的時間/頻譜瓦片39,其中l
表示時間且m
表示頻率。對於所有的虛擬揚聲器位置或虛擬空間聲源位置q
,對於左(L)及右(R)雙耳聲道及對於所有的頻帶m
,HRTF參數27示範地假設以給定出。
降混預處理單元40受組配以運算雙耳輸出,如由立體聲降混 X n , k
及經去相關單降混信號來運算出,為
該經去相關信號感知地等效於該立體聲降混信號18的左及右降混聲道的和58,但對其予以最大地去相關,根據
參照第4圖,該去相關信號產生器50執行上述公式的decorrFunction函數。
而且,還如上所述,該降混預處理單元40包含二並行的路徑46及48。因此,上述的方程式基於二個相依於時間/頻率的矩陣,即對於乾式路徑的 G l,m
及對於濕式路徑的 P 2 l,m
。
如第4圖所示,在濕式路徑上的去相關可藉由左及右降混聲道的和來實施,該和傳送至產生一信號62的一去相關器60中,該信號62感知地等效於其輸入58,但對該輸入58予以最大地去相關。
上述矩陣的元素藉由SAOC預處理單元42來運算。還如上所述,上述矩陣的元素可在該等SAOC參數的時間/頻率解析度下(即對於每一時槽l
及每一處理頻帶m
)運算。從而所獲得的矩陣元素可在頻率上擴展且在時間上被內插,產生對應於所有濾波器組的時槽n
及頻率子帶k
而定義的矩陣 E n,k
及 P 2 l,m
。然而,如上,也有一些替代方式。例如,可去除內插,使得在上面的方程式中,指數n,k
可有效地由“l,m
”替代。而且,上述矩陣之元素的運算甚至可在內插於解析度l,m
或n,k
上之一經降低的時間/頻率解析度下執行。因而,同樣,雖然在下面中,指數l,m
指示,該等矩陣計算對應於每一瓦片39來執行,該計算可在某一較低的解析度下執行,當由降混預處理單元40施以該等各自矩陣時,可將該等演示矩陣內插直至一最終的解析度,諸如下至個別子帶值32的QMF時間/頻率解析度。
根據上述的第一替代方式,乾式演示矩陣 G l,m
個別地對應於左及右降混聲道而運算出,使得
該等相對應的增益及相位差Φ l,m,x
定義為
其中const1
可是例如11,且const2
可是0.6。該指標x表示左或右降混聲道,且因此假設為1或2。
大體上來說,上面的條件於一較高頻譜範圍與一較低頻譜範圍間有區別,且特別地僅(可能)滿足於較低的頻譜範圍。此外或可選擇地,該條件依據該實際雙耳聲道內相干性值與目標雙耳聲道內相干性值之其中一者是否與相干性臨界值具有一預定的關係而定,即僅在該相干性超過該臨界值時,(可能)滿足該情況。如上所述的個別子條件可藉由一及運算來結合。
純量V l,m,x
運算為
V l,m,x
= D l,m,x E l,m
( D l,m,x
)+ε.。
應注意的是ε可與上述定義降混增益之ε相同或不同。該矩陣 E
在上面已經介紹過。指標(l,m
)僅表示上面已提及之矩陣運算的時間/頻率的相依性。而且,該等矩陣 D l,m,x
也已在上面針對於降混增益及降混聲道之位準差的定義而提及,使得 D 1,m,l
相對應於上述之 D 1
,且 D 1,m,2
相對應於上述之 D 2
。
然而,為了更容易理解SAOC參數處理單元42如何由所接收之SAOC參數推導出乾式產生矩陣 G 1,m
,在聲道降混矩陣 D 1,m,x
與降混指示之間的相對應性再次被表示,但是以相反方向,該降混指示包含降混增益 D 1,m,
及。特別的是,大小為1xN之聲道降混矩陣 D 1,m,x
的元素,即,給出為
其中元素定義為
在上面 G 1,m
的方程式中,增益及相位差Φ 1,m,x
依據一聲道-x
個別的目標協方差矩陣 F 1 , m , x
的係數f uv
而定,該聲道-x
個別的目標協方差矩陣 F 1,m,x
將依次如下面更詳細的描述,依據大小為NxN之一矩陣 E 1,m,x
而定,該矩陣 E 1,m,x
的元素被運算為
如上所述,給出大小為N
×N
的矩陣 E 1 , m
的元素,為
具有元素,大小為2×2的上述目標協方差矩陣F 1,m,x
相似於上面所指出的協方差矩陣 F
,其給出為
F l,m,x
=A l,m E l,m,x
(A l,m
)*
,
其中“*”相對應於共軛轉置。
目標雙耳演示矩陣A l,m
由所有N HRTF
虛擬揚聲器位置q
的HRTF參數及演示矩陣推導出,且其大小為2×N
。其等元素定義在所有目標i
與雙耳輸出信號之間所期望的關係,為
具有元素的演示矩陣使每一音訊目標i
相關於由HRTF所表示的一虛擬揚聲器q
。
濕式升混矩陣基於矩陣 G l,m
來計算,為
該等增益定義為
乾式雙耳信號54之具有元素的2x2的協方差矩陣 C l,m
遭評估為
其中
計算純量Vl,m
,為
V l,m
=W l,m E l,m
(W l,m
)*
+ε。
給出大小為1xN之濕式單降混矩陣 W l,m
的元素,為
給出大小為2xN之立體聲降混矩陣 D l,m
的元素,為
在上述的 G l,m
方程式中,αl,m
及βl,m
表示專用於ICC控制的旋轉角。特別的是,旋轉角αl,m
控制乾式及濕式雙耳信號的混合,以將雙耳輸出24的ICC調整至雙耳目標的ICC。在設定旋轉角時,乾式雙耳信號54的ICC應予以考慮,該乾式雙耳信號54的ICC依據音訊內容及立體聲降混矩陣 D
而定,典型地小於1.0且大於目標ICC。這與一單降混為基式雙耳演示形成對比,其中該乾式雙耳信號的ICC總是等於1.0。
該等旋轉角αl,m
及βl,m
控制乾式及濕式雙耳信號的混合。該乾式雙耳演示立體聲降混54的ICC在步驟80中評估為
整體的雙耳目標ICC在步驟82中評估為或判定是
該等用以使濕式信號之能量最小化的旋轉角αl,m
及βl,m
在步驟84中被設定為
因而,根據上述對用以產生雙耳輸出信號24之SAOC解碼器12之功能的數學描述,該SAOC參數處理單元42在判定實際雙耳ICC中,藉由上述的方程式及上述輔助方程式的使用來計算。類似地,SAOC參數處理單元42在判定步驟82中之目標雙耳ICC中,藉由上面所示方程式及輔助方程式來運算。在此基礎上,SAOC參數處理單元42在步驟84中判定該等旋轉角,從而設定在乾式與濕式演示路徑之間的混合率。根據此等旋轉角,SAOC參數處理單元42建立該等乾式及濕式演示矩陣或升混參數G l,m
及,其等依次在解析度n,k
下由降混預處理單元40使用,以由立體聲降混18推導出雙耳輸出信號24。
應注意的是上述的第一替代方式可在某些方面上變化。例如,上述聲道內相位差的方程式可改變至一程度,使第二子條件可將該乾式經雙耳演示立體聲降混的實際ICC與const2
(而不是由聲道的個別協方差矩陣 F l,m,x
所判定的ICC)進行比較,使得在此方程式中,部分將由項目替代。
而且,應注意的是,根據所選擇的符號,在上面的一些方程式中,當諸如ε的一純量常量加至一矩陣使得此常數加至各自矩陣的每一係數中時,可省略全為1的矩陣。
具有較高目標擷取可能的乾式演示矩陣的另一產生方式是基於該等左及右降混聲道的一聯合處理。為了簡明,省略該子帶指標對,此精神的目的在於最小平方意義上的最佳匹配
到目標演示
Y
=AS
。
這產生目標協方差矩陣:
YY *
= ASS * A *
其中複數值的目標雙耳演示矩陣A
在一先前的公式中給出,且矩陣S
按列包含原始目標的子帶信號。
該最小平方的匹配由二階資訊來運算,該二階資訊由經傳達的目標及降混資料推導出。也就是,執行下面的替代
為了致動該等替代,請回想SAOC目標參數典型地載有目標功率資訊(OLD)及(選定的)目標內互相關(IOC)。由此等參數,推導出NxN的目標協方差矩陣E,該目標協方差矩陣E
表示SS*的一近似值,即,從而產生
YY*=AEA*。
而且,X=DS及降混協方差矩陣變成:
XX*=DSS*D*,
其可再次藉由XX*=DED*從E中推導出。
乾式演示矩陣G藉由解出最小平方的問題而獲得
min{norm{Y-X}}。
G
= G 0
= YX *
( XX *
)-1
其中YX*被運算為YX*=AED*。
因而,乾式演示單元42藉由2x2的升混矩陣G的使用,藉由,由降混信號 X
判定雙耳輸出信號,且該SAOC參數處理單元藉由上面公式的使用將 G
判定為
G
=A ED *
(DED *
)-1
,
給出複數值的乾式演示矩陣,複數值濕式演示矩陣P
(以前表示為 P 2
)藉由考慮遺漏的協方差誤差矩陣而在該SAOC參數處理單元42中運算
ΔR
=YY *
-G 0 XX * G 0 *
。
可顯示出的是,此矩陣是正的,且透過選擇相對應於ΔR
之最大特徵值λ的一單元規範特徵向量u
及調節其,給出P
的一較佳選擇,根據
其中,純量V
如上來運算,即V
= WE
( W
)*
+ε。
換句話說,因為濕式路徑被安置,以校正所獲得之乾式解的相關性,ΔR
=AEA *
-G 0 DED * G 0 *
表示遺漏的協方差誤差矩陣,即分別地,且因而該SAOC參數處理單元42保留P,使得PP
*=Δ R
,對此的一解透過選擇上述的單元規範特徵向量u
而給出。
用以產生乾式及濕式演示矩陣的一第三方法表示出基於經約束複數預測的提示對演示參數的一評估,且將恢復正確的複數協方差結構的優點與對於改良目標擷取之降混聲道的聯合處理的利益相結合。由此方法所提供的一附加機會是,在許多情況下能夠完全地省略濕式升混,從而為一具有較低運算複雜性的雙耳演示版本作好準備。如依據該第二替代方式,下面所呈現的第三替代方式基於左及右降混聲道的一聯合處理。
本原理的目的在於最小平方意義上的最佳匹配
到正確複數協方差之約束下的目標演示Y
=AS
因而,它的目的在於找出G及P的解,使得
1)(是對2)中公式的約束);及
2),如其在第二替代方式中所要求的一樣。
由於拉格朗日乘數的理論,由此推斷出存在一自伴隨矩陣 M
= M *
,使得
MP
=0
,且
MGXX *
= YX *
。
在一般的情況下,其中YX *
及XX *
二者是非奇異的,它得自於M
為非奇異的第二方程式,且從而P
=0
是對第一方程式的唯一解。這是不具濕式演示的解。設定K
=M -1
,可看出的是,相對應的乾式升混由下給出
G
=KG 0
其中G 0
是上面針對於第二替代方式所推導出的預測解,且該自伴隨矩陣K
解決
KG 0 XX * G 0 * K *
=YY *
。
如果其唯一為正且因此矩陣G 0 XX * G 0 *
的自伴隨矩陣的平方根由Q
表示,那麼該解可寫為
K
=Q -1
(QYY * Q
)1/2 Q -1
。
因而,SAOC參數處理單元42判定G
為KG 0
=Q -1
(QYY * Q
)1/2 Q -1 G 0
=(G 0 DED * G 0 *
)-1
(G 0 DED * G 0 * AEA * G 0 DED * G 0 *
)1/2
(G 0 DED * G 0 *
)-1 G 0
,其中G 0
=AED *
(DED *
)-1
。
對於內部平方根,將大體上有四個自伴隨解,且導致至Y
之最佳匹配的解被予以選擇。
實際上,必須例如藉由對所有乾式演示矩陣係數之絕對平方值的和限制條件,將乾式演示矩陣G
=KG 0
限制為一最大大小,這可表示為
如果解違背了此限制條件,那麼取決於界限的解將予以替代。這透過將約束條件
trace(GG *
)=gmax
加至該等先前的約束條件中及重新推導出拉格朗日方程式來實現。其結果是,先前的方程式
MGXX *
=YX *
必須由
MGXX * +
μI
=YX *
來替代。其中μ是一附加的中間複數參數,且I
是2x2的單位矩陣。可產生一具有非零濕式演示P
的解。特別的是,濕式升混矩陣的解可藉由PP *
=(YY * -GXX * G *
)/V
=(AEA * -GDED * G *
)/V
來找出,其中P
的選擇較佳地基於上述針對於第二替代方式之特徵值的考慮,且V
是WEW *
++ε。P
稍後的判定也藉由SAOC參數處理單元42來完成。
從而判定出的矩陣G
及P
接著由該等濕式及乾式演示單元使用,如先前所述。
如果需要一低複雜性的版本,那麼下一步驟是代替,即使此解即是不具有濕式演示的解。實現此的一較佳方法是,將複數協方差的限制減少為僅在對角線上匹配,使得正確的信號功率仍能在右及左聲道中實現,但互協方差處於未知的狀態。
關於第一替代方式,收聽測試的個人被引導至一聲學隔離的收聽室中,該收聽室被設計為允許高品質的收聽。該結果在下面予以描述。
播放透過使用耳機(具有Lake-People式數位/類比轉換器的STAX SR Lambda Pro耳機及STAX SRM監測器)來完成。該測試方法在用於空間音訊驗證測試的標準程序之後,基於對於中等品質音訊之主觀估計的“隱藏參考和基準的多刺激”(MUSHRA)方法。
總共5位收聽者參與了所執行的每一項測試。所有個體可被認為是有經驗的收聽者。根據MUSHRA方法學,該等收聽者被指導去相對於參照比較所有的測試條件。該等測試條件自動地隨機賦予每一測試項目及每一收聽者。該等主觀的響應藉由一電腦為基的MUSHRA程式,按從0至100的一刻度範圍來記錄。允許在該等待測項目之間瞬間轉換。該等MUSHRA測試已經予以導入,以評估該MPEG SAOC系統之所期望的立體聲至雙耳處理的感知性能。
為了評估所期望之系統相較於單聲道至雙耳性能的一感知品質增益,由該單聲道至雙耳系統處理的項目也包括於該測試中。該等相對應的單聲道及立體聲降混信號在每聲道每秒80kbit下予以AAC編碼。
隨著HRTF資料庫“KEMAR_MIT_COMPACT”予以使用。參考條件透過考慮所期望之演示的適當加權的HRTF脈衝響應,雙耳過濾目標而產生。該基準條件是低通過濾參考條件(在3.5kHz下)。
表格1包含該等經測試項目的列表。
五個不同的場景已經予以測試,其等是演示來自3個不同目標聲源庫的(單聲道或立體聲)目標的結果。三個不同的降混矩陣已用於SAOC編碼器中,參見表格2。
該等升混表示的品質評估測試已經定義於表格3中。
該“5522”系統使用立體聲降混預處理器,如於2008年7月在德國漢諾威舉行的第85屆運動圖像專家組(MPEG)會議中提出的“ISO/IEC CD 23003-2:200x Spatial Audio Object Coding(SAOC)”,文件號第N10045號之ISO/IEC JTC 1/SC 29/WG 11(MPEG)中所描述,該立體聲降混預處理器具有複數值的雙耳目標演示矩陣A l,m
作為一輸入。也就是說,沒有ICC控制予以執行。非正式的收聽測試已經顯示,藉由對於上方頻帶採用A l,m
的振幅,而不是使所有頻帶為複數值,改良了性能。改良的“5522”系統已經用於測試中。
在第6圖中可找到證明該等所獲得之收聽測試結果的圖形的一簡單回顧。此等描繪顯示,關於所有收聽者每一項目的平均MUSHRA分級,及關於所有經評估項目與相關的95%可信區間的統計平均值。應注意的是,隱藏參考的資料因為所有的個體已經正確地識別出,而在該等MUSHRA描繪中予以省略。
下面的觀察可基於該等收聽測試的結果予以作出:
‧“x-2-b_DualMono”的表現比的上“5522”。
‧“x-2-b_DualMono”的表現明顯優於“5222_DualMono”。
‧“x-2-b_DualMono”的表現比的上“x-1-b”。
‧根據上面第一替代方式所實施的“x-2-b”與所有其他條件相比,具有稍微較佳的表現。
‧項目“disco1”在該等結果中沒有顯示出太多變化,因此可能不是適當的。
因而,在SAOC中立體聲降混信號的雙耳演示的一概念已在上面予以描述,來滿足不同降混矩陣的需要。特別的是,雙重單似降混的品質相同於真實的單降混,此已在一收聽測試中驗證。從立體聲降混與單降混進行比較所獲得的品質改良,也可從該收聽測試中看出。上述實施例的基本處理方塊是立體聲降混的乾式雙耳演示,及與一去相關濕式雙耳信號相混合(以二者方塊的一適當結合)。
‧特別的是,濕式雙耳信號使用具有單降混輸入的一去相關器來運算,使得左及右功率及IPD與在該乾式雙耳信號中相同。
‧濕式及乾式雙耳信號的混合藉由目標ICC及乾式雙耳信號的ICC來控制,使得其典型地與單降混為基式雙耳演示相比需要較少的去相關,從而產生較高的總的聲音品質。
‧而且,上面的實施例可以一穩定的方式,對應於單聲道/立體聲降混輸入與單聲道/立體聲/雙耳輸出的任何結合而予以簡單地修改。
換句話說,上面描述了提供用於由聲道內相干性控制來解碼及雙耳演示立體聲降混為基式SAOC位元流的信號處理架構和方法的實施例。單或立體聲降混輸入與單、立體聲或雙耳輸出的所有組合可作為所描述之立體聲降混為基式的概念的特殊情況來處理。立體聲降混為基式概念的品質結果顯示出,其典型地與單降混為基式的概念相比品質更佳,此已在上述的MUSHRA收聽測試中獲驗證。
在2008年7月,德國漢諾威舉行的第85屆MPEG會議中提出的“ISO/IEC CD 23003-2:200x Spatial Audio Object Coding(SAOC)”,檔號第N10045號,空間音訊目標編碼(SAOC)ISO/IEC JTC 1/SC 29/WG 11(MPEG)中,多個音訊目標被降混為一單聲道或立體聲信號。此信號予以編碼,且與旁側資訊(SAOC參數)一起發送至SAOC解碼器。該等上面的實施例,使雙耳輸出信號的聲道內相干性(ICC)成為感知虛擬聲源寬度的一重要測量,且由於編碼器降混,品質降低的或甚至損壞的,(幾乎)完全地予以修正。
輸入系統的是立體聲降混、SAOC參數、空間演示資訊及一HRTF資料庫。輸出是雙耳信號。輸入及輸出二者典型地藉由諸如MPEG環繞混合QMF濾波器組(ISO/IEC 23003-1:2007,資訊技術-MPEG音訊技術-第一部分:具有充分低的帶內混疊的MPEG環繞)的一過取樣複數調變分析濾波器組,在解碼器轉換域中給出。該雙耳輸出信號藉由該合成濾波器組,轉換回PCM時間域。換句話說,該系統從而是一可能的單降混為基式雙耳演示對於立體聲降混信號的一擴展。對於雙重單降混信號,系統的輸出與此單降混為基式系統是相同的。因而,該系統可藉由以一穩定的方式設定該等演示參數,而來處理單/立體聲降混輸入與單/立體聲/雙耳輸出的任何結合。
再換句話說,該等上面的實施例由ICC控制來執行立體聲降混為基式SAOC位元流的雙耳演示及解碼。與一單降混為基式雙耳演示進行比較,該等實施例可在兩個方面利用該立體聲降混:
-在不同降混聲道中之目標之間的相關特性獲得部分地保存
-因為在一降混聲道中存在較少的目標,目標的擷取獲得改良
因而,在SAOC中立體聲降混信號的雙耳演示的一概念已在上面予以描述,來滿足不同降混矩陣的需要。特別的是,雙重單似降混的品質與真實單降混相同,此已在一收聽測試中獲驗證。從立體聲降混與單降混進行比較可獲得的品質改良,也可從收聽測試中看出。上述實施例的基本處理方塊是乾式雙耳演示立體聲降混,及與一去相關濕式雙耳信號相混合(以二者方塊的一適當結合)。特別的是,該濕式雙耳信號透過使用有單降混輸入的一去相關器來運算,使得左及右功率及IPD與乾式雙耳信號中相同。濕式及乾式雙耳信號的混合受該目標ICC及單降混為基式雙耳演示來控制,從而產生較高的總的聲音品質。而且,上面的實施例可以一穩定的方式,對應於單/立體聲降混輸入與單/立體聲/雙耳輸出的任何結合予以簡單地修改。根據該等實施例,該立體聲降混信號Xn,k
與該等SAOC參數、使用者所定義的演示資訊及一HRTF資料庫一起作為輸入。該等經發送的SAOC參數是所有N
個目標i,j
的OLDi l,m
(目標位準差)、IOCij l,m
(目標內互相關)、DMGi l,m
(降混增益)及DCLDi l,m
(降混聲道位準差)。該等HRTF參數以所有HRTF資料庫指標q
的而給定,該指標q
與某一空間聲源的位置相關聯。
最後,應注意的是,雖然在上面的描述中,術語“聲道內相干性”及“目標內互相關”以“相干性”為一個術語且“互相關”為另一個術語中,而予以不同地解讀,但是後面的術語可交換性地分別用作對於聲道內與目標內的類似性的測量。
根據一實際的實施,發明的雙耳演示概念可實施於硬體或軟體中。因而,本發明也相關於一電腦程式,該電腦程式可儲存於諸如一CD、一磁碟、DVD、一記憶體條、一記憶體卡或一記憶體晶片的一電腦可讀媒體中。本發明因而也是具有一程式碼的一電腦程式,該程式碼在於一電腦上執行時,執行結合於上面圖式所述之編碼、轉換或解碼的發明方法。
儘管此發明已經根據多個較佳實施例而獲描述,但是仍具有屬於此發明之範圍內的變更、置換及等效物。還應注意的是,實施本發明之方法及組成具有許多可選擇的方式。因而其打算將後面的附加申請專利範圍解讀為包括屬於本發明之真正精神及範圍內的所有此等變更、置換及等效物。
另外,應注意的是,在流程圖中所指示的所有步驟藉由分別在解碼器中的各自裝置來實施,該等實施的一裝置可包含執行於一CPU上的副程式、一ASIC的電路部分等。一相似的描述對於在該等方塊圖中該等方塊功能是真實的。
參考文獻:
2008年7月德國漢諾威舉行的第85屆MPEG會議中提出的ISO/IEC JTC 1/SC 29/WG 11(MPEG),第N10045號文件,“ISO/IEC CD 23003-2:200x Spatial Audio Object Coding(SAOC)”
1999年10月EBU技術介紹:“MUSHRA-EBU Method for Subjective Listening Tests of Intermediate Audio Quality”,文件號第B/AIM022號
ISO/IEC 23003-1:2007,Information technology-MPEG audio technologies-Part 1:MPEG Surround
2007年7月在美國聖何塞提出的ISO/IEC JTC1/SC29/WG11(MPEG),第N9099號文件:“Final Spatial Audio Object Coding Evaluation Procedures and Criterion”
Jeroen、Breebaart、Christof Faller:Spatial Audio Processing. MPEG Surround and Other Applications. Wiley & Sons,2007.
2006年在韓國首爾,Jeroen、Breebaart等人提出的:Multi-Channel goes Mobile:MPEG Surround Binaural Rendering. AES 29th International Conference
10...SAOC編碼器
12...SAOC解碼器
141~14N...音訊信號
16...降混器
18‧‧‧降混信號
20‧‧‧旁側資訊
21‧‧‧SAOC輸出資料流
22‧‧‧升混
24‧‧‧雙耳輸出信號
241~24M’‧‧‧聲道組
26‧‧‧演示資訊
27‧‧‧HRTF參數
301~30P‧‧‧子帶信號
32‧‧‧子帶值
34‧‧‧時槽
35‧‧‧頻率軸
36‧‧‧音框
37‧‧‧時間軸
38‧‧‧參數時間片段
39‧‧‧時間/頻率瓦片
40‧‧‧降混預處理單元
42‧‧‧SAOC參數處理單元
44‧‧‧演示指示資訊
46‧‧‧乾式路徑
47‧‧‧乾式演示單元
48‧‧‧濕式路徑
50‧‧‧去相關信號產生器
52‧‧‧濕式演示單元
53‧‧‧混合階段
54‧‧‧初步雙耳輸出信號
56‧‧‧相加器
58‧‧‧單降混
60‧‧‧去相關器
62‧‧‧經去相關信號
64‧‧‧校正雙耳輸出信號
66/68‧‧‧相加器
80~84‧‧‧步驟
L0‧‧‧聲道
R0‧‧‧聲道
‧‧‧經去相關信號
P2 n,k
‧‧‧濕式演示指示
Gn,k
‧‧‧乾式演示指示
第1圖顯示可供本發明之該等實施例實施的一SOAC編碼器/解碼器安排的一方塊圖;
第2圖顯示一單音訊信號的一頻譜表示的一示意及說明圖;
第3圖顯示根據本發明之一實施例之能夠雙耳演示的一音訊解碼器的一方塊圖;
第4圖顯示根據本發明之一實施例之第3圖的降混預處理方塊的一方塊圖;
第5圖顯示根據一第一替代方式,由第3圖之SAOC參數處理單元42所執行的步驟的一流程圖;
第6圖顯示說明該等收聽測試結果的一圖形。
18...降混信號
24...雙耳輸出信號
40...降混預處理單元
42...SAOC參數處理單元
46...乾式路徑
47...乾式演示單元
48...濕式路徑
50...去相關信號產生器
52...濕式演示單元
53...混合階段
54...初步雙耳輸出信號
56...相加器
58...多聲道降混
60...去相關器
62...經去相關信號
64...校正雙耳輸出信號
66/68...相加器
Claims (11)
- 一種用於將一多聲道音訊信號雙耳演示為一雙耳輸出信號的設備,該多聲道音訊信號包含多個音訊信號被降混的一立體聲降混信號,且包含旁側資訊,該旁測資訊包含一指示出對於每一音訊信號,該各自音訊信號已分別混合至該立體聲降混信號的一第一聲道及一第二聲道中的程度的降混資訊,及該等多個音訊信號的目標位準資訊,及描述在該等多個音訊信號之音訊信號對之間的類似性的目標內互相關資訊,該設備包含:用於基於一第一演示指示自該立體聲降混信號之該第一及第二聲道來運算出一初步雙耳信號的裝置,該第一演示指示依據該目標內互相關資訊、該目標位準資訊、該降混資訊、使每一音訊信號相關於一虛擬揚聲器位置的演示資訊及頭部相關轉換函數(HRTF)參數而定;用於產生一經去相關信號的裝置,該經去相關信號作為對該立體聲降混信號之該第一及第二聲道的一單降混的一感知等效物,且然而是與該單降混去相關;用於根據一第二演示指示自該經去相關信號運算出一校正雙耳信號的裝置,該第二演示指示依據該目標內互相關資訊、該目標位準資訊、該降混資訊、該演示資訊及該等HRTF參數而定;及用於將該初步雙耳信號與該校正雙耳信號相混合,以獲得該雙耳輸出信號的裝置。
- 如申請專利範圍第1項所述之設備,其中用於產生該經 去相關信號的該裝置受組配以用以對該立體聲降混信號的該第一及第二聲道求和,且用以對該和去相關以獲得該經去相關信號。
- 如申請專利範圍第1或2項所述之設備,更包含:用於評估該初步雙耳信號的一實際雙耳聲道內相干性值的裝置;用於判定一目標雙耳聲道內相干性值的裝置;及用於基於該實際雙耳聲道內相干性值及該目標雙耳聲道內相干性值,設定一混合率的裝置,該混合率判定該雙耳輸出信號分別由於該立體聲降混信號的該第一及第二聲道由用於運算出該初步雙耳信號的該裝置來處理,及該立體聲降混信號的該第一及第二聲道由用於產生該經去相關信號的該裝置及用於運算出該校正雙耳信號的該裝置來處理,而受到的影響的程度。
- 如申請專利範圍第3項所述之設備,其中用於設定該混合率的該裝置受組配以基於該實際雙耳聲道內相干性值及該目標雙耳聲道內相干性值,透過設定該第一演示指示及該第二演示指示來設定該混合率。
- 如申請專利範圍第3項所述之設備,其中用於判定該目標雙耳聲道內相干性值的該裝置受組配,以基於一目標協方差矩陣 F = A E A * 的成分來執行該判定,其中“*”表示共軛轉置, A 是使該等音訊信號分別與該雙耳輸出信號的該第一及第二聲道相關的一目標雙耳演示矩陣,且惟獨由該演示資訊及該等HRTF參數來決定,且 E 是惟獨由該目標內互相關資訊及該目標位準資訊來決定的一矩陣。
- 如申請專利範圍第5項所述之設備,其中用於運算出該初步雙耳信號的該裝置受組配以執行該運算,使得
- 如申請專利範圍第1項所述之設備,其中用於運算出該初步雙耳信號的該裝置受組配以執行該運算,使得
- 如申請專利範圍第1項所述之設備,其中用於運算出該初步雙耳信號的該裝置受組配以執行該運算,使得
- 如申請專利範圍第1項所述之設備,其中該降混資訊是時間相依,且該目標位準資訊及該目標內互相關資訊是時間及頻率相依。
- 一種用於將一多聲道音訊信號雙耳演示為一雙耳輸出信號的方法,該多聲道音訊信號包含多個音訊信號被降 混的一立體聲降混信號,且包含旁側資訊,該旁測資訊包含一指示出對於每一音訊信號,該各自音訊信號已分別混合至該立體聲降混信號的一第一聲道及一第二聲道中的程度的降混資訊,及該等多個音訊信號的目標位準資訊,及描述在該等多個音訊信號之音訊信號對之間的類似性的目標內互相關資訊,該方法包含以下步驟:基於一第一演示指示自該立體聲降混信號之該第一及第二聲道來運算出一初步雙耳信號,該第一演示指示依據該目標內互相關資訊、該目標位準資訊、該降混資訊、使每一音訊信號相關於一虛擬揚聲器位置的演示資訊及頭部相關轉換函數(HRTF)參數而定;產生一經去相關信號,該經去相關信號作為對該立體聲降混信號之該第一及第二聲道的一單降混的一感知等效物,且然而是與該單降混去相關;根據一第二演示指示自該經去相關信號運算出一校正雙耳信號,該第二演示指示依據該目標內互相關資訊、該目標位準資訊、該降混資訊、該演示資訊及該等HRTF參數而定;及將該初步雙耳信號與該校正雙耳信號相混合,以獲得該雙耳輸出信號。
- 一種具有複數指令的電腦程式,該等指令在於一電腦上執行時,用於執行根據申請專利範圍第10項所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10330308P | 2008-10-07 | 2008-10-07 | |
EP09006598A EP2175670A1 (en) | 2008-10-07 | 2009-05-15 | Binaural rendering of a multi-channel audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201036464A TW201036464A (en) | 2010-10-01 |
TWI424756B true TWI424756B (zh) | 2014-01-21 |
Family
ID=41165167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW098132269A TWI424756B (zh) | 2008-10-07 | 2009-09-24 | 多聲道音訊信號之雙耳演示技術 |
Country Status (16)
Country | Link |
---|---|
US (1) | US8325929B2 (zh) |
EP (2) | EP2175670A1 (zh) |
JP (1) | JP5255702B2 (zh) |
KR (1) | KR101264515B1 (zh) |
CN (1) | CN102187691B (zh) |
AU (1) | AU2009301467B2 (zh) |
BR (1) | BRPI0914055B1 (zh) |
CA (1) | CA2739651C (zh) |
ES (1) | ES2532152T3 (zh) |
HK (1) | HK1159393A1 (zh) |
MX (1) | MX2011003742A (zh) |
MY (1) | MY152056A (zh) |
PL (1) | PL2335428T3 (zh) |
RU (1) | RU2512124C2 (zh) |
TW (1) | TWI424756B (zh) |
WO (1) | WO2010040456A1 (zh) |
Families Citing this family (84)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8027479B2 (en) * | 2006-06-02 | 2011-09-27 | Coding Technologies Ab | Binaural multi-channel decoder in the context of non-energy conserving upmix rules |
MX2011011399A (es) | 2008-10-17 | 2012-06-27 | Univ Friedrich Alexander Er | Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto. |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
JP5919201B2 (ja) | 2010-03-23 | 2016-05-18 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 音声を定位知覚する技術 |
US10158958B2 (en) | 2010-03-23 | 2018-12-18 | Dolby Laboratories Licensing Corporation | Techniques for localized perceptual audio |
JP5957446B2 (ja) * | 2010-06-02 | 2016-07-27 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 音響処理システム及び方法 |
UA107771C2 (en) | 2011-09-29 | 2015-02-10 | Dolby Int Ab | Prediction-based fm stereo radio noise reduction |
CN102404610B (zh) * | 2011-12-30 | 2014-06-18 | 百视通网络电视技术发展有限责任公司 | 视频点播服务的实现方法及系统 |
KR20130093798A (ko) | 2012-01-02 | 2013-08-23 | 한국전자통신연구원 | 다채널 신호 부호화 및 복호화 장치 및 방법 |
EP2802161A4 (en) | 2012-01-05 | 2015-12-23 | Samsung Electronics Co Ltd | METHOD AND DEVICE FOR LOCATING MULTICANALTONE SIGNALS |
US9190065B2 (en) | 2012-07-15 | 2015-11-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
US9761229B2 (en) | 2012-07-20 | 2017-09-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for audio object clustering |
US9516446B2 (en) | 2012-07-20 | 2016-12-06 | Qualcomm Incorporated | Scalable downmix design for object-based surround codec with cluster analysis by synthesis |
PT2880654T (pt) * | 2012-08-03 | 2017-12-07 | Fraunhofer Ges Forschung | Descodificador e método para um conceito paramétrico generalizado de codificação de objeto de áudio espacial para caixas de downmix/upmix multicanal |
EP2891337B8 (en) * | 2012-08-31 | 2016-12-14 | Dolby Laboratories Licensing Corporation | Reflected sound rendering for object-based audio |
EP2717261A1 (en) | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding |
EP2922313B1 (en) * | 2012-11-16 | 2019-10-09 | Yamaha Corporation | Audio signal processing device and audio signal processing system |
MX368349B (es) * | 2012-12-04 | 2019-09-30 | Samsung Electronics Co Ltd | Aparato de suministro de audio y metodo de suministro de audio. |
EP2939443B1 (en) * | 2012-12-27 | 2018-02-14 | DTS, Inc. | System and method for variable decorrelation of audio signals |
JP6328662B2 (ja) * | 2013-01-15 | 2018-05-23 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | バイノーラルのオーディオ処理 |
EP2757559A1 (en) * | 2013-01-22 | 2014-07-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation |
US9900720B2 (en) * | 2013-03-28 | 2018-02-20 | Dolby Laboratories Licensing Corporation | Using single bitstream to produce tailored audio device mixes |
EP2987166A4 (en) * | 2013-04-15 | 2016-12-21 | Nokia Technologies Oy | BESTIMMER FOR MULTI-CHANNEL AUDIOSIGNAL CODIER MODE |
CN104982042B (zh) * | 2013-04-19 | 2018-06-08 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
CN108806704B (zh) | 2013-04-19 | 2023-06-06 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
US8804971B1 (en) | 2013-04-30 | 2014-08-12 | Dolby International Ab | Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio |
WO2014177202A1 (en) * | 2013-04-30 | 2014-11-06 | Huawei Technologies Co., Ltd. | Audio signal processing apparatus |
EP2804176A1 (en) * | 2013-05-13 | 2014-11-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio object separation from mixture signal using object-specific time/frequency resolutions |
RU2671627C2 (ru) * | 2013-05-16 | 2018-11-02 | Конинклейке Филипс Н.В. | Аудиоустройство и способ для него |
WO2014184353A1 (en) * | 2013-05-16 | 2014-11-20 | Koninklijke Philips N.V. | An audio processing apparatus and method therefor |
KR101751228B1 (ko) | 2013-05-24 | 2017-06-27 | 돌비 인터네셔널 에이비 | 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩 |
EP2830334A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals |
EP2830336A3 (en) | 2013-07-22 | 2015-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Renderer controlled spatial upmix |
JP6449877B2 (ja) * | 2013-07-22 | 2019-01-09 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダ、レンダリングされたオーディオ信号を使用する方法、コンピュータ・プログラムおよび符号化オーディオ表現 |
US9319819B2 (en) | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
US9812150B2 (en) | 2013-08-28 | 2017-11-07 | Accusonus, Inc. | Methods and systems for improved signal decomposition |
RU2639952C2 (ru) * | 2013-08-28 | 2017-12-25 | Долби Лабораторис Лайсэнзин Корпорейшн | Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием |
CN117037810A (zh) * | 2013-09-12 | 2023-11-10 | 杜比国际公司 | 多声道音频内容的编码 |
WO2015041478A1 (ko) * | 2013-09-17 | 2015-03-26 | 주식회사 윌러스표준기술연구소 | 멀티미디어 신호 처리 방법 및 장치 |
EP2854133A1 (en) * | 2013-09-27 | 2015-04-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Generation of a downmix signal |
WO2015048551A2 (en) * | 2013-09-27 | 2015-04-02 | Sony Computer Entertainment Inc. | Method of improving externalization of virtual surround sound |
JP2016536856A (ja) * | 2013-10-02 | 2016-11-24 | ストーミングスイス・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング | 二つ以上の基本信号からのマルチチャンネル信号の導出 |
EP3061089B1 (en) | 2013-10-21 | 2018-01-17 | Dolby International AB | Parametric reconstruction of audio signals |
BR112016008426B1 (pt) | 2013-10-21 | 2022-09-27 | Dolby International Ab | Método para reconstrução de uma pluralidade de sinais de áudio, sistema de decodificação de áudio, método para codificação de uma pluralidade de sinais de áudio, sistema de codificação de áudio, e mídia legível por computador |
CN108347689B (zh) | 2013-10-22 | 2021-01-01 | 延世大学工业学术合作社 | 用于处理音频信号的方法和设备 |
EP2866227A1 (en) | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
EP2866475A1 (en) | 2013-10-23 | 2015-04-29 | Thomson Licensing | Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups |
US9933989B2 (en) | 2013-10-31 | 2018-04-03 | Dolby Laboratories Licensing Corporation | Binaural rendering for headphones using metadata processing |
KR102157118B1 (ko) | 2013-12-23 | 2020-09-17 | 주식회사 윌러스표준기술연구소 | 오디오 신호의 필터 생성 방법 및 이를 위한 파라메터화 장치 |
CN104768121A (zh) | 2014-01-03 | 2015-07-08 | 杜比实验室特许公司 | 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频 |
ES2837864T3 (es) | 2014-01-03 | 2021-07-01 | Dolby Laboratories Licensing Corp | Generación de audio binaural en respuesta a un audio multicanal que usa al menos una red de retardo de retroalimentación |
US10468036B2 (en) | 2014-04-30 | 2019-11-05 | Accusonus, Inc. | Methods and systems for processing and mixing signals using signal decomposition |
US20150264505A1 (en) | 2014-03-13 | 2015-09-17 | Accusonus S.A. | Wireless exchange of data between devices in live events |
US9832585B2 (en) * | 2014-03-19 | 2017-11-28 | Wilus Institute Of Standards And Technology Inc. | Audio signal processing method and apparatus |
US9848275B2 (en) | 2014-04-02 | 2017-12-19 | Wilus Institute Of Standards And Technology Inc. | Audio signal processing method and device |
WO2015152666A1 (ko) * | 2014-04-02 | 2015-10-08 | 삼성전자 주식회사 | Hoa 신호를 포함하는 오디오 신호를 디코딩하는 방법 및 장치 |
CN105338446B (zh) * | 2014-07-04 | 2019-03-12 | 南宁富桂精密工业有限公司 | 音频声道控制电路 |
US20170142178A1 (en) * | 2014-07-18 | 2017-05-18 | Sony Semiconductor Solutions Corporation | Server device, information processing method for server device, and program |
US9774974B2 (en) * | 2014-09-24 | 2017-09-26 | Electronics And Telecommunications Research Institute | Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion |
JP6463955B2 (ja) * | 2014-11-26 | 2019-02-06 | 日本放送協会 | 三次元音響再生装置及びプログラム |
US10504528B2 (en) | 2015-06-17 | 2019-12-10 | Samsung Electronics Co., Ltd. | Method and device for processing internal channels for low complexity format conversion |
CN114005454A (zh) * | 2015-06-17 | 2022-02-01 | 三星电子株式会社 | 实现低复杂度格式转换的内部声道处理方法和装置 |
CN108028988B (zh) * | 2015-06-17 | 2020-07-03 | 三星电子株式会社 | 处理低复杂度格式转换的内部声道的设备和方法 |
US9860666B2 (en) | 2015-06-18 | 2018-01-02 | Nokia Technologies Oy | Binaural audio reproduction |
EP3748994B1 (en) * | 2015-08-25 | 2023-08-16 | Dolby Laboratories Licensing Corporation | Audio decoder and decoding method |
ES2818562T3 (es) * | 2015-08-25 | 2021-04-13 | Dolby Laboratories Licensing Corp | Descodificador de audio y procedimiento de descodificación |
EA202090186A3 (ru) | 2015-10-09 | 2020-12-30 | Долби Интернешнл Аб | Кодирование и декодирование звука с использованием параметров преобразования представления |
KR20170125660A (ko) * | 2016-05-04 | 2017-11-15 | 가우디오디오랩 주식회사 | 오디오 신호 처리 방법 및 장치 |
US10659904B2 (en) | 2016-09-23 | 2020-05-19 | Gaudio Lab, Inc. | Method and device for processing binaural audio signal |
US10356545B2 (en) * | 2016-09-23 | 2019-07-16 | Gaudio Lab, Inc. | Method and device for processing audio signal by using metadata |
US10555107B2 (en) | 2016-10-28 | 2020-02-04 | Panasonic Intellectual Property Corporation Of America | Binaural rendering apparatus and method for playing back of multiple audio sources |
CN110114826B (zh) * | 2016-11-08 | 2023-09-05 | 弗劳恩霍夫应用研究促进协会 | 使用相位补偿对多声道信号进行下混合或上混合的装置和方法 |
JP7038725B2 (ja) | 2017-02-10 | 2022-03-18 | ガウディオ・ラボ・インコーポレイテッド | オーディオ信号処理方法及び装置 |
CN107205207B (zh) * | 2017-05-17 | 2019-01-29 | 华南理工大学 | 一种基于中垂面特性的虚拟声像近似获取方法 |
CN112075092B (zh) * | 2018-04-27 | 2021-12-28 | 杜比实验室特许公司 | 经双耳化立体声内容的盲检测 |
US11929091B2 (en) | 2018-04-27 | 2024-03-12 | Dolby Laboratories Licensing Corporation | Blind detection of binauralized stereo content |
CN109327766B (zh) * | 2018-09-25 | 2021-04-30 | Oppo广东移动通信有限公司 | 3d音效处理方法及相关产品 |
JP7092050B2 (ja) * | 2019-01-17 | 2022-06-28 | 日本電信電話株式会社 | 多地点制御方法、装置及びプログラム |
CN110049423A (zh) * | 2019-04-22 | 2019-07-23 | 福州瑞芯微电子股份有限公司 | 一种利用广义互相关和能量谱检测麦克风的方法和系统 |
CN113767650B (zh) | 2019-05-03 | 2023-07-28 | 杜比实验室特许公司 | 使用多种类型的渲染器渲染音频对象 |
FR3101741A1 (fr) * | 2019-10-02 | 2021-04-09 | Orange | Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés |
TWI750565B (zh) * | 2020-01-15 | 2021-12-21 | 原相科技股份有限公司 | 真無線多聲道揚聲裝置及其多音源發聲之方法 |
GB2595475A (en) * | 2020-05-27 | 2021-12-01 | Nokia Technologies Oy | Spatial audio representation and rendering |
US12035126B2 (en) * | 2021-09-14 | 2024-07-09 | Sound Particles S.A. | System and method for interpolating a head-related transfer function |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200537436A (en) * | 2004-03-01 | 2005-11-16 | Dolby Lab Licensing Corp | Low bit rate audio encoding and decoding in which multiple channels are represented by fewer channels and auxiliary information |
TW200638338A (en) * | 2005-04-29 | 2006-11-01 | Microsoft Corp | Systems and methods for 3D audio programming and processing |
JP2007104601A (ja) * | 2005-10-07 | 2007-04-19 | Matsushita Electric Ind Co Ltd | マルチチャンネル符号化における頭部伝達関数をサポートするための装置 |
TW200723712A (en) * | 2005-07-19 | 2007-06-16 | Fraunhofer Ges Forschung | Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding |
US20070160219A1 (en) * | 2006-01-09 | 2007-07-12 | Nokia Corporation | Decoding of binaural audio signals |
US20070223749A1 (en) * | 2006-03-06 | 2007-09-27 | Samsung Electronics Co., Ltd. | Method, medium, and system synthesizing a stereo signal |
TW200738038A (en) * | 2006-02-21 | 2007-10-01 | Koninkl Philips Electronics Nv | Audio encoding and decoding |
KR20080087909A (ko) * | 2006-01-19 | 2008-10-01 | 엘지전자 주식회사 | 신호 디코딩 방법 및 장치 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7644003B2 (en) * | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US7447317B2 (en) | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
US7394903B2 (en) * | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
CN1930914B (zh) * | 2004-03-04 | 2012-06-27 | 艾格瑞系统有限公司 | 对多声道音频信号进行编码和合成的方法和装置 |
WO2005098826A1 (en) * | 2004-04-05 | 2005-10-20 | Koninklijke Philips Electronics N.V. | Method, device, encoder apparatus, decoder apparatus and audio system |
SE0400998D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
KR100619082B1 (ko) * | 2005-07-20 | 2006-09-05 | 삼성전자주식회사 | 와이드 모노 사운드 재생 방법 및 시스템 |
EP1927266B1 (en) * | 2005-09-13 | 2014-05-14 | Koninklijke Philips N.V. | Audio coding |
EP1969901A2 (en) * | 2006-01-05 | 2008-09-17 | Telefonaktiebolaget LM Ericsson (publ) | Personalized decoding of multi-channel surround sound |
WO2007080212A1 (en) * | 2006-01-09 | 2007-07-19 | Nokia Corporation | Controlling the decoding of binaural audio signals |
WO2007080225A1 (en) * | 2006-01-09 | 2007-07-19 | Nokia Corporation | Decoding of binaural audio signals |
BRPI0707136A2 (pt) * | 2006-01-19 | 2011-04-19 | Lg Electronics Inc | método e aparelho para processamento de um sinal de mìdia |
US8027479B2 (en) * | 2006-06-02 | 2011-09-27 | Coding Technologies Ab | Binaural multi-channel decoder in the context of non-energy conserving upmix rules |
JP5270566B2 (ja) * | 2006-12-07 | 2013-08-21 | エルジー エレクトロニクス インコーポレイティド | オーディオ処理方法及び装置 |
EP2137725B1 (en) * | 2007-04-26 | 2014-01-08 | Dolby International AB | Apparatus and method for synthesizing an output signal |
KR101146841B1 (ko) * | 2007-10-09 | 2012-05-17 | 돌비 인터네셔널 에이비 | 바이노럴 오디오 신호를 생성하기 위한 방법 및 장치 |
-
2009
- 2009-05-15 EP EP09006598A patent/EP2175670A1/en not_active Withdrawn
- 2009-09-24 TW TW098132269A patent/TWI424756B/zh active
- 2009-09-25 MX MX2011003742A patent/MX2011003742A/es active IP Right Grant
- 2009-09-25 EP EP09778738.6A patent/EP2335428B1/en active Active
- 2009-09-25 ES ES09778738.6T patent/ES2532152T3/es active Active
- 2009-09-25 WO PCT/EP2009/006955 patent/WO2010040456A1/en active Application Filing
- 2009-09-25 MY MYPI20111545 patent/MY152056A/en unknown
- 2009-09-25 JP JP2011530393A patent/JP5255702B2/ja active Active
- 2009-09-25 CN CN200980139685.5A patent/CN102187691B/zh active Active
- 2009-09-25 PL PL09778738T patent/PL2335428T3/pl unknown
- 2009-09-25 KR KR1020117010398A patent/KR101264515B1/ko active IP Right Grant
- 2009-09-25 BR BRPI0914055-7A patent/BRPI0914055B1/pt active IP Right Grant
- 2009-09-25 AU AU2009301467A patent/AU2009301467B2/en active Active
- 2009-09-25 RU RU2011117698/08A patent/RU2512124C2/ru active
- 2009-09-25 CA CA2739651A patent/CA2739651C/en active Active
-
2011
- 2011-04-06 US US13/080,685 patent/US8325929B2/en active Active
- 2011-12-19 HK HK11113678.9A patent/HK1159393A1/zh unknown
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200537436A (en) * | 2004-03-01 | 2005-11-16 | Dolby Lab Licensing Corp | Low bit rate audio encoding and decoding in which multiple channels are represented by fewer channels and auxiliary information |
TW200638338A (en) * | 2005-04-29 | 2006-11-01 | Microsoft Corp | Systems and methods for 3D audio programming and processing |
TW200723712A (en) * | 2005-07-19 | 2007-06-16 | Fraunhofer Ges Forschung | Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding |
JP2007104601A (ja) * | 2005-10-07 | 2007-04-19 | Matsushita Electric Ind Co Ltd | マルチチャンネル符号化における頭部伝達関数をサポートするための装置 |
US20070160219A1 (en) * | 2006-01-09 | 2007-07-12 | Nokia Corporation | Decoding of binaural audio signals |
KR20080087909A (ko) * | 2006-01-19 | 2008-10-01 | 엘지전자 주식회사 | 신호 디코딩 방법 및 장치 |
TW200738038A (en) * | 2006-02-21 | 2007-10-01 | Koninkl Philips Electronics Nv | Audio encoding and decoding |
US20070223749A1 (en) * | 2006-03-06 | 2007-09-27 | Samsung Electronics Co., Ltd. | Method, medium, and system synthesizing a stereo signal |
Also Published As
Publication number | Publication date |
---|---|
EP2335428A1 (en) | 2011-06-22 |
MY152056A (en) | 2014-08-15 |
JP2012505575A (ja) | 2012-03-01 |
KR101264515B1 (ko) | 2013-05-14 |
JP5255702B2 (ja) | 2013-08-07 |
WO2010040456A1 (en) | 2010-04-15 |
EP2335428B1 (en) | 2015-01-14 |
AU2009301467B2 (en) | 2013-08-01 |
MX2011003742A (es) | 2011-06-09 |
US20110264456A1 (en) | 2011-10-27 |
US8325929B2 (en) | 2012-12-04 |
RU2512124C2 (ru) | 2014-04-10 |
BRPI0914055B1 (pt) | 2021-02-02 |
BRPI0914055A2 (pt) | 2015-11-03 |
AU2009301467A1 (en) | 2010-04-15 |
CA2739651C (en) | 2015-03-24 |
EP2175670A1 (en) | 2010-04-14 |
ES2532152T3 (es) | 2015-03-24 |
KR20110082553A (ko) | 2011-07-19 |
CA2739651A1 (en) | 2010-04-25 |
HK1159393A1 (zh) | 2012-07-27 |
PL2335428T3 (pl) | 2015-08-31 |
CN102187691A (zh) | 2011-09-14 |
TW201036464A (en) | 2010-10-01 |
RU2011117698A (ru) | 2012-11-10 |
CN102187691B (zh) | 2014-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI424756B (zh) | 多聲道音訊信號之雙耳演示技術 | |
US20200335115A1 (en) | Audio encoding and decoding | |
CN111316354B (zh) | 目标空间音频参数和相关联的空间音频播放的确定 | |
JP4603037B2 (ja) | マルチチャネルオーディオ信号を表示するための装置と方法 | |
RU2558612C2 (ru) | Декодер аудиосигнала, способ декодирования аудиосигнала и компьютерная программа с использованием ступеней каскадной обработки аудиообъектов | |
JP2010507115A (ja) | 多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現 | |
GB2485979A (en) | Spatial audio coding | |
EP4042723A1 (en) | Spatial audio representation and rendering |