TWI459376B - 用以從下混信號與空間參數資訊抽取直接/周圍信號之裝置及方法 - Google Patents
用以從下混信號與空間參數資訊抽取直接/周圍信號之裝置及方法 Download PDFInfo
- Publication number
- TWI459376B TWI459376B TW100100644A TW100100644A TWI459376B TW I459376 B TWI459376 B TW I459376B TW 100100644 A TW100100644 A TW 100100644A TW 100100644 A TW100100644 A TW 100100644A TW I459376 B TWI459376 B TW I459376B
- Authority
- TW
- Taiwan
- Prior art keywords
- direct
- signal
- surrounding
- channel
- downmix
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 51
- 230000005236 sound signal Effects 0.000 claims description 78
- 238000012545 processing Methods 0.000 claims description 40
- 238000000605 extraction Methods 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 31
- 230000000694 effects Effects 0.000 claims description 24
- 238000002156 mixing Methods 0.000 claims description 21
- 230000001427 coherent effect Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 210000005069 ears Anatomy 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 43
- 230000006870 function Effects 0.000 description 20
- 238000000354 decomposition reaction Methods 0.000 description 11
- 230000003595 spectral effect Effects 0.000 description 11
- 238000000926 separation method Methods 0.000 description 9
- 238000013459 approach Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 101100259947 Homo sapiens TBATA gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本發明係有關於音訊信號處理,及更明確言之,係有關於從下混信號及空間參數資訊抽取直接/周圍信號之一種裝置及方法。本發明之額外實施例係有關於利用直接/周圍分離用以提升音訊信號之雙耳重製。又有其它實施例係有關多聲道聲音之雙耳重製,此處多聲道音訊表示具有二或多個聲道之音訊。典型具有多聲道聲音之音訊內容為電影聲軌及多聲道音樂記錄。
人類空間聽覺系統傾向於粗略分成兩部分處理聲音。一方面為可侷限化的部分或直接部分,而另一方面為非可侷限化的部分或周圍部分。有許多音訊處理應用,諸如雙耳聲音重製及多聲道上混期望存取此二音訊組分。
技藝界已知直接/周圍分離方法,例如描述於「用於空間音訊編碼及增強之一次周圍信號分解及基於向量之侷限化」,Goodwin,Jot,IEEE國際聲學、語音及信號處理會議,2007年4月;「從立體聲記錄之基於相關性之周圍抽取」,Merimaa,Goodwin,Jot,AES第123屆會議,紐約2007年;「立體信號之多揚聲器回放」,C. Faller,AES會議,2007年10月;「立體音訊信號使用複雜相似性指標之一次周圍分解」,Goodwin等人,公告號碼:US2009/0198356 A1,2009年8月;「專利申請案名稱:從立體信號產生多聲道音訊信號之方法」,發明人:Christof Faller,代理人:FISH & RICHARDSON P.C.,受讓人:LG電子公司,源自:美國明尼蘇達州明尼波里市,IPC8類別:AH04R500FI,USPC類別:381 1;及「立體信號之周圍產生」,Avendano等人,核發日期:2009年7月28日,申請案號:10/163,158,申請日:2002出6月4日其可用於多項應用。業界最先進之直接/周圍分離演繹法則係基於立體聲於頻帶之頻帶間信號比較。
此外,於「基於空間音訊場景編碼之雙耳3-D音訊呈現」,Goodwin,Jot,AES123屆會議,紐約2007年,解決使用周圍抽取之雙耳回放。關聯雙耳重製的周圍抽取也敘述於J. Usher及J. Benesty,「空間聲音品質的提升:新穎殘響音訊上混器」,IEEE音訊、語音、語言處理會報,第15期第2141-2150頁2007年9月。後述報告係聚焦在使用各聲道的直接組分之適應性最小均方交叉聲道濾波而於立體麥克風記錄的周圍抽取。空間音訊編解碼器例如MPEG環繞,典型地係由一或二聲道音訊串流組合空間側邊資訊組成,其將音訊延伸入多個聲道,如敘述於ISO/IEC 23003-1-MPEG環繞;及Breebaart,J.,Herre,J.,Villemoes,L,,Jin,C.,Kjorling,K.,Plogsties,J.,Koppens,J.(2006),「多聲道進入行動裝置:MPEG環繞雙耳呈現」,第29屆AES會議議事錄,韓國首爾。
但現代參數音訊編碼技術諸如MPEG環繞(MPS)及參數立體聲(PS)只提供較少數音訊下混聲道,於某些情況下,只提供一個聲道連同額外空間側邊資訊。「原先」輸入聲道間的比較唯有在首度將聲音解碼成為期望的輸出格式後才屬可能。
因此,要求從下混信號及空間參數資訊抽取直接信號部分或周圍信號部分的構想。但使用參數側邊資訊作直接/周圍抽取並非既有的解決之道。
因此本發明之目的係提供一種藉由使用空間參數資訊而從下混信號抽取直接信號部分或周圍信號部分的構想。
此一目的可藉如申請專利範圍第1項之裝置、如申請專利範圍第15項之方法、或如申請專利範圍第16項之電腦程式達成。
本發明之基本觀念係基於當基於該空間參數資訊而估算多聲道音訊信號之直接部分或周圍部分的位準資訊且基於該估算得之位準資訊而從下混信號抽取直接信號部分或周圍信號部分時,可達成前述直接/周圍抽取。此處,該下混信號及該空間參數資訊表示該具有比下混信號更多聲道的多聲道音訊信號。此種解決辦法允許藉由使用空間參數側邊資訊而從具有一或多個輸入聲道的下混信號做直接及/或周圍抽取。
依據本發明之一實施例,一種用以從下混信號及空間參數資訊抽取直接及/或周圍信號之裝置包含直接/周圍估算器及直接/周圍抽取器。該下混信號及該空間參數資訊表示比該下混信號具有更多聲道之多聲道音訊信號。此外,該空間參數資訊包含該多聲道音訊信號之聲道間關係式。該直接/周圍估算器係組配來用以基於該空間參數資訊而估算該多聲道音訊信號之直接部分或周圍部分之位準資訊。該直接/周圍抽取器係組配來用以基於該直接部分或該周圍部分之該估算得之位準資訊而從該下混信號抽取該直接信號部分或該周圍信號部分。
依據本發明之另一實施例,一種用以從下混信號及空間參數資訊抽取直接及/或周圍信號之裝置包含雙耳直接聲音呈現裝置、雙耳周圍聲音呈現裝置及組合器。該雙耳直接聲音呈現裝置係組配來用以處理該直接信號部分來獲得一第一雙耳輸出信號。該雙耳周圍聲音呈現裝置係組配來用以處理該周圍信號部分來獲得一第二雙耳輸出信號。該組合器係組配來用以組合該第一及第二雙耳輸出信號來獲得一經組合之雙耳輸出信號。因此,可提供一音訊信號之雙耳重製,其中該音訊信號之直接信號部分及周圍信號部分係經分開處理。
後文中,將參考附圖說明本發明之實施例,附圖中:第1圖顯示用以從下混信號及表示多聲道音訊信號之空間參數資訊抽取直接/周圍信號之一種裝置之一實施例之方塊圖;第2圖顯示用以從單聲道下混信號及表示參數立體聲音訊信號之空間參數資訊抽取直接/周圍信號之一種裝置之一實施例之方塊圖;第3a圖顯示依據本發明之一實施例,一種多聲道音訊信號之頻譜分解之示意說明圖;第3b圖顯示用以基於第3a圖之頻譜分解而計算多聲道音訊信號之聲道間關係式之示意說明圖;第4圖顯示使用估算得之位準資訊下混之一種直接/周圍抽取器之實施例之方塊圖;第5圖顯示藉由施加增益參數至一下混信號之一直接/周圍抽取器之又一實施例之方塊圖;第6圖顯示基於使用聲道交混的最小均方(LMS)解之一直接/周圍抽取器之又一實施例之方塊圖;第7a圖顯示使用立體聲周圍估算式之一種直接/周圍估算器之實施例之方塊圖;第7b圖顯示直接對總能比相對於聲道間相干性之一實例之線圖;第8圖顯示依據本發明之一實施例,一種編碼器/解碼器系統之方塊圖;第9a圖顯示依據本發明之一實施例,雙耳直接聲音呈現之綜覽之方塊圖;第9b圖顯示第9a圖之雙耳直接聲音呈現之細節之方塊圖;第10a圖顯示依據本發明之一實施例,雙耳周圍聲音呈現之綜覽之方塊圖;第10b圖顯示第10a圖之雙耳周圍聲音呈現細節之雙耳周圍聲音呈現細節之方塊圖;第11圖顯示多聲道音訊信號之雙耳重製之一實施例之構想方塊圖;第12圖顯示包括雙耳重製之直接/周圍抽取之一實施例之總體方塊圖;第13a圖顯示用以於濾波器排組域而從單聲道下混信號抽取一直接/周圍信號之一種裝置之一實施例之方塊圖;第13b圖顯示第13a圖之直接/周圍抽取區塊之一實施例之方塊圖;及第14圖顯示依據本發明之又一實施例,MPEG環繞解碼方案之一實例之示意說明圖。
第1圖顯示用以從下混信號115及空間參數資訊105抽取直接/周圍信號125-1、125-2之裝置100之一實施例之方塊圖。如第1圖所示,下混信號115及空間參數資訊105表示比下混信號115具有更多聲道Ch1
...ChN
之多聲道音訊信號101。空間參數資訊105可包含多聲道音訊信號101之聲道間關係式。更明確言之,裝置100包含一直接/周圍估算器110及一直接/周圍抽取器120。直接/周圍估算器110可經組配來基於空間參數資訊105而估算該多聲道音訊信號101之直接部分或周圍部分之位準資訊113。直接/周圍抽取器120可經組配來基於該估算得之直接部分或周圍部分位準資訊113,而從該下混信號115抽取直接信號部分125-1或周圍信號部分125-2。
第2圖顯示用以從一單聲道下混信號215及表示參數立體聲音訊信號201之空間參數資訊105抽取直接/周圍信號125-1、125-2之裝置之一實施例之方塊圖。第2圖之裝置200大致上包含與第1圖之裝置100之相同方塊。因此,具有相同實作及/或功能的相同方塊係以相同元件符號標示。此外,第2圖之參數立體聲音訊信號201可與第1圖之多聲道音訊信號101相對應,及第2圖之單聲道下混信號215可與第1圖之下混信號115相對應。第2圖之實施例中,單聲道下混信號215及空間參數資訊105表示參數立體聲音訊信號201。參數立體聲音訊信號可包含以「L」指示之左聲道及以「R」指示之右聲道。此處,直接/周圍抽取器120係經組配來基於該估算得之位準資訊113,而從該單聲道下混信號215抽取直接信號部分125-1或周圍信號部分125-2;該位準資訊113可藉由直接/周圍估算器110的使用而從空間參數資訊105導算出。
實際上,第1圖或第2圖實施例中之空間參數(空間參數資訊105)特別係指MPEG環繞(MPS)或參數立體聲(PS)側邊資訊。此二技術乃最先進的低位元率立體聲或環繞音訊編碼方法。參考第2圖,PS提供一個具有空間參數之下混音訊聲道,及參考第1圖,MPS提供一、二或多個具有空間參數之下混音訊聲道。
特定言之,第1圖及第2圖之實施例明白顯示空間參數側邊資訊105方便用在從具有一或多個輸入聲道之一信號(亦即下混信號115;215)直接及/或周圍抽取領域。
直接及/或周圍位準(位準資訊113)之估算係基於有關聲道間關係或聲道間差值之資訊,諸如位準差及/或相關性。此等值可從立體聲或多聲道信號算出。第3a圖顯示用來計算個別Ch1
...ChN
之聲道間關係之多聲道音訊信號(Ch1
...ChN
)之頻譜分解300之示意說明圖。如第3a圖可知,多聲道音訊信號(Ch1
...ChN
)之接受檢視的聲道Chi
或其餘聲道之線性組合R之頻譜分解,包含多個301子頻帶,其中該等多個301子頻帶中之各個子頻帶303係沿著具有子頻帶值305之一橫軸(時間軸310)延伸,如時間/頻率網格之小框指示。此外,子頻帶303係連續位在沿縱軸(頻率軸320)而與一濾波器排組之不同頻率區相對應。第3a圖中,對應時間/頻率片(tile)係以虛線指示。此處,指數i標示聲道Chi
,而R標示其餘聲道之線性組合,而指數n及k係對應某些濾波器排組時槽307及濾波器排組子頻帶303。基於此等時間/頻率片(tile)位在相對於時間/頻率軸310、320的相同時間/頻率點(t0
,f0
),如第3b圖所示,可於步驟330求出聲道間關係式335,諸如所檢視聲道Chi
之聲道間相干性(ICCi
)或聲道位準差(CLDi
)。此處,聲道間關係式ICCi
及CLDi
之計算可藉由使用下列關係式進行:
其中Chi
為所檢視之聲道及R為其餘聲道之線性組合,而<...>標示時間平均。其餘聲道之線性組合R之一例為其能(energy)-標準化和。此外,聲道位準差(CLDi
)典型地為參數σi
之分貝值。
參考前述方程式,聲道位準差(CLDi
)或參數σi
可與標準化至其餘聲道之線性組合R位準PR
的聲道Chi
位準Pi
相對應。此處位準Pi
或PR
可從聲道Chi
之聲道間位準差參數ICLDi
及其餘聲道之聲道間位準差參數ICLDj
(j不等於i)的線性組合ICLDR
導算出。
此處,ICLDi
及ICLDj
分別係與一參考聲道Chref
相關。於額外實施例,聲道間位準差參數ICLDi
及ICLDj
也可與多聲道音訊信號(Ch1
...ChN
)之屬於參考聲道Chref
以外的全部其它聲道相關。如此,最終將導致聲道位準差(CLDi
)及參數σi
之相同結果。
依據其它實施例,第3b圖之聲道間關係式335也可經由在多聲道音訊信號(Ch1
...ChN
)之不同或全部成對Chi
、Chj
輸入聲道上運算而導算出。此種情況下,可獲得成對逐一計算聲道間相干性參數ICCi,j
或聲道位準差(CLDi,j
)或參數σi,j
(或ICLDi,j
),指數(i,j)分別表示某一對聲道Chi
及Chj
。
第4圖顯示一直接/周圍抽取器420之一實施例400之方塊圖,其包括估算得之位準資訊113的下混。第4圖之實施例大致上包含第1圖實施例之相同方塊。因此,具有類似實務及或功能的相同方塊係標示以相同的元件符號。但對應於第1圖之直接/周圍抽取器120之第4圖之直接/周圍抽取器420係組配來下混多聲道音訊信號的直接部分或周圍部分之估算得之位準資訊113,而獲得該直接部分或周圍部分之已經下混的位準資訊,及基於已經下混的位準資訊而從下混信號115抽取直接信號部分125-1或周圍信號部分125-2。如第4圖所示,空間參數資訊105例如可從第1圖之多聲道音訊信號101(Ch1
...ChN
)導算出,且可包含第3b圖所介紹的Ch1
...ChN
之聲道間關係式335。第4圖之空間參數資訊105也包含欲饋至直接/周圍抽取器420之下混資訊410。於實施例中,下混資訊410可將原先多聲道音訊信號(例如第1圖之多聲道音訊信號101)的下混特徵化成為下混信號115。下混例如可使用於任何編碼域,例如於時域或頻域運算的下混器(圖中未顯示)執行。
依據其它實施例,直接/周圍抽取器420也係組配來藉由組合具相干性和之直接部分之估算得之位準資訊與具非相干性和之周圍部分之估算得之位準資訊,而執行該多聲道音訊信號101之直接部分或周圍部分的估算得之位準資訊113之下混。
須指出估算得之位準資訊可分別表示直接部分或周圍部分之能(energy)位準或功率位準。
更明確言之,估算得之直接/周圍部分的能(亦即位準資訊113)下混可藉由假設聲道間的全然非相干性或全然相干性執行。於分別基於非相干性或相干性和而下混之情況下,可施加之二公式如下。
對非相干性信號,已下混之能或已下混之位準資訊可藉計算。
對相干性信號,已下混之能或已下混之位準資訊可藉計算。
此處,g為下混增益,其可得自下混資訊,而E(Chi
)表示多聲道音訊信號中之一聲道Chi
之直接/周圍部分之能。至於非相干性下混之典型例,於下混5.1聲道成為二聲道之情況下,左下混之能可為:
E L_DMX
=E Left
+E Left_surround
+0.5*E Center
第5圖顯示藉由施加增益參數gD
、gA
至下混信號115之直接/周圍抽取器520之又一實施例。第5圖之直接/周圍抽取器520可對應第4圖之直接/周圍抽取器420。首先,直接部分545-1或周圍部分545-2之估算得之位準資訊可接收自一直接/周圍估算器,如前文說明。接收得之位準資訊545-1、545-2可於步驟550組合/下混來分別獲得直接部分555-1或周圍部分555-2的下混位準資訊。然後於步驟560,增益參數gD
565-1、gA
565-2分別可對直接部分或周圍部分而從下混位準資訊555-1、555-2導算出。最後,直接/周圍抽取器520可用來施加導算得之增益參數565-1、565-3至下混信號115(步驟570),因而將獲得直接信號部分125-1或周圍部分125-2。
此處,須注意於第1、4、5圖之實施例,下混信號115可由存在於直接/周圍抽取器120、420、520之輸入端的多個下混聲道(Ch1
...ChN
)所組成。
於其它實施例,直接/周圍抽取器520係組配來從直接部分或周圍部分之下混位準資訊555-1、555-2而測定直接對總(DTT)能比或周圍對總(ATT)能比,及基於所測得之DTT能比或ATT能比之抽取參數而用作為增益參數565-1、565-2。
於又其它實施例,直接/周圍抽取器520係組配來將下混信號115與第一抽取參數sqrt(DTT)相乘而獲得直接信號部分125-1,及與第二抽取參數sqrt(ATT)相乘而獲得周圍信號部分125-2。此處,下混信號115可對應於單聲道下混信號215,如第2圖實施例所示(「單聲道下混情況」)。
於單聲道下混情況下,周圍抽取可藉施加sqrt(ATT)及sqrt(DTT)進行。但更明確言之,藉由對各個聲道Chi
施加sqrt(ATTi
)及sqrt(DTTi
),對多聲道下混信號相同辦法也有效。
依據其它實施例,於下混信號115包含多個聲道之清況下(「單聲道下混情況」),直接/周圍抽取器520可經組配來來施加第一多個抽取參數例如sqrt(DTTi
)至下混信號115來獲得直接信號部分125-1,及施加第二多個抽取參數例如sqrt(ATTi
)至下混信號115來獲得周圍信號部分125-2。此處,第一及第二多數抽取參數可組成對角線矩陣。
一般而言,直接/周圍抽取器120、420、520也可經組配來藉由施加平方MxM抽取矩陣至下混信號115而抽取直接信號部分125-1或周圍信號部分125-2,其中平方MxM抽取矩陣大小(M)係與下混信號(Ch1
...ChN
)數目(M)相對應。
因此施加周圍抽取可被描述為施加平方MxM抽取矩陣,此處M為下混信號(Ch1
...ChN
)數目。如此可包括全部可能的方式來操縱輸入信號而獲得直接/周圍輸出信號,包括基於sqrt(ATTi
)及sqrt(DTTi
)參數表示平方MxM抽取矩陣的主要元件之相當簡單辦法係組配為對角線矩陣,或LMS交混辦法係組配為完整矩陣。後者將說明如後。此處,須注意前述施加MxM抽取矩陣之辦法涵蓋任何數目的聲道,包括一個。
依據其它實施例,抽取矩陣可能並非必然為MxM矩陣大小的平方矩陣,原因在於發明人具有較少數輸出聲道。因此,抽取矩陣具有較少數行。此一實例可為抽取單一直接信號而非M。
也非必要經常性取全部M下混聲道作為與具有抽取矩陣之M行的輸入信號。更明確言之,可與應用用途相關,此處並非必要具有全部聲道作為輸入信號。
第6圖顯示基於使用聲道交混之LMS(最小均方)解決辦法之一種直接/周圍抽取器620之又一實施例600之方塊圖。第6圖之直接/周圍抽取器620可對應於第1圖之直接/周圍抽取器120。於第6圖之實施例中,因此具有與第1圖實施例類似實務及/或功能之相同方塊係標示以相同元件符號。但對應於第1圖之下混信號115的第6圖之下混信號615包含多個617下混聲道Ch1
...ChN
,其中下混聲道數目(M)係小於多聲道音訊信號101之聲道Ch1
...ChN
數目(N),亦即M<N。更明確言之,直接/周圍抽取器620係組配來藉使用聲道交混之最小均方(LMS)解,而抽取直接信號部分125-1或周圍信號部分125-2,LMS解並不要求相等周圍位準。此種LMS解並不要求相等周圍位準,也可延伸至任何數目的聲道,其係提供如下。恰如前述之LMS解並非強制性,但表示前述辦法之更精準替代之道。
用於直接/周圍抽取的交混權值之LMS解所使用的元件符號為:
Chi
聲道i
αi
於聲道i之直接聲音增益
D及 聲音之直接部分及其估值
Ai
及 聲道i之周圍部分及其估值
PX
=E[XX*] X之估算得之能
E[] 預期值
X之估算誤差
聲道i對直接部分之LMS交混權值
聲道n對聲道i之周圍部分之LMS交混權值
於本內文中,須注意LMS解之導算可基於多聲道音訊信號之個別聲道之頻譜表示型態,其表示頻帶中的每項函數。
信號模型係表示為
Ch i
=a i D
+A i
導算首先係處理a)直接部分及然後,b)周圍部分。最後,導算權值之解,及描述權值之標準化方法。
權值之直接部分估算為
估算誤差讀取
為了獲得LMS解,發明人要求正交於輸入信號
E
[ Ch k
]=0,對全部k
呈矩陣形式,前述關係式讀成
發明人始於相同信號模型及自下式估算權值
估算誤差為
及正交性
E
[ Ch k
]=0,對全部k
呈矩陣形式,前述關係式讀成
權值可藉顛倒矩陣A求解,對直接部分及周圍部分之計算皆同。於立體聲情況下,該解為:
此處div為除數a2
a2
PD
PA1
+a1
a1
PD
PA2
+PA1
PA2
。
權值之標準化
權值係用於LMS解,但因能階須保留,故將權值標準化。如此也使得上式中藉div項進行的除法變成不必要。標準化係藉由確保輸出直接及周圍聲道為PD
及PAi
,此處i為聲道指數。
如此直捷假設發明人知曉聲道間相干性、混合因數及聲道能。為求簡明,發明人聚焦在二聲道案例,及特別為一對權值,其為從第一及第二輸入聲道產生第一周圍聲道之增益。步驟如下:
步驟1:計算輸出信號能(其中相干性部分逐振幅加總,而非相干部分逐能加總)
步驟2:計算標準化增益因數
及施加該結果至交混權值因數。於步驟1,ICC的絕對值及符號運算元係含括而也考慮輸入聲道為負面相干性的情況。其餘權值因數也係以相同方式標準化。
更明確言之,參考前文說明,直接/周圍抽取器620可經組配來藉由假設穩定多聲道信號模型而導算LMS解,使得LMS解不會受限於立體聲道下混信號。
第7a圖顯示一種直接/周圍估算器710之實施例700之方塊圖,該估算器係基於立體聲周圍估算公式。第7圖之直接/周圍估算器710可相應於第1圖之直接/周圍估算器110。更明確言之,第7圖之直接/周圍估算器710係組配來施加對多聲道音訊信號101之各聲道(Chi
)使用空間參數資訊105的立體聲周圍估算公式,其中該立體聲周圍估算公式可以函數相依性表示為
外顯地(explicitly)顯示對聲道位準差(CLDi
)或聲道Chi
之參數σi
及聲道間相干性(ICCi
)參數之相依性。如第7圖所示,空間參數資訊105饋至直接/周圍估算器710,且可包含各聲道Chi
之聲道間關係式參數ICCi
及σi
。於藉由使用直接/周圍估算器710施加此一立體聲周圍估算公式後,將分別在其輸出信號715獲得直接對總(DTTi
)能比或周圍對總(ATTi
)能比。須注意前述用來估算個別DTT能比或ATT能比之立體聲周圍估算公式並非基於相等周圍情況。
更明確言之,直接/周圍比值估算之執行方式為聲道直接能相對於該聲道總能之比(DTT)可以公式表示為
此處,Ch為檢視聲道,及R為其餘聲道之線性組合。<>為時間平均值。當聲道及其餘聲道之線性組合的周圍位準假設為相等,及其相干性為零時遵照此一公式。
第7b圖顯示DTT(直接對總)能比760實例呈聲道間相干性參數ICC 770之函數之線圖750。第7b圖之實施例中,聲道位準差(CLD)或參數σ例如設定為1(σ=1),使得聲道Chi
之位準P(Chi
)與其餘聲道之線性組合R位準P(R)將為相等。此種情況下,如標示以DTT~ICC之直線775指示,DTT能比760將與ICC參數成線性比例。第7b圖可知,於ICC=0之情況下,其可對應於全然解相干性聲道間關係式,DTT能比760將為0,其可對應於全然周圍情況(案例「R1
」)。但於ICC=1之情況下,其可對應於全然相干性聲道間關係式,DTT能比760將為1,其可對應於全然直接情況(案例「R2
」)。因此,於聲道中相對於該聲道的總能,於案例R1
大致上並無直接能,而於案例R2
大致上並無周圍能。
第8圖顯示依據本發明之其它實施例,一種編碼器/解碼器系統800之方塊圖。於該編碼器/解碼器系統800之解碼器端,顯示解碼器820之實施例,其可與第1圖之裝置100相對應。由於第1圖與第8圖實施例之相似性,此二實施例中具有相似實務及/或功能之相同方塊標示以相同元件符號。如第8圖之實施例所示,直接/周圍抽取器120可於具有多個Ch1
...ChM
下混聲道之下混信號115上操作。第8圖之直接/周圍估算器110進一步係組配來接收下混信號815(選擇性)的至少二下混聲道825,使得多聲道音訊信號101之直接部分或周圍部分之位準資訊113將基於所接收的至少二下混聲道825之空間參數資訊105除外估算。最後,在藉直接/周圍抽取器120抽取後將獲得直接信號部分125-1或周圍信號部分125-2。
於該編碼器/解碼器系統800之編碼器端,顯示編碼器
810之實施例,其可包含下混器815,用來將多聲道音訊信號(Ch1
...ChN
)下混成為具有多個Ch1
...ChM
下混聲道之該下混信號115,其中聲道數目係從N減少成M。下混器815也可經組配來藉由從多聲道音訊信號101計算聲道間關係式而輸出空間參數資訊105。於第8圖之編碼器/解碼器系統800,下混信號115及空間參數資訊105可從編碼器810傳輸至解碼器820。此處,編碼器810可基於下混信號115及空間參數資訊105導算出編碼信號用以從編碼器端傳輸至解碼器端。此外,空間參數資訊105係基於多聲道音訊信號101之聲道資訊。
另一方面,聲道間關係式參數σi
(Chi
,R)及ICCi
(Chi
,R)可在編碼器810之聲道Chi
與其餘聲道之線性組合R間計算,及在編碼信號內部傳輸。解碼器820又可接收編碼信號,及在所傳輸的聲道間關係式參數σi
(Chi
,R)及ICCi
(Chi
,R)上操作。
另一方面,編碼器810也可經組配來計算欲傳輸的成對不同聲道(Chi
,Chj
)間之聲道間相干性參數ICCi,j
。此種情況下,編碼器810須可從所傳輸之逐對計算得之ICCi,j
(Chi
,Chj
)而導算出之聲道Chi
與其餘聲道之線性組合R間之參數ICCi
(Chi
,R),使得實現前文已經描述之對應實施例。於本上下文中須注意解碼器820無法單獨從知曉下混信號115而重建參數ICCi
(Chi
,R)。
於實施例中,所傳輸之空間參數不僅係有關逐對聲道比較。
舉例言之,最典型的MPS案例為有二下混聲道。MPS解碼中的第一空間參數集合使得二聲道變成三聲道:中、左及右。指導此種對映關係之參數集合稱作為中心預測係數(CPC)及對此種二對三組態具專一性的ICC參數。
空間參數之第二集合各自一分為二:側聲道分成相對應的前及後聲道,而中心聲道分成中心及Lfe聲道。此種對映關係係有關如前文介紹的ICC及CLD參數。
對全部下混組態類別及全部空間參數類別皆找出計算規則並不實際。但遵照虛擬下混步驟則符合實際。原因在於發明人知曉二聲道變成三聲道,而3聲道變成6聲道,最終,發明人找出二輸入聲道如何安排路徑成為6輸出聲道的輸入-輸出關係式。輸出信號只有下混聲道的線性組合加其解相關(decorrelated)版本的線性組合。並非必要實際上解碼輸出信號及量測之,反而發明人知曉此一「解碼矩陣」,可以運算上有效地計算參數域中任何聲道或聲道組合之ICC及CLD參數。
與下混信號組態及多聲道信號組態獨立無關,解碼信號之各個輸出信號乃下混信號的線性組合加其各自之解相關版本的線性組合。
此處運算元D[]係對應於解相關器(decorrelator),亦即製作輸入信號的不相干複本之處理程序。因數a及b為已知,原因在於其可從參數側邊資訊直接導算。因從定義上,
參數資訊係指導解碼器如何從下混信號形成多聲道輸出信號。上式可簡化成
原因在於全部解相關部分可組合用於能/相干性比較。D之能為已知,原因在於因數b於第一式中也已知。
由此點須注意發明人可在輸出聲道間或在輸出聲道之不同線性組合間做任一種相干性及能比較。於二下混聲道及一輸出聲道集合之簡單例的情況下,聲道3號及5號相對彼此作比較,總和計算如下:
此處E[]為預期(實際上:平均)運算元。兩項可以公式表示如下
全部前述參數皆為已知或從下混信號為可量測。交叉項E[Ch_dmx*D]係定義為零,因而係在公式中的下列。同理,相干性公式為
再度,因上式中的全部部分為輸入信號加解相關信號
的線性組合,故解為直捷可得。
如上實例係比較二輸出聲道,但同理可做輸出聲道之線性組合間之比較,諸如使用容後詳述之處理程序實例。
綜合前述先前實施例,所呈現之技術/構想包含下列步驟:
1.取得可能高於下混聲道數目之一「原先」聲道集合之聲道間關係式(相干性,位準)。
2.估算此一「原先」聲道集合的周圍能及直接能。
3.將此一「原先」聲道集合的周圍能及直接能下混成為較少聲道數目。
4.藉由施加增益因數或增益矩陣,使用下混能來抽取所提供的下混聲道中之直接信號及周圍信號。
空間參數側邊資訊的使用藉由第2圖之實施例將最明白解說及摘述。第2圖之實施例中,發明人有一參數立體聲串流,其包括單一音訊聲道及有關其所表示之該立體聲的聲道間差(相干性,位準)之空間側邊資訊。現在因發明人知曉聲道間差,故可將如上立體聲周圍估算式施加至該聲道間差,及得知原先聲道集合的直接能及周圍能。然後,發明人可藉由加總直接能(使用相干性加法)及周圍能(使用非相干性加法)而「下混」聲道能,及導算出該單一下混聲道的直接對總能比及周圍對總能比。
參考第2圖之實施例,空間參數資訊大致上包含聲道間相干性參數(ICCL
,ICCR
)及聲道位準差參數(CLDL
,CLDR
),其分別係與參數立體聲音訊信號的左聲道(L)及右聲道(R)
相對應。此處,須注意聲道間相干性參數ICCL
與ICCR
為相等(ICCL
=ICCR
),而聲道位準差參數CLDL
與CLDR
係以CLDL
=-CLDR
相關。相對應地,聲道位準差參數CLDL
與CLDR
典型地分別為參數σL
及σR
之分貝值,故左(L)及右(R)聲道之參數σL
及σR
係以σL
=1/σR
相關。此等聲道間差參數方便用來基於立體聲周圍估算公式,而對二聲道(L,R)計算個別的直接對總能比(DTTL
,DTTR
)及周圍對總能比(ATTL
,ATTR
)。於該立體聲周圍估算公式中,左聲道(L)之直接對總能比及周圍對總能比(DTTL
,ATTL
)係取決於左聲道L之聲道間差參數(CLDL
,ICCL
),而右聲道(R)之直接對總能比及周圍對總能比(DTTR
,ATTR
)係取決於右聲道R之聲道間差參數(CLDR
,ICCR
)。此外,對參數立體聲音訊信號之二聲道L、R之能(EL
,ER
)可分別基於左聲道(L)及右聲道(R)之聲道位準差參數(CLDL
,CLDR
)而導算出。此處,左聲道L之能(EL
)可藉由施加左聲道L之聲道位準差參數(CLDL
)至該單聲道下混信號得知,而右聲道R之能(ER
)可藉由施加右聲道R之聲道位準差參數(CLDR
)至該單聲道下混信號得知。然後藉由將二聲道(L,R)之能(EL
,ER
)與相對應之基於DTTL
、DTTR
、及ATTL
、ATTR
之參數相乘,可獲得對二聲道(L,R)之直接能(EDL
,EDR
)及周圍能(EAL
,EAR
)。然後,二聲道(L,R)之直接能(EDL
,EDR
)可藉由使用相干性下混法則組合/相加而獲得單聲道下混信號之直接部分之下混能(ED,mono
);而二聲道(L,R)之周圍能(EAL
,EAR
)可藉由使用非相干性下混法則組合/相加而獲得單聲道下混信號之周圍部分之下混能
(EA,mono
)。然後,藉由找出直接信號部分及周圍信號部分之下混能(ED,mono
,EA,mono
)與該單聲道下混信號之總能(Emono
)之關係式,將得知該單聲道下混信號之直接對總能比(DTTmono
)及周圍對總能比(ATTmono
)。最後,基於此等DTTmono
能比及ATTmono
能比,大致上可從該單聲道下混信號抽取直接信號部分或周圍信號部分。
在音訊的重製上,經常需要透過頭戴耳機而重製聲音。耳機收聽具有獨特特徵,使得其與揚聲器收聽及也與任何自然聲音環境有極大不同。音訊係直接設定給左耳及右耳。重製的音訊內容典型地係重製給揚聲器回放。因此,音訊信號並未含有人類聽覺系統用在空間聲音知覺的性質及提示。除非系統中有導入雙耳處理,否則即為此種情況。
基本上,雙耳處理可稱作為一種處理程序,其取輸入聲音並修正之,使得聲音只含有知覺上正確的(就人類聽覺系統處理空間聲音而言)此等耳際性質及單耳性質。雙耳處理並非直捷工作,依據最先進的既有解決之道仍然並非最佳。
有大量應用已經含括音訊及電影回放的雙耳處理,諸如設計用來將多聲道音訊信號變換成耳機的雙耳對應部分的媒體播放器及處理裝置。典型辦法係使用頭相關轉移函數(head-related transfer functions(HRTF))來製作虛擬耳機,及加上室內效應給該信號。理論上,如此可相當於在特殊室內使用耳機收聽。
但實際上重複顯示此種辦法尚未能一致地滿足收聽
者。似乎需要折衷,使用此種直捷方法的良好空間化犧牲音訊品質,諸如音色或音質改變變不佳、室內效應惱人的知覺、及動態的喪失。其它問題包括定位不準確(例如頭內定位、前後混淆),缺乏音源的空間距離,及耳際不匹配,亦即由於耳際提示錯誤而靠近耳朵的聽覺。
不同的收聽者判定的問題有極大差異。靈敏度也依輸入材料各異,諸如音樂(就音色而言,品質標準嚴格)、電影(較不嚴格)及遊戲(甚至更不嚴格,但定位重要)。依據內容也典型地有不同的設計目的。
因此,後文細節係儘可能地成功地處理克服前述問題的辦法來最大化平均知覺總體品質。
第9a圖顯示依據本發明之其它實施例,一種雙耳直接聲音呈現裝置910之綜覽900之方塊圖。如第9a圖所示,雙耳直接聲音呈現裝置910係組配來處理其可存在於第1圖實施例之直接/周圍抽取器120之輸出信號的直接信號部分125-1,來獲得第一雙耳輸出信號915。第一雙耳輸出信號915可包含L指示之左聲道及R指示之右聲道。
此處,雙耳直接聲音呈現裝置910可經組配來將直接信號部分125-1饋送通過頭相關轉移函數(HRTF)來獲得已變換之直接信號部分。此外,雙耳直接聲音呈現裝置910可經組配來施加室內效應給己變換的直接信號部分來最終獲得第一雙耳輸出信號915。
第9b圖顯示第9a圖之雙耳直接聲音呈現裝置910之細節905之方塊圖。雙耳直接聲音呈現裝置910可包含方塊912
指示的「HRTF變換器」及方塊914指示之室內效應處理裝置(早期反射之並列混響或模擬)。如第9b圖所示,HRTF變換器912及室內效應處理裝置914可藉由並列施加頭相關轉移函數(HRTF)及室內效應,故將獲得第一雙耳輸出信號915。
更明確言之,參考第9b圖,此種室內效應處理也可提供非相干性混響直接信號919,其可藉隨後交混濾波器920處理來調適該信號適應擴散聲場的耳間相干性。此處,濾波器920及HRTF變換器912組成第一雙耳輸出信號915。依據其它實施例,室內效應對直接聲音的處理也可為早期反射之參數表示型態。
因此,於實施例,室內效應較佳係與HRTF並列施加,而非串列施加(亦即,饋送信號通過HRTF後藉由施加室內效應)。更明確言之,唯有聲音係從來源直接傳播或藉對應HRTF變換。直接/混響聲音可經概略估算亦即以統計方式(藉由採用相干性控制替代HRTF)而進入耳朵。也可為串列實施,但以並列方法為佳。
第10a圖顯示依據本發明之其它實施例,一種雙耳周圍聲音呈現裝置1010之綜覽1000之方塊圖。如第10a圖所示,雙耳周圍聲音呈現裝置1010係組配來處理其可存在於第1圖實施例之直接/周圍抽取器120之輸出信號的周圍信號部分125-2,來獲得第二雙耳輸出信號1015。第二雙耳輸出信號1015可包含左聲道(L)及右聲道(R)。
第10b圖顯示第10a圖之雙耳周圍聲音呈現裝置1010之
細節1005之方塊圖。第10b圖可知雙耳周圍聲音呈現裝置1010可經組配來施加如標示以「室內效應處理」的方塊1012指示之室內效應給周圍信號部分125-2,使得獲得非相干性混響周圍信號1013。此外,雙耳周圍聲音呈現裝置1010可經組配來藉由施加濾波器諸如方塊1014指示的交混濾波器而處理非相干性混響周圍信號1013,因而將提供第二雙耳輸出信號1015,第二雙耳輸出信號1015係經調整適用於實際擴散聲場的耳間相干性。以「室內效應處理」標示之方塊1012也可經組配來使得其直接產生實際擴散聲場的耳間相干性。此種情況下,未使用方塊1014。
依據其它實施例,雙耳周圍聲音呈現裝置1010係組配來施加室內效應及/或濾波器至周圍信號部分125-2用以提供第二雙耳輸出信號1015,使得第二雙耳輸出信號1015將適用於實際擴散聲場的耳間相干性。
前述實施例中,解相關性及相干性控制可以二接續步驟執行,但非必要。也可能以單步驟處理達成相同結果,而未經中間非相干性信號之求取公式。兩種方法同等有效。
第11圖顯示多聲道音訊信號101之雙耳重製實施例1100之構想方塊圖。更明確言之,第11圖之實施例表示一種用於多聲道音訊信號101之雙耳重製之裝置,包含第一變換器1110(「頻率變換」)、分離器1120(「直接-周圍分離」)、雙耳直接聲音呈現裝置910(「直接來源呈現」)、雙耳周圍聲音呈現裝置1010(「周圍聲音呈現」)、如「+」指示的組合器1130、及第二變換器1140(「反相頻率變換」)。更明確言之,第一變換器1110可經組配來用以將多聲道音訊信號101變換成頻譜表示型態1115。分離器1120可經組配來用以從頻譜表示型態1115抽取直接信號部分125-1或周圍信號部分125-2。此處,分離器1120可對應於第1圖之裝置100,特別包括第1圖實施例之直接/周圍估算器110及直接/周圍抽取器120。如前文解說,雙耳直接聲音呈現裝置910可在直接信號部分125-1上操作來獲得第一雙耳輸出信號915。相對應地,雙耳周圍聲音呈現裝置1010可在周圍信號部分125-2上操作來獲得第二雙耳輸出信號1015。組合器1130可經組配來用以組合第一雙耳輸出信號915及第二雙耳輸出信號1015而獲得組合信號1135。最後,第二變換器1140可經組配來用來將組合信號1135變換成時域來獲得立體聲輸出音訊信號1150(「用於耳機之立體聲輸出信號」)。
第11圖實施例之頻率變換操作顯示於頻率變換域之系統功能,其為空間音訊之聽覺處理之天然域。若在已經於頻率變換域發揮功能之系統作為增上功能(錦上添花),則系統本身並非必要具有頻率變換。
前述直接/周圍分離方法可再劃分成二不同部分。於直接/周圍估算部分,直接周圍部分之位準及/或比係基於信號模型的組合及音訊信號之性質估算。於直接/周圍抽取部分,已知之比及輸入信號可用來形成周圍信號的直接輸出信號。
最後,第12圖顯示直接/周圍估算/抽取包括雙耳重製案例之一實施例1200之總體方塊圖。特定言之,第12圖之實施例1200可對應第11圖之實施例1100。但於實施例1200,顯示與第1圖實施例之方塊110、120其包括基於空間參數資訊105之估算/抽取處理程序,相對應的第11圖之分離器1120之細節。此外,與第11圖之實施例1100相反,並無任何不同域間之變換處理程序顯示於第12圖之實施例1200。實施例1200之方塊也外顯地於下混信號115運算,該信號可從多聲道音訊信號101導算出。
第13a圖顯示一種用於濾波器排組域從單聲道下混信號抽取直接/周圍信號之裝置1300實施例之方塊圖。如第13a圖所示,裝置1300包含一分析濾波器排組1310、用於直接部分之一合成濾波器排組1320、及用於周圍部分之一合成濾波器排組1322。
更明確言之,裝置1300之分析濾波器排組1310可實施來執行短期富利葉變換(STFT),或例如可經組配成分析QMF濾波器排組;而裝置1300之合成濾波器排組1310可實施來執行反相短期富利葉變換(ISTFT),或例如可經組配成合成QMF濾波器排組。
分析濾波器排組1310係組配來用以接收單聲道下混信號1315,其可對應於如第2圖實施例,所示之單聲道下混信號215,及將單聲道下混信號1315變換成多個1311濾波器排組子頻帶。如第13a圖可知,多個1311濾波器排組子頻帶係分別連結至多個1350、1352直接/周圍抽取方塊,其中多個1350、1352直接/周圍抽取方塊係組配來施加基於DTTmono
參數或ATTmono
參數1333、1335至濾波器排組子頻帶。
如第13b圖所示,基於DTTmono
或ATTmono
參數1333、1335可從DTTmono
,ATTmono
計算器1330供給。更明確言之,第13b圖之DTTmono
,ATTmono
計算器1330可經組配來計算DTTmono
,ATTmono
能比,或從對應於參數立體聲音訊信號(例如第2圖之參數立體聲音訊信號201)之左及右聲道(L,R)的所提供之聲道間相干性及聲道位準差參數(ICCL
,CLDL
,ICCR
,CLDR
)而導算出基於DTTmono
或ATTmono
參數,已經對應地描述如前。此處,對單一濾波器排組子頻帶,可使用相對應參數105及基於DTTmono
或ATTmono
參數1333、1335。於本上下文,指出該等參數相對於頻率並非常數。
由於施加基於DTTmono
或ATTmono
參數1333、1335結果,分別可獲得多個1353、1355修正濾波器排組子頻帶。隨後,多個1353、1355修正濾波器排組子頻帶分別饋至合成濾波器排組1320、1322,其可經組配來合成多個1353、1355修正濾波器排組子頻帶,因而分別獲得單聲道下混信號1315之直接信號部分1325-1或周圍信號部分1325-2。此處第13a圖之直接信號部分1325-1係對應於第2圖之直接信號部分125-1,而第13a圖之周圍信號部分1325-2係對應於第2圖之直接信號部分125-2。
參考第13b圖,第13a圖之多個1350、1352直接/周圍抽取方塊之直接/周圍抽取方塊1380特別包含DTTmono
,ATTmono
計算器1330及乘法器1360。乘法器1360可經組配來將多個濾波器排組子頻帶1311之單一濾波器排組(FB)子頻帶1301乘以相對應基於DTTmono
或ATTmono
參數1333、1335,使得獲得多個子1353、1355之修正單一濾波器排組子頻帶1365。更明確言之,於方塊1380屬於多個1350方塊之情況下,直接/周圍抽取方塊1380係組配來施加基於DTTmono
參數;而於方塊1380屬於多個1352方塊之情況下,其係組配來施加基於ATTmono
參數。此外,修正單一濾波器排組子頻帶1365可供給直接部分或周圍部分之個別合成濾波器排組1320、1322。
依據實施例,空間參數及導算得之參數係依據人類聽覺系統之關鍵頻帶,例如28頻帶之頻率解析度提供,通常係低於濾波器排組的解析度。
因此,依據第13a圖之實施例之直接/周圍抽取大致上係於濾波器排組域的不同子頻帶,基於逐子頻帶計算得之聲道間相干性及聲道位準差參數運算,其可與第3b圖之聲道間關係式參數335相對應。
第14圖顯示依據本發明之又一實施例MPEG環繞解碼方案1400之實例之示意說明圖。更明確言之,第14圖實施例描述從立體聲下混信號1410解碼成6個輸出聲道1420。此處,標示以「res」之信號為殘響信號,其為解相關信號之選擇性置換(得自標示以「D」之方塊)。依據第14圖實施例,空間參數資訊或聲道間關係式參數(ICC,CLD)係在MPS串流內部從編碼器,諸如第8圖之編碼器810,傳輸至解碼器諸如第8圖之解碼器820,分別可用來產生標示以「前置解相關器矩陣M1」及「混合矩陣M2」之解碼矩陣1430、1440。第14圖實施例所特有者為:藉由使用混合矩陣M2 1440從側聲道(L,R)及中心聲道(C)(L,R,C 1435)產生輸出聲道1420(亦即上混聲道L、LS、R、RS、C、LFE)大致上係由空間參數資訊1405決定,其可對應於第1圖之空間參數資訊105,包含依據MPS環繞標準之特殊聲道間關係式參數(ICC,CLD)。
此處,將左聲道(L)劃分成對應輸出聲道L、LS,將右聲道(R)劃分成對應輸出聲道R、RS,及將中心聲道(C)劃分成對應輸出聲道C、LFE,可以具有相對應ICC、CLD參數之個別輸入信號的一分為二(OTT)組態表示。
特別與「5-2-5組態」相對應之MPEG環繞解碼方案1400實例例如可包含下列步驟。於第一步驟,空間參數或參數側邊資訊可調配成解碼矩陣1430、1440,依據既有MPEG環繞標準顯示於第14圖。於第二步驟,解碼矩陣1430、1440可用於參數域來提供上混聲道1420之聲道間資訊。於第三步驟,使用如此提供之聲道間資訊,可計算各個上混聲道之直接/周圍能。於第四步驟,如此所得直接/周圍能可下混至下混聲道1410數目。於第五步驟,計算將施加至下混聲道1410之權值。
於更進一步前進,須指出恰如前述之處理程序實例要求量測值
E [
|L dmx
|2 ]
,E [
|R dmx
|2 ]
。
其為下混聲道之平均功率,及
E
[
L
dmx
]
其可稱作為得自下混聲道的交叉頻譜。此處,下混聲道之平均功率蓄意地稱作為能,原因在於「平均功率」一詞並非常用術語。
藉方括弧指示的預期運算元於實際應用中可以時間平均、遞歸或非遞歸置換。能及交叉頻譜係從下混信號直捷可量測。
也須注意二聲道之線性組合能可從聲道能、混合因數、及交叉頻譜導出公式(全部皆係於參數域,此處無需信號運算)。
線性組合
Ch
=aL dmx
+bR dmx
具有下述能:
以下說明處理程序實例(亦即解碼方案)之個別步驟。
第一步驟(混合矩陣之空間參數)
如前述,M1及M2矩陣係依據MPEG環繞標準形成。M1之第a列、第b行元件為M1(a,b)。
第二步驟(具有下混至上混聲道之聲道間資訊的能及交叉頻譜之混合矩陣)
現在發明人已有混合矩陣M1及M2。發明人需要導出公式,表示輸出聲道係如何從左下混聲道(Ldmx
)及右下混聲道(Rdmx
)形成。發明人假設使用解相關器(第14圖,灰色區)。MPS標準的解碼/上混基本上最終提供整個處理程序中用於總輸入/輸出關係式的如下公式:
L
=a L L dmx
+b L R dmx
+c L D 1
[S 1
]+d L D 2
[S 2
]+e L D 3
[S 3
]
前文說明已上混之前左聲道實例。其它聲道可以相同方式導出公式。D元件為解相關器,a-e為從M1及M2矩陣分錄可求出的權值。
特定言之,因數a-e可從矩陣分錄直捷地以公式表示:
及用於其它聲道亦同。
S信號為
S n
=M
1 n +3,1 L dmx
+M
1 n +3,2 R dmx
此等S信號為得自第14圖左側矩陣之解相關器的輸入信號。該能
E
[|D
[S n
]|2
]=E
[|S n
|2
]
可如前文解說計算。解相關器並不影響該能。
進行多聲道周圍抽取之知覺動機方式係藉由一聲道對全部其它聲道之和作比較(注意此僅為多選項中之一個選項)。現在,舉例說明考慮聲道L之案例,聲道其餘部分變成:
發明人於此處使用「X」,原因在於對「其餘聲道」使用「R」可能產生混淆。
然後聲道L之能為
然後聲道X之能為
及交叉頻譜為:
現在發明人可將ICC公式化
及總和
第三步驟(上混聲道之聲道間資訊對上混聲道之DTT參數)
現在發明人可依據下式計算聲道L
L之直接能為
E [
|D L
|2 ]
=DTT
‧E [
|L
|2 ]
L之周圍能為
E [
|A L
|2 ]
=(1-DTT
)‧E [
|L
|2 ]
第四步驟(下混直接/周圍能)
若使用非相干性下混法則實例,則左下混聲道周圍能為
,對直接部分及左聲道之直接及周圍部分亦同。注意前文說明只是一種下混法則。也可有其它下混法則。
第五步驟(計算於下混聲道之周圍抽取之權值)
左下混DTT比為
然後權值因數之計算可如第5圖實施例所述(亦即使用sqrt(DTT)或sqrt(1-DTT)辦法)或如第6圖實施例所述(亦即使用交混矩陣方法)計算。
基本上,前述處理程序之實例係有關於下混聲道之MPS串流對周圍比之CPC、ICC、及CLD參數。
依據其它實施例,典型地有其它手段來達成類似目的及其它情況。舉例言之,可有前文說明者以外的其它法則用以下混、其它揚聲器布局、其它解碼方法及其它進行多聲道周圍估算方式,其中特定聲道係與其餘聲道作比較。
雖然本發明已經以方塊圖內文做說明,此處方塊表示實際或邏輯硬體組件,本發明也係藉電腦實作方法實施。後述情況下,方塊表示對應方法步驟,此處此等步驟代表由對應邏輯或實體硬體方塊執行的功能。
所述實施例僅供舉例說明本發明之原理。須瞭解此處所述配置及細節之修正及變化為其它熟諳技藝人士所顯然易知。因此意圖僅受隨附之申請專利範圍之範圍所限而非受此處實施例之舉例說明及解釋所呈現之特定細節所限。
依據本發明方法之若干實務要求,本發明方法可於硬體或於軟體實施。實作可使用數位儲存媒體執行,特別為具有可讀取控制信號儲存於其上的碟片、DVD或CD,其可與可程式規劃電腦系統協力合作因而執行本發明方法。一般而言,本發明因而可作為具有程式碼儲存於機器可讀取載體上的電腦程式產品實施,當該電腦程式產品於電腦上跑時,該程式碼可運算用以執行本發明方法。換言之,本發明方法因而為具有程式碼之一種電腦程式,當該電腦程式於電腦上跑時該程式碼可用以執行本發明方法中之至少一者。本發明編碼音訊信號可儲存在任一種機器可讀取儲存媒體,諸如數位儲存媒體。
該新穎構想及技術之優點為本案所述前述實施例,亦即裝置、方法或電腦程式允許借助於參數空間資訊而從音訊信號估算與抽取直接及/或周圍組件。更明確言之,本發明之新穎處理係在頻帶發揮功能,如同典型於周圍抽取領域。所呈現之構想係與音訊信號處理有關,原因在於有多項應用要求直接及周圍組件係與音訊信號分開。
與先前技術之周圍抽取方法相反,本構想並非僅基於立體輸入信號,其也可應用至單聲道下混情況。用於單一聲道下混,通常並無聲道間差異可資運算。但藉由考慮空間側邊資訊,周圍抽取在此種情況也變可能。
本發明之優點在於其利用空間參數來估算「原先」信號之周圍位準。其係基於下述構想:空間參數已經含有有關「原先」立體聲或多聲道信號之聲道間差之相關資訊。
一旦估算原先立體聲或多聲道信號之周圍位準,也可在所提供之下混聲道導算出直接位準及周圍位準。此可藉周圍部分之周圍能及直接部分之直接能或振幅的線性組合(亦即加權加總)進行。因此,本發明之實施例借助於空間側邊資訊而提供周圍估算及抽取。
從基於側邊資訊之處理的此種構想延伸,存在有下列有利性質或優點。
本發明之實施例借助於空間側邊資訊及所提供之下混聲道而提供周圍估算。當連同側邊資訊提供多於一個下混聲道的情況下,此等及周圍估算相當重要。側邊資訊及從下混聲道量測得之資訊可一起用在周圍估算。於具有立體聲下混之MPEG環繞,此二資訊源共同提供原先多聲道聲音之聲道間關係式的完整資訊,及周圍估算係基於此等關係式。
本發明之實施例也提供直接能及周圍能之下混。於所述基於側邊資訊之周圍抽取的情況下,有個中間步驟於高於所提供之下混聲道的多個聲道估算周圍。因此,此種周圍資訊須以有效方式對映至下混音訊聲道數目。此種處理程序可稱作為下混,原因在於其與音訊聲道之下混相對應。如此可藉由如同所提供之下混聲道下混的相同方式組合直接能及周圍能可最直捷地進行。
下混法則不具有一個理想解,反而可能取決於應用用途。例如,於MPEG環繞,由於典型地信號內容不同,故有利地差異處理各聲道(中心、前揚聲器、後揚聲器)。
此外,實施例提供多聲道周圍估算,其於各個聲道相對於其它聲道乃獨立無關。此種性質/辦法允許單純使用所呈現的立體周圍估算式給各聲道相對於全部其它聲道。藉此手段,無需假設全部聲道之周圍位準相等。所呈現之辦法係基於假設有關空間知覺,於各聲道的周圍組件為該組件於全部其它聲道中之部分具有不相干的對應部分。提示此種假設為有效之實例為發出雜訊之二聲道中之一者(周圍)可進一步劃分成各自具有半量能的二聲道,而未對所接收的聲音場景造成顯著影響。
就信號處理而言,較佳藉由施加所呈現之周圍估算式至各聲道相較於全部其它聲道的線性組合,可進行實際直接/周圍比估算。
最後,實施例提供施加已估算的直接周圍能來抽取實際信號。一旦已知下混聲道的周圍位準,則可應用兩種本發明方法來獲得周圍信號。第一方法係基於簡單乘法,其中各個下混聲道之直接部分及周圍部分可藉由該信號乘以sqrt(直接對總能比)及sqrt(周圍對總能比)而產生。如此對各個下混聲道提供彼此相干的二信號,但二信號具有直接部分及周圍部分經估算得之能。
第二方法係基於帶有各聲道交混之最小均方解,其中聲道交混(也可能具有負號)允許比前述解,更佳地估算直接周圍信號。與在「立體信號之多揚聲器回放」,C.Faller,AES會議,2007年10月;及「專利申請案名稱:從立體信號產生多聲道音訊信號之方法」,發明人:Christof Faller,代理人:FISH & RICHARDSON P.C.,受讓人:LG電子公司,源自:美國明尼蘇達州明尼波里市,IPC8類別:AH04R500FI,USPC類別:381 1所提供之聲道之立體聲輸入及相等周圍位準之最小平均解相反,本發明提供最小均方解,該方法並不要求相等周圍位準,也可延伸至任何數目的聲道。
新穎處理之額外性質如下。於雙耳呈現的周圍處理中,周圍可使用濾波器處理,該濾波器具有提供於頻帶之耳際相干性係類似實際擴散聲場的耳際相干性性質,其中該濾波器也包括室內效應。於雙耳呈現的直接部分處理中,直接部分可饋送通過頭相關轉移函數(HRTF)可能加上室內效應,諸如早期反射及/或混響。
除此之外,與乾/濕控制相對應的「分離位準」控制可在其它實施例實現。更明確言之,於許多應用可能並不期望全然分離,原因在於可能導致聽覺假影缺陷,例如突然改變、調變效應等。因此,所述處理程序之全部相關部分
可以「分離位準」控制實施用來控制期望且有用的分離量。至於第11圖,此種分離位準控制係由控制直接/周圍分離1120的虛線框及/或雙耳呈現裝置910、1010之控制輸入信號1105指示。此項控制可類似音訊效應處理的乾/濕控制發揮效果。
所提供解之主要效果如下。系統在全部情況皆有效,也可使用參數立體聲及帶有單聲道下混信號的MPEG環繞,不似先前解只仰賴下混資訊。此外,比較使用下混聲道之單純聲道間分析,系統可利用與音訊信號一起於空間音訊位元串流中傳輸的空間側邊資訊來更準確地估算直接能及周圍能。因此,許多應用諸如雙耳處理可藉由施加不同處理用於聲音的直接部分及周圍部分而獲益。
實施例係基於下列心理聲學假設。人類聽覺系統係基於時間-頻率片(tile)(限於某些頻率及時間範圍之區域)的耳際提示而定位音源。若有二或多個時間及頻率上重疊的不相干並列音源同時呈現在不同位置,則聽覺系統無法覺察音源的所在位置。原因在於此等音源之和並未在收聽者產生可靠的耳際提示。如此聽覺系統可能作如此描述,從靠近時間-頻率片的音訊場景(scene)拾取而提供可靠定位資訊,但將其餘部分視為無法定位。藉此手段表示聽覺系統可在複雜的聲音環境定位音源。同時相干性音源具有不同效應,形成在相干性音源間的單一音源所可能形成的相同耳際提示。
此點亦為實施例所利用的性質。可估算可定位(直接)
及不可定位(周圍)聲音位準,然後抽取此等組件。空間化信號處理只應用至可定位/直接部分,而擴散/空間感/包封處理係應用至不可定位/周圍部分。如此在雙耳處理系統之設計上獲得顯著效果,原因在於多項處理只能應用至需要之處,而留下其餘信號不受影響。全部處理皆係出現在近似人類聽覺頻率解析度的頻帶。
實施例係基於信號的分解來最大化知覺品質,但最小化所察覺的問題。藉由使用此種分解,可能分開獲得音訊信號的直接組分及周圍組分。然後二組分經進一步處理來達成期望的效果或表示型態。
更明確言之,本發明之實施例允許於編碼域中借助於空間側邊資訊做周圍估算。
本發明也有優點在於可藉由分離信號於直接信號及周圍信號,而減少於頭戴耳機重製音訊信號之典型問題。實施例允許改良既有直接/周圍抽取方法施加至用於耳機重製的雙耳聲音呈現。
基於空間側邊資訊之處理的主要用途案例為自然MPEG環繞及參數立體聲(及類似的參數編碼技術)。從周圍抽取可獲益之典型應用用途為雙耳回放,原因在於其可施加不同室內效應程度至聲音之不同部分;及上混至更多個聲道,原因在於可差異地定位及處理聲音之不同組分。可能也有些應用用途其中使用者要求修正直接/周圍位準,例如用於智慧地增強語音。
100、200、1300‧‧‧裝置
101‧‧‧多聲道音訊信號
105‧‧‧空間參數資訊/空間參數側邊資訊/參數
110、710‧‧‧直接/周圍估算器
113‧‧‧位準資訊
115、615‧‧‧下混信號
120、420、520、620‧‧‧直接/周圍抽取器
125-1、1325-1‧‧‧直接信號部分
125-2、1325-2‧‧‧周圍信號部分
201‧‧‧參數立體聲音訊信號
215、1315‧‧‧單聲道下混信號
300‧‧‧頻譜分解
301、303‧‧‧子頻帶
305‧‧‧子頻帶值
307‧‧‧濾波器排組時槽
310‧‧‧時間軸
320‧‧‧頻率軸
330、550、560、570‧‧‧步驟
335‧‧‧聲道間關係式/聲道間關係式參數
400、500、600、700、1100、1200‧‧‧實施例
410‧‧‧下混資訊
545-1、555-1‧‧‧直接部分/位準資訊
545-2、555-2‧‧‧周圍部分/位準資訊
565-1、565-2‧‧‧增益參數
617、825‧‧‧下混聲道
715‧‧‧輸出信號
750‧‧‧線圖
760‧‧‧DTT能比
770‧‧‧聲道間相干性參數ICC
775‧‧‧直線
800‧‧‧編碼器/解碼器系統
810‧‧‧編碼器
815‧‧‧下混器/下混信號
820‧‧‧解碼器
900、1000‧‧‧綜覽
905、1005‧‧‧細節
910‧‧‧雙耳直接聲音呈現裝置
912‧‧‧方塊/HRTF變換器
914‧‧‧方塊/室內效應處理裝置
915‧‧‧第一雙耳輸出信號
919‧‧‧非相干性混響直接信號
920‧‧‧濾波器/交混濾波器
1010‧‧‧雙耳周圍聲音呈現裝置
1012、1014、1350、1352、1380‧‧‧方塊
1013‧‧‧非相干性混響周圍信號
1015‧‧‧第二雙耳信號
1105‧‧‧控制輸入信號
1110‧‧‧第一變換器
1115‧‧‧頻譜表示型態
1120‧‧‧分離器
1130‧‧‧組合器
1135‧‧‧組合信號
1140‧‧‧第二變換器
1150‧‧‧立體聲輸出音訊信號
1301、1311、1353、1355、1365‧‧‧
濾波器排組子頻帶
1310‧‧‧分析濾波器排組
1320、1322‧‧‧合成濾波器排組
1330‧‧‧DTTmono
,ATTmono
計算器
1333‧‧‧基於DTTmono
之參數
1335‧‧‧基於ATTmono
之參數
1360‧‧‧乘法器
1400‧‧‧MPEG環繞解碼方案
1405‧‧‧空間參數資訊
1410‧‧‧立體聲下混/下混聲道
1420‧‧‧輸出聲道/上混聲道
1430、1440‧‧‧解碼矩陣/混合矩陣M2
1435‧‧‧中心聲道
第1圖顯示用以從下混信號及表示多聲道音訊信號之空間參數資訊抽取直接/周圍信號之一種裝置之一實施例之方塊圖;第2圖顯示用以從單聲道下混信號及表示參數立體聲音訊信號之空間參數資訊抽取直接/周圍信號之一種裝置之一實施例之方塊圖;第3a圖顯示依據本發明之一實施例,一種多聲道音訊信號之頻譜分解之示意說明圖;第3b圖顯示用以基於第3a圖之頻譜分解而計算多聲道音訊信號之聲道間關係式之示意說明圖;第4圖顯示使用估算得之位準資訊下混之一種直接/周圍抽取器之實施例之方塊圖;第5圖顯示藉由施加增益參數至一下混信號之一直接/周圍抽取器之又一實施例之方塊圖;第6圖顯示基於使用聲道交混的最小均方(LMS)解之一直接/周圍抽取器之又一實施例之方塊圖;第7a圖顯示使用立體聲周圍估算式之一種直接/周圍估算器之實施例之方塊圖;第7b圖顯示直接對總能比相對於聲道間相干性之一實例之線圖;第8圖顯示依據本發明之一實施例,一種編碼器/解碼器系統之方塊圖;第9a圖顯示依據本發明之一實施例,雙耳直接聲音呈現之綜覽之方塊圖;
第9b圖顯示第9a圖之雙耳直接聲音呈現之細節之方塊圖;第10a圖顯示依據本發明之一實施例,雙耳周圍聲音呈現之綜覽之方塊圖;第10b圖顯示第10a圖之雙耳周圍聲音呈現細節之雙耳周圍聲音呈現細節之方塊圖;第11圖顯示多聲道音訊信號之雙耳重製之一實施例之構想方塊圖;第12圖顯示包括雙耳重製之直接/周圍抽取之一實施例之總體方塊圖;第13a圖顯示用以於濾波器排組域而從單聲道下混信號抽取一直接/周圍信號之一種裝置之一實施例之方塊圖;第13b圖顯示第13a圖之直接/周圍抽取區塊之一實施例之方塊圖;及第14圖顯示依據本發明之又一實施例,MPEG環繞解碼方案之一實例之示意說明圖。
100‧‧‧裝置
101‧‧‧多聲道音訊信號
105‧‧‧空間參數資訊/空間參數側邊資訊/參數
110‧‧‧直接/周圍估算器
113‧‧‧位準資訊
115‧‧‧下混信號
120‧‧‧直接/周圍抽取器
125-1‧‧‧直接信號部分
125-2‧‧‧周圍信號部分
Claims (16)
- 一種用以從一下混信號及空間參數資訊抽取一直接及/或周圍信號之裝置,該下混信號及該空間參數資訊表示比該下混信號具有更多聲道之一多聲道音訊信號,其中該空間參數資訊包含該多聲道音訊信號之聲道間關係,該裝置包含:一直接/周圍估算器,其係用以基於該空間參數資訊而估算該多聲道音訊信號之一直接部分之一直接位準資訊及/或估算該多聲道音訊信號之一周圍部分之一周圍位準資訊;及一直接/周圍抽取器,其係用以基於該直接部分之該估算得之直接位準資訊或基於該周圍部分之該估算得之周圍位準資訊而從該下混信號抽取一直接信號部分及/或一周圍信號部分。
- 如申請專利範圍第1項之裝置,其中該直接/周圍抽取器係組配來下混該直接部分之該估算得之直接位準資訊或該周圍部分之該估算得之周圍位準資訊而獲得該直接部分或該周圍部分之已下混之位準資訊,及基於該已下混之位準資訊而從該下混信號抽取該直接信號部分或該周圍信號部分。
- 如申請專利範圍第2項之裝置,其中該直接/周圍抽取器進一步經組配來藉由組合具有相干性總和之該直接部分之該估算得之直接位準資訊與具有非相干性總和之該周圍部分之該估算得之周圍位準資訊而執行該直接 部分之該估算得之直接位準資訊或該周圍部分之該估算得之周圍位準資訊之下混。
- 如申請專利範圍第2項之裝置,其中該直接/周圍抽取器進一步經組配來從該直接部分或該周圍部分之該已下混之位準資訊而導算出增益參數,及施加該等所導算出之增益參數至該下混信號來獲得該直接信號部分或該周圍信號部分。
- 如申請專利範圍第4項之裝置,其中該直接/周圍抽取器進一步經組配來從該直接部分或該周圍部分之該已下混之位準資訊而決定一直接對總(DTT)能比或周圍對總(ATT)能比,且使用基於所決定之DTT能比或ATT能比之抽取參數作為該等增益參數。
- 如申請專利範圍第1項之裝置,其中該直接/周圍抽取器係經組配來藉由施加一MxM平方抽取矩陣至該下混信號而抽取該直接信號部分或該周圍信號部分,其中該MxM平方抽取矩陣之大小係與下混聲道之數目相對應。
- 如申請專利範圍第6項之裝置,其中該直接/周圍抽取器進一步經組配來施加一第一多數抽取參數至該下混信號來獲得該直接信號部分,及施加一第二多數抽取參數至該下混信號來獲得該周圍信號部分,該第一及第二多數抽取參數係組成一對角矩陣。
- 如申請專利範圍第1項之裝置,其中該直接/周圍估算器係經組配來基於該空間參數資訊及由該直接/周圍估算器所接收之該下混信號之至少二下混聲道而估算該多 聲道音訊信號之該直接部分之該直接位準資訊或估算該多聲道音訊信號之該周圍部分之該周圍位準資訊。
- 如申請專利範圍第1項之裝置,其中該直接/周圍估算器係經組配來對該多聲道音訊信號之各聲道使用該空間參數資訊而施加一立體聲周圍估算式,其中該立體聲周圍估算式係由下式給定DTT i =f DTT [σ i (Ch i ,R ),ICC i (Ch i ,R )],ATT i =1-DTT i 該式係取決於聲道位準差,其為σi 之分貝值,及聲道Chi 之聲道間相干性參數,及其中R為其餘聲道之線性組合。
- 如申請專利範圍第1項之裝置,其中該直接/周圍抽取器係經組配來以聲道交混藉最小均方解而抽取該直接信號部分或該周圍信號部分,該最小均方解具有相等或不同的周圍位準,其中以該直接/周圍抽取器執行之該最小均方解係基於包含該多聲道音訊信號之該等聲道間關係之該空間參數資訊。
- 如申請專利範圍第9項之裝置,其中該直接/周圍抽取器係經組配來藉由假設一信號模型而導算出該最小均方解,使得該最小均方解具有一立體聲道或有別於該立體聲道之下混信號。
- 如申請專利範圍第1項之裝置,其中該裝置進一步包含:一雙耳直接聲音呈現裝置,其係用以處理該直接信號部分來獲得一第一雙耳輸出信號;一雙耳周圍聲音呈現裝置,其係用以處理該周圍信 號部分來獲得一第二雙耳輸出信號;及一組合器,其係用以組合該第一及該第二雙耳輸出信號來獲得一經組合之雙耳輸出信號。
- 如申請專利範圍第12項之裝置,其中該雙耳周圍聲音呈現裝置係組配來施加室內效應及/或一濾波器至該周圍信號部分來提供該第二雙耳輸出信號,該第二雙耳輸出信號適應實際擴散聲場之雙耳間相干性。
- 如申請專利範圍第12項之裝置,其中該雙耳直接聲音呈現裝置係組配來基於頭相關轉移函數來饋送該直接信號部分通過濾波器而獲得該第一雙耳輸出信號。
- 一種用以從一下混信號及空間參數資訊抽取一直接及/或周圍信號之方法,該下混信號及該空間參數資訊表示比該下混信號具有更多聲道之一多聲道音訊信號,其中該空間參數資訊包含該多聲道音訊信號之聲道間關係式,該方法包含:基於該空間參數資訊而估算該多聲道音訊信號之一直接部分之一直接位準資訊及/或估算該多聲道音訊信號之一周圍部分之一周圍位準資訊;及基於該估算得之該直接部分之該直接位準資訊或該估算得之該周圍部分之該周圍位準資訊,從該下混信號抽取一直接信號部分及/或一周圍信號部分。
- 一種具有一程式碼之電腦程式,當該電腦程式於一電腦上執行時用以施行如申請專利範圍第15項之方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US29527810P | 2010-01-15 | 2010-01-15 | |
EP10174230A EP2360681A1 (en) | 2010-01-15 | 2010-08-26 | Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201142825A TW201142825A (en) | 2011-12-01 |
TWI459376B true TWI459376B (zh) | 2014-11-01 |
Family
ID=43536672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW100100644A TWI459376B (zh) | 2010-01-15 | 2011-01-07 | 用以從下混信號與空間參數資訊抽取直接/周圍信號之裝置及方法 |
Country Status (14)
Country | Link |
---|---|
US (1) | US9093063B2 (zh) |
EP (2) | EP2360681A1 (zh) |
JP (1) | JP5820820B2 (zh) |
KR (1) | KR101491890B1 (zh) |
CN (1) | CN102804264B (zh) |
AR (1) | AR079998A1 (zh) |
AU (1) | AU2011206670B2 (zh) |
BR (1) | BR112012017551B1 (zh) |
CA (1) | CA2786943C (zh) |
ES (1) | ES2587196T3 (zh) |
MX (1) | MX2012008119A (zh) |
RU (1) | RU2568926C2 (zh) |
TW (1) | TWI459376B (zh) |
WO (1) | WO2011086060A1 (zh) |
Families Citing this family (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9536529B2 (en) * | 2010-01-06 | 2017-01-03 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
TWI733583B (zh) * | 2010-12-03 | 2021-07-11 | 美商杜比實驗室特許公司 | 音頻解碼裝置、音頻解碼方法及音頻編碼方法 |
US9253574B2 (en) | 2011-09-13 | 2016-02-02 | Dts, Inc. | Direct-diffuse decomposition |
RU2618383C2 (ru) * | 2011-11-01 | 2017-05-03 | Конинклейке Филипс Н.В. | Кодирование и декодирование аудиообъектов |
WO2014043476A1 (en) * | 2012-09-14 | 2014-03-20 | Dolby Laboratories Licensing Corporation | Multi-channel audio content analysis based upmix detection |
TWI618050B (zh) | 2013-02-14 | 2018-03-11 | 杜比實驗室特許公司 | 用於音訊處理系統中之訊號去相關的方法及設備 |
EP2956935B1 (en) | 2013-02-14 | 2017-01-04 | Dolby Laboratories Licensing Corporation | Controlling the inter-channel coherence of upmixed audio signals |
WO2014126688A1 (en) | 2013-02-14 | 2014-08-21 | Dolby Laboratories Licensing Corporation | Methods for audio signal transient detection and decorrelation control |
WO2014157975A1 (ko) | 2013-03-29 | 2014-10-02 | 삼성전자 주식회사 | 오디오 장치 및 이의 오디오 제공 방법 |
CN108806704B (zh) | 2013-04-19 | 2023-06-06 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
CN104982042B (zh) | 2013-04-19 | 2018-06-08 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
EP2804176A1 (en) * | 2013-05-13 | 2014-11-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio object separation from mixture signal using object-specific time/frequency resolutions |
CN104240711B (zh) | 2013-06-18 | 2019-10-11 | 杜比实验室特许公司 | 用于生成自适应音频内容的方法、系统和装置 |
EP2830053A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal |
US9319819B2 (en) * | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
EP3503095A1 (en) | 2013-08-28 | 2019-06-26 | Dolby Laboratories Licensing Corp. | Hybrid waveform-coded and parametric-coded speech enhancement |
CN105637581B (zh) | 2013-10-21 | 2019-09-20 | 杜比国际公司 | 用于音频信号的参数重建的去相关器结构 |
EP2866227A1 (en) | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
CN108712711B (zh) | 2013-10-31 | 2021-06-15 | 杜比实验室特许公司 | 使用元数据处理的耳机的双耳呈现 |
CN103700372B (zh) * | 2013-12-30 | 2016-10-05 | 北京大学 | 一种基于正交解相关技术的参数立体声编码、解码方法 |
EP2892250A1 (en) | 2014-01-07 | 2015-07-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating a plurality of audio channels |
EP3540732B1 (en) | 2014-10-31 | 2023-07-26 | Dolby International AB | Parametric decoding of multichannel audio signals |
PL3257270T3 (pl) * | 2015-03-27 | 2019-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie i sposób przetwarzania sygnałów stereo do odtwarzania w samochodach dla uzyskania indywidualnego dźwięku trójwymiarowego przez przednie głośniki |
US10978079B2 (en) | 2015-08-25 | 2021-04-13 | Dolby Laboratories Licensing Corporation | Audio encoding and decoding using presentation transform parameters |
CN105405445B (zh) * | 2015-12-10 | 2019-03-22 | 北京大学 | 一种基于声道间传递函数的参数立体声编码、解码方法 |
CA2999393C (en) | 2016-03-15 | 2020-10-27 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method or computer program for generating a sound field description |
GB2549532A (en) * | 2016-04-22 | 2017-10-25 | Nokia Technologies Oy | Merging audio signals with spatial metadata |
WO2017188141A1 (ja) * | 2016-04-27 | 2017-11-02 | 国立大学法人富山大学 | オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム |
US9913061B1 (en) | 2016-08-29 | 2018-03-06 | The Directv Group, Inc. | Methods and systems for rendering binaural audio content |
US10187740B2 (en) * | 2016-09-23 | 2019-01-22 | Apple Inc. | Producing headphone driver signals in a digital audio signal processing binaural rendering environment |
CN109427337B (zh) * | 2017-08-23 | 2021-03-30 | 华为技术有限公司 | 立体声信号编码时重建信号的方法和装置 |
US10306391B1 (en) | 2017-12-18 | 2019-05-28 | Apple Inc. | Stereophonic to monophonic down-mixing |
WO2020009350A1 (ko) * | 2018-07-02 | 2020-01-09 | 엘지전자 주식회사 | 오클루션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치 |
WO2020008112A1 (en) * | 2018-07-03 | 2020-01-09 | Nokia Technologies Oy | Energy-ratio signalling and synthesis |
EP3618464A1 (en) * | 2018-08-30 | 2020-03-04 | Nokia Technologies Oy | Reproduction of parametric spatial audio using a soundbar |
CN109036455B (zh) * | 2018-09-17 | 2020-11-06 | 中科上声(苏州)电子有限公司 | 直达声与背景声提取方法、扬声器系统及其声重放方法 |
US12009001B2 (en) | 2018-10-31 | 2024-06-11 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
GB2578603A (en) * | 2018-10-31 | 2020-05-20 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
WO2020231883A1 (en) * | 2019-05-15 | 2020-11-19 | Ocelot Laboratories Llc | Separating and rendering voice and ambience signals |
WO2024081957A1 (en) * | 2022-10-14 | 2024-04-18 | Virtuel Works Llc | Binaural externalization processing |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005101905A1 (en) * | 2004-04-16 | 2005-10-27 | Coding Technologies Ab | Scheme for generating a parametric representation for low-bit rate applications |
WO2007110101A1 (en) * | 2006-03-28 | 2007-10-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Enhanced method for signal shaping in multi-channel audio reconstruction |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL129752A (en) * | 1999-05-04 | 2003-01-12 | Eci Telecom Ltd | Telecommunication method and system for using same |
CN1144224C (zh) * | 2000-02-14 | 2004-03-31 | 王幼庚 | 耳前声波记录生成空间声信号的方法 |
US7567845B1 (en) | 2002-06-04 | 2009-07-28 | Creative Technology Ltd | Ambience generation for stereo signals |
SE0402652D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
EP1761110A1 (en) | 2005-09-02 | 2007-03-07 | Ecole Polytechnique Fédérale de Lausanne | Method to generate multi-channel audio signals from stereo signals |
US8103005B2 (en) | 2008-02-04 | 2012-01-24 | Creative Technology Ltd | Primary-ambient decomposition of stereo audio signals using a complex similarity index |
EP2359608B1 (en) * | 2008-12-11 | 2021-05-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for generating a multi-channel audio signal |
-
2010
- 2010-08-26 EP EP10174230A patent/EP2360681A1/en not_active Withdrawn
-
2011
- 2011-01-07 TW TW100100644A patent/TWI459376B/zh active
- 2011-01-11 ES ES11700088.5T patent/ES2587196T3/es active Active
- 2011-01-11 MX MX2012008119A patent/MX2012008119A/es active IP Right Grant
- 2011-01-11 BR BR112012017551-3A patent/BR112012017551B1/pt active IP Right Grant
- 2011-01-11 EP EP11700088.5A patent/EP2524370B1/en active Active
- 2011-01-11 CN CN201180014038.9A patent/CN102804264B/zh active Active
- 2011-01-11 KR KR1020127021317A patent/KR101491890B1/ko active IP Right Grant
- 2011-01-11 WO PCT/EP2011/050265 patent/WO2011086060A1/en active Application Filing
- 2011-01-11 AU AU2011206670A patent/AU2011206670B2/en active Active
- 2011-01-11 JP JP2012548400A patent/JP5820820B2/ja active Active
- 2011-01-11 RU RU2012136027/08A patent/RU2568926C2/ru active
- 2011-01-11 CA CA2786943A patent/CA2786943C/en active Active
- 2011-01-13 AR ARP110100109A patent/AR079998A1/es active IP Right Grant
-
2012
- 2012-07-11 US US13/546,048 patent/US9093063B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005101905A1 (en) * | 2004-04-16 | 2005-10-27 | Coding Technologies Ab | Scheme for generating a parametric representation for low-bit rate applications |
WO2007110101A1 (en) * | 2006-03-28 | 2007-10-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Enhanced method for signal shaping in multi-channel audio reconstruction |
Non-Patent Citations (1)
Title |
---|
J. BREEBAART, et al., "Multi-channel goes mobile: MPEG Surround binaural rendering", PROC. 29TH AES CONFERENCE, SEOUL, KOREA, 20 June 2001 * |
Also Published As
Publication number | Publication date |
---|---|
KR20120109627A (ko) | 2012-10-08 |
JP5820820B2 (ja) | 2015-11-24 |
RU2568926C2 (ru) | 2015-11-20 |
ES2587196T3 (es) | 2016-10-21 |
MX2012008119A (es) | 2012-10-09 |
EP2360681A1 (en) | 2011-08-24 |
WO2011086060A1 (en) | 2011-07-21 |
CA2786943C (en) | 2017-11-07 |
CA2786943A1 (en) | 2011-07-21 |
AU2011206670B2 (en) | 2014-01-23 |
US9093063B2 (en) | 2015-07-28 |
EP2524370B1 (en) | 2016-07-27 |
EP2524370A1 (en) | 2012-11-21 |
JP2013517518A (ja) | 2013-05-16 |
KR101491890B1 (ko) | 2015-02-09 |
AR079998A1 (es) | 2012-03-07 |
CN102804264A (zh) | 2012-11-28 |
TW201142825A (en) | 2011-12-01 |
CN102804264B (zh) | 2016-03-09 |
US20120314876A1 (en) | 2012-12-13 |
RU2012136027A (ru) | 2014-02-20 |
BR112012017551B1 (pt) | 2020-12-15 |
BR112012017551A2 (pt) | 2017-10-03 |
AU2011206670A1 (en) | 2012-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI459376B (zh) | 用以從下混信號與空間參數資訊抽取直接/周圍信號之裝置及方法 | |
RU2409911C2 (ru) | Декодирование бинауральных аудиосигналов | |
US11798567B2 (en) | Audio encoding and decoding using presentation transform parameters | |
EP1817768B1 (en) | Parametric coding of spatial audio with cues based on transmitted channels | |
CN101160618B (zh) | 用于空间音频参数编码的紧凑辅助信息 | |
EP1989920B1 (en) | Audio encoding and decoding | |
EP3444815A1 (en) | Multiplet-based matrix mixing for high-channel count multichannel audio | |
Breebaart et al. | Multi-channel goes mobile: MPEG Surround binaural rendering | |
KR20070091518A (ko) | 스테레오 신호 생성 방법 및 장치 | |
He | Spatial audio reproduction with primary ambient extraction | |
Breebaart et al. | Binaural rendering in MPEG Surround | |
He et al. | Literature review on spatial audio | |
US12131744B2 (en) | Audio encoding and decoding using presentation transform parameters | |
Plogsties et al. | MPEG Sorround binaural rendering-Sorround sound for mobile devices (Binaurale Wiedergabe mit MPEG Sorround-Sorround sound fuer mobile Geraete) | |
MX2008008829A (en) | Decoding of binaural audio signals |