TWI431611B - 用以基於下混信號表示型態提供上混信號表示型態之裝置、用以提供表示多聲道音訊信號的位元串流之裝置、使用失真控制發訊之方法、電腦程式與位元串流 - Google Patents
用以基於下混信號表示型態提供上混信號表示型態之裝置、用以提供表示多聲道音訊信號的位元串流之裝置、使用失真控制發訊之方法、電腦程式與位元串流 Download PDFInfo
- Publication number
- TWI431611B TWI431611B TW099135552A TW99135552A TWI431611B TW I431611 B TWI431611 B TW I431611B TW 099135552 A TW099135552 A TW 099135552A TW 99135552 A TW99135552 A TW 99135552A TW I431611 B TWI431611 B TW I431611B
- Authority
- TW
- Taiwan
- Prior art keywords
- distortion
- bit stream
- parameter
- representation
- audio
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims description 65
- 238000000034 method Methods 0.000 title claims description 63
- 238000004590 computer program Methods 0.000 title claims description 19
- 239000011159 matrix material Substances 0.000 claims description 99
- 230000000670 limiting effect Effects 0.000 claims description 39
- 238000004891 communication Methods 0.000 claims description 10
- 230000005284 excitation Effects 0.000 claims description 10
- 238000009877 rendering Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 32
- 230000003993 interaction Effects 0.000 description 12
- 230000008901 benefit Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 238000000926 separation method Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 238000002156 mixing Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000003607 modifier Substances 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 101100521334 Mus musculus Prom1 gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Control Of Amplification And Gain Control (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
依據本發明之一實施例係有關一種用以基於一下混信號表示型態及一物件相關參數資訊其係含括於一音訊內容之位元串流表示型態,及一呈現(rendering)資訊而提供一上混信號表示型態的裝置。
依據本發明之另一實施例係有關一種用以提供表示多聲道音訊信號的位元串流之裝置。
依據本發明之另一實施例係有關一種用以基於一下混信號表示型態及一物件相關參數資訊其係含括於一音訊內容之位元串流表示型態,及一呈現資訊而提供一上混信號表示型態的方法。
依據本發明之另一實施例係有關一種用以提供表示多聲道音訊信號的位元串流之方法。
依據本發明之另一實施例係有關一種用以實施該等方法中之一者之電腦程式。
依據本發明之另一實施例係有關一種表示多聲道音訊信號之位元串流。
於音訊處理、音訊傳輸及音訊儲存技藝界,漸增期望處理多聲道內容來改進聽覺印象。使用多聲道音訊內容給使用者帶來顯著改善。舉例言之,可獲得三度空間聽覺印象,獲致娛樂應用方面使用者滿意度的改良。但多聲道音訊內容也可用於專業環境,例如用於電話會議應用,原因在於藉由使用多聲道音訊回放可改良發話者的可懂性(易於為人所瞭解)。
但也期望在音訊品質與位元率需求間獲得良好折衷,來避免因多聲道應用造成額外過度資源負荷。
晚近,已經提示用於含有多音訊物件的音訊場景(audio scene)進行位元率有效的傳輸及/或儲存之參數技術,例如雙耳線索編碼(類型I)(例如參考參考文獻[BBC])、聯合來源編碼(例如參考參考文獻[JSC])、及MPEG空間音訊物件編碼(SAOC)(例如參考參考文獻[SAOC1]、[SAOC2]及未公開參考文獻[SAOC])。
此等技術係針對聽覺上重建期望的輸出音訊場景而非藉波形匹配。
第8圖顯示此種系統(此處:MPEG SAOC)之系統綜論。第8圖所示MPEG SAOC系統800包含一SAOC編碼器810及一SAOC解碼器820。SAOC編碼器810接收多數物件信號x1
至xN
,其例如可表示為時域信號或時頻域信號(例如呈傅利葉型變換之一變換係數集合形式,或呈QMF子頻帶信號形式)。SAOC編碼器810典型地也接收下混係數d1
至dN
,其係與物件信號x1
至xN
相關聯。下混係數之分開集合可供下混信號之各聲道利用。SAOC編碼器810典型地係組配來經由依據相關聯的下混係數d1
至dN
而組合物件信號x1
至xN
來獲得一下混信號聲道。典型地,下混聲道比物件信號x1
至xN
少。為了允許(至少近似)於SAOC解碼器820端的物件信號之分離(或分開處理),SAOC編碼器810提供該一或多個下混信號(標示為下混聲道)812及一側邊資訊814二者。側邊資訊814描述之物件信號x1
至xN
特性來允許解碼器端的物件專一性處理。
SAOC解碼器820係組配來接收該一或多個下混信號812及側邊資訊814。又,SAOC解碼器820典型地係組配來接收一使用者互動資訊及/或一使用者控制資訊822,其描述期望的呈現設定值。舉例言之,使用者互動資訊/使用者控制資訊822可描述一揚聲器設定值及提供物件信號x1
至xN
的該等物件之期望空間配置。
SAOC解碼器820係組配來提供例如多數已解碼上混聲道信號至。上混聲道信號例如可與多揚聲器呈現配置之個別揚聲器相關聯。SAOC解碼器820可例如包含一物件分離器820a,其係組配來基於該一或多個下混信號812及側邊資訊814,重建(至少近似)物件信號x1
至xN
,藉此獲得已重建物件信號820b。但已重建物件信號820b可能略為偏離原先物件信號x1
至xN
,例如原因在於由於位元率限制,側邊資訊814並非相當足夠用於完好重建。SAOC解碼器820可進一步包含一混合器820c,其可經組配來接收已重建物件信號820b及使用者互動資訊/使用者控制資訊822,及基於此而提供上混聲道信號至。混合器820c可經組配來使用該使用者互動資訊/使用者控制資訊822而判定個別已重建物件信號820b對上混聲道信號至的貢獻。使用者互動資訊/使用者控制資訊822例如可包含呈現參數(也標示為呈現係數)其判定個別已重建物件信號822對上混聲道信號至的貢獻。
但須注意於多個實施例中,物件的分離於第8圖以物件分離器820a指示,及混合於第8圖係以混合器820c指示係以單一步驟執行。為了達成此項目的,總參數可經運算其描述該一或多個下混信號812對映至上混聲道信號至的直接對映關係。此等參數可基於側邊資訊及使用者互動資訊/使用者控制資訊822運算。
現在參考第9a、9b及9c圖,將敘述用以基於一下混信號表示型態及物件相關側邊資訊來提供一上混信號表示型態之不同的裝置。第9a圖顯示一種包含SAOC解碼器920之MPEG SAOC系統900之方塊示意圖。SAOC解碼器920包含一物件解碼器922及一混合器/呈現器926作為分開功能方塊。物件解碼器922依據該下混信號表示型態(例如呈以時域或時頻域表示的一或多個下混信號形式)及該物件相關側邊資訊(例如呈物件元資料(meta data)形式)而提供多數已重建之物件信號924。混合器/呈現器926接收與多數N個物件相關聯之已重建之物件信號924,及基於此且係基於該呈現資訊而提供一或多個上混聲道信號928。於該SAOC解碼器920,物件信號924之擷取係與混合/呈現分開進行,其允許物件解碼功能與混合/呈現功能的分離,但帶來相當高的運算複雜度。
現在參考第9b圖,將簡短討論另一種MPEG SAOC系統930,其包含一SAOC解碼器950。SAOC解碼器950依據該下混信號表示型態(例如呈一或多個下混信號形式)及該物件相關側邊資訊(例如呈物件元資料形式)而提供多數上混聲道信號958。SAOC解碼器950包含物件解碼器與混合器/呈現器的組合,其係組配來於聯合混合程序獲得上混聲道信號958,而未分開物件解碼與混合/呈現,其中用於該聯合上混處理之參數係取決於該物件相關側邊資訊及該呈現資訊。該聯合上混處理也係依據下混資訊,該下混資訊被視為該物件相關側邊資訊之一部分。
綜上所述,上混聲道信號928、958的提供可於一步驟式處理或二步驟式處理執行。
現在參考第9c圖,將敘述一種MPEG SAOC系統960。SAOC系統960包含SAOC至MPEG環繞轉碼器980,而非SAOC解碼器。
SAOC至MPEG環繞轉碼器包含一側邊資訊轉碼器982,其係組配來接收該物件相關側邊資訊(例如呈物件元資料形式)及選擇性地,接收一或多個下混信號之資訊及呈現資訊。該側邊資訊轉碼器也係組配來基於所接收的資料而提供MPEG環繞側邊資訊(例如呈MPEG環繞位元串流形式)。據此,側邊資訊轉碼器982係組配來考慮呈現資訊及選擇性地,考慮該一或多個下混信號內容之相關資訊,而將接收自該物件編碼器之一物件相關(參數)側邊資訊變換成一聲道相關(參數)側邊資訊。
選擇性地,SAOC至MPEG環繞轉碼器980可經組配來操控例如由下混信號表示型態所描述之該一或多個下混信號而獲得經操控之下混信號表示型態988。但可刪除下混信號操控器986,使得SAOC至MPEG環繞轉碼器980之輸出下混信號表示型態988係與SAOC至MPEG環繞轉碼器之輸入下混信號表示型態相同。若聲道相關的MPEG環繞側邊資訊984不允許基於SAOC至MPEG環繞轉碼器980的輸入下混信號型提供期望的聽覺印象(於某些呈現群(rendering constellations)可能為此種情況),則可使用下混信號操控器986。
據此,SAOC至MPEG環繞轉碼器980提供下混信號表示型態988及MPEG環繞位元串流984,使得使用接收MPEG環繞位元串流984及下混信號表示型態988的MPEG環繞解碼器,可產生多數上混聲道信號,其表示依據輸入該SAOC至MPEG環繞轉碼器980的呈現資訊之該等音訊物件。
綜上所述,可使用用以解碼SAOC編碼之音訊信號之不同構想。於某些情況下,使用SAOC解碼器,其依據該下混信號表示型態及物件相關參數側邊資訊而提供上混聲道信號(例如上混聲道信號928、958)。此種構想之實例可參考第9a及9b圖。另外,SAOC編碼之音訊資訊可經轉碼來獲得一下混信號表示型態(例如下混信號表示型態988)及一聲道相關側邊資訊(例如聲道相關MPEG環繞位元串流984),其可由MPEG環繞解碼器用來提供期望的上混聲道信號。
於MPEG SAOC系統800,系統綜論顯示於第8圖,一般處理係以頻率選擇方式進行,且於各頻帶內可描述如下:
● N個輸入音訊物件信號x1
至xN
經下混作為SAOC編碼器處理的一部分。用於單聲道下混,下混係數係標示以d1
至dN
。此外,SAOC編碼器810擷取描述該輸入音訊物件之側邊資訊814。用於MPEG SAOC,物件功率相對於彼此之關係乃此種側邊資訊之最基本形式。
● 下混信號(或多個信號)812及側邊資訊814係經傳輸及/或儲存。為了達成此項目的,下混音訊信號可使用眾所周知的聽覺音訊編碼器壓縮,諸如MPEG-1層II或III(也稱作為「.mp3」)、MPEG進階音訊編碼(AAC)、或其它音訊編碼器。
● 於接收端,SAOC解碼器820於構想上嘗試使用所傳輸的側邊資訊814(及當然,一或多個下混信號812)來重新儲存該原先物件信號(「物件分離」)。然後,此等近似的物件信號(也標示為重建的物件信號820b)使用一呈現矩陣而混合入藉M個音訊輸出聲道表示之目標場景(例如可藉上混聲道信號至表示)。用於單聲道輸出,呈現矩陣係數係以r1
至rN
表示。
● 實際上,罕見執行(或甚至未曾執行)物件信號的分離,原因在於分離步驟(以物件分離器820a指示)及混合步驟(以混合器820c指示)二者係組合成單一轉碼步驟,其經常導致運算複雜度的劇減。
業已發現此種方案就傳輸位元率(只需傳輸數個下混聲道加若干側邊資訊,而無需傳輸N個(典型為分開的)物件音訊信號加選擇性呈現資訊或分開系統)及運算複雜度(處理複雜度主要係有關輸出聲道之數目而非音訊物件數目)而言極其有效。對於接收端的使用者之額外優點包括選擇一呈現設定值的自由度(單聲、立體聲、環繞、虛擬耳機回放等)及使用者互動之特徵結構:呈現矩陣,如此,輸出場景可由使用者依據意願、個人偏好或其它標準而設定且互動改變。舉例言之,可以定位共同在一個空間區的談話者來最大化與其餘談話者間之區別。此種互動性可藉設置解碼器使用者介面而達成。
對各個所傳輸的聲音物件,可調整其相對位準及(用於非單聲道呈現)呈現之空間位置。當使用者改變相關聯之圖形使用者介面(GUI)滑動器位置時可即時發生(例如:物件位準=+5分貝,物件位置=-30度)。
但發現於某些情況下,用以提供上混信號表示型態(例如上混聲道信號至)之參數的解碼器端選擇造成聽覺的降級。
業已發現由於基於下混/分離/混合參數辦法,音訊輸出信號之主觀品質係取決於呈現參數設定值。發現相對物件位準的改變影響終音訊品質超過空間呈現位置的改變(「重新搖攝(re-panning)」)。相對位準參數的極值設定值(例如+20分貝)甚至可能導致無法接受的輸出品質。
雖然如此單純為違反本方案的若干基本聽覺假設的結果,但仍然無法接受商業產品取決於使用者介面之設定值而產生不良聲音及假影(artifact)。
美國專利案第61/173,456號發明名稱「用以避免失真之音訊信號處理的方法、裝置及電腦程式」及國際專利申請案PCT/EP2010/055717名稱「用以使用物件相關參數資訊基於下混信號表示型態而提供用來提供上混信號表示型態之一或多個經調整之參數的裝置、音訊信號解碼器、音訊信號轉碼器、音訊信號編碼器、音訊位元串流、方法及電腦程式」(此後稱作為「用於失真控制之實例」)敘述一種用以於SAOC系統模擬來自物件增益修正之失真之方法。該等文件敘述用於失真控制及失真減少的不同構想,該等構想可應用於依據本發明之實施例或組合應用。
綜上所述,本發明之目的係創出一種構想,其允許當基於下混信號表示型態來提供上混信號表示型態時減少或避免失真之改良。
依據本發明之一實施例,提供一種用以基於一下混信號表示型態及一物件相關參數資訊其係含括於一音訊內容之位元串流表示型態及依據一呈現資訊而提供一上混信號表示型態之裝置。該裝置包含一失真限制器,其係組配來使用一失真控制方案調整上混參數(例如增益因數或呈現矩陣之分錄),而避免或限制因呈現參數(例如使用者指定呈現矩陣之分錄)之不當選擇所造成的聽覺失真。該失真限制器係組配來獲得含括於該音訊內容之位元串流表示型態的一失真限制控制參數,且係組配來依據該失真限制控制參數而調整該失真控制方案。
依據本發明之此一實施例係基於下述關鍵構想,經由依據含括於該音訊內容之位元串流表示型態的失真限制控制參數調整失真控制方案,可達成顯著優點,原因在於如此允許使用由音訊編碼器(例如用以提供表示多聲道音訊信號之一位元串流之裝置)所提供之控制資訊(例如失真限制控制參數),控制在音訊解碼器端(例如用以提供上混信號表示型態之裝置)施加的失真控制方案。如此,音訊信號編碼器有機會控制解碼器端的失真控制方案,而其又轉而就呈現參數調整方面,讓編碼器有可能移交或多或少自由度予解碼器使用者。據此,典型地包含由下混信號表示型態所表示的音訊信號物件之更佳知識,可促成使用其音訊物件信號知識而適當地調整失真控制方案。如此允許當提供上混信號表示型態時獲得改良結果。又,音訊信號編碼器依據下混信號表示型態所表示的內容提供業者提供該音訊物件信號的要求而提供一適當失真限制控制參數,使得例如依據內容提供業者的要求,自音訊信號編碼器端,可防止藉呈現參數之不當設定值造成上混信號表示型態的過度降級。
要言之,藉本發明辦法,評估在解碼器端擷取自該音訊內容之位元串流表示型態的失真限制控制參數用來調整例如在解碼器端所施加的失真控制方案之一或多個參數,可獲得大量優點。
於一較佳實施例,該用以提供上混信號表示型態之裝置係組配來自一輸入介面接收期望的呈現矩陣資訊。此種情況下,該失真限制器係組配來依據該期望的呈現矩陣及一或多個失真限制控制參數獲得一修正呈現矩陣。該用以提供上混信號表示型態之裝置係組配來依據該修正呈現矩陣而提供該上混信號表示型態。據此,藉音訊信號解碼器(例如用以提供上混信號表示型態之裝置)而擷取自該音訊內容之位元串流表示型態的失真限制控制參數可用來提供一修正呈現矩陣,其避免該上混信號表示型態內部的過度聽覺失真。即便透過使用者介面(例如藉使用者)輸入的期望呈現矩陣為不當(及其將造成於上混信號表示型態的顯著聽覺失真),仍可達成聽覺失真的減少。如此,藉失真限制器依據來自該輸入介面之期望的呈現矩陣,而判定如何獲得該修正呈現矩陣,藉此對音訊信號編碼器提供某種程度的控制,可評估該失真限制控制參數。
於一較佳實施例,該失真限制器係組配來獲得一或多個呈現矩陣極限值,該等值係含括於該音訊內容之位元串流表示型態及其描述呈現矩陣元(也稱作為分錄)之最小值及最大值。此種情況下,該失真限制器進一步係組配來依據該期望的呈現矩陣而獲得該修正呈現矩陣時,依據一或多個呈現矩陣極限值而限制該修正呈現矩陣之一或多個分錄。據此,包含呈現矩陣極限值的該等失真限制控制參數可用來防止極端呈現設定值,此等設定值被提供音訊內容之上的音訊信號編碼器視為非期望者。如此,可避免或至少限制因呈現參數的不當設定結果所導入的聽覺失真。
於一較佳實施例,該失真限制器係組配來依據該期望的呈現矩陣、一參考呈現矩陣、及一或多個失真限制控制參數而獲得該修正呈現矩陣。參考呈現矩陣的使用帶來特殊優點,原因在於該參考呈現矩陣可規定一呈現設定值其提供夠好的或甚至最佳的上混信號表示型態品質。據此,藉該等失真限制控制參數可界定該等呈現參數相對於該參考呈現矩陣的容許變化,其允許該等修正呈現參數所應落在的有效規格範圍。
於一較佳實施例,該失真限制器係組配來依據一或多個呈現矩陣極限值其藉該等失真限制控制參數所描述,相對於該參考呈現矩陣(或相對於該參考呈現矩陣之分錄)而限制該修正呈現矩陣之一或多個分錄。據此,該呈現矩陣之限制可依據該參考呈現矩陣而有效進行。
又,失真限制控制參數中之一或多者可決定如何獲得參考呈現矩陣。舉例言之,失真限制控制參數中之一或多者可規定用以導算出該參考呈現矩陣之分錄的濾波時間常數。但描述如何獲得該參考呈現矩陣的其它組配資訊也可藉該等失真限制控制參數中之一或多者所界定。
於一較佳實施例,該失真限制器係組配來施加物件個別失真限制控制參數,而依據期望的(例如使用者指定的)呈現矩陣資訊來獲得該修正呈現矩陣資訊。據此,可由失真控制方案經由探討擷取自該音訊內容之位元串流表示型態的物件個別失真限制控制參數來考慮屬提供該音訊內容之位元串流表示型態之一音訊信號編碼器所眾所周知的音訊物件信號之差異。
於一較佳實施例,該用以提供上混信號表示型態之裝置係組配來將一或多個修正增益因數施加至該下混信號表示型態之音訊樣本,或施加至由該下混信號所描述之音訊物件相關聯之一物件相關側邊資訊,來依據該增益因數而提供該上混信號表示型態。此種情況下,該失真限制器係組配來依據一或多個期望的增益因數及一或多個失真限制控制參數而獲得一或多個修正增益因數。據此,擷取自該音訊內容之位元串流表示型態的失真限制控制參數係用來適當調整該等增益因數,其允許控制自提供該音訊內容之位元串流表示型態之一音訊信號編碼器該端(適當)選擇該等增益因數。
於一較佳實施例,該失真限制器係組配來使用具有一時間常數之一平滑濾波器而對一欲限制的增益因數來導算出一參考位準。此種情況下,該失真限制器係組配來使用該參考位準用於限制該給定的因數。又,該失真限制器係組配來獲得一時間恆定參數,其係含括於該音訊內容之位元串流表示型態(例如藉由自該音訊內容之位元串流表示型態擷取該時間常數參數),且係組配來依據該時間恆定參數而調整該平滑濾波器之時間常數。如此,知曉該等音訊物件信號之時間特性係優於該音訊信號解碼器(用以提供一上混信號表示型態之裝置)之一音訊信號編碼器,可在用以藉一音訊信號解碼器所施加的該音訊內容之位元串流表示型態中,包括一適當時間常數參數,其允許一參考位準之有意義的導算。因此,可藉該失真控制方案探討為一音訊信號編碼器所已知的該音訊信號之特定特性。
於一較佳實施例,該失真限制器係組配來獲得一失真控制激發參數其係含括於該音訊內容之位元串流表示型態,且係組配來依據該失真控制激發參數而使得該失真控制方案生效或失效。據此,提供該音訊內容之位元串流表示型態之一音訊信號編碼器可執行該失真控制方案的激發生效,或可使該失真控制方案失效。據此,提供該音訊內容之位元串流表示型態之一音訊信號編碼器可依據該音訊編碼器或內容提供業者的評估,來選擇性地執行藉一音訊信號解碼器施加一適當失真控制方案,其協助避免使用者不滿意關鍵性音訊內容。此種情況下,音訊信號編碼器可提供呈現參數之設定值的適當限制。另一方面,該音訊解碼器可選擇性地讓該失真控制方案失效,來對一使用者提供對音訊內容而言就該等呈現參數之設定值的最大彈性,原因在於此種最大彈性比較施加一失真控制方案獲致使用者更高的滿意度。
於一較佳實施例,該失真限制器係組配來獲得一預設呈現矩陣激發參數,其係含括於該音訊內容之位元串流表示型態。此種情況下,該失真限制器係組配來回應於該預設呈現矩陣激發參數的激發狀態,而執行使用含括於該音訊內容之位元串流表示型態之一預設呈現矩陣資訊,而非使用一使用者指定的呈現矩陣資訊,來基於該下混信號表示型態而提供該上混信號表示型態。據此,於有些情況下,該音訊信號解碼器可達成使用由音訊信號編碼器,而非由使用者,所界定的呈現矩陣資訊獲得該上混信號表示型態。據此,音訊信號編碼器有機會將該預設呈現矩陣資訊含括入該位元串流且激發該預設呈現矩陣激發資訊(或旗標),指示該預設呈現矩陣資訊須由該音訊內容之位元串流表示型態所使用。據此,該音訊信號解碼器可確保依據該預設呈現矩陣資訊藉該呈現矩陣的適當設定值所給定該音訊內容的技藝價值對使用者而言變彰顯。據此,在唯有呈現參數的適當設定值才能提供良好聽覺印象的此等情況下,可避免發生使用者不滿意情況。
於一較佳實施例,該失真限制器係組配來獲得一心理聲學失真限制參數,其係含括於該音訊內容之位元串流表示型態。此種情況下,該失真限制器係組配來依據一心理聲學失真模型而調整一或多個上混參數,使得由該上混信號表示型態與該下混信號表示型態之偏差所造成的失真測量值(其可能為例如估值)有限。此種情況下,該失真限制器係組配來依據該心理聲學失真限制參數,而設定用以依據該心理聲學失真模型調整該等一或多個上混參數之一或多個參數(例如描述依據該心理聲學失真模型如何調整一或多個上混參數之一參數),或設定該心理聲學失真模型之一或多個參數。據此,可自音訊編碼器端控制心理聲學失真模型用於適當限制該等上混參數的用途,其再度讓音訊編碼器有可能促成避免該上混信號表示型態的顯著失真。
於一較佳實施例,該失真限制器係組配來對每個音訊框獲得一個已更新失真限制控制參數,來獲得一時間變異失真控制方案。此種構想獲致下述優點,失真控制方案可在音訊信號編碼器的控制之下動態調整,其提供在該音訊內容之位元串流表示型態內部之一或多個失真限制控制參數,使得可由音訊編碼器選擇嚴格的或寬鬆的失真控制方案。藉此方式,經由對一音訊內容之較非關鍵性章節段落,提供該音訊內容之位元串流表示型態內的適當失真限制控制參數來調整失真控制方案變寬鬆,音訊信號編碼器可對使用者提供最大可能彈性;經由對一音訊內容之較具關鍵性音訊框,提供適當失真限制控制參數來調整失真控制方案變嚴格,音訊信號編碼器可對使用者提供較少彈性。如此,自音訊編碼器端經由此處討論的音訊解碼器之使用,可執行藉由適當控制而達成使用者彈性與聽覺印象間的良好折衷。
於一較佳實施例,該失真限制器係組配來評估於該音訊內容之位元串流表示型態之一組態部分內部的動態更新旗標。此種情況下,該失真限制器係組配來若該動態更新旗標為失效,則評估該音訊內容之位元串流表示型態之組態部分,而獲得該失真限制控制參數;及若該動態更新旗標為有效,則評估該音訊內容之位元串流表示型態之一訊框部分,而重複地獲得該失真限制控制參數之更新。據此,該音訊解碼器可在靜態運算模式與動態運算模式間切換,於靜態模式中,該一或多個失真限制控制參數係在每一音訊框序列(例如該序列係相關聯單一共用組態部分)只傳輸一次;於動態模式中,該一或多個失真限制控制參數傳輸更頻繁或甚至每個音訊框傳輸一次。如此允許失真限制控制參數之傳輸調適來若不需要失真限制控制參數的時間變異,則獲得失真限制控制參數之低位元率;及若例如由於音訊物件信號的特性故需要時間變異,則獲得失真限制控制參數之良好時間解析度。
於一較佳實施例,該失真限制器係組配來依據一旗標指示在該音訊內容之位元串流表示型態之一訊框部分是否存在有一失真限制控制參數,而選擇性地更新該失真限制控制參數,使得該失真限制控制參數之更新區間(例如就音訊框測量)係由該音訊內容之位元串流表示型態動態地判定。據此,於包含多個音訊框之一單塊音訊資訊中,可於不規則情況或時間(例如介於其間的音訊框數目不規則)執行失真限制控制參數的更新,其可良好調適於該等音訊物件信號的時間上不規則變化。
依據本發明之一實施例提供一種用以提供表示多聲道音訊信號之一位元串流之裝置。該裝置包含組配來基於多個音訊物件信號而提供一下混信號之一下混器。又,該裝置包含一側邊資訊提供器,其係組配來提供描述該等音訊物件信號及下混參數的特性之一物件相關參數側邊資訊,及提供在該用以提供一上混信號表示型態之裝置端用來控制失真控制方案的施加之一或多個失真限制控制參數。該用以提供一位元串流之裝置也包含一位元串流格式化器,其係組配來提供一位元串流包含該下混信號、該物件相關參數側邊資訊及該一或多個失真限制控制參數之一表示型態。
該用以提供表示多聲道音訊信號之一位元串流之裝置係極為適合用於提供該音訊內容之位元串流表示型態,其可由前文討論之用以提供一上混信號表示型態之裝置使用。該用以提供一位元串流之裝置允許將失真限制控制參數含括入位元串流,使得該解碼器端的失真控制方案可依據在編碼器端的期望需要而調整。
有關進一步細節及優點,請參考前文有關用以提供一上混信號表示型態之裝置之討論。
依據本發明之另一實施例提供一種用以基於一下混信號表示型態及一物件相關參數資訊,其係含括於一音訊內容之位元串流表示型態,及依據一呈現資訊而提供一上混信號表示型態之方法。
依據本發明之另一實施例提供一種用以提供表示多聲道音訊信號之一位元串流之方法。
依據本發明之另一實施例提供一種用以執行該等方法中之一者之電腦程式。
該等方法及該電腦程式係基於如前文討論裝置之相同關鍵構想。
依據本發明之另一實施例提供一種表示多聲道音訊信號之位元串流。該位元串流包含組合多個音訊物件之音訊信號之一下混信號表示型態,及描述該等音訊物件之特性之一物件相關參數側邊資訊。該位元串流也包含在該用以提供一上混信號表示型態之裝置端用來控制一失真控制方案的施加之一或多個失真限制控制參數。該位元串流典型地係藉前文討論之用以提供一表示多聲道音訊信號之位元串流的裝置提供;且典型地可藉前文討論之用以提供上混信號表示型態之裝置提供。該位元串流允許有效調整該失真控制方案。
後文將參考所揭示之附圖描述依據本發明之實施例,附圖中:第1圖顯示依據本發明之一實施例一種用以提供上混信號表示型態之裝置之方塊示意圖;第2圖顯示依據本發明之另一實施例一種用以提供上混信號表示型態之裝置之方塊示意圖;第3圖顯示依據本發明之另一實施例一種用以提供上混信號表示型態之裝置之方塊示意圖;第4圖顯示一種使用本發明之位元串流發訊之SAOC失真控制之方塊示意圖;第5圖顯示依據本發明之一實施例一種用以提供表示多聲道音訊信號之位元串流之裝置之方塊示意圖;第6圖顯示依據本發明之一實施例一種表示多聲道音訊信號之位元串流之方塊示意圖;第7圖顯示SAOC失真控制實例之方塊示意圖;第8圖顯示參考MPEG SAOC系統之方塊示意圖;
第9a圖顯示使用分開的解碼器及混合器之一參考SAOC系統之方塊示意圖;第9b圖顯示使用整合型解碼器及混合器之一參考SAOC系統之方塊示意圖;及第9c圖顯示使用SAOC至MPEG轉碼器之一參考SAOC系統之方塊示意圖。
1.依據第1圖,用以提供上混信號表示型態之裝置
第1圖顯示用以基於下混信號表示型態110及物件相關參數資訊112(可被視為參數側邊資訊)提供上混信號表示型態120之裝置100之方塊示意圖。下混信號表示型態110及物件相關參數資訊112皆可含括於該音訊內容之位元串流表示型態。裝置100可經組配來依據例如可使用一使用者介面而輸入之呈現資訊114而提供上混信號表示型態。裝置100可接收一或多個失真限制控制參數116,其典型地也係含括於該音訊內容之位元串流表示型態。
裝置100包含一信號處理器130,其係組配來考慮經調整之上混參數132,依據下混信號表示型態110及物件相關參數資訊112而提供上混信號表示型態120。裝置100包含一失真限制器140,其係組配來使用失真控制方案142而獲得經調整之上混參數132,來避免或限制經由不當選擇呈現資訊114之呈現參數而造成聽覺失真。失真限制器130係組配來獲得含括於該音訊內容之位元串流表示型態的一或多個失真限制控制參數116,及依據該一或多個失真限制控制參數116而調整該失真控制方案。
後文中,將討論裝置100之功能的進一步細節。信號處理器130提供上混信號表示型態120。為了達成此項目的,考慮下混信號表示型態110及物件相關參數資訊112。又,於大部分情況下(但非必要於全部情況),嘗試例如由使用者透過使用者介面來根據呈現資訊114而提供上混信號表示型態120。但若欲使用不含失真控制方案之呈現資訊114,則偶爾將導致上混信號表示型態120之聽覺失真,例如若使用者選用極端呈現設定值。為了避免過度聽覺失真,由失真限制器140基於呈現資訊114及使用失真控制方案142來提供經調整之上混參數132(其可為呈現參數或其它上混參數)。
失真控制方案142係經調整適用於使用可調整式對映規則,其可為例如包含線性、逐塊線性、或非線性對映,而自該呈現資訊114導算出該經調整之上混參數132。失真控制方案142可藉該失真限制器140依據一或多個案調整參數而調整。為了達成該項目的,失真限制器140可考慮該一或多個失真限制控制參數116,該等失真限制控制參數116係含括於該音訊內容之位元串流表示型態,及其較佳係使用未顯示於第1圖的位元串流剖析器(雖言如此,於若干實施例,其可為裝置100之一部分)而擷取自該音訊內容之位元串流表示型態。於若干實施例,失真控制方案142(或界定該失真控制方案之對映規則)考慮下混信號表示型態110之資訊及/或物件相關參數資訊112之資訊來依據呈現資訊114而獲得經調整之上混參數132。較佳係用來調整失真控制方案的失真控制方案調整參數例如,可包含限制參數、線性組合參數,或界定呈現資訊114對映至該音訊內容之位元串流表示型態之對映關係的其它功能參數。
要言之,失真限制器140提供該經調整之上混參數132,使得防止上混信號表示型態120之過度聽覺失真,即便呈現資訊114係以適當方式選擇,若未施加失真控制方案142,將導致上混信號表示型態120之過度失真。如此,使用且調整該失真控制方案142的失真限制器協助改良聽覺印象。藉由依據含括於該音訊內容之位元串流表示型態之一或多個失真限制控制參數116對失真控制方案做調整,可自提供該音訊內容之位元串流表示型態之一音訊信號編碼器端執行失真減少之控制。
後文中,將參考第2圖描述用以基於一下混信號表示型態及一物件相關參數資訊其係含括於一音訊內容之位元串流表示型態及依據一呈現資訊而提供一上混信號表示型態之裝置200,第2圖顯示此種裝置200之方塊示意圖。
此處須注意由第2圖之裝置200所接收的資訊與裝置200所提供的資訊係類似由裝置100所接收及提供的資訊,故使用相同元件符號來識別相同資訊。又,裝置200之部分元件係與裝置100之元件相同,因此於全文說明中對此等相同或相當的元件使用相同元件符號。
裝置200係組配來接收該下混信號表示型態110、一物件相關參數資訊112、一呈現資訊114、及一或多個失真限制控制參數116。又,裝置200係組配來使用例如一信號處理器130而提供一上混信號表示型態120。
裝置200包含一失真限制器240,其使用失真控制方案242。該失真控制方案242包含一失真計算器/估算器242a及一呈現資訊修正器242b。失真計算器/估算器242a例如係組配來接收至少部分該下混信號表示型態110及至少部分該物件相關參數資訊112,及該呈現資訊114。失真計算器/估算器242a係組配來考慮物件相關參數資訊112,經由施加呈現資訊114至該下混信號表示型態110而計算或估算將導入該上混信號表示型態120之失真測量值。呈現資訊修正器242b係組配來考慮由失真計算器/估算器242a所提供的經計算或經估算所得之失真資訊,基於呈現資訊114而提供經調整之呈現參數132,使得當藉該信號處理器130而施加來獲得該上混信號表示型態120時,該經調整之呈現參數132比較原先呈現參數114導致減少失真。
但呈現資訊修正器242b可考慮失真控制方案調整參數,該調整參數係藉失真限制器240依據失真限制控制參數116而提供,及其影響該經調整之呈現參數132的提供。
舉例言之,失真控制方案調整參數(其係基於失真限制控制參數116獲得,或其甚至係與失真限制控制參數116相同)例如可界定該失真測量值係如何藉該失真計算器/估算器242a計算或估算。舉例言之,失真控制方案調整參數可界定不同的失真如何絕對地加權,或相對於彼此加權來獲得經計算或經估算的失真值。另外,或此外,該失真控制方案調整參數可基於呈現資訊114而判定藉由失真計算器/估算器242a所得的失真測量值係如何影響該經調整之呈現參數132的提供。
於若干實施例,失真計算器/估算器242a及呈現資訊修正器242b也可組合而提供經調整之呈現參數132,使得該經調整之呈現參數132獲致某種(有限)程度的上混信號表示型態120失真,其中此種程度的上混信號表示型態120失真可藉該失真控制方案調整參數影響(或調整)。
後文中,將參考第3圖描述用以基於一下混信號表示型態110及一物件相關參數資訊112其係含括於一音訊內容之位元串流表示型態及依據一呈現資訊114而提供一上混信號表示型態120之裝置300。此處須注意於此處實施例討論中,相同元件符號係標示相同的或相當的資訊、元件及功能。
裝置300包含一失真限制器340,其係組配來使用失真控制方案342,及依據呈現資訊114,及也依據失真限制控制參數116來提供經調整之呈現參數132。
失真控制方案342包含一呈現資訊限制器342a,其係組配來限制呈現資訊114之數值範圍而獲得經調整之呈現參數132。呈現資訊114之值的限制可依據失真控制方案調整參數執行,該失真控制方案調整參數係藉失真限制器340依據失真限制控制參數116獲得,或甚至係與失真限制控制參數116完全相同。失真控制方案342可選擇性地包含一參考值計算器342b,其係組配來依據該物件相關參數資訊112,及較佳地但非必要地也依據導算自一失真限制控制參數116或與該參數116相同的失真控制方案調整參數而提供一限制參考值。據此,當於獲得該經調整之呈現參數132之處理程序中限制該呈現參數值之數值範圍時,該呈現參數限制器342可選擇性地考慮由該參考值計算器342b所提供之限制參考值。
據此,失真限制器340可實施呈現資訊114值之數值範圍的可調整式限制,因而自該呈現資訊114值導算出該經調整之呈現參數132,其可為使用者指定之呈現資訊。該可調整式限制可依據一或多個失真限制控制參數116調整,其中該等失真限制控制參數116可決定該可調整式限制之一或多個不同參數(例如最小值、最大值、可容許偏離參考值、參考值計算模式等)。
後文中,將參考第4圖討論使用本發明之位元串流傳訊之SAOC失真控制的構想,該圖顯示SAOC失真控制系統400之方塊示意圖。
SAOC失真控制系統400包含一SAOC編碼器410及一SAOC解碼器/轉碼器420。
SAOC編碼器410係組配來接收多數音訊物件信號412a至412N,及基於此而提供一下混信號414。該下混信號414可例如相當於該下混信號表示型態110,且可為一聲道信號或多聲道信號,諸如二聲道信號。
SAOC編碼器410也係組配來提供一物件相關參數資訊416,其包含例如SAOC參數。該等SAOC參數例如可描述音訊物件信號412a至412N之特性。舉例言之,該等SAOC參數可描述由音訊物件信號412a至412N所表示之音訊物件之位準差(OLD)。又,該等SAOC參數可描述由音訊物件信號412a至412N所表示之音訊物件之物件間相關性IOC。又,該等SAOC參數可決定藉由線性組合音訊物件信號412a至412N而導算出該下混信號414之下混特徵。例如,該等SAOC參數可描述下混增益DMG及下混聲道位準差DCLD。該等SAOC參數416可例如相當於該物件相關參數資訊112。
SAOC解碼器410也可提供一或多個失真限制器參數418,其可視為一或多個失真限制控制參數,及其可相當於失真限制控制參數116。
下混信號表示型態414、SAOC參數416及失真限制器參數418係自SAOC編碼器410傳輸至SAOC解碼器及/或SAOC轉碼器420。
典型地,該下混信號表示型態414(較佳呈編碼形式)、SAOC參數416(典型地呈編碼形式)、及失真限制器參數418(典型地呈編碼形式)皆係含括於該音訊內容之位元串流表示型態。換言之,該SAOC編碼器410提供包括該等參數414、416、418之一位元串流。
SAOC解碼器或SAOC轉碼器或SAOC解碼器/轉碼器420接收該下混信號表示型態414、該等SAOC參數416及一或多個失真限制器參數418。SAOC解碼器/轉碼器420例如可執行依據第8圖之SAOC解碼器820、依據第9a圖之SAOC解碼器920、依據第9b圖之整合式解碼器及混合器950、或第9c圖之SAOC至MPEG環繞轉碼器980之功能。
但除了該等SAOC解碼器或轉碼器外,SAOC解碼器/轉碼器420包含一失真限制器422,其係組配來接收及評估一或多個失真限制器參數418。此外,SAOC解碼器/轉碼器420也可經組配來接收互動/控制資訊424,其例如表示使用者對期望的呈現參數之選擇。結果SAOC解碼器/轉碼器420係組配來提供上混信號表示型態,例如呈多數已解碼音訊信號聲道428a至428M形式。
SAOC解碼器/轉碼器420係組配來施加增益因數或呈現參數而自下混信號414導算出上混信號表示型態428a至428M。舉例言之,SAOC解碼器/轉碼器420可經組配來將表示下混信號414(其可為1-聲道下混信號或2-聲道下混信號)的信號組分(例如頻域值)乘以多數相對應增益值(例如增益值矩陣)而自該下混信號表示型態導算出音訊聲道信號428a至428M。舉例言之,下混信號表示型態414中之二或多個聲道的線性組合可經形成來獲得音訊聲道信號428a至428M中之一者的表示型態。另外或此外,可施加一呈現參數集合來將一或多個下混信號414之表示型態對映至音訊聲道信號428a至428M。此種情況下,呈現參數可運算將一或多個下混信號414之表示型態對映至音訊聲道信號428a至428M之對映規則。舉例言之,當判定此種對映規則時,呈現參數可用作為線性參數。但於若干實施例,呈現參數之不同應用亦屬可能。
後文中,將描述若干失真限制技術,其可應用於SAOC解碼器/轉碼器420及也可應用於SAOC解碼器或轉碼器100、200、300。
失真限制可藉由限制SAOC解碼器/轉碼器系統中的若干參數之數值範圍達成。此處,參數係指系統的係數、增益因數、或矩陣元,其並未直接表示音訊樣本,但確實藉SAOC的數學方案影響輸出音訊樣本。
特別令心關注者為施加限制於轉碼參數(亦即轉碼矩陣的個別矩陣元)。此點為運算有效,原因在於轉碼矩陣並未隨同物件數目增長。轉碼矩陣可描述下混信號表示型態之音訊聲道信號對映至上混信號表示型態之音訊聲道信號。
例如第2及7圖所顯示之SAOC解碼器/轉碼器的失真限制器基於一或多個增益限制常數而執行參數範圍的限制。接受限制的參數可為欲施加至該等音訊樣本的增益因數。然後,該一或多個增益限制常數可以分貝為單位表示為增益位準範圍。
舉例言之,q=10分貝之增益限制常數可用來依據下式限制參數p之範圍:
此處,p’係定義為新限制參數(來替代p)。p、p’二者及q於此處皆表示為對數(分貝)值。
此處須注意p’值可例如表示經調整之呈現參數132,及p值可依據呈現資訊獲得。p’值範圍之限制例如可藉失真控制方案執行,及失真限制器140可依據失真限制控制參數116而調整參數q(可考慮為失真控制方案調整參數)。前述獲得p’之規則可視為可調整式失真控制方案,其係依據失真控制方案調整參數而調整。
更加進階辦法係允許增益限制常數q界定該參數與另一參考位準的最大容許偏差。此項參考位準例如可導算自參數序列(當其更新時,例如每個SAOC訊框一次或數次)之平滑化/經濾波/經平均的版本(順著時軸平滑化/經濾波/經平均)。然後可根據下式定義限制:
此處,p”係定義為新的進階限制參數(替代p),及r係定義為p參數序列之平滑化/經濾波/經平均的版本(順著時軸平滑化/經濾波/經平均)。p、p”二者、r及q於此處皆係表示為對數(分貝)值。
舉例言之,p”可表示一或多個經調整之參數132(例如經調整之轉碼參數或經調整之呈現參數)。p值例如可依據呈現資訊114及選擇性地,其它資訊例如得自下混信號表示型態110之資訊或得自物件相關參數資訊112之資訊獲得。
欲獲得p”,p值之限制可藉失真控制方案執行,及參數q可依據失真限制控制參數116藉失真限制器140調整。此外,藉由平滑化p值用來獲得r之平滑化/濾波/平均時間常數可依據失真限制控制參數中之一者或多者,藉失真限制器140調整。
另一種限制方法係只在呈現矩陣運算。呈現矩陣為SAOC解碼器/轉碼器之輸入介面(或輸入量)。因此此種方法不要求SAOC解碼器/轉碼器系統內部的任何修正。
簡單限制方法限制呈現矩陣元之範圍(設定最小值及最大值)。
另一種限制方法限制呈現矩陣元相對於呈現矩陣參考之修正。呈現矩陣參考例如可為導致不變的下混作為輸出信號之呈現矩陣。舉例言之,限制參數q=10分貝防止呈現矩陣元偏離某個參考值(或偏離個別參考值)超過±10分貝(亦即不小於因數10-10/20
,而不大於因數1010/20
)。
呈現矩陣的參數(矩陣元)之範圍易對個別物件各有不同,原因在於其在呈現矩陣明確隔開。舉例言之,可允許下列限制範圍:
-鼓物件:±3分貝
-貝斯物件:±10分貝
-中音圓號物件:±6分貝
-吉他1物件:±3分貝
-吉他2物件:±3分貝
-嗓音物件:±0分貝
-長笛物件:±12分貝
換言之,個別呈現參數之調整範圍可個別地亦即以物件個別方式調整(設定)。物件個別變化範圍可得自多數失真限制控制參數116,該等失真限制控制參數116係含括於該音訊內容之位元串流表示型態,及其係藉位元串流剖析器擷取自該音訊內容之位元串流表示型態。據此,音訊編碼器可將有關該物件個別調整範圍之資訊有效地前傳至音訊解碼器(例如裝置100、200、300、420)。編碼器端提供該物件個別調整範圍,獲致特殊優點,由於編碼器端之物件類型已知具有良好準確度,使得編碼器最佳適用於提供容許調整範圍之可靠資訊。
後文中,將討論本發明之彈性限制辦法之進一步細節。
為了克服習知構想之限制,本發明提示使用導引失真控制方案於各個情況執行最佳化的資料。此項資料(亦即調整失真控制方案之資料,例如失真限制控制參數)可在SAOC編碼器設定,及在SAOC位元串流傳輸而可供後來用於SAOC解碼器/轉碼器的失真控制方案。此點係舉例說明於第4圖(也參考第1、2及3圖)。
傳輸之資料(第4圖的「加標記的失真限制器參數」及第1、2及3圖中標示為失真限制控制參數116)可包括有關下列之資訊:
-參數限制值:
○例如增益限制常數q,其已如前文實例解說;
○例如呈現矩陣元之限制範圍(例如最小值及最大值);
○例如相對於呈現矩陣參考(例如導致不變下混信號作為輸出信號之呈現矩陣元),呈現矩陣元之限制範圍;
○例如平滑化濾波器之時間常數,其係用來自該(欲限制的)參數之平滑化/濾波/平均版本而導算出該參數之參考位準;
-特殊限制情況:
○絲毫也無需修正(暫時讓SAOC的呈現功能不能動作);
○只允許呈現矩陣預設值(讀取自位元串流);
○無限制(暫時讓SAOC的失真限制器不能動作);
○於若干失真控制討論的來自心理聲學失真測量模型的任何失真限制控制參數。
綜上所述,用於限制一或多個增益因數或一或多個呈現矩陣元的增益限制常數q之數值範圍可擷取自該SAOC位元串流。
另外或此外,相對於呈現矩陣參考限制呈現矩陣元之範圍,或相對於呈現矩陣參考限制呈現矩陣元範圍之一或多個參數可擷取自該SAOC位元串流。
另外或此外,用以導算出欲受限制的參數之參考位準之平滑化濾波器之一時間常數可擷取自該SAOC位元串流。
於某些情況下,該位元串流可包含參數或旗標,指示須讓SAOC呈現功能不能動作。
另外或此外,該SAOC位元串流可包含一參數或一旗標指示由該SAOC位元串流所描述之一預設呈現矩陣、或由該位元串流所描述之多數預設呈現矩陣中之一者須用來呈現該上混信號表示型態,而非透過使用者介面所輸入之使用者指定之呈現矩陣。據此,若音訊解碼器/轉碼器基於位元串流參數或位元串流旗標而識別此種情況,則可藉音訊解碼器/轉碼器暫時地解除使用者自由地設定使用者指定之呈現矩陣。
另外或此外,該SAOC位元串流可包含一旗標或參數,指示該SAOC失真限制器須暫時地解除動作,使得並無失真限制。
另外或此外,該SAOC位元串流可包含基於心理聲學失真測量值模型,用以調整該失真限制之一參數。如此,該失真限制器可依據擷取自該SAOC位元串流之一參數,基於該心理聲學失真模型來調整一失真控制方案。舉例言之,失真限制器可依據擷取自該SAOC位元串流之一失真限制控制參數而調整PTC/EP 2010/055717(也係US 61/173,456)所述失真控制方案中之任一者。
已如前文說明其細節之本發明SAOC失真控制方案資料之傳訊可能可解決習知失真控制辦法的全部限制。
須注意習知失真控制辦法由於缺乏彈性而有限制,該等限制可於依據本發明之實施例克服。可使用本發明實施例克服之若干此等限制為:
-於習知失真控制的失真控制參數並非對每種情況皆為最佳。
發現選擇最佳的(自音訊品質/服務品質觀點)失真控制參數經常例如係依據:
○內容類型:語音、音樂(搖滾/古典)、電影音訊軌等。
○低階信號性質:暫時性、諧波至雜訊結構、頻譜斜坡、動態微結構(快/慢時間功率封包)等。
○SAOC性質:存在於下混之可控制的物件數目、於時/頻/下混聲道之物件分離/重疊程度等。
○系統性質:下混編解碼器類型(mp3、AAC、PCM等)及位元率(指示於該下混信號之總音訊品質及失真)、下混信號中參數編碼部分的存在(例如SBR如含括於HE-AAC,參考參考文獻[SBR1]、[SBR2],或參數立體聲,如述於參考文獻[PS])、聲道組態(單聲道、立體聲、多聲道)、音訊頻寬、取樣率等。
-因原先音訊物件通常無法於SAOC解碼器端取得,故失真控制參數不正確。
業已發現擷取該等失真控制參數可自原先(分開的)音訊物件之分析獲益,原因在於其清晰/未失真且未自該下混參數式地分解。此等原先物件通常無法於SAOC解碼器端取得。
-習知音訊編碼器不可能確保解碼器端的呈現品質。
業已發現對有些SAOC應用用途,期望自編碼器端設定最低品質位準。然後發現達成此種最低品質位準而與在解碼器端的使用者互動(呈現矩陣及回放組態的選擇)無關。雖然有些失真控制係針對設定給SAOC解碼器端的恆定品質位準,但因例如技藝完好度、服務提供業者之信譽/側寫、使用者技巧的預期(使用者互動功能位準相對於使用容易度),可能期望對不同服務(例如遠距會議、高音質音樂下載、廣播應用)有不同品質位準。
本發明之SAOC失真控制方案資料的傳訊(例如透過位元串流,自音訊編碼器至音訊解碼器)可能解決前文討論的全部限制。舉例言之,SAOC解碼器可使用不同的失真控制設定值(不同品質/功能限制設定值例如係藉失真控制參數116或失真限制器參數418描述)用於例如遠距會議應用、對話控制應用(於音訊書或廣播)、音樂重混(「music 2.0」)應用。
本發明藉由利用於位元串流之傳訊來導引失真控制程序,提供進一步增強的效能及功能。
後文中,將參照第7圖敘述SAOC失真控制之一參考實例,該例並未帶來全部本發明之優點。依據第7圖之系統700包含一SAOC編碼器710及一SAOC解碼器/轉碼器720。SAOC編碼器接收多數音訊物件信號712a至712N,及基於此而提供一下混信號714及SAOC參數718。SAOC解碼器/轉碼器720自SAOC編碼器710接收下混信號714(將為一聲道信號或多聲道信號)及SAOC參數718。SAOC解碼器/轉碼器720基於此而提供多數音訊信號聲道728a至728M。為了達成此項目的,SAOC解碼器/轉碼器720可使用失真限制器722,及考慮例如接收自一使用者介面的互動資訊或控制資訊724。
但於某些情況下,依據第7圖之系統700典型地造成聽覺失真。
後文中,將參考第5圖描述一種用以提供表示多聲道音訊信號之位元串流表示型態之裝置,該圖顯示此種裝置500之方塊示意圖。
裝置500係組配來接收多數音訊物件信號510a至510N。又,裝置500係組配來表示該多聲道音訊信號之一位元串流520。
裝置500包含一下混器530,其係組配來基於多數音訊物件信號510a至510N提供一下混信號532。裝置500也包含一側邊資訊提供器540,其係組配來提供描述由下混器530所施加的音訊物件信號510a至510N及下混參數之特性的物件相關參數側邊資訊542。側邊資訊提供器係組配來在用以提供上混信號表示型態之裝置該端,也提供用以控制失真控制方案之施用的一或多個失真限制控制參數544。裝置500也包含一位元串流格式化器550,其係組配來提供包含下混信號表示型態532之位元串流520、物件相關參數側邊資訊542及一或多個失真限制控制參數544。
據此,裝置500提供於裝置100、200、300調整失真控制方案142242、342,及於裝置420調整失真限制器422之所需資訊。
側邊資訊提供器540可經組配來依據音訊物件信號510a至510N的音訊物件性質而提供失真限制控制參數544。舉例言之,側邊資訊提供器可依據基於音訊物件信號510a至510N所得的或使用側邊資訊(例如透過使用者介面輸入)所提供的內容類型資訊而提供失真限制控制參數544。
另外或此外,側邊資訊提供器540可依據音訊物件信號510a至510N中之一者或多者的低階性質,例如有關暫態資訊、諧波至雜訊結構資訊、頻譜斜坡資訊、動態微細結構資訊等而提供失真限制控制參數。
另外或此外,側邊資訊提供器540可依據SAOC性質諸如下混信號532存在的可控制物件數目,或依據下混信號存在的參數編碼部分,或依據聲道組態,或依據音訊頻寬,或依據取樣率而提供失真限制控制參數。
側邊資訊提供器540可自原先(「分開的」)音訊物件(或音訊物件信號510a至510N)之分析獲益來提供失真限制控制參數544。側邊資訊提供器540例如可調整失真限制控制參數544來可變式地設定由位元串流520所表示的音訊信號之呈現的最低品質位準。
要言之,用以提供多聲道音訊信號之位元串流表示型態之裝置500可提供位元串流520,使得位元串流520包含一或多個失真限制控制參數544,及結果允許調整呈現品質。為了達成此項目的,音訊物件信號510a至510N之特性可列入考慮,及額外側邊資訊提供器540或來自使用者介面之使用者輸入信號也可列入考量用以設定失真限制控制參數544。
後文中,將描述表示多聲道音訊信號之一位元串流600。
位元串流600包含下混信號(例如下混信號532,其可相當於下混信號表示型態110、414)之表示型態610。位元串流600也包含物件相關參數側邊資訊620,其可為SAOC側邊資訊。該物件相關參數側邊資訊620例如可包含一物件位準差資訊622、一物件間相關性資訊624、一下混增益資訊626及一下混聲道位準差資訊628,其側邊資訊自空間音訊物件編碼(SAOC)領域為眾所周知。如前述,該位元串流600也包含一或多個失真限制控制參數630。
須注意本發明失真控制方案資料(亦即失真限制控制參數630、116、418)可於SAOC位元串流(例如於SAOC位元串流之SAOC特定組態部分,定名「SAOCSpecificConfig()」)標頭傳輸獲得最小資料率額外管理資料量。但本發明之失真控制方案也可於有效負載資料(例如於SAOC訊框資料,典型地稱作「SAOCFrame()」)用以允許時間變異傳訊(例如信號調適控制)。
典型地,但非必要地,放置失真控制方案資料的好位準可為於SAOC位元串流使用擴充機制:於若干實施例,失真控制方案資料(或至少部分失真控制方案資料)可對標頭情況及有效負載情況分別置於稱作為「SAOCExtensionConfig()」及「SAOCExtensionFrame()」的語法章節。
換言之,於若干實施例,失真控制方案資料可含括於SAOC標頭,其可含括於SAOC標頭,SAOC標頭典型地係每塊音訊一次含括於位元串流。另外或此外,失真控制方案資料可含括於SAOC位元串流之訊框資料。據此,失真控制方案資料可每個音訊框傳輸一次。SAOC標頭的旗標包含SAOC組態可指示施加二解(只在標頭的碼激發資訊,或在音訊框資料內部的失真控制方案資料)中之哪一者。
又,於若干實施例,失真控制方案資料可只含括於部分音訊框,該失真控制方案資料可使用其音訊框包含失真控制方案資料之一參數或一旗標傳訊。據此,SAOC失真控制方案資料可以不規則時間間隔在(單一SAOC組態部分相關聯之)單塊音訊內部傳輸。
雖然於裝置上下文已經說明若干構面,但顯然此等構面也表示相對應方法之描述,此處一方塊或一裝置係與一方法步驟或一方法步驟之一特徵相對應。同理,於一方法步驟上下文所描述之構面也表示相對應方塊或項目或相對應裝置之特徵的描述。部分或全部方法步驟可藉(或使用)硬體裝置,例如微處理器、可程式電腦或電子電路執行。若干實施例中,最重要方法步驟中之某一者或多者可藉此種裝置執行。
本發明之編碼音訊信號可儲存於數位儲存媒體或可透過傳輸媒體諸如無線傳輸媒體或有線傳輸媒體諸如網際網路傳輸。
依據某些實施要求,本發明之實施例可於硬體或於軟體實施。實施之執行可使用有可電子式讀取的控制信號儲存其上的數位儲存媒體例如軟碟、DVD、藍光碟、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,該等媒體與可程式規劃電腦系統協力合作(或可協力合作)因而執行個別方法。因此,數位儲存媒體可為電腦可讀取式。
依據本發明之若干實施例包含具有可電子式讀取的控制信號於其上的資料載體,其與可程式規劃電腦系統可協力合作因而執行此處所述方法中之一者。
一般而言,本發明之實施例可實施為帶有程式碼的電腦程式產品,該程式碼可操作當該電腦程式產品於電腦上跑時用於執行該等方法中之一者。程式碼例如可儲存於機器可讀取載體上。
其它實施例包含用以執行此處所述方法中之一者之儲存在機器可讀取載體上的電腦程式。
換言之,因而本發明方法之實施例為一種具有程式碼之電腦程式,當該電腦程式產品於電腦上跑時用以執行此處所述方法中之一者。
因而本發明方法之又一實施例為一種資料載體(或數位儲存媒體,或電腦可讀取媒體)包含用以執行該等方法中之一者的電腦程式記錄於其上。該資料載體或數位儲存媒體或記錄媒體典型地為有實體及/或非暫態。
因此,本發明方法之又一實施例為一種資料串流或一序列信號表示用以執行此處所述方法中之一者之電腦程式。該資料串流或該序列信號例如可組配來透過資料通訊連結,例如透過網際網路傳輸。
又一實施例包含一種處理裝置,例如電腦或可程式邏輯裝置其係組配來或調整適應用於執行此處所述方法中之一者。
又一實施例包含一種電腦,其上安裝用以執行此處所述方法中之一者之電腦程式。
依據本發明之又一實施例包括一種裝置或一種系統,其係組配來傳輸(例如電子式或光學式)用以執行此處所述方法中之一者之電腦程式至接收器。接收器例如為電腦、行動元件、記憶體元件等。該裝置或系統例如可包含一種用以將該電腦程式傳輸至接收器之檔案伺服器。
於若干實施例,可程式邏輯裝置(例如場可程式閘極陣列)可用來執行此處所述方法之部分或全部函數。於若干實施例,場可程式閘極陣列可與微處理器協力合作來執行此處所述方法中之一者。大致上,該等方法較佳係藉硬體裝置執行。
前述實施例僅供舉例說明本發明之原理。須瞭解熟諳技藝人士顯然易知此處所述配置及細節之修正及變化。因此意圖本發明只受隨附之申請專利範圍之範圍所限,而非受藉由此處實施例之描述及解說所呈現的特定細節所限。
綜上所述,依據本發明之實施例提供一種於MPEG空間音訊物件編碼SAOC的失真控制傳訊。
依據本發明之實施例提供藉由利用於位元串流傳訊來導引失真處理程序而進一步增強效能及功能。
依據本發明之較佳實施例包含如前文討論之用以編碼或解碼一音訊信號之方法、裝置、或電腦程式。依據本發明之其它實施例包含如前文討論所產生之或藉如前文討論之解碼器或解碼方法所使用之一編碼信號。
[BCC] C. Faller and F. Baumgarte,"Binaural Cue Coding-Part II: Schemes and applications",IEEE Trans. on Speech and Audio Proc.,vol. 11,no. 6,Nov. 2003.
[JSC] C. Faller,"Parametric Joint-Coding of Audio Sources",120th AES Convention,Paris,2006,Preprint 6752.
[SAOC1] J. Herre,S. Disch,J. Hilpert,O. Hellmuth: "From SAC To SAOC-Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.
[SAOC2] J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hölzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377.
[SAOC] ISO/IEC, “MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)”, ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2
[SBR1] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2.
[SBR2] M. Dietz, L. Liljeryd, K. Kjoerling, and O. Kunz, “Spectral band replication, a novel approach in audio coding”, in AES 112th
Convention, Munich, Germany, May 2002, Preprint 5553.
[PS] “Low Complexity Parametric Stereo Coding in MPEG-4”, Heiko Purnhagen, Proc. Digital Audio Effects Workshop (DAFx), pp. 163-168, Naples, IT, Oct. 2004.
100,200,300‧‧‧用以提供上混信號表示型態之裝置、裝置
110‧‧‧下混信號表示型態
112...物件相關參數資訊
114...呈現資訊、呈現參數
116...失真限制控制參數
120...上混信號表示型態
130...信號處理器
132...經調整之上混參數、經調整之呈現參數
140,240,340...失真限制器
142,242,342...失真控制方案
242a...失真計算器/估算器
242b...呈現資訊修正器
342a...呈現資訊限制器
342b...參考值計算器
400,700...SAOC失真控制系統、系統
410,710...SAOC編碼器
412a-412N,510a-510N,712a-712N...音訊物件信號
414,714...下混信號、下混信號表示型態
416...物件相關參數資訊、SAOC參數
418...失真限制器參數
420,720...SAOC解碼器/轉碼器
422,722...失真限制器
424...互動/控制資訊
428a-428M...上混信號表示型態、音訊聲道信號
500...裝置
520,600...位元串流
530...下混器
532...下混信號
540...側邊資訊提供器
542,620...物件相關參數側邊資訊
544,630...失真限制控制參數
550...位元串流格式化器
610...表示型態
622...物件位準差資訊
624...物件間相關性資訊
626...下混增益資訊
628...下混聲道位準差資訊
718...SAOC參數
724...互動資訊或控制資訊
728a-728M...音訊信號聲道
800,900,930,960...MPEG SAOC系統
810...SAOC編碼器
812...下混信號、下混聲道
814...側邊資訊
820,920,950...SAOC解碼器
820a...物件分離器
820b,924...已重建之物件信號
820c...混合器
822...使用者互動資訊/使用者控制資訊
922...物件解碼器
926‧‧‧混合器/呈現器
928,958‧‧‧上混聲道信號
980‧‧‧SAOC至MPEG環繞轉碼器
982‧‧‧側邊資訊轉碼器
984‧‧‧MPEG環繞位元串流
986‧‧‧下混信號操控器
988‧‧‧下混信號表示型態
第1圖顯示依據本發明之一實施例一種用以提供上混信號表示型態之裝置之方塊示意圖;第2圖顯示依據本發明之另一實施例一種用以提供上混信號表示型態之裝置之方塊示意圖;第3圖顯示依據本發明之另一實施例一種用以提供上混信號表示型態之裝置之方塊示意圖;第4圖顯示一種使用本發明之位元串流發訊之SAOC失真控制之方塊示意圖;第5圖顯示依據本發明之一實施例一種用以提供表示多聲道音訊信號之位元串流之裝置之方塊示意圖;第6圖顯示依據本發明之一實施例一種表示多聲道音訊信號之位元串流之方塊示意圖;第7圖顯示SAOC失真控制實例之方塊示意圖;第8圖顯示參考MPEG SAOC系統之方塊示意圖;第9a圖顯示使用分開的解碼器及混合器之一參考SAOC系統之方塊示意圖;第9b圖顯示使用整合型解碼器及混合器之一參考SAOC系統之方塊示意圖;及第9c圖顯示使用SAOC至MPEG轉碼器之一參考SAOC系統之方塊示意圖。
100‧‧‧裝置
110‧‧‧下混信號表示型態
112‧‧‧物件相關參數資訊
114‧‧‧呈現資訊
116‧‧‧失真限制控制參數
120‧‧‧上混信號表示型態
130‧‧‧信號處理器
132‧‧‧經調整之上混參數
140‧‧‧失真限制器
142‧‧‧失真控制方案
Claims (20)
- 一種用以基於被包括於一音訊內容之位元串流表示型態中之一下混信號表示型態及一物件相關參數資訊及依據一呈現(rendering)資訊而提供一上混信號表示型態之裝置,該裝置包含:一失真限制器,其係組配以使用一失真控制方案來調整上混參數,而避免或限制因呈現參數之不當選擇所造成的聽覺失真,其中該失真限制器係組配來獲得含括於該音訊內容之該位元串流表示型態的一失真限制控制參數,且係組配來依據該失真限制控制參數而調整該失真控制方案,其中該失真限制器係組配來評估於該音訊內容之該位元串流表示型態之一組態部分內部的動態更新旗標,及其中該失真限制器係組配來若該動態更新旗標為失效時,則評估該音訊內容之該位元串流表示型態之該組態部分,而獲得該失真限制控制參數;及若該動態更新旗標為有效,則評估該音訊內容之該位元串流表示型態之一訊框部分,而重複地獲得該失真限制控制參數之更新。
- 如申請專利範圍第1項之裝置,其中該用以提供上混信號表示型態之裝置係組配來自一輸入介面接收期望的呈現矩陣資訊; 其中該失真限制器係組配來依據該期望的呈現矩陣資訊及一或多個失真限制控制參數,以獲得一修正呈現矩陣資訊;及其中該用以提供該上混信號表示型態之裝置係組配來依據該修正呈現矩陣資訊而提供該上混信號表示型態。
- 如申請專利範圍第2項之裝置,其中該失真限制器係組配來獲得一或多個呈現矩陣極限值,該等值係含括於該音訊內容之位元串流表示型態,及該等值係描述呈現矩陣元之最小值及最大值,且係組配來當依據該期望的呈現矩陣資訊而獲得該修正呈現矩陣資訊時,依據一或多個呈現矩陣極限值而限制該修正呈現矩陣資訊之一或多個分錄。
- 如申請專利範圍第2項之裝置,其中該失真限制器係組配來依據該期望的呈現矩陣資訊、一參考呈現矩陣資訊、及該一或多個失真限制控制參數而獲得該修正呈現矩陣資訊。
- 如申請專利範圍第4項之裝置,其中該失真限制器係組配來依據該一或多個呈現矩陣極限值,相對於該參考呈現矩陣資訊而限制該修正呈現矩陣之一或多個分錄。
- 如申請專利範圍第2項之裝置,其中該失真限制器係組配來施加物件個別失真限制控制參數,而依據該期望的呈現矩陣資訊來獲得該修正呈現矩陣資訊。
- 如申請專利範圍第1項之裝置,其中該用以提供上混信 號表示型態之裝置係組配來將一或多個修正增益因數施加至該下混信號表示型態之音訊樣本,或施加至由該下混信號所描述之音訊物件相關聯之一物件相關側邊資訊,來依據該增益因數而提供該上混信號表示型態,及其中該失真限制器係組配來依據一或多個期望的增益因數及該一或多個失真限制控制參數而獲得該一或多個修正增益因數。
- 如申請專利範圍第1項之裝置,其中該失真限制器係組配來使用具有一時間常數之一平滑濾波器而對一欲限制的增益因數來導算出一參考位準,其中該失真限制器係組配來使用該參考位準用於限制給定的因數,及其中該失真限制器係組配來獲得含括於該音訊內容之該位元串流表示型態之一時間常數參數,且係組配來依據該時間常數參數而調整該平滑濾波器之時間常數。
- 如申請專利範圍第1項之裝置,其中該失真限制器係組配來獲得含括於該音訊內容之位元串流表示型態之一失真控制激發參數,且係組配來依據該失真控制激發參數而使得該失真控制方案生效或失效。
- 如申請專利範圍第1項之裝置,其中該失真限制器係組配來獲得含括於該音訊內容之該位元串流表示型態之一預設呈現矩陣激發參數,及 其中該失真限制器係組配來回應於該預設呈現矩陣激發參數的啟動狀態,而執行使用含括於該音訊內容之該位元串流表示型態之一預設呈現矩陣資訊,而非使用一使用者指定的呈現矩陣資訊,來基於該下混信號表示型態而提供該上混信號表示型態。
- 如申請專利範圍第1項之裝置,其中該失真限制器係組配來獲得一含括於該音訊內容之該位元串流表示型態之心理聲學失真限制參數,其中該失真限制器係組配來依據一心理聲學失真模型而調整一或多個上混參數,使得由該上混信號表示型態與該下混信號表示型態之偏差所造成的失真測量值係受到限制,及其中該失真限制器係組配來依據該心理聲學失真限制參數,而設定用以依據該心理聲學失真模型調整該等一或多個上混參數之一或多個參數,或設定該心理聲學失真模型之一或多個參數。
- 如申請專利範圍第1項中之裝置,其中該失真限制器係組配來對每個音訊框獲得一個已更新失真限制控制參數,來獲得一時間變異失真控制方案。
- 如申請專利範圍第1項之裝置,其中該失真限制器係組配來依據一旗標指示在該音訊內容之該位元串流表示型態之一訊框部分是否存在有一失真限制控制參數,而選擇性地更新該失真限制控制參數,使得該失真限制控制參數之更新區間係由該音訊內容之該位元串流表示 型態動態地判定。
- 一種用以提供表示多聲道音訊信號之一位元串流之裝置,該裝置包含:一下混器,其係組配來基於多個音訊物件信號而提供一下混信號;一側邊資訊提供器,其係組配來提供描述該等音訊物件信號及下混參數的特性之一物件相關參數側邊資訊,及提供在用以提供一上混信號表示型態之裝置端來控制一失真控制方案的施加之一或多個失真限制控制參數;及一位元串流格式化器,其係組配來提供一位元串流,該位元串流包含該下混信號、該物件相關參數側邊資訊及該一或多個失真限制控制參數之一表示型態;其中該裝置係組配來提供該位元串流,使得該位元串流之一組態部分包含一動態更新旗標,及若該動態更新旗標為失效時,使得該位元串流之該組態部分包含該失真限制控制參數;及若該動態更新旗標為有效,使得該位元串流之一訊框部分包含重複地更新之該失真限制控制參數。
- 一種用以基於含括於一音訊內容之位元串流表示型態中之一下混信號表示型態及一物件相關參數資訊及依據一呈現資訊而提供一上混信號表示型態之方法,該方法包含:使用一失真控制方案來調整上混參數,而避免或限 制因呈現參數之不當選擇所造成的聽覺失真,其中獲得含括於該音訊內容之該位元串流表示型態的一失真限制控制參數,及其中該失真控制方案係依據該失真限制控制參數而調整;其中評估於該音訊內容之該位元串流表示型態之一組態部分內部的一動態更新旗標,及其中若該動態更新旗標為失效時,則評估該音訊內容之該位元串流表示型態之該組態部分,而獲得該失真限制控制參數;及其中若該動態更新旗標為有效,則評估該音訊內容之該位元串流表示型態之一訊框部分,而重複地獲得該失真限制控制參數之更新。
- 一種用以提供表示多聲道音訊信號之一位元串流之方法,該方法包含:基於多個音訊物件信號來導算出一下混信號;提供描述該等音訊物件信號及下混參數的特性之一物件相關參數側邊資訊;提供一或多個失真限制控制參數,其係用以控制施加於一裝置側之一失真控制方案以提供一上混信號表示型態;及提供一位元串流,該位元串流包含該下混信號、該物件相關參數側邊資訊、及該一或多個失真限制控制參數之一表示型態;其中提供該位元串流,使得該位元串流之一組態部分包含一動態更新旗標,及 若該動態更新旗標為失效時,使得該位元串流之該組態部分包含該失真限制控制參數;及若該動態更新旗標為有效時,使得該位元串流之一訊框部分包含重複地更新之該失真限制控制參數。
- 一種電腦程式,其係用於當該電腦程式於電腦上跑時來執行如申請專利範圍第15或16項之方法。
- 一種攜載表示多聲道音訊信號之位元串流之機器可存取媒體,該位元串流包含:一下混信號表示型態,其組合多個音訊物件之音訊信號;一物件相關參數側邊資訊,其描述該等音訊物件之特性;及一或多個失真限制控制參數,其用以控制施加於一裝置側之一失真控制方案以提供一上混信號表示型態;其中該位元串流之一組態部分包含一動態更新旗標,及其中若該動態更新旗標為失效時,該位元串流之該組態部分包含該失真限制控制參數;及其中若該動態更新旗標為有效,該位元串流之訊框部分包含重複地更新之該失真限制控制參數。
- 一種用以基於被包括於一音訊內容之位元串流表示型態中之一下混信號表示型態及一物件相關參數資訊及依據一呈現(rendering)資訊而提供一上混信號表示型態之裝置,該裝置包含: 一失真限制器,其係組配以使用一失真控制方案來調整上混參數,而避免或限制因呈現參數之不當選擇所造成的聽覺失真,其中該失真限制器係組配來獲得含括於該音訊內容之該位元串流表示型態的一失真限制控制參數,且係組配來依據該失真限制控制參數而調整該失真控制方案,其中該失真限制器係組配來選擇性地更新該失真限制控制參數,使得由該音訊內容之該位元串流表示型態動態地決定用於該失真限制控制參數之更新期間。
- 一種用以基於含括於一音訊內容之位元串流表示型態中之一下混信號表示型態及一物件相關參數資訊及依據一呈現資訊而提供一上混信號表示型態之方法,該方法包含:使用一失真控制方案來調整上混參數,而避免或限制因呈現參數之不當選擇所造成的聽覺失真,其中獲得含括於該音訊內容之該位元串流表示型態的一失真限制控制參數,及其中該失真控制方案係依據該失真限制控制參數而調整;其中選擇性地更新該失真限制控制參數,使得由該音訊內容之該位元串流表示型態動態地決定用於該失真限制控制參數之更新期間。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US25323709P | 2009-10-20 | 2009-10-20 | |
EP10171418 | 2010-07-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201131552A TW201131552A (en) | 2011-09-16 |
TWI431611B true TWI431611B (zh) | 2014-03-21 |
Family
ID=43416602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW099135552A TWI431611B (zh) | 2009-10-20 | 2010-10-19 | 用以基於下混信號表示型態提供上混信號表示型態之裝置、用以提供表示多聲道音訊信號的位元串流之裝置、使用失真控制發訊之方法、電腦程式與位元串流 |
Country Status (16)
Country | Link |
---|---|
US (1) | US9060236B2 (zh) |
EP (1) | EP2491551B1 (zh) |
JP (1) | JP5719372B2 (zh) |
KR (1) | KR101418661B1 (zh) |
CN (1) | CN102640213B (zh) |
AR (1) | AR078701A1 (zh) |
AU (1) | AU2010309867B2 (zh) |
CA (1) | CA2778239C (zh) |
ES (1) | ES2529219T3 (zh) |
HK (1) | HK1175580A1 (zh) |
MX (1) | MX2012004621A (zh) |
MY (1) | MY153337A (zh) |
PL (1) | PL2491551T3 (zh) |
RU (1) | RU2577199C2 (zh) |
TW (1) | TWI431611B (zh) |
WO (1) | WO2011048067A1 (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7983922B2 (en) * | 2005-04-15 | 2011-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
KR101438387B1 (ko) * | 2006-07-12 | 2014-09-05 | 삼성전자주식회사 | 서라운드 확장 데이터 부호화 및 복호화 방법 및 장치 |
MX2011011399A (es) | 2008-10-17 | 2012-06-27 | Univ Friedrich Alexander Er | Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto. |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
CN102696070B (zh) | 2010-01-06 | 2015-05-20 | Lg电子株式会社 | 处理音频信号的设备及其方法 |
US10158958B2 (en) | 2010-03-23 | 2018-12-18 | Dolby Laboratories Licensing Corporation | Techniques for localized perceptual audio |
CN108989721B (zh) | 2010-03-23 | 2021-04-16 | 杜比实验室特许公司 | 用于局域化感知音频的技术 |
KR20120071072A (ko) * | 2010-12-22 | 2012-07-02 | 한국전자통신연구원 | 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법 |
JP5740531B2 (ja) | 2011-07-01 | 2015-06-24 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オブジェクトベースオーディオのアップミキシング |
US9479887B2 (en) | 2012-09-19 | 2016-10-25 | Nokia Technologies Oy | Method and apparatus for pruning audio based on multi-sensor analysis |
EP2717262A1 (en) | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding |
EP2717261A1 (en) * | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding |
JP6248186B2 (ja) * | 2013-05-24 | 2017-12-13 | ドルビー・インターナショナル・アーベー | オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ |
RU2630754C2 (ru) | 2013-05-24 | 2017-09-12 | Долби Интернешнл Аб | Эффективное кодирование звуковых сцен, содержащих звуковые объекты |
EP3005353B1 (en) | 2013-05-24 | 2017-08-16 | Dolby International AB | Efficient coding of audio scenes comprising audio objects |
CA3211308A1 (en) | 2013-05-24 | 2014-11-27 | Dolby International Ab | Coding of audio scenes |
EP2973551B1 (en) | 2013-05-24 | 2017-05-03 | Dolby International AB | Reconstruction of audio scenes from a downmix |
CN104240711B (zh) * | 2013-06-18 | 2019-10-11 | 杜比实验室特许公司 | 用于生成自适应音频内容的方法、系统和装置 |
EP3014901B1 (en) | 2013-06-28 | 2017-08-23 | Dolby Laboratories Licensing Corporation | Improved rendering of audio objects using discontinuous rendering-matrix updates |
EP2830050A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhanced spatial audio object coding |
EP2830045A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
EP2830049A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for efficient object metadata coding |
KR20230011480A (ko) * | 2013-10-21 | 2023-01-20 | 돌비 인터네셔널 에이비 | 오디오 신호들의 파라메트릭 재구성 |
KR101805327B1 (ko) * | 2013-10-21 | 2017-12-05 | 돌비 인터네셔널 에이비 | 오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조 |
JP6374980B2 (ja) * | 2014-03-26 | 2018-08-15 | パナソニック株式会社 | サラウンドオーディオ信号処理のための装置及び方法 |
WO2015150384A1 (en) | 2014-04-01 | 2015-10-08 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
WO2015180866A1 (en) * | 2014-05-28 | 2015-12-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Data processor and transport of user control data to audio decoders and renderers |
CN105989845B (zh) | 2015-02-25 | 2020-12-08 | 杜比实验室特许公司 | 视频内容协助的音频对象提取 |
US11087024B2 (en) * | 2016-01-29 | 2021-08-10 | Samsung Electronics Co., Ltd. | System and method to enable privacy-preserving real time services against inference attacks |
CN107731238B (zh) * | 2016-08-10 | 2021-07-16 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
US10304468B2 (en) * | 2017-03-20 | 2019-05-28 | Qualcomm Incorporated | Target sample generation |
EP4385010A1 (en) * | 2021-08-10 | 2024-06-19 | VoiceAge Corporation | Method and device for limiting of output synthesis distortion in a sound codec |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2002307884A1 (en) | 2002-04-22 | 2003-11-03 | Nokia Corporation | Method and device for obtaining parameters for parametric speech coding of frames |
US7720230B2 (en) * | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
US7961890B2 (en) * | 2005-04-15 | 2011-06-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. | Multi-channel hierarchical audio coding with compact side information |
US7983922B2 (en) * | 2005-04-15 | 2011-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
CN101138274B (zh) * | 2005-04-15 | 2011-07-06 | 杜比国际公司 | 用于处理去相干信号或组合信号的设备和方法 |
TWI329462B (en) | 2006-01-19 | 2010-08-21 | Lg Electronics Inc | Method and apparatus for processing a media signal |
JP5450085B2 (ja) * | 2006-12-07 | 2014-03-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ処理方法及び装置 |
CN101627425A (zh) * | 2007-02-13 | 2010-01-13 | Lg电子株式会社 | 用于处理音频信号的装置和方法 |
US8892432B2 (en) | 2007-10-19 | 2014-11-18 | Nec Corporation | Signal processing system, apparatus and method used on the system, and program thereof |
EP2169665B1 (en) * | 2008-09-25 | 2018-05-02 | LG Electronics Inc. | A method and an apparatus for processing a signal |
-
2010
- 2010-10-19 PL PL10765803T patent/PL2491551T3/pl unknown
- 2010-10-19 AU AU2010309867A patent/AU2010309867B2/en active Active
- 2010-10-19 EP EP10765803.1A patent/EP2491551B1/en active Active
- 2010-10-19 TW TW099135552A patent/TWI431611B/zh active
- 2010-10-19 JP JP2012534658A patent/JP5719372B2/ja active Active
- 2010-10-19 ES ES10765803.1T patent/ES2529219T3/es active Active
- 2010-10-19 MX MX2012004621A patent/MX2012004621A/es active IP Right Grant
- 2010-10-19 WO PCT/EP2010/065671 patent/WO2011048067A1/en active Application Filing
- 2010-10-19 KR KR1020127012989A patent/KR101418661B1/ko active IP Right Grant
- 2010-10-19 CA CA2778239A patent/CA2778239C/en active Active
- 2010-10-19 RU RU2012118789/08A patent/RU2577199C2/ru active
- 2010-10-19 CN CN201080047331.0A patent/CN102640213B/zh active Active
- 2010-10-19 MY MYPI2012001733A patent/MY153337A/en unknown
- 2010-10-20 AR ARP100103828A patent/AR078701A1/es active IP Right Grant
-
2012
- 2012-04-18 US US13/450,027 patent/US9060236B2/en active Active
-
2013
- 2013-02-22 HK HK13102304.2A patent/HK1175580A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
HK1175580A1 (zh) | 2013-07-05 |
TW201131552A (en) | 2011-09-16 |
RU2012118789A (ru) | 2013-11-10 |
WO2011048067A1 (en) | 2011-04-28 |
US20120243690A1 (en) | 2012-09-27 |
KR20120082462A (ko) | 2012-07-23 |
AR078701A1 (es) | 2011-11-30 |
JP2013511053A (ja) | 2013-03-28 |
AU2010309867A1 (en) | 2012-05-31 |
CN102640213B (zh) | 2014-07-09 |
CA2778239C (en) | 2015-12-15 |
MY153337A (en) | 2015-01-29 |
MX2012004621A (es) | 2012-05-08 |
RU2577199C2 (ru) | 2016-03-10 |
US9060236B2 (en) | 2015-06-16 |
AU2010309867B2 (en) | 2014-05-08 |
KR101418661B1 (ko) | 2014-07-14 |
EP2491551A1 (en) | 2012-08-29 |
JP5719372B2 (ja) | 2015-05-20 |
ES2529219T3 (es) | 2015-02-18 |
CA2778239A1 (en) | 2011-04-28 |
EP2491551B1 (en) | 2015-01-07 |
PL2491551T3 (pl) | 2015-06-30 |
CN102640213A (zh) | 2012-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI431611B (zh) | 用以基於下混信號表示型態提供上混信號表示型態之裝置、用以提供表示多聲道音訊信號的位元串流之裝置、使用失真控制發訊之方法、電腦程式與位元串流 | |
JP5645951B2 (ja) | ダウンミックス信号表現に基づくアップミックス信号を提供する装置、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置、方法、コンピュータプログラム、および線形結合パラメータを使用してマルチチャネルオーディオ信号を表しているビットストリーム | |
CA2938537C (en) | Apparatus, method and computer program for providing one or more adjusted parameters for provision of an upmix signal representation on the basis of a downmix signal representation and a parametric side information associated with the downmix signal representation, using an average value | |
JP5554830B2 (ja) | ダウンミックス信号表現に基づいたアップミックス信号表現の供給のための一つ以上の調整されたパラメータを供給するための装置、オブジェクト関連のパラメトリック情報を用いたオーディオ信号デコーダ、オーディオ信号トランスコーダ、オーディオ信号エンコーダ、オーディオビットストリーム、方法およびコンピュータ・プログラム | |
KR20120063535A (ko) | 오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 다운믹스 신호 표현을 제공하는 방법, 공통 객체 간의 상관 파라미터 값을 이용한 컴퓨터 프로그램 및 비트스트림 |