TWI545559B - 解碼器、編碼器、音訊信號系統、產生未經混合音訊信號之方法、編碼輸入音訊物件信號之方法、以及相關電腦可讀取媒體及電腦程式 - Google Patents
解碼器、編碼器、音訊信號系統、產生未經混合音訊信號之方法、編碼輸入音訊物件信號之方法、以及相關電腦可讀取媒體及電腦程式 Download PDFInfo
- Publication number
- TWI545559B TWI545559B TW102136011A TW102136011A TWI545559B TW I545559 B TWI545559 B TW I545559B TW 102136011 A TW102136011 A TW 102136011A TW 102136011 A TW102136011 A TW 102136011A TW I545559 B TWI545559 B TW I545559B
- Authority
- TW
- Taiwan
- Prior art keywords
- parameter
- information
- signal
- unmixed
- side information
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims description 63
- 238000000034 method Methods 0.000 title claims description 52
- 238000004590 computer program Methods 0.000 title claims description 14
- 239000011159 matrix material Substances 0.000 claims description 53
- 238000012937 correction Methods 0.000 claims description 37
- 230000001052 transient effect Effects 0.000 claims description 25
- 238000002156 mixing Methods 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000011084 recovery Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 9
- 230000001131 transforming effect Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 description 38
- 230000003595 spectral effect Effects 0.000 description 33
- 238000004458 analytical method Methods 0.000 description 22
- 239000000203 mixture Substances 0.000 description 18
- 230000006870 function Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 9
- 230000002441 reversible effect Effects 0.000 description 9
- 238000000926 separation method Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000005259 measurement Methods 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 101100180304 Arabidopsis thaliana ISS1 gene Proteins 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 101100519257 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PDR17 gene Proteins 0.000 description 2
- 101100042407 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SFB2 gene Proteins 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000011088 calibration curve Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 125000001475 halogen functional group Chemical group 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- -1 ISS2 Proteins 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 101100356268 Schizosaccharomyces pombe (strain 972 / ATCC 24843) red1 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000009377 nuclear transmutation Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Description
本發明係關於音訊信號編碼、音訊信號解碼及音訊信號處理,且詳言之,係關於用於反向相容多重解析度空間音訊物件編碼(SAOC)之編碼器、解碼器及方法。
在現代數位音訊系統中,主要傾向係允許在接收器側上對所傳輸內容之音訊物件相關修改。此等修改包括音訊信號之所選擇部分的增益修改及/或在經由空間分佈之揚聲器之多通道播放狀況下專用音訊物件的空間重定位。此情形可藉由將音訊內容之不同部分個別地遞送至不同揚聲器來達成。
換言之,在音訊處理、音訊傳輸及音訊儲存之技術中,存在增加之需要以允許關於物件導向式音訊內容播放的使用者互動且亦存在需求以利用多通道播放之擴展可
能性以個別地呈現音訊內容或其部分以便改良聽取印象。藉由此情形,多通道音訊內容之使用帶來對使用者之顯著改良。舉例而言,可獲得三維聽取印象,其帶來娛樂應用中改良之使用者滿意度。然而,多通道音訊內容亦在專業環境中(例如,在電話會議應用)中係有用的,此係因為發話人可懂度可藉由使用多通道音訊播放來改良。另一可能應用係將音樂片段給予給收聽者以個別地調整不同部分(亦稱為「音訊物件」)或曲目(諸如,人聲部分或不同樂器)的播放層級及/或空間位置。使用者出於個人口味、為了易於轉譯來自音樂片段之一或多個部分、教育用途、伴唱機、排演等原因而可執行此調整。
(例如)呈脈碼調變(PCM)資料或甚至經壓縮音訊格式之形式的所有數位多通道或多物件音訊內容的直接離散傳輸需要極高位元率。然而,亦需要以位元率有效方式來傳輸並儲存音訊資料。因此,希望接受音訊品質與位元率要求之間的合理取捨以便避免由多通道/多物件應用引起的額外資源負載。
最近,在音訊編碼之領域中,多通道/多物件音訊信號之位元率有效傳輸/儲存的參數技術已藉由(例如)動畫專家組(MPEG)及其他者引入。一個實例係作為通道導向式方法[MPS,BCC]的MPEG環繞立體聲(MPS),或作為物件導向式方法[JSC,SAOC,SAOC1,SAOC2]的MPEG空間音訊物件編碼(SAOC)。另一物件導向式方法稱為「消息源分離」[ISS1,ISS2,ISS3,ISS4,ISS5,ISS6]。此等技術旨在
在通道/物件及描述所傳輸/所儲存音訊場景及/或音訊場景中音訊源物件的額外旁側資訊之下降混合基礎上重建所要輸出音訊場景或所要音訊源物件。
此等系統中通道/物件相關旁側資訊的估計及應用以時間頻率選擇性方式來進行。因此,此等系統使用時間頻率變換,諸如離散傅立葉變換(DFT)、短時間傅立葉變換(STFT)或類似於正交鏡相濾波器(QMF)組的濾波器組等。此等系統之基本原理使用MPEG SAOC的實例描繪於圖4中。
在STFT之狀況下,時間維度藉由時間區塊數字來表示,且頻譜維度藉由頻譜係數(「區間」)編號來捕獲。在QMF之狀況下,時間維度藉由時槽編號來表示,且頻譜維度藉由子頻帶編號來捕獲。若QMF之頻譜解析度藉由第二濾波器級之後續應用來改良,則整個濾波器組被稱為混合式QMF且精細解析度子頻帶被稱為混合式子頻帶。
如上文已提及,在SAOC中,通用處理以時間頻率選擇性方式進行,且可在每一頻帶內描述如下:
- N個輸入音訊物件信號s 1 ...s N 使用由元素d 1,1 ...d N,P 組成之下降混合矩陣下降混合至P個通道x 1 ...x P 作為編碼器處理的部分。此外,編碼器提取旁側資訊,旁側資訊描述輸入音訊物件之特性(旁側資訊估計器(SIE)模組)。對於MPEG SAOC,物件功率關於彼此之關係係此旁側資訊之最基本形式。
- 傳輸/儲存下降混合信號及旁側資訊。為此目的,下
降混合音訊信號可(例如)使用諸如MPEG-1/2層II或III(又名mp3)、MPEG-2/4進階音訊編碼(AAC)等熟知感知音訊編碼器經壓縮。
- 在接收端,解碼器概念上試圖使用所傳輸之旁側資訊自(經解碼)下降混合信號來復原原始物件信號(「物件分離」)。此等經近似物件信號...接著使用由圖4中之係數r 1,1 ...r N,M 描述的呈現矩陣經混合成藉由M個音訊輸出通道...表示的目標場景。所要目標場景在極端狀況下可係來自混合物之僅一個源信號的呈現(源分離情境),但亦係由所傳輸之物件組成的其他任意聲學場景。舉例而言,輸出可係單通道、2通道立體或5.1多通道目標場景。
基於時間頻率之系統可利用具有靜態時間及頻率解析度的時間頻率(t/f)變換。選定某固定之t/f解析度柵格通常涉及時間解析度與頻率解析度之間的取捨。
可關於音訊信號混合物中之典型物件信號的實例來論證固定之t/f解析度之效應。舉例而言,音調聲音之頻譜展現具有基本頻率及若干泛音之諧波相關的結構。此等信號之能量集中於某頻率區處。對於此等信號,所利用t/f表示之高頻率解析度對於分離窄頻音調頻譜區與信號混合物係有益的。相反,類似於鼓聲之瞬變信號常常具有獨特時間結構:實質能量僅存在歷時短時間週期,且分佈於廣泛範圍之頻率上。對於此等信號,所利用之t/f表示之高時間解析度對於分離瞬變信號部分與信號混合物係有利的。
自標準SAOC表示獲得之頻率解析度限於參數頻帶之數目,從而在標準SAOC中具有最大值28。參數頻帶獲得自由64頻帶QMF分析組成的混合式QMF組,其中最低頻帶上之額外混合式濾波級將此等頻帶進一步劃分成至多4個複合子頻帶。所獲得之頻帶經分組成參數頻帶,從而模擬人類聽覺系統的關鍵頻帶解析度。分組允許將所需要之旁側資訊資料速率減小至在實際應用中可經有效地進行處置的大小。
當前音訊物件編碼方案給予SAOC處理之僅時間頻率選擇性的有限可變性。舉例而言,MPEG SAOC[SAOC][SAOC1][SAOC2]限於可藉由使用所謂混合式鏡面濾波器組(混合式QMF)及其後續至參數頻帶之分組獲得的時間頻率解析度。因此,標準SAOC中之物件復原常常遭受混合式QMF之粗糙頻率解析度,從而導致來自其他音訊物件之可聽經調變串擾(例如,語音之雙重講話人為效應或音樂中之聽覺粗糙人為效應)。
給定合理地低之資料速率,現有系統產生合理之分離品質。主要問題係音調聲音之完全分離的不足頻率解析度。此情形經展現為其他物件的包圍一物件之音調分量的「光暈」。此情形感知地觀測為粗糙度或類似於聲碼器的人為效應。此光暈之有害效應可藉由增加參數頻率解析度來減小。注意到,等於或高於512個頻帶(以44.1kHz取樣速率)之解析度足夠產生測試信號中感知上顯著改良的分離。此高參數解析度情況下之問題係需要之旁側資訊的量
大幅度地增加至不切實際的量。此外,與現有標準SAOC系統之相容性將失去。
因此高度重視的是,是否可提供教示如何克服目前技術之上述約束的概念。
本發明之目標係提供用於音訊物件編碼之此等改良之概念。本發明之目標藉由以下各者來解決:如技術方案1之解碼器、如技術方案9之編碼器、如技術方案14之經編碼音訊信號、如技術方案15之系統、如技術方法16之用於解碼之方法、如技術方案17之用於編碼之方法,及如技術方案18之電腦程式。
與目前技術SAOC相反,本發明之實施例提供一種頻譜參數化,使得- 發源於標準SAOC編碼器之SAOC參數位元串流仍可以與藉由標準解碼器獲得之感知品質相當之感知品質藉由增強型解碼器來解碼,- 增強型SAOC參數位元串流可以與藉由標準SAOC位元串流可獲得之品質相當之品質藉由標準SAOC解碼器解碼,- 增強型SAOC參數位元串流可藉由增強型解碼器以最佳品質解碼,- 增強型SAOC解碼器(例如)視可用之計算資源可動態地調整增強層級,
- 標準及增強型SAOC參數位元串流(例如)在多點控制單元(MCU)情境下可混合成一個共同位元串流,該共同位元串流可以藉由解碼器提供之品質藉由標準解碼器或增強型解碼器解碼,且- 額外參數化為緊湊的。
對於上文提及之性質,較佳的是具有參數化,該參數化藉由標準SAOC解碼器理解,而且亦允許以較高頻率解析度高效地遞送資訊。基本時間頻率表示之解析度判定增強之最大效能。本發明此處界定一種用於以一緊湊且允許反向相容解碼的方式遞送增強型高頻率資訊的方法。
增強型SAOC感知品質可(例如)藉由動態地調適濾波器組或變換之時間/頻率解析度來獲得,該濾波器組或變換用以估計或用以合成對輸入音訊物件之特定性質的音訊物件提示。舉例而言,若音訊物件在某時間跨度期間係準穩定的,則對粗糙時間解析度及精細頻率解析度有益地執行參數估計及合成。若音訊物件含有瞬變或在某時間跨度期間係非穩定的,則使用精細時間解析度及粗糙頻率解析度有利地進行參數估計及合成。藉此,濾波器組或變換之動態調適允許- 準穩定信號之頻譜分離中的高頻率選擇性以便避免物件間串擾,以及- 物件開始或瞬變事件的高時間精度以便使前回聲及後回聲最小化。
同時,傳統SAOC品質可藉由將標準SAOC資
料映射於藉由本發明之反向相容信號自適應性變換提供的時間頻率柵格上而獲得,該變換取決於描述物件信號特性的旁側資訊。
使用一個共同變換能夠解碼標準SAOC資料及增強型SAOC資料兩者啟用涵蓋標準SAOC資料與新穎增強型SAOC資料之混合的應用之直接反向相容性。其亦允許優於標準品質之時間頻率選擇性增強。
所提供實施例不限於任何特定時間頻率變換,而是可藉由提供足夠高之頻率解析度的任何變換應用。文獻描述藉由切換式時間頻率解析度至基於離散傅立葉變換(DFT)之濾波器組的應用。在此方法中,時域信號經再分成亦可重疊之較短區塊。每一較短區塊中之信號藉由開窗函數來加權(正常地在中間具有大值,且在兩個末端處遞減至零)。最終,經加權信號藉由所選擇之變換(此處,藉由DFT之應用)變換至頻域。
提供一種用於產生一未經混合音訊信號之解碼器,該未經混合音訊信號包含多個未經混合音訊通道。解碼器包含一未混合資訊判定器,該未混合資訊判定器用於藉由接收關於至少一音訊物件信號的第一參數旁側資訊及關於該至少一音訊物件信號之第二參數旁側資訊來判定未混合資訊,其中該第二參數旁側資訊的頻率解析度高於該第一參數旁側資訊的頻率解析度。此外,該解碼器包含一未混合模組,該未混合模組用於將該未混合資訊應用於指示至少一音訊物件信號之一下降混合的一下降混合信號,
以獲得包含該多個未經混合音訊通道的一未經混合音訊信號。該未混合資訊判定器經組配以藉由修改該第一參數資訊及該第二參數資訊以獲得經修改參數資訊來判定該未混合資訊,使得該經修改參數資訊具有高於該第一頻率解析度的一頻率解析度。
此外,提供一種用於編碼一或多個輸入音訊物件信號的編碼器。編碼器包含下降混合單元,該下降混合單元用於下降混合一或多個輸入音訊物件信號以獲得一或多個下降混合信號。此外,編碼器包含參數旁側資訊產生器,該參數旁側資訊產生器用於產生關於至少一音訊物件信號之第一參數旁側資訊及關於至少一音訊物件信號的第二參數旁側資訊,使得第二參數旁側資訊之頻率解析度高於第一參數旁側資訊的頻率解析度。
此外,提供一種經編碼音訊信號。經編碼音訊信號包含一指示一或多個輸入音訊物件信號之下降混合的下降混合部分,以及包含關於至少一音訊物件信號之第一參數旁側資訊及關於至少一音訊物件信號之第二參數旁側資訊的參數旁側資訊部分。第二參數旁側資訊的頻率解析度高於第一參數旁側資訊之頻率解析度。
此外,提供一種系統。系統包含一如上文所描述之編碼器及如上文所描述的解碼器。編碼器經組配以藉由以下操作來編碼一或多個輸入音訊物件信號:獲得指示一或多個輸入音訊物件信號之下降混合的一或多個下降混合信號,獲得關於至少一音訊物件信號之第一參數旁側資訊
及獲得關於至少一音訊物件信號的第二參數旁側資訊,其中第二參數旁側資訊的頻率解析度高於第一參數旁側資訊之頻率解析度。解碼器經組配以基於一或多個下降混合信號且基於第一參數旁側資訊及第二參數旁側資訊來產生未經混合音訊信號。
編碼器經組配以藉由以下操作來編碼一或多個輸入音訊物件信號:獲得指示一或多個輸入音訊物件信號之下降混合的一或多個下降混合信號,獲得關於至少一音訊物件信號之第一參數旁側資訊及獲得關於至少一音訊物件信號的第二參數旁側資訊,其中第二參數旁側資訊的頻率解析度高於第一參數旁側資訊之頻率解析度。解碼器經組配以基於一或多個下降混合信號且基於第一參數旁側資訊及第二參數旁側資訊來產生音訊輸出信號。
此外,提供一種用於產生一未經混合音訊信號之方法,該未經混合音訊信號包含多個未經混合音訊通道。該方法包含:- 藉由接收關於至少一音訊物件信號之第一參數旁側資訊及關於該至少一音訊物件信號之第二參數旁側資訊來判定未混合資訊,其中該第二參數旁側資訊之頻率解析度高於該第一參數旁側資訊的頻率解析度。以及:- 將該未混合資訊應用於一指示至少一音訊物件信號之一下降混合的下降混合信號,以獲得包含該多個未經混合音訊通道的一未經混合音訊信號。
判定該未混合資訊包含修改該第一參數資訊及
該第二參數資訊以獲得經修改之參數資訊,使得該經修改之參數資訊具有高於該第一頻率解析度的一頻率解析度。
此外,提供一種用於編碼一或多個輸入音訊物件信號之方法。該方法包含:- 下降混合該一或多個輸入音訊物件信號以獲得一或多個下降混合信號。以及:- 產生關於至少一音訊物件信號之第一參數旁側資訊及關於該至少一音訊物件信號之第二參數旁側資訊,使得該第二參數旁側資訊之頻率解析度高於該第一參數旁側資訊的頻率解析度。
此外,提供一種當在一電腦或信號處理器上執行時用於實施上述方法中之一者之電腦程式。
較佳實施例將提供於附屬請求項中。
10‧‧‧SAOC編碼器
12‧‧‧SAOC解碼器
16‧‧‧下降混合器
17‧‧‧旁側資訊估計器
18‧‧‧下降混合信號
20‧‧‧旁側資訊
26‧‧‧資訊
301至30K‧‧‧子頻帶信號
32‧‧‧小框/子頻帶值
34‧‧‧濾波器組時槽
36‧‧‧頻率軸
38‧‧‧時間軸
41‧‧‧SAOC訊框
42‧‧‧虛線
45‧‧‧模組
46‧‧‧第二模組
51‧‧‧下降混合部分
52‧‧‧參數旁側資訊部分
61‧‧‧編碼器
62‧‧‧解碼器
71‧‧‧功率頻譜包絡
72、73、74‧‧‧平均值
81‧‧‧差異曲線
91‧‧‧下降混合單元
92‧‧‧變換單元
93‧‧‧參數旁側資訊產生器
94‧‧‧PSI提取單元
95‧‧‧PSI分裂器
101‧‧‧瞬變偵測單元
102‧‧‧產生窗序列單元
103‧‧‧t/f分析單元
104‧‧‧PSI估計單元
105‧‧‧粗糙功率頻譜重建單元
106‧‧‧功率頻譜估計單元
107‧‧‧頻率解析度調適單元
108‧‧‧德耳塔估計單元
109‧‧‧德耳塔模型化單元
111‧‧‧第一變換單元
112‧‧‧未混合資訊判定器
113‧‧‧未混合模組
114‧‧‧第二變換單元
114‧‧‧f/t變換單元
115‧‧‧標準PSI解碼單元
116‧‧‧頻率解析度轉換單元
117‧‧‧增強型PSI解碼單元
118‧‧‧未混合矩陣產生器
119‧‧‧去相關單元
121‧‧‧解碼子單元
122‧‧‧頻率解析度轉換子單元
123‧‧‧增強型PSI解碼子單元
124‧‧‧組合器
131‧‧‧未混合矩陣計算器
132‧‧‧時間內插器
133‧‧‧窗頻率解析度調適單元
134‧‧‧窗序列產生器
135‧‧‧t/f分析模組
136‧‧‧未混合單元
141‧‧‧頻帶上值擴展單元
142‧‧‧德爾塔函數恢復單元
143‧‧‧德爾塔應用單元
151‧‧‧原始音調信號
152‧‧‧原始雜訊信號
153‧‧‧音調信號
154‧‧‧雜訊信號
921、922‧‧‧t/f變換單元
s1至sN‧‧‧音訊信號
及‧‧‧音訊信號
至‧‧‧通道
在以下內容中,參看諸圖更詳細地描述本發明之實施例,其中:圖1a說明根據一實施例之解碼器,圖1b說明根據另一實施例之解碼器,圖2a說明根據一實施例之編碼器,圖2b說明根據另一實施例之編碼器,圖2c說明根據一實施例之經編碼的音訊信號,圖3說明根據一實施例之系統,圖4展示SAOC系統之概念概述的示意性方塊圖,圖5展示單通道音訊信號之時間頻譜表示的示意性且
例示性圖,圖6展示SAOC編碼器內旁側資訊之時間頻率選擇性計算的示意性方塊圖,圖7說明根據實施例之反向相容表示,圖8說明根據一實施例之真實參數值與低解析度平均值之間的差異曲線,圖9描繪根據一實施例之提供具有增強之反向相容位元串流之增強型編碼器的高層級說明,圖10說明根據實施編碼器之參數路徑的特定實施例之編碼器的方塊圖,圖11描繪根據一實施例之能夠解碼標準位元串流及增強型位元串流兩者的增強型解碼器之高層級方塊圖,圖12說明增強型PSI解碼單元之實施例的方塊圖,圖13描繪根據一實施例之藉由增強型SAOC解碼器解碼標準SAOC位元串流的方塊圖,圖14描繪根據一實施例之解碼器的主要功能方塊,圖15說明音調及雜訊信號,且詳言之,高解析度功率頻譜及對應粗略重建,圖16說明兩個實例信號的修改,詳言之,實例信號之校正因數,圖17說明針對兩個實例信號的原始校正因數及基於降階線性預測的近似,且圖18說明對粗略重建應用經模型化校正因數的結果。
在描述本發明之實施例之前,提供關於目前技術SAOC系統的更多背景內容。
圖4展示SAOC編碼器10及SAOC解碼器12之通用配置。SAOC編碼器10接收N個物件(亦即,音訊信號s 1 至s N )作為輸入。詳言之,編碼器10包含下降混合器16,其接收音訊信號s 1 至s N 且將前述音訊信號下降混合成下降混合信號18。或者,下降混合可經外部地提供(「藝術家風格下降混合」),且系統估計額外旁側資訊以使得所提供之下降混合與所計算的下降混合匹配。在圖4中,下降混合信號展示為P通道信號。因此,任何單(P=1)、立體(P=2)或多通道(P>2)下降混合信號組配係可想到的。
在立體下降混合之狀況下,下降混合信號18之通道標註為L0及R0,在單下降混合狀況下,通道簡單地標註為L0。為了使SAOC解碼器12能夠恢復個別物件s 1 至s N ,旁側資訊估計器17向SAOC解碼器12提供包括SAOC參數的旁側資訊。舉例而言,在立體下降混合之狀況下,SAOC參數包含物件層級差(OLD)、物件間相關(IOC)(物件間交叉相關參數)、下降混合增益值(DMG)及下降混合通道層級差(DCLD)。包括SAOC參數之旁側資訊20連同下降混合信號18一起形成由SAOC解碼器12接收到的SAOC輸出資料串流。
SAOC解碼器12包含向上混合器,其接收下降混合信號18以及旁側資訊20以便將音訊信號及恢復
並呈現於通道至的任何使用者所選擇集合上,其中呈現藉由呈現輸入至SAOC解碼器12中的資訊26來規定。
音訊信號s 1 至s N 可在任何編碼域中(諸如,在時間或頻譜域中)輸入至編碼器10中。在音訊信號s 1 至s N 在時域中饋入至編碼器10中(諸如,經PCM編碼)的狀況下,編碼器10可使用諸如混合式QMF組的濾波器組,以便以特定濾波器組解析度將信號傳送至頻譜域中,其中以與不同頻譜部分相關聯的若干子頻帶表示音訊信號。若音訊信號s 1 至s N 已經呈編碼器10預期到之表示,則編碼器10不必執行頻譜分解。
圖5展示剛剛提及之頻譜域中的音訊信號。如可看出,音訊信號表示為多個子頻帶信號。每一子頻帶信號301至30K由藉由小框32指示之子頻帶值的時間序列組成。如可看出,子頻帶信號301至30K之子頻帶值32在時間上經彼此同步,使得對於連續濾波器組時槽34中的每一者,每一子頻帶301至30K包含準確之一個子頻帶值32。如由頻率軸36所說明,子頻帶信號301至30K係與不同頻率區相關聯,且如由時間軸38所說明,濾波器組時槽34在時間上經連續地配置。
如上文所概述,圖4之旁側資訊提取器17自輸入音訊信號s 1 至s N 計算SAOC參數。根據當前實施之SAOC標準,編碼器10以時間/頻率解析度執行此計算,該解析度相對於如由濾波器組時槽34及子頻帶分解判定之原始時間/頻率解析度可被減低某量,其中此某量在旁側資訊20
內信號傳輸至解碼器側。連續濾波器組時槽34之數個群組可形成SAOC訊框41。又,SAOC訊框41內參數頻帶的數目在旁側資訊20內予以輸送。因此,時間/頻率域經劃分成藉由虛線42例證於圖5中的時間/頻率平鋪塊。在圖5中,參數頻帶在各種所描繪之SAOC訊框41中以同一方式分佈,使得獲得時間/頻率平鋪塊之規則配置。然而,一般而言,視各別SAOC訊框41中對頻譜解析度的不同需要,參數頻帶可在一個SAOC訊框41與下一SAOC訊框41之間發生變化。此外,SAOC訊框41之長度又可發生變化。因而,時間/頻率平鋪塊之配置可係不規則的。然而,特定SAOC訊框41內之時間/頻率平鋪塊通常具有相同持續時間且在時間方向上對準,亦即,該SAOC訊框41中之所有t/f平鋪塊於給定SAOC訊框41之起點處開始,且於該SAOC訊框41之終點處結束。
描繪於圖4中之旁側資訊提取器17根據以下方程式計算SAOC參數。詳言之,旁側資訊提取器17針對每一物件i計算物件層級差如下
其中和及索引n及k分別遍歷所有時間索引34,且屬於某時間/頻率平鋪塊42的所有頻率索引30由SAOC訊框(或處理時槽)之索引l及參數頻帶的索引m提及,且係的複共軛。藉此,音訊信號或物件i之所有子頻帶值
x i 的能量經總計並正規化為彼平鋪塊之在所有物件或音訊信號中的最高能量值。
另外,SAOC旁側資訊提取器17能夠計算數對不同輸入物件s 1 至s N 之對應時間/頻率平鋪塊的類似性量測。儘管SAOC旁側資訊提取器17可計算所有成對輸入物件s 1 至s N 之間的類似性量測,但SAOC旁側資訊提取器17亦可抑制類似性量測的信號傳輸或將類似性量測的計算約束至形成常見立體通道之左側或右側通道的音訊物件s 1 至s N 。在任何狀況下,類似性量測被稱作物件間交叉相關參數。計算係如下
其中索引n及k再次遍歷屬於某時間/頻率平鋪塊42之所有子頻帶值,i及j標明某對音訊物件s 1 至s N ,且Re{ }標明保留複數值自變數之僅實部(亦即,捨棄虛部)的運算。
圖4之下降混合器16藉由使用應用至每一物件s 1至s N 的增益因數來下降混合物件s 1 至s N 。亦即,增益因數d i 應用至物件i,且接著所有因此經加權之物件s 1 至s N 經總計以獲得單下降混合信號,其例證於圖4中(在P=1情況下)。在描繪於圖4(在P=2情況下)中之雙通道下降混合信號的另一實例狀況下,增益因數d 1,i 應用至物件i,且接著所有此等增益放大之物件經總計以便獲得左側下降混合
通道L0,且增益因數d 2,i 應用至物件i,且接著因此增益放大之物件經總計以便獲得右側下降混合通道R0。在多通道下降混合(P>2)之狀況下將應用類似於以上處理的處理。
此下降混合規定借助於下降混合增益DMG i 信號傳輸至解碼器側,且在立體下降混合信號狀況下借助於下降混合通道層級差DCLD i 而信號傳輸至解碼器側。
下降混合增益根據以下方程式計算:DMG i =20log10(d i +ε),(單下降混合),,(立體下降混合),其中ε係諸如10-9的小數字。
對於DCLD,應用以下方程式:
在正常模式中,下降混合器16根據以下方程式產生下降混合信號:
對於單下降混合,或
分別對於立體下降混合。
因此,在上述方程式中,參數OLD及IOC係音訊信號之函數,且參數DMG及DCLD係下降混合係數d的函數。順便地,請注意,d在時間及頻率上可係可變的。
因此,在正常模式中,下降混合器16在無偏好情況下(亦即,在等同地處置所有物件s 1 至s N 情況下)混合所有物件s 1 至s N 。
在解碼器側,向上混合器執行下降混合程序的反轉程序及一個計算步驟中(亦即,在雙通道下降混合狀況下)藉由矩陣R(在文獻資料中有時亦稱作A)表示之「呈現資訊」26的實施
其中矩陣E係參數OLD及IOC之函數,且矩陣D含有如下下降混合係數
且其中D * 標明D之複數轉置。矩陣E係音訊物件s 1 至s N 之所估計協方差矩陣。在當前SAOC實施中,所估計協方差矩陣E的計算通常以SAOC參數之頻譜/時間解析度(亦即,對於每一(l,m))執行,使得所估計協方差矩陣可被撰寫為E l,m 。所估計協方差矩陣E l,m 具有大小N×N,其中其係數界定如下
因此,由於且(對於i=j),因此具有下式之矩陣E l,m 沿其對角線具有物件層級差,亦即(對於i=j):
在其對角線外部,所估計協方差矩陣E具有藉由物件間交叉相關量測進行加權的分別表示物件i及j之物件層級差之幾何平均值的矩陣係數。
圖6顯示關於作為SAOC編碼器10之部分的旁側資訊估計器(SIE)之實例的實施之一個可能原理。SAOC編碼器10包含混合器16及旁側資訊估計器(SIE)17。SIE概念上由兩個模組組成:計算每一信號之基於短時間的t/f表示(例如,STFT或QMF)的一個模組45。所計算之短時間t/f表示饋入至第二模組46(t/f選擇性旁側資訊估計模組(t/f-SIE))中。t/f-SIE模組46計算每一t/f平鋪塊的旁側資訊。在當前SAOC實施中,時間/頻率變換對於所有音訊物件s 1 至s N 係固定且等同的。此外,SAOC參數在SAOC訊框上進行判定,該等SAOC參數對於所有音訊物件係相同的且對於所有音訊物件s 1 至s N 具有相同時間/頻率解析度,因此不管在一些狀況下對精細時間解析度或在其他狀況下對精細頻譜解析度的物件特定需要。
在以下內容中,描述本發明之實施例。
圖1a說明根據實施例之用於產生未經混合音訊信號的解碼器,該未經混合音訊信號包含多個未經混合音訊信號。
解碼器包含未混合資訊判定器112,其用於藉由接收關於至少一音訊物件信號的第一參數旁側資訊及關於
至少一音訊物件信號之第二參數旁側資訊來判定未混合資訊,其中第二參數旁側資訊的頻率解析度高於第一參數旁側資訊的頻率解析度。
此外,解碼器包含未混合模組113,其用於將未混合資訊應用於指示至少一音訊物件信號之下降混合的下降混合信號,以獲得包含多個未經混合音訊通道的未經混合音訊信號。
未混合資訊判定器112經組配以藉由修改第一參數資訊及第二參數資訊以獲得經修改參數資訊來判定未混合資訊,使得經修改參數資訊具有高於第一頻率解析度的頻率解析度。
圖1b說明根據另一實施例之用於產生未經混合音訊信號的解碼器,該未經混合音訊信號包含多個未經混合音訊信號。圖1b之解碼器此外包含第一變換單元111,其用於變換在時域中表示之下降混合輸入以獲得在時間頻率域中表示的下降混合信號。此外,圖1b之解碼器包含第二變換單元114,其用於將未經混合音訊信號自時間頻率域變換至時域。
圖2a說明根據實施例的用於編碼一或多個輸入音訊物件信號的編碼器。
編碼器包含下降混合單元91,其用於下降混合一或多個輸入音訊物件信號以獲得一或多個下降混合信號。
此外,編碼器包含參數旁側資訊產生器93,其
用於產生關於至少一音訊物件信號之第一參數旁側資訊及關於至少一音訊物件信號的第二參數旁側資訊,使得第二參數旁側資訊之頻率解析度高於第一參數旁側資訊的頻率解析度。
圖2b說明根據另一實施例的用於編碼一或多個輸入音訊物件信號的編碼器。圖2b之編碼器進一步包含變換單元92,其用於將一或多個輸入音訊物件信號自時域變換至時間頻率域以獲得一或多個經變換音訊物件信號。在圖2b之實施例中,參數旁側資訊產生器93經組配以基於一或多個經變換音訊物件信號產生第一參數旁側資訊及第二參數旁側資訊。
圖2c說明根據一實施例的經編碼音訊信號。經編碼音訊信號包含一指示一或多個輸入音訊物件信號之下降混合的下降混合部分51,以及包含關於至少一音訊物件信號之第一參數旁側資訊及關於至少一音訊物件信號之第二參數旁側資訊的參數旁側資訊部分52。第二參數旁側資訊的頻率解析度高於第一參數旁側資訊之頻率解析度。
圖3說明根據實施例的系統。系統包含如上文所描述之編碼器61及如上文所描述的解碼器62。
編碼器61經組配以藉由以下操作來編碼一或多個輸入音訊物件信號:獲得指示一或多個輸入音訊物件信號之下降混合的一或多個下降混合信號,獲得關於至少一音訊物件信號之第一參數旁側資訊及獲得關於至少一音訊物件信號的第二參數旁側資訊,其中第二參數旁側資訊的
頻率解析度高於第一參數旁側資訊之頻率解析度。
解碼器62經組配以基於一或多個下降混合信號且基於第一參數旁側資訊及第二參數旁側資訊來產生未經混合音訊信號。
在以下內容中,描述使用反向相容頻率解析度改良的增強型SAOC。
圖7說明根據實施例的反向相容表示。待表示之信號性質(例如,功率頻譜包絡71)在頻率上發生變化。頻率軸經分割成參數頻帶,且單一集合之信號描述符針對每一子頻帶進行指派。使用信號描述符而非遞送每一頻率區間的描述分離地允許所要求之旁側資訊之量的節省而無感知品質的顯著損失。在標準SAOC中,每一頻帶之單一描述符係逐區間描述符的平均值72、73、74。如可理解,此情形可引入資訊損失,資訊損失的量值取決於信號性質。在圖7中,頻帶k-1及k具有相當大之誤差,而在頻帶k+1中,誤差要小得多。
圖8說明根據實施例的真實參數值與低解析度平均值之間的差異曲線81(例如,在標準SAOC參數化中失去之精細結構資訊)。描述一種用於以有效方式參數化並傳輸平均值72、73、74(例如,標準SAOC描述符)與真實精細解析度值之間的差異曲線81從而允許近似解碼器中的精細解析度結構之方法。
請注意,將增強資訊添加至混合物中之單一物件不僅改良彼特定物件的所得品質,而且改良共用近似空間
位置且具有某頻譜重疊之所有物件的品質。
在以下內容中,描述藉由增強型編碼器(詳言之,增強型SAOC編碼器)進行之反向相容增強型SAOC編碼,該增強型SAOC編碼器產生含有反向相容旁側資訊部分及額外增強的位元串流。所添加資訊可以一方式插入至標準SAOC位元串流中,使得陳舊之標準相容解碼器在增強型解碼器使用所添加資料同時簡單地忽略所添加資料。現有標準SAOC解碼器可解碼參數旁側資訊(PSI)之反向相容部分,且產生物件之重建,同時增強型SAOC解碼器使用的添加資訊在多數狀況下改良重建的感知品質。另外,若增強型SAOC解碼器正在有限資源上執行,則增強可被忽略,且仍獲得基本品質重建。請注意,使用僅標準SAOC相容PSI自標準SAOC及增強型SAOC解碼器的重建不同,但斷定為感知上極其類似的(差異係關於如增強型SAOC解碼器情況下解碼標準SAOC位元串流上的類似本質)。
圖9描繪根據實施例之增強型編碼器的高層級說明,該增強型編碼器提供具有增強的反向相容位元串流。
編碼器包含下降混合單元91,其用於下降混合多個音訊物件信號以獲得一或多個下降混合信號。舉例而言,音訊物件信號(例如,個別(音訊)物件)由下降混合單元91使用以產生下降混合信號。此情形可在時域、頻域中發生,或甚至可使用外部提供之下降混合。
在PSI路徑中,(音訊)物件信號由變換單元92
自時域變換至頻域、時間頻率域或頻譜域(舉例而言,藉由包含一或多個t/f變換單元921、922的變換單元92)。
此外,編碼器包含用於產生參數旁側資訊的參數旁側資訊產生器93。在圖9之實施例中,參數旁側資訊產生器93可(例如)包含PSI提取單元94及PSI分裂器95。根據此實施例,在頻域中,PSI藉由PSI提取單元94來提取。PSI分裂器95接著進行以將PSI分裂成兩個部分:可藉由任何標準相容SAOC解碼器解碼的標準頻率解析度部分,及增強型頻率解析度部分。後者可「隱藏」於位元串流元素中,使得此等位元串流元素將由標準解碼器忽略,但由增強型解碼器利用。
圖10說明根據實施上文描述之編碼器之參數路徑的特定實施例之編碼器的方塊圖。粗黑功能區塊(102、105、106、107、108、109)指示本發明處理的主要組件。詳言之,圖10說明產生反向相容位元串流與針對能力更強解碼器之增強的二級編碼的方塊圖。編碼器經組配以產生可藉由兩個解碼器型式解碼的PSI。圖9之變換單元92藉由圖10中的瞬變偵測單元101、藉由產生窗序列單元102且藉由t/f分析單元103來實施。圖10中之其他單元104、105、106、107、108、109實施參數旁側資訊產生器93(例如,單元104、105、106、107、108、109可實施PSI提取單元94及PSI分裂器95之組合的功能性)。
首先,將信號再分成分析訊框,該等分析訊框接著經變換至頻域。多個分析訊框接著分組成固定長度參數
訊框,例如,在標準SAOC中,16及32分析訊框的長度係常見的。假定,信號性質在參數訊框期間保持準穩定,且可因此藉由僅一個參數集來特徵化。若信號特性在參數訊框內改變,則遭受模型化誤差,且將較長參數訊框再分成準穩定之假定再次經實現的部分將係有益的。為了此目的,需要瞬變偵測。
在一實施例中,視包含一或多個輸入音訊物件信號中之至少一者之信號值的信號變換區塊的窗長度而定,變換單元92經組配以將一或多個輸入音訊物件信號自時域變換至時間頻率域。變換單元92包含瞬變偵測單元101,其用於判定指示瞬變是否存在於至少一音訊物件信號中之一或多者中的瞬變偵測結果,其中瞬變指示至少一音訊物件信號中之一或多者中的信號改變。此外,變換單元92進一步包含窗序列單元102,其用於視瞬變偵測結果來判定窗長度。
舉例而言,瞬變可藉由瞬變偵測單元101自所有輸入物件分離地偵測,且在瞬變事件存在於物件中之僅一者中時,該位置宣告為全域瞬變位置。瞬變位置之資訊用於建構適當開窗序列。建構可係基於(例如)以下邏輯:
- 設定預設窗長度,亦即,預設信號變換區塊的長度(例如,2048個樣本)。
- 設定具有50%重疊之對應於4個預設窗的參數訊框長度(例如,4096個樣本)。參數訊框將多個窗分組在一起且單一集合之信號描述符用於整個區塊而非分離地具有針
對每一窗的描述符。此情形允許減小PSI的量。
- 若尚未偵測到瞬變,則使用預設窗及全參數訊框長度。
- 若偵測到瞬變,則調適開窗以在瞬變之位置處提供更好時間解析度。
產生窗序列單元102建構開窗序列。同時,產生窗序列單元102亦自一或多個分析窗產生參數子訊框。每一子集作為整體進行分析,且針對每一子區塊傳輸僅一個集合之PSI參數。為了提供標準SAOC相容PSI,所界定參數區塊長度用作主參數區塊長度,且彼區塊內之可能之所定位瞬變界定參數子集。
所建構窗序列經輸出以供t/f分析單元103進行之輸入音訊信號的時間頻率分析,且在PSI之增強型SAOC增強部分中進行傳輸。
PSI由以下各者組成:物件層級差(OLD)集合,物件間相關(IOC),及用以自編碼器中之個別物件產生下降混合信號的下降混合矩陣D的資訊。每一參數集係與參數邊界相關聯,該邊界界定參數關聯至的時間區。
每一分析窗之頻譜資料由PSI估計單元104用於估計標準SAOC部分的PSI。此藉由將頻譜區間分組成標準SAOC之參數頻帶且估計頻帶中IOC、OLD及絕對物件能量(NRG)來進行。鬆散地遵循標準SAOC之記數法,參數化平鋪塊中兩個物件頻譜S i (f,n)及S j (f,n)的正規化乘積界定為:
其中矩陣K(b,f,n):藉由下式界定自訊框n中F n t/f表示區間至B參數頻帶中的映射
頻譜解析度在單一參數區塊內之訊框之間可發生變化,因此映射矩陣將資料轉換成共同解析度基準。此參數化平鋪塊中之最大物件能量經定為最大物件能量。具有此值,接著將OLD界定為正規化物件能量
且最終IOC可獲得自交叉功率如下
此情形推斷出位元串流之標準SAOC相容部分的估計。
粗糙功率頻譜重建單元105經組配以將OLD及NRG用於在參數分析區塊中重建頻譜包絡的粗略估計。包絡以用於該區塊中之最高頻率解析度來建構。
每一分析窗之原始頻譜由功率頻譜估計單元106用於計算彼窗中的功率頻譜。
所獲得之功率頻譜藉由頻率解析度調適單元107經轉換成常見高頻率解析度表示。此情形可(例如)藉由對功率頻譜值進行內插來進行。接著,平均功率頻譜概況藉由對參數區塊內之頻譜進行平均來計算。此情形粗略地對應於省略參數頻帶聚合的OLD估計。所獲得之頻譜概況被視為精細解析度OLD。
編碼器進一步包含德耳塔估計單元108,其用於藉由使至少一音訊物件信號中之一者的多個OLD中之每一者除以至少一音訊物件信號的該一者之功率頻譜重建的值來估計多個校正因數以獲得第二參數旁側資訊,其中該多個OLD具有相較於該功率頻譜重建較高的頻率解析度。
在實施例中,德耳塔估計單元108經組配以視至少一音訊物件信號而基於多個參數值來估計多個校正因數以獲得第二參數旁側資訊。例如,德耳塔估計單元108可經組配以(例如)藉由用粗略功率頻譜重建除以精細解析度OLD來估計校正因數「德耳塔」。結果,此情形針對每一頻率區間提供(例如,倍增)校正因數,該校正因數在給定粗略頻譜情況下可用於近似精細解析度OLD。
最終,德耳塔模型化單元109經組配而以有效方式模型化所估計校正因數以供傳輸。使用線性預測係數(LPC)進行模型化的一個可能性稍後在下文進行描述。
有效地,增強型SAOC修改由將開窗序列資訊及用於傳輸「德耳塔」的參數添加至位元串流組成。
在以下內容中,描述增強型解碼器。
圖11描繪根據實施例之增強型解碼器的高層級方塊圖,該解碼器能夠解碼標準位元串流及增強型位元串流兩者。詳言之,圖11說明能夠解碼標準位元串流以及包括頻率解析度增強之位元串流兩者的增強型解碼器之操作方塊圖。
輸入下降混合信號藉由t/f變換單元111變換至頻域。
所估計之未混合矩陣藉由未混合單元110應用
於經變換下降混合信號以產生未混合輸出。
另外,去相關路徑經包括以允許未混合中物件的更好空間控制。去相關單元119對經變換下降混合信號進行去相關,且將去相關之結果饋入至未混合單元110中。未混合單元110將去相關結果用於產生未混合輸出。
未混合輸出接著藉由f/t變換單元114經變換回至時域。
參數處理路徑可採用標準解析度PSI作為輸入,在該狀況下,藉由標準PSI解碼單元115產生的經解碼PSI藉由頻率解析度轉換單元116調適至用於t/f變換中的頻率解析度。
替代性輸入組合PSI之標準頻率解析度部分與增強型頻率解析度部分,且計算包括增強型頻率解析度資訊。更詳細地,增強型PSI解碼單元117產生展現增強型頻率解析度的經解碼PSI。
未混合矩陣產生器118基於接收自頻率解析度
轉換單元116或接收自增強型PSI解碼單元117的經解碼PSI產生未混合矩陣。未混合矩陣產生器118亦可基於呈現資訊(例如,基於呈現矩陣)產生未混合矩陣。未混合單元110經組配以藉由將由未混合矩陣產生器118產生的此未混合矩陣應用於經變換下降混合信號來產生未混合輸出。
圖12說明方塊圖,該方塊圖說明圖11之增強型PSI解碼單元117之實施例。
第一參數資訊包含多個第一參數值,其中第二參數資訊包含多個第二參數值。未混合資訊判定器112包含一頻率解析度轉換子單元122及一組合器124。頻率解析度轉換單元112經組配以(例如)藉由複製第一參數值而產生額外參數值,其中第一參數值及額外參數值一起形成多個第一經處理參數值。組合器124經組配以組合第一經處理參數值與第二參數值以獲得多個經修改參數值作為經修改參數資訊。
根據實施例,標準頻率解析度部分藉由解碼子單元121解碼,且藉由頻率解析度轉換子單元122轉換成由增強部分使用的頻率解析度。藉由增強型PSI解碼子單元123產生之經解碼增強部分藉由組合器124與經轉換標準解析度部分組合。
在以下內容中,更詳細地描述可能實施情況下的兩個解碼模式。
首先,描述藉由增強型解碼器解碼標準SAOC位元串流:
增強型SAOC解碼器經設計,使得其能夠以良好品質解碼來自標準SAOC編碼器的位元串流。解碼限於僅參數重建,且忽略可能之殘餘串流。
圖13描繪根據一實施例之說明解碼程序的藉由增強型SAOC解碼器解碼標準SAOC位元串流的方塊圖。粗黑功能區塊(131、132、133、135)指示本發明處理的主要部分。
未混合矩陣計算器131、時間內插器132及窗頻率解析度調適單元133實施圖1之標準PSI解碼單元115、頻率解析度轉換單元116及未混合矩陣產生器118的功能性。窗序列產生器134及t/f分析模組135實施圖11的t/f變換單元111。
正常地,基礎時間/頻率表示的頻率區間經分組成參數頻帶。頻帶之間隔類似於人類聽覺系統中關鍵頻帶的間隔。此外,多個t/f表示訊框可經分組成參數訊框。此等操作中之兩者以模型化不準確性為代價提供所需要旁側資訊之量的減小。
如在SAOC標準中所描述,OLD及IOC用以計算未混合矩陣G=ED * J,其中E元素界定為近似物件交叉相關矩陣的,i及j係物件索引,J (DED * )-1。未混合矩陣計算器131可進行以計算未混合矩陣。
按照標準SAOC,未混合矩陣接著藉由時間內插器132在參數訊框上自先前訊框的未混合矩陣起進行線性
內插直至達到所估計值所在之參數邊界。此導致每一時間/頻率分析窗及參數頻帶的未混合矩陣。
未混合矩陣之參數頻帶頻率解析度藉由窗頻率解析度調適單元133擴展至彼分析窗中之時間/頻率表示的解析度。當時間訊框中參數頻帶b之經內插未混合矩陣界定為G(b)時,同一未混合係數用於彼參數頻帶內部的所有頻率區間。
窗序列產生器134經組配以使用來自PSI之參數集範圍資訊以判定用於分析輸入下降混合音訊信號的恰當開窗序列。主要要求為,當在PSI中存自參數集邊界時,連續分析窗之間的交叉點應與參數集邊界匹配。開窗亦判定每一窗內資料的頻率解析度(如較早所描述,用於未混合資料擴展中)。
經開窗資料接著使用(例如)以下各者之恰當時間頻率變換藉由t/f分析模組135變換成頻域表示:離散傅立葉變換(DFT)、複合經修改離散餘弦變換(CMDCT)或奇數堆疊離散傅立葉變換(ODFT)。
最終,未混合單元136將每訊框每頻率區間之未混合矩陣應用於下降混合信號X之頻譜表示以獲得參數呈現Y。輸出通道j係下降混合通道的線性組合。
對於大多數用途,可藉由此程序獲得之品質與藉由標準SAOC解碼器獲得之結果係感知上難區分的。
請注意,以上文字描述個別物件之重建,但在標準SAOC中,呈現包括於未混合矩陣中,亦即,呈現包括
於參數內插中。作為線性運算,運算之次序並無重要關係,但差係值得一提的。
在以下內容中,描述藉由增強型解碼器解碼增強型SAOC位元串流。
增強型SAOC解碼器之主要功能性已在解碼標準SAOC位元串流中較早進行了描述。此章節將詳述PSI中所引入之增強型SAOC增強可用於獲得更好感知品質的方式。
圖14描繪根據實施例之說明解碼頻率解析度增強的主要功能區塊。粗黑功能區塊(141、142、143)指示本發明處理的主要部分。頻帶上值擴展單元141、德爾塔函數恢復單元142、德爾塔應用單元143、未混合矩陣計算器131、時間內插器132及窗頻率解析度調適單元133實施圖11之增強型PSI解碼單元117及未混合矩陣產生器118的功能性。
圖14之解碼器包含未混合資訊判定器112。其中,未混合資訊判定器112包含德爾塔函數恢復單元142及德爾塔應用單元143。第一參數資訊視至少一音訊物件信號而包含多個參數值(例如,物件層級差值)。第二參數資訊包含校正因數參數化。德爾塔函數恢復單元142經組配以反轉該校正因數參數化以獲得德爾塔函數。該德爾塔應用單元143經組配以對參數值(例如,對物件層級差值)應用該德爾塔函數以判定未混合資訊。在實施例中,校正因數參數化包含多個線性預測係數,且德爾塔函數恢復單元142
經組配以藉由視多個線性預測係數而產生多個校正因數來反轉校正因數參數化,且經組配以基於多個校正因數產生德爾塔函數。
舉例而言,首先,頻帶上值擴展單元141針對每一參數頻帶調適OLD及IOC值至用於增強中的頻率解析度(例如,至1024個區間)。此情形藉由複製對應於參數頻帶上之頻率區間上的值來進行。此導致新OLD及。K(f,b)係界定頻率區間f至參數頻帶b之指派的核心矩陣。
與以上情形並行,德爾塔函數恢復單元142反轉校正因數參數化以獲得具有與經擴展OLD及IOC相同之大小的德爾塔函數。
接著,德爾塔應用單元143對經擴展OLD值應用德爾塔,且所獲得之精細解析度OLD值藉由來獲得。
在特定實施例中,未混合矩陣之計算可(例如)藉由未混合矩陣計算器131如同解碼標準SAOC位元串流一般來進行:G(f)=E(f)D * (f)J(f),其中且J(f)(D(f)E(f)D * (f))-1。若想要,則呈現矩陣可被倍增至未混合矩陣G(f)中。時間內插器132進行之時間內插遵照標準SAOC。
由於每一窗中之頻率解析度可不同於(低於)標稱高頻率解析度,因此窗頻率解析度調適單元133需要調適未混合矩陣以與來自音訊之頻譜資料的解析度匹配以允
許應用該頻率解析度。此情形可(例如)在頻率軸上對係數重新取樣達正確解析度來進行。或若解析度係整數倍,則自高解析度資料對對應於較低解析度中一個頻率區間的索引簡單地進行平均。
來自位元串流之開窗序列資訊可用以獲得與用於編碼器中之分析完全互補的時間頻率分析,或開窗序列可如同在標準SAOC位元串流解碼中進行一般基於參數邊界來建構。為此,可使用窗序列產生器134。
下降混合音訊之時間頻率分析接著藉由t/f分析模組135使用給定窗進行。
最終,經時間內插且頻譜(可能)調適之未混合矩陣藉由未混合單元136應用於輸入音訊的時間頻率表示上,且輸出通道j可作為輸入通道的線性組合而獲得。
在以下內容中,描述實施例的特定態樣。
在實施例中,圖10之德爾塔模型化單元109經組配以藉由進行線性預測而自多個校正因數(德爾塔)判定線性預測係數。
現在,描述根據此實施例的校正因數(德爾塔)之估計程序及使用線性預測係數(LPC)的可能模型化替代例。
首先,描述根據實施例之德爾塔估計。
對估計之輸入由在參數區塊上及來自基於OLD及NRG參數之功率頻譜概況之粗糙重建的所估計精細解析度功率頻譜概況組成。精細功率頻譜概況以如下方式進
行計算。S i (f,n)係第i物件之複合頻譜,其中f係頻率區間索引,且0 n N-1係長度為N之模型化區塊中的時間窗索引。精細解析度功率頻譜則係
粗糙重建藉由下式自(去量化)OLD及NRG計算Z i (f)=K(f,b)OLD i (b)NRG i (b)
其中K(f,b)係界定頻率區間f至參數頻帶b之指派的核心矩陣。
具有不同頻譜性質的兩個信號在此章節中將用作實例:第一信號係具有實際上平坦頻譜的(粉紅)雜訊(忽略頻譜傾斜),且第二信號係來自樂器鐵琴(glockenspiel)之具有高音調(亦即,尖峰)頻譜的音調。
圖15說明音調信號及雜訊信號的功率頻譜。其高解析度功率頻譜(「原始」)及基於OLD及NRG的對應粗略重建(「重建」)。詳言之,圖15說明兩個信號的精細功率頻譜及粗糙功率頻譜。更特定而言,展示原始音調信號151及原始雜訊信號152的功率頻譜以及音調信號153及雜訊信號154的經重建功率頻譜。請注意,在以下諸圖中,對於信號153及154,寧可草繪縮放因數(經重建之功率頻譜參數)而非充分重建的信號。
可快速地注意到,精細值與粗糙值之間的平均差在雜訊信號之狀況下係相當小的,而音調信號中的差係極大的。此等差引起所有物件之參數重建的感知降級。
校正因數藉由使精細解析度曲線除以粗糙重建曲線來獲得:C i (f)=P i (f)/Z i (f)。
此情形允許恢復可應用於粗略重建上以獲得精細解析度曲線的倍增因數:
圖16說明兩個實例信號的修改,詳言之,實例信號之校正因數。詳言之,展示音調信號151及雜訊信號152的校正因數。
在以下內容中,描述德爾塔模型化。
校正曲線C在頻率軸線上指派至一或多個模型化區塊中。本質替代例係使用與用於標準SAOC PSI之參數頻帶定義相同的參數頻帶定義。模型化接著以如下步驟對於每一區塊分離地進行:
1.藉由離散傅立葉逆變換(IDFT)將頻譜校正因數C變換至時域自動相關序列。
當模型化區塊之長度係奇數時,待變換之偽頻譜界定如下
當模型化區塊為偶數時,偽頻譜界定如下
變換結果則係r(t)=IDFT(R(l))。
2.結果經截斷為前半部分:
3.列文遜-杜賓遞歸應用於自動相關序列r(t)以獲取反射係數k及模型化殘餘變數e從而使模型階數增加。
4.可選:基於模型化殘餘變數e,省略整個模型化(由於未獲得增益)或選擇恰當階數。
5.模型參數經量化用於傳輸。
若德爾塔應針對每一t-f平鋪塊(界定頻率範圍之標準參數頻帶及界定時間範圍的參數區塊)獨立地進行傳輸,則有可能作出一決策。該決策可基於(例如)以下各項進行:
- 檢查德爾塔模型化殘餘能量。若模型化殘餘能量並未超出某臨限值,則不傳輸增強資訊。
- 量測精細解析度模型化參數描述、德爾塔模型化或音訊物件信號之功率頻譜包絡的「尖銳度」/不平坦度。視所量測值而定,描述精細頻譜解析度之德爾塔模型化參數經傳輸或不傳輸,或根本視音訊物件信號之功率頻譜包絡的不平坦度進行計算)。恰當量測係(例如)頻譜波峰因數、頻譜平坦度量測,或最小值與最大值比率。
- 獲得重建的感知品質。編碼器在有增強且無增強情況下計算呈現重建,且判定每一增強的品質增益。接著,定位模型化複雜性與品質增益之間的恰當平衡之點,且傳輸所指示之增強。舉例而言,感知上經加權之失真與信號比率或增強型感知量測可用於決策。該決策可針對每一(粗
糙)參數頻帶分離地進行(亦即,局部品質最佳化),但亦在考慮鄰近頻帶以解決由時間頻率係數之時間及頻率變數操控引起的信號失真情況下進行(亦即,全域品質最佳化)。
現在,描述德爾塔重建及應用。
校正曲線之重建遵循如下步驟:
1.所接收反射係數k(長度L-1之向量)在偽碼語法中經解量化且變換成具有長度L的IIR濾波係數a(其中函數X=diag(x)輸出矩陣X,其中X之對角線元素係x,且X之所有非對角線元素係零):
2.所得濾波器a之頻率回應h(n)藉由來計算,其中i標明虛數單位。
3.校正函數重建藉由C raw (n)=h(n)h * (n)自此獲得。
4.回應經正規化以具有單位平均值,使得模型化區塊之總體能量並不改變。
5.校正因數應用於OLD上,其已擴展至精細解析度。請注意,在絕對能量中可被忽略,此係由於絕對能量在進一步計算中將被消除。
圖17說明針對實例信號兩者的原始校正因數及基於降階LPC的近似(在模型化之後)。詳言之,展示音調信號151、原始雜訊信號152的原始校正因數,以及音調信號153及雜訊信號154的經重建校正因數估計。
圖18說明對在圖15中說明之對粗略重建應用經模型化校正因數的結果。詳言之,展示原始音調信號151及原始雜訊信號152的功率頻譜以及音調信號153及雜訊信號154的經重建功率頻譜估計。此等曲線現可在應用模型化校正因數之後替代OLD用於以下計算(詳言之,重建之精細解析度功率頻譜)中。此處,絕對能量資訊經包括以使得比較為更明顯,但同一原理在無絕對能量資訊情況下亦起作用。
本發明方法及裝置使用具有高頻率解析度之濾波器組或時間頻率變換且提供額外資訊之有效參數化來減輕先前技術SAOC處理的前述缺陷。此外,有可能以一方式傳輸此額外資訊,使得標準SAOC解碼器可解碼與使用符合標準SAOC編碼器獲得之品質相當之可獲得品質解碼資訊的反向相容部分,且仍允許增強型解碼器將額外資訊用於更好感知品質。最重要地,額外資訊可以極其緊湊之方式表示以供有效傳輸或儲存。
所呈現之本發明方法可應用於任何SAOC方
案。其可與任何當前且又將來之音訊格式組合。本發明方法藉由頻譜旁側資訊之雙層級表示而允許SAOC應用中增強之感知音訊品質。
同一理念亦可在藉由通道層級差(CLD)替換OLD概念時結合MPEG環繞立體聲來使用。
提供如上文所描述的音訊編碼器或音訊編碼方法或相關電腦程式。此外,提供如上文所描述的音訊編碼器或音訊解碼方法或相關電腦程式。此外,提供上文所描述之經編碼音訊信號或儲存有經編碼音訊信號的儲存媒體。
儘管一些態樣已在裝置之內容脈絡中予以描述,但清楚的是,此等態樣亦表示對應方法之描述,其中區塊或器件對應於方法步驟或方法步驟的特徵。類似地,在方法步驟之內容脈絡中描述的態樣亦表示對應裝置之對應區塊或項目或特徵的描述。
本發明分解信號可儲存於數位儲存媒體上或可在諸如無線傳輸媒體或有線傳輸媒體(諸如,網際網路)之傳輸媒體上進行傳輸。
視某些實施要求而定,本發明之實施例可以硬體或以軟體來實施。實施可使用具有上面儲存之電可讀控制信號的數位儲存媒體(例如,軟性磁碟、DVD、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體)來執行,該數位儲存媒體與可程式化電腦系統協作(或能夠與可程式化電腦系統協作),使得各別方法被執行。
根據本發明之一些實施例包含具有電可讀控制信號的非暫時性資料載體,該非暫時性資料載體能夠與可程式化電腦系統協作,使得本文中所描述之方法中的一者被執行。
通常,本發明之實施例可實施為具有程式碼之電腦程式產品,程式碼係可操作的從而在電腦程式產品在電腦上執行時執行方法中的一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含儲存於機器可讀載體上之用於執行本文中描述之方法中的一者的電腦程式。
換言之,本發明方法之實施例因此係具有程式碼的電腦程式,該程式碼用於在電腦程式在電腦上執行時執行本文中所描述之方法中的一者。
本發明方法之其他實施例因此係資料載體(或數位儲存媒體或電腦可讀媒體),該資料載體包含記錄於其上之用於執行本文中所描述之方法中的一者的電腦程式。
本發明方法之其他實施例因此係資料串流或信號序列,其表示用於執行本文中所描述之方法中之一者的電腦程式。資料串流或信號序列可(例如)經組配以經由資料通信連接(例如,經由網際網路)進行傳送。
其他實施例包含經組配或調適以執行本文中所描述之方法中之一者的處理構件,例如電腦或可程式化邏輯器件。
其他實施例包含上面安裝有用於執行本文中所
描述之方法中之一者的電腦程式之電腦。
在一些實施例中,可程式化邏輯器件(例如,場可程式化閘陣列)可用以執行本文中所描述之方法之功能性的一些或全部。在一些實施例中,場可程式化閘陣列可與微處理器協作以便執行本文中所描述之方法中的一者。通常,方法較佳由任何硬體裝置執行。
上述實施例係僅說明本發明之原理。應理解,本文中所描述之配置及細節的修改及變化對於熟習此項技術者將係顯而易見的。因此,意圖是僅由迫近之專利申請專利範圍之範疇限制,而非藉由借助於本文中之實施例之描述及解釋呈現的特定細節限制。
[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications, " IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006.
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.
[SAOC2] J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J.
Hilpert, A. Hölzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam, 2008.
[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010.
[AAC] M .Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, "ISO/IEC MPEG-2 Advanced Audio Coding", J. Audio Eng. Soc, vol 45, no 10, pp. 789-814, 1997.
[ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010.
[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010.
[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin
and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011.
[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.
[ISS5] S. Zhang and L. Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011.
[ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011.
[ISS7] A. Nesbit, E. Vincent, and M. D. Plumbley: "Benchmarking flexible adaptive time-frequency transforms for underdetermined audio source separation", IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 37-40, 2009.
112‧‧‧未混合資訊判定器
113‧‧‧未混合模組
Claims (18)
- 一種用於產生一未經混合音訊信號之解碼器,該未經混合音訊信號包含多個未經混合之音訊通道,其中該解碼器包含:一未混合資訊判定器,其用於藉由接收關於至少一音訊物件信號之第一參數旁側資訊及關於該至少一音訊物件信號之第二參數旁側資訊來判定未混合資訊,其中該第二參數旁側資訊之頻率解析度高於該第一參數旁側資訊的頻率解析度,以及一未混合模組,其用於將該未混合資訊應用於指示至少一音訊物件信號之一下降混合的一下降混合信號,以獲得包含該多個未經混合音訊通道的一未經混合音訊信號,其中該未混合資訊判定器經組配以藉由修改該第一參數資訊及該第二參數資訊以獲得經修改參數資訊來判定該未混合資訊,使得該經修改參數資訊具有一高於該第一頻率解析度的頻率解析度。
- 如請求項1之解碼器,其中該解碼器進一步包含一第一變換單元,該第一變換單元用於變換一表示於一時域中之下降混合輸入,以獲得表示於一時間頻率域中的該下降混合信號,且其中該解碼器包含一第二變換單元,該第二變換單 元用於將該未經混合音訊信號自該時間頻率域變換至該時域。
- 如請求項1或2之解碼器,其中該未混合資訊判定器經組配以藉由組合該第一參數資訊與該第二參數資訊以獲得該經修改參數資訊來判定該未混合資訊,使得該經修改參數資訊具有一等於該第二頻率解析度的頻率解析度。
- 如請求項1之解碼器,其中該第一參數資訊包含多個第一參數值,其中該第二參數資訊包含多個第二參數值,其中該未混合資訊判定器包含一頻率解析度轉換子單元及一組合器,其中該頻率解析度轉換單元經組配以產生額外參數值,其中該等第一參數值及該等額外參數值一起形成多個第一經處理參數值,且其中該組合器經組配以組合該等第一經處理參數值與該等第二參數值以獲得多個經修改參數值作為該經修改參數資訊。
- 如請求項1之解碼器,其中該未混合資訊判定器包含一德爾塔函數恢復單元及一德爾塔應用單元,其中該第一參數資訊包含取決於該至少一音訊物件信號之多個參數值,且其中該第二參數資訊包含一校正因數參數化, 其中該德爾塔函數恢復單元經組配以反轉該校正因數參數化以獲得一德爾塔函數,且其中該德爾塔應用單元經組配以對該等參數值應用該德爾塔函數以判定該未混合資訊。
- 如請求項5之解碼器,其中該校正因數參數化包含多個線性預測係數,其中該德爾塔函數恢復單元經組配以藉由根據該多個線性預測係數產生多個校正因數來反轉該校正因數參數化,且其中該德爾塔函數恢復單元經組配以基於該多個校正因數產生該德爾塔函數。
- 如請求項1之解碼器,其中該解碼器進一步包含一未混合矩陣產生器,該未混合矩陣產生器用於根據該第一參數旁側資訊、根據該第二參數旁側資訊且根據呈現資訊而產生一未混合矩陣,且其中該未混合模組經組配以對該經變換下降混合應用該未混合矩陣以獲得該未經混合音訊信號。
- 如請求項1之解碼器,其中該未混合模組包含一去相關單元及一未混合單元,其中該去相關單元經組配以對該經變換下降混合進行去相關以獲得一去相關結果,且其中該未混合單元經組配以使用該去相關結果 來獲得該未經混合音訊信號。
- 一種用於編碼一或多個輸入音訊物件信號之編碼器,其包含:一下降混合單元,其用於下降混合該一或多個輸入音訊物件信號以獲得一或多個下降混合信號,以及一參數旁側資訊產生器,其用於產生關於至少一音訊物件信號之第一參數旁側資訊及關於該至少一音訊物件信號之第二參數旁側資訊,使得該第二參數旁側資訊之頻率解析度高於該第一參數旁側資訊的頻率解析度。
- 如請求項9之編碼器,其中該編碼器進一步包含一變換單元,該變換單元用於將該一或多個輸入音訊物件信號自一時域變換至一時間頻率域以獲得一或多個經變換音訊物件信號,且其中該參數旁側資訊產生器經組配以基於該一或多個經變換音訊物件信號產生該第一參數旁側資訊及該第二參數旁側資訊。
- 如請求項10之編碼器,其中該變換單元經組配以視包含該一或多個輸入音訊物件信號中之至少一者之信號值的一信號變換區塊的一窗長度而將該一或多個輸入音訊物件信號自該時域變換至該時間頻率域,其中該變換單元包含一瞬變偵測單元,該瞬變偵測單元用於判定指示一瞬變是否存在於該至少一音訊物 件信號中的一或多者中之一瞬變偵測結果,其中一瞬變指示該至少一音訊物件信號中之一或多者中的一信號改變,且其中該變換單元進一步包含一窗序列單元,該窗序列單元用於根據該瞬變偵測結果而判定該窗長度。
- 如請求項9至11中任一項之編碼器,其中該編碼器進一步包含一德爾塔估計單元,該德爾塔估計單元用於根據該至少一音訊物件信號基於多個參數值而估計多個校正因數以獲得該第二參數旁側資訊。
- 如請求項12之編碼器,其中該編碼器進一步包含一德爾塔模型化單元,該德爾塔模型化單元用於藉由進行一線性預測而自該多個校正因數來判定線性預測係數。
- 一種包含經編碼音訊信號之電腦可讀取媒體,其中該經編碼音訊信號包含:一下降混合部分,其指示一或多個輸入音訊物件信號的一下降混合,一參數旁側資訊部分,其包含關於至少一音訊物件信號之第一參數旁側資訊及關於該至少一音訊物件信號的第二參數旁側資訊,其中該第二參數旁側資訊之頻率解析度高於該第一參數旁側資訊的頻率解析度。
- 一種音訊信號系統,其包含:如請求項9至13中任一項之編碼器,其用於藉由以下操作來編碼一或多個輸入音訊物件信號:獲得指示一或多個輸入音訊物件信號之一下降混合的一或多個 下降混合信號、獲得關於該至少一音訊物件信號之第一參數旁側資訊、及獲得關於該至少一音訊物件信號的第二參數旁側資訊,其中該第二參數旁側資訊的頻率解析度高於該第一參數旁側資訊之頻率解析度,以及如請求項1至8中任一項之解碼器,其用於基於該一或多個下降混合信號且基於該第一參數旁側資訊及該第二參數旁側資訊來產生一未經混合音訊信號。
- 一種用於產生一未經混合音訊信號之方法,該未經混合音訊信號包含多個未經混合音訊通道,其中該方法包含:藉由接收關於至少一音訊物件信號之第一參數旁側資訊及關於該至少一音訊物件信號之第二參數旁側資訊來判定未混合資訊,其中該第二參數旁側資訊之頻率解析度高於該第一參數旁側資訊的頻率解析度,以及將該未混合資訊應用於一指示至少一音訊物件信號之一下降混合的下降混合信號,以獲得包含該多個未經混合音訊通道的一未經混合音訊信號,其中判定該未混合資訊包含修改該第一參數資訊及該第二參數資訊以獲得經修改之參數資訊,使得該經修改之參數資訊具有高於該第一頻率解析度的一頻率解析度。
- 一種用於編碼一或多個輸入音訊物件信號之方法,其包含:下降混合該一或多個輸入音訊物件信號以獲得一 或多個下降混合信號,以及產生關於至少一音訊物件信號之第一參數旁側資訊及關於該至少一音訊物件信號之第二參數旁側資訊,使得該第二參數旁側資訊之頻率解析度高於該第一參數旁側資訊的頻率解析度。
- 一種當在一電腦或信號處理器上執行時用於實施如請求項16或17之方法之電腦程式。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261710128P | 2012-10-05 | 2012-10-05 | |
EP13167485.5A EP2717261A1 (en) | 2012-10-05 | 2013-05-13 | Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201423728A TW201423728A (zh) | 2014-06-16 |
TWI545559B true TWI545559B (zh) | 2016-08-11 |
Family
ID=48325510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW102136011A TWI545559B (zh) | 2012-10-05 | 2013-10-04 | 解碼器、編碼器、音訊信號系統、產生未經混合音訊信號之方法、編碼輸入音訊物件信號之方法、以及相關電腦可讀取媒體及電腦程式 |
Country Status (21)
Country | Link |
---|---|
US (1) | US11074920B2 (zh) |
EP (2) | EP2717261A1 (zh) |
JP (1) | JP6285939B2 (zh) |
KR (1) | KR101798117B1 (zh) |
CN (1) | CN104838442B (zh) |
AR (1) | AR092927A1 (zh) |
AU (1) | AU2013326516B2 (zh) |
BR (1) | BR112015007532B1 (zh) |
CA (1) | CA2887228C (zh) |
ES (1) | ES2703327T3 (zh) |
HK (1) | HK1213360A1 (zh) |
MX (1) | MX345497B (zh) |
MY (1) | MY191498A (zh) |
PL (1) | PL2904609T3 (zh) |
PT (1) | PT2904609T (zh) |
RU (1) | RU2669079C2 (zh) |
SG (1) | SG11201502608XA (zh) |
TR (1) | TR201900436T4 (zh) |
TW (1) | TWI545559B (zh) |
WO (1) | WO2014053537A1 (zh) |
ZA (1) | ZA201503024B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MY160260A (en) * | 2008-07-11 | 2017-02-28 | Fraunhofer Ges Forschung | Audio encoder and audio decoder |
EP2804176A1 (en) * | 2013-05-13 | 2014-11-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio object separation from mixture signal using object-specific time/frequency resolutions |
EP2980801A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
US10134412B2 (en) * | 2015-09-03 | 2018-11-20 | Shure Acquisition Holdings, Inc. | Multiresolution coding and modulation system |
US11152014B2 (en) | 2016-04-08 | 2021-10-19 | Dolby Laboratories Licensing Corporation | Audio source parameterization |
US10362423B2 (en) | 2016-10-13 | 2019-07-23 | Qualcomm Incorporated | Parametric audio decoding |
EP3382701A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using prediction based shaping |
WO2018201112A1 (en) * | 2017-04-28 | 2018-11-01 | Goodwin Michael M | Audio coder window sizes and time-frequency transformations |
WO2019105575A1 (en) * | 2017-12-01 | 2019-06-06 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
CN110660401B (zh) * | 2019-09-02 | 2021-09-24 | 武汉大学 | 一种基于高低频域分辨率切换的音频对象编解码方法 |
FR3101741A1 (fr) * | 2019-10-02 | 2021-04-09 | Orange | Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés |
GB2598932A (en) * | 2020-09-18 | 2022-03-23 | Nokia Technologies Oy | Spatial audio parameter encoding and associated decoding |
CN113314130B (zh) * | 2021-05-07 | 2022-05-13 | 武汉大学 | 一种基于频谱搬移的音频对象编解码方法 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US7610205B2 (en) * | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
DE102004042819A1 (de) * | 2004-09-03 | 2006-03-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals |
KR100682904B1 (ko) | 2004-12-01 | 2007-02-15 | 삼성전자주식회사 | 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법 |
WO2008004812A1 (en) * | 2006-07-04 | 2008-01-10 | Electronics And Telecommunications Research Institute | Apparatus and method for restoring multi-channel audio signal using he-aac decoder and mpeg surround decoder |
CN101627425A (zh) * | 2007-02-13 | 2010-01-13 | Lg电子株式会社 | 用于处理音频信号的装置和方法 |
KR101100213B1 (ko) * | 2007-03-16 | 2011-12-28 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US8295494B2 (en) | 2007-08-13 | 2012-10-23 | Lg Electronics Inc. | Enhancing audio with remixing capability |
MX2010004220A (es) * | 2007-10-17 | 2010-06-11 | Fraunhofer Ges Forschung | Codificacion de audio usando mezcla descendente. |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
EP2175670A1 (en) | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
JP5678048B2 (ja) * | 2009-06-24 | 2015-02-25 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | カスケード化されたオーディオオブジェクト処理ステージを用いたオーディオ信号デコーダ、オーディオ信号を復号化する方法、およびコンピュータプログラム |
KR20110018107A (ko) * | 2009-08-17 | 2011-02-23 | 삼성전자주식회사 | 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치 |
PL2491551T3 (pl) * | 2009-10-20 | 2015-06-30 | Fraunhofer Ges Forschung | Urządzenie do dostarczania reprezentacji sygnału upmixu w oparciu o reprezentację sygnału downmixu, urządzenie do dostarczania strumienia bitów reprezentującego wielokanałowy sygnał audio, sposoby, program komputerowy i strumień bitów wykorzystujący sygnalizację sterowania zniekształceniami |
ES2805349T3 (es) * | 2009-10-21 | 2021-02-11 | Dolby Int Ab | Sobremuestreo en un banco de filtros de reemisor combinado |
EP2323130A1 (en) * | 2009-11-12 | 2011-05-18 | Koninklijke Philips Electronics N.V. | Parametric encoding and decoding |
CN102696070B (zh) * | 2010-01-06 | 2015-05-20 | Lg电子株式会社 | 处理音频信号的设备及其方法 |
MX2012001696A (es) * | 2010-06-09 | 2012-02-22 | Panasonic Corp | Metodo de extension de ancho de banda, aparato de extension de ancho de banda, programa, circuito integrado, y aparato de descodificacion de audio. |
WO2012037515A1 (en) * | 2010-09-17 | 2012-03-22 | Xiph. Org. | Methods and systems for adaptive time-frequency resolution in digital data coding |
US10497381B2 (en) * | 2012-05-04 | 2019-12-03 | Xmos Inc. | Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation |
-
2013
- 2013-05-13 EP EP13167485.5A patent/EP2717261A1/en not_active Withdrawn
- 2013-10-02 EP EP13773699.7A patent/EP2904609B1/en active Active
- 2013-10-02 MX MX2015004205A patent/MX345497B/es active IP Right Grant
- 2013-10-02 RU RU2015116434A patent/RU2669079C2/ru active
- 2013-10-02 WO PCT/EP2013/070533 patent/WO2014053537A1/en active Application Filing
- 2013-10-02 SG SG11201502608XA patent/SG11201502608XA/en unknown
- 2013-10-02 ES ES13773699T patent/ES2703327T3/es active Active
- 2013-10-02 MY MYPI2015000808A patent/MY191498A/en unknown
- 2013-10-02 PT PT13773699T patent/PT2904609T/pt unknown
- 2013-10-02 CN CN201380063932.4A patent/CN104838442B/zh active Active
- 2013-10-02 JP JP2015535004A patent/JP6285939B2/ja active Active
- 2013-10-02 KR KR1020157010956A patent/KR101798117B1/ko active IP Right Grant
- 2013-10-02 CA CA2887228A patent/CA2887228C/en active Active
- 2013-10-02 AU AU2013326516A patent/AU2013326516B2/en active Active
- 2013-10-02 BR BR112015007532-0A patent/BR112015007532B1/pt active IP Right Grant
- 2013-10-02 PL PL13773699T patent/PL2904609T3/pl unknown
- 2013-10-02 TR TR2019/00436T patent/TR201900436T4/tr unknown
- 2013-10-04 TW TW102136011A patent/TWI545559B/zh active
- 2013-10-07 AR ARP130103629A patent/AR092927A1/es active IP Right Grant
-
2015
- 2015-04-03 US US14/678,643 patent/US11074920B2/en active Active
- 2015-05-04 ZA ZA2015/03024A patent/ZA201503024B/en unknown
-
2016
- 2016-02-04 HK HK16101300.5A patent/HK1213360A1/zh unknown
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI545559B (zh) | 解碼器、編碼器、音訊信號系統、產生未經混合音訊信號之方法、編碼輸入音訊物件信號之方法、以及相關電腦可讀取媒體及電腦程式 | |
TWI541795B (zh) | 編碼器、解碼器、用於解碼之方法、用於編碼之方法及電腦程式 | |
RU2646375C2 (ru) | Выделение аудиообъекта из сигнала микширования с использованием характерных для объекта временно-частотных разрешений |