TW201528254A - 使用內插的矩陣呈現多聲道音頻 - Google Patents

使用內插的矩陣呈現多聲道音頻 Download PDF

Info

Publication number
TW201528254A
TW201528254A TW103133002A TW103133002A TW201528254A TW 201528254 A TW201528254 A TW 201528254A TW 103133002 A TW103133002 A TW 103133002A TW 103133002 A TW103133002 A TW 103133002A TW 201528254 A TW201528254 A TW 201528254A
Authority
TW
Taiwan
Prior art keywords
matrix
primitive
channels
concatenated
encoded
Prior art date
Application number
TW103133002A
Other languages
English (en)
Other versions
TWI557724B (zh
Inventor
Malcom James Law
Vinay Melkote
Rhonda Wilson
Simon Plain
Andy Jaspar
Original Assignee
Dolby Lab Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Lab Licensing Corp filed Critical Dolby Lab Licensing Corp
Publication of TW201528254A publication Critical patent/TW201528254A/zh
Application granted granted Critical
Publication of TWI557724B publication Critical patent/TWI557724B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本發明揭示了使用本原矩陣將編碼音訊解碼而(無損地)恢復多聲道音頻節目的內容且/或恢復該內容的至少一縮混之方法、以及產生該編碼音訊之編碼方法。在某些實施例中,一解碼器對一組種子本原矩陣執行內插,而決定被用於呈現該節目的聲道之內插矩陣。其他的觀點是一種被配置成執行該方法的任何實施例之系統或裝置。

Description

使用內插的矩陣呈現多聲道音頻 相關申請案之對照
本申請案聲明擁有於2013年9月27日提出申請的美國臨時專利申請案61/883,890的優先權,本申請案特此引用該專利申請案之全文以供參照。
本發明係有關音頻信號處理,且尤係有關使用內插矩陣呈現多聲道音頻節目(例如,表示包含至少一音頻物件聲道及至少一揚聲器聲道之基於物件的音頻節目(object-based audio program)之位元流),且係有關該等節目之編碼及解碼。在某些實施例中,一解碼器對一組種子本原矩陣(primitive matrix)執行內插,以便決定適用於呈現節目聲道之內插矩陣。某些實施例產生、解碼、及/或呈現被稱為Dolby TrueHD的格式之音頻資料。
Dolby及Dolby TrueHD是杜比實驗室特許公司(Dolby Laboratories Licensing Corporation)的商標。
呈現音頻節目的複雜性以及財務及計算成本隨著要被呈現的聲道數目之增加而增加。在呈現及播放基於物件的音頻節目期間,音頻內容有比呈現及播放傳統基於揚聲器聲道的節目期間發生的數目通常大許多(例如,大10倍)的數目之聲道(例如,物件聲道及揚聲器聲道)。此外,被用於播放的揚聲器系統通常包含比被用於播放傳統基於揚聲器聲道的節目的數目大許多的數目之揚聲器。
雖然本發明之實施例適用於呈現任何多聲道音頻節目之聲道,但是本發明之許多實施例尤其適用於呈現有大量聲道的基於物件的音頻節目之聲道。
已知將(諸如電影院中之)播放系統用於呈現基於物件的音頻節目。基於物件的音頻節目可表示對應於螢幕上的影像、對話、雜音、自螢幕上(或與螢幕有關)的不同位置發出的音效、以及用於產生預期整體聽覺體驗的(可由該節目的揚聲器聲道表示的)背景音樂及環境音效(ambient effect)之許多不同的音頻物件(audio object)。此類節目的精確播放需要以一種儘量對應於內容創作者對音頻物件大小、位置、強度、移動、及深度所意圖呈現之方式重現聲音。
在產生基於物件的音頻節目期間,通常假定將用於呈現的揚聲器設置在播放環境中之任意位置;該等揚聲器不必然按照(名義上)水平面中之預定安排,也不必然按照節目產生時已知之任何其他預定安排。節目中包含的元資料(metadata)通常指示諸如使用三維揚聲器陣列而呈現 一視在空間位置(apparent spatial location)上的或沿著(三維容積中之)一軌跡的該節目的至少一物件之呈現參數。例如,該節目的一物件聲道可具有用於指示將要呈現(由該物件聲道表示的)該物件的視在空間位置之三維軌跡之對應的元資料。該軌跡可包括(假定將要被設置在地板上的一部分的揚聲器的面中之、或該播放環境的另一水平面中之)一序列之"地板"位置、以及(分別由驅動假定將要被設置在該播放環境的至少一其他水平面中之一部分的揚聲器而決定之)一序列之"地板之上"位置。
基於物件的音頻節目代表在優於傳統基於揚聲器聲道的音頻節目的許多方面上之顯著改良,這是因為基於揚聲器聲道的音訊在特定音頻物件的空間播放上要比基於物件聲道的音訊受到更多的限制。基於揚聲器聲道的音頻節目只包含揚聲器聲道(不包含物件聲道),且每一揚聲器聲道通常決定一聆聽環境中之特定個別揚聲器的揚聲器饋源(speaker feed)。
已經提出了用於產生且呈現基於物件的音頻節目之各種方法及系統。在產生一基於物件的音頻節目期間,通常假定:任意數目的揚聲器將被用於播放節目,且要被用於播放的該等揚聲器將被設置在播放環境中之任意位置;該等揚聲器不必然在照(名義上)水平面中,也不必然按照節目產生時已知之任何其他預定安排。節目中包含的與物件有關之元資料通常指示諸如使用三維揚聲器陣列而呈現一視在空間位置上的或沿著(三維容積中之)一軌跡的該 節目的至少一物件之呈現參數。例如,該節目的一物件聲道可具有用於指示將要呈現(由該物件聲道表示的)該物件的視在空間位置之三維軌跡之對應的元資料。該軌跡可包括(假定將要被設置在地板上的一部分的揚聲器的面中之、或該播放環境的另一水平面中之)一序列之"地板"位置、以及(分別由驅動假定將要被設置在該播放環境的至少一其他水平面中之一部分的揚聲器而決定之)一序列之"地板之上"位置。例如,在2011年9月29日提出申請的國際專利申請案公告案號WO 2011/119401 A2(該專利申請案讓渡給本申請案之受讓人)公告之下的國際專利合作條約(PCT)專利申請案PCT/US2001/028783中說明了呈現基於物件的音頻節目之一些戲子。
一基於物件的音頻節目可包括"底層"聲道。底層聲道(bed channel)可以是用於表示在相關時間間隔中不改變位置的物件(且因而通常使用有靜態揚聲器位置的一組播放系統揚聲器呈現該物件)之一物件聲道,或者底層聲道可以是(將由播放系統的特定揚聲器呈現之)一揚聲器聲道。底層聲道沒有對應的時變位置元資料(time varying position metadata)(但是底層聲道可被視為具有非時變位置元資料(time-invariant position metadata))。底層聲道可表示諸如用於表示環境音效的音訊等的散佈在空間中之聲音元素(audio element)。
藉由將節目的各聲道(包括物件聲道)呈現到一組揚聲器饋源,而實現優於傳統揚聲器設置(例如,7.1聲道 播放系統)的基於物件的音頻節目播放。在本發明之典型實施例中,呈現一基於物件的音頻節目的物件聲道(在本發明中有時被稱為物件)及其他聲道(或另一類型的音頻節目之聲道)之程序大部分地(或唯一地)包含:於每一時刻將(要被呈現的聲道之)空間元資料轉換為一對應的增益矩陣(gain matrix)(在本發明中被稱為呈現矩陣(rendering matrix)),該增益矩陣代表該等聲道(例如,物件聲道及揚聲器聲道)中之每一聲道對特定揚聲器的揚聲器饋源所表示的(該時刻之)音頻內容的混合有多少貢獻(亦即,該揚聲器饋源表示的該混合中之該節目的該等聲道的每一聲道之相對權值)。
一基於物件的音頻節目的一"物件聲道"表示用於表示一音頻物件的一序列之樣本,且該節目通常包括用於表示每一物件聲道的物件位置或或軌跡之一序列之空間位置元資料值。在本發明之典型實施例中,對應於一節目的物件聲道之位置元資料值序列被用於決定用於表示該節目的一時變增益規格之一M×N矩陣A(t)
可以來自每一聲道的於時間"t"的一音頻樣本構成的長度為"N"之一向量x(t)乘以自時間"t"的相關聯的位置元資料(以及對應於將要被呈現的音頻內容的諸如物件增益等的或有之其他元資料)決定之一M×N矩陣A(t)得到的結果表示一音頻節目於時間"t"時將該節目的"N"個聲道(例如,物件聲道、或物件聲道及揚聲器聲道)呈現到"M"個揚聲器。可以如同下列方程式(1)所示之方式將時間t 時的該等揚聲器饋源之結果值(例如,增益或電平)表示為一向量y(t):
雖然方程式(1)描述了將一音頻節目(例如,一基於物件的音頻節目、或一基於物件的音頻節目之一編碼版本)的N個聲道呈現到M個輸出聲道(例如,M個揚聲器饋源),但是該方程式(1)也代表以線性運算將一組的N個音頻樣本轉換為一組的M個值(例如,M個樣本)之一組一般的情況。例如,例如,A(t)可以是一靜態矩陣"A",其中該矩陣的係數並不隨著不同的時間"t"值而改變。舉另一例子,A(t)(可以是一靜態矩陣A)可代表以傳統方式將一組揚聲器聲道x(t)縮混(downmix)為一較小組的揚聲器聲道y(t)(或者x(t)可以是用於以一Ambisonics格式描述一空間場景(spatial scene)之一組音頻聲道),且可將該轉換為揚聲器饋源y(t)規定為乘以該縮混矩陣A。甚至在採用標稱靜態的縮混矩陣之一應用中,所使用的實際線性變換(矩陣乘法)可以是動態的,以便保證縮混的視訊片段保護(clip-protection)(亦即,可將一靜態變換轉換為一時變變換A(t),以便保證視訊片段保護。
一音頻節目呈現系統(例如,實施該系統的一解碼器)可在一節目期間只是間歇性地且並非在每一時刻"t"接收用於決定呈現矩陣A(t)之元資料(或者該系統可接收該等矩陣本身)。例如,此種接收可能是由於多種理由中之任何理由,例如,由於實際輸出該元資料的系統之低時間解析度,或者由於需要限制該節目的傳輸位元率。本案發明人已認知:可能希望一呈現系統分別在一節目的時刻"t1"及"t2"時執行呈現矩陣A(t1)及A(t2)間之內插,以便得到一中間時刻"t3"的一呈現矩陣A(t3)。內插保證在被呈現的揚聲器饋源中之物件的所感知位置平滑地隨著時間的經過而改變,且可消除諸如源自於不連續的(分段常數(piece-wise constant))矩陣更新之拉鍊雜音(zipper noise)等的令人不快之人為失真(artifact)。該內插可以是線性的(或非線性的),且通常應保證自A(t1)至A(t2)之連續時間路徑。
Dolby TrueHD是一種支援音頻信號的無損及可調式傳輸(scalable transmission)之傳統的音訊編碼解碼格式。來源音訊被編碼為一階層的聲道子位元流(substream),且可自位元流擷取一被選擇子集的該等子位元流(而不是所有的該等子位元流),且將該被選擇子集的該等子位元流解碼,以便得到空間場景的較低維度(縮混)呈現。當所有的該等子位元流被解碼時,所得到的音訊相同於該來源音訊(該編碼及後續之該解碼是無損的)。
在一可自市場上購得的TrueHD版本中,來源音訊通常是被編碼為一序列之三個子位元流之7.1聲道混音,該等三個子位元流包括一第一子位元流,該第一子位元流可被解碼而決定該7.1聲道原始音訊的二聲道縮混。前面兩個子位元流可被解碼而決定該原始音訊的5.1聲道縮混。所有三個子位元流可被解碼而決定該原始的7.1聲道音訊。Dolby TrueHD及其所依據的Meridian無損壓縮(Meridian Lossless Packing;簡稱MLP)技術都是習知的。於2003年8月26日核准且讓渡給杜比實驗室特許公司(Dolby Laboratories Licensing Corporation)之美國專利6,611,212以及Gerzon等人發表的論文"The MLP Lossless Compression System for PCM Audio(刊登於J.AES,Vol.52,No.3,pp.243-260(March 2004)中說明了TrueHD及MLP技術的一些觀點。
TrueHD支援縮混矩陣的規格。在典型的使用中,7.1聲道音頻節目的內容創作者指定用於將該7.1聲道節目縮混為一5.1聲道混音的一靜態矩陣、以及用於將該5.1聲道縮混再縮混為一2聲道縮混的另一靜態矩陣。每一靜態縮混矩陣可被轉換為一序列之縮混矩陣(該序列中之每一矩陣係用於縮混該節目中之不同的時間間隔),以便實現視訊片段保護。然而,該序列中之每一矩陣被傳輸到(或用於決定該序列中之每一矩陣的元資料被傳輸到)該解碼器,且該解碼器並不為了決定一節目的一序列之縮混矩陣中之後續矩陣而對任何先前被指定的縮混矩陣執行內插。
第1圖是一傳統的TrueHD系統的元件之一示意圖,其中編碼器30及解碼器32被配置成對音頻樣本執行矩陣運算。在第1圖之系統中,編碼器30被配置成將8聲道音頻節目(例如,一傳統組的7.1揚聲器饋源)編碼為其中包括兩個子位元流之一編碼位元流,且解碼器32被配置成將該編碼位元流解碼而(無損地)呈現該原始8聲道節目或該原始8聲道節目之一2聲道縮混。編碼器30被耦合且被配置成產生該編碼位元流且將該編碼位元流觸發到傳送系統31。
傳送系統31被耦合且被配置成將該編碼位元流傳送(例如,藉由儲存及/或傳輸)到解碼器32。在某些實施例中,系統31實施將一編碼多聲道音頻節目經由一廣播系統或一網路(例如,網際網路)而傳送(例如,傳輸)到解碼器32。在某些實施例中,系統31將一編碼多聲道音頻節目儲存在一儲存媒體(例如,一磁碟或一組磁碟),且解碼器32被配置成自該儲存媒體讀取節目。
編碼器30中被標示為"InvChAssign1"之方塊被配置成對該輸入節目的該等聲道執行聲道置換(channel permutation)(等同於乘以一置換矩陣(permutation matrix))。該等被置換之聲道然後接受級33中之編碼,該級33輸出八個編碼信號聲道。該等編碼信號聲道可(但無須)對應於播放揚聲器聲道。該等編碼信號聲道有時被稱為"內部"聲道,這是因為一解碼器(及/或呈現系統)通常解碼且呈現該等編碼信號聲道的內容而恢復該 輸入音訊,因而該等編碼信號聲道對該編碼/解碼系統而言是內部的。在級33中執行的該編碼等同於將該等被置換之聲道的每一組樣本乘以一編碼矩陣(該編碼矩陣被實施為以識別之一串接的n+1個矩陣乘法,其中情形將於下文中更詳細地說明)。
矩陣決定子系統34被配置成產生用於表示兩組輸出矩陣(一組對應於該等編碼聲道的兩個子位元流中之每一子位元流)的係數之資料。一組輸出矩陣包含兩個矩陣,該等矩陣中之每一矩陣是維度為2×2之一(下文中將定義之)本原矩陣,且係用於呈現其中包含該編碼位元流的兩個該等編碼聲道之一第一子位元流(一縮混子位元流)(以便呈現該八聲道輸入音訊之二聲道縮混)。另一組輸出矩陣包含呈現矩陣P0,P1,...,Pn,每一呈現矩陣是一本原矩陣,且係用於呈現其中包含該編碼位元流的所有八個該等編碼聲道之一第二子位元流(以便無損地恢復該八聲道輸入音頻節目)。被施加到該編碼器的音訊之一串接的該等矩陣以及該等矩陣等於用於將該等8個輸入聲道轉換為該2聲道縮混之縮混矩陣規格,且一串接的該等矩陣P0,P1,...,Pn將該編碼位元流的該等8個編碼聲道呈現回到原始的8個輸入聲道。
自子系統34輸出到壓縮子系統35的(每一矩陣之)該等係數是用於指示將被包含在該節目的一對應的聲道混合之每一聲道之相對或絕對增益之元資料。(在該節目期間的一時刻之)每一呈現矩陣的該等係數代表一混合的該 等聲道中之每一聲道應(在該被呈現混合之對應的時刻)貢獻多少給由一特定播放系統揚聲器的揚聲器饋源所指示之音頻內容的混合。
(自編碼級33輸出的)該等八個編碼聲道、(子系統34產生的)該等輸出矩陣係數、以及通常亦為額外的資料被觸發到壓縮子系統35,該壓縮子系統35將該等資料組合為編碼位元流,該編碼位元流然後被觸發到傳送系統31。
該編碼位元流包括用於表示該等八個編碼聲道、該等兩組輸出矩陣(一組對應於該等編碼聲道的兩個子位元流中之每一子位元流)、以及通常亦為額外的資料(例如,與音頻內容有關的元資料)之資料。
解碼器32之剖析子系統36被配置成自傳送系統31接受(讀取或接收)該編碼位元流且剖析該編碼位元流。子系統36可操作而將該編碼位元流的該等子位元流觸發到矩陣乘法級38(用於處理而產生該原始8聲道輸入節目的內容之2聲道縮混呈現),其中該等子位元流包括只包含該編碼位元流的兩個編碼聲道之一"第一"子位元流、以及對應於該第一子位元流之輸出矩陣()。子系統36亦可操作而將該編碼位元流的該等子位元流(包含該編碼位元流的所有八個編碼聲道之該"第二子"位元流)以及對應的輸出矩陣(P 0,P 1,...,P n )觸發到矩陣乘法級37,用以處理而導致該原始8聲道節目的無損呈現。
更具體而言,級38將該第一子位元流的兩個聲道之 兩個音頻樣本乘以一串接的該等矩陣,且使每一所得組的兩個線性變換樣本接受名稱為"ChAssign0"的方塊代表之聲道置換(等同於乘以一置換矩陣),而得到該原始8聲道的所需2聲道縮混之每一對的樣本。在編碼器30及解碼器32中執行的該串接的矩陣運算等同於應用將8輸入聲道轉換為2聲道縮混的一縮混矩陣規格。
級37將八個音頻樣本(各音頻樣本來自該編碼位元流的整組八個聲道中之每一聲道)之每一向量乘以一串接的該等矩陣P0,P1,...,Pn,且每一所得組的八個線性變換樣本接受名稱為"ChAssign1"的方塊代表之聲道置換(等同於乘以一置換矩陣),而得到以無損方式恢復的原始8聲道節目之每一組的八個樣本。為了使該輸出的8聲道音訊完全相同於輸入的8聲道音訊(而實現該系統的"無損"特性),在編碼器30中執行的該等矩陣運算應是在解碼器32中對該編碼位元流的該無損(第二)子位元流執行的矩陣運算(亦即,乘以該串接的矩陣P0,P1,...,Pn)之精確逆矩陣運算(包括量化效應(quantization effect))。因此,在第1圖中,編碼器30的級33中之該等矩陣運算被識別為按照解碼器32的級37中應用的該等矩陣P0,P1,...,Pn的相反順序之一串接的逆矩陣(inverse matrix),亦即:
解碼器32應用編碼器30應用的聲道置換之逆聲道置換(亦即,解碼器32的元件"ChAssign1"代表的置換矩陣是編碼器30的元件"InvChAssign1"代表的置換矩陣之逆置 換矩陣)。
如果已知一縮混矩陣規格(例如,維度為2×8的一靜態矩陣A之規格),且編碼器30的一傳統TrueHD編碼器實施例之一目標是設計輸出矩陣(例如,第1圖之P0,P1,...,Pn)、輸入矩陣()、以及輸出(及輸入)聲道指派(channel assignment),則將依循下列原則:1.編碼位元流是階層的(亦即,在該例子中,前兩個編碼聲道足以導出2聲道縮混呈現,且完整組的八個編碼聲道足以恢復原始的8聲道節目);以及2.用於最上層位元流的該等矩陣(在該例子中為P0,P1,...,Pn)是完全可逆的,因而該解碼器可精確地擷取輸入音訊。
一般的計算系統係在有限的精確度下工作,而計算任意的可逆矩陣之逆矩陣很可能需要極高的精確度。TrueHD藉由將該等輸出矩陣及輸入矩陣(亦即,P0,P1,...,Pn)限制為被稱為"本原矩陣"類型的方陣(square matrix),而解決該問題。
維度N×N的一本原矩陣P之形式為:
本原矩陣必然是一方陣。維度N×N的一本原矩陣除 了一(非零)列(亦即,該例子中含有元素α 0,α 1,α 2,...,α N-1的列)之外,相同於維度N×N的單位矩陣(identity matrix)。在所有其他列中,非對角線的元素是零,且與對角線共用的元素具有1的絕對值(亦即,+1或-1)。為了簡化本發明揭示中之語文,各圖式及說明將永遠假定:一本原矩陣除了非零列中之對角線元素之外,具有等於+1的對角線元素。然而,請注意:在不失掉一般性之情況下,本發明揭示中提出的觀念係有關對角線元素可以是+1或-1之一般類別的本原矩陣。
當一本原矩陣P對一向量x(t)執行運算(亦即,執行乘法)時,結果是乘積Px(t),該乘積Px(t)是除了一之外的所有元素正好與x(t)相同的另一N維向量。因此,可使每一本原矩陣與其操作的(或其執行運算的)一唯一聲道相關聯。
本說明書中將術語"單位本原矩陣(unit primitive matrix)"用於表示與(本原矩陣的非零列)對角線共用的元素具有1的絕對值(亦即,+1或-1)之本原矩陣。因此,一單位本原矩陣的對角線包含全部的正一(+1)、或全部的負一(01)、或一些正一及一些負一。本原矩陣只改變音頻節目聲道的一聲道之一組(一向量的)樣本,且單位本原矩陣由於對角線上之單位值而也是可具有無損的逆矩陣。為了簡化本說明書中之討論,將仍然使用術語"單位本原矩陣"參照到非零列具有+1的對角線元素之本原矩陣。然而,在本說明書中(包括在申請專利範圍中)提 及單位本原矩陣時,將意圖涵蓋單位本原矩陣可具有與對角線共用的元素是+1或-1的非零列之更一般性情況。
如果本原矩陣P的上述例子中之α 2=1(導致具有包含正一的一對角線之一單位本原矩陣,可看出P的逆矩陣正好是:
一般而言,下列的情況為真:只須反轉一單位本原矩陣的不在對角線上之每一非零α係數(將該係數乘以-1),即可決定該單位本原矩陣之逆矩陣。
如果第1圖的解碼器32中採用的該等矩陣P0,P1,...,Pn是單位本原矩陣(具有單位對角線),則可以第2A及2B圖所示類型的有限精確度電路實施編碼器30中之矩陣運算序列以及解碼器32中之矩陣運算序列P0,P1,...,Pn。第2A圖示出用於經由以有限精確度算術實施的本原矩陣執行無損矩陣運算的一編碼器之傳統電路。第2B圖示出用於經由以有限精確度算術實施的本原矩陣執行無損矩陣運算的一解碼器之傳統電路。於2003年8月26日核准之前文引用的美國專利6,611,212中說明了第2A圖及第2B圖電路(及其變形)的典型實施例之細節。
在(代表用於將包含聲道S1、S2、S3、及S4的四聲 道音頻節目編碼的電路之)第2A圖中,一第一本原矩陣(具有一列的四個非零α係數)藉由將聲道S1的相關樣本與聲道S2、S3、及S4(發生於相同時間t之)對應的樣本混合,而對聲道S1的每一樣本操作(以便產生編碼聲道S1')。一第二本原矩陣(也具有一列的四個非零α係數)藉由將聲道S2的相關樣本與聲道S1'、S3、及S4之對應的樣本混合,而對聲道S2的每一樣本操作(以便產生編碼聲道S2'之一對應的樣本)。更具體而言,將聲道S2之樣本乘以矩陣的係數α 1之逆係數(被識別為"coeff[1,2]"),將聲道S3之樣本乘以矩陣的係數α 2之逆係數(被識別為"coeff[1,3]"),且將聲道S4之樣本乘以矩陣的係數α 3之逆係數(被識別為"coeff[1,4]"),將該等乘積加總且然後量化,然後以聲道S1之對應的樣本減掉該量化的總和。同樣地,將聲道S1之樣本乘以矩陣的係數α 0之逆係數(被識別為"coeff[2,1]"),將聲道S3之樣本乘以矩陣的係數α 2之逆係數(被識別為"coeff[2,3]"),且將聲道S4之樣本乘以矩陣的係數α 3之逆係數(被識別為"coeff[2,4]"),將該等乘積加總且然後量化,然後以聲道S2之對應的樣本減掉該量化的總和。矩陣的量化級Q1將用於將該等乘法(乘以該矩陣的通常為分數值之非零α係數)的乘積加總之總和元件之輸出量化,而產生量化值,且以聲道S1之樣本減掉該量化值,而產生編碼聲道S1'之對應的樣本。矩陣的量化級Q2將用於將該等乘法(乘以該矩陣的通常為分 數值之非零α係數)的乘積加總之總和元件之輸出量化,而產生量化值,且以聲道S2之樣本減掉該量化值,而產生編碼聲道S2'之對應的樣本。在一典型實施例(例如,用於執行TrueHD編碼之實施例)中,聲道S1、S2、S3、及S4中之每一聲道的每一樣本包含24位元(如第2A圖中所示),且每一乘法元件之輸出包含38位元(亦如第2A圖中所示),且量化級Q1及Q2中之每一量化級回應其所輸入的每一38位元值而輸出24位元量化值。
當然,為了將聲道S3及S4編碼,可將兩個額外的本原矩陣與第2A圖所示的該等兩個本原矩陣()串接。
在(代表用於將第2A圖的該編碼器產生的四聲道編碼節目解碼的電路之)第2B圖中,一第一本原矩陣P1(具有一列的四個非零α係數,且係為矩陣的逆矩陣)藉由將聲道S1'、S3、及S4的樣本與聲道S2'的相關樣本混合,而對編碼聲道S2'的每一樣本操作(以便產生解碼聲道S2之一對應的樣本)。一第二本原矩陣P0(也具有一列的四個非零α係數,且係為矩陣的逆矩陣)藉由將聲道S2、S3、及S4的樣本與聲道S1'的相關樣本混合,而對編碼聲道S1'的每一樣本操作(以便產生解碼聲道S1之一對應的樣本)。更具體而言,將聲道S1'之樣本乘以矩陣P1的一係數α 0(被識別為"coeff[2,1]"),將聲道S3之樣本乘以矩陣P1的一係數α 2(被識別為"coeff[2,3]"),將聲道S4之樣本乘以矩陣P1的一係數α 3 (被識別為"coeff[2,4]"),將該等乘積加總且然後量化,然後將該量化的總和加上聲道S2'之對應的樣本。同樣地,將聲道S2'之樣本乘以矩陣P0的一係數α 1(被識別為"coeff[1,2]"),將聲道S3之樣本乘以矩陣P0的一係數α 2(被識別為"coeff[1,3]"),將聲道S4之樣本乘以矩陣P0的一係數α 3(被識別為"coeff[1,4]"),將該等乘積加總且然後量化,然後將該量化的總和加上聲道S1'之對應的樣本。矩陣P1的量化級Q2將用於將該等乘法(乘以該矩陣P1的通常為分數值之非零α係數)的乘積加總之總和元件之輸出量化,而產生量化值,且將該量化值加上聲道S2'之樣本,而產生解碼聲道S2之對應的樣本。矩陣P0的量化級Q1將用於將該等乘法(乘以該矩陣P0的通常為分數值之非零α係數)的乘積加總之總和元件之輸出量化,而產生量化值,且將該量化值加上聲道S1'之樣本,而產生解碼聲道S1之對應的樣本。在一典型實施例(例如,用於執行TrueHD解碼之實施例)中,聲道S1'、S2'、S3、及S4中之每一聲道的每一樣本包含24位元(如第2B圖中所示),且每一乘法元件之輸出包含38位元(亦如第2B圖中所示),且量化級Q1及Q2中之每一量化級回應其所輸入的每一38位元值而輸出24位元量化值。
當然,為了將聲道S3及S4解碼,可將兩個額外的本原矩陣與第2B圖所示的該等兩個本原矩陣(P0及P1)串接。
對一向量(N個樣本,每一樣本是第一組的N個聲道中之一不同的聲道的一樣本)操作之諸如由第1圖的該解碼器實施的該序列之N×N本原矩陣P0,P1,...,Pn等的一序列之本原矩陣可執行用於將該等N個樣本變換為一組新的N個樣本之任何線性變換(例如,在將該等聲道呈現到N個揚聲器饋源期間,可於一時間t時將一基於物件的音頻節目的N個聲道之樣本乘以方程式(1)的矩陣A(t)之任何N×N實施例,而執行該線性變換,其中係一次調處一聲道,而實現該變換)。因此,將一組的N個音頻樣本乘以一序列之N×N本原矩陣代表以線性運算將該組的N個樣本轉換為另一組的(N個樣本)之一組通用情況。
請再參閱第1圖的解碼器32之一TrueHD實施例,為了保持TrueHD中之解碼器架構的一致性,也將縮混子位元流的輸出矩陣(第1圖中之)實施為本原矩陣,但是該等本原矩陣不需要是可逆的(或者不需要有單位對角線),這是因為該等本原矩陣與無損的實現不相關聯。
一TrueHD編碼器及解碼器中採用的輸入及輸出本原矩陣取決於將要被實施之每一特定縮混規格。一TrueHD解碼器的功能是將一適當串接的本原矩陣施加到所接收的編碼音頻位元流。因此,第1圖之該TrueHD解碼器將(系統D傳送的)該編碼位元流之8個聲道解碼,且將一串接的兩個輸出本原矩陣施加到該解碼位元流的該等聲道之一子集,而產生一個2聲道縮混。第1圖的解碼 器32之一TrueHD實施例亦可操作而將(系統D傳送的)該編碼位元流之該等8個聲道解碼,而藉由將一串接的八個輸出本原矩陣P0,P1,...,Pn施加到該編碼位元流之該等聲道,而無損地恢復該原始8聲道節目。
TrueHD解碼器沒有用於核對以便決定該解碼器的再生是否為無損再生之(被輸入到編碼器的)原始音訊(或者在縮混之情形中,該編碼器需要決定該無損性)。然而,該編碼位元流含有一"核對字"("check word")(或無損核對),用以比較該解碼器自再生音訊推導出之一類似字,以便決定該再生是否為忠實的再生。
如果由一TrueHD編碼器將一基於物件的音頻節目(例如,包含大於八個的聲道)編碼,則該編碼器可產生用於載送與傳統播放裝置相容的呈現(例如,可被解碼到縮混揚聲器饋源以供在傳統的7.1聲道或5.1聲道或其他傳統的揚聲器設置上播放之呈現)之縮混子位元流、以及一上層子位元流(用於表示輸入節目的所有聲道)。TrueHD解碼器可無損地恢復原始基於物件的音頻節目,以便由一播放系統呈現。該例子中之該編碼器採用之每一呈現矩陣規格(亦即,用於產生該上層子位元流及每一縮混子位元流)、以及因而被該編碼器決定之每一輸出矩陣可以是一時變呈現矩陣A(t),該時變呈現矩陣A(t)線性變換該節目的各聲道之樣本(以便諸如產生一7.1聲道或5.1聲道縮混)。然而,當物件在空間場景中移動時,該矩陣A(t)通常將迅速地及時改變,且傳統TrueHD系統 (或其他傳統的解碼系統)之位元率及處理限制通常將該系統限制成最多能夠提供此種(在付出編碼節目傳輸的較高位元率之代價下實現的較高矩陣更新率之)連續地(且迅速地)改變的矩陣規格之分段常數近似。為了以用於表示來自該等節目的各聲道的內容之迅速改變之混合之揚聲器饋源支援基於物件的多聲道音頻節目(及其他多聲道音頻節目)之呈現,本案發明人認知:最好是增強傳統的系統而提供內插矩陣運算,其中呈現矩陣更新是不頻繁的,且以參數方式指定各更新間之所需軌跡(亦即,節目聲道的內容混合之所需序列)。
在一類別的實施例中,本發明是一種用於將N聲道音頻節目(例如,基於物件的音頻節目)編碼之方法,其中在一時間間隔中指定該節目,該時間間隔包括自一時間t1至一時間t2的一子區間(subinterval),且已指定了該時間間隔中之N個編碼信號聲道至M個輸出聲道(例如,對應於播放揚聲器聲道的聲道)的一時變矩陣A(t),其中M小於或等於N,該方法包含下列步驟:決定一第一串接的N×N本原矩陣,該第一串接的N×N本原矩陣被施加到該等N個編碼信號聲道的樣本時,執行將該等N個編碼信號聲道的音頻內容混合為該等M個輸出聲道之一第一混合,其中該第一混合至少實質上等於A(t1),從這一方面來說,該第一混合與該時變矩陣A(t) 是一致的;決定一些內插值,該等內插值連同該第一串接的本原矩陣以及在該子區間中界定的一內插函數表示了一序列之串接的N×N已更新本原矩陣,因而每一該等串接的已更新本原矩陣被施加到該等N個編碼信號聲道的樣本時,執行將該等N個編碼信號聲道混合為該等M個輸出聲道之與該子區間中之一不同的時間相關聯的一更新混合,其中每一該更新混合與該時變矩陣A(t)一致(與該子區間中之任何時間t3相關聯的更新混合最好是至少實質上等於A(t3),但是在某些實施例中,與該子區間中之至少一時間相關聯的更新混合與該時間上的A(t)值之間可能有誤差);以及產生用於表示編碼音頻內容、該等內插值、及該第一串接的本原矩陣之一編碼位元流。
在某些實施例中,該方法包含下列步驟:對該節目的N個聲道之樣本執行矩陣運算(例如,包括將一序列之矩陣串接施加到該等樣本,其中該序列中之每一矩陣串接是一串接的本原矩陣,且該序列之矩陣串接包括係為該第一串接的本原矩陣之一串接的逆本原矩陣的一第一逆矩陣串接),而產生編碼音頻內容。
在某些實施例中,該等本原矩陣中之每一本原矩陣是一單位本原矩陣。在N=M的某些實施例中,該方法亦包含下列步驟:處理該編碼位元流(其中包括執行內插,以便自該等內插值、該第一串接的本原矩陣、及該內插函數 決定該序列之串接的N×N已更新本原矩陣),而無損地恢復該節目之該等N個聲道。該編碼位元流可表示該內插函數(亦即,可包括用於表示該內插函數之資料),或可以其他方式將該內插函數提供給該解碼器。
在N=M的某些實施例中,該方法亦包含下列步驟:將該編碼位元流傳送到被配置成執行該內插函數之一解碼器;以及在該解碼器中處理該編碼位元流,而無損地恢復該節目之該等N個聲道,其中包括執行內插,以便自該等內插值、該第一串接的本原矩陣、及該內插函數決定該序列之串接的N×N已更新本原矩陣。
在某些實施例中,該節目是包括至少一物件聲道以及用於表示至少一物件的一軌跡的位置資料之一基於物件的音頻節目。可自該位置資料(或自其中包括該位置資料的資料)決定該時變矩陣A(t)。
在某些實施例中,該第一串接的本原矩陣是一種子本原矩陣,且該等內插值表示了該種子本原矩陣之一種子差量矩陣。
在某些實施例中,已指定了將該時間間隔中之該節目的音頻內容或編碼內容縮混為M1個揚聲器聲道之一時變縮混A2(t),其中M1是小於M的一整數,且該方法包含下列步驟:決定一第二串接的M1×M1本原矩陣,該第二串接的M1×M1本原矩陣被施加到該音頻內容或編碼內容的M1個聲道之樣本時,執行將該節目的音頻內容縮混為該等M1 個揚聲器聲道,其中該縮混至少實質上等於A2(t1),從這一方面來說,該縮混與該時變混合A2(t)是一致的;決定一些額外的內插值,該等額外的內插值連同該第二串接的M1×M1本原矩陣以及在該子區間中界定的一第二內插函數表示了一序列之串接的已更新M1×M1本原矩陣,因而每一該等串接的已更新M1×M1本原矩陣被施加到該音頻內容或該編碼內容之該等M1個聲道的樣本時,執行將該節目的音頻內容縮混為該等M1個揚聲器聲道之與該子區間中之一不同的時間相關聯的一更新縮混,其中每一該更新縮混與該時變矩陣A2(t)一致,且其中該編碼位元流表示了該等額外的內插值以及該第二串接的M1×M1本原矩陣。該編碼位元流可表示該第二內插函數(亦即,可包括用於表示該第二內插函數之資料),或可以其他方式將該第二內插函數提供給該解碼器。該時變縮混A2(t)是原始節目的音頻內容之一縮混、或該編碼位元流的編碼音頻內容之一縮混、或該編碼位元流的編碼音頻內容的一部分解碼版本之一縮混、或用於表示該節目的音頻內容的以其他方式編碼的(例如,被部分解碼的)音訊之一縮混,從這一方面來說,該時變縮混A2(t)是該節目的音頻內容或編碼內容之一縮混。該縮混規格A2(t)中之時變可能是由於(至少部分地由於)以斜坡方式上升到該指定縮混之視訊片段保護或自該指定縮混之視訊片段保護釋放。
在一第二類別的實施例中,本發明是一種用於恢復多 聲道音頻節目(例如,基於物件的音頻節目)的M個聲道之方法,其中在一時間間隔中指定該節目,該時間間隔包括自一時間t1至一時間t2的一子區間,且已指定了該時間間隔中將N個編碼信號聲道混合為M個輸出聲道的一時變混合A(t),該方法包含下列步驟:取得用於表示編碼音頻內容、一些內插值、及一第一串接的N×N本原矩陣之一編碼位元流;以及執行內插,以便自該等內插值、該第一串接的本原矩陣、及該子區間中之一內插函數決定一序列之串接的N×N已更新本原矩陣,其中該第一串接的N×N本原矩陣被施加到該編碼音頻內容之N個編碼信號聲道的樣本時,執行將該等N個編碼信號聲道的音頻內容混合為該等M個輸出聲道之一第一混合,其中該第一混合至少實質上等於A(t1),從這一方面來說,該第一混合與該時變混合A(t)是一致的,且該等內插值連同該第一串接的本原矩陣以及該內插函數表示了一序列之串接的N×N已更新本原矩陣,因而每一該等串接的已更新本原矩陣被施加到該編碼音頻內容的該等N個編碼信號聲道之樣本時,執行將該等N個編碼信號聲道混合為該等M個輸出聲道之與該子區間中之一不同的時間相關聯的一更新混合,其中每一該更新混合與該時變混合A(t)一致(與該子區間中之任何時間t3相關聯的更新混合最好是至少實質上等於A(t3),但是在某些實施例中,與該子區間中之至少一時間相關聯的更新混合與該時間上的 A(t)值之間可能有誤差)。
在某些實施例中,已對該節目的N個聲道之樣本執行矩陣運算(包括將一序列之矩陣串接施加到該等樣本,其中該序列中之每一矩陣串接是一串接的本原矩陣,且該序列之矩陣串接包括係為該第一串接的本原矩陣之一串接的逆本原矩陣的一第一逆矩陣串接),而產生該編碼音頻內容。
根據這些實施例而自該編碼位元流恢復的(例如,無損恢復的)該音頻節目之該等聲道可以是已對一X聲道輸入音頻節目(其中X是一任意整數,且N小於X)執行矩陣運算而自該X聲道輸入音頻節目產生的該X聲道輸入音頻節目的音頻內容之一縮混,因而決定了該編碼位元流之該編碼音頻內容。
在該第二類別的某些實施例中,該等本原矩陣中之每一本原矩陣是一單位本原矩陣。
在該第二類別的某些實施例中,已指定了該時間間隔中將該N聲道節目縮混為M1個揚聲器聲道的一時變縮混A2(t),且亦已指定了該時間間隔中將該節目的音頻內容或編碼內容縮混為M個揚聲器聲道的一時變縮混A2(t)。該方法包含下列步驟:接收一第二串接的M1×M1本原矩陣及第二組的內插值;將該第二串接的M1×M1本原矩陣施加到該編碼音頻內容的M1個聲道之樣本,而執行將該N聲道節目縮混為 M1個揚聲器聲道,其中該縮混至少實質上等於A2(t1),從這一方面來說,該縮混與該時變混合A2(t)是一致的;施加該第二組的內插值、該第二串接的M1×M1本原矩陣、及在該子區間中界定之一第二內插函數,而取得一序列之串接的已更新M1×M1本原矩陣;以及將該等已更新M1×M1本原矩陣施加到該編碼內容的該等M1個聲道之樣本,而執行該N聲道節目之與該子區間中之一不同的時間相關聯的至少一更新縮混,其中每一該更新縮混與該時變混合A2(t)一致。
在某些實施例中,本發明是一種呈現多聲道音頻節目之方法,該方法包含下列步驟:將一種子矩陣(seed matrix)組(例如,對應於該音頻節目期間的一時間之一單一種子矩陣或一組的至少兩個種子矩陣)提供給一解碼器;以及對(與該音頻節目期間的一時間相關聯之)該種子矩陣組執行內插,以便決定適用於呈現該節目的聲道之一內插呈現矩陣組(對應於該音頻節目期間的一以後的時間之一單一內插呈現矩陣或一組的至少兩個內插呈現矩陣)。
在某些實施例中,不時地(例如,不頻繁地)將一種子本原矩陣及一種子差量矩陣(或一組的種子本原矩陣及種子差量矩陣)傳送到該解碼器。該解碼器根據本發明的一實施例自該種子本原矩陣及一對應的種子差量矩陣以及一內插函數f(t)產生(比一時間t1晚的一時間t之)一內插本原矩陣,而更新(對應於該時間t1之)每一種子本 原矩陣。可連同該等種子矩陣而傳送用於表示該內插函數之資料,或者可預先決定(亦即,該編碼器及解碼器預先知道)該內插函數。在替代實施例中,不時地(例如,不頻繁地)將一種子本原矩陣(或一組的種子本原矩陣)傳送到該解碼器。該解碼器根據本發明的一實施例自該種子本原矩陣以及一內插函數f(t)(亦即,不需要使用對應於該種子本原矩陣之一種子差量矩陣)產生(比一時間t1晚的一時間t之)一內插本原矩陣,而更新(對應於該時間t1之)每一種子本原矩陣。可連同該種子矩陣(或該等種子本原矩陣)而傳送用於表示該內插函數之資料,或者可預先決定(亦即,該編碼器及解碼器預先知道)該函數。
在典型的實施例中,每一本原矩陣是一單位本原矩陣。在此種情形中,只須將(該本原矩陣的每一α係數中之)該本原矩陣的每一非零係數反相(乘以-1),即可決定該本原矩陣之逆本原矩陣。此種方式能夠更有效率地決定(該編碼器用於將位元流編碼的)該等本原矩陣之逆本原矩陣,且可將有限精確度的處理(例如,有限精確度的電路)用於執行該編碼器及解碼器中之所需矩陣乘法。
本發明之各觀點包括一種被配置(例如,被編程)成實施本發明之方法的任一實施例之系統或裝置(例如,編碼器或解碼器)、一種包括用於儲存(例如,以一種非暫態方式儲存)本發明之該方法或其步驟的任一實施例產生的編碼音頻節目的至少一框或其他分段之緩衝器之系統或 裝置、以及一種儲存(例如,以一種非暫態方式儲存)用於實施本發明之該方法或其步驟的任一實施例之程式碼之電腦可讀取的媒體(例如,碟)。例如,本發明之系統可以是或可包括以軟體或韌體編程成且/或以其他方式配置成對資料執行各種操作中之任何操作(其中包括本發明之該方法或其步驟的一實施例)之一可程式一般用途處理器、數位信號處理器、或微處理器。該一般用途處理器可以是或可包括其中包含一輸入裝置、一記憶體、及被編程(且/或以其他方式被配置)成回應被觸發進入的資料而執行本發明之該方法(或其步驟)的一實施例的處理電路之一電腦系統。
30,40,100‧‧‧編碼器
32,42,102‧‧‧解碼器
31,41‧‧‧傳送子系統
33,43,101‧‧‧編碼級
34,44,103‧‧‧矩陣決定子系統
35,45,104‧‧‧壓縮子系統
36,46,105‧‧‧剖析子系統
37,38,47,48,106,107,108,109‧‧‧矩陣乘法級
60,61,110,111,112,113‧‧‧內插級
10,11,12,14‧‧‧總和元件
13‧‧‧內插因數級
第1圖是包含一編碼器、一傳送子系統、及一解碼器的一傳統的系統的元件之一方塊圖。
第2A圖示出用於經由以有限精確度算術實施的本原矩陣執行無損矩陣運算之傳統的編碼器電路。
第2B圖示出用於經由以有限精確度算術實施的本原矩陣執行無損矩陣運算之傳統的解碼器電路。
第3圖是將(以有限精確度算數實施的)一4×4本原矩陣施加到一音頻節目的四個聲道的本發明的一實施例中採用的電路之一方塊圖。該本原矩陣是一種子本原矩陣,該種子本原矩陣之一非零列包含元素α 0α 1α 2、及α 3
第4圖是將(以有限精確度算數實施的)一3×3本原矩陣施加到一音頻節目的三個聲道的本發明的一實施例中採用的電路之一方塊圖。該本原矩陣是自一種子本原矩陣Pk(t1)(該種子本原矩陣Pk(t1)之一非零列包含元素α 0α 1、及α 2)、一種子差量矩陣Δk(t1)(該種子差量矩陣Δk(t1)之一非零列包含元素δ 0δ 1、及δ N-1)、以及一內插函數f(t)產生之一內插本原矩陣。
第5圖是本發明的系統的一實施例之一方塊圖,該系統包含本發明的編碼器之一實施例、一傳送子系統、以及本發明的解碼器之一實施例。
第6圖是本發明的系統的另一實施例之一方塊圖,該系統包含本發明的編碼器之一實施例、一傳送子系統、以及本發明的解碼器之一實施例。
第7圖是不同時刻t上分別使用內插的本原矩陣(被標示為"內插矩陣運算"的曲線)以及分段常數(非內插的)本原矩陣(被標示為"非內插矩陣運算"的曲線)時之所得到的規格與真實規格間之平方誤差總和之圖形。
表示法及術語
在包括申請專利範圍的整個本發明之揭示中,對一信號或資料執行一操作(例如,對該信號或資料濾波、縮放、變換、或施加增益)之詞句被廣義地用於表示對該信號或資料直接執行操作或對被處理後之該信號或資料執行 操作(例如,對該信號經歷了初步濾波或經歷了執行該操作之前的預處理之一版本執行該操作)。
在包括申請專利範圍的整個本發明之揭示中,詞句"系統"被廣義地用於表示一裝置、系統、或子系統。例如,可將實施一解碼器之一子系統稱為一解碼器系統,且亦可將包括此種子系統的一系統(例如,回應多個輸入而產生Y個輸出信號的一系統,其中該子系統產生該等輸入中之M個輸入,且自一外部來源接收其他Y-M個輸入)稱為一解碼器系統。
在包括申請專利範圍的整個本發明之揭示中,術語"處理器"被廣義地用於表示可編程或可以其他方式配置(例如,利用軟體或韌體配置)成對資料(例如,音頻、視頻、或其他影像資料)執行操作之一系統或裝置。處理器之例子包括現場可程式閘陣列(或其他可配置之積體電路或晶片組、可編程或可以其他方式配置成對音頻資料或其他聲音資料執行管線式處理之數位信號處理器、可程式一般用途處理器或電腦、以及可程式微處理器晶片或晶片組。
在包括申請專利範圍的整個本發明之揭示中,詞句"元資料"意指來自對應的音頻資料(位元流的也包括元資料之音頻內容)之分離的且不同的資料。元資料係與音頻資料相關聯,且指示該音頻資料的至少一特徵或特性(例如,已對該音頻資料執行的或應對該音頻資料執行的一或多種類型之處理、或該音頻資料表示的物件之軌跡)。元 資料與音頻資料間之關聯性是與時間同步的。因此,現在的(最近接收的或更新的)元資料可指示:對應的音頻資料同時具有一被指示的特徵,且/或包含一被指示類型的音頻資料處理之結果。
在包括申請專利範圍的整個本發明之揭示中,術語"耦合"或"被耦合"被用於意指一直接的或間接的連接。因此,如果一第一裝置耦合到一第二裝置,則該連接可利用一直接連接,或利用經由其他裝置及連接之一間接連接。
在包括申請專利範圍的整個本發明之揭示中,下列的詞句具有下列的定義:喇叭及揚聲器被同義地用於表示任何發聲換能器。該定義包括被實施為多個換能器之揚聲器(例如,低音揚聲器(woofer)及高音揚聲器(tweeter));揚聲器饋源:一種被直接施加到揚聲器之音頻信號、或被施加到串聯的放大器及揚聲器之音頻信號;聲道(或"音頻通道"):一種單音的音頻信號。通常可以一種等同於將信號直接施加到位於所需位置或標稱位置的揚聲器之方式呈現此種信號。該所需位置可以是靜態的(這是實體揚聲器的一般情況)、或動態的;音頻節目:一組的一或多個聲道(至少一揚聲器聲道及/或至少一物件聲道、以及或有的相關聯之元資料(例如,描述所需空間音訊呈現之元資料);揚聲器聲道(或"揚聲器饋源聲道"):與(位於所需位置或標稱位置的)被命名的揚聲器相關聯之聲道、或與 被界定的揚聲器組態內之被命名的揚聲器區相關聯之聲道。以一種等同於將音頻信號直接施加到(位於所需位置或標稱位置的)被命名的揚聲器或被命名的揚聲器區中之一揚聲器之方式呈現一揚聲器聲道;物件聲道:一種用於表示音源(有時被稱為音頻"物件")發出的聲音之音頻聲道。一物件聲道通常決定一參數音源描述(例如,物件聲道包含用於表示參數音源描述之元資料,或以物件聲道提供用於表示參數音源描述之元資料)。該音源描述可決定該音源發生的聲音(形式為一時間函數)、形式為一時間函數的該音源之視在位置(例如,3D空間座標)、以及將該音源特徵化之或有的至少一額外的參數(例如,視在音源尺寸或寬度);以及基於物件的音頻節目:一種包含一組的一或多個物件聲道(及在可供選擇採用之情形下也包含至少一揚聲器聲道)以及也或有的相關聯的元資料(例如,用於表示發出物件聲道指示的聲音的音頻物件之軌跡之元資料、或用於以其他方式表示物件聲道指示的聲音的所需空間音頻呈現之元資料、或用於表示係為物件聲道指示的音源的至少一音頻物件之身分之元資料)之音頻節目。
本發明實施例之詳細說明
將參照第3、4、5、及6圖而說明本發明的實施例之例子。
第5圖是本發明的音頻資料處理系統的一實施例之一方塊圖,該音頻資料處理系統包含如圖所示被耦合在一起 之編碼器40(本發明的編碼器之一實施例)、傳送子系統41(該傳送子系統41可相同於第1圖之傳送子系統31)、以及解碼器42(本發明的解碼器之一實施例)。雖然子系統42在本發明中被稱為一"解碼器",但是我們應可了解:可將該子系統實施為一播放系統,該播放系統包含一解碼子系統(被配置成剖析且解碼用於表示編碼多聲道音頻節目的位元流)、以及被配置成執行呈現及用於播放該解碼子系統的輸出的至少某些步驟之其他子系統。本發明的某些實施例是並未被配置成執行呈現及/或播放之解碼器(且通常將配合個別的呈現及/或播放系統而使用該等解碼器。本發明的某些實施例是播放系統(例如,包含一解碼子系統以及被配置成執行呈現及用於播放該解碼子系統的輸出的至少某些步驟之其他子系統)。
在第5圖之系統中,編碼器40被配置成將8聲道音頻節目(例如,一傳統組的7.1揚聲器饋源)編碼為其中包括兩個子位元流之一編碼位元流,且解碼器42被配置成將該編碼位元流解碼而(無損地)呈現該原始8聲道節目或該原始8聲道節目之一2聲道縮混。編碼器40被耦合且被配置成產生該編碼位元流且將該編碼位元流觸發到傳送系統41。
傳送系統41被耦合且被配置成將該編碼位元流傳送(例如,藉由儲存及/或傳輸)到解碼器42。在某些實施例中,系統41實施將一編碼多聲道音頻節目經由一廣播系統或一網路(例如,網際網路)而傳送(例如,傳 輸)到解碼器42。在某些實施例中,系統41將一編碼多聲道音頻節目儲存在一儲存媒體(例如,一磁碟或一組磁碟),且解碼器42被配置成自該儲存媒體讀取節目。
編碼器40中被標示為"InvChAssign1"之方塊被配置成對該輸入節目的該等聲道執行聲道置換(等同於乘以一置換矩陣)。該等被置換之聲道然後接受級43中之編碼,該級43輸出八個編碼信號聲道。該等編碼信號聲道可(但無須)對應於播放揚聲器聲道。該等編碼信號聲道有時被稱為"內部"聲道,這是因為一解碼器(及/或呈現系統)通常解碼且呈現該等編碼信號聲道的內容而恢復該輸入音訊,因而該等編碼信號聲道對該編碼/解碼系統而言是內部的。在級43中執行的該編碼等同於將該等被置換之聲道的每一組樣本乘以一編碼矩陣(該編碼矩陣被實施為以識別之一串接的矩陣乘法。
雖然n在該實施例中可等於7,但是在該實施例及其變形中,該輸入音頻節目包含任意數目(N或X)的聲道,其中N(或X)是大於一個任何整數,且第5圖中之n可以是n=N-1(或n=X-1或另一值)。在此類替代實施例中,該編碼器被配置成將該多聲道音頻節目編碼為其中包括某一數目的子位元流之一編碼位元流,且該解碼器被配置成將該編碼位元流解碼而(無損地)呈現原始多聲道節目或呈現該原始多聲道節目之一或多個縮混。例如,該替代實施例之該編碼級(對應於級43)可將一串接的N×N本原矩陣施加到該節目的聲道之樣本,而產生可被轉換 為M個輸出聲道的一第一混合之N個編碼信號聲道,其中該第一混合至少實質上等於A(t1)(其中t1是一時間間隔中之一時間),從這一方面來說,該第一混合與該時間間隔中指定的一時變混合A(t)是一致的。該解碼器可施加以該編碼音頻內容的一部分之形式接收之一串接的N×N本原矩陣,而產生該等M個輸出聲道。該替代實施例中之該編碼器亦可產生也被包含在該編碼音頻內容中之一第二串接的M1×M1本原矩陣(其中M1是小於N的一整數)。一解碼器可對M1個編碼信號聲道施加該第二串接,而執行將該N聲道節目縮混為M1個揚聲器聲道,其中該縮混至少實質上等於另一時變混合A2(t),從這一方面來說,該縮混與A2(t1)是一致的。該替代實施例中之該編碼器將也產生內插值(根據本發明之任何實施例),且將該等內插值包含在自該編碼器輸出的該編碼位元流中,以供一解碼器將該等內插值用於根據時變混合A(t)而解碼且呈現該編碼位元流的內容,且/或用於根據時變混合A2(t)而解碼且呈現該編碼位元流的內容之一縮混。
對第5圖之說明有時將參照到特定情況中之被輸入到本發明的編碼器作為8聲道輸入信號之多聲道信號,但是該說明(以及對此項技術具有一般知識者顯易知的瑣細變化)也適用於一般的情況,其方式為:以參照到N聲道輸入信號取代參照到8聲道輸入信號;以參照到M聲道(或M1聲道)本原矩陣取代參照到串接的8聲道(或2聲道)本原矩陣;以及以參照到無損地呈現M聲道音頻 信號(其中已藉由執行矩陣運算,將一時變混合A(t)施加到一N聲道輸入音頻信號,以決定M個編碼信號聲道,而決定該M聲道音頻信號)取代參照到無損地呈現8聲道輸入信號。
請參閱第5圖之編碼級43,在子系統44中決定每一矩陣,及(以及級43因而施加的該串接),且根據已在該時間間隔中指定的將該節目的N個(其中N=8)聲道混合為N個編碼信號聲道之一指定時變混合,而不時地(通常為不頻繁地)更新該等矩陣。
矩陣決定子系統44被配置成產生用於表示兩組輸出矩陣(一組對應於該等編碼聲道的兩個子位元流中之每一子位元流)的係數之資料。不時地更新每一組的輸出矩陣,因而也不時地更新該等係數。一組輸出矩陣包含兩個呈現矩陣,該等矩陣中之每一矩陣是維度為2×2之一本原矩陣(最好是一單位本原矩陣),且係用於呈現其中包含該編碼位元流的兩個該等編碼聲道之一第一子位元流(一縮混子位元流)(以便呈現該八聲道輸入音訊之二聲道縮混)。另一組輸出矩陣包含八個呈現矩陣P0(t),P1(t),...,Pn(t),每一呈現矩陣是維度為8×8之一本原矩陣(最好是一單位本原矩陣),且係用於呈現其中包含該編碼位元流的所有八個該等編碼聲道之一第二子位元流(以便無損地恢復該八聲道輸入音頻節目)。在每一時間t上,一串接的該等呈現矩陣可被理解為用於該第一子位元流的該等聲道之呈現矩陣,用以自該第一子 位元流中之兩個編碼信號聲道呈現兩個聲道縮混,且同樣地,一串接的該等呈現矩陣P0(t),P1(t),...,Pn(t)可被理解為用於該第二子位元流的該等聲道之呈現矩陣。
自子系統44輸出到壓縮子系統45的(每一呈現矩陣之)該等係數是用於指示將被包含在該節目的一對應的聲道混合之每一聲道之相對或絕對增益之元資料。(在該節目期間的一時刻之)每一呈現矩陣的該等係數代表一混合的該等聲道中之每一聲道應(在該被呈現混合之對應的時刻)貢獻多少給由一特定播放系統揚聲器的揚聲器饋源所指示之音頻內容的混合。
(自編碼級43輸出的)該等八個編碼聲道、(子系統44產生的)該等輸出矩陣係數、以及通常亦為額外的資料被觸發到壓縮子系統45,該壓縮子系統45將該等資料組合為編碼位元流,該編碼位元流然後被觸發到傳送系統41。
該編碼位元流包括用於表示該等八個編碼聲道、該等兩組時變輸出矩陣(一組對應於該等編碼聲道的兩個子位元流中之每一子位元流)、以及通常亦為額外的資料(例如,與音頻內容有關的元資料)之資料。
於操作中,編碼器40(以及諸如第6圖之編碼器100等的本發明的編碼器之替代實施例)將樣本對應於之時間間隔之一N聲道音頻節目編碼,其中該時間間隔包括自一時間t1自一時間t2之一子區間。當已指定了該時間間隔之將N個編碼信號聲道混合為M個輸出聲道之一時變混 合A(t)時,該編碼器執行下列步驟:決定一第一串接的N×N本原矩陣(例如,時間t1時之矩陣P0(t1),P1(t1),...,Pn(t1),該第一串接的N×N本原矩陣被施加到該等N個編碼信號聲道之樣本時,執行將該等N個編碼信號聲道之音頻內容混合為該等M個輸出聲道之一第一混合,其中該第一混合至少實質上等於A(t1),從這一方面來說,該第一混合與該時變混合A(t)是一致的;藉由對該節目的N個聲道之樣本執行矩陣運算(包括將一序列之矩陣串接施加到該等樣本,其中該序列中之每一矩陣串接是一串接的本原矩陣,且該序列之矩陣串接包括係為該第一串接的本原矩陣之一串接的逆本原矩陣的一第一逆矩陣串接),而產生編碼音頻內容(例如,編碼器40的級43之輸出、或編碼器100的級103之輸出);決定一些內插值(例如,編碼器40的級43的輸出中或編碼器100的級103的輸出中包含之內插值),該等內插值連同該第一串接的本原矩陣(例如,級43或級103的輸出中包含之第一串接的本原矩陣)以及在該子區間中界定的一內插函數表示了一序列之串接的N×N已更新本原矩陣,因而每一該等串接的已更新本原矩陣被施加到該等N個編碼信號聲道的樣本時,執行將該等N個編碼信號聲道混合為該等M個輸出聲道之與該子區間中之一不同的時間相關聯的一更新混合,其中每一該更新混合與該時變混合A(t)一致。與該子區間中之任何時間t3相關聯 的更新混合最好是但不必然(在所有實施例中)至少實質上等於A(t3),從這一方面來說,每一更新混合與該時變混合是一致的;以及產生用於表示編碼音頻內容、該等內插值、及該第一串接的本原矩陣之一編碼位元流(例如,編碼器40的級45之輸出、或編碼器100的級104之輸出)。
請參閱第5圖之級44,不時地更新每一組輸出矩陣(組、或組P0,P1,...,Pn)。(於第一時間t1)被輸出之該第一組矩陣是用於決定將在該節目期間的該第一時間上被執行(亦即,對應於該第一時間而對級43的編碼輸出的兩個聲道之樣本執行)的一線性變換之一種子矩陣(被實施為一串接的單位本原矩陣)。(於第一時間t1)被輸出之該第二組矩陣P0,P1,...,Pn也是用於決定將在該節目期間的該第一時間上被執行(亦即,對應於該第一時間而對級43的編碼輸出的所有八個聲道之樣本執行)的一線性變換之一種子矩陣(被實施為一串接的單位本原矩陣)。自級44輸出的每一已更新組的矩陣是用於決定將在該節目期間的該更新時間上被執行(亦即,對應於該更新時間而對級43的編碼輸出的兩個聲道之樣本執行)的一線性變換之一已更新種子矩陣(被實施為一串接的單位本原矩陣(亦可被稱為一串接的單位種子本原矩陣))。自級43輸出的每一已更新組的矩陣P0,P1,...,Pn也是用於決定將在該節目期間的該更新時間上被執行(亦即,對應於該更新時間而對級43的編碼輸出 的所有八個聲道之樣本執行)的一線性變換之一已更新種子矩陣(被實施為一串接的單位本原矩陣(亦可被稱為一串接的單位種子本原矩陣))。
輸出級44也輸出內插值,該等內插值(連同每一種子矩陣之一內插函數)使解碼器42能夠產生該等種子矩陣之內插版本(對應於該第一時間t1之後且在該等更新時間之間的時間)。級45將該等內插值(可包括用於表示每一內插函數的資料)包含在自編碼器40輸出的編碼位元流中。下文中將說明此種內插值之例子(該等內插值可包括每一種子矩陣之一差量矩陣)。
請參閱第5圖之解碼器42,(解碼器42之)剖析子系統46被配置成自傳送系統41接受(讀取或接收)該編碼位元流且剖析該編碼位元流。子系統46可操作而將該編碼位元流的該等子位元流(包括只包含該編碼位元流的兩個編碼聲道之一"第一"子位元流)及對應於該第一子位元流之輸出矩陣()觸發到矩陣乘法級48(用於處理而導致該原始8聲道輸入節目的內容之2聲道縮混呈現)。子系統46亦可操作而將該編碼位元流的該等子位元流(包含該編碼位元流的所有八個編碼聲道之一"第二子"位元流)以及對應的輸出矩陣(P0,P1,...,Pn)觸發到矩陣乘法級47,用以處理而導致該原始8聲道節目的無損重現。
剖析子系統46(及第6圖中之剖析子系統105)可包括(且/或實施)額外的無損編碼及解碼工具(例如, LPC編碼及Huffman編碼等的無損編碼及解碼工具)。
內插級60被耦合成接收該編碼位元流中包含的該第二子位元流之每一種子矩陣(亦即,時間t1上的初始組的本原矩陣P0,P1,...,Pn、以及每一已更新組的本原矩陣P0,P1,...,Pn)以及(亦為該編碼位元流中包含的)該等內插值,而產生每一種子矩陣之內插版本。級60被耦合成且被配置成使每一此類種子矩陣通過(到級47)且產生(且將觸發到級47)每一此類種子矩陣之內插版本(每一內插版本對應於在該第一時間t1之後且在該第一種子矩陣更新時間之前的(或在各後續種子矩陣更新時間之間的)一時間)。
內插級61被耦合成接收該編碼位元流中包含的該第一子位元流之每一種子矩陣(亦即,時間t1上的初始組的本原矩陣、以及每一已更新組的本原矩陣)以及(亦為該編碼位元流中包含的)該等內插值,而產生每一此類種子矩陣之內插版本。級61被耦合成且被配置成使每一此類種子矩陣通過(到級48)且產生(且將觸發到級48)每一此類種子矩陣之內插版本(每一內插版本對應於在該第一時間t1之後且在該第一種子矩陣更新時間之前的(或在各後續種子矩陣更新時間之間的)一時間)。
級48將對應於該第一子位元流的聲道的(該編碼位元流的)該等兩個聲道之兩個音頻樣本乘以最近被更新之串接的矩陣(例如,級61產生的矩陣之一 串接的最近內插版本),且使每一所得組的兩個線性變換樣本接受名稱為"ChAssign0"的方塊代表之聲道置換(等同於乘以一置換矩陣),而得到該原始8聲道的所需2聲道縮混之每一對的樣本。在編碼器40及解碼器42中執行的該串接的矩陣運算等同於應用將8輸入聲道轉換為2聲道縮混的一縮混矩陣規格。
級47將八個音頻樣本(各音頻樣本來自該編碼位元流的整組八個聲道中之每一聲道)之每一向量乘以最近被更新之串接的該等矩陣P0,P1,...,Pn(例如,級60產生的矩陣P0,P1,...,Pn之一串接的最近內插版本),且每一所得組的八個線性變換樣本接受名稱為"ChAssign1"的方塊代表之聲道置換(等同於乘以一置換矩陣),而得到以無損方式恢復的原始8聲道節目之每一組的八個樣本。為了使該輸出的8聲道音訊完全相同於輸入的8聲道音訊(而實現該系統的"無損"特性),在編碼器40中執行的該等矩陣運算應是在解碼器42中對該編碼位元流的該第二子位元流執行的矩陣運算(亦即,解碼器42的級47中執行的每一個乘以一串接的矩陣P0,P1,...,Pn)之精確逆矩陣運算(包括量化效應)。因此,在第5圖中,編碼器40的級43中之該等矩陣運算被識別為按照解碼器42的級47中應用的該等矩陣P0,P1,...,Pn的相反順序之一串接的逆矩陣,亦即:
因此,級47(連同置換級ChAssign1)是一矩陣乘法子系統,該矩陣乘法子系統被耦合成且被配置成將自內插 級60輸出的每一串接的本原矩陣循序地施加到自該編碼位元流提取的編碼音頻內容,以便無損地恢復被編碼器40編碼的該多聲道音頻節目的至少一分段之N個聲道。
解碼器42之置換級ChAssign1將編碼器40施加的聲道置換之逆聲道置換施加到級47之輸出(亦即,解碼器42的級"ChAssign1"代表之置換矩陣是編碼器40的元件"InvChAssign1"代表之置換矩陣之逆置換矩陣)。
在第5圖所示的該系統的子系統40及42之變形中,省略了一或多個該等元件,或包含了額外的音頻資料處理單元。
在解碼器42的該等所述實施例之變形中,本發明之該解碼器被配置成執行來自用於表示N個編碼信號聲道的一編碼位元流的編碼音頻內容的N個聲道之無損恢復,其中該音頻內容的該等N個聲道本身是一X聲道輸入音頻節目(其中X是一任意整數,且N小於X)的音頻內容之一縮混(藉由對該X聲道輸入音頻節目執行矩陣運算,而將一時變混合施加到該輸入音頻節目的該等X個聲道,而產生該縮混),因而決定了該編碼位元流的編碼音頻內容之該等N個聲道。在此類變形中,該解碼器對該編碼位元流提供之(例如,被包含在該編碼位元流中之)N×N本原矩陣執行內插。
在一類別的實施例中,本發明是一種用於呈現多聲道音頻節目之方法,其中包括對該節目的各聲道之樣本執行一線性變換(矩陣乘法)(而諸如產生該節目的內容之一 縮混)。將在該節目的一時間上執行的線性變換(亦即,對該等聲道中對應於該時間之樣本執行的線性變換)不同於將在該節目的另一時間上執行的線性變換,從這一方面來說,該線性變換是時間相依(time dependent)的。在某些實施例中,該方法採用至少一用於決定將在該節目的一第一時間上執行的線性變換(亦即,對該等聲道中對應於該第一時間之樣本執行的線性變換)之種子矩陣(可將該至少一種子矩陣實施為一串接的單位本原矩陣),且執行內插,以便決定該種子矩陣的至少一內插版本,用以決定將在該節目的一第二時間上執行之線性變換。在典型實施例中,以被包含在一播放系統之(或與一播放系統相關聯之)一解碼器(例如,第5圖之解碼器42、或第6圖之解碼器102)執行該方法。該解碼器通常被配置成執行用於表示該節目的一編碼音頻位元流的音頻內容之無損恢復,且該種子矩陣(以及該種子矩陣的每一內插版本)被實施為一串接的本原矩陣(例如,單位本原矩陣)。
通常不頻繁地執行呈現矩陣更新(種子矩陣的更新)(例如,在被傳送到該解碼器的該編碼音頻位元流中包含了該種子矩陣的一序列之已更新版本,但是該節目中對應於連續的此類已更新版本之各分段之間有長的時間間隔),且以參數方式指定(例如,以被傳送到該解碼器的該編碼音頻位元流中包含之元資料指定)各種子矩陣更新之間的所需呈現軌跡(例如,該節目的各聲道的內容之所需序列之混合)。
(一序列之已更新種子矩陣的)每一種子矩陣將被表示為A(tj)、或Pk(tj)(在該種子矩陣是一本原矩陣之情形中),其中tj是(該節目中)對應於該種子矩陣之時間(亦即,對應於第"j"個種子矩陣之時間)。當該種子矩陣被實施為一串接的本原矩陣Pk(tj)時,索引k指示該串接中之每一本原矩陣的位置。一串接的本原矩陣中之第"k"個矩陣Pk(tj)通常對第"k"個聲道操作。
當該線性變換(例如,縮混規格)A(t)正在迅速地變化時,編碼器(例如,傳統的編碼器)將需要頻繁地傳輸已更新種子矩陣,以便實現A(t)的一密耦近似(close approximation)。
考慮對相同聲道k操作的但係在不同的時刻t1,t2,t3,...上操作的一序列之本原矩陣Pk(t1),Pk(t2),Pk(t3),...。本發明方法之一實施例並不在這些時刻中之每一時刻上傳送已更新本原矩陣,而是在時間t1上傳送(亦即,在一編碼位元流中對應於時間t1的一位置上包含)一種子本原矩陣Pk(t1)、以及用於界定各矩陣係數的變化率之一種子差量矩陣Δk(t1)。例如,該種子本原矩陣及靜態縮混矩陣可具有下列形式: 因為Pk(t1)是一本原矩陣,所以除了一(非零)列(亦 即,在該例子中之包含元素α 0,α 1,α 2,...,α N-1的列)之外,Pk(t1)相同於維度N×N的單位矩陣。在該例子中,矩陣Δk(t1)除了一(非零)列(亦即,在該例子中之包含元素δ 0,δ 1,...,δ N-1的列)之外,包含了零。元素α k表示出現在Pk(t1)的對角線上的元素α 0,α 1,α 2,...,α N-1中之一元素,且元素δ k表示出現在Δk(t1)的對角線上的元素δ 0,δ 1,...,δ N-1中之一元素。
因此,(發生在時間t1之後的)一時刻t上之本原矩陣被(例如,被解碼器42的級60或61或解碼器102的級110、111、112、或113)內插為:Pk(t)=Pk(t1)+f(t)Δk(t1),其中f(t)是時間t之內插因數(interpolation factor),且f(t1)=0。例如,如果需要線性內插(linear interpolation),則函數f(t)的形式可以是f(t)=a*(t-t1),其中a是一常數。如果在一解碼器中執行該內插,則該解碼器必須被配置成知道該函數f(t)。例如,可將用於決定該函數f(t)之元資料連同將要被解碼且呈現之編碼音頻位元流傳送到該解碼器。
雖然前文中說明了本原矩陣的內插之一般情況,但是當α k等於1時,Pk(t1)是適用於無損逆矩陣運算之一單位本原矩陣。然而,為了維持每一時刻的無損性,將也需要設定δ k=0,使該本原矩陣於每一時刻都適用於無損逆矩 陣運算。
請注意,Pk(t)x(t)=Pk(t1)x(t)+f(t)(Δk(t1)x(t))。因此,並不在每一時刻t更新該種子本原矩陣,而是可等效地計算兩個中間組的聲道Pk(t1)x(t)及(Δk(t1)x(t),且將該等中間組的聲道與內插因數f(t)結合。此種方法之計算量通常比在每一時刻更新該本原矩陣(此時必須將每一差量係數(delta coefficient)乘以內插因數)的方法之計算量少。
另一等效方法是將f(t)分為一整數r及一分數f(t)-r,然後以下式實現內插本原矩陣的必要施加:P k (t)x(t)=(P k (t1)+rΔ k (t1))x(t)+(f(t)-r)(Δ k (t1)x(t)). (2)該後一種方法(使用方程式(2)的方法)因而將是前文所述的兩種方法之一混合。
在TrueHD中,將0.833毫秒(於48千赫下的40個樣本)值的音訊定義為一存取單位。如果將差量矩陣Δk定義為每一存取單位的本原矩陣Pk變化率,且如果定義f(t)=(t-t1)/T(其中T是存取單位的長度),則方程式(2)中之r在每一存取單位中增加了1,且f(t)-r只是一存取單位內之樣本偏移量的一函數。因此,不必然需要計算該分數值f(t)-r,且可只須自以一存取單位內的偏移量為索引的一查詢表取得該分數值f(t)-r。在每一存取單位終止時,藉由加上Δk(t1)而更新Pk(t1)+rΔk(t1)。一般而言,T無須對應於一存取單位,且可代之為該信號的任何固定分割,例如,T可以是長度為8個樣本之一區塊。
一進一步的簡化(酸然是一近似)將是完全不理會該分數部分f(t)-r,且週期性地更新Pk(t1)+rΔk(t1)。此種方式實質上得到分段常數的矩陣更新,但是不需要經常傳輸本原矩陣。
第3圖是將(以有限精確度算數實施的)一4×4本原矩陣施加到一音頻節目的四個聲道的本發明的一實施例中採用的電路之一方塊圖。該本原矩陣是一種子本原矩陣,該種子本原矩陣之非零列包含元素α 0α 1α 2、及α 3。考慮到:將串接用於分別變換該等四個聲道中之一不同的聲道的樣本之四個此類本原矩陣,以便變換所有該等四個聲道之樣本。當先經由內插而更新該等本原矩陣,且將已更新本原矩陣施加到音頻資料時,可使用該電路。
第4圖是將(以有限精確度算數實施的)一3×3本原矩陣施加到一音頻節目的三個聲道的本發明的一實施例中採用的電路之一方塊圖。該本原矩陣是根據本發明的一實施例而自一種子本原矩陣Pk(t1)(該種子本原矩陣Pk(t1)之一非零列包含元素α 0α 1、及α 2)、一種子差量矩陣Δk(t1)(該種子差量矩陣Δk(t1)之一非零列包含元素δ 0δ 1、及δ 2)、以及一內插函數f(t)產生之一內插本原矩陣。因此,(發生在時間t1之後的)一時刻t上之該本原矩陣被內插為:Pk(t)=Pk(t1)+f(t)Δk(t1),其中f(t)是時間t之一內插因數(內插函數f(t)在時間t之值),且f(t1)=0。考慮到:將串接用於分別變換該等三個聲道中之一不同的聲道的樣本之三個此類本原矩陣,以便變換所有 該等三個聲道之樣本。當將一種子或已部分更新本原矩陣施加到該音頻資料,且將該差量矩陣施加到該音頻資料,而且使用該內插因數結合上述兩者時,可使用該電路。
第3圖之電路被配置成將該種子本原矩陣施加到四個音頻節目聲道S1、S2、S3、及S4(亦即,將該等聲道之樣本乘以該矩陣)。更具體而言,將聲道S1之一樣本乘以該矩陣的係數α 0(被識別為"m_coeff[p,0]"),將聲道S2之一樣本乘以該矩陣的係數α 1(被識別為"m_coeff[p,1]"),將聲道S3之一樣本乘以該矩陣的係數α 2(被識別為"m_coeff[p,2]"),且將聲道S4之一樣本乘以該矩陣的係數α 3(被識別為"m_coeff[p,3]")。在總和元件10中將該等乘積加總,然後在量化級Qss中將來自元件10之每一輸出量化,以便產生係為聲道S2的樣本的被變換版本(被包含在聲道S2'中)之量化值。在一典型實施例中,聲道S1、S2、S3、及S4中之每一聲道的每一樣本包含24位元(如第3圖中所示),且每一乘法元件之輸出包含38位元(亦如第3圖中所示),且量化級Qss回應其所輸入的每一38位元值而輸出24位元量化值。
第4圖之電路被配置成將該內插本原矩陣施加到三個音頻節目聲道C1、C2、及C3(亦即,將該等聲道之樣本乘以該矩陣)。更具體而言,將聲道C1之一樣本乘以該種子本原矩陣的係數α 0(被識別為"m_coeff[p,0]"),將聲道C2之一樣本乘以該種子本原矩陣的係數α 1(被識別 為"m_coeff[p,1]"),且將聲道C3之一樣本乘以該種子本原矩陣的係數α 2(被識別為"m_coeff[p,2]")。在總和元件12中將該等乘積加總,然後在(級14中)將來自元件12輸出的每一總和加到自內插因數級13輸出之對應的值。在量化級Qss中將自級14輸出之該值量化,以便產生係為聲道C3的樣本的被變換版本(被包含在聲道C3'中)之量化值。
將聲道C1之相同樣本乘以該種子差量矩陣的係數δ 0(被識別為"delta_cf[p,0]"),將聲道C2之樣本乘以該種子差量矩陣的係數δ 1(被識別為"delta_cf[p,1]"),且將聲道C3之樣本乘以該種子差量矩陣的係數δ 2(被識別為"delta_cf[p,2]")。在總和元件11中將該等乘積加總,然後在量化級Qfine中將自元件11輸出的每一總和量化,以便產生一量化值,然後(在內插因數級13中)將該量化值乘以該內插函數f(t)之現行值。
在第4圖之一典型實施例中,聲道C1、C2、及C3中之每一聲道的每一樣本包含32位元(如第4圖中所示),且乘法元件11、12、及14中之每一乘法元件之輸出包含50位元(亦如第4圖中所示),且量化級Qfine及Qss中之每一量化級回應其所輸入的每一50位元值而輸出32位元量化值。
例如,第4圖的電路之一變形可變換x個聲道的樣本之向量,其中x=2,4,8,或N個聲道。一串接的x個第4圖的電路之此種變形可執行將此種x個聲道乘以一x×x種 子矩陣(或該種子矩陣的一內插版本)之矩陣乘法。例如,該串接的x個第4圖的電路之此種變形可實施解碼器42的級60及47(其中x=8)、或解碼器42的級61及48(其中x=2)、或解碼器102的級113及109(其中x=N)、或解碼器102的級112及108(其中x=8)、或解碼器102的級111及107(其中x=6)、或解碼器102的級110及106(其中x=2)。
在第4圖之實施例中,該種子本原矩陣及該種子差量矩陣被平行地施加到每一組(向量)的輸入樣本(每一此種向量包含來自該等輸入聲道中之每一輸入聲道的一樣本)。
請參閱第6圖,接著將說明將要被解碼的音頻節目是一基於N聲道物件的音頻節目之本發明之一實施例。第6圖之系統包含如圖所示被耦合在一起之編碼器100(本發明的編碼器之一實施例)、傳送子系統31、以及解碼器102(本發明的解碼器之一實施例)。雖然子系統102在本發明中被稱為一"解碼器",但是我們應可了解:可將該子系統實施為一播放系統,該播放系統包含一解碼子系統(被配置成剖析且解碼用於表示編碼多聲道音頻節目的位元流)、以及被配置成執行呈現及用於播放該解碼子系統的輸出的至少某些步驟之其他子系統。本發明的某些實施例是並未被配置成執行呈現及/或播放之解碼器(且通常將配合個別的呈現及/或播放系統而使用該等解碼器。本發明的某些實施例是播放系統(例如,包含一解碼子系統 以及被配置成執行呈現及用於播放該解碼子系統的輸出的至少某些步驟之其他子系統)。
在第6圖之系統中,編碼器100被配置成將基於N聲道物件之音頻節目編碼為其中包括四個子位元流之一編碼位元流,且解碼器102被配置成將該編碼位元流解碼而(無損地)呈現該原始N聲道節目、或該原始N聲道節目之一8聲道縮混、或該原始N聲道節目之一6聲道縮混、或該原始N聲道節目之一2聲道縮混。編碼器100被耦合且被配置成產生該編碼位元流且將該編碼位元流觸發到傳送系統31。
傳送系統31被耦合且被配置成將該編碼位元流傳送(例如,藉由儲存及/或傳輸)到解碼器102。在某些實施例中,系統31實施將一編碼多聲道音頻節目經由一廣播系統或一網路(例如,網際網路)而傳送(例如,傳輸)到解碼器102。在某些實施例中,系統31將一編碼多聲道音頻節目儲存在一儲存媒體(例如,一磁碟或一組磁碟),且解碼器102被配置成自該儲存媒體讀取節目。
編碼器100中被標示為"InvChAssign3"之方塊被配置成對該輸入節目的該等聲道執行聲道置換(等同於乘以一置換矩陣)。該等被置換之聲道然後接受級101中之編碼,該級101輸出N個編碼信號聲道。該等編碼信號聲道可(但無須)對應於播放揚聲器聲道。該等編碼信號聲道有時被稱為"內部"聲道,這是因為一解碼器(及/或呈現系統)通常解碼且呈現該等編碼信號聲道的內容而恢復該 輸入音訊,因而該等編碼信號聲道對該編碼/解碼系統而言是內部的。在級101中執行的該編碼等同於將該等被置換之聲道的每一組樣本乘以一編碼矩陣(該編碼矩陣被實施為以識別之一串接的矩陣乘法。
在子系統103中決定每一矩陣,及(以及級101因而施加的該串接),且根據已在該時間間隔中指定的將該節目的N個聲道混合為N個編碼信號聲道之一指定時變混合,而不時地(通常為不頻繁地)更新該等矩陣。
在第6圖的該實施例之變形中,該輸入音頻節目包含一任意數目(N或X,其中X大於N)的聲道。在此類變形中,自該編碼器輸出的該編碼位元流指示之該等N個多聲道音頻節目聲道(可被該解碼器無損地恢復)可以是已對該X聲道輸入音頻節目執行矩陣運算以便將一時變混合施加到該輸入音頻節目的該等X個聲道而自該X聲道輸入音頻節目產生的音頻內容之N個聲道,因而決定了該編碼位元流之該編碼音頻內容。
第6圖之矩陣決定子系統103被配置成產生用於表示四組輸出矩陣(一組對應於該等編碼聲道的四個子位元流中之每一子位元流)的係數之資料。不時地更新每一組的輸出矩陣,因而也不時地更新該等係數。
一組輸出矩陣包含兩個呈現矩陣,該等矩陣中之每一矩陣是維度為2×2之一本原矩陣(最好是一單位本原矩陣),且係用於呈現其中包含該編碼位元流的 兩個該等編碼聲道之一第一子位元流(一縮混子位元流)(以便呈現該輸入音訊之二聲道縮混)。另一組輸出矩陣可包含多達六個呈現矩陣、及,每一呈現矩陣是維度為6×6之一本原矩陣(最好是一單位本原矩陣),且係用於呈現其中包含該編碼位元流的六個該等編碼聲道之一第二子位元流(一縮混子位元流)(以便呈現該輸入音訊之六聲道縮混)。另一組輸出矩陣包含多達八個呈現矩陣,每一呈現矩陣是維度為8×8之一本原矩陣(最好是一單位本原矩陣),且係用於呈現其中包含該編碼位元流的八個該等編碼聲道之一第三子位元流(一縮混子位元流)(以便呈現該輸入音訊之八聲道縮混)。
另一組輸出矩陣包含N個呈現矩陣P0(t),P1(t),...,Pn(t),每一呈現矩陣是維度為N×N之一本原矩陣(最好是一單位本原矩陣),且係用於呈現其中包含該編碼位元流的所有該等編碼聲道之一第四子位元流(以便無損地恢復該N聲道輸入音頻節目)。在每一時間t上,一串接的該等呈現矩陣可被理解為用於該第一子位元流的該等聲道之呈現矩陣,一串接的該等呈現矩陣亦可被理解為用於該第二子位元流的該等聲道之呈現矩陣,一串接的該等呈現矩陣亦可被理解為用於該第三子位元流的該等聲道之呈現矩陣,且一串接的該等呈現矩陣P0(t),P1(t),...,Pn(t)等同於用於該第四子位元流的該等聲道 之呈現矩陣。
自子系統103輸出到壓縮子系統104的(每一呈現矩陣之)該等係數是用於指示將被包含在該節目的一對應的聲道混合之每一聲道之相對或絕對增益之元資料。(在該節目期間的一時刻之)每一呈現矩陣的該等係數代表一混合的該等聲道中之每一聲道應(在該被呈現混合之對應的時刻)貢獻多少給由一特定播放系統揚聲器的揚聲器饋源所指示之音頻內容的混合。
(自編碼級101輸出的)該等N個編碼聲道、(子系統103產生的)該等輸出矩陣係數、以及通常亦為額外的資料(例如,被包含為該編碼位元流中之元資料)被觸發到壓縮子系統104,該壓縮子系統104將該等資料組合為編碼位元流,該編碼位元流然後被觸發到傳送系統31。
該編碼位元流包括用於表示該等N個編碼聲道、該等四組時變輸出矩陣(一組對應於該等編碼聲道的四個子位元流中之每一子位元流)、以及通常亦為額外的資料(例如,與音頻內容有關的元資料)之資料。
編碼器100之級103不時地更新每一組輸出矩陣(例如,組、或組P0,P1,...,Pn)。(於第一時間t1)被輸出之該第一組矩陣是用於決定將在該節目期間的該第一時間上被執行(亦即,對應於該第一時間而對級101的編碼輸出的兩個聲道之樣本執行)的一線性變換之一種子矩陣(被實施為一串接的諸如單位本原矩陣之本原矩陣)。(於時間t1)被輸出之該第二組矩陣是用 於決定將在該節目期間的該第一時間上被執行(亦即,對應於該第一時間而對級101的編碼輸出的六個聲道之樣本執行)的一線性變換之一種子矩陣(被實施為一串接的諸如單位本原矩陣之本原矩陣)。(於時間t1)被輸出之該第三組矩陣是用於決定將在該節目期間的該第一時間上被執行(亦即,對應於該第一時間而對級101的編碼輸出的八個聲道之樣本執行)的一線性變換之一種子矩陣(被實施為一串接的諸如單位本原矩陣之本原矩陣)。(於時間t1)被輸出之該第四組矩陣P0,P1,...,Pn是用於決定將在該節目期間的該第一時間上被執行(亦即,對應於該第一時間而對級101的編碼輸出的所有聲道之樣本執行)的一線性變換之一種子矩陣(被實施為一串接的單位本原矩陣)。
自級103輸出的每一已更新組的矩陣是用於決定將在該節目期間的該更新時間上被執行(亦即,對應於該更新時間而對級101的編碼輸出的兩個聲道之樣本執行)的一線性變換之一已更新種子矩陣(被實施為一串接的單位本原矩陣(亦可被稱為一串接的單位種子本原矩陣))。自級103輸出的每一已更新組的矩陣是用於決定將在該節目期間的該更新時間上被執行(亦即,對應於該更新時間而對級101的編碼輸出的六個聲道之樣本執行)的一線性變換之一已更新種子矩陣(被實施為一串接的單位本原矩陣(亦可被稱為一串接的單位種子本原矩陣))。自級103輸出的每一已 更新組的矩陣是用於決定將在該節目期間的該更新時間上被執行(亦即,對應於該更新時間而對級101的編碼輸出的八個聲道之樣本執行)的一線性變換之一已更新種子矩陣(被實施為一串接的單位本原矩陣(亦可被稱為一串接的單位種子本原矩陣))。自級103輸出的每一已更新組的矩陣P0,P1,...,Pn也是用於決定將在該節目期間的該更新時間上被執行(亦即,對應於該更新時間而對級101的編碼輸出的所有聲道之樣本執行)的一線性變換之一已更新種子矩陣(被實施為一串接的單位本原矩陣(亦可被稱為一串接的單位種子本原矩陣))。
輸出級103也被配置成輸出內插值,該等內插值(連同每一種子矩陣之一內插函數)使解碼器102能夠產生該等種子矩陣之內插版本(對應於該第一時間t1之後且在該等更新時間之間的時間)。級104將該等內插值(可包括用於表示每一內插函數的資料)包含在自編碼器100輸出的編碼位元流中。本發明之其他段落說明了此種內插值之例子(該等內插值可包括每一種子矩陣之一差量矩陣)。
請參閱第6圖之解碼器102,剖析子系統105被配置成自傳送系統31接受(讀取或接收)該編碼位元流且剖析該編碼位元流。子系統105可操作而將一第一子位元流(只包含該編碼位元流的兩個編碼聲道)、對應於第四(頂層)子位元流之輸出矩陣(P0,P1,...,Pn)、以及及對應於該第一子位元流之輸出矩陣()觸發到矩陣乘法 級106(用於處理而導致該原始N聲道輸入節目的內容之2聲道縮混呈現)。子系統105可操作而將編碼位元流的該第二子位元流(包含該編碼位元流的六個編碼聲道)以及對應於該第二子位元流之輸出矩陣()觸發到矩陣乘法級107(用於處理而導致該原始N聲道輸入節目的內容之6聲道縮混呈現)。子系統105可操作而將編碼位元流的該第三子位元流(包含該編碼位元流的八個編碼聲道)以及對應於該第三子位元流之輸出矩陣()觸發到矩陣乘法級108(用於處理而導致該原始N聲道輸入節目的內容之八聲道縮混呈現)。子系統105亦可操作而將編碼位元流的該第四(頂層)子位元流(包含該編碼位元流的所有編碼聲道)以及對應的輸出矩陣(P0,P1,...,Pn)觸發到矩陣乘法級109,用以處理而導致該原始N聲道節目的無損重現。
內插級113被耦合成接收該編碼位元流中包含的該第四子位元流之每一種子矩陣(亦即,時間t1上的初始組的本原矩陣P0,P1,...,Pn、以及每一已更新組的本原矩陣P0,P1,...,Pn)以及(亦為該編碼位元流中包含的)該等內插值,而產生每一種子矩陣之內插版本。級113被耦合成且被配置成使每一此類種子矩陣通過(到級109)且產生(且將觸發到級109)每一此類種子矩陣之內插版本(每一內插版本對應於在該第一時間t1之後且在該第一種子矩陣更新時間之前的(或在各後續種子矩陣更新時間之間的)一時間)。
內插級112被耦合成接收該編碼位元流中包含的該第三子位元流之每一種子矩陣(亦即,時間t1上的初始組的本原矩陣、以及每一已更新組的本原矩陣)以及(亦為該編碼位元流中包含的)該等內插值,而產生每一此類種子矩陣之內插版本。級112被耦合成且被配置成使每一此類種子矩陣通過(到級108)且產生(且將觸發到級108)每一此類種子矩陣之內插版本(每一內插版本對應於在該第一時間t1之後且在該第一種子矩陣更新時間之前的(或在各後續種子矩陣更新時間之間的)一時間)。
內插級111被耦合成接收該編碼位元流中包含的該第二子位元流之每一種子矩陣(亦即,時間t1上的初始組的本原矩陣、以及每一已更新組的本原矩陣)以及(亦為該編碼位元流中包含的)該等內插值,而產生每一此類種子矩陣之內插版本。級111被耦合成且被配置成使每一此類種子矩陣通過(到級107)且產生(且將觸發到級107)每一此類種子矩陣之內插版本(每一內插版本對應於在該第一時間t1之後且在該第一種子矩陣更新時間之前的(或在各後續種子矩陣更新時間之間的)一時間)。
內插級110被耦合成接收該編碼位元流中包含的該第一子位元流之每一種子矩陣(亦即,時間t1上的初始組的本原矩陣、以及每一已更新組的本原矩陣)以及(亦為該編碼位元流中包含的)該等內插值,而 產生每一此類種子矩陣之內插版本。級110被耦合成且被配置成使每一此類種子矩陣通過(到級106)且產生(且將觸發到級106)每一此類種子矩陣之內插版本(每一內插版本對應於在該第一時間t1之後且在該第一種子矩陣更新時間之前的(或在各後續種子矩陣更新時間之間的)一時間)。
級106將該第一子位元流的該等兩個聲道的兩個音頻樣本之每一向量乘以最近被更新之串接的矩陣(例如,級110產生的矩陣之一串接的最近內插版本),且使每一所得組的兩個線性變換樣本接受名稱為"ChAssign0"的方塊代表之聲道置換(等同於乘以一置換矩陣),而得到該原始N聲道的所需2聲道縮混之每一對的樣本。在編碼器100及解碼器102中執行的該串接的矩陣運算等同於應用將N輸入聲道轉換為2聲道縮混的一縮混矩陣規格。
級107將該第二子位元流的該等六個聲道的六個音頻樣本之每一向量乘以最近被更新之串接的矩陣 (例如,級111產生的矩陣之一串接的最近內插版本),且使每一所得組的六個線性變換樣本接受名稱為"ChAssign1"的方塊代表之聲道置換(等同於乘以一置換矩陣),而得到該原始N聲道的所需6聲道縮混之每一組的樣本。在編碼器100及解碼器102中執行的該串接的矩陣運算等同於應用將N輸入聲道轉換為6聲道縮混的一縮混矩陣規格。
級108將該第三子位元流的該等八個聲道的八個音頻樣本之每一向量乘以最近被更新之串接的矩陣(例如,級112產生的矩陣之一串接的最近內插版本),且使每一所得組的八個線性變換樣本接受名稱為"ChAssign2"的方塊代表之聲道置換(等同於乘以一置換矩陣),而得到該原始N聲道的所需八聲道縮混之每一對的樣本。在編碼器100及解碼器102中執行的該串接的矩陣運算等同於應用將N輸入聲道轉換為8聲道縮混的一縮混矩陣規格。
級109將N個音頻樣本(各音頻樣本來自該編碼位元流的整組N個聲道中之每一聲道)之每一向量乘以最近被更新之串接的該等矩陣P0,P1,...,Pn(例如,級113產生的矩陣P0,P1,...,Pn之一串接的最近內插版本),且每一所得組的N個線性變換樣本接受名稱為"ChAssign3"的方塊代表之聲道置換(等同於乘以一置換矩陣),而得到以無損方式恢復的原始N聲道節目之每一組的N個樣本。為了使該輸出的N聲道音訊完全相同於輸入的N聲道音訊(而實現該系統的"無損"特性),在編碼器100中執行的該等矩陣運算應是在解碼器102中對該編碼位元流的該第四子位元流執行的矩陣運算(亦即,解碼器102的級109中執行的每一個乘以一串接的矩陣P0,P1,...,Pn)之精確逆矩陣運算(包括量化效應)。因此,在第6圖中,編碼器100的級103中之該等矩陣運算被識別為按照解碼器102的級109中應用的該等矩陣P0,P1,...,Pn的相反順序之一串 接的逆矩陣,亦即:
在某些實施例中,剖析子系統105被配置成自該編碼位元流提取一核對字,且級109被配置成:將自級109產生的音頻樣本(由諸如級109)導出之一第二核對字與自該編碼位元流提取之該核對字比較,而驗證級109恢復的(一多聲道音頻節目的至少一分段之)該等N個聲道是否已被正確地恢復。
解碼器102的級"ChAssign3"將編碼器100施加的聲道置換之逆聲道置換施加到級109之輸出(亦即,解碼器102的級"ChAssign3"代表之置換矩陣是編碼器100的元件"InvChAssign3"代表之置換矩陣之逆置換矩陣)。
在第6圖所示的該系統的子系統100及102之變形中,省略了一或多個該等元件,或包含了額外的音頻資料處理單元。
被觸發到編碼器100的級108(或107或106)之該等呈現矩陣係數(或、或)是用於表示將被包含在編碼器100編碼的原始N聲道內容的該等聲道的一縮混的每一揚聲器聲道的相對或絕對增益的(或可以將用於表示該相對或絕對增益的其他資料處理的)該編碼位元流之元資料(例如,空間位置元資料)。
對照之下,將被用於呈現(被解碼器102無損地恢復的)基於物件的音頻節目的完整組的聲道的播放揚聲器系統之組態在編碼器100產生該編碼位元流時通常是未知的。解碼器102無損地恢復之該等N個聲道可能需要連同 其他資料(例如,用於表示特定播放揚聲器系統的組態之資料)一起(例如,在解碼器102中包含的或被耦合到解碼器102的一呈現系統(但是第6圖中並未示出)中)被處理,以便決定該節目的每一聲道應貢獻多少到特定播放系統揚聲器的揚聲器饋源(於一被呈現的混合之每一時刻)所表示之該混合的音頻內容。該呈現系統可處理每一被無損地恢復的物件聲道中之(或與每一被無損地恢復的物件聲道相關聯之)空間軌跡(spatial trajectory)元資料,以便決定將被用於播放該被無損地恢復的內容的該特定播放揚聲器系統的該等揚聲器之揚聲器饋源。
在本發明的編碼器之某些實施例中,將用於指定如何將一N聲道音頻節目(例如,一基於物件的音頻節目)的所有聲道變換為一組的N個編碼聲道的的一動態改變之規格A(t)以及用於指定將該等N個編碼聲道的內容的縮混為一M1聲道呈現的每一縮混(其中M1小於N,例如,當N大於8時,M1=2或M1=8)的至少一動態改變之縮混規格提供給該編碼器(或該編碼器產生該規格)。在某些實施例中,該編碼器的工作是將該編碼音訊以及用於表示每一此類動態改變的規格之資料壓縮為具有預定格式的一編碼位元流(例如,一TrueHD位元流)。例如,可執行上述工作,使一傳統的解碼器(例如,一傳統的TrueHD解碼器)能夠恢復至少一縮混呈現(具有M1個聲道),而一增強型解碼器可被用於(無損地)恢復原始N聲道音頻節目。在已知該等動態改變的規格之情形下,該編碼器可 假定該解碼器將自將要被傳送到該解碼器的該編碼位元流中包含之內插值(例如,種子本原矩陣及種子差量矩陣資訊)決定內插本原矩陣P0,P1,...,Pn。該解碼器然後執行內插,以便決定用於執行該編碼器用於產生該編碼位元流的該編碼音頻內容的運算的逆運算之該等內插本原矩陣(以便諸如無損地恢復在該編碼器中藉由接受矩陣運算而被編碼的該內容)。在可供選擇採用之情形下,該編碼器可將用於較低子位元流(亦即,用於表示頂層的N聲道子位元流的內容縮混之該等子位元流)之本原矩陣選擇為非內插本原矩陣(且可將一序列之組的此種非內插本原矩陣包含在該編碼位元流中),且亦假定該解碼器將自將要被傳送到該解碼器的該編碼位元流中包含之內插值(例如,種子本原矩陣及種子差量矩陣資訊)決定用於無損地恢復該頂層(N聲道)子位元流的內容之內插本原矩陣(P0,P1,...,Pn)。
例如,一編碼器(例如,編碼器40之級44、或編碼器100之級103)可被配置成:藉由在不同的時刻t1,t2,t3,...(該等時刻可以是間隔很近的)將該規格A(t)取樣,且導出對應的種子本原矩陣(如同在傳統的TrueHD編碼器中),然後計算該等種子本原矩陣中之個別元素的變化率,而計算該等內插值(例如,用於表示一序列之種子差量矩陣的"差量"資訊),而選擇(將配合一內插函數f(t)而使用之)種子本原矩陣及種子差量矩陣。第一組的種子本原矩陣將是自用於該等時刻中之第一時刻的規格 A(t1)導出之本原矩陣。該等本原矩陣中之一子集可以完全不隨著時間而改變,在此種情形中,該解碼器將任何對應的差量資訊歸零(亦即,將該子集的本原矩陣之變化率設定為零,而回應該編碼位元流中之適當的控制資訊。
本發明的編碼器及解碼器的第6圖所示實施例之變形可省略該編碼位元流的某些(亦即,至少一)子位元流之內插。例如,可省略內插級110、111、及112,且可在充分的頻度下(於該編碼位元流中)更新對應的矩陣,、及、及,因而不需要該等矩陣被更新的時刻之間的內插。在另一例子中,如果在充分的頻度下更新矩陣,因而不需要該等更新之間的時間上之內插,則不需要且可省略內插級111。因此,(並未根據本發明執行內插而被配置之)傳統的解碼器可回應該編碼位元流而呈現該6聲道縮混呈現。
如前文所述,動態呈現矩陣規格(例如,A(t))可能不只是起源於呈現基於物件的音頻節目之需求,而且也可能由於執行視訊片段保護的需求。內插本原矩陣能夠較快速地達到一縮混的視訊片段保護且能夠較快速地自該視訊片段保護釋放,且能夠減少傳送矩陣係數所需的資料速率。
然後將說明第6圖的系統的一實施例的操作之一例子。在該例子中,該N聲道輸入節目是包括一底層聲道C以及兩個物件聲道U及V之三聲道基於物件的音頻節目。希望將該節目編碼成經由有兩個子位元流之一 TrueHD位元流而傳輸,因而可使用第一子位元流擷取2聲道縮混(將該節目呈現到二聲道揚聲器設置),且可使用兩個子位元流而無損地恢復原始的3聲道輸入節目。
以下列方程式表示亦該輸入節目至該2聲道混合之呈現方程式(或縮混方程式): 其中第一行對應於相等地饋入左及右聲道的該底層聲道(中央聲道(center channel)C)之增益。第二及第三行分別對應於物件聲道U及物件聲道V。第一列對應於該2聲道縮混之左聲道,且第二列對應於右聲道。該等兩個物件在由Vt決定之速度下朝向彼此而移動。
將檢視在三個不同時刻t1、t2、及t3下的呈現矩陣。 在該例子中,將假定t1=0,亦即,。換言之,在t1時,物件U完全饋入右,且物件V完全縮混到左。當該等物件朝向彼此而移動時,該等物件對較遠揚聲器的貢獻增加。為了展開進一步的例子,假定,其中T是一存取單位的長度(通常為0.8333毫秒或在48千赫取樣頻率下的40個樣本)。因此,在t=40T時,該等兩個物件是在場景的中央。現在將考慮t2=15T,且t3=30T之情形,因而:
現在考慮將所提供的該規格A2(t)分解為輸入及輸出本原矩陣。為了顧及簡化,假定矩陣是單位矩陣,且(解碼器102中之)ChAssign0是單位聲道指派,亦即,等於零置換(單位矩陣)。
可看出: 上式的乘積之前兩列正好是該規格A2(t1)。換言之,該等本原矩陣、以及InvChAssign1(t1)指示之聲道指派共同導致將該輸入聲道C、物件U、以及物件V變換為三個內部聲道,該等三個內部聲道中之前兩個內部聲道正好是所需的縮混L及R。因此,如果已將該等輸出本原矩陣以及用於該等兩個聲道呈現之聲道指派選擇為單位矩陣,則上述將A(t1)分解為該等本原矩陣、以及聲道指派InvChAssign1(t1)是輸入本原矩陣的一有效選擇。請注意,對所有三個內部聲道操作之一解碼器可對該等輸入本原矩陣執行無損的逆矩陣運算,而擷取C、物件U、以及物件V。然而,二聲道解碼器將只需要內部聲道1及2,且施加在本例子中都是單位矩陣之輸出本原矩陣、以及ChAssign0。
同樣地,可發現: 其中前兩列相同於A(t2),且 其中前兩列相同於A(t3)。
傳統的TrueHD編碼器(並未實施本發明的TrueHD編碼器)可選擇傳輸在時間t1、t2、及t3上的前文所設計之該等本原矩陣(之逆本原矩陣),亦即,{P0(t1)、P1(t1)、P2(t1)}、{P0(t2)、P1(t2)、P2(t2)}、{P0(t3)、P1(t3)、P2(t3)}。在此種情形中,以A(t1)上之規格近似t1與t2之間的任何時間t上之規格,且以A(t2)上之規格近似t2與t3之間的任何時間t上之規格。
在第6圖所示系統之實施例中,t=t1或t=t2或t=t3上之本原矩陣對相同的聲道(聲道2)操作,亦即,所有三種情形中之非零列都是第二列。中也是類似的情況。此外,該等時刻中之每一時刻上之InvChAssign1都是相同的。
因此,為了以第6圖的編碼器100之該實施例執行編碼,可計算下列的差量矩陣: 以及
與傳統的TrueHD編碼器相比之下,能夠執行內插矩陣運算之TrueHD編碼器(第6圖的編碼器100之該實施例)可選擇傳送種子(本原及差量)矩陣{P0(t1)、P1(t1)、P2(t1)}、{Δ0(t1)、Δ1(t1)、Δ2(t1)}、{Δ0(t2)、Δ1(t2)、Δ2(t2)}。
以內插法導出任何中間時刻上之該等本原矩陣及差量矩陣。可以下列乘積的前兩列之形式導出t1與t2間之特定時間t上之所得到的縮混方程式: 且可以下列乘積的前兩列之形式導出t2與t3間之特定時間t上之所得到的縮混方程式:
在前文中,實際上不傳輸該等矩陣{P0(t2)、P1(t2)、P2(t2)},而是以差量矩陣{Δ0(t1)、Δ1(t1)、Δ2(t1)}對上一時間點的本原矩陣執行內插之方式導出該等矩陣{P0(t2)、P1(t2)、P2(t2)}。
因而得知上述兩個該等情況中之每一時刻"t"上之所到的縮混方程式。因此,可計算特定時間"t"上之近似規格與該時刻的真實規格間之失配。第7圖是不同時刻t上分別使用內插的本原矩陣(被標示為"內插矩陣運算"的曲線)以及分段常數(非內插的)本原矩陣(被標示為"非內插矩陣運算"的曲線)時之所得到的規格與真實規格間之平方誤差總和(sum of squared errors)之圖形。如第7圖所示,內插矩陣運算在區域0-600秒(t1-t2)中可得到比非內插矩陣運算顯然更接近的規格A2(t)。為了得到與非內插矩陣運算相同位準的失真,可能必須在t1與t2間之多個時間點上傳送矩陣更新。
非內插矩陣運算可導致在某些中間時刻上(例如,在第7圖所示例子中之600秒至900秒之間)較接近真實規 格之所得到的縮混,但是非內插矩陣運算中之誤差隨著離下一矩陣更新的時間愈來愈近而持續地增加,而內插矩陣運算之誤差則在接近更新時間點(於該例子中是在t3=30*T=1200秒)時變小。可藉由在時間t2與t3之間傳送另一差量更新,而進一步減小內插矩陣運算中之誤差。
本發明的各實施例實施下列特徵中之一或多項特徵:1.一種變換,用以藉由施加一序列之本原矩陣(最好是單位本原矩陣)而將一組聲道變換為相等數目的其他聲道,其中該等本原矩陣的至少某些本原矩陣中之每一本原矩陣是以一種子本原矩陣及一種子差量矩陣的(根據一內插函數決定之)一線性組合(linear combination)對相同聲道運算之方式計算出的一內插本原矩陣。由該內插函數決定該線性組合之係數(亦即,一內插本原矩陣之每一係數是一線性組合A+f(t)B,其中A是該種子本原矩陣之一係數,B是該種子差量矩陣之一對應的係數,且f(t)是與該內插本原矩陣相關聯的內插函數在時間t之值)。在某些例子中,對一編碼位元流的編碼音頻內容執行該變換,以便無損地恢復已被編碼而產生該編碼位元流的音頻內容;2.根據上述特徵1之變換,其中將該種子本原矩陣及該種子差量矩陣分別施加到將要被變換的該等聲道,且線性地組合該等所得到的音頻樣本(例如,如同第4圖之電路所示,以平行之方式執行該種子本原矩陣之矩陣乘法 以及該種子差量矩陣之矩陣乘法);3.根據上述特徵1之變換,其中內插因數在一編碼位元流的樣本之某些間隔(例如,短間隔)中保持實質上不變,且只在內插因數改變的間隔中(以內插法)更新最新的本原矩陣(例如,以便減少解碼器中之處理的複雜性);4.根據上述特徵1之變換,其中該等內插本原矩陣是單位本原矩陣。在此種情形中,可在有限精確度的處理下無損地實施以(一編碼器中之)一串接的單位本原矩陣執行的乘法、以及接續的以一串接的該等單位本原矩陣之逆矩陣(在一解碼器中)執行的乘法;5.根據上述特徵1之變換,其中在自一編碼位元流提取編碼聲道及種子矩陣的一音頻解碼器中執行該變換,其中該解碼器最好是被配置成:藉由將自執行矩陣運算後的音訊導出之一核對字與自該編碼位元流提取之一核對字比較,而驗證是否已正確地決定了被解碼之(執行矩陣運算後之)音訊;6.根據上述特徵1之變換,其中在自一編碼位元流提取編碼聲道及種子矩陣的一無損音訊編碼系統之一解碼器中執行該變換,且已由將無損逆本原矩陣施加到輸入音訊且因而將該輸入音訊無損地編碼為該位元流之一對應的編碼器產生了該等編碼聲道;7.根據上述特徵1之變換,其中在將被接收的編碼聲道乘以一串接的本原矩陣之一解碼器中執行該變換,且 只以內插法決定該等本原矩陣之一子集(亦即,可不時地將其他本原矩陣之已更新版本傳送到該解碼器,但是該解碼器並不為了更新該等已更新版本而執行內插);8.根據上述特徵1之變換,其中選擇該等種子本原矩陣、種子差量矩陣、以及內插函數,因而可經由一解碼器(使用矩陣及內插功能)執行的矩陣運算而變換一編碼器產生的該等編碼聲道之一子集,而實現該編碼器編碼的原始音訊之特定縮混;9.根據上述特徵8之變換,其中該原始音訊是一基於物件的音頻節目,且該等特定縮混對應於將該節目之聲道呈現到靜態揚聲器設置(例如,立體聲、或5.1聲道、或7.1聲道);10.根據上述特徵9之變換,其中該節目指示的各音頻物件是動態的,因而瞬時改變縮混到特定靜態揚聲器設置之縮混規格,其中藉由對該等編碼聲道執行內插矩陣運算而產生一縮混呈現,因而適應該瞬時改變;11.根據上述特徵1之變換,其中能夠執行內插的一解碼器(被配置成根據本發明的一實施例而執行內插)也能夠將符合不執行內插而決定任何內插矩陣的一傳統語法的一編碼位元流之各子位元流解碼;12.根據上述特徵1之變換,其中該等本原矩陣被設計成利用聲道間關聯性(inter-channel correlation)而實現較佳之壓縮;以及13.根據上述特徵1之變換,其中內插矩陣運算被用 於實現為視訊片段保護設計之動態縮混規格。
考慮到當來源音訊是一基於物件的音頻節目時,根據本發明的一實施例而使用內插產生之縮混矩陣(為了自一編碼位元流恢復縮混呈現)通常持續地改變,因而通常需要經常更新本發明的典型實施例中採用之(亦即,被包含在該編碼位元流之)種子本原矩陣,以便恢復此類縮混呈現。
如果為了密切地近似一持續改變的矩陣規格而頻繁地更新種子本原矩陣,則該編碼位元流通常包含用於表示一序列之串接的種子本原矩陣組{P0(t1),P1(t1),...,Pn(t1)}、{P0(t2),P1(t2),...,Pn(t2)}、{P0(t3),P1(t3),...,Pn(t3)}等的種子本原矩陣組之資料。因而可任一解碼器恢復該等更新時刻t1、t2、t3、....的每一更新時刻上之指定串接的矩陣。因為系統中為了呈現基於物件的音頻節目而指定的呈現矩陣通常及時持續地改變,所以(該編碼位元流中包含的一序列之串接的種子本原矩陣中之)每一種子本原矩陣(至少在該節目的一間隔中)可能有相同的本原矩陣組態。該等本原矩陣中之係數本身可能隨著時間而改變,但是該矩陣組態並不改變(或者並不如同該等係數這樣頻繁地改變)。可由諸如下列參數等的參數決定每一串接的矩陣組態:1.該串接中之本原矩陣的數目;2.該等本原矩陣操作的聲道之順序;3.該等本原矩陣中之係數的數量級(order of magnitude); 4.表示該等係數所需的(以位元為單位之)解析度;以及5.恆為零的係數之位置。
在許多種子矩陣更新的一間隔中,用於指示此種本原矩陣組態之該等參數可保持不變。可能需要經由該編碼位元流將此類參數中之一或多個參數傳輸到解碼器,以便使該解碼器按照所需方式而操作。因為該等組態參數可能不如同本原矩陣更新本身那樣頻繁地改變,所以在某些實施例中,該編碼位元流的語法獨立地指定該等矩陣組態參數是否與一組種子矩陣的矩陣係數之更新一起被傳輸。相比之下,在傳統的TrueHD中,(編碼位元流指示之)編碼矩陣更新必然伴隨著組態更新。在本發明的所考慮之實施例中,如果只接收到矩陣係數的更新(亦即,沒有矩陣組態的更新),則解碼器將保留且使用最近接收到的矩陣組態資訊。
雖然預想到內插矩陣運算通常容許低種子矩陣更新率,但是預期(矩陣組態更新可以或可以不伴隨每一種子矩陣更新之)該等所考慮之實施例將有效率地傳輸組態資訊,且進一步減少呈現矩陣更新所需之位元率。在該等所考慮之實施例中,該等組態參數可包括與每一種子本原矩陣有關的參數、及/或與被傳輸的差量矩陣有關的參數。
為了將整體傳輸位元率最小化,該編碼器可實施更新矩陣組態與耗用多一些的位元於矩陣係數更新同時保持矩陣組態不變間之折衷。
可傳輸斜率資訊,以便自用於一編碼聲道的一本原矩陣移到對相同聲道操作的另一本原矩陣,而實現內插矩陣運算。可以矩陣係數在每一存取單位(Access Unit;簡稱AU)的變化率之形式傳輸該斜率。如果m1及m2是在相隔K個存取單位的時間上之本原矩陣係數,則可將自m1內插到m2的斜率定義為差量=(m2-m1)/K。
如果係數m1及m2包含具有格式m1=a.bcdefg且m2=a.bcuvwx的位元(其中係在特定數目(可被表示為"frac_bits")的位元精確度下指定這兩個係數),則將以形式為0.0000mnop(由於基於每一AU的差量規格需要較高的精確度及額外的前導零)的一值指示斜率"差量"。可將表示斜率"差量"所需之該額外的精確度定義為"delta_precision"。如果本發明的一實施例包括將每一差量值直接包含在一編碼位元流之一步驟,則該編碼位元流將需要包含有一位元數B之值,其中該B滿足下式:B=frac_bits+delta_precision。傳輸小數位之後的該等前導零顯然是沒有效率的。因此,在某些實施例中,在該編碼位元流中被編碼的(且將被傳送到解碼器的)差量值是形式為以delta_bits加上一個正負號位元(sign bit)表示的mnopqr之一正規化差量(為一整數)。可在該編碼位元流中傳輸該delta_bits及delta_precision值,作為差量矩陣的組態資訊之一部分。在此類實施例中,該解碼器被配置成在該例子中以下式導出所需之差量:差量=(位元流中之正規化差量)*2-(frac_bits+delta_precision)
因此,在某些實施例中,該編碼位元流中包含的內插值包括有Y位元的精確度(其中Y=frac_bits)之正規化差量值、以及精確度值。該等正規化差量值表示了差量值之正規化版本,其中該等差量值表示了該等本原矩陣的係數之變化率,該等本原矩陣之每一係數有Y位元的精確度,且該等精確度值表示了與表示該等本原矩陣的係數所需之精確度相比下表示該等差量值所需之精確度增加量(亦即,"delta_precision")。可將該等正規化差量值以取決於該等本原矩陣的係數的解析度及該等精確度值之一縮放因數縮放,而導出該等差量值。
可以硬體、韌體、或軟體、或以上各項之一組合(例如,一可程式邏輯陣列)實施本發明之實施例。例如,可以被適當編程之(或被以其他方式配置之)硬體或韌體(例如,以被編程之一般用途處理器、數位信號處理器、或微處理器之方式)實施編碼器40或100、解碼器42或102、解碼器42之子系統47、48、60、及61、或解碼器102之子系統110-113及106-109。除非另有指定,否則被包含作為本發明的一部分之演算法或程序並不固有地與任何特定電腦或其他設備相關。尤其可配合根據本發明之揭示而撰寫的程式使用各種一般用途機器,或者該一般用途機器可更便於建構用於執行該等所需方法步驟之更專業的設備(例如,積體電路)。因此,可以在一或多個可編程電腦系統(例如,實施編碼器40或100、解碼器42或102、解碼器42之子系統47、48、60、及/或61、或解 碼器102之子系統110-113及106-109之一電腦系統)中執行的一或多個電腦程式實施本發明,該一或多個可編程電腦系統中之每一可編程電腦系統包含至少一處理器、至少一資料儲存系統(包括揮發性及非揮發性記憶體及/或儲存元件)、至少一輸入裝置或埠、以及至少一輸出裝置或埠。程式碼被施加到輸入資料,而執行本發明所述之該等功能,且產生輸出資訊。該輸出資訊被以習知之方式施加到一或多個輸出裝置。
可以任何所需之電腦語言(其中包括機器語言、組合語言、高階程序語言、邏輯語言、或物件導向程式語言)實施每一此類程式,以便與電腦系統通訊。在任何情況下,該語言可以是一編譯式或直譯式語言。
例如,當以電腦軟體指令序列實施時,可以在適當的數位信號處理硬體中運行的多線程軟體指令序列實施本發明實施例之各種功能及必揍,在此種情形中,該等實施例之各種裝置、步驟、及功能可對應於該等軟體指令之一些部分。
每一該電腦程式最好是被儲存在被下載到一般用途或特殊用途可編程電腦可讀取之一儲存媒體或裝置(例如,固態記憶體或媒體、或磁性或光學媒體),以便在該儲存媒體或裝置被該電腦系統讀取時,將配置且操作該電腦而執行本發明所述之該等程序。亦可將本發明之系統實施為以一電腦程式配置之(亦即,儲存了一電腦程式之)一電腦可讀取的儲存媒體,其中該儲存媒體被配置成使一電腦 系統在一特定及預定之方式下操作而執行本發明所述之該等功能。
雖然以舉例之方式且參照一些特定實施例而說明了本發明之實施方式,但是我們應可了解:本發明之實施方式不限於該等被揭示之實施例。相反地,本發明意圖涵蓋熟悉此項技術者顯而易知之各種修改及類似配置。因此,最後的申請專利範圍之範圍應給予最廣泛的解釋而包含所有此類修改及類似配置。
31‧‧‧傳送子系統
100‧‧‧編碼器
101‧‧‧編碼級
102‧‧‧解碼器
103‧‧‧矩陣決定子系統
104‧‧‧壓縮子系統
105‧‧‧剖析子系統
106,107,108,109‧‧‧矩陣乘法級
110,111,112,113‧‧‧內插級

Claims (61)

  1. 一種用於將N聲道音頻節目編碼之方法,其中在一時間間隔中指定該節目,該時間間隔包括自一時間t1至一時間t2的一子區間,且已指定了該時間間隔中將N個編碼信號聲道混合為M個輸出聲道的一時變混合A(t),其中M小於或等於N,該方法包含下列步驟:決定一第一串接的N×N本原矩陣,該第一串接的N×N本原矩陣被施加到該等N個編碼信號聲道的樣本時,執行將該等N個編碼信號聲道的音頻內容混合為該等M個輸出聲道之一第一混合,其中該第一混合至少實質上等於A(t1),從這一方面來說,該第一混合與該時變混合A(t)是一致的;決定一些內插值,該等內插值連同該第一串接的本原矩陣以及在該子區間中界定的一內插函數表示了一序列之串接的N×N已更新本原矩陣,因而每一該等串接的已更新本原矩陣被施加到該等N個編碼信號聲道的樣本時,執行將該等N個編碼信號聲道混合為該等M個輸出聲道之與該子區間中之一不同的時間相關聯的一更新混合,其中每一該更新混合與該時變混合A(t)一致;以及產生用於表示編碼音頻內容、該等內插值、及該第一串接的本原矩陣之一編碼位元流。
  2. 如申請專利範圍第1項之方法,其中該等本原矩陣中之每一本原矩陣是一單位本原矩陣。
  3. 如申請專利範圍第2項之方法,亦包含產生編碼 音頻內容之一步驟,其方式為對該節目的N個聲道之樣本執行矩陣運算,其中包括將一序列之矩陣串接施加到該等樣本,其中該序列中之每一矩陣串接是一串接的本原矩陣,且該序列之矩陣串接包括係為該第一串接的本原矩陣之一串接的逆本原矩陣的一第一逆矩陣串接。
  4. 如申請專利範圍第2項之方法,亦包含產生編碼音頻內容之一步驟,其方式為對該節目的N個聲道之樣本執行矩陣運算,其中包括將一序列之矩陣串接施加到該等樣本,其中該序列中之每一矩陣串接是一串接的本原矩陣,且該序列中之每一矩陣串接是該等串接的N×N已更新本原矩陣之一對應串接的逆矩陣,且N=M,因而該等M個輸出聲道相同於被無損地恢復的該節目之該等N個聲道。
  5. 如申請專利範圍第2項之方法,其中N=M,且亦包含藉由處理該編碼位元流而無損地恢復該節目的該等N個聲道之一步驟,其中包括:執行內插,以便自該等內插值、該第一串接的本原矩陣、及該內插函數決定該序列之串接的N×N已更新本原矩陣。
  6. 如申請專利範圍第5項之方法,其中該編碼位元流也表示了該內插函數。
  7. 如申請專利範圍第1項之方法,其中N=M,且亦包含下列步驟:將該編碼位元流傳送到被配置成執行該內插函數之一 解碼器;以及在該解碼器中處理該編碼位元流,而無損地恢復該節目之該等N個聲道,其中包括執行內插,以便自該等內插值、該第一串接的本原矩陣、及該內插函數決定該序列之串接的N×N已更新本原矩陣。
  8. 如申請專利範圍第1項之方法,其中該節目是包括至少一物件聲道以及用於表示至少一物件的一軌跡的資料之一基於物件的音頻節目。
  9. 如申請專利範圍第1項之方法,其中該第一串接的本原矩陣實施一種子本原矩陣,且該等內插值表示了該種子本原矩陣之一種子差量矩陣。
  10. 如申請專利範圍第4項之方法,其中也已指定了將該時間間隔中之該節目的音頻內容或編碼內容縮混為M1個揚聲器聲道之一時變縮混A2(t),其中M1是小於M的一整數,且該方法包含下列步驟:決定一第二串接的M1×M1本原矩陣,該第二串接的M1×M1本原矩陣被施加到該音頻內容或編碼內容的M1個聲道之樣本時,執行將該節目的音頻內容縮混為該等M1個揚聲器聲道,其中該縮混至少實質上等於A2(t1),從這一方面來說,該縮混與該時變混合A2(t)是一致的;以及決定一些額外的內插值,該等額外的內插值連同該第二串接的M1×M1本原矩陣以及在該子區間中界定的一第二內插函數表示了一序列之串接的已更新M1×M1本原矩陣,因而每一該等串接的已更新M1×M1本原矩陣被施加 到該音頻內容或該編碼內容之該等M1個聲道的樣本時,執行將該節目的音頻內容縮混為該等M1個揚聲器聲道之與該子區間中之一不同的時間相關聯的一更新縮混,其中每一該更新縮混與該時變混合A2(t)一致,且其中該編碼位元流表示了該等額外的內插值以及該第二串接的M1×M1本原矩陣。
  11. 如申請專利範圍第10項之方法,其中該編碼位元流也表示了該第二內插函數。
  12. 如申請專利範圍第10項之方法,其中該縮混規格A2(t)中之時變是部分地由於以斜坡方式上升到該指定縮混之視訊片段保護或自該指定縮混之視訊片段保護釋放。
  13. 如申請專利範圍第1項之方法,其中該等內插值包括可以Y個位元表示之正規化差量值、該位元數的一指示、以及精確度值,其中該等正規化差量值表示了差量值之正規化版本,該等差量值表示了該等本原矩陣的係數之變化率,且該等精確度值指示了與表示該等本原矩陣的係數所需之精確度相比下表示該等差量值所需之精確度增加量。
  14. 如申請專利範圍第13項之方法,其中將該等正規化差量值以取決於該等本原矩陣的係數的解析度及該等精確度值之一縮放因數縮放,而導出該等差量值。
  15. 如申請專利範圍第4項之方法,其中也已指定了將該時間間隔中之該節目的音頻內容或編碼內容縮混為 M1個揚聲器聲道之一時變縮混A2(t),其中M1是小於M的一整數,且該方法亦包含下列步驟:決定一第二串接的M1×M1本原矩陣,該第二串接的M1×M1本原矩陣在該間隔中之每一時刻t被施加到編碼音頻內容的M1個聲道之樣本時,執行將該N聲道音頻節目縮混為該等M1個揚聲器聲道,其中該縮混與該時變混合A2(t)是一致的。
  16. 如申請專利範圍第15項之方法,其中該縮混規格A2(t)中之時變是部分地由於以斜坡方式上升到該指定縮混之視訊片段保護或自該指定縮混之視訊片段保護釋放。
  17. 一種用於恢復N聲道音頻節目的M個聲道之方法,其中在一時間間隔中指定該節目,該時間間隔包括自一時間t1至一時間t2的一子區間,且已指定了該時間間隔中將N個編碼信號聲道混合為M個輸出聲道的一時變混合A(t),該方法包含下列步驟:取得用於表示編碼音頻內容、一些內插值、及一第一串接的N×N本原矩陣之一編碼位元流;以及執行內插,以便自該等內插值、該第一串接的本原矩陣、及該子區間中之一內插函數決定一序列之串接的N×N已更新本原矩陣,其中該第一串接的N×N本原矩陣被施加到該編碼音頻內容之N個編碼信號聲道的樣本時,執行將該等N個編碼信號聲道的音頻內容混合為該等M個輸出聲道之一第一 混合,其中該第一混合至少實質上等於A(t1),從這一方面來說,該第一混合與該時變混合A(t)是一致的,且該等內插值連同該第一串接的本原矩陣以及該內插函數表示了一序列之串接的N×N已更新本原矩陣,因而每一該等串接的已更新本原矩陣被施加到該編碼音頻內容的該等N個編碼信號聲道之樣本時,執行將該等N個編碼信號聲道混合為該等M個輸出聲道之與該子區間中之一不同的時間相關聯的一更新混合,其中每一該更新混合與該時變混合A(t)一致。
  18. 如申請專利範圍第17項之方法,其中該等本原矩陣中之每一本原矩陣是一單位本原矩陣。
  19. 如申請專利範圍第18項之方法,其中產生了編碼音頻內容,其方式為對該節目的N個聲道之樣本執行矩陣運算,包括將一序列之矩陣串接施加到該等樣本,其中該序列中之每一矩陣串接是一串接的本原矩陣,且該序列之矩陣串接包括係為該第一串接的本原矩陣之一串接的逆本原矩陣的一第一逆矩陣串接。
  20. 如申請專利範圍第18項之方法,其中產生了編碼音頻內容,其方式為對該節目的N個聲道之樣本執行矩陣運算,包括將一序列之矩陣串接施加到該等樣本,其中該序列中之每一矩陣串接是一串接的本原矩陣,且該序列中之每一矩陣串接是該等串接的N×N已更新本原矩陣之一對應串接的逆矩陣,且N=M,因而該等M個輸出聲道相同於被無損地恢復的該節目之該等N個聲道。
  21. 如申請專利範圍第20項之方法,其中也已指定了該時間間隔中將該節目的音頻內容或編碼內容縮混為M1個揚聲器聲道的一時變縮混A2(t),其中M1是小於N的一整數,且該方法也包含下列步驟:接收一第二串接的M1×M1本原矩陣;以及於該間隔中之每一時刻t上將該第二串接的M1×M1施加到該編碼音頻內容的M1個聲道之樣本,而執行將該N聲道音頻節目縮混為M1個揚聲器聲道,其中該縮混與該時變混合A2(t)是一致的。
  22. 如申請專利範圍第21項之方法,其中該縮混規格A2(t)中之時變是部分地由於以斜坡方式上升到該指定縮混之視訊片段保護或自該指定縮混之視訊片段保護釋放。
  23. 如申請專利範圍第17項之方法,其中該編碼位元流也表示了該內插函數。
  24. 如申請專利範圍第17項之方法,其中該節目是包括至少一物件聲道以及用於表示至少一物件的一軌跡的資料之一基於物件的音頻節目。
  25. 如申請專利範圍第17項之方法,其中該第一串接的本原矩陣實施一種子本原矩陣,且該等內插值表示了該種子本原矩陣之一種子差量矩陣。
  26. 如申請專利範圍第17項之方法,該方法亦包含下列步驟:將至少一串接的已更新N×N本原矩陣施加到該編碼 音頻內容的樣本,包括將一種子本原矩陣及一種子差量矩陣分別施加到該編碼音頻內容的樣本,而產生被變換的樣本,且根據該內插函數而線性地組合該等被變換的樣本,因而產生用於表示該N聲道音頻節目的該等M個聲道的樣本之被恢復的樣本。
  27. 如申請專利範圍第17項之方法,其中該內插函數在該編碼位元流的某些間隔中是實質上不變的,且只在該內插函數不是實質上不變的該編碼位元流之間隔中,以內插法更新該等串接的N×N已更新本原矩陣中之每一最近已更新串接。
  28. 如申請專利範圍第17項之方法,其中該等內插值包括可以Y個位元表示之正規化差量值、該位元數的精確度之一指示、以及精確度值,其中該等正規化差量值表示了差量值之正規化版本,該等差量值表示了該等本原矩陣的係數之變化率,且該等精確度值指示了與表示該等本原矩陣的係數所需之精確度相比下表示該等差量值所需之精確度增加量。
  29. 如申請專利範圍第28項之方法,其中將該等正規化差量值以取決於該等本原矩陣的係數的解析度及該等精確度值之一縮放因數縮放,而導出該等差量值。
  30. 如申請專利範圍第20項之方法,其中也已指定了將該時間間隔中之該N聲道節目縮混為M1個揚聲器聲道之一時變縮混A2(t),其中M1是小於N的一整數,且該方法亦包含下列步驟: 接收一第二串接的M1×M1本原矩陣及第二組的內插值;將該第二串接的M1×M1本原矩陣施加到該編碼音頻內容的M1個聲道之樣本,而執行將該N聲道節目縮混為M1個揚聲器聲道,其中該縮混至少實質上等於A2(t1),從這一方面來說,該縮混與該時變混合A2(t)是一致的;施加該第二組的內插值、該第二串接的M1×M1本原矩陣、及在該子區間中界定之一第二內插函數,而取得一序列之串接的已更新M1×M1本原矩陣;以及將該等已更新M1×M1本原矩陣施加到該編碼內容的該等M1個聲道之樣本,而執行該N聲道節目之與該子區間中之一不同的時間相關聯的至少一更新縮混,其中每一該更新縮混與該時變混合A2(t)一致。
  31. 如申請專利範圍第30項之方法,其中該等本原矩陣中之每一本原矩陣是一單位本原矩陣。
  32. 如申請專利範圍第30項之方法,其中該編碼位元流也表示了該第二內插函數。
  33. 如申請專利範圍第30項之方法,該方法亦包含下列步驟:將至少一串接的已更新M1×M1本原矩陣施加到該編碼音頻內容的樣本或自該編碼音頻內容決定的樣本,包括將一種子本原矩陣及一種子差量矩陣分別施加到該等音頻樣本,而產生被變換的樣本,且根據該內插函數而線性地組合該等被變換的樣本。
  34. 如申請專利範圍第30項之方法,其中該第二內插函數在該編碼位元流的某些間隔中是實質上不變的,且只在該內插函數不是實質上不變的該編碼位元流之間隔中以內插法更新該等串接的M1×M1已更新本原矩陣中之每一最近已更新串接。
  35. 如申請專利範圍第30項之方法,其中該縮混規格A2(t)中之時變是部分地由於以斜坡方式上升到該指定縮混之視訊片段保護或自該指定縮混之視訊片段保護釋放。
  36. 如申請專利範圍第17項之方法,亦包含下列步驟:自該編碼位元流提取一核對字;以及將自矩陣乘法子系統產生的音頻樣本導出之一第二核對字與自該編碼位元流提取之該核對字比較,而驗證是否已正確地恢復該音頻節目的一分段之聲道。
  37. 一種被配置成將N聲道音頻節目編碼之音頻編碼器,其中在一時間間隔中指定該節目,該時間間隔包括自一時間t1至一時間t2的一子區間,且已指定了該時間間隔中將N個編碼信號聲道混合為M個輸出聲道的一時變混合A(t),其中M小於或等於N,該編碼器包含:一第一子系統,該第一子系統被耦合成且被配置成:決定一第一串接的N×N本原矩陣,該第一串接的N×N本原矩陣被施加到該等N個編碼信號聲道的樣本時,執行將該等N個編碼信號聲道的音頻內容混合為該等M個輸出 聲道之一第一混合,其中該第一混合至少實質上等於A(t1),從這一方面來說,該第一混合與該時變混合A(t)是一致的;且決定一些內插值,該等內插值連同該第一串接的本原矩陣以及在該子區間中界定的一內插函數表示了一序列之串接的N×N已更新本原矩陣,因而每一該等串接的已更新本原矩陣被施加到該等N個編碼信號聲道的樣本時,執行將該等N個編碼信號聲道混合為該等M個輸出聲道之與該子區間中之一不同的時間相關聯的一更新混合,其中每一該更新混合與該時變混合A(t)一致;以及被耦合到該第一子系統之一第二子系統,該第二子系統被配置成產生用於表示編碼音頻內容、該等內插值、及該第一串接的本原矩陣之一編碼位元流。
  38. 如申請專利範圍第37項之編碼器,其中該等本原矩陣中之每一本原矩陣是一單位本原矩陣。
  39. 如申請專利範圍第38項之編碼器,也包含被耦合到該第二子系統之一第三子系統,該第三子系統被配置成產生該編碼音頻內容,其方式為對該節目的N個聲道之樣本執行矩陣運算,包括將一序列之矩陣串接施加到該等樣本,其中該序列中之每一矩陣串接是一串接的本原矩陣,且該序列之矩陣串接包括係為該第一串接的本原矩陣之一串接的逆本原矩陣的一第一逆矩陣串接。
  40. 如申請專利範圍第38項之編碼器,也包含被耦合到該第二子系統之一第三子系統,該第三子系統被配置成產生該編碼音頻內容,其方式為對該節目的N個聲道之樣 本執行矩陣運算,包括將一序列之矩陣串接施加到該等樣本,其中該序列中之每一矩陣串接是一串接的本原矩陣,且該序列中之每一矩陣串接是該等串接的N×N已更新本原矩陣之一對應串接的逆矩陣,且N=M,因而該等M個輸出聲道相同於被無損地恢復的該節目之該等N個聲道。
  41. 如申請專利範圍第37項之編碼器,其中該編碼位元流也表示了該內插函數。
  42. 如申請專利範圍第37項之編碼器,其中該節目是包括至少一物件聲道以及用於表示至少一物件的一軌跡的資料之一基於物件的音頻節目。
  43. 如申請專利範圍第37項之編碼器,其中該第一串接的本原矩陣實施一種子本原矩陣,且該等內插值表示了該種子本原矩陣之一種子差量矩陣。
  44. 如申請專利範圍第40項之編碼器,其中也已指定了將該時間間隔中之該節目的音頻內容或編碼內容縮混為M1個揚聲器聲道之一時變縮混A2(t),其中M1是小於M的一整數,其中該第一子系統被配置成:決定一第二串接的M1×M1本原矩陣,該第二串接的M1×M1本原矩陣被施加到該音頻內容或編碼內容的M1個聲道之樣本時,執行將該節目的音頻內容縮混為該等M1個揚聲器聲道,其中該縮混至少實質上等於A2(t1),從這一方面來說,該縮混與該時變混合A2(t)是一致的;且決定一些額外的內插值,該等額外的內插值連同該第二串接的M1×M1本原矩陣以及在 該子區間中界定的一第二內插函數表示了一序列之串接的已更新M1×M1本原矩陣,因而每一該等串接的已更新M1×M1本原矩陣被施加到該音頻內容或該編碼內容之該等M1個聲道的樣本時,執行將該節目的音頻內容縮混為該等M1個揚聲器聲道之與該子區間中之一不同的時間相關聯的一更新縮混,其中每一該更新縮混與該時變混合A2(t)一致,且其中該第二子系統被配置成產生用於表示該等額外的內插值以及該第二串接的M1×M1本原矩陣之該編碼位元流資料。
  45. 如申請專利範圍第44項之編碼器,其中該第二子系統被配置成產生也表示該第二內插函數之該編碼位元流資料。
  46. 如申請專利範圍第37項之編碼器,其中該等內插值包括可以Y個位元表示之正規化差量值、該位元數的精確度之一指示、以及精確度值,其中該等正規化差量值表示了差量值之正規化版本,該等差量值表示了該等本原矩陣的係數之變化率,且該等精確度值指示了與表示該等本原矩陣的係數所需之精確度相比下表示該等差量值所需之精確度增加量。
  47. 如申請專利範圍第46項之編碼器,其中將該等正規化差量值以取決於該等本原矩陣的係數的解析度及該等精確度值之一縮放因數縮放,而導出該等差量值。
  48. 一種被配置成執行N聲道音頻節目的恢復之解碼 器,其中在一時間間隔中指定該節目,該時間間隔包括自一時間t1至一時間t2的一子區間,且已指定了該時間間隔中將N個編碼信號聲道混合為M個輸出聲道的一時變混合A(t),該解碼器包含:一剖析子系統,該剖析子系統被耦合成且被配置成自一編碼位元流擷取編碼音頻內容、一些內插值、及一第一串接的N×N本原矩陣;以及一內插子系統,該內插子系統被耦合成且被配置成自該等內插值、該第一串接的N×N本原矩陣、及該子區間中之一內插函數決定一序列之串接的N×N已更新本原矩陣,其中該第一串接的N×N本原矩陣被施加到該編碼音頻內容之N個編碼信號聲道的樣本時,執行將該等N個編碼信號聲道的音頻內容混合為該等M個輸出聲道之一第一混合,其中該第一混合至少實質上等於A(t1),從這一方面來說,該第一混合與該時變混合A(t)是一致的,以及每一該等串接的N×N已更新本原矩陣被施加到該編碼音頻內容的該等N個編碼信號聲道之樣本時,執行將該等N個編碼信號聲道混合為該等M個輸出聲道之與該子區間中之一不同的時間相關聯的一更新混合,其中每一該更新混合與該時變混合A(t)一致。
  49. 如申請專利範圍第48項之解碼器,也包含:被耦合到該內插子系統及該剖析子系統之一矩陣乘法 子系統,該矩陣乘法子系統被配置成將該第一串接的N×N本原矩陣以及每一該等串接的N×N已更新本原矩陣循序地施加到該編碼音頻內容,而無損地恢復該N聲道音頻節目的至少一分段之該等N個聲道。
  50. 如申請專利範圍第48項之解碼器,其中該等本原矩陣中之每一本原矩陣是一單位本原矩陣。
  51. 如申請專利範圍第48項之解碼器,其中該編碼位元流也表示了該內插函數,且該剖析子系統被配置成自一編碼位元流擷取用於表示該內插函數之資料。
  52. 如申請專利範圍第48項之解碼器,其中該節目是包括至少一物件聲道以及用於表示至少一物件的一軌跡的資料之一基於物件的音頻節目。
  53. 如申請專利範圍第48項之解碼器,其中該第一串接的N×N本原矩陣實施一種子本原矩陣,且該等內插值表示了該種子本原矩陣之一種子差量矩陣。
  54. 如申請專利範圍第48項之解碼器,其中該等內插值包括可以Y個位元表示之正規化差量值、該位元數的精確度之一指示、以及精確度值,其中該等正規化差量值表示了差量值之正規化版本,該等差量值表示了該等本原矩陣的係數之變化率,且該等精確度值指示了與表示該等本原矩陣的係數所需之精確度相比下表示該等差量值所需之精確度增加量。
  55. 如申請專利範圍第54項之解碼器,其中將該等正規化差量值以取決於該等本原矩陣的係數的解析度及該 等精確度值之一縮放因數縮放,而導出該等差量值。
  56. 如申請專利範圍第49項之解碼器,也被配置成恢復該N聲道音頻節目之一縮混,其中也已指定了將該時間間隔中之該N聲道節目縮混為M1個揚聲器聲道之一時變縮混A2(t),其中M1是小於N的一整數,其中該剖析子系統被配置成自該編碼位元流擷取一第二串接的M1×M1本原矩陣及第二組的內插值,其中該矩陣乘法子系統被耦合成且被配置成將該第二串接的M1×M1本原矩陣施加到該編碼音頻內容的M1個聲道之樣本,而執行將該N聲道節目縮混為M1個揚聲器聲道,其中該縮混至少實質上等於A2(t1),從這一方面來說,該縮混與該時變混合A2(t)是一致的;且其中該內插子系統被配置成施加該第二組的內插值、該第二串接的M1×M1本原矩陣、及在該子區間中界定之一第二內插函數,而取得一序列之串接的已更新M1×M1本原矩陣,且該矩陣乘法子系統被耦合成且被配置成將該等已更新M1×M1本原矩陣施加到該編碼內容的該等M1個聲道之樣本,而執行該N聲道節目之與該子區間中之一不同的時間相關聯的至少一更新縮混,其中每一該更新縮混與該時變混合A2(t)一致。
  57. 如申請專利範圍第56項之解碼器,其中該等本原矩陣中之每一本原矩陣是一單位本原矩陣。
  58. 如申請專利範圍第48項之解碼器,其中該編碼位元流也表示了該內插函數,且該剖析子系統被配置成自 一編碼位元流擷取用於表示該內插函數之資料。
  59. 如申請專利範圍第48項之解碼器,其中該節目是包括至少一物件聲道以及用於表示至少一物件的一軌跡的資料之一基於物件的音頻節目。
  60. 如申請專利範圍第48項之解碼器,其中該第一串接的N×N本原矩陣實施一種子本原矩陣,且該等內插值表示了該種子本原矩陣之一種子差量矩陣。
  61. 如申請專利範圍第49項之解碼器,其中該剖析子系統被配置成自該編碼位元流擷取一核對字,且該矩陣乘法子系統被配置成:將自該矩陣乘法子系統產生的音頻樣本導出之一第二核對字與自該編碼位元流擷取之該核對字比較,而驗證是否已正確地恢復該N聲道音頻節目的該分段之該等N個聲道。
TW103133002A 2013-09-27 2014-09-24 用於將 n 聲道音頻節目編碼之方法、用於恢復 n 聲道音頻節目的 m 個聲道之方法、被配置成將 n 聲道音頻節目編碼之音頻編碼器及被配置成執行 n 聲道音頻節目的恢復之解碼器 TWI557724B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201361883890P 2013-09-27 2013-09-27

Publications (2)

Publication Number Publication Date
TW201528254A true TW201528254A (zh) 2015-07-16
TWI557724B TWI557724B (zh) 2016-11-11

Family

ID=51660691

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103133002A TWI557724B (zh) 2013-09-27 2014-09-24 用於將 n 聲道音頻節目編碼之方法、用於恢復 n 聲道音頻節目的 m 個聲道之方法、被配置成將 n 聲道音頻節目編碼之音頻編碼器及被配置成執行 n 聲道音頻節目的恢復之解碼器

Country Status (21)

Country Link
US (1) US9826327B2 (zh)
EP (1) EP3050055B1 (zh)
JP (1) JP6388924B2 (zh)
KR (1) KR101794464B1 (zh)
CN (1) CN105659319B (zh)
AU (1) AU2014324853B2 (zh)
BR (1) BR112016005982B1 (zh)
CA (1) CA2923754C (zh)
DK (1) DK3050055T3 (zh)
ES (1) ES2645432T3 (zh)
HU (1) HUE037042T2 (zh)
IL (1) IL244325B (zh)
MX (1) MX352095B (zh)
MY (1) MY190204A (zh)
NO (1) NO3029329T3 (zh)
PL (1) PL3050055T3 (zh)
RU (1) RU2636667C2 (zh)
SG (1) SG11201601659PA (zh)
TW (1) TWI557724B (zh)
UA (1) UA113482C2 (zh)
WO (1) WO2015048387A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106463125B (zh) 2014-04-25 2020-09-15 杜比实验室特许公司 基于空间元数据的音频分割
US9794712B2 (en) 2014-04-25 2017-10-17 Dolby Laboratories Licensing Corporation Matrix decomposition for rendering adaptive audio using high definition audio codecs
WO2016168408A1 (en) * 2015-04-17 2016-10-20 Dolby Laboratories Licensing Corporation Audio encoding and rendering with discontinuity compensation
ES2955962T3 (es) 2015-09-25 2023-12-11 Voiceage Corp Método y sistema que utiliza una diferencia de correlación a largo plazo entre los canales izquierdo y derecho para mezcla descendente en el dominio del tiempo de una señal de sonido estéreo en canales primarios y secundarios
CN110447243B (zh) 2017-03-06 2021-06-01 杜比国际公司 基于音频数据流渲染音频输出的方法、解码器系统和介质
US11277705B2 (en) 2017-05-15 2022-03-15 Dolby Laboratories Licensing Corporation Methods, systems and apparatus for conversion of spatial audio format(s) to speaker signals
EP3442124B1 (de) * 2017-08-07 2020-02-05 Siemens Aktiengesellschaft Verfahren zum schützen der daten in einem datenspeicher vor einer unerkannten veränderung und datenverarbeitungsanlage
GB201808897D0 (en) * 2018-05-31 2018-07-18 Nokia Technologies Oy Spatial audio parameters
EP3967037A1 (en) * 2019-05-10 2022-03-16 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Matrix-based intra prediction
WO2020257331A1 (en) * 2019-06-20 2020-12-24 Dolby Laboratories Licensing Corporation Rendering of an m-channel input on s speakers (s<m)
US12062378B2 (en) * 2020-01-09 2024-08-13 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, encoding method, and decoding method
US12020028B2 (en) * 2020-12-26 2024-06-25 Intel Corporation Apparatuses, methods, and systems for 8-bit floating-point matrix dot product instructions

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7123652B1 (en) 1999-02-24 2006-10-17 Thomson Licensing S.A. Sampled data digital filtering system
DE60006953T2 (de) * 1999-04-07 2004-10-28 Dolby Laboratories Licensing Corp., San Francisco Matrizierung für die verlustfreie kodierung und dekodierung von mehrkanaligen audiosignalen
JP4218134B2 (ja) * 1999-06-17 2009-02-04 ソニー株式会社 復号装置及び方法、並びにプログラム提供媒体
US8983834B2 (en) * 2004-03-01 2015-03-17 Dolby Laboratories Licensing Corporation Multichannel audio coding
CA2808226C (en) * 2004-03-01 2016-07-19 Dolby Laboratories Licensing Corporation Multichannel audio coding
US7327287B2 (en) 2004-12-09 2008-02-05 Massachusetts Institute Of Technology Lossy data compression exploiting distortion side information
RU2393550C2 (ru) 2005-06-30 2010-06-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Устройство и способ кодирования и декодирования звукового сигнала
CN101253555B (zh) * 2005-09-01 2011-08-24 松下电器产业株式会社 多声道音频信号处理装置及多声道音频信号处理方法
EP1903559A1 (en) 2006-09-20 2008-03-26 Deutsche Thomson-Brandt Gmbh Method and device for transcoding audio signals
MX2009003570A (es) * 2006-10-16 2009-05-28 Dolby Sweden Ab Codificacion mejorada y representacion de parametros para codificacion de objetos de mezcla descendente de multicanal.
US8107571B2 (en) 2007-03-20 2012-01-31 Microsoft Corporation Parameterized filters and signaling techniques
US8249883B2 (en) 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
CN102124516B (zh) * 2008-08-14 2012-08-29 杜比实验室特许公司 音频信号格式变换
EP2214161A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal
EP2461321B1 (en) * 2009-07-31 2018-05-16 Panasonic Intellectual Property Management Co., Ltd. Coding device and decoding device
TWI444989B (zh) * 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
CN113490135B (zh) * 2010-03-23 2023-05-30 杜比实验室特许公司 音频再现方法和声音再现系统
RS1332U (en) 2013-04-24 2013-08-30 Tomislav Stanojević FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS

Also Published As

Publication number Publication date
NO3029329T3 (zh) 2018-06-09
RU2636667C2 (ru) 2017-11-27
MX2016003500A (es) 2016-07-06
JP2016536625A (ja) 2016-11-24
HUE037042T2 (hu) 2018-08-28
WO2015048387A1 (en) 2015-04-02
US20160241981A1 (en) 2016-08-18
AU2014324853B2 (en) 2017-10-19
UA113482C2 (xx) 2017-01-25
BR112016005982B1 (pt) 2022-08-09
IL244325B (en) 2020-05-31
CN105659319B (zh) 2020-01-03
KR101794464B1 (ko) 2017-11-06
IL244325A0 (en) 2016-04-21
AU2014324853A1 (en) 2016-03-31
CA2923754C (en) 2018-07-10
CA2923754A1 (en) 2015-04-02
EP3050055B1 (en) 2017-09-13
US9826327B2 (en) 2017-11-21
DK3050055T3 (da) 2017-11-13
BR112016005982A2 (pt) 2017-08-01
TWI557724B (zh) 2016-11-11
JP6388924B2 (ja) 2018-09-12
EP3050055A1 (en) 2016-08-03
RU2016110693A (ru) 2017-09-28
SG11201601659PA (en) 2016-04-28
KR20160045881A (ko) 2016-04-27
ES2645432T3 (es) 2017-12-05
PL3050055T3 (pl) 2018-01-31
MX352095B (es) 2017-11-08
MY190204A (en) 2022-04-04
CN105659319A (zh) 2016-06-08

Similar Documents

Publication Publication Date Title
TWI557724B (zh) 用於將 n 聲道音頻節目編碼之方法、用於恢復 n 聲道音頻節目的 m 個聲道之方法、被配置成將 n 聲道音頻節目編碼之音頻編碼器及被配置成執行 n 聲道音頻節目的恢復之解碼器
KR102122672B1 (ko) 공간 벡터들의 양자화
CN105593929B (zh) 实现3d音频内容的saoc降混合的装置及方法
CN108141689B (zh) 从基于对象的音频转换到hoa
CN108780647B (zh) 用于音频信号译码的方法和设备
JP6888172B2 (ja) 音場表現信号を符号化する方法及びデバイス
CN108141688B (zh) 从以信道为基础的音频到高阶立体混响的转换
WO2015164575A1 (en) Matrix decomposition for rendering adaptive audio using high definition audio codecs
US10176813B2 (en) Audio encoding and rendering with discontinuity compensation