TWI474316B - 使用具隨機存取點及多重預測參數集合能力的適應性分段技術之無損多聲道音訊編解碼器 - Google Patents

使用具隨機存取點及多重預測參數集合能力的適應性分段技術之無損多聲道音訊編解碼器 Download PDF

Info

Publication number
TWI474316B
TWI474316B TW98100604A TW98100604A TWI474316B TW I474316 B TWI474316 B TW I474316B TW 98100604 A TW98100604 A TW 98100604A TW 98100604 A TW98100604 A TW 98100604A TW I474316 B TWI474316 B TW I474316B
Authority
TW
Taiwan
Prior art keywords
channel
segment
rap
frame
audio
Prior art date
Application number
TW98100604A
Other languages
English (en)
Other versions
TW200935401A (en
Inventor
Zoran Fejzo
Original Assignee
Dts Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dts Inc filed Critical Dts Inc
Publication of TW200935401A publication Critical patent/TW200935401A/zh
Application granted granted Critical
Publication of TWI474316B publication Critical patent/TWI474316B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

使用具隨機存取點及多重預測參數集合能力的適應性分段技術之無損多聲道音訊編解碼器 相關申請案的交互參考
本申請案主張基於美國專利法典第35卷第120條之優先權的利益作為標題為“Lossless Multi-Channel Audio Codec”之美國申請案10/911,067(於2004年8月4日提出申請)的部分延續案(CIP),該申請案的整體內容併入參考。
發明之技術領域
本發明與無損音訊編解碼器有關,更加特別地,與使用具隨機存取點(RAP)能力及多重預測參數集合(MPPS)能力的適應性分段技術的無損多聲道音訊編解碼器有關。
相關技術之描述
許多低位元率有損音訊編碼系統目前在廣泛的消費者及專業音訊播放產品和服務中使用。例如,Dolby AC3(杜比數位元)音訊編碼系統是用於使用達640kbit/s的位元率對雷射磁碟、NTSC編碼DVD視訊以及ATV進行立體聲和5.1聲道音訊聲音軌道編碼的國際統一標準。MPEG Ⅰ和MPEG Ⅱ音訊編碼標準廣泛地用於以達768kbit/s的位元率對PAL編碼DVD視訊、歐洲地面數位無線電廣播以及美國衛星廣播進行立體聲和多聲道聲音軌道編碼。DTS(數位影院系統)連貫聲學音訊編碼系統通常用於光碟、DVD視訊、歐洲衛星廣播以及鐳射磁碟的工作室品質5.1聲道音訊聲音軌道,以及位元率達1536kbit/s。
最近,許多消費者已顯示出對這些所謂“無損”編解碼器的興趣。“無損”編解碼器依賴在不丟棄任何資訊的情況下壓縮資料以及產生與(數位)源信號相同之解碼信號的演算法。該性能產生一代價:這些編解碼器典型地較有損編解碼器需要較大的頻寬,以及將資料壓縮到一較小程度。
第1圖是涉及無損壓縮一單一音訊聲道之操作的一方塊圖表示。儘管多聲道音訊中的聲道一般不是獨立的,但是依賴關係通常很弱,一般難以考慮。因此,聲道通常單獨地壓縮。然而,一些編碼器將試圖透過形成一簡單殘差信號以及編碼(Ch1,Ch1-CH2)移除相關性。例如,更先進的方法在聲道層面採取若干連續正交投影步驟。所有技術都基於以下原理:首先從信號中移除冗餘,然後用一高效數位編碼方案編碼所產生的信號。無損編解碼器包括MPL(DVD音訊)、Monkey’s audio(電腦應用)、蘋果無損(Apple lossless)、視窗媒體專業無損(Windows Media Pro lossless)、AudioPak、DVD、LTAC、MUSICcompress、OggSquish、Philips、Shorten、Sonarc以及WA。對這些編解碼器中的許多的回顧由Mat Hans、Ronald Schafer的“Lossless Compression of Digital Audio”(1999年,惠普(Hewlett Rackard))提供。
引入定框10是用以提供可編輯性,大量的資料禁止在區域受編輯前對整個信號進行重複解壓縮。將音訊信號分成具有相等時間寬度的獨立訊框。該寬度不應太短,因為顯著的負擔可能由於每訊框首碼的標頭而產生。相反,訊框寬度也不應太長,因為這將限制時間適應性,也將使編輯更加困難。在許多應用中,訊框大小受到其上傳送音訊之媒體的峰值位元率、解碼器的緩衝能力以及使每一訊框可獨立解碼之願望的限制。
聲道內解相關12透過把一訊框中的每一聲道中的音訊樣本解相關來移除冗餘。大多數演算法透過對信號進行一些類型的線性預測模型化來移除冗餘。在這種方法中,將一線性預測器施加於每一訊框中的音訊樣本,產生一預測錯誤樣本序列。第二種較不常見的方法是獲得信號的一低位元率量化或有損表示,以及然後無損地比較該有損版本與原始版本之間的差異。熵編碼14從來自殘差信號的錯誤中移除冗餘,而不丟失任何資訊。典型的方法包括霍夫曼編碼(Huffman coding),遊程編碼以及Rice編碼。輸出是可無損重建的一壓縮信號。
現有的DVD規格以及初級HD DVD規格對一資料存取單元的大小設定一硬限制,這表示曾經擷取的音訊流的一部分可完全解碼,以及所重建的音訊樣本遭發送至輸出緩衝器。對於一無損流而言,這意味著每一存取單元可表示的時間量必須足夠小,以使最壞情況下的峰值位元率、已編碼有效負載不超過該硬限制。由於使峰值位元率增加的增加的取樣率以及增加的聲道數目,該時間寬度也必須減小。
為了確保相容性,這些現有的編碼器將必須把整個訊框的寬度設定得足夠短,以不在最壞聲道/取樣頻率/位元寬度組態情況下超過該硬限制。在大多數組態中,這將具有殺傷力且可能使壓縮性能嚴重降格。此外,此最差情況方法對於額外的聲道無法很好地縮放調整。
發明概要
本發明提供一種音訊編解碼器,該音訊編解碼器用用以在一訊框中的一特定分段處開始無損解碼的隨機存取點(RAP)能力和/或受分區用以緩和暫態效應的多重預測參數集合(MPPS)能力產生一無損可變位元率(VBR)位元流。
這用一適應性分段技術實現,該適應性分段技術決定分段起始點以保證由一所期望RAP和/或一個或多個暫態在訊框中的存在而施加的分段邊界限制,以及在每一訊框中選擇一最佳分段寬度,以減小遭受一編碼分段有效負載限制的編碼訊框有效負載。一般情況下,該等邊界限制指定一所期望RAP或暫態必須位於一分段開始之分析區塊的某一數目中。在一訊框中的分段都具有同一寬度且是分析區塊寬度的2的冪次方的一示範性實施例中,決定一最大分段寬度,以保證滿足所期望的情況。RAP和MPPS特別適用於提高較長訊框寬度的整體性能。
在一示範性實施例中,一無損VBR音訊位元流用多個RAP(RAP分段)編碼,該等RAP符合在一編碼器時序編碼中所提供的所期望RAP的一特定容限。每一訊框分塊成一分析區塊序列,其中每一分段具有等於一個或多個分析區塊之寬度的寬度。在每一連續訊框中,至多一個RAP分析區塊由時序碼決定。該RAP分析區塊的位置以及該RAP分析區塊必須位於該RAP分段之開始的M個分析區塊中的限制確定一RAP分段的開始。若MPPS受致能且在一聲道中檢測出一暫態,則對訊框決定預測參數,兩參數集合(每一聲道)。音訊訊框中的樣本用預測壓縮,其中該預測根據預測階數對接在RAP分段之開始之後的該等前面的樣本遭去能。適應性分段在剩餘樣本土使用,以對每一分段決定一分段寬度和熵編碼參數,以使遭受RAP分段的固定開始以及編碼分段有效負載限制的編碼訊框有效負載最小化。指示RAP分段之存在和位置的RAP參數以及導航資料封包在標頭中。根據導航命令來開始播放,諸如使用者選擇一場景或衝浪遊戲,解碼器解封包位元流中的下一訊框的標頭,以讀取RAP參數,直到檢測到包括一RAP分段的訊框。解碼器擷取分段寬度和導航資料,以導航至RAP分段的開始。解碼器使前面的樣本的預測去能,直到一預測歷史遭重建,然後按順序解碼剩餘的分段以及後續訊框,每次遇到一RAP分段時即使預測器去能。該構想允許解碼器用一子訊框解析度開始在編碼器指定RAP或非常接近其解碼。當試圖同步音訊播放指定RAP在,例如章節開始的視訊時序碼時,這對於較長訊框寬度特別有用。
在另一示範性實施例中,一無損VBR音訊位元流已用分區的MPPS編碼,藉此所檢測暫態位於其各自聲道中之一分段的前面L個分析區塊中。在每一連續訊框中,相當於每一聲道集合之每一聲道的一暫態以及其在訊框中的位置遭檢測。對考慮(一或多)暫態所施加之(一或多)分段起始點的每一分區決定預測參數。每一分區中的樣本用各自的參數集合壓縮。適應性分段在剩餘樣本上使用,以對每一分段決定一分段寬度以及熵編碼參數,以使遭受該(等)暫態(以及RAP)所施加之分段起始限制以及編碼分段有效負載限制的編碼訊框有效負載最小化。指示(每一聲道)第一暫態分段的存在和位置的暫態參數以及導航資料封包在標頭中。解碼器解封包訊框標頭,以擷取該等暫態參數以及額外的預測參數集合。對於一聲道集合中的每一聲道,解碼器使用該第一預測參數集合,直到遇到暫態分段,然後切換到該分段之剩餘部分的第二集合。儘管訊框的分段橫跨多個聲道及多個聲道集合是相同的,但是暫態(如果存在的話)的位置可能在集合之間和在集合中有所不同。該構想允許解碼器用一子訊框解析度在所檢測暫態的開始或非常靠近其切換預測參數集合。這對於較長的訊框寬度特別有用,用以提高整體編碼效率。
壓縮性能可進一步透過對M聲道音訊形成M/2解相關聲道來增強。三件組(基礎,相關,解相關)提供兩對可能的組合(基礎,相關)以及(基礎,解相關),該兩對可能組合可在分段及熵編碼最佳化期間考慮,以進一步提高壓縮性能。在一示範性實施例中,編碼器把音訊資料定框以及,然後擷取包括一基礎聲道和一相關聲道的已整理聲道對,以及產生一解相關聲道來形成至少一個三件組(基礎,相關,解相關)。若聲道的數目是單數,則額外的基礎聲道遭處理。適應性或固定多項式預測施加於每一聲道,以形成殘差信號。對於每一個三件組,具有最小編碼有效負載的聲道對(基礎,相關)或(基礎,解相關)遭選擇。使用所選聲道對,可對所有聲道上的每一分段決定一全域編碼參數集合。編碼器基於哪一聲道對具有最小的總體編碼有效負載(標頭及音訊資料)來選擇編碼參數的全域集合或不同的集合。
無論是那種方式,一旦編碼參數的最佳集合以及目前分區(分段寬度)的聲道對已遭決定,則編碼器橫跨所有聲道計算每一分段中的經編碼有效負載。假設任何所期望RAP或所檢測暫態的分段起始以及最大分段有效負載大小的限制受到滿足,則編碼器決定目前分區之整個訊框的總體編碼有效負載是否小於一先前分區的目前最佳化。若為真,則該目前編碼參數集合以及編碼有效負載遭儲存,以及分段寬度增加。分段演算法合適地透過將訊框分成等於分析區塊之大小的最小分段大小開始,以及在每一步增加分段寬度2的冪次方。重複該流程直到該分段大小違反最大大小限制或該分段寬度增長到最大分段寬度。致能RAP或MPPS功能以及在一訊框中存在所期望RAP或所檢測暫態可能會使適應性分段例行程序選擇一較小分段寬度,否則其將相反。
由於以下對較佳實施例的詳細描述,連同所附圖式,本發明的這些及其他特徵和優點對於本技藝領域的那些通常知識者而言將顯而易見,其中:
圖式簡單說明
第1圖如以上所述是一標準無損音訊編碼器的一方塊圖;
第2a及2b圖是分別是根據本發明的一無損音訊編碼器和解碼器的方塊圖;
第3圖是與分段及熵編碼選擇有關之標頭資訊的方塊圖;
第4a及4b圖是分析視窗處理及反分析視窗處理的方塊圖;
第5圖是交叉聲道解相關的流程圖;
第6a及6b圖是適應性預測分析與處理以及反適應性預測處理的方塊圖;
第7a及7b圖是最佳分段及熵編碼選擇的流程圖;
第8a及8b圖是用於一聲道集合之熵編碼選擇的流程圖;
第9圖是一核心外加無損擴展編解碼器的方塊圖;
第10圖是一位元流訊框的方塊圖,其中每一訊框包括一標頭及多個分段;
第11a及11b圖是與RAP及MPPS之規格有關之額外標頭資訊的方塊圖;
第12圖是用於決定所期望RAP或所檢測暫態之分段邊界或最大分段寬度的流程圖;
第13圖是用於決定MPPS的流程圖;
第14圖是說明選擇分段起始點或最大分段寬度之訊框的方塊圖;
第15a及15b圖是在一RAP分段和一暫態說明位元流及位元流之解碼的方塊圖;
第16圖是基於最大分段有效負載以及最大分段寬度限制說明適應性分段的方塊圖。
較佳實施例之詳細說明
本發明提供一種適應性分段演算法,該演算法用用以在一訊框中的一特定分段處開始無損編碼的隨機存取點(RAP)能力和/或受分區以緩和暫態效應的多重預測參數集合(MPPS)能力產生一無損可變位元率(VBR)位元流。該適應性分段技術決定以及確定分段起始點,以保證滿足由所期望RAP和/或所檢測暫態施加的邊界條件,以及在每一訊框中選擇一最佳分段寬度,以減小遭受編碼分段有效負載限制以及固定分段起始點的編碼訊框有效負載。一般情況下,該等邊界限制指定一所期望的RAP或暫態必須位於一分段之開始的分析區塊的某一數目中。所期望的RAP可以加上或減去來自該分段開始之分析區塊的該數目。暫態位於該分段之分析區塊的第一數目中。在一訊框中的分段具有同一寬度且是分析區塊寬度的2的冪次方的一示範性實施例中,決定一最大分段寬度以保證所期望的情況。RAP和MPPS特別適用於提高較長訊框寬度的整體性能。
無損音訊編解碼器
如在第2a及2b圖中所示,除修改分析視窗處理以設定RAP和/或暫態的分段開始狀態以及分段和熵編碼選擇外,重要的可操作區塊類似於現有的無損編碼器和解碼器。一分析視窗處理器把多聲道PCM音訊20提供給分析視窗處理2入,該分析視窗處理22在具有一恆定寬度的訊框中將資料分塊,以及基於所期望RAP和/或所檢測暫態確定分段起始點,以及透過在一訊框中解相關每一聲道中的音訊樣本來移除冗餘。解相關使用預測執行,預測廣泛地定義為使用舊的重建音訊樣本(預測歷史)估計目前原始樣本的值以及決定殘差的任何過程。除其他之外,預測技術包含固定或適應性以及線性或非線性。一適應性分段器執行一最佳分段及熵編碼選擇程式24,而不是直接地熵編碼殘差信號,該熵編碼選擇程式24將資料分段成多個分段以及決定分段寬度和編碼參數,例如對每一分段選擇一特定熵編碼器以及其參數,以使整個訊框的編碼有效負載最小化,其中該訊框遭受以下限制:每一分段必須完全且無損可解碼;小於較訊框大小小之位元組的一最大數目;小於訊框寬度;以及任何所期望RAP和/或所檢測暫態必須位於來自一分段之開始的分析區塊的一特定數目中(子訊框解析度)。該等編碼參數集合較佳地用於每一不同的聲道,以及可較佳用於一全域編碼參數集合。一熵編碼器根據其特定的編碼參數集合熵編解碼26每一分段。一封包器將編碼資料和標頭資訊封包28成一位元流30。
如在第2b圖中所示,為了執行解碼操作,根據例如使用者選擇視訊場景或章節或使用者衝浪,解碼器導航位元流30中的一點,以及一解封包器解封包40該位元流,以擷取標頭資訊和編碼資料。解碼器解封包標頭資訊,以決定可開始解碼的下一RAP分段。然後解碼器導航該RAP分段並且開始解碼。在其遇到每一RAP分段時,解碼器使某一數目樣本的預測去能。若解碼器檢測在一訊框中存在暫態,則該解碼器使用一第一預測參數集合解碼一第一分區以及,然後使用一第二預測參數集合在該訊框中從暫態以後解碼。一熵解碼器根據所分配的編碼參數在每一聲道的每一分段上執行一熵解碼42,以無損地重建殘差信號。一反分析視窗處理器將這些信號提供給反分析視窗處理44,該反分析視窗處理44執行反預測,以無損地重建原始的PCM音訊20。
位元流導航與標頭格式
如在第10圖中所示,位元流30中的一訊框500包括一標頭502及多個分段504。標頭502包括一同步506、一共用標頭508、用於一個或多個聲道集合的一子標頭510,以及導航資料512。在該實施例中,導航資料512包括一NAVI資料塊514以及錯誤校正碼CRC16 516。該NAVI資料塊較佳地將該導航資料分解成位元流的最小部分,以致能完全導航。該資料塊包括用於每一分段的NAVI分段518,以及每一NAVI分段包括用於每一聲道集合的一NAVI Ch集合有效負載大小520。除其他之外,這允許解碼器對任何特定的聲道集合導航至RAP分段的開始。每一分段504包括用於每一聲道集合中的每一聲道的熵編碼殘差522(以及對RAP預測遭去能的原始樣本)。
該位元流包括用於至少一個以及較佳地多個不同聲道集合的標頭資訊及編碼資料。例如,一第一聲道集合可以是一2.0組態,一第二聲道集合可以是構成一5.1聲道表示的一額外的4聲道,以及一第三聲道集合可以是構成整體7.1聲道表示的一額外的2環繞聲道。一8聲道解碼器將擷取以及解碼在其輸出端產生一7.1聲道表示的全部3聲道集合。一6聲道解碼器將擷取和解碼聲道集合1及聲道集合2,而完全地忽略產生該5.1聲道表示的聲道集合3。一2聲道解碼器將只擷取和解碼聲道集合1,而忽略產生一2聲道表示的聲道集合2及3。以此方式構建流允許解碼器複雜性的可縮放性。
在編碼期間,時間編碼器執行所謂的“嵌入式降轉混音(down-mixing)”,藉此7.1->5.1降轉混音在於聲道集合1及2中編碼的5.1聲道中容易得到。同樣地,5.1->2.0降轉混音在編碼作為一聲道集合1的2.0聲道中容易得到。取消在編碼端執行的5.1->2.0降轉混音嵌入操作後,透過解碼聲道集合1和2,一6聲道解碼器將獲得5.1降轉混音。同樣地,取消在編碼端執行的7.1->5.1及5.1->2.0降轉混音嵌入操作後,透過解碼聲道集合1、2及3,一全8聲道解碼器將獲得原始的7.1表示。
如在第3圖中所示,標頭32除通常提供用於一無損編解碼器的資訊外還包括額外的資訊,以實施分段和熵編碼選擇。更加特別地,該標頭包括諸如分段數(NumSegments)以及每一分段中的樣本數(NumSamplesInSegm)的共用標頭資訊34、諸如量化解相關係數(QuantChDecorrCoeff[][])的聲道集合標頭資訊36以及諸如用於聲道集合之目前分段中的位元組數(ChSetByteCOns)的分段標頭資訊38、一全域最佳化旗標(AllChSameParamFlag)以及指示是使用Rice編碼還是二進制編碼的熵編碼器旗標(RiceCodeFlag[],CodeParam[])以及編碼參數。該特定標頭組態採用在一訊框中具有相等寬度的分段以及寬度是分析區塊寬度的2的冪次方的分段。橫跨一聲道集合中的聲道與橫跨聲道集合,訊框的分段是不均勻的。
如在第11a圖中所示,在指明一RAP在一特定訊框中的存在性及位置的共用標頭中,該標頭進一步包括RAP參數530。在該實施例中,若RAP存在,則該標頭包括一RAP旗標=TRUE。RAP ID指明用以在所期望RAP存取位元流時開始解碼之RAP分段的分段號碼。選擇性地,RAP_MASK可用來指示是與不是RAP的分段。RAP將橫跨所有聲道集合前後相一致。
如在第11b圖中所示,在整個訊框或暫態情況之下在一暫態之前的訊框的一第一分區,針對聲道ch,標頭包括AdPredOrder[0][ch]=適應性預測器的階數或者FixedPredOrder[0][ch]=固定預測器的階數。當適應性預測遭選定時(AdPredOrder[0][ch]>0),適應性預測係數遭編碼以及封包在AdPredCodes[0][ch][AdPredOrder[0][ch]]中。
在MPPS的情況下,該標頭在聲道集合標頭資訊中進一步包括暫態參數532。在該實施例中,針對適用於訊框告示中的第二分區且包括一暫態的聲道ch,每一聲道集合標頭包括一ExtraPredSetsPrsent[ch]旗標=真(TRUE)(若在聲道ch中檢測出暫態),StartSegment[ch]=指示聲道ch之暫態起始分段的索引,以及AdPredOrder[1][ch]=適應性預測器的階數或FixedPredOrder[1][ch]=固定預測器的階數。當適應性預測遭選定時(AdPredOrder[1][ch]>0),一第二適應性預測係數集合遭編碼,以及封包到AdPredCodes[1][ch][AdPredOrder[1][ch]]中。暫態的存在及位置可能橫跨一聲道集合中的聲道與橫跨聲道集合而有所不同。
分析視窗處理
如在第4a及4b圖中所示,分析視窗處理22的一示範性實施例從適應性預測46或固定多項式預測48中選擇,以把每一聲道解相關,這是一種相當常見的方法。如將關於第6a圖詳細描述的那樣,對每一聲道估計一最佳預測器階數。若階數大於零,則施加適應性預測。否則使用較簡單的固定多項式預測。同樣地,在解碼器中,反分析視窗處理44從反適應性預測50或反固定多項式預測52中選擇,以從殘差信號重建PCM音訊。適應性預測器階數以及適應性預測係數索引以及固定預測器階數封包53在聲道集合標頭資訊中。
交叉聲道解相關
根據本發明,壓縮性能可透過實施交叉聲道解相關54來進一步增強,該交叉聲道解相關54根據聲道之間的相關性量值將M輸入聲道整理成聲道對(較一所期望RAP點的M個分析區塊限制是一不同的“M”)。指定其中一聲道為“基礎”聲道,而指定另一聲道為“相關”聲道。對每一聲道對產生一解相關聲道,以形成一“三件組”(基礎,相關,解相關)。三件組的形成提供可在分段和熵編碼最佳化期間考慮的兩對可能組合(基礎,相關)及(基礎,解相關),以進一步提高壓縮性能(請參考第8a圖)。
在(基礎,相關)與(基礎,解相關)之間的決定可在適應性分段之前(基於一些能量量值)或與其整合執行。前一種方法降低了複雜性,而後者提高了效率。可使用一種“混合”方法,其中對於具有較相關聲道有著相當小方差(基於一臨界值)之一解相關聲道的三件組,在適應性分段之前使用該解相關聲道簡單替換該相關聲道,而對於所有其他三件組,有關編碼相關或解相關聲道的決定留給適應性分段程序。這在某種程度上簡化了適應性分段程序的複雜性,而不犧牲編碼效率。
原始M-ch PCM 20和M/2-ch解相關PCM 56兩者都轉發給適應性預測和固定多項式預測操作,該等操作對每一聲道產生殘差信號。如在第3圖中所示,指示在排序於成對(pair-wise)解相關過程中執行之前的聲道的原始階數的索引(OrigChOrder[]),以及指示存在量化解相關係數碼的每一聲道對的旗標PWChDecorrFlag[]儲存在第3圖的聲道集合標頭36中。
如在第4b圖中所示,為了執行反分析視窗處理44的解碼操作,標頭資訊遭解封包58,以及殘差(在RAP分段之開始的原始樣本)根據該標頭資訊,即用於每一聲道的適應性及固定預測器階數透過反固定多項式預測52或反適應性預測50來傳遞。在一聲道中存在暫態的情況下,對於該聲道,聲道集合將具有兩個不同的預測參數集合。M聲道解相關PCM音訊(M/2聲道在分段期間遭丟棄)透過反交叉聲道解相關60來傳遞,該反交叉聲道解相關60從該聲道集合標頭讀取OrigChOrder[]索引及PWChDecorrFlag[]索引,並且無損地重建M聲道PCM音訊20。
用於執行交叉聲道解相關54的一示範性流程在第5圖中說明。作為例子,PCM音訊提供作為M=6的不同聲道一L、R、C、Ls、Rs及LFE,這6個聲道也直接與儲存在訊框中的一聲道集合組態相對應。其他聲道集合可,例如左後方環繞(left of center back surround)以及右後方環繞(right of center back surround),以產生7.1環繞音訊。該流程透過啟動一訊框循環以及啟動一聲道集合循環開始(第70步)。每一聲道的零延遲自相關性估計(第72步),以及聲道集合中之聲道對的所有可能組合的零延遲交叉相關性估計(第74步)遭計算。接下來,聲道成對相關性係數CORCOEF估計作為零延遲交叉相關性估計除以該聲道對中所涉及聲道之零延遲自相關性估計的乘積(第76步)。CORCOEF從最大絕對值到最小絕對值排序,以及儲存在一表格中(第78步)。從該表格的頂部開始,擷取相對應的聲道對索引,直到所有對都已組配(第80步)。例如,6聲道可基於其CORCOEF組對,如(L,R)、(Ls,Rs)及(C,LFE)。
該流程啟動一聲道對循環(第82步),以及選擇一“基礎”聲道作為具有指示一較低能量的較小零延遲自相關性估計的聲道(第84步)。在該例子中,該等L、Ls及C聲道形成基礎聲道。聲道對解相關性係數(ChPairDecorrCoeff)計算作為零延遲交叉相關性估計除以基礎聲道的零延遲自相關性估計(第86步)。解相關聲道透過基礎聲道樣本乘以CHPairDecorrCoeff以及從相關聲道的相對應樣本中減去該結果而產生(第88步)。該等聲道對及其相關聯解相關聲道定義“三件組”(L,R,R-ChPairDecorrCoeff[1]*L)、(Ls,Rs,Rs-ChPairDecorrCoeff[2]*Ls)、(C,LFE,LFE-ChPairDecorrCoeff[3]*C)(第89步)。用於每一聲道對(以及每一聲道集合)的ChPairDecorrCoeff[]以及定義對組態的聲道索引儲存在聲道集合標頭資訊中(第90步)。該流程對一訊框中的每一聲道集合重複以及,然後對視窗化PCM音訊中的每一訊框重複(第92步)。
決定RAP與暫態的分段起始點
一種用於決定分段起始及寬度限制以適應所期望RAP和/或所檢測暫態的示範性方法在第12至14圖中說明。經處理的最小音訊資料區塊是指“分析區塊”。分析區塊僅在編碼器可見,解碼器僅處理分段。例如,一分析區塊可表示包括64分析區塊之一32ms訊框中的0.5ms的音訊資料。分段可由一個或多個分析區塊組成。理想情況下,訊框受分區,藉此一所期望RAP或所檢測暫態位於該RAP或暫態分段的第一分析區塊中。然而,根據所期望RAP或暫態的位置來保證該條件可施加過多增加編碼訊框有效負載的一次最佳分段(過於短的分段寬度)。因此,一種妥協是指定任何所期望的RAP必須位於RAP分段之開始的M個分析區塊中(較聲道解相關例行程序中的M聲道是不同的“M”),以及任何暫態必須位於接在相對應聲道中的暫態分段之開始之後的前面L個分析區塊中。M和L小於訊框中的分析區塊的總數目,以及遭選定以保證每一情況下所期望的對準容限。例如,若一訊框包括64個分析區塊,M和/或L可以是1、2、4、8或16。典型地,某些2的冪次方小於總數以及典型地是總數的一小分數(不大於25%),以提供真正的子訊框解析度。此外,儘管可允許分段寬度在一訊框中有所不同,但是那樣做使適應性分段演算法極大地複雜化而且增加了標頭負擔位元,而編碼效率僅有相對較小的提高。因此,一典型實施例限制在一訊框中的分段具有相等的寬度,以及具有等於分析區塊寬度的2的冪次方的寬度,例如,分段寬度=2P *分析區塊寬度,其中P=0、1、2、4、8等。在更一般的情況下,演算法指定RAP或暫態分段的開始。在受限情況下,演算法對保證條件受到滿足的每一訊框指定最大分段寬度。
如在第12圖中所示,包括所期望RAP的編碼時序碼,諸如指定章節或場景開始的視訊時序碼由應用層提供(第600步)。提供指定以上M及L之最大值的對準容限(第602步)。訊框分塊成多個分析區塊以及與時序碼同步以使所期望的RAP與分析區塊對準(第603步)。若所期望RAP位於該訊框中,則編碼器確定RAP分段的開始,其中RAP分析區塊必須位於在RAP分段之開始之前或之後的M個分析區塊中(第604步)。注意,所期望的RAP實際上可能位於在RAP分段之開始的M個分析區塊中的RAP分段前面的分段中。該方法透過調用在第13圖中所說明的例行程序啟動適應性/固定預測分析(第605步),啟動聲道集合循環(第606步),以及在聲道集合中啟動適應性/固定預測分析(第608步)。聲道集合循環以在ExtraPredSetsPresent[]=FALSE之情況下例行程序返回一預測參數集合(AdPredOrder[0][]、FixedPredOrder[0][]以及AdPredCodes[0][][]),或在ExtraPredSetsPresent[]=TRUE之情況下的兩個預測參數集合(AdPredOrder[0][]、FixedPredOrder[0][]、AdPredCodes[0][][]、AdPredOrder[1][]、FixedPredOrder[1][]以及AdPredCodes[1][][])結束(第610步),返回每一聲道的殘差以及任何所檢測暫態的位置(StartSegment[])(第612步)。第608步對在位元流中編碼的每一聲道集合重複。每一訊框的分段起始點從RAP分段起始點和/或所檢測暫態分段起始點決定,以及遭傳遞到第16圖及第7a-7b圖的適應性分段演算法(第614步)。若分段寬度受限均勻,且是分析區塊長度的2的冪次方,則一最大分段寬度基於固定起始點選定,以及遭傳遞至該適應性分段演算法(第616步)。該最大分段寬度限制保持固定起始點,外加對寬度增加一限制。
在一聲道集合例行程序中啟動適應性/固定預測分析的一示範性實施例(第608步)在第13圖中提供。該例行程序啟動由ch索引的聲道循環(第700步);計算基於訊框的預測係數以及基於分區的預測係數(若檢測到暫態);以及選擇每一聲道具有最佳編碼效率的方法。即使檢測到一暫態,最有效的編碼是忽略該暫態仍是可能的。例行程序返回預測參數集合,殘差以及任何經編碼暫態的位置。
更加特別地,例行程序透過調用在第6a圖中圖示出的適應性預測例行程序執行一基於訊框的預測分析(第702步),以選擇一基於訊框的預測參數集合(第704步)。然後,該單一參數集合用來在音訊樣本訊框上執行預測,考慮在該訊框中的任何RAP分段的開始(第706步)。更加特別地,預測根據該預測階數在RAP分段的開始對該等前面的樣本去能。基於訊框之殘差範數的量值,例如殘差能量從殘差值以及預測遭去能的原始樣本估計。
與此同時,例行程序檢測在目前訊框中的每一聲道的原始信號中是否存在任何暫態(第708步)。一臨界值用來平衡錯誤檢測和錯過檢測。包含暫態之分析區塊的索引遭記錄。若檢測到一暫態,則例行程序確定一受分區暫態分段的起始點,以保證該暫態位於該區段之前面L個分析區塊中(第709步),以及將該訊框分成第一和第二分區,其中該第二分區與該暫態分段的開始相符(第710步)。然後該例行程序兩次調用在第6a圖中圖示的適應性預測例行程序(第712步),以選擇基於該第一和第二分區的預測參數的第一和第二分區集合(第714步)。然後這兩個參數集合用來分別在音訊樣本的第一和第二分區上執行預測,同時考慮訊框中的RAP分段的開始(第716步)。基於分區殘差當量的量值(例如殘差能量)從殘差值以及預測遭去能的原始樣本估計。
例行程序比較該基於訊框的殘差當量與基於分區的殘差當量乘以一臨界值,以解決為每一聲道的多個分區所需要的增加的標頭資訊(第718步)。若基於訊框的殘差能量較小,則返回基於訊框的殘差及預測參數(第720步),否則對該聲道返回基於分區的殘差、兩個預測參數集合以及所記錄暫態的索引(第722步)。聲道循環由聲道索引(第724步),以及在結束之前,一聲道集合中的適應性/固定預測分析在一集合及所有聲道集合中的聲道上迭代(第726步)。
對於一單一訊框800之分段起始點或最大分段寬度的決定在第14圖中說明。假設訊框800是32ms且包含64個分析區塊802,每一分析區塊802的寬度是0.5ms。一視訊時序碼804指定落入第9(9th )分析區塊的一所期望RAP 806。暫態808和810分別在落入第5和第18分析區塊的CH1和2中遭檢測。在不受限情況下,例行程序可在分析區塊5、9和18指定分段起始點,以保證RAP和暫態位於其各自分段的第一分析區塊中。只要這些起始點受到保持,適應性分段演算法可進一步將訊框分區,以滿足其他限制和使訊框有效負載最小化。該適應性分段演算法可改變分段邊界,而仍然符合所期望的RAP或暫態落入在分析區塊的一所指定數目中的條件,以符合其他限制或使有效負載更好地最佳化。
在受限情況下,例行程序決定一最大分段寬度,在該例子中,該最大分段寬度滿足所期望RAP和這兩個暫態之中每一個的條件。因為所期望RAP 806落入在第9個分析區塊中,保證RAP會落入在RAP分段的第一個分析區塊中的最大分段寬度是8x(由分析區塊的寬度縮放調整)。因此,可允許的分段大小(是分析區塊的兩倍)是1、2、4及8。同樣地,因為Ch1暫態808落入在第5個分析區塊中,所以最大分段寬度是4。CH2中的暫態810有比較大的問題是因為,為了保證其在該第一分析區塊中發生,需要等於分析區塊的一分段寬度(1X)。然而,若暫態可設置在第二分析區塊中,則最大分段寬度是16x。根據這些限制,例行程序可選擇一最大分段寬度4,藉此允許該適應性分段演算法從1x、2x及4x中選擇,以使訊框有效負載最小化以及滿足其他限制。
在一備選實施例中,每一第n訊框的第一分段可能是預設的一RAP分段,除非時序碼指定該訊框中的一不同RAP分段。該預設RAP用來,例如允許使用者在音訊位元流中跳越或“衝浪”,而不是僅受限於由該視訊時序碼所指定的那些RAP。
適應性預測 適應性預測分析以及殘差產生
線性預測試圖移除音訊信號的樣本之間的相關性。線性預測的基本原理是使用先前樣本s(n-1),s(n-2), ...預測樣本s(n) 的值,以及從原始樣本s(n) 中減去該所預測值。所產生的殘差信號在理想情況下將不相關,因此具有一平坦頻譜。此外,該殘差信號將較原始信號具有一較小方差,這意味著對其數位表示而言較少的位元是必要的。
在音訊編解碼器的一示範性實施例中,一FIR預測器模型由以下方程式描述:
其中Q(}表示量化操作,M表示預測器的階數,αk 是量化預測係數。一特定量化Q{}對於無損壓縮而言是必要的,因為原始信號在解碼端使用各種有限精度處理器架構重建。Q{}的定義對於編碼器和解碼器兩者都是可得的,以及原始信號的重建簡單地由以下獲得:
其中其假設同一αk 量化預測係數對於編碼器和解碼器兩者都是可得的。一個新的預測器參數集合根據每一分析視窗(訊框)來傳送,允許預測器適用於時變音訊信號結構。在暫態檢測的情況下,兩個新的預測參數集合針對檢測出暫態之每一聲道的訊框傳送;我們在暫態前解碼殘差以及在暫態中及暫態後解碼殘差。
設計預測係數以使均方預測殘差最小化。量化Q(}使預測器成為一非線性預測器。然而,在該示範性實施例中,量化用24位元預測實現,以及合理地假設所產生的非線性效應可在預測器係數最佳化期間忽略。忽略量化Q(},基本最佳化問題可表示為包含信號自相關序列延遲以及未知預測器係數的一線性方程式集合。該線性方程式集合可有效地使用萊文森-德賓(Levinson-Durbin)(LD)演算法解答。
需要量化所產生的線性預測係數(LPC),藉此其可有效地以一經編碼流傳送。不幸地是,LPC的直接量化不是最有效的方法,因為小量化誤差可能產生大的譜誤差。LPC的一備選表示是對量化誤差呈現出較小靈敏度的反射係數(RC)表示。該表示也可以從LD演算法獲得。透過定義LD演算法,保證RC具有幅度1(忽略數值誤差)。當RC的絕對值接近1時,存在於量化RC中的線性預測對量化誤差的靈敏度變高。解決方案是用接近一致的更精細量化步驟對RC執行非均勻量化。這可在兩步中實現:
1)透過鏡像函數將RC轉換為一對數域比(LAR)表示:
其中log表示自然基底對數。
2)非均勻量化LAR
RC->LAR轉換使參數的幅度大小變形,藉此步驟1及2的結果等於具有接近一致之更精細量化步驟的非均勻量化。
如在第6a圖中所示,在一適應性預測分析示範性實施例中,量化LAR參數用來表示適應性預測器參數以及以經編碼位元流傳送。每一輸入聲道中的樣本彼此獨立地處理,因此該描述將僅考慮在一單一聲道中的處理。
第一步是計算分析視窗寬度(整個訊框或一所檢測暫態之前或之後的分區)上的自相關序列(第100步)。為了使由訊框邊界處不連續引起的區塊效應最小化,資料首先遭裝窗。用於延遲之一特定數目(等於最大LP階數+1)的自相關序列由資料的裝窗區塊估計。
萊文森-德賓(LD)演算法施加到所估計的自相關延遲集合以及反射係數(RC)集合,直到最大LP階數遭計算(第102步)。(LD)演算法的中間結果是每一線性預測階數直到最大LP階數之預測殘差的所估計方差的一集合。在下一區塊中,使用該殘差方差集合,線性預測器(AdPredOrder)階數遭選定(第104步)。
對於所選定的預測器階數,該反射係數(RC)集合使用上述鏡像函數轉換為對數域比參數(LAR)集合(第106步)。在轉換之前引入一RC限制,以避免除以0:
其中Tresh 表示接近但小於1的數字。LAR參數根據以下規則遭量化(第108步):
其中QLARInd 表示經量化LAR索引,指示尋找小於或等於x之最大整數值的操作,以及q表示量化步驟規模。在該示範性實施例中,區間[-8至8]使用8位元編碼,即,因此QLARInd 根據以下受限:
pQLARInd 使用以下鏡像從帶符號值轉換成不帶符號值:
在“RCLUT”區塊中,LAR參數的反量化以及RC參數的轉換使用一詢查表在一單一步驟中實現(第112步)。詢查表由反RC->LAR鏡像的量化值組成,即LAR->RC鏡像由以下給出:
該詢查表以等於0,1.5*q,2.5*q,...127.5*q的LAR的量化值計算。相對應的RC值在縮放216 倍後四捨五入為16位元不帶符號整數,以及作為Q16不帶符號定點數儲存於128輸入表中。
量化RC參數從該表計算,以及量化LAR索引QLARInd 為:
當階數(ord)=1,...AdPredOrder時,量化RC參數ORCord 根據以下演算法轉譯為量化線性預測參數(當ord=1,...AdPredOrder時的LPord )(第114步):
因為量化RC係數用Q16帶符號定點格式表示,以上演算法將產生也以Q16帶符號定點格式的LP係數。設計無損解碼器計算路徑以支援達24位元的中間結果。因此,有必要在計算每一Cord+1,m 後執行飽和檢查。若飽和在演算法的任一階段發生,則飽和旗標遭設定,以及一特定聲道的適應性預測器階數AdPredOrder重新設定為0(第116步)。對於AdPredOrder=0的該特定聲道,將執行一固定係數預測而不是適應性預測(請參考固定係數預測)。值得注意的是,僅對於AdPredOrder[ch]>0的聲道,不帶符號的LAR量化索引(當n=1,...AdPredOrder[ch]時的PackLARInd [n])遭封包在經編碼流中。
最後,對於AdPredOrder>0的每一聲道,根據以下方程式,執行適應性線性預測以及計算預測殘差e (n)(第118步):
因為該示範性實施例的設計目標是,某些訊框的一特定RAP分段是“隨機存取點”,樣本歷史沒有從先前分段到RAP分段保持。相反,僅在RAP分段中的AdPredOrder+1樣本處進行預測。
適應性預測殘差e(n)進一步遭熵編碼以及封包在該經編碼位元流中。
解碼端的反適應性預測
在解碼端,執行反適應性預測的第一步是把標頭資訊解封包(第120步)。若解碼器試圖根據一播放時序碼(例如章節或衝浪的使用者選擇)來開始解碼,則解碼器在該點附近但是是在該點之前存取音訊位元流,以及搜尋下一訊框的標頭,直到其找到指示在該訊框中存在一RAP分段的一RAP_F1ag=TRUE。然後該解碼器擷取該RAP分段號碼(RAP ID)以及導航資料(NAVI),用以導航至RAP分段的開始,使預測去能,直到index>pred_order,然後開始無損解碼。解碼器解碼訊框中的剩餘分段以及後續訊框,每次遇到一RAP分段時即使預測去能。若在一聲道的一訊框中遇到ExtraPredSetsPrsnt=TRUE,則解碼器擷取預測參數的第一和第二集合以及該第二集合的起始分段。
每一聲道Ch=1,...NumCh的適應性預測階數AdPredOrder[Ch]遭擷取。接下來對於AdPredOrder[Ch]>0的聲道,LAR量化索引的不帶符號版本(當n=1,...AdPredOrder[Ch]時的AdPredCodes[n] )遭擷取。對於預測階數AdPredOrder[Ch]>0的每一聲道Ch,不帶符號AdPredCodes[n] 使用以下鏡像遭鏡像為帶符號值QLARInd[n]
其中>>表示整數右移操作。
LAR參數的反量化以及到RC參數的轉換使用一量化RC LUT在一單一步驟中完成(第122步)。這如同在編碼端定義的詢查表TABLE{} 。每一聲道Ch的量化反射係數(當n=1,...AdPredOrder[Ch]時的QRC[n] )由TABLE{} 和量化LAR索引QLARInd[n] 計算,如:
對於每一聲道Ch,當ord=1,...AdPredOrder[Ch]時,量化RC參數QRCord 根據以下演算法轉譯為量化線性預測參數(當ord=1,...AdPredOrder[Ch]時的LPord )(第124步):
任何可能飽和的中間結果都在編碼端都遭移除。因此,在計算每一Cord+1,m 後,在解碼端沒有必要執行飽和檢查。
最後,對於AdPredOrder[Ch]>0的每一聲道,執行一反適應性線性預測(第126步)。假設預測殘差e(n) 先前已遭擷取和熵編碼,則根據以下方程式計算經重建的原始信號s(n)
因為在RAP分段處沒有保持樣本歷史,所以反適應性預測應從RAP分段中的(AdPredOrder[Ch]+1)開始。
固定係數預測
已發現線性預測器的一種相當簡單的固定係數形式很有用。固定預測係數根據首先由Shorten(T. Robinson. SHORTEN:Simple lossless and near lossless waveform compression。技術報告(Technical Report)156。劍橋大學工程系平頓街(Trumpington Street),劍橋CB2 1PZ,UK,1994年12月)提出的非常簡單的多項式近似方法得到。在這種情況下,預測係數是由對最後p個資料點裝配一p階多項式所指定的那些。詳述四個近似。
這些多項式近似的一個有趣特性是所產生的殘差信號,可用以下遞迴方式有效地實施。
e 0 [n ]=s [n ]
e 1 [n ]=e 0 [n ]-e 0 [n -1]
e 2 [n ]=e 1 [n ]-e 1 [n -1]
e 3 [n ]=e 2 [n ]-e 2 [n -1]
固定係數預測分析以每訊框為基礎施加,以及不依賴於在先前訊框中所計算的樣本(ek [-1]=0)。在整個訊框上具有最小和量值的殘差集合定義為最佳近似。對每一聲道,最佳殘差階數遭單獨地計算以及遭封包在流中作為固定預測階數(Fixed Prediction Order)(FPO[Ch])。目前訊框中的殘差eFPO[Ch] [n]進一步遭熵編碼以及封包在該流中。
解碼端的反固定係數預測程式由用於在取樣實例n計算第k階殘差的一階數遞迴準則定義:
e k [ n ]= e k +1 [ n ]+ e k [ n -1]
其中所期望的原始信號s[n]由以下給出: s [ n ]= e o [ n ]
且其中對於每一第k階殘差,ek [-1]=0。作為一個例子,呈現了用於第3階固定係數預測的遞迴,其中殘差e3 [n]遭編碼且在流中傳送以及在解碼端解封包。
e 2 [ n ] = e 3 [ n]+e 2 [ n -1]
e 1 [ n ] = e 2 [ n ] + e 1 [ n - 1 ]
e o [ n ] = e 1 [ n ] + e 0 [ n - 1 ]
s [ n ] = e o [ n ]
在第126步執行的適應性或固定反線性預測對於以下情況進行說明:m+1分段是第15a圖中的RAP分段900,以及m+1分段是第15b圖中的暫態分段902。一5抽頭預測器904用來重建無損音訊樣本。一般情況下,預測器重新組合5個先前無損重建的樣本,以產生加入目前殘差908的一預測值906,以無損地重建目前樣本910。在RAP例子中,經壓縮音訊位元流912中的第一組5個樣本是非壓縮音訊樣本。因此,預測器可在沒有任何來自先前樣本之歷史的情況下在分段m+1處開始無損解碼。換言之,分段m+1是位元流的一RAP。注意,若也在分段m+1中檢測出一暫態,則分段m+1的預測參數以及訊框的剩餘部分將不同於在分段1至m中所使用的那些。在該暫態例子中,分段m和m+1中的所有樣本都是殘差,並非RAP。編碼已開始,以及預測器的預測歷史是可得的。如圖所示,為了無損地重建分段m和m+1中的音訊樣本,使用不同的預測參數集合。為了在分段m+1中產生第一無損樣本1,預測器使用分段m+1的參數,其中該分段m+1使用來自分段m的最後五個無損重建的樣本。注意,若分段m+1也是一RAP分段,則分段m+1的第一組五個樣本將是原始樣本,而非殘差。一般情況下,一特定訊框可以既不包含一RAP也不包含暫態,實際上這是更加典型的結果。選擇性地,一訊框可包括一RAP分段或一暫態分段或甚至兩者。一分段可以既是一RAP也是暫態分段。
因為分段起始條件和最大分段寬度基於一所期望RAP或所檢測暫態在一分段中的可允許位置來設定,所以選擇最佳分段寬度可產生一位元流,其中該所期望RAP或所檢測暫態實際上位於該RAP或暫態分段的後續分段中。若邊界M和L相對較大,且最佳分段寬度小於M和L,則這可能會發生。該所期望RAP實際上可位於該RAP分段前面的一分段中,但是仍然在所指定容限範圍中。在編碼端的對準容限條件仍然會受保持,而解碼器不知道該差異。解碼器只存取該RAP和暫態分段。
分段與熵編碼選擇
由適應性分段演算法解決的最佳化受限問題在第16圖中說明。該問題是以使經編碼訊框的有效負載最小化之方式編碼一VBR位元流中具有多個聲道音訊的一個或多個聲道集合,其中該經編碼訊框有效負載遭受每一音訊分段可用小於一最大位元組數目的編碼分段有效負載完全和無損解碼的限制。位元組的該最大數目小於訊框大小以及典型地由用於讀取位元流的最大存取單元大小設定。該問題進一步受限制於透過要求選則分段來適應隨機存取和暫態,藉此一所期望RAP必須加上或減去該RAP分段之開始的M個分析區塊,以及暫態必須位於一分段的前面L個分析區塊中。最大分段寬度可能進一步受解碼器輸出緩衝器大小的限制。在該例子中,訊框中的分段受限制於具有相同的長度且為分析區塊寬度的2的冪次方。
如在第16圖中所示,用以使編碼訊框有效負載930最小化的最佳分段寬度平衡一較大數目較短寬度分段之預測增益的提高與額外負擔位元的成本。在該例子中,每訊框4個分段較2或8分段提供較小的訊框有效負載。兩分段解決方案不合格,因為第二分段的分段有效負載超過最大分段有效負載限制932。用於二和四分段分區兩者的分段寬度超過一最大分段寬度934,該最大分段寬度934由例如以下的某一組合設定:解碼器輸出緩衝器的大小、RAP分段起始點的位置和/或暫態分段起始點的位置。因此,該適應性分段演算法選擇具有相等寬度的8分段936,以及最佳用於該分區的預測和熵編碼參數。
用於受限情況(均勻分段,分析區塊寬度的2的冪次方)下的一分段及熵編碼選擇24示範性實施例在第7a-b及8a-b圖中說明。為了確定最佳的分段寬度、編碼參數(熵編碼選擇&參數)和聲道對,對多個不同分段寬度一直到最大分段寬度決定編碼參數和聲道對,以及在那些候選者中,每一訊框具有最小編碼有效負載的那一候選者遭選擇,其中該訊框滿足每一分段必須完全和無損可解碼且不大於一最大大小(位元組的數目)的限制。“最佳”分段、編碼參數及聲道對當然遭受編碼流程的限制以及分段大小的限制。例如,在該示範性流程中,該訊框中的所有分段的時間寬度是相等的,搜尋最佳寬度在一個二進格上執行,該二進格以等於分析區塊寬度的分段寬度開始且以2的冪次方增加,聲道對選擇在整個訊框期間是有效的。以額外的編碼器複雜性和負擔位元為代價,可允許時間寬度在一訊框中有所不同,可更精細地解決搜尋最佳寬度,以及聲道對選擇可以以每分段為基礎來完成。在該“受限”情況下,保證任何所期望RAP或所檢測暫態與一特定解析度範圍內的一分段的開始相對準的限制在最大分段寬度中實現。
該示範性流程以初始化諸如一分段中的樣本的最小數目、分段所允許的最大編碼有效負載大小、分段的最大數目及分區的最大數目以及最大分段寬度的分段參數開始(第150步)。之後,處理以一分區循環開始,該分區循環從0到最大分區數目減1受索引(第152步),以及初始化包括分段數目、分段中的樣本數以及分區中所消耗位元組數的分區參數(第154步)。在該特定實施例中,該等分段具有相等的時間寬度,以及用每一分區迭代將分段的數目縮放調整為2的冪次方。分段的數目較佳地初始化為最大值,從而每一分段具有等於一個分析區塊的最小時間寬度。然而,該流程可使用具有不同時間寬度的分段,該分段寬度可提供較佳的音訊資料壓縮,但是要以額外的負擔以及額外的複雜性為代價,以滿足RAP和暫態條件。此外,分段的數目不必要限於2的冪次方,或者從最小到最大寬度遭搜尋。在這種情況下,由所期望RAP和所檢測暫態所決定的分段起始點是對適應性分段演算法的額外限制。
一旦經初始化,則該流程啟動一聲道集合循環(第156步),以及決定每一分段的最佳熵編碼參數和聲道對選擇以及相對應的位元組消耗(第158步)。編碼參數PWChDecorrFlag[][]、AllChSameParamFlag[][]、RiceCodeFlag[][][]、CodeParam[][][]以及ChSetByteCons[][]遭儲存(第160步)。這對每一聲道集合重複,直到聲道集合循環結束(第162步)。
該流程啟動一分段循環(第164步)以及計算所有聲道集合上的每一分段中的位元組消耗(SegmByteCons)(第166步),以及更新該位元組消耗(ByteConsInPart)(第168步)。在這一點上,分段的大小(按位元組的編碼分段有效負載)與最大大小限制相比較(第170步)。若違反了該限制,則目前分區遭丟棄。此外,因為該流程以最小時間寬度開始,所以一旦分段大小太大,則分區循環即終止(第172步),該點的最佳解決方案(時間寬度、聲道對、編碼參數)封包到標頭中(第174步),然後流程進入到下一訊框。若最小分段大小限制未通過(第176步),則該流程終止且報告一錯誤(第178步),因為不能滿足最大大小限制。假設該限制已得到滿足,則對目前分區中的每一分段重複該流程,直到分段循環結束(第180步)。
一旦該分段循環已完成,以及所計算的整個訊框的位元組消耗由ByteConsinPart表示,則該有效負載與來自一前面分區迭代的目前最小有效負載比較(MinByteInPart)(第182步)。若目前分區呈現出改良,則該目前分區(PartInd)遭儲存為最佳分區(OptPartind),以及該最小有效負載受更新(第184步)。然後這些參數以及所儲存的編碼參數儲存作為目前最佳解決方案(第186步)。這一直重複,直到分區循環以最大分段寬度結束(第172步),在該點處,分段資訊及編碼參數封包在標頭中(第150步),如在第3圖及第11a及11b圖中所示。
用於決定用於一目前分區的一聲道集合的最佳編碼參數及相關聯位元消耗的示範性實施例(第158步)在第8a及8b圖中說明。該流程啟動一分段循環(第190步)以及一聲道循環(第192步),其中用於我們的目前例子的聲道是:
Ch1:L,
Ch2:R
Ch3:R-ChPairDecorrCoeff[1]*L
Ch4:Ls
Ch5:Rs
Ch6:Rs-ChPairDecorrCoeff[2]*Ls
Ch7:C
Ch8:LFE
Ch9:LFE-ChPairDecorrCoeff[3]*C)
該流程針對基礎和相關聲道決定熵編碼的類型、相對應的編碼參數以及相對應的位元消耗(第194步)。在該例子中,該流程針對一個二進制碼和一Rice碼計算最佳編碼參數,然後針對聲道和每一分段選擇具有最低位元消耗的那一編碼參數(第196步)。一般情況下,可對一個、兩個或多個可能的熵編碼執行該最佳化。對於二進制編碼,位元的數目由目前聲道的分段中的所有樣本的最大絕對值計算。Rice編碼參數由目前聲道的分段中的所有樣本的平均絕對值計算。基於該選擇,RiceCodeFlag遭設定、BitCons遭設定以及CodeParam遭設定為NumBitsBinary或RiceKParam(第198步)。
若所處理的目前聲道是一相關聲道(第200步),則對相對應的解相關聲道重複相同的最佳化(第202步),最佳熵編碼遭選擇(第204步),以及編碼參數遭設定(第206步)。重複該流程,直到聲道循環結束(第208步),以及分段循環結束(第210步)。
在這一點上,用於每一分段及用於每一聲道的最佳編碼參數已遭決定。可從原始PCM音訊為聲道對(基礎,相關)返回這些編碼參數及有效負載。然而,可透過在三件組中在(基礎,相關)與(基礎,解相關)聲道之間選擇來提高壓縮性能。
為了決定該三個三件組的哪一聲道對(基礎,相關)還是(基礎,解相關),啟動一聲道對循環(第211步),計算每一相關聲道(Ch2、Ch5及Ch8)以及每一解相關聲道(Ch3、Ch6及Ch9)對整體訊框位元消耗的貢獻(第212步)。每一相關聲道的訊框消耗貢獻與相對應解相關聲道的訊框消耗貢獻相比較,即Ch2對Ch3、Ch5對Ch6以及Ch8對Ch9(第214步)。若解相關聲道的貢獻大於相關聲道,則PWChDecorrrFlag設定為假(第216步)。否則,相關聲道用解相關聲道代替(第218步),以及PWChDecorrrFlag設定為真,以及聲道對組配為(基礎,解相關)(第220步)。
基於這些比較,該演算法將選擇:
1.Ch2或Ch3作為將與相對應的基礎聲道Ch1組對的聲道;
2.Ch5或Ch6作為將與相對應的基礎聲道Ch4組對的聲道;以及
3.Ch8或Ch9作為將與相對應的基礎聲道Ch7組對的聲道;
對所有聲道對重複這些步驟,直到循環結束(第222步)。
在這一點上,已決定用於每一分段、每一不同聲道以及最佳聲道對的最佳編碼參數。用於每一不同、聲道對的這些編碼參數以及有效負載可返回到該分區循環。然而,透過針對橫跨所有聲道的每一分段計算一全域編碼參數集合,額外的壓縮性能可能是可得的。最多,有效負載的編碼資料部分的大小將如同最佳用於每一聲道的編碼參數的大小,且很有可能稍微大一些。然而,負擔位元的減小可能不只抵消資料的編碼效率。
使用同一聲道對,該流程啟動一分段循環(第230步),使用不同的編碼參數集合針對所有聲道計算每一分段的位元消耗(ChSetByteCons[seg])(第232步),以及儲存ChSetByteCons[seg](第234步)。然後針對橫跨使用如前二進制碼和Rice碼計算的所有聲道,而除了橫跨所有聲道之外的分段決定一全域編碼參數集合(熵編碼選擇及參數)(第236步)。選定最佳參數,以及計算位元組消耗(SegmByteCons)(第238步)。SegmByteCons與CHSetByteCons[seg]相比較(第240步)。若使用全域參數不減小位元消耗,則AllChSameParamFlag[seg]遭設定為假(第242步)。否則,該AllChSameParamFlag[seg]遭設定為真(第244步),以每一分段的全域編碼參數和相對應的位元消耗遭保存(第246步)。重複該流程,直到到達分段循環的末尾(第248步)。重複整個流程,直到聲道集合循環結束(第250步)。
編碼過程以不同功能可由一些旗標的控制去能之方式構建。例如,一單一旗標控制是否要執行成對聲道解相關分析。另一旗標控制是否要執行適應性預測(又一旗標用於固定預測)分析,此外,一單一旗標控制是否要執行在所有聲道上的全域參數搜尋。透過設定分區的數目以及最小分段寬度(以其可能是具有預定分段寬度之一單一分區的最簡單形式),分段也是可控制的。一旗標指示一RAP分段的存在,以及另一旗標指示一暫態分段的存在。實質上,透過在編碼器中設定一些旗標,編碼器可屈服於最簡單的定框和熵編碼。
向後相容無損音訊編解碼器
無損編解碼器可用作一“擴展編碼器”結合一有損核心編碼器。一“有損”核心編碼流封包作為一核心位元流,以及一 無損編碼差動信號封包為一單獨擴展位元流。在具有擴展無損特徵的一解碼器中解碼後,有損及無損流結合以構建一無損重建信號。在先前代的解碼器中 ,無損流受到忽略,以及核心“有損”流遭解碼,以提供具有核心流之頻寬及信號對雜訊比特性的一高品質、多聲道音訊信號。
第9圖顯示用於一多聲道信號之一聲道的一向後相容無損編碼器400的一系統級視圖。一數位音訊信號、合適M位元 PCM音訊樣本在輸入端402提供。較佳地,該數位信號具有大於一經修改、有損核心編碼器404的取樣率和頻寬。在一實施例中,數位音訊信號的取樣率是 96kHz(與經取樣音訊的48kHz頻寬相對應)。也應理解的是,輸入音訊可能,較佳地是一多聲道信號,其中每一聲道以96kHz取樣。接下來將集中討論單一 聲道的處理,但是擴展到多個聲道簡單可行。輸入信號在節點406加倍,以及在並行支路中處理。在信號路徑的一第一支路中,一經修改有損、寬頻編碼器 404編碼該信號。以下將詳細描述的該經修改核心編碼器404產生傳送到一封包器或多工器410的一編碼核心位元流408。該核心位元流408也傳送至產生一 已修改、重建核心信號414作為輸出的一經修改核心解碼器412。
同時,並行路徑中的輸入數位音訊信號402經受 一補償延遲416,該補償延遲416實質上等於引入到重建音訊流中的延遲(透過所修改編碼及所修改解碼器),以產生一延遲數位音訊流。在加和節點420,該 音訊流400從延遲數位音訊流414中減去。
加和節點420產生表示原始信號和重建核心信號的一差動信號422。為了完成完全“無損”編碼,其有必要用無損編碼 技術編碼和傳送該差動信號。因此,該差動信號422用一無損編碼器424編碼,以及該擴展位元流426與該核心位元流408封包在封包器410中,以產生一輸 出位元流。
值得注意的是,該無損編碼產生一可變位元率擴展位元流426,以適應無損編碼器的需求。然後已封包流選擇性地遭受 另外的編碼(包括聲道編碼)層,然後遭傳送或記錄。值得注意的是,為了達到本揭露的目的,記錄可視為是透過一聲道的傳輸。
把該核心編碼器404描述為“經修改”是因為,在能夠處理擴展頻寬的實施例中,核心編碼器將需要修改。編碼器中的 一64頻帶分析濾波器組430丟棄其輸出資料432的一半,以及一核心子頻帶編碼器434只編碼較低的32頻帶。所丟棄的資訊不涉及舊有解碼器,該等舊有解 碼器在任何情況下都將無法重建信號譜的上半部分。剩餘資訊按照未修改編碼器編碼,以形成一向後相容核心輸出流。然而,在48kHz取樣率或其以下操 作的另一實施例中,核心編碼器可以是一先前核心編碼器的一實質未修改版本。同樣地,為了在舊有解碼器的取樣率以上操作,該經修改核心解碼器412包括解碼該等較低32子頻帶中的樣本的一核心子頻帶解碼器436。該經修改核心解碼器從該等較低32子頻帶中取走子頻帶樣本,以及把較高32頻帶438的未傳送子頻帶樣本清零,以及使用一64頻帶QMF合成濾波器440重建所有的64頻帶。對於在習知取樣率(例如48kHz及以下)的操作,該核心解碼器可以是一先前核心解碼器或等效的一實質未修改版本。在一些實施例中,取樣率的選擇可在編碼的時候實現,以及編碼及解碼模組在那時透過軟體如所期望的那樣重新組配。
因為無損編碼器用來編碼差動信號,似乎是一簡單熵編碼就將足夠。然而,由於現有有損核心編解碼器的位元率限制,用以提供無損位元流所需要的一相當大數量的總體位元仍然存在。此外,由於核心編解碼器的頻寬限制,該差動信號中的24kHz以上的資訊內容仍然相關。例如,包括喇叭、吉他、三角鐵…的大量諧波構件遠遠超過30kHz。因此,使壓縮性能提高的更先進的無損編解碼器使值增加。此外,在一些應用中,核心及擴展位元流必須仍然滿足可解碼單元不得大於一最大大小的限制。本發明的無損編解碼器既提供改良的壓縮性能又提供改良的彈性,以滿足這些限制。
例如,8聲道的24位元96kHz PCM音訊需要18.5Mbps。無損壓縮可將這減小為大約9Mbps。DTS相乾聲學將以1.5Mbps編碼核心,剩下7.5Mbps的差動信號。對於2kByte的最大分段大小,平均分段寬度是2048*8/7500000=2.18msec或在96kHz的大約209個樣本。用以滿足該最大大小之有損核心的一典型訊框大小介於10與20msec之間。
在系統級,無損編解碼器以及向後相容無損編解碼可組合以無損編碼在一擴展頻寬的額外的音訊聲道,而同時保持與現存有損編解碼器的向後相容性。例如,在18.5Mbps的8聲道的96kHz音訊可以無損地編碼以包括在1.5Mbps的5.1聲道的48kHz音訊。該核心加無損編碼器將用來編碼該5.1聲道。該無損編碼器將用來在將差動信號編碼在該等5.1聲道中。剩餘的2聲道使用該無損編碼器編碼在一單獨聲道集合中。因為在試圖使分段寬度最佳化時,需要考慮所有聲道集合,所有編碼工具將以某種方法使用。一相容解碼器將解碼全部8聲道以及無損地重建該96kHz的18.5Mbps音訊信號。一舊解碼器將只解碼5.1聲道以及重建48kHz的1.5Mbps音訊信號。
一般情況下,可提供一個以上的純無損聲道集合用於達到縮放解碼器之複雜性的目的。例如,對於一10.2原始混合,可組織聲道集合,藉此:
-CHSET1傳送5.1(嵌入10.2到5.1降混合)以及使用核心+無損編碼
-CHSET1和CHSET2傳送7.1(嵌入10.2到7.1降混合),其中CHSET2使用無損編碼2聲道
-CHSET1+CHSET2+CHSET3傳送完全離散的10.2混合,其中CHSET3只使用無損編碼剩餘的3.1聲道
能夠只解碼5.1的解碼器將只解碼CHSET1,而忽略所有其他聲道集合。能夠只解碼7.1一解碼器將解碼CHSET1和 CHSET2,而忽略所有其他聲道集合。
此外,有損加無損核心不限於5.1。目前的實施支援至使用有損(核心+XCh)及無損的6.1,以及可支援以任何數目聲道集 合組織的一共用m.n聲道。有損編碼將具有一5.1向後相容核心,以及用有損編解碼器編碼的所有其他聲道將進入XXCh擴展。這提供具有相當設計彈性的整 體無損編碼,以保持與現有解碼器的向後相容,而同時支援額外的聲道。
儘管已顯示和描述了本發明的若干說明性實施例,但是本技藝領域的那些通常知識者將想起許多改變和替代實施例。這 些改變和替代實施例受設想,且可在不脫離於所附申請專利範圍中所定義之本發明的精神和範圍的前提下實現。
另就圖3所示之分段標頭資訊38而言,若AllChSameParamFlag==true,單一RiceCodeFlag係就聲道集合來傳送,單 一CodeParam就聲道集合來傳送;否則,RiceCodeFlag針對聲道集合中的每一聲道來傳送,CodeParam針對聲道集合中的每一聲道來傳送。
本發明可提供一或多種包含一些數位電路之半導體裝置,該等數位電路組配來執行如後附方法請求項中所界定之編碼或 解碼技術。
10‧‧‧定框
12‧‧‧聲道內解相關
14‧‧‧熵編碼
20‧‧‧PCM音訊
22‧‧‧分析視窗處理
24‧‧‧分段及熵編碼選擇
26‧‧‧熵編解碼
28‧‧‧資訊封包
30‧‧‧位元流
32、502‧‧‧標頭
34‧‧‧共用標頭資訊
36‧‧‧聲道集合標頭資訊
38‧‧‧分段標頭資訊
40、58‧‧‧解封包
42‧‧‧熵解碼
44‧‧‧反分析視窗處理
46‧‧‧適應性預測
48‧‧‧固定多項式預測
50‧‧‧反適應性預測
52‧‧‧反固定多項式預測
53‧‧‧封包
54‧‧‧交叉聲道解相關
56‧‧‧PCM
60‧‧‧反交叉聲道解相關
70~92、150~186、190~250、600~726‧‧‧流程步驟
100~126‧‧‧處理方塊
400‧‧‧向後相容無損編碼器/音訊流
402‧‧‧輸入端/音訊信號
404‧‧‧核心編碼器/寬頻編碼器
406‧‧‧節點
408‧‧‧核心位元流
410‧‧‧封包器/多工器
412‧‧‧核心解碼器
414‧‧‧核心信號/音訊流
416‧‧‧補償延遲
420‧‧‧加和節點
422‧‧‧差動信號
424‧‧‧無損編碼器
426‧‧‧擴展位元流
430‧‧‧分析濾波器組
432‧‧‧輸出資料
434‧‧‧核心子頻帶編碼器
436‧‧‧核心子頻帶解碼器
438‧‧‧較高32頻帶
440‧‧‧64頻帶QMF合成濾波器
500、800‧‧‧訊框
504‧‧‧分段
506‧‧‧同步
508‧‧‧共用標頭
510‧‧‧子標頭
512‧‧‧導航資料
514‧‧‧NAVI資料塊
516‧‧‧錯誤校正碼CRC16
518‧‧‧NAVI分段
520‧‧‧NAVI Ch集合有效負載大小
522‧‧‧熵編碼殘差
530‧‧‧RAP參數
532‧‧‧暫態參數
802‧‧‧分析區塊
804‧‧‧視訊時序碼
806‧‧‧RAP
808、810‧‧‧暫態
900‧‧‧RAP分段
902‧‧‧暫態分段
904‧‧‧5抽頭預測器
906‧‧‧預測值
908‧‧‧殘差
910‧‧‧樣本
912‧‧‧壓縮音訊位元流
930‧‧‧編碼訊框有效負載
932‧‧‧最大分段有效負載限制
934‧‧‧最大分段寬度
936‧‧‧8分段
第1圖如以上所述是一標準無損音訊編碼器的一方塊圖;
第2a及2b圖是分別是根據本發明的一無損音訊編碼器和解碼器的方塊圖;
第3圖是與分段及熵編碼選擇有關之標頭資訊的方塊圖;
第4a及4b圖是分析視窗處理及反分析視窗處理的方塊圖;
第5圖是交叉聲道解相關的流程圖;
第6a及6b圖是適應性預測分析與處理以及反適應性預測處理的方塊圖;
第7a及7b圖是最佳分段及熵編碼選擇的流程圖;
第8a及8b圖是用於一聲道集合之熵編碼選擇的流程圖;
第9圖是一核心外加無損擴展編解碼器的方塊圖;
第10圖是一位元流訊框的方塊圖,其中每一訊框包括一標頭及多個分段;
第11a及11b圖是與RAP及MPPS之規格有關之額外標頭資訊的方塊圖;
第12圖是用於決定所期望RAP或所檢測暫態之分段邊界或最大分段寬度的流程圖;
第13圖是用於決定MPPS的流程圖;
第14圖是說明選擇分段起始點或最大分段寬度之訊框的方塊圖;
第15a及15b圖是在一RAP分段和一暫態說明位元流及位元流之解碼的方塊圖;
第16圖是基於最大分段有效負載以及最大分段寬度限制說明適應性分段的方塊圖。
20...PCM音訊
22...分析視窗處理
24...分段及熵編碼選擇
26...熵編解碼
28...資訊封包
30...位元流

Claims (50)

  1. 一種將具隨機存取點(RAP)之多聲道音訊編碼成無損可變位元率(VBR)音訊位元串流的 方法,其包含以下步驟:接收指定該音訊位元串流中的所期望隨機存取點(RAP)的一編碼時序碼;將包括至少一個聲道集合的多聲道音訊分塊成具有相等時 間期間的多個訊框,每一訊框包括一標頭及多個分段;將每一訊框分塊成具有相等期間的多個分析區塊,各該分段具有一個或多個分析區塊的一期間;使 該編碼時序碼與該訊框序列同步,以對準所期望RAP與分析區塊;對於每一連續訊框,決定至多一個RAP分析區塊,該RAP分析區塊與該編碼時序碼中的一 所期望RAP對準;將一RAP分段的開始處固定,藉此該RAP分析區塊位於該開始處的M個分析區塊中;針對該聲道集合中的每一聲道,決定該訊框的至少一 個預測參數集合;根據該等預測參數,對該聲道集合中的每一聲道壓縮該音訊訊框,對達到一預測階數並接在該RAP分段之該開始處之後的前面樣本停用 預測,以產生前面和/或後面接著殘差音訊樣本的原始音訊樣本; 從該等原始及殘差音訊樣本決定每一分段的一分段期間與熵編碼參數,以減小遭受下述限制之該訊框的一可變大小經編碼有效負載,其中該等限制為每一 分段須完全且無損可解碼、具有小於該訊框期間的一期間以及具有一經編碼分段有效負載,其中該經編碼分段有效負載小於較該訊框大小為小之位元組的 一最大數目;將標頭資訊封包至該位元串流中的該訊框標頭中,其中該標頭資訊包括分段期間、指示該RAP之存在和位置的RAP參數、預測及熵編碼參數以 及位元串流導航資料;以及將每一分段的該壓縮及熵經編碼音訊資料封包至該位元串流中的該等訊框分段中。
  2. 如申請專利範圍第1項所述之方法,其中該編碼時序碼是指定多個所期望RAP的一視訊時序碼, 其中該等所期望RAP與一視訊信號之多個特定部分的開始處相對應。
  3. 如申請專利範圍第1項所述之方法,其中將該RAP分析區塊設置在該音訊位元串流中的該RAP分 段之該開始處的M個分析區塊中,保證在該所期望RAP的一所指定對準容限範圍內之解碼能力。
  4. 如申請專利範圍第1項所述之方法,其中每一N個訊框的第一分段是一預設RAP分段,除非一所 期望RAP位於該訊框中。
  5. 如申請專利範圍第1項所述之方法,其進一步包含以下 步驟:針對該聲道集合中的一個或多個聲道,檢測一暫態在該訊框中的一分析區塊中的存在;將該訊框分區,藉此任何所檢測暫態都位於其各自聲道中的 一分段的前面L個分析區塊中;以及針對該聲道集合中的每一聲道,對在一所檢測暫態之前且不包括該所檢測暫態的分段決定一第一預測參數集合,以及對 包括該暫態且在該暫態之後的分段決定一第二預測參數集合;以及決定該分段期間,其中一RAP分析區塊必須位於該RAP分段之該開始處的M個分析區塊中 ,以及一暫態分須位於該相對應聲道中的一分段的該等前面L個分析區塊中。
  6. 如申請專利範圍第5項所述之方法,其進一步包含以下步驟:使用該RAP分析區塊的位置和/或 一暫態的位置來決定一最大分段期間為該分析區塊期間的2的冪次方,藉此該RAP分析區塊位於該RAP分段之該開始處的M個分析區塊中,以及該暫態位於 一分段的該等前面L個分析區塊中,其中是該分析區塊期間的2的冪次方且不超過該最大分段期間的一均勻分段期間被決定,以減小遭受該等限制的經編碼 訊框有效負載。
  7. 如申請專利範圍第1項所述之方法,其進一步包含以下 步驟:使用該RAP分析區塊的該位置決定一最大分段期間為該分析區塊期間的2的冪次方,藉此該RAP分析區塊位於該RAP分段之該開始處的M個分析區塊 中,其中是該分析區塊期間的2的冪次方且不超過該最大分段期間的一均勻分段期間被決定,以減小遭受該等限制的經編碼訊框有效負載。
  8. 如申請專利範圍第7項所述之方法,其中該最大分段期間進一步受到在一解碼器中可得的輸出緩 衝器大小的限制。
  9. 如申請專利範圍第1項所述之方法,其中用於該經編碼分段有效負載之位元組的該最大數目由該 音訊位元串流的一存取單元大小限制施加。
  10. 如申請專利範圍第1項所述之方法,其中該等RAP參數包括指示一RAP之存在的一RAP旗標以及 指示該RAP之位置的一RAP分段號碼(RAP ID)。
  11. 如申請專利範圍第1項所述之方法,其中一第一聲道集合包括5.1多聲道音訊,以及一第二聲道 集合包括至少一個額外的音訊聲道。
  12. 如申請專利範圍第1項所述之方法,其進一步包含以下步驟:針對多個聲道對產生一解相關聲道 ,以形成包括一基礎、相關及解相關聲道的一個三件組;選擇包括一基礎及一相關聲道的一第一聲道對或包括一基礎及一解相關聲道的一第二聲道對;以 及熵編碼在該等所選聲 道對中的該等聲道。
  13. 如申請專利範圍第12項所述之方法,其中該等聲道對透過以下選定:若該解相關聲道的方差小 於該相關聲道的方差一臨界值,則在決定分段期間之前選擇該第二聲道對;以及否則推遲選擇該第一或第二聲道對,直到基於哪一聲道對貢獻最少位元給 該經編碼有效負載而決定分段期間。
  14. 一種包含電腦可執行指令的電腦可讀媒體,係含一或多個電腦可讀媒體,其中當該等電腦可執 行指令受執行時,其執行如在申請專利範圍第1項中所述的方法。
  15. 一種包含數位電路的半導體裝置,係含一或多個半導體裝置,其中該等數位電路受組配以執行 如在申請專利範圍第1項中所述的方法。
  16. 一種在一隨機存取點(RAP)開始解碼無損可變位元率(VBR)多聲道音訊位元串流的方法,其包含 以下步驟:接收一無損VBR多聲道音訊位元串流作為多個訊框的一序列,其中該等訊框分成多個分段,該等分段具有一可變長度訊框有效負載以及包括至 少一個獨立可解碼且無損可重建的聲道集合,其中該聲道集合包括用於一多聲道音訊信號的多個音訊聲道,每一訊框包含標頭資訊,該標頭資訊包括分段 期間、指示至多一個RAP分段之存在和位置的RAP參數、導航資料、包括用於各該聲道集合中的各該聲道的預測係數的聲道集合標頭 資訊、以及用於各該聲道集合之分段標頭資訊,該分段標頭資訊包括至少一個熵編碼旗標及至少一個熵編碼參數和儲存在該等多個分段中之熵經編碼壓縮 多聲道音訊信號;解封包該位元串流中的下一訊框的標頭,以擷取該等RAP參數,直到檢測到具有一RAP分段的一訊框;解封包該所選訊框的該標頭,以擷 取該分段期間及導航資料,以導航至該RAP分段的該開始處;針對該至少一個該聲道集合解封包該標頭,以擷取該熵編碼旗標及編碼參數以及該等熵經編 碼壓縮多聲道音訊信號,以及使用該所選熵編碼及編碼參數在該RAP分段上執行一熵解碼,以產生該RAP分段的經壓縮音訊信號;以及針對該至少一個該聲 道集合解封包該標頭,以擷取預測係數以及重建該等經壓縮音訊信號,以針對該RAP分段之該聲道集合中的每一音訊聲道無損重建脈碼調變(PCM)音訊;以 及按順序解碼該訊框及後續訊框中之該等分段的剩餘部分。
  17. 如申請專利範圍第16項所述之方法,其中在該編碼時序碼中所指定的一所期望RAP位於該位元 串流中之該RAP分段之該開始處的一對準容限範圍內。
  18. 如申請專利範圍第17項所述之方法,其中該RAP分段在一訊框中的位置基於該等所期望RAP在 該編碼器時序碼中的位置而在該位元串流中改變。
  19. 如申請專利範圍第16項所述之方法,其中達到一預測階數之該RAP分段的前面音訊樣本被解壓 縮,且對達到該預測階數之該等前面音訊樣本停用該預測,以無損重建該PCM音訊。
  20. 如申請專利範圍第19項所述之方法,其中在解碼已開始後,當在一後續訊框中遇到另一RAP分 段時,對達到該預測階數之該等前面音訊樣本停用該預測,以繼續無損重建該PCM音訊。
  21. 如申請專利範圍第16項所述之方法,其中該分段期間減小遭受下述限制的該訊框有效負載,其 中該等限制為一所期望RAP對準該RAP分段之該開始處的一指定容限範圍,以及每一經編碼分段有效負載小於較該訊框大小小的一最大有效負載大小,以及 一旦該分段解封包,則完全可解碼且無損可重建。
  22. 如申請專利範圍第16項所述之方法,其中分段的數目及期間從訊框到訊框而改變,以使遭受下 述限制之每一訊框的該可變長度有效負載最小化,其中該等限制為該經編碼分段有效負載小於位元組的一最大數目、無損可重建以及在一編碼時序碼中所 指定的一所期望RAP位於該RAP分段之該開始處的一對準容限範圍內。
  23. 如申請專利範圍第16項所述之方法,其進一步包含以下步驟:接收包括標頭資訊的每一訊框, 該標頭資訊包括指示一暫態分段在每一聲道中之該存在及位置的暫態參 數、包括不存在暫態之情況下的基於訊框預測係數的一單一集合、以及在各該聲道集合中存在一暫態之情況下的基於分區預測係數的第一及第二集合之各 該聲道的預測係數,針對該至少一個該聲道集合解封包該標頭,以擷取該等暫態參數,以決定暫態分段在該聲道集合中的每一聲道中的該存在及位置;針 對該至少一個該聲道集合解封包該標頭,以根據一暫態的存在擷取每一聲道之基於訊框預測係數的該單一集合或者基於分區預測係數的第一及第二集合; 以及對於該聲道集合中的每一聲道,將預測係數的該單一集合應用到該訊框中之所有分段的該等經壓縮音訊信號,以無損重建PCM音訊,或將預測係數的 該第一集合應用到在第一分段處開始的該等經壓縮音訊信號,以及將預測係數的該第二集合應用到在該暫態分段處開始的該等經壓縮音訊信號。
  24. 如申請專利範圍第16項所述之方法,其中該位元串流進一步包含聲道集合標頭資訊,該聲道集 合標頭資訊包括一成對聲道解相關旗標、一原始聲道階數,以及量化聲道解相關係數,該重建步驟產生解相關PCM音訊,該方法進一步包含以下步驟:解 封包該標頭,以擷取該原始聲道階數、該成對聲道解相關旗標以及該量化聲道解相關係數,以及執行一反交叉聲道解相關,以對該聲道集合中的每一音訊 聲道 重建PCM音訊。
  25. 如申請專利範圍第24項所述之方法,其中該成對聲道解相關旗標針對包括一基礎、一相關及一 解相關聲道的一個三件組,指示包括該基礎及該相關聲道的一第一聲道對,或包括該基礎及該解相關聲道的一第二聲道對是否遭編碼,該方法進一步包含 以下步驟:若該旗標指示一第二聲道對,則將該基礎聲道乘以該量化聲道解相關係數,並且將其加到該解相關聲道,以在該相關聲道中產生PCM音訊。
  26. 一種包含電腦可執行指令的電腦可讀媒體,係含一或多個電腦可讀媒體,其中當該等電腦可執 行指令受執行時,其執行如在申請專利範圍第16項中所述的方法。
  27. 一種包含數位電路的半導體裝置,係含一或多個半導體裝置,其中該等數位電路受組配以執行 如在申請專利範圍第16項中所述的方法。
  28. 一種將多聲道音訊編碼成無損可變位元率(VBR)音訊位元串流的方法,其包含以下步驟:將包括 至少一個聲道集合的該多聲道音訊分塊成具有相等時間期間的多個訊框,每一訊框包括一標頭及多個分段,各該分段具有一個或多個分析區塊的一期間; 對於每一連續訊框,針對該聲道集合中的每一聲道,檢測一暫態在該訊框中的一暫態分析區塊中的存在; 將該訊框分區成第一及第二分區,藉此任何暫態分析區塊都位於其等相對應聲道中的一分段的前面L個分析區塊中;針對該聲道集合中的每一聲道,對在該 暫態分析區塊之前且不包括該暫態分析區塊的分段,決定預測參數的一第一集合,以及對包括該暫態分析區塊且在該暫態分析區塊之後的分段決定預測參 數的一第二集合;分別在該等第一和第二分區上使用預測參數的該等第一和第二集合壓縮該音訊資料,以產生殘差音訊信號;從該等殘差音訊信號決定每 一分段的一分段期間及熵編碼參數,以減小遭受下述限制之該訊框的一可變大小經編碼有效負載,其中該等限制為每一分段須完全且無損可解碼、具有小 於該訊框期間的一期間、及具有一經編碼分段有效負載,其中該經編碼分段有效負載小於較該訊框大小小之位元組的一最大數目;將標頭資訊封包在該位 元串流中的該訊框標頭中,其中該標頭資訊包括分段期間、指示該暫態之存在及位置的暫態參數、預測參數、熵編碼參數及位元串流導航資料;以及將每 一分段的該經壓縮及熵經編碼音訊資料封包在該位元串流中的該等訊框分段中。
  29. 如申請專利範圍第28項所述之方法,對於該聲道集合中的每一聲道,其進一步包含以下步驟: 對於該整個訊框決定預測參數的一第三集合;使用該整個訊框上的預測參數之該第三集合壓縮該音訊資料,以產生殘差音訊信號;以及基於來自其等各自 殘差音訊信號之編碼效率的一量值選擇預測參數的該第三集合或第一及第二集合,其中若該第三集合被選定,則停用有關該暫態在一分段之開始處的L個分 析區塊中的位置的分段期間限制。
  30. 如申請專利範圍第28項所述之方法,其進一步包含以下步驟:接收指定該音訊位元串流中的所 期望隨機存取點(RAP)的一時序碼;從該時序碼決定該訊框中的至多一RAP分析區塊;固定一RAP分段的開始處,藉此該RAP分析區塊位於該開始處的M個 分析區塊中;考慮在將該訊框分區時由該RAP分段施加的該分段邊界,以決定預測參數之該等第一和第二集合;對達到一預測階數並接在該RAP分段之該開 始處之後的前面樣本停用該預測,以針對預測參數的該等第一及第二、以及第三集合產生前面和/或後面接著殘差音訊樣本的原始音訊樣本;決定減小經編 碼訊框有效負載的分段期間,而同時 滿足以下限制:一RAP分析區塊位於該RAP分段之該開始處的M個分析區塊中,和/或暫態分析區塊必須位於一分段的該等前面L個分析區塊中;以及將指示 該RAP的存在及位置的RAP參數以及位元串流導航資料封包在該訊框標頭中。
  31. 如申請專利範圍第28項所述之方法,其進一步包含以下步驟:使用該暫態分析區塊的該所檢測 位置來決定一最大分段期間作為該分析區塊期間的2的冪次方,藉此該暫態位於一分段的該等前面L個分析區塊中,其中是該分析區塊期間的2的冪次方且不 超過該最大分段期間的一均勻分段期間被決定,以減小受該等限制的經編碼訊框有效負載。
  32. 如申請專利範圍第31項所述之方法,其中該最大分段期間進一步受到在一解碼器中可得的輸出 緩衝器大小的限制。
  33. 如申請專利範圍第28項所述之方法,其中用於該經編碼分段有效負載之位元組的該最大數目由 該音訊位元串流的一存取單元大小限制施加。
  34. 如申請專利範圍第28項所述之方法,其中該位元串流包括第一和第二聲道集合,該方法基於暫 態在該等各自聲道集合中的至少一個聲道之不同位置的檢測,針對每一聲道集合中的每一聲道選擇預測參數的第一及第二集合,其中該分段期間被決定, 藉此各該暫態位於該暫態 所發生之一分段的該等前面L個分析區塊中。
  35. 如申請專利範圍第34項所述之方法,其中該第一聲道集合包括5.1多聲道音訊,以及該第二聲道 集合包括至少一個額外的音訊聲道。
  36. 如申請專利範圍第28項所述之方法,其中該等暫態參數包括指示一暫態之存在的一暫態旗標以 及指示該暫態所發生之分段號碼的一暫態分段號碼(ID)。
  37. 如申請專利範圍第28項所述之方法,其進一步包含以下步驟:針對多個聲道對產生一解相關聲 道,以形成包括一基礎、相關及解相關聲道的一個三件組;選擇包括一基礎及一相關聲道的一第一聲道對或包括一基礎及一解相關聲道的一第二聲道對; 以及熵編碼在該等所選聲道對中的該等聲道。
  38. 如申請專利範圍第37項所述之方法,其中該等聲道對透過以下選定:若該解相關聲道的方差小 於該相關聲道的方差一臨界值,則在決定分段期間之前選擇該第二聲道對;以及否則推遲選擇該第一或第二聲道對,直到基於哪一聲道對對該經編碼有效 負載貢獻最少位元決定分段期間。
  39. 一種包含電腦可執行指令的電腦可讀媒體,係含一或多個電腦可讀媒體,其中當該等電腦可執 行指令受執行時,其執行如在申請專利範圍第28項中所述的方法。
  40. 一種包含數位電路的半導體裝置,係含一或多個半導體 裝置,其中該等數位電路受組配以執行如在申請專利範圍第28項中所述的方法。
  41. 一種將無損可變位元率(VBR)多聲道音訊位元串流解碼的方法,其包含以下步驟:接收一無損 VBR多聲道音訊位元串流作為多個訊框的一序列,其中該等訊框分成多個分段,該等分段具有一可變長度訊框有效負載以及包括至少一個獨立可解碼且無 損可重建的聲道集合,其中該聲道集合包括用於一多聲道音訊信號的多個音訊聲道,每一訊框包含標頭資訊,該標頭資訊包括下列項目:分段期間;聲道 集合標頭資訊,該聲道集合標頭資訊包括指出一暫態分段在每一聲道中的存在及位置之暫態參數;各該聲道的預測係數,該等預測係數包括不存在暫態之 情況下的基於訊框預測係數的一單一集合、以及在各該聲道集合中存在一暫態之情況下的基於分區預測係數的第一及第二集合;以及用於各該聲道集合的 分段標頭資訊,該分段標頭資訊包括至少一個熵編碼旗標及至少一個熵編碼參數、以及儲存在該等多個分段中之熵經編碼壓縮多聲道音訊信號;解封包該 標頭,以擷取該分段期間;針對該至少一個該聲道集合解封包該標頭,以擷取每一分段的該熵編碼旗標及編碼參數以及該熵經編碼壓縮多聲道音訊信號, 以及使用該所選熵編碼及編碼參數在每一分段上執行一熵解碼,以產生每一分段的經壓 縮音訊信號;針對該至少一個該聲道集合解封包該標頭,以擷取該等暫態參數,以決定暫態分段在該聲道集合中的每一聲道中的該存在及位置;針對該至 少一個該聲道集合解封包該標頭,以根據一暫態的存在對每一聲道擷取基於訊框預測係數的該單一集合或基於分區預測係數的第一及第二集合;以及對於 該聲道集合中的每一聲道,將預測係數的該單一集合應用到該訊框中之所有分段的該等經壓縮音訊信號,以無損重建PCM音訊,或將預測係數的該第一集 合應用到在第一分段處開始的該等經壓縮音訊信號,以及將預測係數的該第二集合應用到在該暫態分段處開始的該等經壓縮音訊信號。
  42. 如申請專利範圍第41項所述之方法,其中該位元串流進一步包含聲道集合標頭資訊,該聲道集 合標頭資訊包括一成對聲道解相關旗標、一原始聲道階數,以及量化聲道解相關係數,該重建步驟產生解相關PCM音訊,該方法進一步包含以下步驟:解 封包該標頭,以擷取該原始聲道階數、該成對聲道解相關旗標以及該等量化聲道解相關係數,以及執行一反交叉聲道解相關,以對該聲道集合中的每一音 訊聲道重建PCM音訊。
  43. 如申請專利範圍第42項所述之方法,其中該成對聲道解相關旗標針對包括一基礎、一相關及一 解相關聲道的一 個三件組,指示包括該基礎及該相關聲道的一第一聲道對,或包括該基礎及該解相關聲道的一第二聲道對是否遭編碼,該方法進一步包含以下步驟:若該 旗標指示一第二聲道對,則該基礎聲道乘以該量化聲道解相關係數,並且將其加到該解相關聲道,以在該相關聲道中產生PCM音訊。
  44. 如申請專利範圍第41項所述之方法,其進一步包含以下步驟:接收具有標頭資訊的一訊框,其 中該標頭資訊包括指示至多一個RAP分段之存在及位置的RAP參數及導航資料;解封包該位元串流中的下一訊框的標頭,以擷取該等RAP參數,若試圖在 RAP處開始解碼,則跳到該下一訊框,直到具有一RAP分段的一訊框被檢測,以及使用該導航資料來導航至該RAP分段的開始;以及當遇到一RAP分段時, 對達到一預測階數之前面音訊樣本停用預測,以無損重建該PCM音訊。
  45. 如申請專利範圍第41項所述之方法,其中分段的數目及期間從訊框到訊框改變,以使遭受下述 限制之每一訊框的可變長度有效負載最小化,其中該等限制為該經編碼分段有效負載小於較該訊框大小小之位元組的一最大數目且為無損可重建。
  46. 一種包含電腦可執行指令的電腦可讀媒體,係含一或多個電腦可讀媒體,其中當該等電腦可執 行指令受執行 時,其執行如在申請專利範圍第41項中所述的方法。
  47. 一種包含數位電路的半導體裝置,係含一或多個半導體裝置,其中該等數位電路受組配以執行 如在申請專利範圍第41項中所述的方法。
  48. 一種用於在一隨機存取點(RAP)開始解碼無損可變位元率(VBR)多聲道音訊位元串流的多聲道音 訊解碼器,其中該解碼器受組配以進行下列動作:接收一無損VBR多聲道音訊位元串流作為多個訊框的一序列,其中該等訊框分成多個分段,該等分段具 有一可變長度訊框有效負載以及包括至少一個獨立可解碼且無損可重建的聲道集合,其中該聲道集合包括用於一多聲道音訊信號的多個音訊聲道,每一訊 框包含標頭資訊,該標頭資訊包括下列項目:分段期間、指出至多一個RAP分段之存在及位置的RAP參數、導航資料、包括用於各該聲道集合中的各該聲道 之預測係數的聲道集合標頭資訊、以及包括至少一個熵編碼旗標及至少一個熵編碼參數以及儲存在該等多個分段中之熵經編碼壓縮多聲道音訊信號之用於 各該聲道集合的分段標頭資訊;解封包該位元串流中的下一訊框的標頭,以擷取該等RAP參數,直到具有一RAP分段的一訊框被檢測;解封包所選訊框的標 頭,以擷取該分段期間及導航資料以導航至該RAP分段的開始;針對該至少一個該聲道集合解封包該標頭,以擷取 該熵編碼旗標及編碼參數以及該等熵經編碼壓縮多聲道音訊信號,以及使用所選熵編碼及編碼參數在該RAP分段上執行一熵解碼,以產生該RAP分段的經壓 縮音訊信號;以及針對該至少一個該聲道集合解封包該標頭,以擷取預測係數以及重建該等經壓縮音訊信號,以針對該RAP分段對該聲道集合中的每一音 訊聲道無損重建PCM音訊;以及按順序解碼該訊框及後續訊框中的該等分段的剩餘部分。
  49. 如申請專利範圍第48項所述之多聲道音訊解碼器,其中達到一預測階數之任何RAP分段的前面 音訊樣本被解壓縮,該解碼器受組配以停用達到該預測階數之該等前面音訊樣本的預測,以在該RAP分段處無損重建該PCM音訊,以在遇到後續RAP分段 之後的任何時間開始解碼。
  50. 一種用以將無損可變位元率(VBR)多聲道音訊位元串流解碼的多聲道音訊解碼器,其中該解碼器 受組配以進行下列動作:接收一無損VBR多聲道音訊位元串流作為多個訊框的一序列,其中該等訊框分成多個分段,該等分段具有一可變長度訊框有效負 載以及包括至少一個獨立可解碼且無損可重建的聲道集合,其中該聲道集合包括用於一多聲道音訊信號的多個音訊聲道,每一訊框包含標 頭資訊,該標頭資訊包括下列項目:分段期間;包括指出一暫態分段在每一聲道中之存在及位置之暫態參數的聲道集合標頭資訊;用於各該聲道的預測係 數,該等預測係數包括不存在暫態之情況下的基於訊框預測係數的一單一集合、以及在各該聲道集合中存在一暫態之情況下的基於分區預測係數的第一及 第二集合;以及用於各該聲道集合的分段標頭資訊,該分段標頭資訊包括至少一個熵編碼旗標及至少一個熵編碼參數以及儲存在該等多個分段中的熵經編 碼壓縮多聲道音訊信號;解封包該標頭,以擷取該分段期間;針對該至少一個該聲道集合解封包該標頭,以擷取每一分段的該熵編碼旗標及編碼參數以及 該等熵經編碼壓縮多聲道音訊信號,以及使用所選熵編碼及編碼參數在每一分段上執行一熵解碼,以產生每一分段的經壓縮音訊信號;針對該至少一個該 聲道集合解封包該標頭,以擷取該等暫態參數,以決定暫態分段在該聲道集合中的每一聲道中的該存在及位置;針對該至少一個該聲道集合解封包該標頭 ,以根據一暫態的存在對各該聲道擷取基於訊框預測係數的該單一集合或基於分區預測係數的第一及第二集合;以及對於該聲道集合中的每一聲道,將預 測係數的該單一集合應用到該訊框中之所有分段的該等經壓縮音訊信號,以無損重建PCM音訊,或將預測係數的該第一集 合應用到在第一分段處開始的該等經壓縮音訊信號,以及將預測係數的該第二集合應用到在該暫態分段處開始的該等經壓縮音訊信號。
TW98100604A 2008-01-30 2009-01-09 使用具隨機存取點及多重預測參數集合能力的適應性分段技術之無損多聲道音訊編解碼器 TWI474316B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/011,899 US7930184B2 (en) 2004-08-04 2008-01-30 Multi-channel audio coding/decoding of random access points and transients

Publications (2)

Publication Number Publication Date
TW200935401A TW200935401A (en) 2009-08-16
TWI474316B true TWI474316B (zh) 2015-02-21

Family

ID=40913133

Family Applications (1)

Application Number Title Priority Date Filing Date
TW98100604A TWI474316B (zh) 2008-01-30 2009-01-09 使用具隨機存取點及多重預測參數集合能力的適應性分段技術之無損多聲道音訊編解碼器

Country Status (17)

Country Link
US (1) US7930184B2 (zh)
EP (2) EP3435375B1 (zh)
JP (1) JP5356413B2 (zh)
KR (1) KR101612969B1 (zh)
CN (1) CN101933009B (zh)
AU (1) AU2009209444B2 (zh)
BR (1) BRPI0906619B1 (zh)
CA (1) CA2711632C (zh)
ES (2) ES2792116T3 (zh)
HK (1) HK1147132A1 (zh)
IL (1) IL206785A (zh)
MX (1) MX2010007624A (zh)
NZ (2) NZ586566A (zh)
PL (2) PL3435375T3 (zh)
RU (1) RU2495502C2 (zh)
TW (1) TWI474316B (zh)
WO (1) WO2009097076A1 (zh)

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6307487B1 (en) 1998-09-23 2001-10-23 Digital Fountain, Inc. Information additive code generator and decoder for communication systems
US7068729B2 (en) 2001-12-21 2006-06-27 Digital Fountain, Inc. Multi-stage code generator and decoder for communication systems
US9240810B2 (en) 2002-06-11 2016-01-19 Digital Fountain, Inc. Systems and processes for decoding chain reaction codes through inactivation
EP2355360B1 (en) 2002-10-05 2020-08-05 QUALCOMM Incorporated Systematic encoding and decoding of chain reaction codes
WO2004112255A1 (ja) * 2003-06-16 2004-12-23 Matsushita Electric Industrial Co., Ltd. パケット処理装置及び方法
EP2722995B1 (en) * 2003-10-06 2023-04-19 QUALCOMM Incorporated Soft-Decision Decoding of Multi-Stage Chain Reaction Codes
WO2005112250A2 (en) 2004-05-07 2005-11-24 Digital Fountain, Inc. File download and streaming system
WO2006075975A1 (en) * 2005-01-11 2006-07-20 Agency For Science, Technology And Research Encoder, decoder, method for encoding/deconding, computer readable media and computer program elements
US8433581B2 (en) * 2005-04-28 2013-04-30 Panasonic Corporation Audio encoding device and audio encoding method
CN101167126B (zh) * 2005-04-28 2011-09-21 松下电器产业株式会社 语音编码装置和语音编码方法
KR101292851B1 (ko) * 2006-02-13 2013-08-02 디지털 파운튼, 인크. 가변적 fec 오버헤드 및 보호 구간을 이용하는 스트리밍및 버퍼링
US9270414B2 (en) 2006-02-21 2016-02-23 Digital Fountain, Inc. Multiple-field based code generator and decoder for communications systems
US7971129B2 (en) 2006-05-10 2011-06-28 Digital Fountain, Inc. Code generator and decoder for communications systems operating using hybrid codes to allow for multiple efficient users of the communications systems
US9209934B2 (en) 2006-06-09 2015-12-08 Qualcomm Incorporated Enhanced block-request streaming using cooperative parallel HTTP and forward error correction
US9380096B2 (en) * 2006-06-09 2016-06-28 Qualcomm Incorporated Enhanced block-request streaming system for handling low-latency streaming
US9178535B2 (en) 2006-06-09 2015-11-03 Digital Fountain, Inc. Dynamic stream interleaving and sub-stream based delivery
US9419749B2 (en) 2009-08-19 2016-08-16 Qualcomm Incorporated Methods and apparatus employing FEC codes with permanent inactivation of symbols for encoding and decoding processes
US9386064B2 (en) 2006-06-09 2016-07-05 Qualcomm Incorporated Enhanced block-request streaming using URL templates and construction rules
US9432433B2 (en) 2006-06-09 2016-08-30 Qualcomm Incorporated Enhanced block-request streaming system using signaling or block creation
CN101578656A (zh) * 2007-01-05 2009-11-11 Lg电子株式会社 用于处理音频信号的装置和方法
RU2010114256A (ru) 2007-09-12 2011-10-20 Диджитал Фаунтин, Инк. (Us) Формирование и передача исходной идентификационной информации для обеспечения надежного обмена данными
US8301793B2 (en) * 2007-11-16 2012-10-30 Divx, Llc Chunk header incorporating binary flags and correlated variable-length fields
US8527282B2 (en) * 2007-11-21 2013-09-03 Lg Electronics Inc. Method and an apparatus for processing a signal
US8972247B2 (en) * 2007-12-26 2015-03-03 Marvell World Trade Ltd. Selection of speech encoding scheme in wireless communication terminals
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
US8380498B2 (en) * 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
US8311111B2 (en) * 2008-09-11 2012-11-13 Google Inc. System and method for decoding using parallel processing
US8631145B2 (en) * 2008-10-31 2014-01-14 Sonic Ip, Inc. System and method for playing content on certified devices
CN101609678B (zh) 2008-12-30 2011-07-27 华为技术有限公司 信号压缩方法及其压缩装置
CN101615394B (zh) * 2008-12-31 2011-02-16 华为技术有限公司 分配子帧的方法和装置
US9281847B2 (en) 2009-02-27 2016-03-08 Qualcomm Incorporated Mobile reception of digital video broadcasting—terrestrial services
KR20100115215A (ko) * 2009-04-17 2010-10-27 삼성전자주식회사 가변 비트율 오디오 부호화 및 복호화 장치 및 방법
US8700410B2 (en) * 2009-06-18 2014-04-15 Texas Instruments Incorporated Method and system for lossless value-location encoding
CN101931414B (zh) 2009-06-19 2013-04-24 华为技术有限公司 脉冲编码方法及装置、脉冲解码方法及装置
US9288010B2 (en) 2009-08-19 2016-03-15 Qualcomm Incorporated Universal file delivery methods for providing unequal error protection and bundled file delivery services
US8848925B2 (en) 2009-09-11 2014-09-30 Nokia Corporation Method, apparatus and computer program product for audio coding
US9917874B2 (en) 2009-09-22 2018-03-13 Qualcomm Incorporated Enhanced block-request streaming using block partitioning or request controls for improved client-side handling
KR101777347B1 (ko) * 2009-11-13 2017-09-11 삼성전자주식회사 부분화에 기초한 적응적인 스트리밍 방법 및 장치
US8374858B2 (en) * 2010-03-09 2013-02-12 Dts, Inc. Scalable lossless audio codec and authoring tool
US9485546B2 (en) 2010-06-29 2016-11-01 Qualcomm Incorporated Signaling video samples for trick mode video representations
US8918533B2 (en) 2010-07-13 2014-12-23 Qualcomm Incorporated Video switching for streaming video data
US9185439B2 (en) 2010-07-15 2015-11-10 Qualcomm Incorporated Signaling data for multiplexing video components
US9596447B2 (en) 2010-07-21 2017-03-14 Qualcomm Incorporated Providing frame packing type information for video coding
US8489391B2 (en) * 2010-08-05 2013-07-16 Stmicroelectronics Asia Pacific Pte., Ltd. Scalable hybrid auto coder for transient detection in advanced audio coding with spectral band replication
US9456015B2 (en) 2010-08-10 2016-09-27 Qualcomm Incorporated Representation groups for network streaming of coded multimedia data
US8958375B2 (en) 2011-02-11 2015-02-17 Qualcomm Incorporated Framing for an improved radio link protocol including FEC
US9270299B2 (en) 2011-02-11 2016-02-23 Qualcomm Incorporated Encoding and decoding using elastic codes with flexible source block mapping
KR101748760B1 (ko) * 2011-03-18 2017-06-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 오디오 콘텐츠를 표현하는 비트스트림의 프레임들 내의 프레임 요소 배치
US9253233B2 (en) 2011-08-31 2016-02-02 Qualcomm Incorporated Switch signaling methods providing improved switching between representations for adaptive HTTP streaming
EP2754096A4 (en) 2011-09-09 2015-08-05 Panamorph Inc IMAGE PROCESSING SYSTEM AND METHOD
US9843844B2 (en) 2011-10-05 2017-12-12 Qualcomm Incorporated Network streaming of media data
US9294226B2 (en) 2012-03-26 2016-03-22 Qualcomm Incorporated Universal object delivery and template-based file delivery
US9804754B2 (en) * 2012-03-28 2017-10-31 Terry Crawford Method and system for providing segment-based viewing of recorded sessions
US9591303B2 (en) * 2012-06-28 2017-03-07 Qualcomm Incorporated Random access and signaling of long-term reference pictures in video coding
US10199043B2 (en) * 2012-09-07 2019-02-05 Dts, Inc. Scalable code excited linear prediction bitstream repacked from a higher to a lower bitrate by discarding insignificant frame data
KR20140075466A (ko) * 2012-12-11 2014-06-19 삼성전자주식회사 오디오 신호의 인코딩 및 디코딩 방법, 및 오디오 신호의 인코딩 및 디코딩 장치
MX2021000353A (es) 2013-02-05 2023-02-24 Ericsson Telefon Ab L M Método y aparato para controlar ocultación de pérdida de trama de audio.
KR101444655B1 (ko) * 2013-04-05 2014-11-03 국방과학연구소 파티션 컴퓨팅을 위한 tmo 확장 모델이 저장된 기록매체, 그리고 tmo 확장 모델의 2단계 스케줄링 구현 방법 및 그 방법을 기록한 컴퓨터로 읽을 수 있는 기록매체
TWI557727B (zh) 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
US10614816B2 (en) * 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
RU2750644C2 (ru) * 2013-10-18 2021-06-30 Телефонактиеболагет Л М Эрикссон (Пабл) Кодирование и декодирование положений спектральных пиков
US11350015B2 (en) 2014-01-06 2022-05-31 Panamorph, Inc. Image processing system and method
US9564136B2 (en) * 2014-03-06 2017-02-07 Dts, Inc. Post-encoding bitrate reduction of multiple object audio
US9392272B1 (en) * 2014-06-02 2016-07-12 Google Inc. Video coding using adaptive source variance based partitioning
EP2980796A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
CN104217726A (zh) * 2014-09-01 2014-12-17 东莞中山大学研究院 一种无损音频压缩编码方法及其解码方法
EP3627337A1 (en) 2015-02-27 2020-03-25 DivX, LLC Systems and methods for frame duplication and frame extension in live video encoding and streaming
CN106033671B (zh) 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
KR102595478B1 (ko) * 2016-01-03 2023-10-27 아우로 테크놀로지스 엔브이 예측자 모델을 이용한 신호 인코더, 디코더 및 방법
US11202225B2 (en) * 2018-04-23 2021-12-14 Endeavour Technology Limited IoT QoS monitoring system and method
CN110020935B (zh) * 2018-12-18 2024-01-19 创新先进技术有限公司 一种数据处理、计算方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030018884A1 (en) * 1992-06-30 2003-01-23 Wise Adrian P. Multistandard video decoder and decompression system for processing encoded bit streams including expanding run length codes and methods relating thereto
US20030115052A1 (en) * 2001-12-14 2003-06-19 Microsoft Corporation Adaptive window-size selection in transform coding
US20050198346A1 (en) * 1999-03-12 2005-09-08 Microsoft Corporation Media coding for loss recovery with remotely predicted data units
US20050216262A1 (en) * 2004-03-25 2005-09-29 Digital Theater Systems, Inc. Lossless multi-channel audio codec

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400996B1 (en) * 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
US8505108B2 (en) * 1993-11-18 2013-08-06 Digimarc Corporation Authentication using a digital watermark
GB9509831D0 (en) * 1995-05-15 1995-07-05 Gerzon Michael A Lossless coding method for waveform data
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP4098364B2 (ja) * 1996-09-26 2008-06-11 メドトロニック ミニメッド,インコーポレイティド 珪素含有生体適合性膜
US6023233A (en) * 1998-03-20 2000-02-08 Craven; Peter G. Data rate control for variable rate compression systems
KR100354531B1 (ko) 1998-05-06 2005-12-21 삼성전자 주식회사 실시간 복호화를 위한 무손실 부호화 및 복호화 시스템
JP4610087B2 (ja) * 1999-04-07 2011-01-12 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 損失のない符号化・復号へのマトリックス改良
DE69937189T2 (de) 1999-05-21 2008-06-26 Scientifi-Atlanta Europe Verfahren und Vorrichtung zur Komprimierung und/oder Übertragung und/oder Dekomprimierung eines digitalen Signals
US6370502B1 (en) 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
US6226616B1 (en) 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
US6373411B1 (en) * 2000-08-31 2002-04-16 Agere Systems Guardian Corp. Method and apparatus for performing variable-size vector entropy coding
US6675148B2 (en) * 2001-01-05 2004-01-06 Digital Voice Systems, Inc. Lossless audio coder
AU2001276588A1 (en) * 2001-01-11 2002-07-24 K. P. P. Kalyan Chakravarthy Adaptive-block-length audio coder
DE60214599T2 (de) 2002-03-12 2007-09-13 Nokia Corp. Skalierbare audiokodierung
US7536305B2 (en) * 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
US7328150B2 (en) * 2002-09-04 2008-02-05 Microsoft Corporation Innovations in pure lossless audio compression
ATE511178T1 (de) * 2004-03-25 2011-06-15 Dts Inc Skalierbarer verlustloser audio-codec und erstellungs-werkzeug
US8744862B2 (en) * 2006-08-18 2014-06-03 Digital Rise Technology Co., Ltd. Window selection based on transient detection and location to provide variable time resolution in processing frame-based data
US8032240B2 (en) * 2005-07-11 2011-10-04 Lg Electronics Inc. Apparatus and method of processing an audio signal
US20070094035A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Audio coding
US20090164223A1 (en) * 2007-12-19 2009-06-25 Dts, Inc. Lossless multi-channel audio codec
US8239210B2 (en) * 2007-12-19 2012-08-07 Dts, Inc. Lossless multi-channel audio codec

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030018884A1 (en) * 1992-06-30 2003-01-23 Wise Adrian P. Multistandard video decoder and decompression system for processing encoded bit streams including expanding run length codes and methods relating thereto
US20050198346A1 (en) * 1999-03-12 2005-09-08 Microsoft Corporation Media coding for loss recovery with remotely predicted data units
US20030115052A1 (en) * 2001-12-14 2003-06-19 Microsoft Corporation Adaptive window-size selection in transform coding
US20050216262A1 (en) * 2004-03-25 2005-09-29 Digital Theater Systems, Inc. Lossless multi-channel audio codec

Also Published As

Publication number Publication date
MX2010007624A (es) 2010-09-10
CA2711632C (en) 2018-08-07
CN101933009A (zh) 2010-12-29
HK1147132A1 (zh) 2011-07-29
KR20100106579A (ko) 2010-10-01
KR101612969B1 (ko) 2016-04-15
TW200935401A (en) 2009-08-16
BRPI0906619A2 (pt) 2019-10-01
IL206785A (en) 2014-04-30
EP3435375B1 (en) 2020-03-11
CA2711632A1 (en) 2009-08-06
JP5356413B2 (ja) 2013-12-04
WO2009097076A1 (en) 2009-08-06
EP3435375A1 (en) 2019-01-30
BRPI0906619B1 (pt) 2022-05-10
EP2250572A1 (en) 2010-11-17
ES2792116T3 (es) 2020-11-10
CN101933009B (zh) 2014-07-02
EP2250572A4 (en) 2014-01-08
NZ597101A (en) 2012-09-28
RU2495502C2 (ru) 2013-10-10
US7930184B2 (en) 2011-04-19
ES2700139T3 (es) 2019-02-14
RU2010135724A (ru) 2012-03-10
NZ586566A (en) 2012-08-31
JP2011516902A (ja) 2011-05-26
IL206785A0 (en) 2010-12-30
EP2250572B1 (en) 2018-09-19
US20080215317A1 (en) 2008-09-04
AU2009209444B2 (en) 2014-03-27
PL2250572T3 (pl) 2019-02-28
AU2009209444A1 (en) 2009-08-06
PL3435375T3 (pl) 2020-11-02

Similar Documents

Publication Publication Date Title
TWI474316B (zh) 使用具隨機存取點及多重預測參數集合能力的適應性分段技術之無損多聲道音訊編解碼器
JP5599913B2 (ja) 可逆マルチチャネル・オーディオ・コーデック
KR101243412B1 (ko) 무손실의 다채널 오디오 코덱
US20090164223A1 (en) Lossless multi-channel audio codec
US8239210B2 (en) Lossless multi-channel audio codec