TWI443646B - 音訊解碼器及使用有效降混之解碼方法 - Google Patents

音訊解碼器及使用有效降混之解碼方法 Download PDF

Info

Publication number
TWI443646B
TWI443646B TW100102481A TW100102481A TWI443646B TW I443646 B TWI443646 B TW I443646B TW 100102481 A TW100102481 A TW 100102481A TW 100102481 A TW100102481 A TW 100102481A TW I443646 B TWI443646 B TW I443646B
Authority
TW
Taiwan
Prior art keywords
data
channel
downmix
downmixing
decoding
Prior art date
Application number
TW100102481A
Other languages
English (en)
Other versions
TW201142826A (en
Inventor
Robin Thesing
James M Silva
Robert L Andersen
Original Assignee
Dolby Lab Licensing Corp
Dolby Int Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Lab Licensing Corp, Dolby Int Ab filed Critical Dolby Lab Licensing Corp
Publication of TW201142826A publication Critical patent/TW201142826A/zh
Application granted granted Critical
Publication of TWI443646B publication Critical patent/TWI443646B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Description

音訊解碼器及使用有效降混之解碼方法 [相關申請案之交叉引用]
主張於2010年2月5日申請的美國臨時專利申請案號61/305,871及於2010年6月29日申請的美國臨時專利申請案號61/359,763之優先權,各個之全部內容以引用方式皆倂於此。
本發明主要有關於音訊信號處理。
數位音訊資料壓縮已變成音訊領域中一重要的技術。已經引進新的格式來允許高品質音訊再生而無需使用傳統技術會需要的高資料頻寬。已由先進電視系統委員會(ATSC)採用AC-3及較新之增進AC-3(E-AC-3)編碼技術作為美國內之高解析度電視(HDTV)的音訊服務標準。E-AC-3亦應用於消費者媒體(數位視訊碟)及直接衛星廣播中。E-AC-3為知覺編碼的一個範例,並能將數個聲道的數位音訊編碼成已編碼音訊之位元流及元資料。
對於有效率地解碼已編碼音訊位元流有興趣。例如,可攜式裝置之電池壽命主要受限於其之主處理單元的耗能量。處理單元之耗能量與其之任務的運算複雜度息息相關。因此,減少可攜式音訊處理系統之平均運算複雜度應會延長這類系統的電池壽命。
熟悉此技藝人士一般將術語x86理解為意指一系列的處理器指令集架構,其之源頭追朔回Intel 8086處理器。由於x86處理器指令集架構的普及,對於在具有x86處理器指令集架構之處理器或處理系統上解碼已編碼音訊位元流也有興趣。許多解碼器實行例本質上為一般性,而另一些則特別針對嵌入式處理器而設計。新的處理器,如AMD的Geode及新的Intel Atom為使用x86處理器指令集並用於小型可攜式裝置中的32位元及64位元設計之範例。
【發明內容及實施方式】 概觀
本發明之一實施例包括編碼在一或更多電腦可讀取實體媒體中以進行動作之方法、設備、及邏輯。
特定實施例包括一種操作音訊解碼器之方法,以解碼包括N.n聲道之音訊資料的已編碼區塊之音訊資料,以形成包括M.m聲道的已解碼音訊之已解碼音訊資料,M≧1,n為該已編碼音訊資料中之低頻效果聲道的數量,且m為該已解碼音訊資料中之低頻效果聲道的數量。該方法包含:接受包括由編碼方法所編碼的N.n聲道之已編碼音訊資料的區塊之音訊資料,該編碼方法包括變換N.n聲道的數位音訊資料,並形成且包裝頻率域指數及尾數資料;以及解碼該已接受的音訊資料。該解碼包括:拆包並解碼該頻率域指數及尾數資料;從該已拆包並已解碼頻率域指數及尾數資料判斷變換係數;逆變換該頻率域資料並施加進一步處理以判斷已取樣音訊資料;以及針對情況M<N根據降混資料時域降混該已判斷取樣音訊資料的至少一些區塊。A1、B1、及C1的至少一者為真:
A1為該解碼包括一區塊一區塊地判斷是否施加頻率域降混或時域降混,且若判斷針對一特定區塊施加頻率域降混,則針對該特定區塊施加頻率域降混,
B1為該時域降混包括測試該降混資料是否自先前使用的降混資料改變,並且,若改變,施加交叉衰減(cross-fading)以判斷已交叉衰減降混資料並根據該已交叉衰減降混資料時域降混,且若無改變,根據該降混資料直接時域降混,以及
C1為該方法包括識別該N.n輸入聲道的一或更多非貢獻聲道,非貢獻聲道為不貢獻至M.m聲道的聲道,且該方法對該一或更多已識別的非貢獻聲道不進行逆變換該頻率域資料及該施加進一步處理。
本發明之特定實施例包括一種儲存解碼指令之電腦可讀取儲存媒體,當由處理系統的一或更多處理器履行該些解碼指令時令該處理系統進行解碼音訊資料,其包括N.n聲道之音訊資料的已編碼區塊,以形成包括M.m聲道的已解碼音訊之已解碼音訊資料,M≧1,n為該已編碼音訊資料中之低頻效果聲道的數量,且m為該已解碼音訊資料中之低頻效果聲道的數量。該些解碼指令包括:指令,當加以履行時致使接受包括由編碼方法所編碼的N.n聲道之已編碼音訊資料的區塊之音訊資料,該編碼方法包括變換N.n聲道的數位音訊資料,並形成且包裝頻率域指數及尾數資料;以及指令,當加以履行時致使解碼該已接受的音訊資料。當加以履行時致使解碼的該些指令包括:指令,當加以履行時致使拆包並解碼該頻率域指數及尾數資料;指令,當加以履行時致使從該已拆包並已解碼頻率域指數及尾數資料判斷變換係數;指令,當加以履行時致使逆變換該頻率域資料並施加進一步處理以判斷已取樣音訊資料;以及指令,當加以履行時致使查明是否M<N,以及指令,當加以履行時致使若M<N根據降混資料時域降混該已判斷取樣音訊資料的至少一些區塊。A2、B2、及C2的至少一者為真:
A2為當加以履行時致使解碼之該些指令包括指令,當加以履行時致使一區塊一區塊地判斷是否施加頻率域降混或時域降混,以及指令,當加以履行時致使若判斷針對一特定區塊施加頻率域降混,則施加頻率域降混,
B2為當加以履行時致使時域降混的該些指令包括測試該降混資料是否自先前使用的降混資料改變,並且,若改變,施加交叉衰減以判斷已交叉衰減降混資料並根據該已交叉衰減降混資料時域降混,且若無改變,根據該降混資料直接時域降混,以及
C2為當加以履行時致使解碼的該些指令包括識別該N.n輸入聲道的一或更多非貢獻聲道,非貢獻聲道為不貢獻至M.m聲道的聲道,且該方法對該一或更多已識別的非貢獻聲道不進行逆變換該頻率域資料及該施加進一步處理。
特定實施例包括一種處理音訊資料之設備,以解碼包括N.n聲道之音訊資料的已編碼區塊之音訊資料,以形成包括M.m聲道的已解碼音訊之已解碼音訊資料,M≧1,n為該已編碼音訊資料中之低頻效果聲道的數量,且m為該已解碼音訊資料中之低頻效果聲道的數量。該設備包含:機構,接受包括由編碼方法所編碼的N.n聲道之已編碼音訊資料的區塊之音訊資料,該編碼方法包括變換N.n聲道的數位音訊資料,並形成且包裝頻率域指數及尾數資料;以及機構,解碼該已接受的音訊資料。該解碼機構包括:機構,拆包並解碼該頻率域指數及尾數資料;機構,從該已拆包並已解碼頻率域指數及尾數資料判斷變換係數;機構,逆變換該頻率域資料並施加進一步處理以判斷已取樣音訊資料;以及機構,針對情況M<N根據降混資料時域降混該已判斷取樣音訊資料的至少一些區塊。A3、B3、及C3的至少一者為真:
A3為該解碼機構包括機構,其一區塊一區塊地判斷是否施加頻率域降混或時域降混,以及機構,其若判斷針對一特定區塊施加頻率域降混,則針對該特定區塊施加頻率域降混,
B3為該時域降混機構進行該降混資料是否自先前使用的降混資料改變之測試,並且,若改變,施加交叉衰減以判斷已交叉衰減降混資料並根據該已交叉衰減降混資料時域降混,且若無改變,根據該降混資料直接時域降混,以及
C3為該設備包括機構,其識別該N.n輸入聲道的一或更多非貢獻聲道,非貢獻聲道為不貢獻至M.m聲道的聲道,且該設備對該一或更多已識別的非貢獻聲道不進行逆變換該頻率域資料及該施加進一步處理。
特定實施例包括一種處理包括N.n聲道之音訊資料的已編碼區塊之音訊資料的設備,以形成包括M.m聲道的已解碼音訊之已解碼音訊資料,M≧1,n=0或1,為該已編碼音訊資料中之低頻效果聲道的數量,且m=0或1,為該已解碼音訊資料中之低頻效果聲道的數量。該設備包含:機構,接受包括由編碼方法所編碼的N.n聲道之已編碼音訊資料的區塊之音訊資料,該編碼方法包括以一種方式變換N.n聲道的數位音訊資料,使該逆變換及進一步處理可重獲時域取樣而無頻疊錯誤,形成且包裝頻率域指數及尾數資料,並形成及包裝與該頻率域指數及尾數資料相關的元資料,該元資料選擇性包括與暫態預先雜訊處理相關的元資料;以及機構,解碼該已接受的音訊資料。該解碼機構包括:一或更多前端解碼機構及一或更多後端解碼機構。該前端解碼機構包括機構,以拆包該元資料、拆包並解碼該頻率域指數及尾數資料。該後端解碼機構包括機構,以從該已拆包及解碼的頻率域指數及尾數資料判斷變換係數;逆變換該頻率域資料;施加窗化及重疊添加操作以判斷已取樣音訊資料;根據與暫態預先雜訊處理相關的該元資料施加任何所需的暫態預先雜訊處理解碼;以及根據降混資料的時域降混,該時域降混在情況M<N中根據降混資料時域降混至少一些資料區塊。A4、B4、及C4的至少一者為真:
A4為該後端解碼機構包括一區塊一區塊地判斷是否施加頻率域降混或時域降混之機構,以及施加頻率域降混之機構,該施加頻率域降混之機構若判斷針對一特定區塊施加頻率域降混,則針對該特定區塊施加頻率域降混,
B4為該時域降混機構進行該降混資料是否自先前使用的降混資料改變之測試,並且,若改變,施加交叉衰減以判斷已交叉衰減降混資料並根據該已交叉衰減降混資料的時域降混,且若無改變,根據該降混資料直接時域降混,以及
C4為該設備包括機構,其識別該N.n輸入聲道的一或更多非貢獻聲道,非貢獻聲道為不貢獻至M.m聲道的聲道,且該後端解碼機構對該一或更多已識別的非貢獻聲道不進行逆變換該頻率域資料及該施加進一步處理。
特定實施例包括一種解碼包括N.n聲道之音訊資料的已編碼區塊之音訊資料之系統,以形成包括M.m聲道的已解碼音訊之已解碼音訊資料,M≧1,n為該已編碼音訊資料中之低頻效果聲道的數量,且m為該已解碼音訊資料中之低頻效果聲道的數量。該系統包含:一或更多處理器;以及儲存子系統,耦合至該一或更多處理器。該系統組態成接受包括由編碼方法所編碼的N.n聲道之已編碼音訊資料的區塊之音訊資料,該編碼方法包括變換N.n聲道的數位音訊資料,並形成且包裝頻率域指數及尾數資料;以及進一步解碼該已接受的音訊資料,包括:拆包並解碼該頻率域指數及尾數資料;從該已拆包並已解碼頻率域指數及尾數資料判斷變換係數;逆變換該頻率域資料並施加進一步處理以判斷已取樣音訊資料;以及針對情況M<N根據降混資料時域降混該已判斷取樣音訊資料的至少一些區塊。A5、B5、及C5的至少一者為真:
A5為該解碼包括一區塊一區塊地判斷是否施加頻率域降混或時域降混,且若判斷針對一特定區塊施加頻率域降混,則針對該特定區塊施加頻率域降混,
B5為該時域降混包括測試該降混資料是否自先前使用的降混資料改變,並且,若改變,施加交叉衰減以判斷已交叉衰減降混資料並根據該已交叉衰減降混資料時域降混,且若無改變,根據該降混資料直接時域降混,以及
C5為該方法包括識別該N.n輸入聲道的一或更多非貢獻聲道,非貢獻聲道為不貢獻至M.m聲道的聲道,且該方法對該一或更多已識別的非貢獻聲道不進行逆變換該頻率域資料及該施加進一步處理。
在系統實施例的一些版本中,已接受的音訊資料具有已編碼資料之訊框的位元流之形式,且儲存子系統組態有指令,當由處理系統之一或更多處理器履行時,導致解碼該已接受的音訊資料。
系統實施例的一些版本包括經由網路鏈結連網之一或更多子系統,各子系統包括至少一處理器。
在A1、A2、A3、A4、或A5為真的一些實施例中,該判斷是否施加頻率域降混或時域降混包括判斷是否有任何暫態預先雜訊處理,並判斷該N聲道的任何者是否具有不同區塊類型,使得僅針對在該N聲道中具有相同區塊類型的區塊、無暫態預先雜訊處理、且M<N施加頻率域降混。
在A1、A2、A3、A4、或A5為真的一些實施例中,且其中該編碼方法中之該變換使用重疊變換,且該進一步處理包括施加窗化及重疊添加操作以判斷已取樣音訊資料,(i)針對該特定區塊施加頻率域降混包括判斷針對該前一區塊的降混是否係靠時域降混,且若針對該前一區塊的該降混係靠時域降混,則施加時域降混(或在偽時域中之降混)至重疊該特定區塊的該已解碼資料之該前一區塊的該資料,以及(ii)針對該特定區塊施加時域降混包括判斷針對該前一區塊的降混是否係靠頻率域降混,且若針對該前一區塊的該降混係靠頻率域降混,則和若針對該前一區塊的該降混不係靠頻率域降混不同地處理該特定區塊。
在B1、B2、B3、B4、或B5為真的一些實施例中,使用至少一x86處理器,其之指令集包括包含向量指令之串流單指令多資料擴展(SSE),且該時域降混包括在該一或更多x86處理器的至少一者上運行向量指令。
在C1、C2、C3、C4、或C5為真的一些實施例中,n=1且m=0,使得不在該低頻效果聲道上進行逆變換及施加進一步處理。此外,在C為真的一些實施例中,包括已編碼區塊的該音訊資料包括界定該降混之資訊,且其中該識別一或更多非貢獻聲道使用界定該降混之該資訊。此外,在C為真的一些實施例中,該識別一或更多非貢獻聲道進一步包括識別一或更多聲道是否相較於一或更多其他聲道有不顯著的內容量,其中若一聲道的能量或絕對位準在另一聲道的至少15 dB以下,則該聲道相較於該另一聲道有不顯著的內容量。針對一些情況,若一聲道的能量或絕對位準在另一聲道的至少18 dB以下,則該聲道相較於該另一聲道有不顯著的內容量,而針對其他應用,若一聲道的能量或絕對位準在另一聲道的至少25 dB以下,則該聲道相較於該另一聲道有不顯著的內容量。
在一些實施例中,據由AC-3標準、E-AC-3標準、與E-AC-3標準反向相容的標準、MPEG-2 AAC標準、及HE-AAC標準構成的一組標準之一編碼該已編碼音訊資料。
在本發明之一些實施例中,該編碼方法中之該變換使用重疊變換,且該進一步處理包括施加窗化及重疊添加操作以判斷已取樣音訊資料。
在本發明之一些實施例中,該編碼方法包括形成並包裝與該頻率域指數及尾數資料相關的元資料,該元資料選擇性包括與暫態預先雜訊處理及降混相關的元資料。
特定實施例可提供這些態樣、特徵、或優點的全部、一些、或全無。特定實施例可提供一或更多其他態樣、特徵、或優點,對熟悉此技藝人士而言其之一或更多係從在此之圖示、說明、及申請專利範圍顯而易見。
解碼已編碼流
本發明之實施例說明解碼已經根據擴展AC-3(E-AC-3)標準編碼成已編碼位元流之音訊。E-AC-3及較早的AC-3標準詳述在於2009年12月1日在網際網路的全球資訊網路於www^dot^atsc^dot^org/standards/a_52b^dot^pdf(其中在真實網路位址中^dot^標示小點符號(「.」)),Advanced Television system Committee,Inc.(ATSC),「數位音訊壓縮標準(AC-3,E-AC-3)」,版本B,文件A/52B,2005年6月14日中。然而,本發明不限於解碼在E-AC-3中編碼的位元流,且可應用至解碼器並解碼根據另一編碼方法編碼的位元流,並應用至這種編碼的方法、編碼的設備、進行這種編碼的系統、當履行時令一或更多處理器進行這種編碼的軟體、及/或其上儲存這種軟體之實體儲存媒體。例如,本發明之實施例亦可應用至解碼已根據MPEG-2 AAC(ISO/IEC 138181-7)及MPEG-4音訊(ISO/IEC 14496-3)標準編碼的音訊。MPEG-4音訊標準包括High Efficiency AAC版本1(HE-AAC v1)及High Efficiency AAC版本2(HE-AAC v2)編碼兩者,在此統稱為HE-AAC。
AC-3及E-AC-3亦稱為DOLBYDIGITAL以及倂入一些額外相容改良之HE-AAC的DOLBYDIGITAL PLUS. A版本亦稱為DOLBYPULSE。這些為Dolby Laboratories Licensing Corporation的商標,即本發明之受讓人,且可能在一或更多司法管轄區中註冊。E-AC-3與AC-3相容並包括額外功能。
x86架構
熟悉此技藝人士一般將術語x86理解為意指一系列的處理器指令集架構,其之源頭追朔回Intel 8086處理器。已在來自諸如Intel、Cyrix、AMD、VIA及許多其他公司的處理器中實行該架構。一般而言,該術語理解成暗示與Intel 80386處理器之32位元指令集的二元相容性。目前(2010年初)x86架構遍及於桌上型及筆記型電腦之中,且在伺服器及工作站中為持續增長的多數。大量軟體支援該平台,包括諸如MS-DOS、Windows、Linux、BSD、Solaris、Mac OS X之操作系統。
如此所用,術語x86意指x86處理器指令集架構,其亦支援單指令多資料(SIMD)指令集擴展(SSE)。SSE為於1999年引進到Intel的Pentium III系列處理器中之原始x86架構的單指令多資料(SIMD)指令集擴展,且現在常見於眾多供應商所製造之x86架構中。
AC-3及E-AC-3位元流
多聲道音訊信號之AC-3位元流由訊框所組成,訊框代表跨全部已編碼聲道之音訊信號的1536脈衝碼調變(PCM)取樣的恆定時間間隔。提供多達五個主聲道及選擇性地標示成「.1」之低頻效果(LFE)聲道,亦即,提供多達音訊之5.1聲道。每一訊框具有固定的大小,其僅取決於取樣率及編碼資料率。
簡要地,AC-3編碼包括使用重疊變換-經修改之離散餘弦變換(MDCT),具有包括50%重疊之凱澤貝塞爾衍生(Kaiser Bessel derived;KBD)窗-以將時間資料轉換成頻率資料。知覺性編碼頻率資料以壓縮資料以形成已壓縮的訊框位元流,訊框各包括已編碼音訊資料及元資料。各AC-3訊框為獨立實體,不與先前訊框共享資料,除了用來轉換時間資料成頻率資料用的MDCT中固有的變換重疊。
在每一AC-3訊框的開頭為同步資訊(SI)及位元流資訊(BSI)欄位。SI及BSI欄位敘述位元流組態,包括取樣率、資料率、編碼聲道數量、及數個其他系統等級的元件。每一訊框還有兩循環冗餘碼(CRC)字,一個在開頭,一個在尾端,其提供錯誤檢測之方式。
在每一訊框內有六個音訊區塊,各代表每音訊資料的編碼聲道256 PCM取樣。音訊區塊含有區塊切換旗標、耦合座標、指數、位元配置參數、及尾數。在訊框內允許資料共享,使存在於區塊0中之資訊可重複用於後續區塊中。
選擇性輔助資料欄位位在訊框尾端。此欄位允許系統設計者嵌入私有控制或狀態資訊到AC-3位元流中以供泛系統的傳輸。
E-AC-3保留六個256係數變換的AC-3訊框結構,同時亦允許由一、二、及三個256係數變換組成之較短訊框。這得以在大於640 kbps的資料率輸送音訊。每一E-AC-3訊框包括元資料及音訊資料。
E-AC-3允許比AC-3之5.1明顯更大量的聲道,尤其,E-AC-3允許現今常見的6.1及7.1音訊之運送,以及至少13.1聲道的運送以支援,例如,未來多聲道音訊聲帶。藉由將主音訊程式位元流與高達八個額外從屬的子流關聯來獲得超過5.1的額外聲道,這些全部被多工成一E-AC-3位元流。這允許主音訊程式傳達AC-3的5.1聲道格式,同時額外聲道容量來自從屬子流。這意味著5.1聲道版本及各種傳統降混總是為可得,且藉由聲道取代程序免除矩陣減法誘導的編碼假影(artifacts)。
透過載送七個更多的獨立音訊流亦有多程式支援,各具有可能關聯的從屬子流,以增加每一程式之聲道運送超過5.1聲道。
AC-3使用相對短的變換且簡單的純量量化來知覺編碼音訊素材。E-AC-3,雖與AC-3相容,提供改善的頻譜解析、改善的量化、及改善的編碼。藉由E-AC-3,編碼效率已經從AC-3的到允許較低資料率的有利利用。這是使用改善的濾波器阻來將時間資料轉換成頻率域資料、改善的量化、增進的聲道耦合、頻譜擴展、及稱為暫態預先雜訊處理(TPNP)的技術來達成。
除了將時間資料轉換成頻率資料的重疊變換MDCT外,E-AC-3針對靜止音訊信號使用適應混合變換(AHT)。AHT包括具有重疊凱澤貝塞爾衍生(KBD)窗的MDCT,跟隨著,針對靜止信號,具有非窗化非重疊類型II離散餘弦變換(DCT)形式之次要區塊變換。當存在有靜止特性之音訊時,AHT因此在現有的AC-3 MDCT/KBD濾波器阻之後添加第二級DCT,以將六個256係數變換區塊轉換成具有更高頻率解析度之單一1536係數混合變換區塊。此更高的頻率解析係與6維向量量化(VQ)及增益適應量化(GAQ)結合來改善某些信號(如「難以編碼」信號)的編碼效率。使用VQ來有效率地編碼需要較低準確度之頻帶,同時GAQ在需要較高準確率量化時提供較大效率。
亦透過使用具有相保留的聲道耦合來獲得改善的編碼效率。此方法擴展使用高頻單複合聲道(其在解碼時重新構成每一聲道的高頻部分)之AC-3的聲道耦合方法。相資訊的添加及在位元流中發送之頻譜振幅資訊的編碼器控制處理改善此程序的保真度,使單複合聲道可擴展至比之前可能之更低的頻率。這減少編碼的有效頻寬,並因此增加編碼效率。
E-AC-3包括頻譜擴展。頻譜擴展包括以在頻率中往上轉譯的較低頻譜段取代較高頻率變換係數。轉譯段的頻譜特性,透過變換係數之頻譜調變,並透過塑形雜訊成分與轉譯的低頻譜段之混合,而匹配原始。
E-AC-3包括低頻效果(LFE)聲道。這為具有有限(<120 Hz)頻寬之選擇性的單聲道,其意圖在相關於完整頻寬聲道在位準+10 dB予以再生。選擇性的LFE聲道允許針對低頻聲音提供高聲壓位準。其他編碼標準,如AC-3及HE-AAC,亦包括選擇性的LFE聲道。
改善在低資料率之音訊品質之額外技術為暫態預先雜訊處理之使用,將於下說明。
AC-3解碼
在典型AC-3解碼器實行例中,為了保持記憶體及解碼器潛伏需求盡可能地小,在一連串巢套迴路中解碼每一AC-3訊框。
第一步驟建立訊框對準。這涉及找出AC-3同步字,並接著確認CRC錯誤檢測字只是無錯誤。一旦找出訊框同步,拆包BSI資料以判斷重要訊框資訊,如已編碼聲道的數量。聲道之一可能為LFE聲道。已編碼聲道的數量在此標示成N.n,其中n為LFE聲道的數量,且N為主聲道的數量。在目前使用的編碼標準中,n=0或1。在未來,可能會有n>1的情況。
解碼的下一步驟為拆包六個音訊區塊的每一個。為了最小化輸出脈衝碼調變資料(PCM)緩衝器之記憶體需求,一次拆包一個音訊區塊。在每一區塊週期的結束,在許多實行例中,將PCM結果複製到輸出緩衝器,其針對硬體解碼器中之即時操作典型加以雙或循環緩衝,以供數位至類比轉換器(DAC)直接中斷存取。
AC-3解碼器音訊區塊處理可分成兩個不同的階段,稱為輸入及輸出處理。輸入處理包括所有位元流拆包及已編碼聲道操縱。輸出處理主要指逆MDCT變換的窗化及重疊添加階段。
有此不同的原因在於由AC-3編碼器所產生之主輸出聲道的數量,在此標示成M≧1,不一定匹配位元流中編碼的輸入主聲道之數量,在此標示成N≧1,其典型但非絕對,N≧M。藉由使用降混,解碼器可接受具有任何數量N之已編碼聲道的位元流並產生任意數量M(M≧1)的輸出聲道。注意到一般而言,輸出聲道的數量在此標示成M.m,其中M為主聲道的數量,且m為LFE輸出聲道的數量。在目前的應用中,m=0或1。在未來可能會有m>1。
注意到在降混中,不是所有的已編碼聲道都包括在輸出聲道中。例如,在5.1至立體聲降混中,通常拋棄LFE聲道資訊。因此,在一些降混中,n=1且m=0,亦即,沒有輸出LFE聲道。
第1圖顯示指令之偽碼100,其當加以履行時,進行典型的AC-3解碼程序。
在AC-3解碼中之輸入處理典型在當解碼器拆包固定的音訊區塊資料時開始,其為位在音訊區塊開頭之參數及旗標的集合。此固定資料包括像是區塊切換旗標、耦合資訊、指數、及位元配置參數。術語「固定資料」意指事前已知這些位元流元件的字大小之事實,且因此無需可變長度解碼程序來重獲這類元件。
指數構成固定資料區域中之單一最大欄位,因其包括來自每一已編碼聲道的所有指數。根據編碼模式,在AC-3中,可能會有多如每尾數一指數,每聲道高達253尾數。取代將所有這些指數拆包至本地記憶體,許多解碼器實行例保存對指數欄位的指標,並在需要時才拆包它們,一次一個聲道。
一旦拆包固定資料,許多已知的AC-3解碼器開始處理每一已編碼聲道。首先,從輸入訊框拆包給定聲道的指數。接著典型執行位元配置運算,其拿指數及位元配置參數並運算每一包裝的尾數之字大小。接著典型從輸入訊框拆包尾數。調整尾數的大小以提供適當的動態範圍控制,且若需要,以取消耦合操作,並接著由指數加以去歸一化(denormalized)。最後,運算逆變換以判斷預先重疊添加資料,在稱為「窗域」中之資料,並且將結果降混至適當的降混緩衝器以供後續輸出處理。
在一些實行例中,將個別聲道的指數拆包到256取樣長的緩衝器中,稱為「MDCT緩衝器」。為了位元配置,接著群組這些指數成多如50帶。在每一帶中之指數的數量朝更高音訊頻率增加,大致遵守模型化心理聲學臨界帶之對數除法。
針對這些位置配置帶的每一者,結合指數及位元配置參數以針對那個帶中的每一尾數產生一尾數字大小。將這些字大小儲存在24取樣長的帶緩衝器中,其中最寬的位元配置帶由24個頻率直方(bin)。一旦運算出字大小,從輸入訊框拆包相應的尾數並就地儲存回該帶緩衝器中。調整這些尾數的大小並藉由相應的指數加以去歸一化,並寫入,如就地寫回到MDCT緩衝器中。在處理了所有帶並拆包所有尾數之後,典型以零寫入MDCT緩衝器中之任何其餘位置。
執行逆變換,如在MDCT緩衝器中就地執行。可接著根據降混參數(其係根據元資料判斷,如根據元資料從預定資料加以提取)將此處理的輸出,即窗域資料,降混到適當的降混緩衝器中。
一旦輸入處理完成且已經以窗域降混資料完整產生降混緩衝器,解碼器可執行輸出處理。針對每一輸出聲道,窗化並結合降混緩衝器及其相應的128取樣長半區塊延遲緩衝器以產生256 PCM輸出取樣。在包括解碼器及一或更多DAC之硬體聲音系統中,將這些取樣截成DAC字寬並複製到輸出緩衝器。一旦完成了這個,接著將一半的降混緩衝器複製到其相應的延遲緩衝器,提供下一音訊區塊之恰當重建所需的50%重疊資訊。
E-AC-3解碼
本發明之特定實施例包括操作音訊解碼器之方法以解碼包括數個(以N.n標示)聲道之已編碼音訊資料的音訊資料,如解碼E-AC-3已編碼音訊資料之E-AC-3音訊解碼器,以形成包括M.m聲道的已解碼音訊之已解碼音訊資料,n=0或1、m=0或1、且M≧1,n=1指示輸入LFE聲道的數量。M<N指示降混,M>N指示升混。
該方法包括接受包括由編碼方法所編碼的N.n聲道之已編碼音訊資料的音訊資料,例如,藉由包括使用重疊變換N聲道的數位音訊資料來變換、形成且包裝頻率域指數及尾數資料、並形成且包裝與頻率域指數及尾數資料相關的元資料之編碼方法,元資料選擇性包括與如藉由E-AC-3方法之暫態預先雜訊處理相關的元資料。
在此所述之一些實施例設計成接受根據E-AC-3標準或根據與E-AC-3標準反向相容之標準編碼的已標碼音訊資料,並可包括超過5個已編碼主聲道。
如將於下詳述,該方法包括解碼接受的音訊資料,解碼包括:拆包元資料並拆包及解碼該頻率域指數及尾數資料;從該已拆包並已解碼的頻率域指數及尾數資料判斷變換係數;逆變換該頻率域資料;施加窗化及重疊添加以判斷已取樣音訊資料;根據與暫態預先雜訊處理相關之元資料施加任何必要的暫態預先雜訊處理解碼;並且,在M<N的情況,根據降混資料降混。降混包括測試該降混資料是否自先前使用的降混資料改變,並且,若改變,施加交叉衰減以判斷已交叉衰減降混資料並根據該已交叉衰減降混資料降混,且若無改變,根據該降混資料直接降混。
在本發明之一些實施例中,解碼器使用至少一x86處理器,其履行串流單指令多資料(SIMD)據展(SSE)指令,包括向量指令。在這種實施例中,降混包括在一或更多x86處理器的至少一者上運行向量指令。
在本發明之一些實施例中,E-AC-3音訊(其可為AC-3音訊)之解碼方法分成可施加超過一次的操作模組,亦即在不同解碼器實行例中例示化(instantiate)超過一次。在包括解碼之方法的情況中,解碼分成一組前端解碼(FED)操作,以及一組後端解碼(BED)操作。如將於下說明,前端解碼操作包括拆包並解碼AC-3或E-AC-3位元流之一訊框的頻率域指數及尾數資料成該訊框的已拆包及已解碼的頻率域指數及尾數資料,以及該訊框的附隨之元資料。後端解碼操作包括判斷變換係數、逆變換已判斷的變換係數、施加窗化及重疊添加操作、施加任何必要的暫態預先雜訊處理解碼、並在輸出聲道比位元流中之已編碼聲道更少的情況中施加降混。
本發明之一些實施例包括儲存指令之電腦可讀取儲存媒體,當由處理系統的一或更多處理器履行該些指令時,令該處理系統進行包括N.n聲道之已編碼音訊資料之音訊資料的解碼,以形成包括M.m聲道的已解碼音訊之已解碼音訊資料,M≧1。在目前標準中,n=0或1且m=0或1,但本發明不限於此。指令包括當加以履行時致使接受包括由編碼方法(如AC-3或E-AC-3)所編碼的N.n聲道之已編碼音訊資料的音訊資料之指令。指令進一步包括當加以履行時致使解碼該已接受的音訊資料之指令。
在一些這種實施例中,接受的音訊資料具有AC-3或E-AC-3的已編碼資料之訊框的位元流之形式。當加以履行時致使解碼接受的音訊資料之指令分成一組可重複使用的指令模組,包括前端解碼(FED)模組,以及後端解碼(BED)模組。前端解碼(FED)模組包括指令,當加以履行時致使進行拆包並解碼該位元流之一訊框的頻率域指數及尾數資料成該訊框的已拆包及已解碼的頻率域指數及尾數資料,以及該訊框的附隨之元資料。後端解碼(BED)模組包括指令,當加以履行時致使判斷變換係數、逆變換已判斷的變換係數、施加窗化及重疊添加操作、施加任何必要的暫態預先雜訊處理解碼、並在輸出聲道比輸入已編碼聲道更少的情況中施加降混。
第2A至2D圖以簡化區塊圖的形式顯示一些不同的解碼器組態,其可有利地使用一或更多共同的模組。第2A圖顯示針對AC-3或E-AC-3編碼5.1音訊之示範E-AC-3解碼器200的簡化區塊圖。當然當參照區塊圖中之區塊所使用之術語「區塊」與音訊資料的區塊並不相同,後者是指音訊資料的量。解碼器200包括前端解碼(FED)模組201,其接受AC-3或E-AC-3訊框並一訊框一訊框地進行訊框之元資料的拆包及訊框之音訊資料至頻率域指數及尾數資料的解碼。解碼器200亦包括後端解碼(BED)模組203,其從前端解碼模組201接受頻率域指數及尾數資料並將其解碼成PCM音訊資料的高達5.1聲道。
將解碼器分解成前端解碼模組及後端解碼模組為設計選擇,非必要分隔。這種分隔的確在數個替代組態中提供共同模組的好處。FED模組可為這種替代組態所共同的,且許多組態都有如FED模組所進行之訊框之元資料的拆包及訊框之音訊資料至頻率域指數及尾數資料的解碼。
作為一替代組態之一範例,第2B圖顯示針對E-AC-3編碼5.1音訊之E-AC-3解碼器/轉換器210的簡化區塊圖,其解碼AC-3及E-AC-3編碼5.1音訊兩者,且亦將高達5.1音訊聲道之E-AC-3已編碼訊框轉換成高達5.1聲道的AC-3已編碼訊框。解碼器/轉換器210包括前端解碼(FED)模組201,其接受AC-3或E-AC-3訊框,並一訊框一訊框地進行訊框之元資料的拆包及訊框之音訊資料至頻率域指數及尾數資料的解碼。解碼器/轉換器210亦包括後端解碼(BED)模組203,其與解碼器200的BED模組203類似,且從前端解碼模組201接受頻率域指數及尾數資料並將其解碼成PCM音訊資料的高達5.1聲道。解碼器/轉換器210亦包括轉換元資料之元資料轉換器模組205,以及後端編碼模組207,其從前端解碼模組201接受頻率域指數及尾數資料,並以不超過AC-3可能之640 kbps的最大資料率將資料編碼成音訊資料的高達5.1聲道之AC-3訊框。
作為一替代組態之一範例,第2C圖顯示E-AC-3解碼器的簡化區塊圖,其解碼已編碼音訊之高達5.1聲道的AC-3訊框並亦解碼音訊之高達7.1聲道的E-AC-3已編碼訊框。解碼器220包括訊框資訊分析模組221,其拆包BSI資料並識別訊框及訊框類型並提供訊框至適當的前端解碼器元件。在包括一或更多處理器及記憶體(其中儲存指令,當加以履行時致使進行模組的功能)之典型實行例中,前端解碼模組之多個例示及後端解碼模組之多個例示可操作。在E-AC-3解碼器的實施例中,BSI拆包功能從前端解碼模組分離以查看BSI資料。這提供可用於各種替代實行例中之共同模組。第2C圖顯示適合用於音訊資料之高達7.1聲道的具有這種架構之解碼器的簡化區塊圖。第2D圖顯示具有這種架構之5.1解碼器240的簡化區塊圖。解碼器240包括訊框資訊分析模組241、前端解碼模組243、及後端解碼模組245。這些FED及BED模組可與用於第2C圖之架構中的FED及BED模組在結構上類似。
茲參照第2C圖,訊框資訊分析模組221提供高達5.1聲道之獨立AC-3/E-AC-3已編碼訊框的資料至前端解碼模組223,其接受AC-3或E-AC-3訊框,並一訊框一訊框地進行訊框之元資料的拆包及訊框之音訊資料至頻率域指數及尾數資料的解碼。由後端解碼模組225,其與解碼器200的BED模組203相同或類似,接受頻率域指數及尾數資料的解碼,且從前端解碼模組223接受頻率域指數及尾數資料並將其解碼成PCM音訊資料的高達5.1聲道。將額外聲道資料的任何從屬AC-3/E-AC-3已編碼訊框提供至另一前端解碼模組227,其與另一FED模組類似,且因此拆包訊框之元資料及解碼訊框之音訊資料成頻率域指數及尾數資料。後端解碼模組229接受來自FED模組227的資料並解碼該資料成任何額外聲道之PCM音訊資料。PCM聲道映射器模組231用來結合來自個別BED模組的已解碼資料以提供高達7.1聲道之PCM資料。
若有超過5個已編碼主聲道,亦即情況N>5,如有7.1已編碼聲道,則已編碼位元流包括高達5.1已編碼聲道之一獨立訊框及已編碼資料的至少一從屬訊框。在這種情況之軟體實施例中,如包含儲存供履行之指令的電腦可讀取媒體的實施例,指令配置成複數5.1聲道解碼模組,每一5.1聲道解碼模組包括前端解碼模組之個別的例示及後端解碼模組之個別的例示。複數5.1聲道解碼模組包括第一5.1聲道解碼模組,其當加以履行時致使獨立訊框的解碼,以及針對每一個別從屬訊框的一或更多其他聲道解碼模組。在一些這種實施例中,指令包括訊框資訊分析指令模組,當加以履行時致使從每一訊框拆包位元流資訊欄位(BSI),以識別訊框及訊框類型,並提供識別出的訊框至適當的前端解碼器模組例示,以及聲道映射器指令模組,當加以履行且在情況N>5時,致使結合來自個別後端解碼模組的已解碼資料以提供N主聲道之已解碼資料。
操作AC-3/E-AC-3雙解碼器轉換器之方法
本發明之一實施例具有雙解碼器轉換器(DDC)的形式,其解碼兩個AC-3/E-AC-3輸入位元流,指定為「主」及「關聯」,每一位元流具有高達5.1聲道,成為PCM音訊,且在轉換之情況中,將主音訊位元流從E-AC-3轉換成AC-3,並且在解碼的情況中,解碼主位元流,及若有的話,關聯位元流。雙解碼器轉換器使用從關聯的音訊位元流抽取之混合元資料來選擇性混合兩個PCM輸出。
雙解碼器轉換器之一實施例進行操作解碼器的方法,以進行包括解碼及/或轉換高達兩個AC-3/E-AC-3輸入位元流之程序。另一實施例具有含有指令(如軟體)於其上之實體儲存媒體,當由處理系統之一或更多處理器加以履行時,致使處理系統進行包括在解碼及/或轉換高達兩個AC-3/E-AC-3輸入位元流中之程序。
AC-3/E-AC-3雙解碼器轉換器之一實施例具有六個子構件,其之一些包括共同的子構件。這些模組為:
解碼器-轉換器 :解碼器-轉換器組態成,當加以履行時,解碼AC-3/E-AC-3輸入位元流(高達5.1聲道)成PCM音訊,及/或從E-AC-3轉換輸入位元流成AC-3。解碼器-轉換器具有三個主要子構件,且可實行上述第2B圖中所示的實施例210。主要子構件為:
前端解碼器 :FED模組組態成,當加以履行時,解碼AC-3/E-AC-3位元流之一訊框成原始頻率域音訊資料及其附隨的元資料。
後端解碼: BED模組組態成,當加以履行時,完成由FED模組開始的其餘之解碼程序,尤其,BED模組解碼音訊資料(以尾數及指數格式)成PCM音訊資料。
後端編碼:後端編碼 模組組態成,當加以履行時,使用來自FED的六個區塊之音訊資料來編碼AC-3訊框。後端編碼模組亦組態成,當加以履行時,使用所包括的元資料轉換器模組 同步化、解析、及轉換E-AC-3元資料成Dolby Digital元資料。
5.1解碼器: 5.1解碼器組態成,當加以履行時,解碼AC-3/E-AC-3輸入位元流(高達5.1聲道)成PCM音訊。5.1解碼器 亦選擇性輸出混合元資料以供外部應用用來混合兩個AC-3/E-AC-3輸入位元流。解碼器模組包括兩個主要子構件:如在此於上所述之FED模組及如在此於上所述之BED模組。示範5.1解碼器的區塊圖顯示在第2D圖中。
訊框資訊: 訊框資訊模組組態成,當加以履行時,剖析AC-3/E-AC-3訊框並拆包其位元流資訊。在訊框上執行CRC檢查作為拆包程序的一部分。
緩衝器描述符: 緩衝器描述符模組含有AC-3、E-AC-3、及PCM緩衝器描述符並執行緩衝器操作。
取樣率轉換器: 取樣率轉換器模組為選擇性並組態成,當加以履行時,向上取樣PCM音訊兩倍。
外部混合器: 外部混合器模組為選擇性並組態成,當加以履行時,使用在關聯音訊程式中供應的混合元資料來混合主音訊程式及關聯音訊程式成單一輸出音訊程式。
前端解碼模組設計
前端解碼模組根據AC-3的標準,及根據E-AC-3額外解碼態樣(包括解碼靜止信號的AHT資料、E-AC-3的增進聲道耦合、及頻譜擴展)來解碼資料。
在實施例具有實體儲存媒體的情況中,前端解碼模組包含儲存在實體儲存媒體上之軟體指令,當由處理系統之一或更多處理器加以履行時,致使在此提供之細節中所述的針對前端解碼模組之操作的動作。在硬體實行例中,前端解碼模組包括元件,組態成在操作中進行在此提供之細節中所述的針對前端解碼模組之操作的動作。
在AC-3解碼中,一區塊一區塊的解碼為可行。藉由E-AC-3,訊框之第一音訊區塊-音訊區塊0包括所有6個區塊的AHT尾數。因此,典型不使用一區塊一區塊的解碼,而是一次解碼數個區塊。然而,當然在每一區塊上進行實際資料的處理。
在一實施例中,為了使用解碼之一致方法/解碼器之一致架構而不管是否使用AHT,FED模組一聲道一聲道地進行兩階段(pass)。第一階段包括一區塊一區塊地拆包元資料並保存儲存指向已包裝之指數及尾數資料的指標,且第二階段包括使用指向已包裝之指數及尾數資料的已保存的指標,並一聲道一聲道地拆包及解碼指數及尾數資料。
第3圖顯示前端解碼模組之一實施例的簡化區塊圖,如實行成儲存在記憶體中之一組指令,當加以履行時致使進行FED處理。第3圖亦顯示兩遍前端解碼模組300之第一階段的指令之偽碼,還有兩遍前端解碼模組之第二階段的指令之偽碼。FED模組包括下列模組,各包括指令,某些這種指令為界定性,其界定結構及參數:
聲道 :聲道模組界定代表記憶體中之音訊聲道的結構並提供指令,以從AC-3或E-AC-3位元流拆包並解碼音訊聲道。
位元配置 :位元配置模組提供指令以運算遮罩曲線並運算已編碼資料的位元配置。
元流操作 :位元流操作模組提供指令以從AC-3或E-AC-3位元流拆包資料。
:指數模組界定代表記憶體中之指數的結構並提供指令,其組態成當加以履行時,致使從AC-3或E-AC-3位元流拆包並解碼指數。
指數及尾數 :指數及尾數模組界定代表記憶體中之指數及尾數的結構並提供指令,其組態成當加以履行時,致使從AC-3或E-AC-3位元流拆包並解碼指數及尾數。
矩陣 :矩陣模組提供指令,其組態成當加以履行時支援矩陣聲道之去矩陣化(dematrixing)。
輔助資料 :輔助資料模組界定用於FED模組中之輔助資料結構以進行FED處理。
尾數 :尾數模組界定代表記憶體中之尾數的結構並提供指令,其組態成當加以履行時,致使從AC-3或E-AC-3位元流拆包並解碼尾數。
適應混合變換 :AHT模組提供指令,組態成當加以履行時,致使從E-AC-3位元流拆包並解碼適應混合變換資料。
音訊框 :音訊框模組界定代表記憶體中之音訊框的結構並提供指令,其組態成當加以履行時,致使從AC-3或E-AC-3位元流拆包並解碼音訊框。
增進耦合 :增進耦合模組界定代表記憶體中之增進耦合聲道的結構並提供指令,其組態成當加以履行時,致使從AC-3或E-AC-3位元流拆包並解碼增進耦合聲道。增進耦合藉由提供相及混亂資訊延伸E-AC-3位元流中之傳統的耦合。
音訊區塊 :音訊區塊模組界定代表記憶體中之音訊區塊的結構並提供指令,其組態成當加以履行時,致使從AC-3或E-AC-3位元流拆包並解碼音訊區塊。
頻譜擴展 :頻譜擴展模組提供在E-AC-3位元流中之頻譜擴展解碼的支援。
耦合 :耦合模組界定代表記憶體中之耦合聲道的結構並提供指令,其組態成當加以履行時,致使從AC-3或E-AC-3位元流拆包並解碼耦合聲道。
第4圖顯示第3圖之前端解碼模組300的一實施例之操作的簡化資料流程圖,其敘述第3圖中所示之偽碼及子模組如何合作以進行前端解碼模組之功能。功能元件意指進行處理功能的元件。每一這類元件可為硬體元件,或處理系統及儲存媒體,其包括當履行時進行功能之指令。位元流拆包功能元件403接受AC-3/E-AC-3訊框並針對標準及/或AHT位元配置功能元件405產生位元配置參數,該AHT位元配置功能元件針對位元流拆包產生進一步資料以最終針對所包括的標準/增進解耦合功能元件407產生指數及尾數資料。功能元件407針對所包括的重新矩陣化功能元件409產生指數及尾數資料以進行任何必要的重新矩陣化。功能元件409針對所包括的頻譜擴展解碼功能元件411產生指數及尾數資料以進行任何必要的頻譜擴展。功能元件407至411使用由功能元件403之操作所得的資料。前端解碼的結果為指數及尾數資料還有額外的已拆包音訊框參數及音訊區塊參數。
更詳細參照第3圖中所示之第一階段及第二階段偽碼,第一階段指令組態成,當加以履行時從AC-3/E-AC-3訊框拆包元資料。詳言之,第一階段包括拆包BSI資訊,及拆包音訊框資訊。針對每一區塊,從區塊0開始到區塊5(針對每訊框6個區塊),拆包固定資料,且針對每一聲道,保存指向位元流中之已包裝指數的指標、拆包指數、並保存於位元流中已包裝之尾數所在之處。運算位元配置,且依據位元配置,可略過尾數。
第二階段指令組態成,當加以履行時解碼來自訊框之音訊資料以形成指數及尾數。針對從區塊0開始之每一區塊,拆包包括載入指向已包裝指數之保存的指標、拆包所指之指數、運算位元配置、載入指向已包裝尾數之保存的指標、並拆包所指之尾數。解碼包括執行標準及增進解耦合並產生頻譜擴展(諸)帶,且為了自其他模組獨立,轉移所得資料到記憶體中,如在該遍之內部記憶體外的記憶體,以可由其他模組(如BED模組)存取所得資料。為了方便,將此記憶體稱為「外部」記憶體,雖其對熟悉此技藝人士很清楚地可為用於所有模組之單一記憶體結構的一部分。
在一些實施例中,針對指數拆包,並不保存第一階段期間所拆包之指數以最小化記憶體轉移。若針對一聲道正在使用AHT,則從區塊0拆包指數並複製到其他五個區塊,編號1至5。若針對一聲道並未使用AHT,保存指向已包裝指數的指標。若聲道指數策略為重複使用指數,則使用保存的指標再次拆包指數。
在一些實施例中,針對尾數拆包,若針對耦合聲道使用AHT,則在區塊0中拆包AHT耦合聲道尾數之所有六個區塊,並針對為耦合聲道的每一聲道重新產生雜訊添加(dither)以產生不相關的雜訊添加。若針對耦合聲道不使用AHT,保存指向耦合尾數之指標。這些保存的指標用來重新拆包在給定區域中為耦合聲道之每一聲道的耦合尾數。
後端解碼模組設計
後端解碼(BED)模組操作成取得頻率域指數及尾數資料並將其解碼成PCM音訊資料。依據使用者選擇模式、動態範圍壓縮、及降混模式來呈現PCM音訊資料。
在一些實施例中,其中前端解碼模組儲存指數及尾數資料在自前端解碼模組的工作記憶體分離的記憶體(我們稱為外部記憶體)中,BED模組使用一區塊一區塊的訊框處理來最小化降混及延遲緩衝需求,且為了與前端模組之輸出相容,使用從外部記憶體的轉移來存取指數及尾數資料以處理。
在實施例具有實體儲存媒體的情況中,後端解碼模組包含儲存在實體儲存媒體上之軟體指令,當由處理系統之一或更多處理器加以履行時,致使在此提供之細節中所述的針對後端解碼模組之操作的動作。在硬體實行例中,後端解碼模組包括元件,其組態成在操作中進行在此提供之細節中所述的針對後端解碼模組之操作的動作。
第5A圖顯示後端解碼模組500的一實施例之簡化區塊圖,其實行成儲存在記憶體中之一組指令,當加以履行時,致使進行BED處理。第5A圖亦顯示後端解碼模組500的指令之偽碼。BED模組500包括下列模組,各包括指令,某些這種指令為界定性:
動態範圍控制 :動態範圍控制模組提供指令,其當加以履行時,致使進行已解碼信號的動態範圍之控制的功能,包括施加增益範圍調整,並施加動態範圍控制。
變換 :變換模組提供指令,其當加以履行時,致使進行逆修改離散餘弦變換(IMDCT),其包括進行用於運算逆DCT變換之預先旋轉、用於運算逆DCT變換之後旋轉、及判斷逆快速傅立葉變換(IFFT)。
暫態預先雜訊處理: 暫態預先雜訊處理模組提供指令,其當加以履行時,致使進行暫態預先雜訊處理。
窗化及重疊添加: 具有延遲緩衝器之窗化及重疊添加模組提供指令,其當加以履行時,致使進行窗化及重疊添加操作以從已逆變換的取樣重建輸出取樣。
時域(TD)降混: TD降混模組提供指令,其當加以履行時,致使需要時進行時域中之降混成較少數量的聲道。
第6圖顯示第5A圖之後端解碼模組500的一實施例之操作的簡化資料流程圖,其敘述第5A圖中所示之碼及子模組如何合作以進行後端解碼模組之功能。增益控制功能元件603從前端解碼模組300接受指數及尾數資料並施加任何必要的動態範圍控制、對話歸一化、及根據元資料之增益範圍調整。所得的指數及尾數資料由指數功能元件605的去歸一化尾數接受,該指數功能元件產生逆變換的變換係數。逆變換功能元件607施加IMDCT至變換係數以產生為預先窗化及重疊添加的時間取樣。這種預先重疊添加時域取樣在此稱為「偽時域」取樣,且這些取樣係在於此中所稱之偽時域中。由窗化及重疊添加功能元件609接受這些取樣,該窗化及重疊添加功能元件藉由施加窗化及重疊添加操作至偽時域取樣來產生PCM取樣。藉由暫態預先雜訊處理功能元件611施加任何暫態預先雜訊處理。若在例如元資料或否則中指明,藉由降混功能元件613將所得之後暫態預先雜訊處理的PCM取樣降混至PCM取樣的數量M.m之輸出聲道。
再次參照第5A圖,BED模組處理之偽碼包括,針對每一資料區塊,從外部記憶體轉移一聲道之區塊的尾數及指數資料,並且,針對每一聲道:施加任何必要的動態範圍控制、對話歸一化、及根據元資料之增益範圍調整;藉由指數去歸一化尾數以產生逆變換的變換係數;運算至變換係數的IMDCT以產生偽時域取樣;施加窗化及重疊添加操作至偽時域取樣;根據元資料施加任何暫態預先雜訊處理;以及,若有需要,時域降混至PCM取樣的數量M.m之輸出聲道。
第5A圖中所示之解碼的實施例包括進行這種增益調整作為根據元資料施加對話歸一化偏置,及根據元資料施加動態範圍控制增益因子。在以頻率域中之尾數及指數形成提供資料的階段執行這種增益為有利的。增益改變可隨時間而變,且在頻率域做出的這種增益改變在一旦發生了逆變化及窗化/重疊添加操作時會導致平順的交叉衰減。
暫態預先雜訊處理
E-AC-3編碼及解碼設計成相較於AC-3操作並提供在較低資料率之較佳的音訊品質。在較低資料率,編碼音訊的音訊品質可能會受到負面影響,尤其對於難以編碼的暫態素材。此對於音訊品質之影響主要導因於僅有有限數量的資料位元來準確地編碼這些類型的信號。暫態之編碼假影呈現為暫態信號之清晰度的減少,還有「暫態預先雜訊」假影,其會因為編碼量化誤差的緣故而在整個編碼窗中增添聽得到的噪音。
如上述及在第5及6圖中,BED提供暫態預先雜訊處理。E-AC-3編碼包括暫態預先雜訊處理編碼,以藉由以使用位在暫態預先雜訊之前的音訊合成之音訊取代適當的音訊段,來減少當編碼含有暫態之音訊時可能引進的暫態預先雜訊假影。使用時間定標合成來處理該音訊,使其持續時間增加,所以其為取代之含有暫態預先雜訊之音訊的適當長度。使用音訊場景分析及最大相似度處理來分析音訊合成緩衝器並接著加以時間定標,使其之持續時間增加夠多以取代含有暫態預先雜訊之音訊。使用具有增長之合成音訊來取代暫態預先雜訊並且交叉衰減到剛好在暫態位置前的現有暫態預先雜訊中,以確保從合成的音訊平順過渡到原始編碼的音訊資料。藉由使用暫態預先雜訊處理,可大幅減少或移除暫態預先雜訊的長度,即使是針對去能區塊切換的情況。
在一E-AC-3編碼器實施例中,暫態預先雜訊處理工具的時間定標合成分析及處理係在時域資料上執行以判斷元資料資訊,如包括時間定標參數。由解碼器連同已編碼位元流一起接受該元資料資訊。經傳送的暫態預先雜訊元資料用來在已解碼音訊上執行時域處理,以減少或移除由在低資料率之低位元音訊編碼所引進的暫態預先雜訊。
E-AC-3編碼器執行時間定標合成分析,並依據音訊內容針對每一檢測到的暫態判斷時間定標參數。傳送時間定標參數作為額外的元資料,連同已解碼音訊資料。
在E-AC-3編碼器,將在E-AC-3元資料中所提供之最佳時間定標參數接受為已接受的E-AC-3元資料之一部分以用於暫態預先雜訊處理。解碼器使用從E-AC-3元資料所得之經傳送的時間定標參數來執行音訊緩衝器編接及交叉衰減。
藉由使用最佳時間定標參數並以適當交叉衰減處理來施加其,可在解碼中大幅減少或移除由低位元率音訊編碼所引進之暫態預先雜訊。
因此,暫態預先雜訊處理以最近似原始內容之音訊段覆寫預先雜訊。暫態預先雜訊處理指令,當加以履行時,維持用於複製的四區塊延遲緩衝器。暫態預先雜訊處理指令,當加以履行時,在發生覆寫的情況中,致使在被覆寫的預先雜訊上執行交叉淡入(cross fade in)及淡出(cross fade out)。
降混
N.n標示E-AC-3位元流中編碼的聲道數量,其中N為主聲道的數量,且n=0或1為LFE聲道的數量。經常,希望降混N主聲道成較小數量(以N標示)的輸出主聲道。從N降混至M聲道,由本發明之實施例支援M<N。升混亦可行,在該情況中,M>N。
因此,在大部分的一般實行例中,音訊解碼器實施例操作成解碼包括N.n聲道之已編碼音訊資料的音訊資料以解碼包括M.m聲道之已解碼音訊資料的音訊資料,且M≧1,其中n及m分別指示輸入及輸出中之LFE聲道的數量。降混為M<N的情況並且根據包括在情況M<N中之一組降混係數。
頻率域對時域降混
可完成在頻率域中、在逆變換之前、在逆變換之後的時域中但在重疊添加區塊處理情況中在窗化及重疊添加操作之前、或在窗化及重疊添加操作之後在時域中進行降混。
頻率域(FD)降混比時域降混來的有效率多。其之效率源自於例如在降混之後的任何處理步驟僅在其餘數量(其一般在降混後較低)的聲道上進行之事實。因此,在降混步驟之後的所有處理步驟的運算複雜度減少了至少輸入聲道對輸出聲道的比例。
舉例而言,考量5.0聲道至立體聲降混。在此情況中,任何處理步驟的運算複雜度將減少近乎5/2=2.5倍。
時域(TD)降混典型用在E-AC-3解碼器中且在上述實施例中並以第5A及6圖繪示。典型E-AC-3解碼器使用時域降混有三個主要的原因:
通道具有不同區塊類型
取決於待編碼之音訊內容,E-AC-3編碼器可在兩種不同區塊類型之中做選擇-短區塊及長區塊-來分段音訊資料。典型使用長區塊來分段並編碼諧波緩慢改變音訊資料,而在短區塊中分段並編碼暫態信號。結果為短區塊及長區塊的頻率域表示本質不同,且無法在頻率域降混操作中結合。
僅在解碼器中取消區塊類型特定編碼步驟之後,可將聲道混合在一起。因此,在區塊切換變換的情況中,使用不同的部份逆變換程序,且兩個不同變換的結果無法直接結合直到剛好在窗化階段前。
然而,已知有首先轉換短長度變換資料成較長頻率域資料的方法,在那個情況中,可在頻率域中進行降混。不過,在大部分已知的解碼器實行例中,在逆變換之後根據降混係數進行降混。
升混
若輸出主聲道的數量高於輸入主聲道的數量,M>N,時域混合方式有利,因為這樣會朝處理尾端移動升混步驟,減少處理中之聲道數量。
TPNP
受到暫態預先雜訊處理(TPNP)的區塊不能在頻率域中降混,因為TPNP在時域中操作。TPNP要求高達4個區塊的PCM資料的歷史(1024取樣),其必須存在於施加TPNP的聲道中。因此必須切換至時域降混以填補PCM資料歷史來執行預先雜訊替換。
使用頻率域及時域降混兩者之混合降混
本發明認知到在大部分已編碼音訊信號中之聲道超過90%的時間使用相同的區塊類型。這意指針對在典型已編碼音訊中之超過90%的資料,可用效率較高的頻率域降混,假設無TPNP。在典型先前技術中之E-AC-3解碼器中,剩餘的10%或更少會需要時域降混。
本發明之實施例包括降混方法選擇邏輯以一區塊一區塊地判斷該施加哪個降混方法,時域降混邏輯及頻率域降混邏輯兩者,以適當施加特定降混方法。因此,一方法實施例包括一區塊一區塊地判斷是否施加頻率域降混或時域降混。降混方法選擇邏輯操作成判斷是否施加頻率域降混或時域降混,並包括判斷是否有任何暫態預先雜訊處理,且判斷若N聲道的任何者有不同區塊類型。選擇邏輯判斷將僅針對在N聲道中具有相同區塊類型的區塊、無暫態預先雜訊處理、且M<N施加頻率域降混。
第5B圖顯示後端解碼模組520的一實施例之簡化區塊圖,其實行成儲存在記憶體中之一組指令,當加以履行時,致使進行BED處理。第5B圖亦顯示後端解碼模組520的指令之偽碼。BED模組520包括第5A圖中所示的僅使用時域降混之模組,以及下列額外的模組,各包括指令,某些這種指令為界定性:
降混方法選擇模組 檢查(i)區塊類型的改變;(ii)是否沒有真實降混(M<N),而是升混,以及(iii)是否區塊受到TPNP,且若這些沒有一個是真的,選擇頻率域降混。此模組一區塊一區塊地判斷是否施加頻率域降混或時域降混。
頻率域降混模組 在藉由指數使尾數歸一化之後進行頻率域降混。注意到頻率域降混模組亦包括時域至頻率域轉變邏輯模組,其檢查先前的區塊是否使用時域降混,在該情況中,將不同地處理區塊,容後詳述。另外,轉變邏輯模組亦支應與某些非規律重複發生事件(如程式改變,諸如淡出聲道)關聯的處理步驟。
FD至TD降混轉變邏輯模組 檢查先前的區塊是否使用時域降混,在該情況中,將不同地處理區塊,容後詳述。另外,轉變邏輯模組亦支應與某些非規律重複發生事件(如程式改變,諸如淡出聲道)關聯的處理步驟。
此外,第5A圖中之模組可在包括混合降混,亦即,FD及TD降混兩者的實施例中不同地表現,取決於目前區塊之一或更多條件。
參照第5B圖之偽碼,後端解碼方法之一些實施例包括,在從外部記憶體轉移一訊框之區塊的資料之後,查明是否為FD降混或TD降混。針對FD降混,針對每一聲道,該方法包括(i)施加動態範圍控制及對話歸一化,但如下所述,去能增益範圍調整;(ii)藉由指數使尾數歸一化;(iii)進行FD降混;(iv)查明是否有淡出聲道或是否藉由時域降混降混前一區塊,在那個情況中,如下詳述般不同地進行處理。針對TD降混的情況,且亦針對已FD降混的資料,程序包括,針對每一聲道:(i)在FD降混前一區塊的情況中不同地處理將被TD降混的區塊並處置任何程式改變;(ii)判斷逆變換;(iii)進行窗化重疊添加;以及,在TD降混的情況中,(iv)執行任何TPNP並降混至適當的輸出聲道。
第7圖顯示簡單資料流程圖。區塊701對應至降混方法選擇邏輯,其測試三個條件:區塊類型改變、TPNP、或升混,且任何條件為真,則將資料流引導至TD降混分支721,其包括在723中FD降混轉變邏輯不同地處理在由FD降混處理的區塊之後所立刻發生的區塊、程式改變處理、以及在725中由指數將尾數歸一化。由共同處理區塊731處理在區塊721之後的資料流。若降混方法選擇邏輯區塊701測試判斷區塊將受到FD降混,則資料流分支到FD降混處理711,其包括頻率域降混程序713,其去能增益範圍調整,並針對每一聲道,藉由指數將尾數歸一化並進行FD降混,且TD降混轉變邏輯區塊715判斷是否藉由TD降混處理前一區塊,且不同地處理這種區塊,並亦檢測及處置任何程式改變,諸如淡出聲道。在TD降混轉變邏輯區塊715之後的資料流係至相同的共同處理區塊731。
共同處理區塊731包括逆變換及任何進一步的時域處理。進一步的時域處理包括取消增益範圍調整,及窗化及重疊添加處理。若區塊係來自TD降混區塊721,進一步的時域處理進一步包括任何TPNP處理及時域降混。
第8圖顯示諸如第7圖中所示的後端解碼模組之處理的一實施例之流程圖。流程圖如下般區隔,其中類似的個別功能資料流區塊使用與第7圖中相同之參考符號:降混方法選擇邏輯區段701,其中當邏輯旗標FD_dmx為1時指示針對區塊使用頻率域降混;TD降混邏輯區段721,其包括不同地處理在由FD降混處理的區塊之後所立刻發生的區塊並進行程式改變處理之FD降混轉變邏輯及程式改變邏輯區段723,以及針對每一輸入聲道由指數將尾數歸一化的區段。由共同處理區塊731處理在區塊721之後的資料流。若降混方法選擇邏輯區段701判斷區塊將受到FD降混,則資料流分支到FD降混處理區段711,其包括頻率域降混程序,其去能增益範圍調整,並針對每一聲道,藉由指數將尾數歸一化並進行FD降混,且TD降混轉變邏輯區段715判斷針對前一區塊的每一聲道是否有聲道淡出或是否藉由TD降混處理前一區塊,且不同地處理這種區塊。在TD降混轉變區段715之後的資料流係至相同的共同處理區段731。共同處理區段731包括針對每一聲道之逆變換及任何進一步的時域處理。進一步的時域處理包括取消增益範圍調整,及窗化及重疊添加處理。若FD_dmx為0,指示TD降混,則731中之進一步的時域處理亦包括任何TPNP處理及時域降混。
注意到在FD降混之後,在TD降混轉變邏輯區段715中,在817中,輸入聲道的數量N設定成與輸出聲道的數量M相同,使得其餘的處理,如共同處理區段731中之處理,僅在已降混資料上進行。這減少運算量。當然當從先前被TD降混(如區段715中顯示成819的TD降混)的區塊轉變時來自前一區塊之資料的時域降混係在參與降混之N輸入聲道的全部上進行。
轉變處置
在解碼中,在音訊區塊之間必須有平順的轉變。E-AC-3及許多其他編碼方法使用重疊變換,如50%重疊MDCT。因此,當處理一目前區塊時,會與前一區塊有50%的重疊,且此外,將會與時域中的後一區塊有50%的重疊。本發明之一些實施例使用包括重疊添加緩衝器之重疊添加邏輯。當處理一現有區塊時,重疊添加緩衝器含有來自前一音訊區塊的資料。因為在音訊區塊之間必須有平順的轉變,包括邏輯以不同地處置從TD降混至FD降混的轉變,和從TD降混至FD降混的轉變。
第9圖顯示處理五個區塊(標示為區塊k、k+1、…、k+4)的範例,其為五個聲道音訊(一般包括:左、中央、右、左環繞、及右環繞聲道,分別標示為L、C、R、LS、及RS)之區塊,且使用公式降混至立體聲混合:
左輸出標示為L’=aC+bL+cLS,以及
右輸出標示為R’=aC+bR+cLR。
第9圖假設使用非重疊變換。每一矩形代表一區塊的音訊內容。從左至右的水平軸代表區塊k、…、k+4且從上至下的垂直軸代表資料之解碼進程。假設藉由TD降混處理區塊k,由FD降混處理區塊k+1及k+2,並藉由TD降混處理區塊k+3及k+4。可見到,針對每一TD降混區塊,不會發生降混直到接近底部的時域降混之後,在那之後內容為已降混的L’及R’聲道,而針對經FD降混區塊,在頻率域降混之後已經在頻率域中降混左及右聲道,且忽略C、LS、及RS聲道資料。由於區塊之間無重疊,當從從TD降混至FD降混或從TD降混至FD降混切換時無需特別的處置。
第10圖描述50%重疊變換之情況。假設由使用重疊添加緩衝器的重疊添加解碼來進行重疊添加。在此圖中,當資料區塊顯示成兩個三角形時,左下角的三角形為重疊添加緩衝器中的來自前一區塊之資料,而右上角的三角形顯示來自目前區塊的資料。
TD降混至FD降混轉變之轉變處置
考量區塊k+1,其為在TD降混區塊後緊接著的FD降混區塊。在TD降混之後,重疊添加緩衝器含有來自上一區塊的L、CR、LS、及RS資料,其必須包括於目前區塊。並且包括有目前區塊k+1的貢獻,已FD降混過。為了恰當判斷輸出用之降混PCM資料,需包括目前區塊的資料及前一區塊的資料。為此,需清出前一區塊的資料並且,由於其尚未被降混,在時域中降混。必須添加兩個貢獻已判斷輸出用的降混PCM資料。在第7及8圖之TD降混轉變邏輯715中並藉由第5B圖中所示之FD降混模組中所包括的TD降混轉變邏輯中的碼來包括此處理。在此進行之處理總結於第8圖之TD降混轉變邏輯區段715中。詳言之,TD降混至FD降混轉變之轉變處置包括:
‧藉由饋送零至重疊添加邏輯中來清出重疊緩衝器並進行窗化及重疊添加。複製從重疊添加邏輯被清出之輸出。這是降混前特定聲道之前一區塊的PCM資料。重疊緩衝器茲含有零。
‧從重疊緩衝器時域降混PCM資料以產生前一區塊之TD降混的PCM資料。
‧頻率域降混來自目前區塊之新資料。進行逆變換並饋送在FD降混之後的新資料並逆變換到重疊添加邏輯中。對新資料進行窗化及重疊添加等等以產生目前區塊的FD降混之PCM資料。
‧將TD降混之PCM資料及FD降混之PCM資料加在一起以產生PCM輸出。
注意到在一替代實施例中,假設在前一區塊中無TPNP,降混在重疊添加緩衝器中之資料,接著對已降混輸出聲道執行重疊添加操作。這避免需要進行每一個前一區塊聲道之重疊添加操作。此外,如上針對AC-3解碼所述,當使用降混緩衝器及其相應的128取樣長的半區塊延遲緩衝器並予以窗化及結合以產生256 PCM輸出取樣時,降混操作較簡單,因為延遲緩衝器僅為128取樣而非256。此態樣減少轉變處理中固有的尖峰運算複雜度。因此,在一些實施例中,針對跟隨在其之資料已被TD降混的區塊之後的被FD降混之特定區塊,轉變處理包括施加在偽時域中之降混至與該特定區塊的已解碼資料重疊之前一區塊的資料。
FD降混至TD降混轉變之轉變處置
考量區塊k+3,其為緊接在FD降混區塊k+2之後的TD降混區塊。由於前一區塊為FD降混區塊,在較早階段(如在TD降混之前)的重疊添加緩衝器含有在左及右聲道中的已降混的資料,且無其他聲道中之資料。並未降混目前區塊的貢獻直到TD降混之後。為了恰當判斷供輸出之降混的PCM資料,必須包括目前區塊及前一區塊的資料兩者。為此,必須清出前一區塊的資料。目前區塊的資料必須在時域中降混並加至清出的已逆變換資料,以判斷供輸出之降混的PCM資料。在第7及8圖之FD降混轉變邏輯723中並藉由第5B圖中所示的FD降混轉變邏輯模組中的碼包括此處理。在此所進行的處理總結於第圖之FD降混轉變邏輯723中。詳言之,假設針對每一輸出聲道有輸出PCM緩衝器,則FD降混至TD降混之轉變得轉變處置包括:
‧藉由饋送零到重疊添加邏輯中並進行窗化及重疊添加來清空重疊緩衝器。將輸出複製到輸出PCM緩衝器中。所清出的資料為前一區塊之FD降混的PCM資料。重疊緩衝器茲含有零。
‧進行目前區塊之新資料的逆變換以產生目前區塊之預先降混資料。饋送此新時域資料(變換後)到重疊添加邏輯中。
‧對來自目前區塊之新資料進行窗化及重疊添加、TPNP(若有任何的話)、及TD降混以產生目前區塊之TD降混的PCM資料。
‧將TD降混的及FD降混的PCM資料加起來產生PCM輸出。
除了從時域降混至頻率域降混的轉變外,在時域降混轉變邏輯及程式改變處置器中處置程式改變。新出現的聲道會自動包括在降混中且因此無需任何特別的處理。需淡出不再存在於新程式中的聲道。這是藉由,如針對FD降混情況的第8圖中之區段715中所示,清出淡化的聲道之重疊緩衝器來進行。藉由饋送零到重疊添加邏輯並進行窗化及重疊添加來進行清出。
注意到在所示的流程圖及一些實施例中,FD降混處理區段711包括去能為頻率域降混的一部分之所有聲道的選擇性增益範圍調整特徵。聲道可能會有不同的增益範圍調整參數,這可能引發聲道之頻譜係數的不同定標,因而妨礙降混。
在一替代實行例中,修改FD降混處理區段711,使得使用所有增益的最小者來執行(頻率域)降混聲道之增益範圍調整。
具有改變的降混係數之時域降混及明確交互淡化的需要
降混可能產生數個問題。在不同情況中需要不同的降混等式,因此降混係數可能需要依據信號情況動態改變。可得到元資料參數,允許針對最佳結果調整降混係數。
因此,降混係數可隨時間而變。當有從第一組降混係數到第二組降混係數的改變時,應從第一組交叉衰減資料至第二組。
當在頻率域中進行降混時,且還有在許多解碼器實行例中,如先前技術AC-3解碼器中,如第1圖中所示,在窗化及重疊添加操作之前進行降混。在頻率域中或在窗化及重疊添加操作之前在時域中進行降混的優點為重疊添加操作所導致之固有的交叉衰減。因此,在許多已知的AC-3解碼器及解碼方法中,其中在逆變換後的窗域中或在混合降混實行例中之頻率域中進行降混,不會有明確的交叉衰減操作。
在時域降混及暫態預先雜訊處理(TPNP)的情況中,會有因程式改變問題(如在7.1解碼器中)所造成之暫態預先雜訊處理中的一區塊延遲。因此,在本發明之實施例中,當在時域中進行降混並使用TPNP時,在窗化及重疊添加之後進行時域降混。在使用時域降混的情況中之處理順序為:進行如MDCT之逆變換,進行窗化及重疊添加,進行任何暫態預先雜訊處理解碼(無延遲),並接著時域降混。
在這種情況中,時域降混需要前一個及目前降混資料(如降混係數或降混表)之交互混合來確保將降混係數中之任何改變平順化。
一種選擇為進行交叉衰減操作以運算所得的係數。由c [i ]標示將使用的混合係數,其中i 標示256個時域取樣的時間索引,所以範圍為i =0、…、255。由w 2 [i ]標示正窗函數,使得針對i =0、…、255,w 2 [i ]+w 2 [255-i ]=1。由c old 標示預先更新的混合係數,並由c new 標示已更新的混合係數。所施加的交叉衰減操作為:
c [i ]=w 2 [i ]‧c new +w 2 [255-i ]‧c old 針對i =0、…、255。
在通過係數交叉衰減操作之每一階段後,以新係數更新舊係數,即c old c new
在下一階段中,若未更新係數,
c [i ]=w 2 [i ]‧c new +w 2 [255-i ]‧c new =c new
換言之,舊係數組的影響完全不見了!
本發明人觀察到在許多音訊串流即降混情況中,混合係數不會經常改變。為了改善時域降混程序的性能,時域降混模組的實施例包括測試以查明降混係數是否從其前一值改變,且若否,則進行降混,否則,若它們有改變,根據預先選擇的正窗函數來進行降混係數的交叉衰減。在一實施例中,窗函數為用於窗化及重疊添加操作中之相同的窗函數。在另一實施例中,使用不同的窗函數。
第11圖顯示降混之一實施例的簡化偽碼。針對這類實施例的解碼器使用履行SSE向量指令的至少一x86處理器。降混包括查明新降混資料是否未從舊降混資料改變。若是,則降混包括設立在一或更多x86處理器的至少一者上運行SSE向量指令,並使用未改變的降混資料之降混包括履行至少一運行的SSE向量指令。否則,若新降混資料從舊降混資料改變,方法包括藉由交叉衰減操作判斷交叉衰減的降混資料。
排除處理不需要的資料
在一些降混情況中,有不貢獻至降混輸出的至少一聲道。例如,在從5.1音訊降混至立體聲的許多情況中,不包括LFE聲道,所以降混為5.1至2.0。從降混排除LFE聲道可為編碼格式所固有的,如在AC-3的情況中,或由元資料控制,如在E-AC-3的情況中。在E-AC-3中,lfemixlevcode參數判斷LFE聲道是否包括在降混中。當lfemixlevcode參數為0時,LFE聲道不包括在降混中。
記得可在頻率域中、在逆變換之後但在窗化及重疊添加操作之前的偽時域中、或在逆變換之後且在窗化及重疊添加操作之後的時域中進行降混。在許多已知E-AC-3解碼器中且在本發明之一些實施例中進行純時域降混,且例如因為TPNP的存在而為有利的,在許多已知E-AC-3解碼器中且在本發明之一些實施例中進行偽時域降混,且因為重疊添加操作提供固有交叉衰減(此在降混係數改變時為有利)而為有利的,以及當情況允許時在本發明之一些實施例中進行頻率域降混。
如在此所述,頻率域降混為最有效率的降混方法,因其最小化從5.1聲道輸入產生2聲道輸出所需之逆變換即窗化及重疊添加操作的數量。在本發明之一些實施例中,當進行FD降混時,如在第8圖中,在FD降混迴路區段711中在從元件813開始止於814並在815中增額至下一聲道的迴路中,不包括在降混中的那些聲道被排除在處理外。
在逆變換之後但在窗化及重疊添加之前的偽時域中,或在逆變換即窗化及重疊添加之後的時域中之降混比頻率域中的較無運算效率。在許多目前的解碼器中,如目前的AC-3解碼器,在偽時域中進行降混。與降混操作無關地(例如在分別模組中)進行逆變換操作。在這種解碼器中之逆變換係在所有輸入聲道上進行。這相對無運算效率,因為,在不包括LFE聲道的情況中,仍針對此聲道進行逆變換。此不必要的操作很顯著,因為雖然LFE聲道為有限頻寬,施加逆變換至LFE聲道需要和施加逆變換至任何全頻寬聲道一般多的運算。本發明人認知到此無效率。本發明之一些實施例包括識別N.n輸入聲道之一或更多非貢獻聲道,非貢獻聲道為不貢獻於已解碼音訊之M.m輸出聲道的聲道。在一些實施例中,該識別使用如界定降混之元資料的資訊。在5.1至2.0降混範例中,如此識別出LFE聲道為非貢獻聲道。本發明之一些實施例包括對貢獻M.m輸出聲道之每一聲道執行頻率至時間變換,且對不貢獻M.m輸出聲道之每一識別出的聲道不執行任何頻率至時間變換。在5.1至2.0降混範例中,其中LFE聲道不貢獻M.m聲道信號,僅在五個全頻寬聲道上進行逆變換(如IMDCT),所以以所有5.1聲道所需之運算資源的大約16%的減少進行逆變換部分。由於IMDCT為解碼方法中之運算複雜度的顯著來源,此減少很顯著。
在許多目前的解碼器中,如目前的E-AC-3解碼器中,在時域中進行降混。逆變換操作及重疊添加操作係在任何TPNP之前及降混之前進行,與降混操作無關,如在分別模組中。在這種解碼器中之逆變換及窗化及重疊添加操作係在所有輸入聲道上進行。這相對無運算效率,因為,在不包括LFE聲道的情況中,仍針對此聲道進行逆變換及窗化/重疊添加。此不必要的操作很顯著,因為雖然LFE聲道為有限頻寬,施加逆變換及重疊添加至LFE聲道需要和施加逆變換及窗化/重疊添加至任何全頻寬聲道一般多的運算。在本發明之一些實施例中,在時域中進行降混,且在其他實施例中,根據施加降混方法選擇邏輯的結果在時域中進行降混。在其中使用TD降混之本發明之一些實施例包括識別N.n輸入聲道之一或更多非貢獻聲道,非貢獻聲道為不貢獻於已解碼音訊之M.m輸出聲道的聲道。在一些實施例中,該識別使用如界定降混之元資料的資訊。在5.1至2.0降混範例中,如此識別出LFE聲道為非貢獻聲道。本發明之一些實施例包括對貢獻M.m輸出聲道之每一聲道執行逆變換,亦即,頻率至時間變換,且對不貢獻M.m輸出聲道之每一識別出的聲道不執行任何頻率至時間變換及其他時域處理。在5.1至2.0降混範例中,其中LFE聲道不貢獻M.m聲道信號,僅在五個全頻寬聲道上進行逆變換(如IMDCT)、重疊添加、及TPNP,所以以所有5.1聲道所需之運算資源的大約16%的減少進行逆變換及窗化/重疊添加部分。在第8圖之流程圖中,在共同處理邏輯區段731中,一些實施例的一特徵包括針對除了非貢獻聲道外之所有聲道進行從元件833開始,延續至834,並包括增額至下一聲道元件835的迴路中之處理。針對經FD降混之區塊這固有地發生。
雖在一些實施例中,LFE為非貢獻聲道,亦即,不包括在降混輸出聲道中,如AC-3及E-AC-3中所共同的,在其他實施例中,非LFE之一聲道或取而代之地一非貢獻聲道亦不包括在降混輸出中。本發明之一些實施例包括檢查這類情況以識別哪一或更多聲道(若有的話)為非貢獻,使得這一聲道不包括在降混中,且在時域降混的情況中,針對任何識別出的非貢獻聲道不執行經逆變換及窗化重疊添加操作的處理。
例如,在AC-3及E-AC-3中,會有環繞聲道及/或中央聲道不包括在降混輸出聲道中之特定情況。這些情況由已編碼位元流中所包括的具有預定值之元資料加以界定。元資料例如可包括界定包括混合位準參數之降混的資訊。
茲針對E-AC-3的情況例示性說明這種混合位準參數的一些這類範例。在E-AC-3中降混至立體聲中,提供兩種降混:降混至LtRt矩陣環繞已編碼立體聲對及降混至傳統立體聲信號,LoRo。已降混立體聲信號(LoRo或LtRt)可進一步混合成單聲道。標示成ltrtsurmixlev的3位元LtRt環繞混合位準碼及標示成lorosurmixlev的3位元LoRo環繞混合位準碼分別指示相關於LtRt或LoRo降混中之左及右聲道之環繞聲道的標稱降混位準。二元「111」的值指示0之降混位準,亦即,-∞ dB。標示成ltrtcmixlev及lorocmixlev的3位元LtRt及LoRo中央混合位準碼分別指示相關於LtRt或LoRo降混中之左及右聲道之中央聲道的標稱降混位準。二元「111」的值指示0之降混位準,亦即,-∞ dB。
有其中環繞聲道不包括在降混輸出聲道中的情況。在E-AC-3中,這些情況由元資料加以識別。這些情況包括surmixlev=「10」(唯獨AC-3)、ltrtsurmixlev=「111」、lorosurmixlev=「111」及的情況。針對這些情況,在一些實施例中,解碼器包括使用混合位準元資料來識別出這種元資料指示環繞聲道不包括在降混中,且不使環繞聲道處理通過逆變換及窗化/重疊添加階段。另外,有其中中央聲道不包括在降混輸出聲道中的情況,由ltrtcmixlev==「111」及lorocmixlev==「111」來加以識別。針對這些情況,在一些實施例中,解碼器包括使用混合位準元資料來識別出這種元資料指示中央聲道不包括在降混中,且不使中央聲道處理通過逆變換及窗化/重疊添加階段。
在一些實施例中,一或更多非貢獻聲道的識別為內容相依。舉例而言,識別包括識別一或更多聲道相較於一或更多其他聲道是否具有不顯著的內容量。使用內容量測量。在一實施例中,內容量的測量為能量,而在另一實施例中,內容量的測量為絕對位準。識別包括比較聲道對之間的內容量之測量差與可設定之臨限值。舉例而言,在一實施例中,識別一或更多非貢獻聲道包括查明區塊之環繞聲道內容量是否比每一前聲道內容量少至少一可設定的臨限值,以查明環繞聲道是否為非貢獻聲道。
理想上,盡可能低地選擇臨限值而不引進察覺到的假影至信號的降混版本中以最大化識別聲道為非貢獻以減少所需的運算量,同時最小化品質損失。在一些實施例中,針對不同的解碼應用提供不同的臨限值,其中特定解碼應用之臨限值選擇代表該特定應用之降混品質(較高臨限值)及運算複雜度減少(較低臨限值)的可接受的平衡。
在本發明之一些實施例中,若聲道的能量或絕對位準比另一聲道低至少15 dB,則該聲道相關於另一聲道被視為不顯著。理想上,若聲道的能量或絕對位準比另一聲道低至少25 dB,則該聲道相關於另一聲道被視為不顯著。
使用等效於25 dB的標示成A及B之兩聲道之間的差之臨限值大約等於是說這兩聲道之絕對值的總和位準是在主導聲道之位準的0.5 dB內。亦即,若聲道A在-6 dBFS(相較於全標度之dB)且聲道B在-31 dBFS,則聲道A及B之絕對值的總和大約為-5.5 dBFS,或比聲道A之位準大約0.5 dB。
若音訊為相對低品質,且針對低成本應用,可犧牲品質來減少複雜度,臨限值可低於25 dB。在一範例中,使用18 dB的臨限值。在這種情況中,兩聲道的總和可在具有較高位準之聲道位準的約1 dB內。在某些情況中這會聽得到,但應不太會引起反感。在另一實施例中,使用15 dB的臨限值,在這情況中,兩聲道的總和在主導聲道之位準的1.5 dB內。
在本發明之一些實施例中,使用數個臨限值,如15 dB、18 dB、及25 dB。
注意到雖於上在此針對AC-3及E-AC-3說明識別非貢獻聲道,本發明之識別非貢獻聲道特徵不限於這種格式。其他格式例如亦提供如關於可用於識別一或更多非貢獻聲道的元資料之資訊。MPEG-2 AAC(ISO/IEC 13818-7)及MPEG-4音訊(ISO/IEC 14496-3)兩者皆能傳送標準所稱之「矩陣混降係數」。解碼這種格式之本發明之一些實施例使用此係數來從3/2,亦即,左、中央、右、左環繞、右環繞信號建構立體聲或單聲道信號。矩陣混降係數判斷環繞聲道如何與前聲道混合以建構立體聲或單聲道信號。根據這些標準的各者可有四種可能的矩陣混降係數值。0值導致環繞聲道不包括在降混中。本發明之一些MPEG-2 AAC解碼器及MPEG-4音訊解碼器實施例包括使用在位元流中發信之混降係數從3/2信號產生立體聲或單聲道降混,並進一步包括藉由0的矩陣混降係數來識別非貢獻聲道,在那情況中,不進行逆變換及窗化/重疊添加處理。
第12圖顯示包括至少一處理器1203的處理系統1200之一實施例的簡化區塊圖。在此範例中,顯示一x86處理器(其之指令集包括SSE向量指令)。亦以簡化區塊形式顯示匯流排子系統1205,藉此耦合處理器的各種構件。處理系統包括例如透過匯流排子系統1205耦合至(諸)處理器之儲存子系統1211,儲存子系統1211具有一或更多儲存裝置,包括至少一記憶體,且在一些實施例中,一或更多其他儲存裝置,諸如磁性及/或光學儲存構件。一些實施例亦包括至少一網路介面1207,及音訊輸入/輸出子系統1209,其可接受PCM資料並包括一或更多DAC以將PCM資料轉換成電性波形以驅動一組揚聲器或耳機。其他實施例亦可包括在處理系統中,且為熟悉此技藝人士明白者,且為了簡明而未顯示在第12圖中。
儲存子系統1211包括指令1213,其當在處理系統中加以履行時,令處理系統進行解碼音訊資料,其包括N.n聲道之已編碼音訊資料(如E-AC-3資料)以形成包括M.m聲道的已解碼音訊之已解碼音訊資料,M≧1,且針對降混情況,M<N。針對目前的已知編碼格式,n=0或1且m=0或1,但本發明不限於此。在一些實施例中,指令1211分成模組。其他指令(其他軟體)1215亦典型包括在儲存子系統中。所示之實施例包括下列模組於指令1211中:兩解碼器模組:包括前端解碼模組1231及後端解碼模組1233之獨立訊框5.1聲道解碼器模組1223;包括前端解碼模組1235及後端解碼模組1237之從屬訊框解碼器模組1225;指令之訊框資訊分析模組1221,其當加以履行時致使從每一訊框拆包位元流資訊(BSI)欄位資料以識別訊框及訊框類型並提供識別出的訊框至前端解碼器模組例示1231或1235;及聲道映射器指令模組1227,其當加以履行時且在N>5的情況中致使結合來自個別後端解碼模組之已解碼資料以形成N.n聲道的已解碼資料。
替代處理系統實施例可包括由至少一網路鏈結耦合(亦即,分散式)之一或更多處理器。亦即,模組之一或更多者可為藉由網路鏈結耦合至主處理系統之其他處理系統。這種替代實施例為此技藝中具有通常知識者所明白者。因此,在一些實施例中,系統包含經由網路鏈結連網之一或更多子系統,每一子系統包括至少一處理器。
因此,第12圖之處理系統形成一種處理音訊資料之設備,該音訊資料包括N.n聲道之已編碼音訊資料,以形成包括M.m聲道的已解碼音訊之已解碼音訊資料,M≧1,在降混情況中,M<N,且針對升混,M>N。雖針對目前的標準,n=0或1且m=0或1,可有其他實施例。該設備包括數個功能元件,功能性表示成進行一功能的機構。功能元件意指進行一處理功能的元件。每一這種元件可為如特殊目的硬體之硬體元件,或包括儲存媒體之處理系統,該儲存媒體包括指令,當加以履行時進行該功能。第12圖之設備包括接受包括由編碼方法(如E-AC-3方法)所編碼的N聲道之已編碼音訊資料的區塊之音訊資料的機構,編碼方法包含使用重疊變換的N聲道之數位音訊資料來變換,形成且包裝與頻率域指數及尾數資料,並形成且包裝與頻率域指數及尾數資料相關的元資料,元資料選擇性包括與暫態預先雜訊處理相關的元資料。
該設備包括解碼已接受之音訊資料的機構。
在一些實施例中,解碼機構包括拆包元資料之機構及拆包和解碼頻率域指數及尾數資料之機構;從該已拆包並已解碼頻率域指數及尾數資料判斷變換係數之機構;逆變換該頻率域資料之機構;施加窗化及重疊添加操作以判斷取樣音訊資料之機構;根據與暫態預先雜訊處理相關之元資料施加任何所需的暫態預先雜訊處理之機構;以及根據降混資料TD降混之機構。TD降混之機構,在M<N的情況中,根據降混資料降混資料,在一些實施例中包括,測試該降混資料是否自先前使用的降混資料改變,並且,若改變,施加交叉衰減以判斷已交叉衰減降混資料並根據該已交叉衰減降混資料降混,且若無改變,根據該降混資料直接降混。
一些實施例包括查明一區塊是否使用TD降混或FD降混的機構,且若查明一區塊是否使用TD降混或FD降混的機構查明FD降混則啟動FD降混之機構包括TD至FD降混轉變處理之機構。這種實施例亦包括FD至TD降混轉變處理之機構。這些元件之操作為如在此說明般。
在一些實施例中,該設備包括識別該N.n輸入聲道的一或更多非貢獻聲道,非貢獻聲道為不貢獻至M.m聲道的聲道。該設備對該一或更多已識別的非貢獻聲道不進行逆變換該頻率域資料及該施加進一步處理,如TPNP或重疊添加。
在一些實施例中,該設備包括至少一x86處理器,其之指令集包括了包含向量指令的串流單指令多輸出擴展(SSE)。操作中之降混機構在一或更多x86處理器的至少一者上運行向量指令。
亦可有對第12圖中所示的那些之替代設備。例如,可由硬體裝置實行該些元件之一或更多者,而可藉由操作x86處理器來實行其他者。這種變動對熟悉此技藝人士為顯而易見。
在設備之一些實施例中,解碼之機構包括前端解碼的一或更多機構及後端解碼的一或更多機構。前端解碼的機構包括拆包元資料之機構及拆包和解碼頻率域指數及尾數資料之機構。後端解碼的機構包括查明一區塊是否使用TD降混或FD降混的機構;包括TD至FD降混轉變處理之機構的FD降混機構;FD至TD降混轉變處理之機構;從該已拆包並已解碼頻率域指數及尾數資料判斷變換係數之機構;逆變換該頻率域資料之機構;施加窗化及重疊添加操作以判斷取樣音訊資料之機構;根據與暫態預先雜訊處理相關之元資料施加任何所需的暫態預先雜訊處理之機構;以及根據降混資料時域降混之機構。該時域降混之機構,在M<N的情況中,根據降混資料降混資料,包括,在一些實施例中,測試該降混資料是否自先前使用的降混資料改變,並且,若改變,施加交叉衰減以判斷已交叉衰減降混資料並根據該已交叉衰減降混資料降混,且若無改變,根據該降混資料直接降混。
針對處理超過5.1聲道之編碼資料的E-AC-3資料,解碼機構包括前端解碼的複數例示及後端解碼的複數例示,包括解碼高達5.1聲道之獨立訊框的前端解碼之第一機構及後端解碼之第一機構,解碼一或更多從屬資料訊框的前端解碼之第二機構及後端解碼之第二機構。該設備亦包括拆包位元流資訊欄位資料之機構以識別該些訊框及訊框類型並提供該些已識別訊框至適當的前端解碼機構,以及結合來自個別的後端解碼機構之該已解碼資料以形成該N聲道的解碼資料之機構。
注意到雖E-AC-3及其他編碼方法使用重疊添加變換,且在逆變換中,包括窗化及重疊添加操作,已知可有其他形式的變換,其在一種方式中操作使得逆變換及進一步的處理可復原時域取樣而無頻疊錯誤。因此,本發明不限於重疊添加變換,且每當提及逆變換頻率域資料並進行窗化重疊添加操作以判斷時域取樣時,熟悉此技藝人士將了解到一般而言,這些操作可敘述成「逆變換頻率域資料並施加進一步處理以判斷取樣的音訊資料」。
雖在全部說明中使用了術語指數及尾數,因為這些為AC-3及E-AC-3中所使用的術語,其他編碼格式可使用其他術語,如在HE-ACC的情況中定標因子及頻譜係數,且術語指數及尾數之使用不將本發明之範疇限制於使用指數及尾數的格式。
除非另有所指,從下列說明中很明顯地,可理解到在全部說明中,使用諸如「處理」、「運算(computing)」、「計算(calculate)」、「判斷」、「產生」、或之類的術語意指如電腦或運算系統、處理系統、或類似的電子運算裝置硬的體元件之動作及/或程序,其操縱及/或變換以物理(如電子)量呈現的資料成為以物理量類似表示之其他資料。
以類似方式,術語「處理器」可指處理來自例如暫存器及/或記憶體之資料的任何裝置或裝置的一部分,以變換電子資料成為其他電子資料,其可例如儲存在暫存器及/或記憶體中。「處理系統」或「電腦」或「運算機器」或「運算平台」可包括一或更多處理器。
注意到當方法敘述成包括數個元件(如數個步驟)時,不暗示這種元件(如步驟)的順序,除非另有所指。
在一些實施例中,電腦可讀取儲存媒體組態有(例如編碼有及例如儲存)指令,其當由處理系統(如數位信號處理裝置)之一或更多處理器或包括至少一處理器元件及儲存子系統的子系統加以履行時,致使進行在此所述之方法。注意到在上述說明中,當敘述組態指令以在被履行時進行一程序時,應了解到這是指當履行指令時,致使一或更多處理器操作,使得硬體設備(如處理系統)進行該程序。
在此所述之方法為,在一些實施例中,可由接受邏輯及指令編碼於一或更多電腦可讀取媒體上之一或更多處理器所執行。當由處理器之一或更多者履行時,指令致使進行在此所述的方法之至少一種。包括能夠履行指明將採取之動作的一組指令(序列或其他方式)之任何處理器。因此,一範例為包括一或更多處理器之一典型處理系統。每一處理器可包括CPU或類似元件、圖形處理單元(GPU)、及/或可編程DSP單元的一或更多者。處理系統進一步包括具有可包括嵌入在半導體裝置中之記憶體的至少一儲存媒體之儲存子系統,或包括主RAM及/或靜態RAM及/或ROM還有快取記憶體之分離的記憶體子系統。儲存子系統可進一步包括一或更多儲存裝置,如磁性及/或光學及/或其他固態儲存裝置。可包括匯流排子系統以在構件之間通訊。處理系統進一步可為具有經由例如網路介面裝置或無線網路介面裝置藉由網路耦合之分散式處理系統。若處理系統需要顯示器,可包括這種顯示器,如液晶顯示器(LCD)、有機發光顯示器(OLED)、或陰極射線管(CRT)顯示器。若需要手動資料輸入,處理系統亦包括輸入裝置,如字母數字輸入單元(如鍵盤)、指引控制裝置(如滑鼠)、及諸如此類的一或更多者。如此所用之術語儲存裝置、儲存子系統、或記憶體單元,若從上下文很清楚且除非另有所指,亦涵蓋如碟驅動單元之儲存系統。在一些組態中之處理系統可包括聲音輸出裝置,及網路介面裝置。
儲存子系統因此包括電腦可讀取媒體,其組態有(如編碼有)指令(如邏輯及軟體),當由一或更多處理器加以履行時,致使進行在此所述的方法步驟之一或更多者。在由電腦系統履行軟體時,該軟體可位在硬碟中,或亦可完全或部分位在記憶體(如RAM)內,及/或在處理器內部之記憶體內。因此,記憶體及包括記憶體之處理器亦構成其上編碼指令之電腦可讀取媒體。
此外,電腦可讀取媒體可形成電腦程式產品,或包括在電腦程式產品中。
在替代實施例中,一或更多處理器操作成獨立裝置,或可在連網佈署中連接(或連網)至其他處理器,該一或更多處理器可在伺服器一客戶網路環境中操作於伺服器或客戶機器的能力範圍中,或為同級間網路或分散式網路環境中之同級機器。術語處理系統涵蓋所有這類可能性,除非另有所指。該一或更多處理器可形成個人電腦(PC)、媒體播放裝置、平板PC、機上盒(STB)、個人數位助理(PDA)、遊戲機器、行動電話、網絡(Web)設備、網路路由器、交換器或橋接器、或能履行指明將由機器採取之動作的一組指令(序列或其他方式)的任何機器。
注意到雖一些圖僅顯示單一處理器及單一儲存子系統,例如儲存包括指令之邏輯的單一記憶體,熟悉此技藝人士了解到包括但未明確顯示或說明上述的許多構件以不混淆具有發明性之態樣。例如,雖繪示單一機器,術語「機器」應包括任何機器集合,其個別或共同履行一組(多組)指令以執行在此所述之方法的一或更多種。
因此,在此所述之每一方法的一實施例具有組態有一組指令的電腦可讀取媒體(如電腦程式)之形式,當在一或更多處理器(例如為媒體裝置之一部分的一或更多處理器)上加以履行時,致使進行方法步驟。一些實施例具有邏輯本身的形式。因此,熟悉此技藝人士可理解到,本發明之實施例可體現為方法、如特殊目的設備之設備、如資料處理系統之設備、如體現在電腦可讀取儲存媒體中之邏輯、或組態成電腦程式產品之電腦可讀取儲存媒體。電腦可讀取媒體組態有一組指令,當由一或更多處理器加以履行時,致使進行方法步驟。依此,本發明之態樣具有方法的形式,包括數個功能元件的完全硬體實施例,功能元件意指進行處理功能之元件。每一這種元件可為(如特殊目的硬體)之硬體元件或包括了包括當履行時進行該功能的指令之儲存媒體的處理系統。本發明之態樣可具有完全軟體實施例或結合軟體及硬體態樣之實施例的形式。此外,本發明可具有例如在電腦可讀取媒體中之程式邏輯的形式,例如在電腦可讀取儲存媒體上之電腦程式,或組態有電腦可讀取程式碼(如電腦程式產品)之電腦可讀取媒體。注意到在特殊目的硬體的情況中,界定硬體之功能足以使熟悉此技藝人士編寫可由程式處理之功能敘述,其則自動判斷產生進行該功能之硬體的硬體敘述。因此,在此之說明足以界定這種特殊目的硬體。
雖在一範例實施例中顯示電腦可讀取媒體為單一媒體,術語「媒體」應視為包括儲存一或更多組指令之單一媒體或複數媒體(如多個記憶體、集中或分散式資料庫、及/或關聯的快取及伺服器)。電腦可讀取媒體可具有眾多形式,包括但不限於非依電性媒體及依電性媒體。非依電性媒體包括,例如,光學、磁碟、及光磁碟。依電性媒體包括動態記憶體,如主記憶體。
應了解到本發明之實施例不限於任何特定的實行例或編程技術且可使用實行在此所述之功能的任何適當技術來實行本發明。此外,實施例不限於任何特定程式語言或操作系統。
在整份說明書中對於「一實施例(one embodiment)」或「實施例(an embodiment)」的參照意指連同該實施例所述的特定特徵、結構、或特性係包括在本發明之至少一實施例中。因此,在整份說明書各處中片語「在一實施例中」或「在實施例中」的出現並非一定都參照相同實施例,但可參照諸多者。此外,此技藝中具有通常知識者從此揭露顯而易見地,可以任何適當方式結合一或更多實施例中的特定特徵、結構、或特性。
類似地,應理解到在上述本發明之範例實施例的說明中,有時將本發明之各種特徵群集在單一實施例、圖、或其之說明中,這是為了使揭露流暢並輔助各種具有發明性態樣的一或更多者之了解。然而,此揭露方法不應解釋成反映主張專利權的實施例需要比每一項專利申請範圍中所明確指出更多的特徵之意圖。確切地,如下列專利申請範圍所反映,發明性標的存在於比單一揭露實施例的所有特徵更少。因此,在「實施方式」後的專利申請範圍在此明確包括在「實施方式」中,其中每一項專利申請範圍獨立形成一個別較佳實施例。
此外,雖在此所述一些實施例包括一些但非其他實施例中所包括的其他實施例,不同實施例之特徵的組合應在本發明之範疇內,並形成不同實施例,這為熟悉此技藝人士可理解的。例如,在下列專利申請範圍中,任何主張專利權的實施例可用於任何組合中。
此外,一些實施例在此敘述成方法或方法之元件的組合,其可由電腦系統之處理器或由進行功能之其他機構予以實行。因此,具有進行這種方法或方法元件的必要指令之處理器形成進行該方法或方法元件的機構。此外,設備實施例的在此所述之元件為進行由該元件為了進行本發明而執行之功能的機構之一範例。
在此所提供之說明中,提出各種特定細節。然而,可了解到可在無這些特定細節的情況下實行本發明之實施例。在其他例子中,未詳述已知的方法、結構、及技術以不混淆此說明之了解。
如此所用,除非另有所指,順序形容詞「第一」、「第二」、及「第三」等等使用來描述共同物件僅指示參照類似物件的不同例示,且非意圖暗示如此所述之物件必須在給定序列中,無論為時間、空間、排行、或任何其他方式中。
應理解到雖在E-AC-3標準的上下文中說明了本發明,本發明不限於這種上下文且可用來解碼由其他方法(其使用與E-AC-3有一些相似處的技術)編碼的資料。例如,本發明之實施例亦可應用於解碼與E-AC-3反向相容之已編碼音訊。其他實施例可應用於解碼根據HE-AAC標準編碼之已編碼音訊,及應用於解碼與HE-AAC反向相容之已編碼音訊。亦可使用本發明之實施例有利地解碼其他已編碼流。
指定在此所述之美國的所有美國專利、美國專利申請案、及國際(PCT)專利申請案以引用方式倂於此。在專利法規或規約不允許以引用方式倂入本身以引用方式倂入資訊的資料之情況中,以引用方式倂入資料在此排除由引用資料以如此引用而倂入的任何資訊,除非這類資訊在此以引用方式明確倂入。
在此說明書中之先前技術的任何討論絕不應視為承認這種先前技術為眾所週知、為公眾所知、或形成此領域之一般知識的一部分。
在下列申請專利範圍及在此說明中,術語「包含(comprising)」、「包含(comprised)」、「包含(comprised of)」或「其包含」的任何者為開放術語,意指包括至少隨後的元件/特徵,且不排除其他者。因此,當用於申請專利範圍中時,術語「包含」不應解釋成限制此後所列之機構、元件、或步驟。例如,陳述「裝置包含A及B」的範圍不應限於僅由元件A及B所構成之裝置。術語「包括(including)」或「其包括」的任何者亦為開放術語,意指包括至少隨後的元件/特徵,且不排除其他者。因此,「包括」與「包含」為同義詞且「包括」意指「包含」。
同樣地,注意到當用於申請專利範圍中時,術語「耦合」不應解釋成限制於僅直接連結。可使用術語「耦合」及「連結」,還有其衍生詞。應了解到這些術語非意圖為彼此之同義詞。因此,陳述「裝置A耦合至裝置B」的範圍不應限制於裝置或系統,其中裝置A的輸出直接連接至裝置B的輸入。其意指在裝置A的輸出與裝置B的輸入之間有路徑,其可為包括其他裝置或機構的路徑。「耦合」可意指非直接實體或電接觸的兩或更多元件,或非互相直接接觸但仍互相共同合作或互動之兩或更多元件。
因此,雖已經說明認為是本發明之較佳實施例者,熟悉此技藝人士將認知到可做出其他及進一步修改而不背離本發明之精神,且其意圖主張所有這種改變及修改為落入本發明之範疇內。例如,於上提出的任何公式僅為所用之程序的表示。可添加功能至區塊或從其刪除功能,並可在功能元件之中互換操作。可添加步驟至在本發明之範疇內所述之方法或從其刪除步驟。
100...偽碼
200...解碼器
201...前端解碼模組
203...後端解碼模組
205...元資料轉換器模組
207...後端編碼模組
210...解碼器/轉換器
220...解碼器
221...訊框資訊分析模組
223...前端解碼模組
225...後端解碼模組
227...前端解碼模組
229...後端解碼模組
231...脈衝碼調變聲道映射器模組
240...解碼器
241...訊框資訊分析模組
243...前端解碼模組
245...後端解碼模組
300...前端解碼模組
403...位元流拆包功能元件
407...標準/增進解耦合功能元件
405...AHT位元配置功能元件
409...重新矩陣化功能元件
411...頻譜擴展解碼功能元件
500...後端解碼模組
520...後端解碼模組
603...增益控制功能元件
605...指數功能元件
607...逆變換功能元件
609...窗化及重疊添加功能元件
611...暫態預先雜訊處理功能元件
613...降混功能元件
701...降混方法選擇邏輯區段
711...FD降混處理區段
721...TD降混邏輯區段
723...FD降混轉變邏輯及程式改變邏輯區段
715...TD降混轉變邏輯區段
1200...處理系統
1203...處理器
1205...匯流排子系統
1207...網路介面
1209...音訊輸入/輸出子系統
1211...儲存子系統
1215...其他指令
1221...訊框資訊分析指令模組
1223...獨立訊框5.1聲道解碼器模組
1225...獨立訊框解碼器模組
1227...聲道映射器指令模組
1231...前端解碼模組
1233...後端解碼模組
1235...前端解碼模組
1237...後端解碼模組
第1圖顯示當履行時進行典型AC-3解碼程序之指令的偽碼100。
第2A至2D圖以簡化區塊圖形式顯示可有利地使用一或更多共同模組之不同解碼器的組態。
第3圖顯示前端解碼模組之一實施例的偽碼及簡化區塊圖。
第4圖顯示前端解碼模組之一實施例的操作之簡化資料流程圖。
第5A圖顯示後端解碼模組之一實施例的偽碼及簡化區塊圖。
第5B圖顯示後端解碼模組之另一實施例的偽碼及簡化區塊圖。
第6圖顯示後端解碼模組之一實施例的操作之簡化資料流程圖。
第7圖顯示後端解碼模組之另一實施例的操作之簡化資料流程圖。
第8圖顯示如第7圖中所示的後端解碼模組之處理的一實施例之流程圖。
第9圖顯示針對從5.1至2.0的降混之非重疊變換的情況使用本發明之一實施例處理包括從5.1至2.0的降混之五個區塊的一範例。
第10圖顯示針對重疊變換的情況使用本發明之一實施例處理包括從5.1至2.0的降混之五個區塊的另一範例。
第11圖顯示時域降混之一實施例的簡化偽碼。
第12圖顯示包括至少一處理器且可進行包括本發明之一或更多特徵的解碼之處理系統的一實施例之簡化區塊圖。

Claims (78)

  1. 一種操作音訊解碼器之方法,以解碼包括N.n聲道之音訊資料的已編碼區塊之音訊資料,以形成包括M.m聲道的已解碼音訊之已解碼音訊資料,M≧1,n為該已編碼音訊資料中之低頻效果聲道的數量,且m為該已解碼音訊資料中之低頻效果聲道的數量,該方法包含:接受包括由編碼方法所編碼的N.n聲道之已編碼音訊資料的區塊之音訊資料,該編碼方法包括變換N.n聲道的數位音訊資料,並形成且包裝頻率域指數及尾數資料;以及解碼該已接受的音訊資料,該解碼包括:拆包並解碼該頻率域指數及尾數資料;從該已拆包並已解碼頻率域指數及尾數資料判斷變換係數;逆變換該頻率域資料並施加進一步處理以判斷已取樣音訊資料;以及針對情況M<N根據降混資料時域降混該已判斷取樣音訊資料的至少一些區塊,其中A、B、及C的至少一者為真,A為該解碼包括一區塊一區塊地判斷是否施加頻率域降混或時域降混,且若判斷針對一特定區塊施加頻率域降混,則針對該特定區塊施加頻率域降混,B為該時域降混包括測試該降混資料是否自先前使用的降混資料改變,並且,若改變,施加交叉衰減以判斷已 交叉衰減降混資料並根據該已交叉衰減降混資料時域降混,且若無改變,根據該降混資料直接時域降混,以及C為該方法包括識別該N.n輸入聲道的一或更多非貢獻聲道,非貢獻聲道為不貢獻至M.m聲道的聲道,且該方法對該一或更多已識別的非貢獻聲道不進行逆變換該頻率域資料及該施加進一步處理。
  2. 如申請專利範圍第1項所述之方法,其中該編碼方法中之該變換使用重疊變換,且其中該進一步處理包括施加窗化及重疊添加操作以判斷已取樣音訊資料。
  3. 如申請專利範圍第1或2項所述之方法,其中該編碼方法包括形成並包裝與該頻率域指數及尾數資料相關的元資料,該元資料選擇性包括與暫態預先雜訊處理及降混相關的元資料。
  4. 如申請專利範圍第1項所述之方法,其中A為真。
  5. 如申請專利範圍第4項所述之方法,其中該判斷是否施加頻率域降混或時域降混包括判斷是否有任何暫態預先雜訊處理,並判斷該N聲道的任何者是否具有不同區塊類型,使得僅針對在該N聲道中具有相同區塊類型的區塊、無暫態預先雜訊處理、且M<N施加頻率域降混。
  6. 如申請專利範圍第4或5項所述之方法,其中該編碼方法中之該變換使用重疊變換,且該進一步處理包括施加窗化及重疊添加操作以判斷已取樣音訊資料, 其中針對該特定區塊施加頻率域降混包括判斷針對該前一區塊的降混是否係靠時域降混,且若針對該前一區塊的該降混係靠時域降混,則在該時域或偽時域中施加降混至重疊該特定區塊的該已解碼資料之該前一區塊的該資料,以及其中針對該特定區塊施加時域降混包括判斷針對該前一區塊的降混是否係靠頻率域降混,且若針對該前一區塊的該降混係靠頻率域降混,則和若針對該前一區塊的該降混不係靠頻率域降混不同地處理該特定區塊。
  7. 如申請專利範圍第1項所述之方法,其中B為真。
  8. 如申請專利範圍第7項所述之方法,其中該解碼器使用至少一x86處理器,其之指令集包括包含向量指令之串流單指令多資料擴展(SSE),且其中該時域降混包括在該一或更多x86處理器的至少一者上運行向量指令。
  9. 如申請專利範圍第1項所述之方法,其中C為真。
  10. 如申請專利範圍第9項所述之方法,其中n=1且m=0,使得不在該低頻效果聲道上進行逆變換及施加進一步處理。
  11. 如申請專利範圍第9或10項所述之方法,其中包括已編碼區塊的該音訊資料包括界定該降混之資訊,且其中該識別一或更多非貢獻聲道使用界定該降混之該資訊。
  12. 如申請專利範圍第11項所述之方法,其中界定該降混之該資訊包括具有指示一或更多聲道為非貢獻聲道的預定值之混合位準參數。
  13. 如申請專利範圍第9或10項所述之方法,其中該識別一或更多非貢獻聲道進一步包括識別一或更多聲道是否相較於一或更多其他聲道有不顯著的內容量,其中若一聲道的能量或絕對位準在另一聲道的至少15dB以下,則該聲道相較於該另一聲道有不顯著的內容量。
  14. 如申請專利範圍第13項所述之方法,其中若一聲道的能量或絕對位準在另一聲道的至少18dB以下,則該聲道相較於該另一聲道有不顯著的內容量。
  15. 如申請專利範圍第13項所述之方法,其中若一聲道的能量或絕對位準在另一聲道的至少25dB以下,則該聲道相較於該另一聲道有不顯著的內容量。
  16. 如申請專利範圍第13項所述之方法,其中該識別一或更多非貢獻聲道進一步包括識別一或更多聲道是否相較於一或更多其他聲道有不顯著的內容量包括比較聲道對之間的內容量測量的差與可設定之臨限值。
  17. 如申請專利範圍第16項所述之方法,其中該可設定之臨限值係設定至複數預定值之一。
  18. 如申請專利範圍第1項所述之方法,其中該已接受音訊資料具有已編碼資料訊框之位元流的形式,且其中該解碼分割成一組前端解碼操作,以及一組後端解碼操作,該些前端解碼操作包括將該位元流的訊框之該頻率域指 數及尾數資料拆包並解碼成該訊框之已拆包及已解碼的頻率域指數及尾數資料,以及該訊框之附隨元資料,該些後端解碼操作包括該變換係數的該判斷、該逆變換及施加進一步處理、施加任何所需的暫態預先雜訊處理解碼、及在情況M<N中降混。
  19. 如申請專利範圍第18項所述之方法,其中在第一階段及隨後的第二階段中進行該些前端解碼操作,該第一階段包含一區塊一區塊地拆包元資料並保存指向儲存該已包裝的指數及尾數資料的指標,且該第二階段包含使用指向該已包裝的指數及尾數該保存的指標,並且一聲道一聲道地拆包並解碼指數及尾數資料。
  20. 如申請專利範圍第1項所述之方法,其中根據由AC-3標準、E-AC-3標準、與E-AC-3標準反向相容的標準、HE-AAC標準、及與HE-AAC標準反向相容的標準構成的一組標準之一編碼該已編碼音訊資料。
  21. 一種儲存解碼指令之電腦可讀取儲存媒體,當由處理系統的一或更多處理器履行該些解碼指令時令該處理系統進行解碼音訊資料,其包括N.n聲道之音訊資料的已編碼區塊,以形成包括M.m聲道的已解碼音訊之已解碼音訊資料,M≧1,n為該已編碼音訊資料中之低頻效果聲道的數量,且m為該已解碼音訊資料中之低頻效果聲道的數量,該些解碼指令包含:指令,當加以履行時致使接受包括由編碼方法所編碼的N.n聲道之已編碼音訊資料的區塊之音訊資料,該編碼 方法包括變換N.n聲道的數位音訊資料,並形成且包裝頻率域指數及尾數資料;以及指令,當加以履行時致使解碼該已接受的音訊資料,當加以履行時致使解碼的該些指令包括:指令,當加以履行時致使拆包並解碼該頻率域指數及尾數資料;指令,當加以履行時致使從該已拆包並已解碼頻率域指數及尾數資料判斷變換係數;指令,當加以履行時致使逆變換該頻率域資料並施加進一步處理以判斷已取樣音訊資料;以及指令,當加以履行時致使查明是否M小於N,以及指令,當加以履行時致使若M<N根據降混資料時域降混該已判斷取樣音訊資料的至少一些區塊,其中A、B、及C的至少一者為真,A為當加以履行時致使解碼之該些指令包括指令,當加以履行時致使一區塊一區塊地判斷是否施加頻率域降混或時域降混,以及指令,當加以履行時致使若判斷針對一特定區塊施加頻率域降混,則施加頻率域降混,B為該時域降混包括測試該降混資料是否自先前使用的降混資料改變,並且,若改變,施加交叉衰減以判斷已交叉衰減降混資料並根據該已交叉衰減降混資料時域降混,且若無改變,根據該降混資料直接時域降混,以及C為當加以履行時致使解碼的該些指令包括識別該N.n輸入聲道的一或更多非貢獻聲道,非貢獻聲道為不貢 獻至M.m聲道的聲道,且該方法對該一或更多已識別的非貢獻聲道不進行逆變換該頻率域資料及該施加進一步處理。
  22. 如申請專利範圍第21項所述之電腦可讀取儲存媒體,其中該編碼方法中之該變換使用重疊變換,且其中該進一步處理包括施加窗化及重疊添加操作以判斷已取樣音訊資料。
  23. 如申請專利範圍第21或22項所述之電腦可讀取儲存媒體,其中該編碼方法包括形成並包裝與該頻率域指數及尾數資料相關的元資料,該元資料選擇性包括與暫態預先雜訊處理及降混相關的元資料。
  24. 如申請專利範圍第21項所述之電腦可讀取儲存媒體,其中A為真。
  25. 如申請專利範圍第24項所述之電腦可讀取儲存媒體,其中該判斷是否施加頻率域降混或時域降混包括判斷是否有任何暫態預先雜訊處理,並判斷該N聲道的任何者是否具有不同區塊類型,使得由當加以履行時致使解碼的該些指令僅針對在該N聲道中具有相同區塊類型的區塊、無暫態預先雜訊處理、且M<N進行頻率域降混。
  26. 如申請專利範圍第24或25項所述之電腦可讀取儲存媒體,其中該編碼方法中之該變換使用重疊變換,且該進一步處理包括施加窗化及重疊添加操作以判斷已取樣音訊資料, 其中針對該特定區塊施加頻率域降混包括判斷針對該前一區塊的降混是否係靠時域降混,且若針對該前一區塊的該降混係靠時域降混,則在該時域或偽時域中施加降混至重疊該特定區塊的該已解碼資料之該前一區塊的該資料,以及其中針對該特定區塊施加時域降混包括判斷針對該前一區塊的降混是否係靠頻率域降混,且若針對該前一區塊的該降混係靠頻率域降混,則和若針對該前一區塊的該降混不係靠頻率域降混不同地處理該特定區塊。
  27. 如申請專利範圍第21項所述之電腦可讀取儲存媒體,其中B為真。
  28. 如申請專利範圍第27項所述之電腦可讀取儲存媒體,其中該處理系統包括至少一x86處理器,其之指令集包括包含向量指令之串流單指令多資料擴展(SSE),其中當加以履行時致使解碼該已接受的音訊資料之該些指令包括用於在該一或更多x86處理器的的至少一者上運行履行之指令,且其中當加以履行時致使時域降混的該些指令包括該一或更多x86處理器的至少一x86處理器的向量指令。
  29. 如申請專利範圍第21項所述之電腦可讀取儲存媒體,其中C為真。
  30. 如申請專利範圍第29項所述之電腦可讀取儲存媒體,其中n=1且m=0,使得不在該低頻效果聲道上進行逆變換及施加進一步處理。
  31. 如申請專利範圍第29或30項所述之電腦可讀取儲存媒體,其中包括已編碼區塊的該音訊資料包括界定該降混之資訊,且其中該識別一或更多非貢獻聲道使用界定該降混之該資訊。
  32. 如申請專利範圍第31項所述之電腦可讀取儲存媒體,其中界定該降混之該資訊包括具有指示一或更多聲道為非貢獻聲道的預定值之混合位準參數。
  33. 如申請專利範圍第29或30項所述之電腦可讀取儲存媒體,其中該識別一或更多非貢獻聲道進一步包括識別一或更多聲道是否相較於一或更多其他聲道有不顯著的內容量,其中若一聲道的能量或絕對位準在另一聲道的至少15dB以下,則該聲道相較於該另一聲道有不顯著的內容量。
  34. 如申請專利範圍第33項所述之電腦可讀取儲存媒體,其中若一聲道的能量或絕對位準在另一聲道的至少18dB以下,則該聲道相較於該另一聲道有不顯著的內容量。
  35. 如申請專利範圍第33項所述之電腦可讀取儲存媒體,其中若一聲道的能量或絕對位準在另一聲道的至少25dB以下,則該聲道相較於該另一聲道有不顯著的內容量。
  36. 如申請專利範圍第33項所述之電腦可讀取儲存媒體,其中識別一或更多聲道是否相較於一或更多其他聲道有不顯著的內容量包括比較聲道對之間的內容量測量的 差與可設定之臨限值。
  37. 如申請專利範圍第36項所述之電腦可讀取儲存媒體,其中該可設定之臨限值係設定至複數預定值之一。
  38. 如申請專利範圍第21項所述之電腦可讀取儲存媒體,其中該已接受音訊資料具有碼資料訊框之位元流的形式,且其中當加以履行時致使解碼該已接受的音訊資料之該些指令分割成一組可重複使用模組,包括前端解碼模組,以及一組後端解碼模組,該些前端解碼模組包括指令,當加以履行時致使將該位元流的訊框之該頻率域指數及尾數資料拆包並解碼成該訊框之已拆包及已解碼的頻率域指數及尾數資料,以及該訊框之附隨元資料,而該些後端解碼模組包括指令,當加以履行時致使該變換係數的該判斷、該逆變換及施加進一步處理、施加任何所需的暫態預先雜訊處理解碼、及在情況M<N中降混。
  39. 如申請專利範圍第21項所述之電腦可讀取儲存媒體,其中根據由AC-3標準、E-AC-3標準、與E-AC-3標準反向相容的標準、HE-AAC標準、及與HE-AAC標準反向相容的標準構成的一組標準之一編碼該已編碼音訊資料。
  40. 如申請專利範圍第38項所述之電腦可讀取儲存媒體,其中根據E-AC-3標準或與E-AC-3標準反向相容的標準編碼該已編碼音訊資料,並可包括超過5編碼聲道,其中該進一步處理包括施加窗化及重疊添加操作以判 斷已取樣音訊資料,其中,在情況N>5,該已編碼位元流包括高達5.1編碼聲道之獨立訊框及已編碼資料的至少一從屬訊框,其中該些解碼指令配置成複數5.1聲道解碼模組,每一5.1聲道解碼模組包括前端解碼模組之一個別例示及後端解碼模組之一個別例示,該複數5.1聲道解碼模組包括當加以履行時致使該獨立訊框之解碼的第一5.1聲道解碼模組,以及針對每一個別從屬訊框的一或更多其他聲道解碼模組,以及其中該些解碼指令進一步包含:訊框資訊分析指令模組,其當加以履行時致使拆包位元流資訊欄位資料,並識別訊框及訊框類型並提供該些已識別訊框至適當的前端解碼器模組例示,以及聲道映射器指令之模組,其當加以履行時且在情況N<5中致使結合來自個別後端解碼模組之該已解碼資料以形成該N聲道的解碼資料。
  41. 一種處理音訊資料之設備,以解碼包括N.n聲道之音訊資料的已編碼區塊之音訊資料,以形成包括M.m聲道的已解碼音訊之已解碼音訊資料,M≧1,n為該已編碼音訊資料中之低頻效果聲道的數量,且m為該已解碼音訊資料中之低頻效果聲道的數量,該設備包含:機構,接受包括由編碼方法所編碼的N.n聲道之已編碼音訊資料的區塊之音訊資料,該編碼方法包括變換N.n聲道的數位音訊資料,並形成且包裝頻率域指數及尾數資 料;以及機構,解碼該已接受的音訊資料,該解碼機構包括:機構,拆包並解碼該頻率域指數及尾數資料;機構,從該已拆包並已解碼頻率域指數及尾數資料判斷變換係數;機構,逆變換該頻率域資料並施加進一步處理以判斷已取樣音訊資料;以及機構,針對情況M<N根據降混資料時域降混該已判斷取樣音訊資料的至少一些區塊,其中A、B、及C的至少一者為真,A為該解碼機構包括機構,其一區塊一區塊地判斷是否施加頻率域降混或時域降混,以及機構,其若判斷針對一特定區塊施加頻率域降混,則針對該特定區塊施加頻率域降混,B為該時域降混機構進行該降混資料是否自先前使用的降混資料改變之測試,並且,若改變,施加交叉衰減以判斷已交叉衰減降混資料並根據該已交叉衰減降混資料時域降混,且若無改變,根據該降混資料直接施加時域降混,以及C為該設備包括機構,其識別該N.n輸入聲道的一或更多非貢獻聲道,非貢獻聲道為不貢獻至M.m聲道的聲道,且該設備對該一或更多已識別的非貢獻聲道不進行逆變換該頻率域資料及該施加進一步處理。
  42. 如申請專利範圍第41項所述之設備,其中該編 碼方法中之該變換使用重疊變換,且其中該進一步處理包括施加窗化及重疊添加操作以判斷已取樣音訊資料。
  43. 如申請專利範圍第41或42項所述之設備,其中該編碼方法包括形成並包裝與該頻率域指數及尾數資料相關的元資料,該元資料選擇性包括與暫態預先雜訊處理及降混相關的元資料。
  44. 如申請專利範圍第41項所述之設備,其中A為真。
  45. 如申請專利範圍第44項所述之設備,其中判斷是否施加頻率域降混或時域降混的機構包括進行是否有任何暫態預先雜訊處理的判斷,並判斷該N聲道的任何者是否具有不同區塊類型,使得僅針對在該N聲道中具有相同區塊類型的區塊、無暫態預先雜訊處理、且M<N施加頻率域降混。
  46. 如申請專利範圍第44或45項所述之設備,其中該編碼方法中之該變換使用重疊變換,且該進一步處理包括施加窗化及重疊添加操作以判斷已取樣音訊資料,其中針對該特定區塊施加頻率域降混包括判斷針對該前一區塊的降混是否係靠時域降混,且若針對該前一區塊的該降混係靠時域降混,則在該時域或偽時域中施加降混至重疊該特定區塊的該已解碼資料之該前一區塊的該資料,以及其中針對該特定區塊施加時域降混包括判斷針對該前 一區塊的降混是否係靠頻率域降混,且若針對該前一區塊的該降混係靠頻率域降混,則和若針對該前一區塊的該降混不係靠頻率域降混不同地處理該特定區塊。
  47. 如申請專利範圍第41項所述之設備,其中B為真。
  48. 如申請專利範圍第47項所述之設備,其中該設備包括至少一x86處理器,其之指令集包括包含向量指令之串流單指令多資料擴展(SSE),且其中時域降混機構在該一或更多x86處理器的至少一者上運行向量指令。
  49. 如申請專利範圍第41項所述之設備,其中C為真。
  50. 如申請專利範圍第49項所述之設備,其中n=1且m=0,使得不在該低頻效果聲道上進行逆變換及施加進一步處理。
  51. 如申請專利範圍第49或50項所述之設備,其中包括已編碼區塊的該音訊資料包括界定該降混之資訊,且其中該識別一或更多非貢獻聲道使用界定該降混之該資訊。
  52. 如申請專利範圍第49或50項所述之設備,其中該識別一或更多非貢獻聲道進一步包括識別一或更多聲道是否相較於一或更多其他聲道有不顯著的內容量,其中若一聲道的能量或絕對位準在另一聲道的至少15dB以下,則該聲道相較於該另一聲道有不顯著的內容量。
  53. 如申請專利範圍第41項所述之設備,其中根據 由AC-3標準、E-AC-3標準、與E-AC-3標準反向相容的標準、HE-AAC標準、及與HE-AAC標準反向相容的標準構成的一組標準之一編碼該已編碼音訊資料。
  54. 一種處理包括N.n聲道之已編碼音訊資料之音訊資料的設備,以形成包括M.m聲道的已解碼音訊之已解碼音訊資料,M≧1,n=0或1,為該已編碼音訊資料中之低頻效果聲道的數量,且m=0或1,為該已解碼音訊資料中之低頻效果聲道的數量,該設備包含:機構,接受包括由編碼方法所編碼的N.n聲道之已編碼音訊資料的音訊資料,該編碼方法包括以一種方式變換N.n聲道的數位音訊資料,使該逆變換及進一步處理可重獲時域取樣而無頻疊錯誤,形成且包裝頻率域指數及尾數資料,並形成及包裝與該頻率域指數及尾數資料相關的元資料,該元資料選擇性包括與暫態預先雜訊處理相關的元資料;以及機構,解碼該已接受的音訊資料,該解碼機構包括:一或更多前端解碼機構及一或更多後端解碼機構,其中該前端解碼機構包括機構,以拆包該元資料、拆包並解碼該頻率域指數及尾數資料,其中該後端解碼機構包括機構,以從該已拆包及解碼的頻率域指數及尾數資料判斷變換係數;逆變換該頻率域資料;施加窗化及重疊添加操作以判斷已取樣音訊資 料;根據與暫態預先雜訊處理相關的該元資料施加任何所需的暫態預先雜訊處理解碼;以及根據降混資料的時域降混,該時域降混在情況M<N中根據降混資料時域降混至少一些資料區塊,以及其中A、B、及C的至少一者為真,A為該後端解碼機構包括一區塊一區塊地判斷是否施加頻率域降混或時域降混之機構,以及施加頻率域降混之機構,該施加頻率域降混之機構若判斷針對一特定區塊施加頻率域降混,則針對該特定區塊施加頻率域降混,B為該時域降混機構進行該降混資料是否自先前使用的降混資料改變之測試,並且,若改變,施加交叉衰減以判斷已交叉衰減降混資料並根據該已交叉衰減降混資料時域降混,且若無改變,根據該降混資料直接施加時域降混,以及C為該設備包括機構,其識別該N.n輸入聲道的一或更多非貢獻聲道,非貢獻聲道為不貢獻至M.m聲道的聲道,且該後端解碼機構對該一或更多已識別的非貢獻聲道不進行逆變換該頻率域資料及該施加進一步處理。
  55. 如申請專利範圍第54項所述之設備,其中該編碼方法中之該變換使用重疊變換,且其中該進一步處理包括施加窗化及重疊添加操作以判斷已取樣音訊資料。
  56. 如申請專利範圍第54或55項所述之設備,其中根據E-AC-3標準或與E-AC-3標準反向相容的標準編碼該已編碼音訊資料,該已編碼音訊資料並可包括超 過5編碼聲道,其中,在情況N>5,該音訊資料包括高達5.1編碼聲道之獨立訊框及已編碼資料的至少一從屬訊框,且其中該解碼機構包含:該前端解碼機構及該後端解碼機構的複數例示,包括解碼高達5.1聲道之該獨立訊框的前端解碼之第一機構及後端解碼之第一機構,解碼一或更多從屬資料訊框的前端解碼之第二機構及後端解碼之第二機構;機構,拆包位元流資訊欄位資料,以識別該些訊框及訊框類型並提供該些已識別訊框至適當的前端解碼機構;以及機構,結合來自個別的後端解碼機構之該已解碼資料以形成該N聲道的解碼資料。
  57. 如申請專利範圍第54項所述之設備,其中A為真。
  58. 如申請專利範圍第57項所述之設備,其中該判斷是否施加頻率域降混或時域降混的機構進行判斷是否有任何暫態預先雜訊處理,並判斷該N聲道的任何者是否具有不同區塊類型,使得僅針對在該N聲道中具有相同區塊類型的區塊、無暫態預先雜訊處理、且M<N施加頻率域降混。
  59. 如申請專利範圍第54項所述之設備,其中B為真。
  60. 如申請專利範圍第59項所述之設備,其中該設 備包括至少一x86處理器,其之指令集包括包含向量指令之串流單指令多資料擴展(SSE),且其中該時域降混機構在該一或更多x86處理器的至少一者上運行向量指令。
  61. 如申請專利範圍第54項所述之設備,其中C為真。
  62. 如申請專利範圍第61項所述之設備,其中n=1且m=0,使得不在該低頻效果聲道上進行逆變換及施加進一步處理。
  63. 如申請專利範圍第61或62項所述之設備,其中包括已編碼區塊的該音訊資料包括界定該降混之資訊,且其中該識別一或更多非貢獻聲道使用界定該降混之該資訊。
  64. 如申請專利範圍第61或62項所述之設備,其中該識別一或更多非貢獻聲道進一步包括識別一或更多聲道是否相較於一或更多其他聲道有不顯著的內容量,其中若一聲道的能量或絕對位準在另一聲道的至少15dB以下,則該聲道相較於該另一聲道有不顯著的內容量。
  65. 如申請專利範圍第54項所述之設備,其中根據由AC-3標準、E-AC-3標準、與E-AC-3標準反向相容的標準、HE-AAC標準、及與HE-AAC標準反向相容的標準構成的一組標準之一編碼該已編碼音訊資料。
  66. 一種解碼包括N.n聲道之音訊資料之音訊資料之系統,以形成包括M.m聲道的已解碼音訊之已解碼音訊資料,M≧1,n為該已編碼音訊資料中之低頻效果聲道的 數量,且m為該已解碼音訊資料中之低頻效果聲道的數量,該系統包含:一或更多處理器;以及儲存子系統,耦合至該一或更多處理器,其中該系統組態成接受包括由編碼方法所編碼的N.n聲道之已編碼音訊資料的區塊之音訊資料,該編碼方法包括變換N.n聲道的數位音訊資料,並形成且包裝頻率域指數及尾數資料;以及進一步解碼該已接受的音訊資料,包括:拆包並解碼該頻率域指數及尾數資料;從該已拆包並已解碼頻率域指數及尾數資料判斷變換係數;逆變換該頻率域資料並施加進一步處理以判斷已取樣音訊資料;以及針對情況M<N根據降混資料時域降混該已判斷取樣音訊資料的至少一些區塊,其中A、B、及C的至少一者為真,A為該解碼包括一區塊一區塊地判斷是否施加頻率域降混或時域降混,且若判斷針對一特定區塊施加頻率域降混,則針對該特定區塊施加頻率域降混,B為該時域降混包括測試該降混資料是否自先前使用的降混資料改變,並且,若改變,施加交叉衰減以判斷已交叉衰減降混資料並根據該已交叉衰減降混資料時域降混,且若無改變,根據該降混資料直接時域降混,以及 C為該方法包括識別該N.n輸入聲道的一或更多非貢獻聲道,非貢獻聲道為不貢獻至M.m聲道的聲道,且該方法對該一或更多已識別的非貢獻聲道不進行逆變換該頻率域資料及該施加進一步處理。
  67. 如申請專利範圍第66項所述之系統,其中該編碼方法中之該變換使用重疊變換,且其中該進一步處理包括施加窗化及重疊添加操作以判斷已取樣音訊資料。
  68. 如申請專利範圍第66或67項所述之系統,其中A為真。
  69. 如申請專利範圍第68項所述之系統,其中該判斷是否施加頻率域降混或時域降混包括判斷是否有任何暫態預先雜訊處理,並判斷該N聲道的任何者是否具有不同區塊類型,使得僅針對在該N聲道中具有相同區塊類型的區塊、無暫態預先雜訊處理、且M<N施加頻率域降混。
  70. 如申請專利範圍第66項所述之系統,其中B為真。
  71. 如申請專利範圍第70項所述之系統,其中該系統包括至少一x86處理器,其之指令集包括包含向量指令之串流單指令多資料擴展(SSE),且其中該時域降混包括在該一或更多x86處理器的至少一者上運行向量指令。
  72. 如申請專利範圍第66項所述之系統,其中C為真。
  73. 如申請專利範圍第72項所述之系統,其中n=1且m=0,使得不在該低頻效果聲道上進行逆變換及施加 進一步處理。
  74. 如申請專利範圍第72或73項所述之系統,其中包括已編碼區塊的該音訊資料包括界定該降混之資訊,且其中該識別一或更多非貢獻聲道使用界定該降混之該資訊。
  75. 如申請專利範圍第72或73項所述之系統,其中該識別一或更多非貢獻聲道進一步包括識別一或更多聲道是否相較於一或更多其他聲道有不顯著的內容量,其中若一聲道的能量或絕對位準在另一聲道的至少15dB以下,則該聲道相較於該另一聲道有不顯著的內容量。
  76. 如申請專利範圍第66項所述之系統,其中根據由AC-3標準、E-AC-3標準、與E-AC-3標準反向相容的標準、HE-AAC標準、及與HE-AAC標準反向相容的標準構成的一組標準之一編碼該已編碼音訊資料。
  77. 如申請專利範圍第66項所述之系統,其中該已接受音訊資料具有已編碼資料訊框之位元流的形式,其中以指令組態該儲存子系統,當由該處理系統之該些處理器的一或更多者加以履行時,致使解碼該已接受的音訊資料。
  78. 如申請專利範圍第66項所述之系統,包含經由網路鏈結連網的一或更多子系統,各子系統包括至少一處理器。
TW100102481A 2010-02-18 2011-01-24 音訊解碼器及使用有效降混之解碼方法 TWI443646B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US30587110P 2010-02-18 2010-02-18
US35976310P 2010-06-29 2010-06-29

Publications (2)

Publication Number Publication Date
TW201142826A TW201142826A (en) 2011-12-01
TWI443646B true TWI443646B (zh) 2014-07-01

Family

ID=43877072

Family Applications (2)

Application Number Title Priority Date Filing Date
TW103112991A TWI557723B (zh) 2010-02-18 2011-01-24 解碼方法及系統
TW100102481A TWI443646B (zh) 2010-02-18 2011-01-24 音訊解碼器及使用有效降混之解碼方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
TW103112991A TWI557723B (zh) 2010-02-18 2011-01-24 解碼方法及系統

Country Status (36)

Country Link
US (3) US8214223B2 (zh)
EP (2) EP2698789B1 (zh)
JP (2) JP5501449B2 (zh)
KR (2) KR101707125B1 (zh)
CN (2) CN102428514B (zh)
AP (1) AP3147A (zh)
AR (2) AR080183A1 (zh)
AU (1) AU2011218351B2 (zh)
BR (1) BRPI1105248B1 (zh)
CA (3) CA2794029C (zh)
CO (1) CO6501169A2 (zh)
DK (1) DK2360683T3 (zh)
EA (1) EA025020B1 (zh)
EC (1) ECSP11011358A (zh)
ES (1) ES2467290T3 (zh)
GE (1) GEP20146086B (zh)
GT (1) GT201100246A (zh)
HK (2) HK1160282A1 (zh)
HN (1) HN2011002584A (zh)
HR (1) HRP20140506T1 (zh)
IL (3) IL215254A (zh)
MA (1) MA33270B1 (zh)
ME (1) ME01880B (zh)
MX (1) MX2011010285A (zh)
MY (1) MY157229A (zh)
NI (1) NI201100175A (zh)
NZ (1) NZ595739A (zh)
PE (1) PE20121261A1 (zh)
PL (1) PL2360683T3 (zh)
PT (1) PT2360683E (zh)
RS (1) RS53336B (zh)
SG (1) SG174552A1 (zh)
SI (1) SI2360683T1 (zh)
TW (2) TWI557723B (zh)
WO (1) WO2011102967A1 (zh)
ZA (1) ZA201106950B (zh)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8948406B2 (en) * 2010-08-06 2015-02-03 Samsung Electronics Co., Ltd. Signal processing method, encoding apparatus using the signal processing method, decoding apparatus using the signal processing method, and information storage medium
US20120033819A1 (en) * 2010-08-06 2012-02-09 Samsung Electronics Co., Ltd. Signal processing method, encoding apparatus therefor, decoding apparatus therefor, and information storage medium
TWI665659B (zh) 2010-12-03 2019-07-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
KR101809272B1 (ko) * 2011-08-03 2017-12-14 삼성전자주식회사 다 채널 오디오 신호의 다운 믹스 방법 및 장치
CN104011655B (zh) * 2011-12-30 2017-12-12 英特尔公司 管芯上/管芯外存储器管理
KR101915258B1 (ko) * 2012-04-13 2018-11-05 한국전자통신연구원 오디오 메타데이터 제공 장치 및 방법, 오디오 데이터 제공 장치 및 방법, 오디오 데이터 재생 장치 및 방법
AU2013284703B2 (en) 2012-07-02 2019-01-17 Sony Corporation Decoding device and method, encoding device and method, and program
BR112014004128A2 (pt) * 2012-07-02 2017-03-21 Sony Corp dispositivo e método de decodificação, dispositivo e método de codificação, e, programa
KR20150012146A (ko) * 2012-07-24 2015-02-03 삼성전자주식회사 오디오 데이터를 처리하기 위한 방법 및 장치
AU2013298463A1 (en) * 2012-08-03 2015-02-19 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases
JP6242916B2 (ja) 2013-01-21 2017-12-06 ドルビー ラボラトリーズ ライセンシング コーポレイション メタデータのトランスコード
CN109036443B (zh) 2013-01-21 2023-08-18 杜比实验室特许公司 用于在不同回放设备之间优化响度和动态范围的系统和方法
KR20140117931A (ko) 2013-03-27 2014-10-08 삼성전자주식회사 오디오 디코딩 장치 및 방법
MY172606A (en) 2013-03-28 2019-12-05 Dolby Int Ab Rendering of audio objects with apparent size to arbitrary loudspeaker layouts
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
TWI557727B (zh) 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
EP2981956B1 (en) * 2013-04-05 2022-11-30 Dolby International AB Audio processing system
CN108806704B (zh) * 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
US8804971B1 (en) * 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
CN104143334B (zh) * 2013-05-10 2017-06-16 中国电信股份有限公司 可编程图形处理器及其对多路音频进行混音的方法
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
EP2973551B1 (en) 2013-05-24 2017-05-03 Dolby International AB Reconstruction of audio scenes from a downmix
IL302328B1 (en) 2013-05-24 2024-01-01 Dolby Int Ab Encoding audio scenes
US11146903B2 (en) 2013-05-29 2021-10-12 Qualcomm Incorporated Compression of decomposed representations of a sound field
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830043A3 (en) 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for Processing an Audio Signal in accordance with a Room Impulse Response, Signal Processing Unit, Audio Encoder, Audio Decoder, and Binaural Renderer
ES2641538T3 (es) 2013-09-12 2017-11-10 Dolby International Ab Codificación de contenido de audio multicanal
US9521501B2 (en) * 2013-09-12 2016-12-13 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
CN109785851B (zh) 2013-09-12 2023-12-01 杜比实验室特许公司 用于各种回放环境的动态范围控制
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US9489955B2 (en) * 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
CN106030693A (zh) * 2014-02-18 2016-10-12 杜比国际公司 从音频比特流估计节奏度量
CA2945280C (en) * 2014-04-11 2023-03-07 Samsung Electronics Co., Ltd. Method and apparatus for rendering sound signal, and computer-readable recording medium
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
JP6683618B2 (ja) * 2014-09-08 2020-04-22 日本放送協会 音声信号処理装置
US9886962B2 (en) * 2015-03-02 2018-02-06 Google Llc Extracting audio fingerprints in the compressed domain
US9837086B2 (en) * 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US10672408B2 (en) * 2015-08-25 2020-06-02 Dolby Laboratories Licensing Corporation Audio decoder and decoding method
US10015612B2 (en) 2016-05-25 2018-07-03 Dolby Laboratories Licensing Corporation Measurement, verification and correction of time alignment of multiple audio channels and associated metadata
CN116631413A (zh) 2017-01-10 2023-08-22 弗劳恩霍夫应用研究促进协会 音频解码器、提供解码的音频信号的方法、和计算机程序
US10210874B2 (en) * 2017-02-03 2019-02-19 Qualcomm Incorporated Multi channel coding
CN111295872B (zh) 2017-11-10 2022-09-09 皇家Kpn公司 获得场景中的对象的图像数据方法、系统以及可读介质
TWI681384B (zh) * 2018-08-01 2020-01-01 瑞昱半導體股份有限公司 音訊處理方法與音訊等化器
JP2022511156A (ja) 2018-11-13 2022-01-31 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ信号及び関連するメタデータによる空間オーディオの表現
CN110035299B (zh) * 2019-04-18 2021-02-05 雷欧尼斯(北京)信息技术有限公司 沉浸式对象音频的压缩传输方法与系统
CN110417978B (zh) * 2019-07-24 2021-04-09 广东商路信息科技有限公司 菜单配置方法、装置、设备及存储介质
JP7314398B2 (ja) * 2019-08-15 2023-07-25 ドルビー・インターナショナル・アーベー 変更オーディオビットストリームの生成及び処理のための方法及び装置
CN113035210A (zh) * 2021-03-01 2021-06-25 北京百瑞互联技术有限公司 一种lc3音频混合方法、装置及存储介质

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5274740A (en) 1991-01-08 1993-12-28 Dolby Laboratories Licensing Corporation Decoder for variable number of channel presentation of multidimensional sound fields
JP4213708B2 (ja) * 1995-09-29 2009-01-21 ユナイテッド・モジュール・コーポレーション オーディオ復号装置
US5867819A (en) 1995-09-29 1999-02-02 Nippon Steel Corporation Audio decoder
US6128597A (en) * 1996-05-03 2000-10-03 Lsi Logic Corporation Audio decoder with a reconfigurable downmixing/windowing pipeline and method therefor
SG54379A1 (en) 1996-10-24 1998-11-16 Sgs Thomson Microelectronics A Audio decoder with an adaptive frequency domain downmixer
SG54383A1 (en) * 1996-10-31 1998-11-16 Sgs Thomson Microelectronics A Method and apparatus for decoding multi-channel audio data
US5986709A (en) 1996-11-18 1999-11-16 Samsung Electronics Co., Ltd. Adaptive lossy IDCT for multitasking environment
US6005948A (en) * 1997-03-21 1999-12-21 Sony Corporation Audio channel mixing
TW405328B (en) * 1997-04-11 2000-09-11 Matsushita Electric Ind Co Ltd Audio decoding apparatus, signal processing device, sound image localization device, sound image control method, audio signal processing device, and audio signal high-rate reproduction method used for audio visual equipment
US5946352A (en) 1997-05-02 1999-08-31 Texas Instruments Incorporated Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain
EP0990368B1 (en) 1997-05-08 2002-04-24 STMicroelectronics Asia Pacific Pte Ltd. Method and apparatus for frequency-domain downmixing with block-switch forcing for audio decoding functions
US6141645A (en) 1998-05-29 2000-10-31 Acer Laboratories Inc. Method and device for down mixing compressed audio bit stream having multiple audio channels
US6246345B1 (en) 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
JP2002182693A (ja) 2000-12-13 2002-06-26 Nec Corp オーディオ符号化、復号装置及びその方法並びにその制御プログラム記録媒体
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
ES2298394T3 (es) 2001-05-10 2008-05-16 Dolby Laboratories Licensing Corporation Mejora de sesiones transitorias de sistemas de codificacion de señales de audiofrecuencia a baja velocidad de transferencia de bits por reduccion de preruidos.
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
EP1502361B1 (en) * 2002-05-03 2015-01-14 Harman International Industries Incorporated Multi-channel downmixing device
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
JP2004194100A (ja) * 2002-12-12 2004-07-08 Renesas Technology Corp オーディオ復号再生装置
AU2003285787A1 (en) * 2002-12-28 2004-07-22 Samsung Electronics Co., Ltd. Method and apparatus for mixing audio stream and information storage medium
KR20040060718A (ko) * 2002-12-28 2004-07-06 삼성전자주식회사 오디오 스트림 믹싱 방법, 그 장치 및 그 정보저장매체
US7318027B2 (en) 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
US7318035B2 (en) 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
WO2005083684A1 (en) * 2004-02-19 2005-09-09 Koninklijke Philips Electronics N.V. Decoding scheme for variable block length signals
US7516064B2 (en) 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
ATE527654T1 (de) * 2004-03-01 2011-10-15 Dolby Lab Licensing Corp Mehrkanal-audiodecodierung
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
WO2006126843A2 (en) * 2005-05-26 2006-11-30 Lg Electronics Inc. Method and apparatus for decoding audio signal
KR20070003594A (ko) * 2005-06-30 2007-01-05 엘지전자 주식회사 멀티채널 오디오 신호에서 클리핑된 신호의 복원방법
JP2009500657A (ja) * 2005-06-30 2009-01-08 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
KR100771401B1 (ko) 2005-08-01 2007-10-30 (주)펄서스 테크놀러지 프로그래머블 프로세서에서 mpeg-2 또는 mpeg-4aac 오디오 복호 알고리즘을 처리하기 위한 연산 회로및 연산 방법
KR100760976B1 (ko) 2005-08-01 2007-09-21 (주)펄서스 테크놀러지 프로그래머블 프로세서에서 mpeg-2 또는 mpeg-4aac 오디오 복호 알고리즘을 처리하기 위한 연산 회로및 연산 방법
KR100803212B1 (ko) * 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
KR100953642B1 (ko) * 2006-01-19 2010-04-20 엘지전자 주식회사 미디어 신호 처리 방법 및 장치
CN101371298A (zh) * 2006-01-19 2009-02-18 Lg电子株式会社 用于解码信号的方法和装置
WO2007110103A1 (en) * 2006-03-24 2007-10-04 Dolby Sweden Ab Generation of spatial downmixes from parametric representations of multi channel signals
EP2038878B1 (en) * 2006-07-07 2012-01-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for combining multiple parametrically coded audio sources
JP2008236384A (ja) * 2007-03-20 2008-10-02 Matsushita Electric Ind Co Ltd 音声ミキシング装置
JP4743228B2 (ja) * 2008-05-22 2011-08-10 三菱電機株式会社 デジタル音声信号解析方法、その装置、及び映像音声記録装置
EP2306452B1 (en) * 2008-07-29 2017-08-30 Panasonic Intellectual Property Management Co., Ltd. Sound coding / decoding apparatus, method and program

Also Published As

Publication number Publication date
CA2794047A1 (en) 2011-08-25
PE20121261A1 (es) 2012-09-14
NZ595739A (en) 2014-08-29
MX2011010285A (es) 2011-12-16
EP2360683A1 (en) 2011-08-24
CN102428514A (zh) 2012-04-25
EP2360683B1 (en) 2014-04-09
AU2011218351B2 (en) 2012-12-20
US20160035355A1 (en) 2016-02-04
HK1160282A1 (zh) 2012-08-10
GT201100246A (es) 2014-04-04
CO6501169A2 (es) 2012-08-15
JP2012527021A (ja) 2012-11-01
IL227702A0 (en) 2013-09-30
IL227701A (en) 2014-12-31
RS53336B (en) 2014-10-31
US8868433B2 (en) 2014-10-21
GEP20146086B (en) 2014-05-13
WO2011102967A1 (en) 2011-08-25
MA33270B1 (fr) 2012-05-02
TW201443876A (zh) 2014-11-16
TWI557723B (zh) 2016-11-11
EP2698789B1 (en) 2017-02-08
CN102428514B (zh) 2013-07-24
MY157229A (en) 2016-05-13
CN103400581A (zh) 2013-11-20
AR080183A1 (es) 2012-03-21
AP2011005900A0 (en) 2011-10-31
CN103400581B (zh) 2016-05-11
ECSP11011358A (es) 2012-01-31
NI201100175A (es) 2012-06-14
SI2360683T1 (sl) 2014-07-31
HN2011002584A (es) 2015-01-26
CA2794029A1 (en) 2011-08-25
AU2011218351A1 (en) 2011-10-20
BRPI1105248B1 (pt) 2020-10-27
SG174552A1 (en) 2011-10-28
IL215254A (en) 2013-10-31
EP2698789A2 (en) 2014-02-19
US20120016680A1 (en) 2012-01-19
JP5501449B2 (ja) 2014-05-21
CA2757643A1 (en) 2011-08-25
ES2467290T3 (es) 2014-06-12
IL227702A (en) 2015-01-29
HRP20140506T1 (hr) 2014-07-04
ZA201106950B (en) 2012-12-27
US8214223B2 (en) 2012-07-03
KR20120031937A (ko) 2012-04-04
CA2757643C (en) 2013-01-08
US9311921B2 (en) 2016-04-12
JP2014146040A (ja) 2014-08-14
PL2360683T3 (pl) 2014-08-29
KR20130055033A (ko) 2013-05-27
ME01880B (me) 2014-12-20
IL215254A0 (en) 2011-12-29
KR101707125B1 (ko) 2017-02-15
JP5863858B2 (ja) 2016-02-17
EP2698789A3 (en) 2014-04-30
BRPI1105248A2 (pt) 2016-05-03
HK1170059A1 (en) 2013-02-15
TW201142826A (en) 2011-12-01
AP3147A (en) 2015-03-31
US20120237039A1 (en) 2012-09-20
PT2360683E (pt) 2014-05-27
AR089918A2 (es) 2014-10-01
CA2794029C (en) 2018-07-17
EA025020B1 (ru) 2016-11-30
KR101327194B1 (ko) 2013-11-06
IL227701A0 (en) 2013-09-30
EA201171268A1 (ru) 2012-03-30
DK2360683T3 (da) 2014-06-16

Similar Documents

Publication Publication Date Title
TWI443646B (zh) 音訊解碼器及使用有效降混之解碼方法
EP3444815A1 (en) Multiplet-based matrix mixing for high-channel count multichannel audio
RU2648947C2 (ru) Параметрическая реконструкция аудиосигналов
BR112016001143B1 (pt) Codificador de áudio para codificar dados de entrada de áudio para obter dados de saída de áudio, decodificador de áudio para decodificar dados de áudio codificados e método de codificação de dados de entrada de áudio para obter dados de saída de áudio
BR112016001137B1 (pt) Decodificador de áudio, codificador de áudio, método para fornecer pelo menos quatro sinais de canal de áudio na base de uma representação codificada, e método para fornecer uma representação codificada na base de pelo menos quatro sinais de canal de áudio que usa uma extensão de largura de banda
KR20100095586A (ko) 신호 처리 방법 및 장치
CN107771346B (zh) 实现低复杂度格式转换的内部声道处理方法和装置
EP3120346B1 (en) Residual encoding in an object-based audio system
AU2013201583B2 (en) Audio decoder and decoding method using efficient downmixing
WO2024052499A1 (en) Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata
Chandramouli et al. Implementation of AC-3 Decoder on TMS320C62x