TW202101427A - 降混器及降混方法 - Google Patents

降混器及降混方法 Download PDF

Info

Publication number
TW202101427A
TW202101427A TW109107332A TW109107332A TW202101427A TW 202101427 A TW202101427 A TW 202101427A TW 109107332 A TW109107332 A TW 109107332A TW 109107332 A TW109107332 A TW 109107332A TW 202101427 A TW202101427 A TW 202101427A
Authority
TW
Taiwan
Prior art keywords
spectral
values
several
frequency
channel
Prior art date
Application number
TW109107332A
Other languages
English (en)
Other versions
TWI760705B (zh
Inventor
弗朗茲 羅伊特胡伯
伯恩德 埃德勒
依萊尼 弗托波勞
馬庫斯 穆爾特斯
帕拉維 馬本
薩斯洽 迪斯曲
Original Assignee
弗勞恩霍夫爾協會
愛爾朗根 紐倫堡 弗裡德裡希 亞歷山大大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會, 愛爾朗根 紐倫堡 弗裡德裡希 亞歷山大大學 filed Critical 弗勞恩霍夫爾協會
Publication of TW202101427A publication Critical patent/TW202101427A/zh
Application granted granted Critical
Publication of TWI760705B publication Critical patent/TWI760705B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Complex Calculations (AREA)
  • Superheterodyne Receivers (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

一種對具有至少兩個聲道的一多聲道訊號進行降混的降混器,包括:一加權值估計器(100),用於對該至少兩個聲道估計數個頻帶式加權值;一頻譜加權器(200),用於使用該數個頻帶式加權值對該至少兩個聲道的數個頻譜域表徵進行加權;一轉換器(300),用於將該至少兩個聲道的數個被加權的頻譜域表徵轉換成該至少兩個聲道的數個時間表徵;及一混合器(400),用於混合該至少兩個聲道的該數個時間表徵,以獲得一降混訊號。

Description

降混器及降混方法
本發明涉及音訊訊號處理,尤其涉及多聲道訊號的降混(downmixing)或音訊訊號的頻譜解析度轉換(spectral resolution converting)。
儘管一立體聲被編碼的位元流(stereo encoded bitstream)通常將被解碼以在一立體聲系統上被播放,但並非能夠接收一立體聲位元流的所有裝置都將始終能夠輸出一立體聲訊號。一種可能的情況是在僅具備一單聲道揚聲器(mono speaker)的一手機上播放該立體聲訊號。隨著新興的3GPP IVAS標準支持的多聲道行動通訊場景(multi-channel mobile communication scenarios)的到來,因此需要的是一立體聲對單聲道的降混(stereo-to-mono downmix)在盡可能地高效的情況下無額外延遲及複雜性,同時還要提供超越成就一簡單被動降混(simple passive downmix)的最佳可能的感知品質。
存在將一立體聲訊號轉換成一單聲道訊號的多種方法。最直接的方法是在時間域中通過一被動降混[1],藉由添加左與右聲道(left and right channels)以及將結果縮放來產生一中間訊號(mid-signal):
Figure 02_image001
基於時間域(time-domain)的更複雜(即主動)的降混方法還包括能量縮放(energy-scaling),為了達成保持訊號的整體能量[2] [3],相位對準(phase alignment)以避免抵消效應(cancellation effects)[4],以及防止由同調抑制(coherence suppression)引起的梳狀濾波器效應(comb-filter effects)[5]。
另一種方法是通過對於多個頻譜頻帶計算數個單獨加權因子,以一頻率相依方式(frequency-dependent manner)進行能量校正(energy-correction)。例如:這被完成以作為MPEG-H格式轉換器[6]的一部分,其中該降混在一混合QMF子頻帶表徵或該數個訊號的一STFT濾波器組被進行,並進行該數個聲道的其他先驗相位對準。在IVAS上下文中,一類似的頻帶式降混(band-wise downmix)(包括相位及時間對準)已被用於參數性低位元率(parametric low-bitrate)模式的DFT立體聲,其中該加權(weighting)及混合(mixing)被應用在該DFT域中[7]。
在對該立體聲訊號進行解碼後,在時間域中的一被動立體聲對單聲道降混(passive stereo-to-mono downmix)的簡單解決方案並不是理想的,因為眾所周知的是,一純粹被動降混(purely passive downmix)會帶來某些缺點,譬如相位抵消效應或能量的一般性損失,這可能取決於項目,而嚴重降低品質。
純粹基於時間域的其他主動降混方法可以緩解被動降混的某些問題,但是由於缺少頻率相依性加權(frequency-dependent weighting),因此仍然不是最佳選擇。
由於像IVAS這樣的行動通訊編解碼器在延遲及複雜性方面存在隱含性約束,因此使得像MPEG-H格式轉換器這樣的一專用後處理級對於應用一頻帶式降混而言也非一選項,因為對頻率域的必要轉換(transform)及轉回(back)將不可避免地導致複雜性及延遲的增加。
對於像[8]中那樣利用TCX轉換編碼與塊切換(block switching)的一立體聲編解碼器模式(stereo codec mode),可以使用不同的模式:例如:每幀(per frame)具備一塊(block)大小為20 ms(TCX20),及每幀具備兩個子塊(subblock)大小為10毫秒(TCX10)。每個子塊是一完整10 ms的TCX10塊,或是又被細分為兩個5 ms的塊(TCX5)。對於每個聲道都獨立於另一個聲道做出使用哪種模式的決策。這意謂著可以在該數個聲道之間做出不同的決策。由於該各別頻譜域表徵的時間頻率解析度不同,這使得使用與在[7]中被描述使用在基於DFT的立體聲編碼器的完全相同的降混方法(該數個聲道的進行頻帶式加權,然後在該DFT域中進行單聲道降混)是不可行的。
本發明的目的是提供一種用於音訊訊號處理的一改良概念。
此目的由請求項1或35的一種降混器、請求項46或47的一種降混方法或請求項48的一種電腦程式實現。
根據本發明的一第一方面,一降混器包括一加權值估計器、一頻譜加權器、一轉換器及一後續被連接的混合器。在一第一聲道的一頻譜域表徵進行一頻譜加權及在一第二聲道的該頻譜域表徵進行一加權以及在視情況而定的其他數個聲道的數個頻譜域表徵進行該頻譜加權之後,進行從該頻譜域到該時間域的轉換。該被加權的頻譜域表徵從該頻譜域表徵被轉換成該相應聲道的一時間表徵。在該時間域中,進行一混合以便獲得一降混訊號作為該降混器的一輸出。此過程允許在該頻譜域中進行一有用且高效而仍為高音質的加權,但是仍然允許對該頻譜域中的各個聲道進行個別處理,這是與在單一作業中進行頻譜域加權及降混的一情況相比較的。在這種情況下,不再可能進行個別的聲道處理。因為在該頻譜加權及降混之後,存在單一降混訊號。因此,根據本發明的這個方面,仍然可以在頻譜域中進行一個別聲道處理,但此該頻譜域中的個別處理是在該頻譜加權之後被進行。
在至少兩個聲道具有不同的時間或頻率解析度的一情況下,對於該至少兩個聲道的該數個頻帶式加權值的計算需要將對於該個別頻帶的該至少兩個聲道的一個或兩個頻譜域表徵轉換成具有相同時間或頻率解析度的數個相應表徵。該數個頻帶式加權值可以被計算。然而,在此方面,該頻帶式加權值不被應用於該被轉換的頻譜域表徵或者該兩個或更多個被組合的頻譜表徵。替代的是,該頻譜加權被應用於原始頻譜域表徵,從中衍生該被組合的頻譜域表徵。因此,被確保的是,該數個被加權的頻譜域表徵依賴於該原始頻譜域表徵且唯該數個加權值無論如何都基於對能量的某些估計,較佳地,使用在降混之前對於該數個聲道中的一頻帶的一目標能量及對於該降混訊號的一頻帶的一目標能量被衍生自一個或更多個被組合的頻譜域表徵,該一個或更多個被組合的頻譜域表徵至少在某些方面與該原始頻譜域表徵不同。
較佳地,用於將該數個被加權的頻譜域表徵轉換成數個時間表徵的該轉換器具有數個構件。一個構件是實際的頻率時間轉換器,另一個構件是在該時間域中使用數個參數的一聲道式後處理(channel-wise post processing),該數個參數已例如以多聲道訊號經由旁訊息(side information)被發送,該數個頻譜域表徵來自其中。替代地,該後處理器在實際的頻率時間轉換之前被應用。該數個控制參數操控該數個個別聲道的一頻譜域處理。然而,較佳首先具有該頻率時間轉換器,並且具有該後處理器,用於使用數個聲道式控制參數對該至少兩個聲道的數個時間域表徵進行後處理,該數個聲道式控制參數衍生自該多聲道訊號的旁訊息或者實際上是在該降混器處經由用戶輸入或任何其他參數而被產生或輸入的。在進行此時間域後處理之後,該混合器在該處實際產生該降混訊號。
由於將該數個頻帶式加權值應用於該原始頻譜域表徵,並且由於該數個頻帶式加權值始終基於某種功率的事實或影像估計被衍生自一個或更多個(人工創建的)被組合的頻譜域表徵,此過程提供一高品質的音訊訊號處理。另一方面,由於數個個別聲道的任何可能需要的時間域或頻率域處理仍然可以被進行的事實,因此一高處理靈活度被實現,因為實際的混合步驟是在該處理鏈中出現的最後一步,當所有必需的個別聲道處理均已被應用。此外,此過程是高效的,因為當實際的降混作業將是該處理鏈中的第一個處理作業時,此過程不需要數個控制參數的任何降混或使得將為所需的。
根據本發明的一第二方面,一種用於轉換一頻譜解析度的裝置包括一頻譜值計算器,用於以一第一方式從一個或更多個頻譜域表徵的數個子幀的每個子幀組合屬於該相同頻率分格的數個頻譜值,以獲得數個被組合的頻譜值的一第一群組,並且用於以一第二方式從該頻譜域表徵的每個子幀組合屬於該相同頻率分格的數個頻譜值,以獲得數個被組合的頻譜值的一第二群組。該第二方式不同於該第一方式,並且數個頻譜值的該第一群組及該第二群組表示一被組合的頻譜域表徵,該被組合的頻譜域表徵具有不同時間分格大小及不同頻率分格大小。當存在來自一短時間頻率轉換的一對頻譜表徵時,該短時間頻率轉換顯示一高時間解析度但為一低頻率解析度,此頻譜解析度轉換特別有用。
根據本發明的第二方面,這對短頻譜域表徵被轉換成具有一高頻譜解析度但具有一低時間解析度的單一長頻譜域表徵。這種從一個時間/頻率解析度(高時間解析度及低頻率解析度)到另一個時間/頻率解析度(低時間解析度及高頻率解析度)的轉換無需進行在一時間域表徵之間的任何實際計算。因此,本發明僅以兩種不同方式應用屬於相同頻率分格的數個頻譜值的一頻譜域組合,而不是將由兩個短頻譜域表徵轉換成該時間域及將結果再次轉換成該頻譜域所組成的常規過程。因此,與進行效率極低並且產生大量延遲的兩個頻率時間轉換及一個時間頻率轉換相比,本發明僅提供需要基本的算術組合運算,諸如將兩個值相加或將兩個值相減,以便從該兩個低頻解析度頻譜域表徵獲得一高頻譜域表徵。較佳地,該第一組合規則是一低通濾波,或者換句話說,屬於相同低解析度頻率分格的該兩個頻譜值的一加法或一被加權的加法,而根據該第二方式的該數個頻譜值的該組合是一高通濾波或在兩個頻譜值之間的一差異的一計算。該相應的兩個相鄰的序列頻譜值被轉換成兩個頻率相鄰的頻譜值,其中該兩個頻率相鄰的頻譜值中的一個是來自該低通濾波作業的較低頻譜值,而下一個是來自該高通作業的較高頻譜值。
下一個過程是再次以相同過程計算下一對高頻譜解析度頻譜值,即是,對於通常代表一低通特性的較低頻譜值進行一第一組合,並且對於代表該對頻譜值中的較高頻譜值的一高通作業的較高頻譜值進行另一組合。
根據本發明的第二方面所產生的該被組合的頻譜域表徵可以被用於不同目的。在本發明的第一方面中,該被組合的頻譜域表徵被用於衍生該數個頻帶式加權值。這是特別有用的,當一第一聲道頻譜域表徵具有一低時間解析度及一高頻譜解析度,並且該至少兩個聲道中的一第二聲道具有兩個高時間解析度頻譜域表徵,該兩個高時間解析度頻譜域表徵均具有一被轉換成低的且,從通過該轉換所產生的該被組合的頻譜域表徵,該數個頻帶式加權值可被衍生。在進一步的使用中,通過任何有用的進一步處理,諸如在時間域中進行轉換,該被組合的頻譜域表徵可以被進一步處理,以及將該被轉換的頻譜用於重播或儲存或音訊訊號壓縮的目的。另一個過程將對該被組合的頻譜域表徵與具有相同頻譜解析度的另一個頻譜表徵一起進行一頻譜處理,例如:出於頻譜域降混的目的。
根據本發明的第三方面,使用頻譜加權進行該降混作業,其中基於每頻帶的一目標能量值計算該數個頻帶式加權值,使得在一降混訊號的該頻帶中的一能量為處於一預定關係,諸如相等或在該至少兩個聲道的數個相同頻帶中的兩個能量中的較高值的+/-30%的一公差範圍內相等。該數個能量驅動的頻帶式加權值被應用於該至少兩個聲道的數個頻譜域表徵,並且在如本發明第一方面的該時間域中或根據需要在該頻譜範圍中,使用該至少兩個聲道的該數個被加權的頻譜域表徵計算該降混訊號。
在一情況中,該數個頻譜域表徵是純實數的諸如在一MDCT轉換或該數個頻譜域表徵是純虛數時諸如在應用一MDST(被修改的離散正弦轉換)時,該加權值估算器被配置為從純實數的或者是純虛數的現有頻譜域表徵中估算其他頻譜域表徵。因此,當一實數值的頻譜域表徵(real-valued spectral domain representation)存在時,該虛數頻譜域表徵被估計,並且當一虛數頻譜域表徵存在時,該實值頻譜域表徵被估計。這些估計值被用於計算該第一聲道在該頻帶中的一能量、計算該第二聲道在該頻帶中的一能量,並且計算該數個聲道之間的數個混合項(spectral values),取決於來自該至少兩個聲道在該頻帶中的數個頻譜值的一乘積或一線性組合。
在一降混的情況下計算用於一頻譜加權(spectral weighting)的該數個頻帶式加權值的過程可以被應用在該第一方面中,其中在該頻譜加權與該降混之間發生該頻率時間轉換及一些時間域後處理(time domain post processing)。關於本發明的第二方面,被用於根據該目標能量特徵計算該數個頻譜域加權值的一個或兩個聲道的該頻譜域表徵被衍生自該數個原始頻譜域表徵或被衍生自如已由關於本發明的該第二方面被圖解說明的或關於該第一方面被圖解說明的該頻譜解析度轉換所產生的一個或兩個被組合的頻譜域表徵。
在一方面,由於該頻譜加權可以通過對一頻帶中的每個頻譜值應用一個及相同的加權值以輕易被進行的事實,將使用基於每頻帶的一目標能量值所衍生的數個頻帶式加權值用於頻譜加權的降混是高效的,特別是,當數個心理聽覺激勵頻寬(psycho-acoustically motivated bandwidths)被應用時,從處於數個低頻的數個小的頻寬增加到處於數個高頻的數個高的頻寬。例如:當一高的頻帶被考慮為具有例如100個或更多個頻譜值時,僅有對於此頻帶的單個加權值進行計算,並且此單個加權值被應用於每個單獨的頻譜值。對於此過程,僅需要適度的計算資源,因為例如通過乘法進行的加權是一種低資源且低延遲的過程,並且,與此同時,此過程在一頻帶中將相同的加權值應用於每個頻譜值對由某些並行硬體處理器來並行化(parallelized)的手段具有一高的潛力。另一方面,當待被降混的兩個聲道彼此之間處於一相位關係而在降混方面是有問題的,即,當兩個聲道彼此高度相關並且具有一定的相位關係時,可以獲得該降混訊號的一高音訊品質,而不會發生諸多訊號抵消(signal cancellations)或其他人為產物。
第1圖以圖解說明用於本發明的第一方面的一降混器的一實施例。該降混器包括一加權值估計器(weighting value estimator)100、一頻譜加權器(spectral weighter)200及一輸入部(input),該頻譜加權器200與該加權值估計器100連接,該輸入部用於一第一或左聲道(channel)以及一第二或右聲道。該頻譜加權器200被連接到一轉換器(converter)300,用於將該至少兩個聲道的數個被加權的頻譜域表徵(weighted spectral domain representations)轉換成該至少兩個聲道的數個時間表徵(time representations)。這些時間表徵被輸出到一混合器(mixer),用於混合該至少兩個聲道的該數個時間表徵,以獲得一時間域降混訊號(time-domain downmix signal)。較佳地,該轉換器300包括一頻率時間轉換器(frequency-time converter)310及一後續被連接的後處理器(subsequently connected post-processor)320。該頻率時間轉換器310實際上在時間域中進行該數個被加權的頻譜域表徵的轉換,並且作為一可選功能的該後處理器320分別使用對於該左聲道及該右聲道的數個控制參數對已經呈現在時間域中的該第一聲道及該第二聲道進行一聲道自主處理(channel-independent processing)。該轉換器300被配置為藉由該頻率時間轉換器310的手段,使用一頻譜時間轉換演算法(spectrum-time conversion algorithm)以產生該數個原始時間表徵,並且附加地,該轉換器300被配置為藉由該後處理器320的手段,將該數個原始時間表徵個別地進行後處理,並且特別地,在訊號處理方向於由該混合器進行混合之前使用對於該數個聲道的單獨控制資訊,以獲得該至少兩個聲道的該數個時間表徵。
較佳地,該後處理器320被配置為進行一低音後濾波(bass post-filtering)、一TCX-LTP(轉換編碼激勵長期預測,transform coded excitation long term prediction)處理或一LPC(線性預測編碼,linear prediction coding)合成,作為該後處理作業。在該數個頻譜加權聲道上運作但在實際混入該降混訊號前運作該後處理器的優點是可作為數個單獨參數的數個參數,用於對於該左聲道及右聲道或者通常用於該多聲道訊號的兩個或更多個聲道中的一個別聲道(individual channel),在沒有任何參數進行降混的情況下,仍可以被使用。在其他方面,當將該降混與該頻譜加權一起進行時,使得該頻率時間轉換器310的輸出處已存在一時間域降混訊號(time domain downmix signal),這樣的一過程將是必需的。
通常地,該多聲道訊號可以包括兩個聲道,即,左聲道及右聲道,或者多聲道訊號包括多於兩個的聲道,諸如三個或更多個聲道。在這種情況下,該加權值估計器100被配置為對於該至少兩個聲道中的一第一聲道的數個頻帶計算數個第一頻帶式加權值(a plurality of first band-wise weighting values),並且對於該至少兩個聲道中的一第二聲道的該數個頻帶計算一第二數量的頻帶式加權值(a second plurality of band-wise weighting values)。此外,該加權值估計器100被配置為對於具有兩個以上聲道的該多聲道訊號的一第一聲道的數個頻帶計算該數個第一頻帶式加權值,並且對於該兩個以上聲道中的一第二聲道的該數個頻帶計算一第二數量的頻帶式加權值,以及對於該兩個以上聲道中的一第三聲道甚至另一聲道的該數個頻帶計算該額外數量的頻帶式加權值。
特別地,該至少兩個聲道的該數個頻譜域表徵各自包括數個頻率分格的一集合(a set of frequency bins),其中數個頻譜值與該數個頻率分格相關聯。特別地,該加權值估計器100被配置為對於數個頻帶計算該數個頻帶加權值,其中每個頻帶包括一個、兩個或更多個頻譜值,並且較佳地,每頻帶的頻率分格的數量隨著具有一較高中心頻率的數個頻帶而增加,以便獲得該數個頻譜域表徵被心理聽覺動機細分(psycho-acoustically motivated subdivision)為具備不均勻頻寬的數個頻帶。
該降混器的一種較佳實現方案如第2圖所圖解說明。該多聲道訊號可用作一立體聲位元流(stereo bitstream),並且被饋送到一立體聲解碼器(stereo decoder)500,該立體聲解碼器500較佳地被實現為一MDCT立體聲解碼器(MDCT stereo decoder)。此外,該加權值估計器包括一左值計算器(left value calculator)110、一右值計算器(right value calculator)112,以及附加地,用於該左聲道的一虛數部分估計器(imaginary part estimator)120及用於該右聲道的一虛數部分估計器122。在第2圖的實施例中,該立體聲解碼器500是一MDCT立體聲解碼器,這意謂著該被解碼的左及右聲道的數個頻譜表徵具有數個純實數的頻譜值,即數個MDCT值。該數個虛數部分估計器120、122將產生數個純虛數的頻譜值,即數個MDST(被修改的離散正弦轉換)值。來自這些資訊項目(information items),即,該數個頻譜域表徵及該數個被估計的頻譜值,該數個加權因子被計算並被轉發到該頻譜加權器200,以進行如第2圖所指示的一頻帶式加權(band-wise weighting)。該數個被加權的頻譜域表徵被轉發到數個相應的頻率時間轉換器(corresponding frequency-time converters)310,該數個相應的頻率時間轉換器310被實現為用於每個聲道的一IMDCT轉換器(IMDCT converter)。此外,一可選的後處理器(optional post-processor)320還被圖解說明用於每個聲道,並且,該被轉換的且可選為被後處理的資料被輸入到該降混器DMX 400中,以產生該時間域降混訊號,意即,在第2圖的實施例中,一單聲道輸出訊號(mono output signal),但也可以是一多聲道訊號(multichannel signal),只要該降混訊號的一個或更多個聲道的數量低於在進行降混(downmixing)前的該多聲道訊號的數個聲道的數量。
替代地,當該多聲道解碼器或立體聲解碼器500被實現為一虛數值解碼器(imaginary value decoder)諸如一MDST解碼器時,數個塊120、122將估計純實數的資料諸如數個MDCT值。因此,通常地,該加權值估計器100被配置為當該頻譜域表徵是純實數時估計一虛數頻譜表徵(imaginary spectral representation),或當該原始頻譜域表徵是純虛數時估計該實數頻譜表徵。此外,該加權值估計器110被配置為使用該被估計的虛數頻譜表徵或該被估計的實數頻譜表徵,以估計該數個加權值,視情況而定(as the case may be)。這對於基於每頻帶的一目標能量值的數個頻譜頻帶式加權值(spectral band-wise weighting values)的一計算(calculation)特別有用,因而,在該降混訊號的一頻帶中的一能量與該至少兩個聲道的相同頻帶中的數個能量處於一預定關係(predetermined relation)。較佳地,該預定關係為在該降混訊號的一頻帶中的該能量是該至少兩個聲道中的數個相同頻帶的該數個能量之總和。但是,其他預定關係也是有用的。示例性地,該預定關係可以跨度(span)自該兩個聲道的該總和的75%至125%,作為該降混訊號的該相應頻帶的該能量。然而,在一最為較佳的實施例中,預定關係是在一公差範圍為+/-10%內的平等性或相等性(the equality or the equality)。
第3a圖以圖解說明該加權值估計器100的一較佳實現方案(preferred implementation)。特別地,當該至少兩個聲道的該數個頻譜域表徵具有不同的時間或頻率解析度時,此實現方案對於計算該數個加權值是有用的。如塊或步驟130所示,該加權值估計器100被配置為檢查該第一聲道及該第二聲道的該數個頻譜域表徵的該數個時間/頻率解析度是否彼此不同。在數個相等的時間或頻率解析度的情況下,該加權值估計器100被配置為計算對於該第一或左聲道的由wL 所指示及對於該第二或右聲道的由wR 所指示的該數個頻帶式加權因子或數個頻帶式加權值(band-wise weighting factors or band-wise weighting values)。
替代地,當在塊130中由該加權值估計器100決定在一特定時間段內的該左聲道與右聲道或第一聲道與第二聲道之間的該數個時間或頻率解析度不相等時,如稍後關於第4a圖所圖解說明的,該加權值估計器100被配置為計算132一個或兩個被組合的頻譜域表徵(combined spectral domain representations)。特別地,該至少兩個聲道中的一第一聲道的一第一頻譜域表徵具有一第一時間解析度或一第一頻率解析度,並且該至少兩個聲道中的一第二聲道的一第二頻譜域表徵具有一第二時間解析度或一第二頻率解析度,其中該第二時間解析度不同於該第一時間解析度,或者其中該第二頻率解析度不同於該第一頻率解析度。該加權值估計器100被配置為轉換或計算132該第一頻譜域表徵為具有該第二時間解析度或該第二頻率解析度的一被組合的頻譜域表徵,並且使用該被組合的頻譜域表徵及該第二頻譜域表徵計算該數個頻帶式加權值。替代地,該第二頻譜域表徵被轉換成具有該第一時間解析度或該第一頻率解析度的一被組合的頻譜域表徵,並且使用該被組合的頻譜域表徵及該第一頻譜域表徵計算該數個頻帶式加權值。替代地,當一第一聲道的該第一頻譜域表徵具有一第一時間解析度或一第一頻率解析度,並且該至少兩個聲道的一第二聲道的該第二頻譜域表徵具有一第二時間解析度或一第二頻率解析度時,其中該第二時間解析度不同於該第一時間解析度,或者該第二頻率解析度不同於該第一時間解析度,該加權值估計器100被配置為轉換或計算132該第一頻譜域表徵為具有一第三時間解析度或一第三頻率解析度的一第一被組合的頻譜域表徵,其中該第三時間解析度不同於該第一時間解析度或該第二時間解析度,並且其中該第三頻率解析度不同於該第一頻率解析度及/或該第二頻率解析度。此外,該第二頻譜域表徵也被轉換成具有該第三時間解析度或該第三頻率解析度的一第二被組合的頻譜域表徵,並且使用該第一被組合的頻譜域表徵及該第二頻譜域表徵計算該數個頻帶式加權值。取決於如稍後關於第5a圖至第5d圖所敘述的實際情況,還可能存在以下情況,由塊134所計算的該數個頻帶式加權值或因子未被用於進行實際頻譜加權(actually spectrally weighting),而是如第3a圖中的136處所圖解說明的計算數個衍生頻帶式加權因子(derived band-wise weighting factors)。
通常地,假設該第一聲道具有一低的第一時間解析度及一高的第一頻率解析度,並且還假設該第二聲道具有一高的第二時間解析度及一低的第二頻率解析度,則該加權值估計器100的功能可以選擇為四種不同方式中的一種,用以在該頻譜域中的該第一與第二聲道之間的該數個解析度之間進行匹配,以便對於這些聲道計算數個頻譜域加權值。
第5a圖以圖解說明一第一實施例,其中數個頻帶式加權值被計算自兩個被組合的頻譜域表徵,其中該兩個被組合的頻譜域表徵均具有一低頻率解析度及一低時間解析度。
在第5b圖所圖解說明的該第二實施例中,僅單個被組合的頻譜域表徵被計算自該低頻率解析度表徵,因而,該數個頻帶式加權值被計算自均具有該高頻率解析度及該低時間解析度的一對頻譜域表徵。
第5c圖以圖解說明另一第三實施例,其中單個組合表徵被計算並且被用於使用均具有該低頻率解析度及該高時間解析度的兩個頻譜域表徵計算該數個頻譜域頻帶式加權值。
在第5d圖所圖解說明的一第四實施例中,該加權值估計器被配置為使用兩個被組合的表徵計算該數個頻帶式加權值,該兩個被組合的表徵均處於顯示該高頻率解析度及該高時間解析度的一格式。
第4a圖以圖解說明在該第一聲道及該第二聲道中存在兩種不同的解析度(時間及/或頻率)的一情況。在第4a圖中的第一部分顯示一幀,該幀在該第一聲道中具有一長塊(long block)並且在該第二聲道中具有兩個後續的短塊(subsequent short blocks)。該長塊可以例如是一TCX20塊。該短塊可以是兩個後續的TCX10塊。此外,第4a圖以圖解說明另一幀,被細分為兩個子幀(sub-frames)A、B,其中在該第一聲道中,該子幀A具有一短塊,而在該第二聲道中,該子幀也具有一短塊。然而,在第4a圖的該第二幀的子幀B中,該第一聲道具有一短塊(short block),並且該第二聲道具有兩個非常短塊(very short blocks),即,對於每個子子幀(sub-sub-frame)的一個非常短塊。該非常短塊例如可以是數個TCX5塊。通常地,該長塊比該短塊更長,並且該短塊比該非常短塊更長,當然,該非常短塊比該長塊更短。自然地,非必要的是,一個長塊具有與兩個短塊相同的長度。替代地,對於每個子子幀,可以存在三個短塊具有一被組合的長度等於一個長塊的長度,或者可以存在四個短塊諸如一非常短塊。其他細分也可以在那,亦即,在該第一聲道中的兩個長塊具有一被組合的長度等於在該第二聲道中的三個短塊的長度。該長塊、短塊及非常短塊的長度不必要是彼此成一整數關係。此外,甚至可以存在三個以上不同的塊長度,例如三個以上的塊長度或僅兩個不同的塊長度。
第4b圖以圖解說明在第一行中的一頻譜具備一高頻譜解析度的一表徵。數個頻譜值沿頻率線以數個整數被指示,並且第4b圖以圖解說明三個後續頻帶b1 、b2 、b3 ,其中每個代表數個較高頻率的頻帶比每個代表數個較低頻率的頻帶更寬。在該高頻譜解析度的情況下,諸如在一TCX20頻譜中,最低頻帶b1 具有四個頻譜線或頻譜值或頻譜分格(spectral bins)。在該實施例中,第二頻帶b2 具有八個頻譜值,並且第三頻譜頻帶b3 具有十二個頻譜分格。將該高頻譜解析度轉移或轉換成一中頻譜解析度表徵導致的事實是,從該高解析度頻譜表徵將數個頻譜值進行組合(或抽取),以便該中頻譜解析度諸如一TCX10解析度具有對於該第一頻帶的兩個頻譜分格、對於該第二頻帶b2 的四個頻譜分格及對於第三頻帶b3 的六個頻譜分格。再一次,將此中頻譜解析度與諸如出現在一TCX5塊的一低頻譜解析度表徵進行比較,該第一頻帶將僅具有單個頻率分格,該第二頻帶b2 將具有兩個頻率分格,並且該第三頻譜頻帶b3 將具有三個頻譜分格。藉由組合兩條或更多條相鄰頻譜線或藉由一抽取作業(decimation operation),該中頻譜解析度可以被轉換成該低頻譜解析度。
另一方面,一低頻譜解析度表徵可以藉由內插、複製或複印及濾波(interpolation or copying or copying and filtering)的方式被轉換成一較高解析度表徵,因而例如從在該第一頻帶b1 中用於該中頻譜解析度的該兩個頻譜分格,可以計算出如第4b圖所圖解說明的四個高解析度頻譜分格1、2、3、4。
這種新穎的方法旨在對於立體聲對單聲道轉換提供一種無延遲的、主動的、頻帶式降混方法,其中僅有該兩個通道的該數個頻譜頻帶的該頻帶式加權在頻率域中被完成,而對一單聲道訊號的實際降混為在轉換為時間域後藉由將該兩個頻譜加權訊號進行求和而被完成。
在兩個訊號的該數個頻譜域表徵均具有不同的時間頻率解析度(即,對於一個訊號的塊大小更短)的情況下,該加權計算將藉由在時間上及頻譜上組合數個相鄰的頻譜分格被調整,以便可以在相同的時間頻率區域完成互頻譜運算(cross-spectra computation)。
以這種方法,該兩個立體聲聲道的該時間頻率解析度不需要被一致化,因為如果數個聲道在這方面有所不同,則該數個聲道的一頻帶式加權(band-wise weighting)仍然可以被完成,而稍後當兩個頻譜加權聲道都已經被轉換回時間域時,臨界性立體聲對單聲道轉換(critical stereo-to-mono conversion)被完成。
諸多實施例在一解碼器側(decoder side)提供一被優化的、無延遲的立體聲對單聲道降混(optimized, delay-less stereo-to-mono downmix)。
諸多較佳方面涉及一主動降混,該主動降混具備頻帶式加權,該頻帶式加權具備數個被分離的加權(頻率域)及數個混合階段(時間域)。
另外的諸多較佳方面涉及在具備數個不同頻譜域表徵的數個聲道的情況下用於互頻譜相關性(cross-spectra correlation)的數個頻率分格的一時間/頻譜組合(temporal/spectral combination),其中這些方面可以與該數個降混方面分開被使用,或者與該數個降混方面一起被使用。
不同於像[7]這樣的諸多參數化立體聲編解碼器(parametric Stereo codecs),其中只有一個已經被降混的核心訊號隨著代表該立體聲圖像的幾個旁側參數(side parameters)被發送,對於一基於MDCT的離散立體聲應用,在該解碼器處沒有降混是可用的,其中兩個通道始終直接以一TCX編碼器被編碼。因此,該降混必須在該解碼器側被完全地產生。
第3b圖以圖解說明在第1圖被圖解說明的該加權值估計器100的一較佳實現方案。在步驟140中,該加權值估計器從該第一聲道及該第二聲道或者替代地從該第一聲道及一被組合的頻譜域表徵或者從該第二聲道及該被組合的頻譜域表徵或者從一第一被組合的頻譜域表徵及一第二被組合的頻譜域表徵估計(estimate)每頻率分格的數個相應的虛數或實數值頻譜值(corresponding imaginary or real value spectral values per frequency bin)。通常地,該加權值估計器被配置為使用該第一聲道在該頻帶中的一能量、該第二聲道在該頻帶中的能量及取決於來自該至少兩個聲道在該頻帶中的數個頻譜值的一乘積或一線性組合的一混合項計算該第一加權值及該第二加權值。在第3b圖中,該第一聲道的能量及該第二聲道的能量在塊140中被示例性地計算。此外,取決於一乘積的一混合項在塊148中被計算,以及取決於一線性組合的另一混合項在塊146中被計算。此外,相應於每頻帶的該數個頻譜分格的功率的一平方根的每頻帶的一“振幅(amplitude)”在塊144中被計算。
因此,如第3b圖所圖解說明,該第一加權值wL 被計算自對於兩個聲道的每頻帶的振幅且取決於一混合項,並且較佳地,該混合項取決於在塊146被圖解說明的該線性組合。此外,較佳的是,每頻帶的該加權向量(weighting vector)wL 使用每頻帶的即對於其他聲道的該加權值wR 被計算。對於其他聲道的該值,即每頻帶的wR ,最佳為基於該混合項被計算,該混合項取決於在148處被圖解說明的該乘積及該每頻帶的“數個振幅”,該每頻帶的“數個振幅”被塊144衍生自於塊142中被討論的數個相應聲道中的每頻帶的數個功率。
因此,較佳地,在來自該至少兩個聲道的該數個頻譜域表徵的該頻帶中被彼此相加的數個頻譜值的一能量的一平方根被使用作為該“數個振幅”,但是其他的“數個振幅”也可以被使用,諸如從一指數小於1且不同於1/2的數個冪所衍生的“數個振幅”。來自一頻帶的該數個頻譜值被線性組合,即彼此相加,並且取一平方根或具備小於1的一指數的任何其他取冪(exponentiation)的結果值,其中較佳地,對於在該頻帶中的該數個聲道的多個功率被附加地使用。
作為表示該乘積的該混合項,在該第一聲道的該頻帶中的該數個頻譜值與在該第二聲道的該頻帶中的該數個頻譜值之間的一複點乘積(complex dot product)的一絕對值也可以被決定,例如:在塊148的計算中。較佳地,將由該頻譜加權器200所決定的相同權重(weight)應用於該至少兩個聲道中的一個的該頻帶中的每個頻譜值,並且將另一權重應用於該至少兩個聲道中的另一聲道的該頻帶中的每個頻譜值。
隨後,可以被該加權值估計器100使用的每頻帶的該數個加權因子的計算的一較佳實現方案被圖解說明。
由於使用一被動降混(passive downmix)具有其缺點如上所述,因此使用一主動降混方案(active downmixing scheme)致使顯著改善許多項目。由於複雜性及延遲的緣故,在進行該立體聲解碼後對兩個聲道添加包括一DFT轉換的另一解碼器階段是不可行的,因此,該降混過程被完成如MDCT域及時間域處理的一組合。
首先,數個頻帶式權重被計算且被應用於兩個聲道的該數個MDCT表徵。這發生在該立體聲處理(譬如反MS等)之後,並且恰好在該IMCCT反轉換之前。該數個權重以在[7]中所述的該基於DFT的立體聲編碼器所使用的相同方案被計算,其目標是相位旋轉的中間聲道的能量(energy of the phase-rotated mid-channel):
Figure 02_image003
其中
Figure 02_image005
Figure 02_image007
分別代表該左聲道及右聲道的頻譜振幅。然後,基於此目標能量,對於該數個聲道的該權重可以對於每個頻譜頻帶被計算如下:
Figure 02_image009
Figure 02_image011
這些權重或頻帶式加權值wR 及wL 是每頻譜頻帶被計算的,其中每個頻帶涵括幾個MDCT分格,該幾個MDCT分格始於用於最低頻帶的數個分格的一低的編號譬如4,然後朝向數個更高的頻率增加,直到用於最高頻帶的幾個或數個分格譬如160。
由於該數個被發送的MDCT係數僅為實數的,藉由該估算[9],可以獲得對於每個聲道獲得用於節能加權(energy-preserving weighting)所需的數個互補MDST值(complementary MDST values):
Figure 02_image013
其中
Figure 02_image015
指定該頻譜分格編號。
對每個頻帶
Figure 02_image017
,使用此估計
Figure 02_image019
Figure 02_image021
被計算為:
Figure 02_image023
Figure 02_image025
被計算為:
Figure 02_image027
並且,
Figure 02_image029
被計算為該複點乘積的大小或絕對值:
Figure 02_image031
其中
Figure 02_image015
指定在頻譜頻帶
Figure 02_image017
內的分格編號。
儘管轉換不同且僅有數個被估計的能量,但是所得到的數個權重仍致使一與[7]中類似的降混。
在一第二步驟中,藉由對該兩個被頻譜地加權的聲道進行簡單求和與進行縮放,使該兩個被加權的聲道然後在時間域中被降混。
參考第2圖。
採用此組合方法的原因有兩方面:一方面,藉由將兩個聲道皆轉換回時間域,也在時間域中操作的後濾波譬如TCX-LTP可以使用從該數個個別聲道的核心編碼中被提取的數個參數(例如音高)運行在兩個聲道上,從而避免需要嘗試尋找適合該降混的數個均化參數(averaged parameters)。次之,更為關鍵的是,MDCT立體聲被配置為允許對於該兩個聲道採用不同的核心編碼器及/或重疊決策(different core coder and/or overlap decisions)。具體而言,這意謂著一個聲道能夠以譬如一個TCX20長塊(20ms的幀,較高的頻率解析度,較低的時間解析度)被編碼,而另一個聲道以譬如兩個TCX10短塊(2 x 10ms的子幀,較低的頻率解析度,較高的時間解析度)被編碼,其中一個或兩個短塊可以再次被分成兩個TCX5的子幀(2 x 5ms)。這使得進行一完整的頻譜域降混幾乎是不可能的。然而,該頻帶式加權可以獨自在MDCT域中直接被完成。
在第5a圖被圖解說明的一個實施例的工作如下:對於在該兩個聲道中的不同核心的特殊情況,作為該權重計算的部分的互頻譜相關性的運算必須被稍加調整。由於TCX20及TCX10的頻率及時間解析度不同,因此在左與右之間的點乘積無法被直接計算。反而,該數個MDCT分格必須被合併,以使它們涵蓋數個相同的時間頻率區域。對於TCX20來說,這意謂著始終組合兩個相鄰的分格,而對於TCX10來說,第一個子幀的每個分格必須與下一個子幀中的同一分格合併,例如:
Figure 02_image033
Figure 02_image035
如果
Figure 02_image037
是一TCX20的MDCT頻譜及
Figure 02_image039
是一TCX10的MDCT頻譜,其具備2個子幀,其中
Figure 02_image015
指定該頻譜分格編號,及
Figure 02_image041
Figure 02_image043
該數個TCX10子幀。該被估計的MDST頻譜也被完成相同的組合。
然後,以所得到的數個被組合的分格計算該互頻譜相關性
Figure 02_image029
及/或對於
Figure 02_image025
的值。這導致稍粗略些的相關性估計,但已被發現是完全足夠的。
在第5b圖被圖解說明的另一個實施例的工作如下:對於在該兩個聲道中的不同核心的特殊情況,作為該權重計算的部分的該互頻譜相關性計算必須稍加調整。由於TCX20及TCX10的頻率及時間解析度不同,因此在左與右之間的點乘積無法被直接計算。為了使其成為可能,具備較低的頻譜解析度的(子)幀的頻譜藉由以下公式被轉換成具備兩倍頻譜解析度的一頻譜的一近似值:
Figure 02_image045
Figure 02_image047
其中
Figure 02_image015
指定該頻譜分格編號及
Figure 02_image041
Figure 02_image043
該數個子幀具備較低解析度。這些加法及減法可以被視為高通濾波作業及低通濾波作業,它們將一個較低解析度分格分成兩個較高解析度分格,其中該濾波取決於該分格編號
Figure 02_image015
是偶數還是奇數(始於
Figure 02_image049
,用於最低的分格)。
這意謂著,如果一個聲道是TCX20,則另一聲道被轉換成相同的頻譜解析度。如果將另一個聲道的一個或兩個子幀再次被細分為兩個TCX5的“子子幀(sub-subframe)”,則這些先藉由相同的過濾被轉換成TCX10解析度,然後再次拆分以達成最終的TCX20表徵。
即使該數個聲道中沒有一個是TCX20,在一個聲道中有TCX10且另一聲道中有TCX5的情況下,對於一個或兩個子幀,對更高解析度的轉換仍被需要。作為一示例,如果該左聲道在子幀A中為TCX10,且在子幀B中為2 x TCX5,而右聲道在子幀A中為2 x TCX5,且在子幀B中為TCX10,則兩個聲道都將被轉換成在兩個子幀中均具有TCX10解析度(轉換子幀B用於左聲道,轉換子幀A用於右聲道)。如果在同一示例中,該右聲道也是TCX10用於子幀A且2 x TCX5用於子幀B,則不進行轉換;即,子幀A將以TCX10解析度被降混,子幀B將以TCX5被降混。
然後,使用這些被轉換的頻譜計算該數個MDST估計及該數個最終聲道權重(final channel weights)。該數個權重本身被應用於該原始輸入頻譜,這意謂著在一轉換的情況下,對於每個子幀而言,每個被運算出的權重被應用於涵蓋處於該原始的較低解析度的相同頻率範圍的所有分格。
藉由將一主動頻帶式降混(active band-wise downmix)的該加權階段與該實際混合階段分離,該新方法能夠輸出具備主動降混優勢的一單聲道訊號,但沒有額外的延遲或複雜性,並且獨立於數個個別聲道所選的時間頻率解析度。
它還允許在兩個聲道上使用另一時間域後處理(譬如使用音調資訊的TCX-LTP後濾波器),而無需一專用參數降混(dedicated parameter downmix)。
第5a圖以圖解說明第一替代方案,其中產生兩個被組合的頻譜域表徵。該第一被組合的頻譜域表徵藉由將第5a圖的左側所圖解說明的該高解析度頻譜域表徵的兩個相鄰分格相加而被計算,以獲得該第一被組合的頻譜域表徵。
此外,在第5a圖的中間的TCX10處被圖解說明的兩個低頻譜解析度表徵被彼此組合,以便獲得該第二被組合的頻譜域表徵。該加權值估計器100被配置為從這兩個被組合的頻譜域表徵計算該左加權因子wL 及該右加權因子wR
關於由該頻譜加權器200所進行的該實際被進行的頻譜加權,用於該左聲道的該加權因子被應用於該原始的左聲道表徵,即,第5a圖的左側所圖解說明的該TCX20表徵。此外,用於由兩個時間後續(time-subsequent)的TCX10塊所表示的該右聲道的該數個頻帶式加權值被應用於兩個TCX10塊。相同的頻帶式加權值被應用於第5a圖的中間所圖解說明的兩個時間後續的TCX10塊的數個相應頻帶。
在第5b圖所圖解說明的第二替代方案中,如對於幾種不同情況所圖解說明的,僅有單個被組合的頻譜域表徵被計算。例如:當在該第一聲道中的一子幀具有兩個非常短的諸如TCX5幀,而下一個子幀具有單個TCX10幀時,並且當該第二聲道具有例如兩個TCX10幀時,該被組合的頻譜域表徵被計算用於該第一子子幀,而對於該第二子子幀,該第一聲道及第二聲道已經處於該TCX10表徵。
在此示例中,該頻譜加權器200被配置為將該數個高頻譜解析度加權因子應用於例如各自代表五毫秒的該數個子幀中的數個相應頻帶。此外,例如:該數個高解析度加權因子被應用於該第一子幀A中具有一短的TCX10幀的其他聲道的數個相應原始頻譜域表徵。
替代地,情況是使得該第一聲道具有在第5b圖中的左側所圖解說明的一表徵,並且該第二聲道具有在第5b圖中的右側所圖解說明的一表徵,該第一聲道的該表徵經由從在第5b圖中的左側到中間及從在第5b圖中的中間到右側的兩個步驟被轉換成單個被組合的頻譜域表徵。該頻率解析度被使用於計算該數個加權因子,並且該數個相應的加權因子被應用於該第二聲道的該高頻率解析度及低時間解析度表徵,其將具有在第5b圖中的右側所圖解說明的一解析度,並且對於一頻帶的數個相同的值將被應用於數個個別的子幀A、B,以及在第5b圖中由D及C所圖解說明的下一個子幀。
第5c圖以圖解說明另一替代方案,其中該數個實際域加權值被計算自一低頻率解析度及高時間解析度表徵。該第一聲道是例如一TCX20表徵,並且該第二聲道是例如兩個TCX10表徵的一序列。與第5b圖所圖解說明的替代方案相反,該被組合的表徵現在是第5c圖的右上角所圖解說明的一高時間解析度及低頻解析度表徵。在一方面,該數個頻譜域加權因子被計算自該被組合的表徵及第5c圖的左下角所圖解說明的該第二聲道的該原始頻譜域表徵。
數個頻帶式加權值的兩個集合被獲得,即,每個子幀一個集合。這些值被應用於該第二聲道的該數個相應子幀。然而,由於對整個幀而言該第一聲道僅具有單個頻譜域表徵的事實,數個被衍生的頻譜域加權值被計算,如第3a圖中的塊136所圖解說明。用於計算一被衍生的頻譜域加權值的一個過程是對該兩個(或更多個)的子幀的一個及相同頻帶的該數個相應的加權值進行一被加權的加法(weighted addition),其中每個加權值為例如藉由該被加權的加法中的0.5的手段被加權,致使一平均運算(averaging operation)。另一替代方案將是計算對於該兩個子幀的該數個加權值的一算術或幾何平均值,或者對於一幀中的一頻帶從兩個加權值獲得單個加權值的任何其他過程。一選項可以是僅選擇該兩個值中的一個,而忽略另一個值,依此類推。
此外,為了從該第一聲道計算該被組合的頻譜域表徵,可以使用如先前關於第5a圖所討論的一過程,即,兩個相鄰的頻譜值可以被相加在一起,以減小該頻譜解析度。這也在第4b圖中被圖解說明,其中在一頻帶中具有一定數量的數個頻譜值的該高頻譜解析度可以被降低為在相同頻帶中具有一較少數量的數個頻譜值的該中頻譜解析度。此外,為了使在第5c圖右上角所圖解說明的該兩個子幀的該數個頻譜值加倍,視情況而定,其中一個可以例如對兩個子幀中的一頻帶使用數個相同(低頻譜解析度)的頻譜值,或者其中一個可以使用較早或較晚的值進行某種被加權的抽取(weighted decimation)。
第5d圖以圖解說明另一實現方案,其中該第一聲道具有一高頻率及低時間解析度表徵諸如一TCX20表徵,並且該第二聲道具有一低頻率及高時間解析度表徵諸如兩個短幀的一序列,該兩個短幀諸如兩個TCX10幀。該第一被組合的頻譜域表徵是一高頻率解析度及高時間解析度表徵,並且該第二被組合的頻譜域表徵附加地為一高頻率解析度及一高時間解析度。在第5d圖中所圖解說明的過程例如可以藉由以下方式被進行:來自該第一聲道,藉由採用數個相同的頻譜值計算該第一被組合的頻譜域表徵,但是現在用於由TCX10所圖解說明的兩個後續時間幀。替代地,為了使該數個幀的數量加倍,還可以進行某種內插處理等,以便從一TCX20幀計算兩個後續的TCX10幀。此外,該第二聲道已經處於正確的時間解析度,但是該頻率解析度必須被加倍。為此,從第4b圖中的一較低的線到一較高的線的一過程可以被進行,即,在TCX10表徵的一頻率分格中的該頻譜值可以被處理,以具有一對頻率分格的相同頻譜值。為了擁有正確的能量,某種加權(weighting)可以被進行。替代地或附加地,某種進階內插(advanced interpolation)可以被進行,使得在該第二被組合的頻譜域表徵中彼此相鄰的數個頻率分格不一定具有完全相同的頻譜值而是不同的值。該數個頻譜域加權值計算自該第一被組合的頻譜域表徵及該第二被組合的頻譜域表徵,該第一被組合的頻譜域表徵及該第二被組合的頻譜域表徵衍生自高頻率解析度及高時間解析度資料。
該頻譜加權器200被配置為將該數個相應的頻譜域加權值應用於該第二聲道,其中對於每個子幀,存在數個頻帶式加權值的一集合。為了對該第一聲道TCX20的資料進行加權的目的,該加權值估計器100被配置為再一次計算數個被衍生的頻帶式加權因子136,由於僅有數個頻譜域加權因子的一集合需用於對該第一聲道高頻率解析度及時間解析度(TCX20)頻譜域表徵進行加權。例如:用於計算該數個被衍生的頻帶式加權值的一組合過程可以是一平均化(averaging)。
第6圖以圖解說明本發明的另一方面,即,一種用於轉換一聲道的一頻譜域表徵的一頻譜解析度的裝置,該聲道包括至少兩個子幀,其中每個子幀包括數個頻譜值,該數個頻譜值表示一時間分格大小(time bin size)及一頻率分格大小(frequency bin size)。根據第二方面,被包括在用於轉換的該裝置中的該頻譜值計算器160包括一第一方式組合器170及一第二方式組合器180。較佳地,該第一方式組合器被操作為一低通處理器,並且該第二方式組合器被操作為一高通處理器。該頻譜值計算器藉由該第一方式組合器的手段從該頻譜域表徵的每個子幀組合屬於相同頻率分格的數個頻譜值,以獲得數個被組合的頻譜值的一第一群組,並且該第二方式組合器180以一第二方式從該頻譜域表徵的每個子幀組合屬於相同頻率分格的數個頻譜值,以獲得數個被組合的頻譜值的一第二群組,其中該第二方式不同於該第一方式,並且其中該數個被組合的頻譜值的第一群組及該數個被組合的頻譜值的第二群組表示一被組合的頻譜域表徵,該被組合的頻譜域表徵具有一不同時間分格大小及一不同頻率分格大小。此計算的一較佳實現方案被描述且被圖解說明關於第5b圖,其中在一個圖例中,A2 、A1 及B2 、B1 的該序列被轉換成一高頻譜解析度表徵,但是現在具有一低時間解析度,如在一方面由F2 、E2 且另一方面由F1 、E1 所圖解說明的。
替代地,第5b圖還以圖解說明這樣的情況,其中該至少兩個子幀在第5b圖的中間圖表中被圖解說明為兩個時間後續的10ms的子幀,以及其中該高頻譜解析度及低時間解析度表徵被圖解說明為第5b圖的右側。較佳地,以該第一方式進行一加法,並且以該第二方式進行一減法。此外,較佳的是,兩個過程還包括一平均函數(average function)。此外,在第6圖中的該頻譜值計算器160被配置為應用該第一方式或該第二方式,該第一方式或該第二方式包括一加權,該加權使用一加權符號(weighting sign),其中該頻譜值計算器被配置為根據相同頻率分格的一頻率分格編號設定該加權符號。此外,該頻譜值計算器如第5b圖所圖解說明被配置為將一較低解析度分格轉換成兩個較高解析度分格,其中該第一方式被用於一偶數分格編號,並且該第二方式被用於一奇數分格編號。
第7圖以圖解說明用於轉換一頻譜解析度的該裝置的另一實現方案。除了該頻譜解析度組合器160之外,用於轉換一頻譜解析度的該裝置可以包括數個另外的元件。該數個另外的元件例如是一頻譜處理器(spectral processor)500及/或一處理資料計算器(processing data calculator)190及/或另一頻譜處理器220。在具備該頻譜處理器500的該實現方案中,該被轉換的頻譜域表徵已經被轉換而無需任何逆向及正向轉換作業,並且因此已經以低運算資源及低延遲被產生,能夠以具有相同第二頻譜解析度的另一個頻譜表徵單獨地或例如一起進一步被處理。例如:這可以為了某種降混被進行。第5b圖右側所圖解說明的該高頻率解析度及低時間解析度表徵不僅可以被用於計算處理資料,而且實際上還可以進一步被處理用於附加的或其他替代的用途,諸如例如在一稍後的處理階段進行降混(downmixing)或任何形式的音訊渲染(audio rendering)。
另一方面,先前被討論的關於第1圖及第5b圖的過程是具備該第二頻譜解析度的該頻譜域表徵,即,“被組合的頻譜域表徵(combined spectral domain representation)”僅被用於計算某種處理資料,諸如對於一左聲道及一右聲道的數個加權值,或者一般來說,對於一多聲道訊號的一第一聲道及一第二聲道的數個加權值。使用已被轉換成一高頻譜解析度的該頻譜域表徵所產生的該處理資料僅被用於計算處理資料,但此頻譜域表徵本身未被進一步處理。取而代之,使用該處理資料諸如該加權值,具備該第一頻譜解析度的該原始輸入頻譜域表徵被頻譜化處理(spectrally processed),如由塊220所圖解說明的。為此,較佳例如使用具備該第一解析度的另一頻譜域表徵,諸如用於一降混作業,例如發生在該頻譜域中。
第8圖以圖解說明本發明操作為一降混器的一第三方面的實施例,該降混器用於對具有至少兩個聲道的一多聲道訊號進行降混。該降混器包括一加權值估計器100,用於對該至少兩個聲道估計數個頻帶式加權值,其中該加權值估計器被配置為基於該每頻帶的目標能量值計算該數個頻帶式加權值,以使在一降混訊號的該頻帶中的一能量與在該兩個聲道的數個相同頻帶中的數個能量處於一預定關係。較佳地,該加權值估計器100被實現如第3b圖所圖解說明並且如在第3b圖的上下文中所討論。該降混器附加地包括一頻譜加權器(spectral weighter)200及一後續被連接的混合器(subsequently connected mixer)400,用於使用該至少兩個聲道的該數個被加權的頻譜域表徵計算該降混訊號。
第9圖以圖解說明第8圖的降混器的另一實現方案。該頻譜加權器200較佳地被配置為接收用於該第一聲道及/或該第二聲道的控制資料。此外,該頻譜加權器被配置為將該控制資料應用於四對不同的輸入資料中的一者。第一對輸入資料可以是該第一聲道頻譜域表徵及該第二聲道頻譜域表徵,如第9圖左側所圖解說明。第二替代方案可以為該第一聲道頻譜域表徵及該被組合的頻譜域表徵,該被組合的頻譜域表徵被衍生如例如關於第5b、5c圖所討論。此外,其他替代方案可以是一對資料,代表該第二聲道頻譜域表徵及單個被組合的頻譜域表徵,該單個被組合的頻譜域表徵如先前關於第5b、5c圖所討論。另一個替代方案可以是,該頻譜加權器200將該數個頻譜權重應用於一第一被組合的頻譜域表徵及一第二被組合的頻譜表徵,如關於第5a或5d圖所圖解說明。對於該第一及/或第二聲道的該控制資料例如可以是該數個加權值,其一方面是wL ,另一方面是wR ,但是也可以是被用於進行任何種類的頻譜加權的任何其他控制資料。
在一個實施例中,該降混器的另一元件是一加法器480,該加法器480計算一被加的頻譜域表徵(added spectral domain representation),即,在該頻譜域中的一降混頻譜域表徵(downmix spectral domain representation)。一單聲道訊號處理器490可以被使用,例如由任何資料控制或者例如被實現為一頻率時間轉換器,如先前關於第1圖或第2圖的塊310所討論。
要被強調的是,該三個方面可以彼此分離地使用,但是也可以被有利地彼此組合。特別地,根據第8圖的該加權值估計器的實現方案可以被應用於第1圖所圖解說明的第一方面的該加權值估計器100。此外,在第6圖所圖解說明的該頻譜解析度轉換器較佳地藉由第1圖的該加權值估計器100被實現,在第5b圖從兩個高時間解析度及低頻譜解析度子幀產生一高解析度/低解析度頻譜域表徵所圖解說明的該替代方案。此外,在第1圖所圖解說明的第一方面的功能,特別是關於處理資料的計算,可以藉由在第7圖中所圖解說明的該處理資料計算器190及另一頻譜處理器220被實現,以及本發明第三方面的該混合器400可以被實現作為第9圖的一替代方案,以這樣的作法,在進行該實際時間域逐樣本式加法(actual time-domain sample-by-sample addition)之前,使得用於計算該降混訊號的該混合器400應用第1圖所圖解說明的該轉換器300的功能。因此,對於三個方面中的一個在一附屬項中所定義的所有特定實施例也可以被應用於相應附屬項的定義中的三個方面中的任何其他方面。
因此,變得清楚的是,取決於該實現方案,該三個方面可以藉由組合三個方面中的任何兩個或藉由組合所有三個方面被分別地應用或彼此組合。
隨後,數個發明性方面的數個另外的示例被給出:
1. 一種對具有至少兩個聲道的一多聲道訊號進行降混的降混器,包括: 一加權值估計器(100),用於對該至少兩個聲道估計數個頻帶式加權值; 一頻譜加權器(200),用於使用該數個頻帶式加權值對於該至少兩個聲道的數個頻譜域表徵進行加權; 一轉換器(300),用於將該至少兩個聲道的數個被加權的頻譜域表徵轉換成該至少兩個聲道的數個時間表徵;及 一混合器(400),用於將該至少兩個聲道的該數個時間表徵進行混合以獲得一降混訊號。
2. 示例1之降混器,其中該加權值估計器(100)被配置為對於該至少兩個聲道中的一第一聲道的數個頻帶計算數個第一頻帶式加權值,並且對於該至少兩個聲道中的一第二聲道的數個頻帶計算第二數量的頻帶式加權值,或者 其中該多聲道訊號具有兩個以上的聲道,以及其中該加權值估計器(100)被配置為對於該兩個以上的聲道中的一第一聲道的數個頻帶計算數個第一頻帶式加權值、對於該兩個以上的聲道中的一第二聲道的該數個頻帶計算第二數量的頻帶式加權值,及對於該兩個以上的聲道中的另外一個聲道的該數個頻帶計算另外數個頻帶式加權值。
3. 示例1或2之降混器, 其中該至少兩個聲道的該數個頻譜域表徵各自包括數個頻率分格的一集合,其中數個頻譜值與該數個頻率分格相關聯, 其中該加權值估計器(100)被配置為對於數個頻帶計算該數個頻帶式加權值,其中每個頻帶包括一個、兩個或更多個頻率分格,或者 其中每頻帶的數個頻率分格的一數量隨著具有一較高中心頻率的數個頻帶增加。
4. 前述數個示例中的一個之降混器, 其中該加權值估計器(100)被配置為基於每頻帶的一目標能量值計算該數個頻帶式加權值,使得在該降混訊號的該頻帶中的一能量與該至少兩個聲道的在數個相同頻帶中的數個能量處於一預定關係。
5. 前述數個示例中的一個之降混器,還包括: 一核心解碼器(500),用於解碼一被編碼的訊號,該被編碼的訊號具有至少兩個原始聲道的數個被編碼的頻譜域表徵,其中該核心解碼器被配置為從該數個被編碼的頻譜域表徵產生該數個頻譜域表徵。
6. 前述數個示例中的一個之降混器, 其中該數個頻譜域表徵是純實數的或純虛數的, 其中該加權值估計器(100)被配置為當該頻譜域表徵是純實數時估計一虛數頻譜域表徵(120、122),或當該頻譜域表徵為純虛數時估計一實數頻譜域表徵,以及 其中該加權值估計器(100)被配置為使用該被估計的虛數頻譜域表徵或該被估計的實數頻譜域表徵以估計該數個頻帶式加權值。
7. 前述示例中的一個所述之降混器,其中該加權值估計器(100)被配置為對於該至少兩個聲道中的一第一聲道的一頻帶計算一第一加權值, 其中該加權值估計器(100)被配置為對於該至少兩個聲道中的一第二聲道的該頻帶計算一第二加權值,以及 其中該加權值估計器(100)被配置為使用該第一聲道在該頻帶中的一能量、該第二聲道在該頻帶中的一能量及一混合項計算該第一加權值及該第二加權值,該混合項取決於來自該頻帶中的該至少兩個聲道的數個頻譜值的一乘積或一線性組合。
8. 前述數個示例中的一個之降混器, 其中該加權值估計器(100)被配置為從該至少兩個聲道的該數個頻譜域表徵計算該頻帶中被彼此相加的數個頻譜值的一能量的一平方根,作為表示該線性組合的該混合項,其中該頻帶包括數個頻譜值,或者計算在至少兩個聲道中的一第一聲道的該頻帶中的該數個頻譜值與一第二聲道的該頻帶中的該數個頻譜值之間的一複數點乘積的一絕對值,作為表示該乘積的該混合項。
9. 前述數個示例中的一個之降混器, 其中至少兩個聲道中的數個聲道中的一第一聲道及一第二聲道的每個頻帶具有數個頻譜值,其中該頻譜加權器(200)被配置為將相同權重應用於該至少兩個聲道中的一個聲道的該頻帶中的每個頻譜值,並且將另一權重應用於該至少兩個聲道中的另一聲道的該頻帶中的每個頻譜值。
10. 前述數個示例中的一個之降混器, 其中該數個被加權的頻譜域表徵是數個MDCT(被修正的離散餘弦轉換)頻譜,及 其中該轉換器(300)被配置為使用一合成窗化作業(synthesis windowing operation)及一重疊相加作業(overlap-add operation)對於該數個聲道中的每個聲道進行一反MDCT轉換。
11. 前述數個示例中的一個之降混器, 其中該混合器(400)被配置為應用該至少兩個聲道的該數個時間表徵的一逐樣本式加法,或者 其中該混合器(400)被配置為應用該至少兩個聲道的該數個時間表徵的一逐樣本式加法(sample-by-sample addition),並且將一縮放作業(scaling operation)應用於該逐樣本式加法的一結果或應用於進入該逐樣本式加法的數個輸入。
12. 前述數個示例中的一個之降混器, 其中該轉換器(300)被配置為使用一頻譜時間演算法產生(310)數個原始時間表徵(raw time representations),以及 在由該混合器(400)進行混合前的一訊號處理方向,對該數個原始時間表徵分別進行後處理(320),使用對於該數個聲道的分離控制資訊以獲取該數個時間表徵。
13. 示例12之降混器, 其中該轉換器(300)被配置為對於每個時間表徵分別進行一低音後濾波、一轉換編碼激勵長期預測(TCX-LTP)處理或一線性預測編碼(LPC)合成,作為該後處理(320)。
14. 前述數個示例中的一個之降混器, 其中該至少兩個聲道中的一第一聲道的一第一頻譜域表徵具有一第一時間解析度或一第一頻率解析度, 其中該至少兩個聲道中的一第二聲道的一第二頻譜域表徵具有一第二時間解析度或一第二頻率解析度,其中該第二時間解析度或第二頻率解析度不同於該第一時間解析度或第一頻率解析度,以及 其中該加權值估計器(100)被配置為計算數個頻帶式加權值,使得該數個頻帶式加權值相關聯的該數個頻帶的一頻率解析度低於該第一頻率解析度及該第二頻率解析度或者等於該第一頻率解析度及該第二頻率解析度中較低的一個。
15. 前述數個示例中的一個之降混器, 其中該第一頻譜域表徵具有在一頻帶中的一第一數量的頻譜值, 其中該第二頻譜域表徵具有該頻帶中的一第二數量的頻譜值,該第二數量高於該第一數量,以及 其中該加權值估計器(100)被配置為 組合該第二數量的頻譜值中的兩個或更多個頻譜值,或者從該第二數量的頻譜值選擇數個頻譜值的一子集, 使用組合該兩個或更多個頻譜值的一結果或使用該數個頻譜值的該子集計算一混合項,該混合項取決於來自該頻帶中的該至少兩個聲道的數個頻譜值的數個乘積或數個線性組合;以及 使用該混合項計算該數個頻帶式加權值。
16. 根據前述數個示例中的一個之降混器, 其中一第一頻譜域表徵包括代表一第一時間分格大小及一第一頻率分格大小的數個第一頻譜值, 其中該第二頻譜域表徵包括代表一第二時間分格大小及一第二頻率分格大小的數個頻譜值, 其中該第一時間分格大小係大於該第二時間分格大小,或其中該第一頻率分格大小係小於該第二頻率分格大小, 其中該加權值估計器(100)被配置為組合來自該第一頻譜域表徵的數個頻譜值以獲得一第一被組合的頻譜域表徵,其中一被組合的頻率分格大小係等於該第二頻率分格大小,或者組合來自該第二頻譜域表徵的數個頻譜值以獲得一第一被組合的頻譜域表徵,其中一被組合的時間分格大小係等於該第一時間分格大小。
17. 示例16之降混器 其中該加權值估計器(100)被配置為使用該第一被組合的頻譜域表徵或該第二被組合的頻譜域表徵,對於該至少兩個聲道中的一第一聲道及一第二聲道計算該數個頻帶式加權值,該計算包括計算在數個頻帶中的一混合項及計算在該數個頻帶中的數個能量,以及 其中該頻譜加權器(200)被配置為將對於該至少兩個聲道中的該第一聲道的該數個頻帶式加權值應用於數個相應頻帶中的該第一頻譜域表徵的數個頻譜值,並且將對於該至少兩個聲道中的該第二聲道的該數個頻帶式加權值應用於該數個相應頻帶中的該第二頻譜域表徵的數個頻譜值。
18. 根據示例1至15中的一個之降混器, 其中一第一聲道的一第一頻譜域表徵包括表示一第一時間分格大小及一第一頻率分格大小的數個第一頻譜值, 其中一第二聲道的一第二頻譜域表徵包括至少兩個子幀,其中每個子幀包括表示一第二時間分格大小及一第二頻率分格大小的數個頻譜值, 其中該第一時間分格大小係大於該第二時間分格大小,或者其中該第一頻率分格大小係小於該第二頻率分格大小, 其中該加權值估計器(100)被配置為 以一第一方式從該第二頻譜域表徵的每個子幀組合屬於相同頻率分格的數個頻譜值,以獲得數個被組合的頻譜值的一第一群組,以及 以一第二方式從該第二頻譜域表徵的每個子幀組合屬於相同頻率分格的數個頻譜值,以獲得數個被組合的頻譜值的一第二群組,該第二方式不同於該第一方式, 其中該數個被組合的頻譜值的第一群組及該數個被組合的頻譜值的第二群組表示一被組合的頻譜域表徵,該被組合的頻譜域表徵具有該第一時間分格大小及該第一頻率分格大小,以及 使用該被組合的頻譜域表徵及該第一頻譜域表徵的該數個頻譜值計算該數個頻帶式加權值。
19. 根據示例18之降混器, 其中該加權值估計器(100)被配置為以該第一方式進行一加法及一減法中的一種,並且以該第二方式進行該加法及該減法中的另一種。
20. 根據示例18或19之降混器,其中該加權值估計器(100)被配置為以該第一方式及該第二方式進行一平均功能。
21. 根據示例18至20中的一個之降混器,其中該加權值估計器(100)被配置為應用該第一方式或該第二方式,包括使用一加權符號進行一加權,其中該加權值估計器(100)被配置為根據相同頻率分格的一頻率分格編號設定該加權符號。
21. 根據示例18至21中的一個之降混器,其中該加權值估計器(100)被配置為應用一高通濾波及一低通濾波中的一種作為該第一方式,以及應用一高通濾波及一低通濾波中的另一種作為該第二方式。
22. 根據示例18至22中的一個之降混器,其中該加權值估計器(100)被配置為將一較低解析度分格轉換成兩個較高解析度分格,其中該第一方式被用於該兩個較高解析度分格中的一第一較高解析度分格的一偶數分格編號,該第二方式被用於該兩個較高解析度分格中的一第二較高解析度分格的一奇數分格編號。
23. 根據示例18至22中的一個之降混器, 其中該第一聲道的該第一頻譜域表徵包括一TCX20幀,其中該第二聲道的該第二頻譜域表徵包括兩個TCX10子幀,其中該加權值估計器(100)被配置為從該兩個TCX10子幀計算一被組合的TCX20頻譜域表徵,或者 其中該第一聲道的該第一頻譜域表徵包括一TCX20幀,其中該第二聲道的該第二頻譜域表徵包括一TCX10子幀及兩個TCX5子幀,其中該加權值估計器(100)被配置為從該兩個TCX5子幀計算一第一被組合的TCX10頻譜域表徵,及從該第一被組合的TCX10頻譜域表徵及該TCX10子幀計算一第二被組合的TCX20子幀,或者 其中該第一聲道的該第一頻譜域表徵包括一TCX10子幀,其中該第二聲道的該第二頻譜域表徵包括兩個TCX5子幀,及其中該加權值估計器(100)被配置為從該兩個TCX5子幀計算一被組合的TCX10頻譜域表徵, 其中該表述TCX20指示一第一部分具備一第一時間長度,其中該表述TCX10指示一第二部分具備一第二時間長度,其中該表述TCX5指示一第三部分具備一第三時間長度,其中該第一時間長度比該第二時間長度或該第三時間長度更長,或者其中該第二時間長度比該第一時間長度更短或比第二時間長度更長,以及其中該第三時間長度比該第一時間長度更短或比該第二時間長度更短。
24. 根據示例18至23中的一個之降混器,其中該加權值估計器(100)被配置為基於以下方程式應用該第一方式:
Figure 02_image051
,或者 其中該加權值估計器(100)被配置為基於以下方程式應用該第二方式:
Figure 02_image053
, 其中,
Figure 02_image015
定義一頻譜分格編號且
Figure 02_image041
Figure 02_image043
定義該第二聲道的該第二頻譜域表徵的數個子幀,以及 其中,
Figure 02_image055
Figure 02_image057
分別指示該被組合的頻譜域表徵的數個頻譜值,並且
Figure 02_image059
Figure 02_image061
分別指示來自一第二子幀k1 及一第一子幀k0 的數個頻譜值。
25. 根據示例1之降混器 其中該至少兩個聲道中的一第一聲道的一第一頻譜域表徵具有一第一時間解析度或一第一頻率解析度,其中該至少兩個聲道中的一第二聲道的一第二頻譜域表徵具有一第二時間解析度或一第二頻率解析度,其中該第二時間解析度不同於該第一時間解析度,或者其中該第二頻率解析度不同於該第一頻率解析度,以及 其中該加權值估計器(100)被配置為將該第一頻譜域表徵轉換(132)成具有該第二時間解析度或該第二頻率解析度的一被組合的頻譜域表徵,並且使用該被組合的頻譜域表徵及該第二頻譜域表徵計算該數個頻帶式加權值,或者將該第二頻譜域表徵轉換成具有該第一時間解析度或該第一頻率解析度的一被組合的頻譜域表徵,並且使用該被組合的頻譜域表徵及該第一頻譜域表徵計算該數個頻帶式加權值,或者 其中該至少兩個聲道中的一第一聲道的一第一頻譜域表徵具有一第一時間解析度或一第一頻率解析度,其中該至少兩個聲道中的一第二聲道的一第二頻譜域表徵具有一第二時間解析度或一第二頻率解析度,其中該第二時間解析度不同於該第一時間解析度,或者其中該第二頻率解析度不同於該第一頻率解析度,以及 其中該加權值估計器(100)被配置為 將該第一頻譜域表徵轉換(132)成具有一第三時間解析度或一第三頻率解析度的一第一被組合的頻譜域表徵, 其中該第三時間解析度不同於該第一時間解析度或該第二時間解析度,及其中該第三頻率解析度不同於該第一頻率解析度或該第二頻率解析度, 將該第二頻譜域表徵轉換(132)成具有該第三時間解析度或該第三頻率解析度的一第二被組合的頻譜域表徵,以及 使用該第一被組合的頻譜域表徵及該第二被組合的頻譜域表徵計算(134)該數個頻帶式加權值。
26. 根據示例25之降混器, 其中對於一特定時間部分(TCX20),該第二聲道包括該第二頻譜域表徵, 其中對於該特定時間部分(2xTCX10),該第一聲道包括該數個第一頻譜域表徵中的兩個或更多個, 其中該加權值估計器(100)被配置為將該兩個或更多個第一頻譜域表徵轉換成該被組合的頻譜域表徵,該被組合的頻譜域表徵具有相同於該第二頻譜域表徵的時間解析度及頻率解析度,並且使用該被組合的頻譜域表徵及該第二頻譜域表徵計算該數個頻帶式加權值,以及 其中該頻譜加權器(200)被配置為使用該數個頻帶式加權值對該第二頻譜域表徵進行加權,以及使用數個相同的頻帶式加權值對該兩個或更多個第一頻譜域表徵中的每個第一頻譜域表徵進行加權。
27. 根據示例26之降混器, 其中該加權值估計器(100)被配置對於該兩個或更多個第一頻譜域表徵的一相同頻率的數個頻譜值進行相加以獲得該被組合的頻譜域表徵的一第一頻譜值,並且對於該兩個或更多個第一頻譜域表徵的一相同頻率的數個頻譜值進行相減以獲得該被組合的頻譜域表徵的一第二頻譜值,該被組合的頻譜域表徵的該第二頻譜值在頻率上高於且相鄰於該被組合的頻譜域表徵的該第一頻譜值,並且 其中該頻譜加權器(200)被配置為使用該相同的頻帶式加權值對該兩個或更多個第一頻譜域表徵中的每個第一頻譜域表徵中的具有相同的數個頻率的一頻帶進行加權。
28. 根據示例25之降混器, 其中對於一特定時間部分(TCX20),該第二聲道包括該第二頻譜域表徵, 其中對於該特定時間部分(2xTCX10),該第一聲道包括兩個或更多個第一頻譜域表徵, 其中該加權值估計器(100)被配置為 將該第二頻譜域表徵轉換成兩個或更多個被組合的頻譜域表徵,該兩個或更多個被組合的頻譜域表徵具有相同於該兩個或更多個第一頻譜域表徵的時間解析度及頻率解析度, 使用該兩個或更多個被組合的頻譜域表徵中的一第一個被組合的頻譜域表徵及該兩個或更多個第一頻譜域表徵中的一第一個第一頻譜域表徵計算數個第一頻帶式加權值, 使用該兩個或更多個被組合的頻譜域表徵中的一第二個被組合的頻譜域表徵及該兩個或更多個第一頻譜域表徵中的一第二個第一頻譜域表徵計算數個第二頻帶式加權值,以及 其中該頻譜加權器(200)被配置為 使用從該數個第一頻帶式加權值及該數個第二頻帶式加權值被衍生(136)的數個被衍生的頻帶式加權值對該第二頻譜域表徵進行加權, 使用該數個第一頻帶式加權值對該兩個或更多個第一頻譜域表徵中的該第一個第一頻譜域表徵進行加權,及 使用該數個第二頻帶式加權值對該兩個或更多個第一頻譜域表徵中的該第二個第一頻譜域表徵進行加權。
29. 根據示例28之降混器, 其中該加權值估計器(100)被配置用於將該第二頻譜域表徵的數個成對的頻率的數個頻譜值相加以獲得一被加的頻譜值,並且用於對該兩個或更多個被組合的頻譜域表徵中的每個複製到該被加的頻譜值以獲得一被組合的頻譜值,以及 其中該頻譜加權器(200)被配置為組合(136)用於該數個第一頻帶式加權值的一特定頻帶的一加權值與用於該數個第二頻帶式加權值的該特定頻帶的一加權值,以獲得用於該數個被衍生的頻帶式加權值的該特定頻帶的一被衍生的加權值。
30. 根據示例25之降混器, 其中對於一特定時間部分(TCX20),該第二聲道包括該第二頻譜域表徵, 其中對於該特定時間部分(2xTCX10),該第一聲道包括兩個或更多個第一頻譜域表徵, 其中該加權值估計器(100)被配置為 將該第二頻譜域表徵轉換成兩個或更多個被組合的頻譜域表徵,該兩個或更多個被組合的頻譜域表徵具有相同於該兩個或更多個第一頻譜域表徵的時間解析度且具有相同於該第二頻譜域表徵的頻率解析度, 使用該兩個或更多個被組合的頻譜域表徵中的一第一個被組合的頻譜域表徵及該兩個或更多個第一頻譜域表徵中的一第一個第一頻譜域表徵計算數個第一頻帶式加權值, 使用該兩個或更多個被組合的頻譜域表徵中的一第二個被組合的頻譜域表徵及該兩個或更多個第一頻譜域表徵中的一第二個第一頻譜域表徵計算數個第二頻帶式加權值,以及 其中該頻譜加權器(200)被配置為 使用從該數個第一頻帶式加權值及該數個第二頻帶式加權值被衍生(136)的數個頻帶式加權值對該第二頻譜域表徵進行加權, 使用該數個第一頻帶式加權值對該兩個或更多個第一頻譜域表徵中的該第一個第一頻譜域表徵進行加權,以及 使用該數個第二頻帶式加權值對該兩個或更多個第一頻譜域表徵中的該第二個第一頻譜域表徵進行加權。
31. 根據示例30之降混器, 其中該加權值估計器(100)被配置用於將一個或更多個頻譜值進行升取樣,以獲得用於該第二頻譜域表徵的數個相鄰頻率的數個被升取樣的頻譜值,並且用於對該兩個或更多個被組合的頻譜域表徵中的每個複製到數個被升取樣的頻譜值,以獲得數個被組合的頻譜值,以及 其中該頻譜加權器(200)被配置為組合(136)用於該數個第一頻帶式加權值的一特定頻帶的一加權值與用於該第二數量的頻帶式加權值的該特定頻帶的一加權值,以獲得用於該數個被衍生的頻帶式加權值的該特定頻帶的一被衍生的加權值。
32. 根據示例25之降混器, 其中對於一特定時間部分(TCX20),該第二聲道包括該第二頻譜域表徵, 其中對於該特定時間部分(2xTCX10),該第一聲道包括該數個第一頻譜域表徵中的兩個或更多個, 其中該加權值估計器(100)被配置為 將該兩個或更多個第一頻譜域表徵轉換成該第一被組合的頻譜域表徵,該第一被組合的頻譜域表徵具有相同於該第二頻譜域表徵的時間解析度, 將該數個第二頻譜域表徵轉換成該第二被組合的頻譜域表徵,該第二被組合的頻譜域表徵具有相同於該兩個或更多個第一頻譜域表徵的頻率解析度,以及 使用該第一被組合的頻譜域表徵及該第二被組合的頻譜域表徵計算該數個頻帶式加權值,以及 其中該頻譜加權器(200)被配置為使用該數個頻帶式加權值對該第二頻譜域表徵進行加權,並且使用數個相同的頻帶式加權值對該兩個或更多個第一頻譜域表徵中的每個第一頻譜域表徵進行加權。
33. 根據示例32之降混器, 其中該加權值估計器(100)被配置用於將該第二頻譜域表徵的數個成對的頻率的數個頻譜值進行相加,以獲得該第二被組合的頻譜域表徵,以及將該兩個或更多個第一頻譜域表徵的相同頻率的數個頻譜值進行相加,以獲得該第一被組合的頻譜域表徵,以及 其中該頻譜加權器(200)被配置為使用相同的頻帶式加權值對該兩個或更多個第一頻譜域表徵中的每個第一頻譜域表徵中具有數個相同頻率的一頻帶進行加權。
34. 根據前述數個示例中的一個之降混器, 其中該加權值估計器(100)被配置為使用一第一計算規則對於該至少兩個聲道中的一第一聲道的數個頻帶計算數個第一頻帶式加權值,該第一計算規則取決於下列中的至少兩者:該第一聲道的一第一頻譜域表徵的數個頻譜值、該第二聲道的一第二頻譜域表徵的數個頻譜值、衍生自該第一頻譜域表徵或該第二頻譜域表徵的該數個頻譜值的單個被組合的頻譜域表徵的數個頻譜值、衍生自該第一頻譜域表徵的該數個頻譜值的一第一被組合的頻譜域表徵的數個頻譜值,及衍生自該第二頻譜域表徵的該數個頻譜值的一第二被組合的頻譜域表徵的數個頻譜值,以及 其中該加權值估計器(100)被配置為使用一第二計算規則對於該至少兩個聲道中的該第一聲道的數個頻帶計算數個第二頻帶式加權值,該第二計算規則取決於下列中的至少兩者:該數個第一頻帶式加權值、該第一聲道的該第一頻譜域表徵的該數個頻譜值、該第二聲道的該第二頻譜域表徵的該數個頻譜值、衍生自該第一頻譜域表徵或該第二頻譜域表徵的該數個頻譜值的該單個被組合的頻譜域表徵的該數個頻譜值、衍生自該第一頻譜域表徵的該數個頻譜值的一第一被組合的頻譜域表徵的該數個頻譜值,及衍生自該第二頻譜域表徵的該數個頻譜值的一第二被組合的頻譜域表徵的該數個頻譜值,其中該第二計算規則不同於該第一計算規則。
35. 一種用於轉換一聲道的一頻譜域表徵的一頻譜解析度的裝置,該聲道包括至少兩個子幀,其中每個子幀包括數個頻譜值,該數個頻譜值表示一時間分格大小及一頻率分格大小,該裝置包括: 一頻譜值計算器(160),用於以一第一方式從該頻譜域表徵的每個子幀組合(170)屬於相同頻率分格的數個頻譜值,以獲得數個被組合的頻譜值的一第一群組,以及用於以一第二方式從該頻譜值表徵的每個子幀組合(180)屬於相同頻率分格的數個頻譜值,以獲得數個被組合的頻譜值的一第二群組,該第二方式不同於該第一方式,其中該數個被組合的頻譜值的第一群組及該數個被組合的頻譜值的第二群組表示一被組合的頻譜域表徵,該被組合的頻譜域表徵具有一不同時間分格大小及一不同頻率分格大小。
36. 根據示例35之裝置, 其中該頻譜值計算器(160)被配置為以該第一方式進行一加法及一減法中的一個,並且以該第二方式進行該加法及該減法中的另一個。
37. 根據示例35或36之裝置,其中該頻譜值計算器(160)被配置為該以第一方式及該第二方式進行一平均功能。
38. 根據示例35至37中的一個之裝置,其中該頻譜值計算器(160)被配置為應用該第一方式或該第二方式,該第一方式或該第二方式包括一加權,該加權使用一加權符號,其中該頻譜值計算器(160)被配置為根據相同頻率分格的一頻率分格編號設定該加權符號。
39. 根據示例35至38中的一個之裝置,其中該頻譜值計算器(160)被配置為應用一高通濾波及一低通濾波中的一個作為該第一方式,並且應用該高通濾波及該低通濾波中的另一個作為該第二方式。
40. 根據示例35至39中的一個之裝置,其中所述頻譜值計算器(160)被配置為將一較低解析度分格轉換成兩個較高解析度分格,其中該第一方式被用於一偶數分格編號,並且該第二方式被用於一奇數分格編號。
41. 根據示例35至40中的一個之裝置, 其中該第一聲道的該第一頻譜域表徵包括一TCX20幀,其中該聲道的該頻譜域表徵包括兩個TCX10子幀,其中該頻譜值計算器被配置為從該兩個TCX10子幀計算一被組合的TCX20頻譜域表徵,或者 其中該第一聲道的該第一頻譜域表徵包括一TCX20幀,其中該聲道的該頻譜域表徵包括一TCX10子幀及二TCX5子幀,其中該頻譜值計算器(160)被配置從該兩個TCX5子幀計算一第一被組合的TCX10頻譜域表徵,並且從該第一被組合的TCX10頻譜域表徵及該TCX10子幀計算一第二組合TCX20子幀,或者 其中該第一聲道的該第一頻譜域表徵包括一TCX10子幀,其中該聲道的該頻譜域表徵包括二TCX5子幀,以及其中該頻譜值計算器(160)被配置為從該二TCX5子幀計算一組合TCX10頻譜域表徵, 其中該表述TCX20指示一第一部分具備一第一時間長度,其中該表述TCX10表示一第二部分具備一第二時間長度,其中該表述TCX5指示一第三部分具備一第三時間長度,其中該第一時間長度比該第二時間長度或該第三時間長度更長,或者其中該第二時間長度比該第一時間長度更短或比該第二時間長度更長,以及其中該第三時間長度比該第一時間長度更短或比該第二時間長度更短。
42. 根據示例35至41中的一個之裝置,其中所述頻譜值計算器(160)被配置為基於以下方程式應用該第一方式:
Figure 02_image051
,或者 其中,該頻譜值計算器被配置為基於以下方程式應用該第二方式:
Figure 02_image053
, 其中
Figure 02_image015
指定一頻譜分格編號且該聲道的頻譜域表徵的數個子幀
Figure 02_image041
Figure 02_image043
,以及 其中
Figure 02_image055
Figure 02_image057
分別指示該組合的頻譜域表徵的數個頻譜值,並且
Figure 02_image059
Figure 02_image061
分別指示來自一第二子幀k1 及一第一子幀k0 的頻譜值。
43. 根據示例35至42中的一個之裝置,還包括一訊號計算器(500、190、220),用於在一被編碼或被解碼或被處理的音訊訊號的一計算使用該被組合的頻譜域表徵,該被組合的頻譜域表徵具有一不同時間分格大小及一不同頻率分格大小。
44. 根據示例35至43中的任何一個之裝置,其中該頻譜值計算器(160)被配置為接收具備一第一頻譜解析度的該頻譜域表徵並且產生具備一第二頻譜解析度的一被轉換的頻譜域表徵,該第二頻譜解析度不同於該第一頻譜解析度, 其中,該裝置還包括: 一第一頻譜處理器(500),用於處理該被轉換的頻譜域表徵,以獲得具備該第二解析度的一被處理的頻譜域表徵,或者 一處理資料計算器(190),用於從該被轉換的頻譜域表徵計算處理資料,以及一第二頻譜處理器(220),用於處理該頻譜域表徵,以獲得具備該第一解析度的一被處理的頻譜域表徵。
45. 根據示例44之裝置,其中該第一頻譜處理器(500)被配置為在所述處理中使用另一頻譜域表徵,該另一頻譜域表徵具有該第二頻譜解析度,或者 其中該第二頻譜處理器(220)被配置為在處理中使用另一頻譜域表徵,該另一頻譜域表徵具有該第一頻譜解析度。
46. 對具有至少兩個聲道的一多聲道訊號進行降混的降混器,包括: 一加權值估計器(100),用於對該至少兩個聲道估計數個頻帶式加權值,其中該加權值估計器(100)被配置為基於每頻帶的一目標能量值計算該數個頻帶式加權值,以使在一降混訊號的該頻帶中的一能量與在該至少兩個聲道的該數個相同頻帶中的數個能量處於一預定關係; 一頻譜加權器(200),用於使用該數個頻帶式加權值對該至少兩個聲道的數個頻譜域表徵進行加權,以獲得數個被加權的頻譜域表徵;及 一混合器(400),用於使用該至少兩個聲道的該數個被加權的頻譜域表徵計算該降混訊號。
47. 該示例46之降混器, 其中該數個頻譜域表徵是純實數的或純虛數的, 其中該加權值估計器(100)被配置為當該頻譜域表徵是純實數時估計(140)一虛數頻譜域表徵,或當該頻譜域表徵是純虛數時估計(140)一實數頻譜域表徵,以及 其中該加權值估計器(100)被配置為使用該被估計的虛數頻譜域表徵或該被估計的實數頻譜域表徵估計該數個頻帶式加權值。
48. 該數個示例46或47中的一個之降混器,其中該加權值估計器(100)被配置為對於該至少兩個聲道中的一第一聲道的一頻帶計算一第一加權值,對於該至少兩個聲道中的一第二聲道的該頻帶計算一第二加權值,及使用(142)該第一聲道在該頻帶中的一能量、該第二聲道在該頻帶中的一能量及一混合項計算該第一加權值及該第二加權值,該混合項取決於來自該頻帶中的該至少兩個聲道的數個頻譜值的一乘積(148)或一線性組合(146)。
49. 該數個示例46到48中的一個之降混器, 其中該加權值估計器(100)被配置為從該至少兩個聲道的該數個頻譜域表徵計算該頻帶中被彼此相加的數個頻譜值的一能量的一平方根,作為表示該線性組合(146)的該混合項,其中該頻帶包括數個頻譜值,或計算在該至少兩個聲道中的一第一聲道的該頻帶中的該數個頻譜值與一第二聲道的該頻帶中的該數個頻譜值之間的一複數點乘積的一絕對值,作為表示該乘積(148)的該混合項。
50. 該數個示例46到49中的一個之降混器, 其中該至少兩個聲道中的一第一聲道及一第二聲道的每個頻帶具有數個頻譜值,其中該頻譜加權器(200)被配置為將相同權重應用於該至少兩個聲道中的一個的該頻帶中的每個頻譜值,並且將另一權重應用於該至少兩個聲道中的另一聲道的該頻帶中的每個頻譜值。
51. 該數個示例46至示例50中的一個之降混器,其中該加權值估計器(100)被配置為基於以下方程式對於該至少兩個聲道中的一第一聲道計算(150)該數個頻帶式加權值:
Figure 02_image009
其中wR 是用於該第一聲道對一頻帶的一加權因子,其中
Figure 02_image063
是對於該第二聲道的一被估計的功率,其中
Figure 02_image065
是用於該第一聲道在該頻帶中的一被估計的功率,其中
Figure 02_image067
是在該頻帶中的該數個聲道之間的一被估計的點乘積,其中
Figure 02_image069
是對於該第二聲道在該頻帶中的一被估計的振幅,其中
Figure 02_image071
是對於該第一聲道在該頻帶中的一被估計的振幅。
52. 根據示例51之降混器,其中該加權值估計器(100)被配置為基於以下方程式對於該至少兩個聲道中的一第二聲道計算(152)該數個頻帶式加權值:
Figure 02_image073
其中wL 是用於該第二聲道對該頻帶的一加權因子,以及其中
Figure 02_image025
是對於該第一聲道及該第二聲道在該頻帶中的該數個被估計的振幅的一被估計的線性組合。
53. 數個示例50至52中的一個之降混器,其中該加權值估計器(100)被配置為基於以下方程式對於該第二聲道在該頻帶中計算(144)該被估計的振幅,及對於該第一聲道在該頻帶中計算該被估計的振幅:
Figure 02_image075
,或者 其中該加權值估計器(100)被配置為基於以下方程式對於該第一聲道及該第二聲道在該頻帶中計算(146)該數個被估計的振幅的該被估計的線性組合:
Figure 02_image077
,或者 其中該加權值估計器(100)被配置為計算(148)在該頻帶中的該數個聲道之間的該被估計的點乘積,基於以下方程式:
Figure 02_image079
,或者 其中該加權值估計器(100)被配置為基於以下方程式對於該第二聲道在該頻帶中的該估計功率或對於該第一聲道在該頻帶中的該估計功率進行計算(142):
Figure 02_image081
其中
Figure 02_image015
指定頻譜頻帶
Figure 02_image017
內的該分格編號,其中
Figure 02_image083
代表一MDCT分格i的一被估計的虛部,其中
Figure 02_image085
代表被包含在該第一聲道或該第二聲道的該頻譜域表徵中的該MDCT分格i的該實部,其中r代表該第一聲道,其中l代表該第二聲道。
54. 該數個示例46至53中的一個之降混器 其中該至少兩個聲道中的一第一聲道的一第一頻譜域表徵具有一第一時間解析度或一第一頻率解析度,其中該至少兩個聲道中的一第二聲道的一第二頻譜域表徵具有一第二時間解析度或一第二頻率解析度,其中該第二時間解析度不同於該第一時間解析度,並且其中該第二頻率解析度不同於該第一頻率解析度(130),以及 其中該加權值估計器(100)被配置為將該第一頻譜域表徵轉換(132)成具有該第二時間解析度或該第二頻率解析度的一被組合的頻譜域表徵,並且使用該被組合的頻譜域表徵及該第二頻譜域表徵計算該數個頻帶式加權值(134),或者將該第二頻譜域表徵轉換(132)成具有該第一時間解析度或該第一頻率解析度的一被組合的頻譜域表徵,並且使用該被組合的頻譜域表徵及該第一頻譜域表徵計算(134)該數個頻帶式加權值,或者 其中該至少兩個聲道中的一第一聲道的一第一頻譜域表徵具有一第一時間解析度或一第一頻率解析度,其中該至少兩個聲道中的一第二聲道的一第二頻譜域表徵具有一第二時間解析度或一第二頻率解析度,其中該第二時間解析度不同於該第一時間解析度,並且其中該第二頻率解析度不同於該第一頻率解析度(130),以及 其中該加權值估計器(100)被配置為 將該第一頻譜域表徵轉換成具有一第三時間解析度或一第三頻率解析度的一第一被組合的頻譜域表徵, 其中該第三時間解析度不同於該第一時間解析度或該第二時間解析度,並且其中該第三頻率解析度不同於該第一頻率解析度或該第二頻率解析度, 將該第二頻譜域表徵轉換成具有該第三時間解析度或該第三頻率解析度的一第二被組合的頻譜域表徵,以及 使用該第一被組合的頻譜域表徵及該第二被組合的頻譜域表徵計算(134)該數個頻帶式加權值。
55. 示例54之降混器,其中所述頻譜加權器(200)被配置對於該被組合的頻譜域表徵與該第二頻譜域表徵、該被組合的頻譜域表徵與該第一頻譜域表徵,及該第一被組合的頻譜域表徵與該第二被組合的頻譜域表徵中的一者進行加權,以獲得一第一被加權的頻譜域表徵及一第二被加權的頻譜域表徵,作為該至少兩個聲道的該數個頻譜域表徵。
56. 示例55之降混器,其中該混合器(400)被配置用於將該第一被加權的頻譜域表徵及該第二被加權的頻譜域表徵相加以獲得一頻譜域降混表徵,並且將在該時間域中的該頻譜域降混表徵進行轉換以獲得該降混訊號,或者將該第一被加權的頻譜域表徵及該第二被加權的頻譜域表徵轉換成該時間域以獲得該至少兩個聲道的數個時間表徵,並且將該至少兩個聲道的該數個時間表徵相加以獲得該降混訊號。
57. 對於具有至少兩個聲道的一多聲道訊號進行降混的方法,包括: 對於該至少兩個聲道估計數個頻帶式加權值; 使用該數個頻帶式加權值對該至少兩個聲道的數個頻譜域表徵進行加權; 將該至少兩個聲道的數個被加權的頻譜域表徵轉換成該至少兩個聲道的數個時間表徵;及 將該至少兩個聲道的該數個時間表徵進行混合以獲得一降混訊號。
58. 一種用於轉換一聲道的一頻譜域表徵的一頻譜解析度的方法,該聲道包括至少兩個子幀,其中每個子幀包括數個頻譜值,該數個頻譜值表示一時間分格大小及一頻率分格大小,該方法包括: 以一第一方式從該頻譜域表徵的每個子幀組合屬於相同頻率分格的數個頻譜值,以得到數個被組合的頻譜值的一第一群組;及 以一第二方式從該頻譜域表徵的每個子幀組合屬於相同頻率分格的數個頻譜值,以得到數個被組合的頻譜值的一第二群組,該第二方式不同於該第一方式,其中該數個被組合的頻譜值的第一群組及該數個被組合的頻譜值的第二群組表示一被組合的頻譜域表徵,該被組合的頻譜域表徵具有一不同時間分格大小及一不同頻率分格大小。
59. 一種對具有至少兩個聲道的一多聲道訊號進行降混的方法,包括: 對於該至少兩個聲道估計數個頻帶式加權值的步驟,包括基於每頻帶的一目標能量值計算該數個頻帶式加權值,以使在一降混訊號的該頻帶中的一能量與在該至少兩個聲道的數個相同頻帶中的數個能量處於一預定關係; 使用該數個頻帶式加權值對該至少兩個聲道的數個頻譜域表徵進行加權,以獲得數個被加權的頻譜域表徵;以及 使用該至少兩個聲道的該數個被加權的頻譜域表徵計算該降混訊號。
60. 一種電腦程式,用於當運作一電腦或處理器時進行如示例57或58或59之該方法。
這裡要被提到的是,如前所述的所有替代方案或方面以及由所附申請專利範圍中的獨立項限定的所有方面可以被單獨使用,意即,除了預期的替代方案、目的或獨立項外,沒有任何其他替代方案或目的。然而,在其他實施例中,兩個或更多個替代方案或方面或獨立項可以被彼此組合,並且在其他實施例中,所有方面或替代方案及所有獨立項可以被彼此組合。
本發明的被編碼的音訊訊號可以被儲存在一數位儲存媒介或一非暫時性儲存介質上,或者可以在一傳輸媒介諸如一無線傳輸媒介或一有線傳輸介質諸如網際網路被傳輸。
儘管一些方面已經在一裝置的上下文中被描述,但是明顯的是,這些方面也代表該相應方法的一描述,其中一塊或裝置相應於一方法步驟或一方法步驟的一特徵。類似地,在方法步驟的上下文中被描述的數個方面也表示對一相應裝置的一相應塊或項目或特徵的一描述。
取決於某些實施要求,本發明的諸多實施例可以被實現在硬體或軟體中。該實現可以使用一數位儲存媒介進行,例如:一磁片、一DVD、一CD、一ROM、一PROM、一EPROM、一EEPROM或一FLASH記憶體,其上被儲存電子可讀控制訊號,這些訊號與一可程式電腦系統協作(或能夠協作),以便進行各自的方法。
根據本發明的一些實施例包括一資料載體,該資料載體具有電子可讀控制訊號,該電子可讀控制訊號能夠與一可程式電腦系統協作,使得本文所描述的數個方法中的一個被進行。
通常地,本發明的數個實施例可以被實現為具備一程式代碼的一電腦程式產品,當該電腦程式產品在一電腦上運行(run)時,該程式代碼可運作用於進行該數個方法中的一個。該程式代碼可以例如被儲存在一機器可讀載體(machine readable carrier)上。
其他實施例包括電腦程式,被儲存在一機器可讀載體或一非暫時性儲存介質上,用於進行本文描述的數個方法中的一個。
換句話說,因此,本發明方法的一實施例是一種電腦程式,該電腦程式具有當該電腦程式在一電腦上運行時用於進行本文描述的數個方法任一個之程式代碼。
因此,本發明方法的另一實施例是一種資料載體(或一數位儲存媒介,或一電腦可讀介質),其包括記錄在其上的用於進行本文所述方法之一的電腦程式。
因此,本發明方法的另一實施例是表示用於進行本文所述數個方法任一個之該電腦程式的一資料流或數個訊號的一序列。該資料流或訊號序列可以例如被配置為經由一資料通訊連接,例如經由網際網路被傳輸。
另一實施例包括一處理裝置(processing means),例如:一電腦或一可程式邏輯裝置,被配置為或適於進行本文所描述的數個方法中的一個。
另一實施例包括一種電腦,在其上安裝該電腦程式,用於進行本文所描述的數個方法中的一個。
在一些實施例中,一可程式邏輯裝置(programmable logic device)(例如一現場可程式邏輯閘陣列)可以被用於進行本文描述的數個方法的一些或全部功能。在一些實施例中,現場可程式邏輯閘陣列可以與一微處理器協作,以便進行本文所描述的數個方法中的一個。通常地,該數個方法較佳地由任何硬體裝置進行。
如上所述的數個實施例僅用於說明本發明的原理。應當理解的是,本文描述的佈置及細節的修改及變化對於本領域具有通常知識者將是顯而易見的。因此,本發明的意圖僅由即將來臨的專利請求項的範圍限制,而不受由本文的實施方式的描述及解釋而給出的具體細節的限制。
參考文獻: [1] ITU-R BS.775-2,具備及不具備伴隨圖片的多聲道立體聲聲音系統,07/2006。 [2] F. 鮑姆加特、C. 芙樂,及P. 克朗,“使用可縮放雙耳線索編碼與均衡混音的音訊編碼器增強”,在AES第116屆大會上,柏林,2004年。 [3] G. 斯托爾、J. 分格羅、M. 林克、J. 迪分格莫勒、B. 魯諾、M. 凱爾、R. 斯托爾、M. 斯托爾,及C. 斯托爾,“產生向下相容的聲音格式的方法”,美國專利,US 2012/0 014 526,2012年。 [4] M. 金、E. 吳,及H. 沈,“由相位參數改進的立體聲音訊編碼”,在AES第129屆大會上,舊金山,2010年。 [5 ] A. 阿達米、E. 哈貝斯,及J. 赫爾,“使用相干抑制的降混”,在IEEE國際聲學、語音及訊號處理會議上,佛羅倫斯,2014年。 [6] ISO / IEC 23008-3:資訊技術—在異構環境中的高效編碼及媒體遞送—第3部分:3D音訊,2019年。 [7] S. 拜耳、C. 博爾、J. 布特、S. 迪斯曲、B. 艾德勒、G. 福契斯、F. 吉西多,及M. 穆爾特斯,“降混器及用於至少兩個聲道的降混方法以及多聲道編碼器及多聲道解碼器”,WO2018086946。 [8] 3GPP TS 26.445,用於增強語音服務(EVS)的編解碼器;詳細的演算法描述。 [9] S. 陳、H. 如民,及S. 張,“在MDCT域中對於音訊編碼進行估計空間線索”,在IEEE多媒體及博覽會國際會議,紐約,2009年。
100:加權值估計器 110:左值計算器 112:右值計算器 120:虛數部分估計器 122:虛數部分估計器 130:塊 132:塊 134:塊 136:塊 140:塊 142:塊 144:塊 146:塊 148:塊 150:塊 152:塊 160:頻譜值計算器 160:頻譜解析度組合器 170:第一方式組合器 180:第二方式組合器 190:處理資料計算器 200:頻譜加權器 220:頻譜處理器 300:轉換器 310:頻率時間轉換器 320:後處理器 400:混合器 400:降混器 480:加法器 490:單聲道訊號處理器 500:立體聲解碼器 500:頻譜處理器 L:左聲道的頻譜振幅 R:右聲道的頻譜振幅 WL:左加權因子 WR:右加權因子 b1:頻帶 b2:頻帶 b3:頻帶 f:頻率 t:時間
隨後參考隨附的圖式討論本發明的較佳實施例,其中: [第1圖]:以圖解說明根據一第一方面的一降混器; [第2圖]:以圖解說明根據該第一方面的該降混器的另一實施例。 [第3a圖]:以圖解說明該加權值估計器的一較佳實現方案; [第3b圖]:以圖解說明對於第三方面也是較佳的該加權值估計器的一較佳實施例。 [第4a圖]:以圖解說明在不同聲道中的不同時間/頻率解析度。 [第4b圖]:以圖解說明一頻譜表徵顯示一高頻譜解析度、一中頻譜解析度及一低頻譜解析度。 [第5a圖]:以圖解說明根據導致一低頻率解析度及一低時間解析度的該第一實施例的加權值估計; [第5b圖]:以圖解說明根據導致一高頻率解析度的一第二實施例及也根據該第二方面被應用的一低時間解析度由該加權值估計器所進行的一過程。 [第5c圖]:以圖解說明根據導致一低頻率解析度及一高時間解析度的一第三實施例的該加權值估計的一實現方案; [第5d圖]:以圖解說明導致一高頻率解析度及一高時間解析度的該加權值估計器的另一過程; [第6圖]:以圖解說明根據該第二方面的一裝置用於轉換一頻譜解析度的一實施例; [第7圖]:以圖解說明根據該第二方面的該裝置用於轉換一頻譜解析度的另一實現方案; [第8圖]:以圖解說明根據該第三方面的該降混器的一實施例;及 [第9圖]:以圖解說明根據該第三方面的該降混器的另一實施例。
100:加權值估計器
200:頻譜加權器
300:轉換器
310:頻率時間轉換器
320:後處理器
400:混合器
WL:頻帶式加權因子
WR:頻帶式加權因子

Claims (49)

  1. 一種對具有至少兩個聲道的一多聲道訊號進行降混的降混器,包括: 一加權值估計器(100),用於對該至少兩個聲道估計數個頻帶式加權值; 一頻譜加權器(200),用於使用該數個頻帶式加權值對於該至少兩個聲道的數個頻譜域表徵進行加權; 一轉換器(300),用於將該至少兩個聲道的數個被加權的頻譜域表徵轉換成該至少兩個聲道的數個時間表徵;及 一混合器(400),用於將該至少兩個聲道的該數個時間表徵進行混合以獲得一降混訊號。
  2. 如請求項1所述之降混器,其中該加權值估計器(100)被配置為對於該至少兩個聲道中的一第一聲道的數個頻帶計算數個第一頻帶式加權值,並且對於該至少兩個聲道中的一第二聲道的該數個頻帶計算第二數量的頻帶式加權值,或者 其中該多聲道訊號具有兩個以上的聲道,以及其中該加權值估計器(100)被配置為對於該兩個以上的聲道中的一第一聲道的數個頻帶計算數個第一頻帶式加權值、對於該兩個以上的聲道中的一第二聲道的該數個頻帶計算第二數量的頻帶式加權值,及對於該兩個以上的聲道中的另外一個聲道的該數個頻帶計算另外數個頻帶式加權值。
  3. 如請求項1或2所述之降混器, 其中該至少兩個聲道的該數個頻譜域表徵各自包括數個頻率分格的一集合,其中數個頻譜值與該數個頻率分格相關聯, 其中該加權值估計器(100)被配置為對於數個頻帶計算該數個頻帶式加權值,其中每個頻帶包括一個、兩個或更多個頻率分格,或者 其中每頻帶的數個頻率分格的一數量隨著具有一較高中心頻率的數個頻帶增加。
  4. 如前述請求項任一項所述之降混器, 其中該加權值估計器(100)被配置為基於每頻帶的一目標能量值計算該數個頻帶式加權值,使得在該降混訊號的該頻帶中的一能量與在該至少兩個聲道的數個相同頻帶中的數個能量處於一預定關係。
  5. 如前述請求項任一項所述之降混器,還包括: 一核心解碼器(500),用於解碼一被編碼的訊號,該被編碼的訊號具有至少兩個原始聲道的數個被編碼的頻譜域表徵,其中該核心解碼器被配置為從該數個被編碼的頻譜域表徵產生該數個頻譜域表徵。
  6. 如前述請求項任一項所述之降混器, 其中該數個頻譜域表徵是純實數的或純虛數的, 其中該加權值估計器(100)被配置為當該頻譜域表徵是純實數時估計一虛數頻譜域表徵(120、122),或當該頻譜域表徵為純虛數時估計一實數頻譜域表徵,以及 其中該加權值估計器(100)被配置為使用該被估計的虛數頻譜域表徵或該被估計的實數頻譜域表徵以估計該數個頻帶式加權值。
  7. 如前述請求項任一項所述之降混器,其中該加權值估計器(100)被配置為對於該至少兩個聲道中的一第一聲道的一頻帶計算一第一加權值, 其中該加權值估計器(100)被配置為對於該至少兩個聲道中的一第二聲道的該頻帶計算一第二加權值,以及 其中該加權值估計器(100)被配置為使用該第一聲道在該頻帶中的一能量、該第二聲道在該頻帶中的一能量及一混合項計算該第一加權值及該第二加權值,該混合項取決於來自該頻帶中的該至少兩個聲道的數個頻譜值的一乘積或一線性組合。
  8. 如前述請求項任一項所述之降混器, 其中該加權值估計器(100)被配置為從該至少兩個聲道的該數個頻譜域表徵計算該頻帶中被彼此相加的數個頻譜值的一能量的一平方根,作為表示該線性組合的該混合項,其中該頻帶包括數個頻譜值,或者計算在至少兩個聲道中的一第一聲道的該頻帶中的該數個頻譜值與一第二聲道的該頻帶中的該數個頻譜值之間的一複數點乘積的一絕對值,作為表示該乘積的該混合項。
  9. 如前述請求項任一項所述之降混器, 其中至少兩個聲道中的數個聲道中的一第一聲道及一第二聲道的每個頻帶具有數個頻譜值,其中該頻譜加權器(200)被配置為將相同權重應用於該至少兩個聲道中的一個聲道的該頻帶中的每個頻譜值,並且將另一權重應用於該至少兩個聲道中的另一聲道的該頻帶中的每個頻譜值。
  10. 如前述請求項任一項所述之降混器, 其中該數個被加權的頻譜域表徵是數個修正離散餘弦轉換頻譜,及 其中該轉換器(300)被配置為使用一合成窗化作業及一重疊相加作業對於該數個聲道中的每個聲道進行一反修正離散餘弦轉換。
  11. 如前述請求項任一項所述之降混器, 其中該混合器(400)被配置為應用該至少兩個聲道的該數個時間表徵的一逐樣本式加法,或者 其中該混合器(400)被配置為應用該至少兩個聲道的該數個時間表徵的一逐樣本式加法,並且將一縮放作業應用於該逐樣本式加法的一結果或應用於進入該逐樣本式加法的數個輸入。
  12. 如前述請求項任一項所述之降混器, 其中該轉換器(300)被配置為使用一頻譜時間演算法產生(310)數個原始時間表徵,以及 在由該混合器(400)進行混合前的一訊號處理方向,對該數個原始時間表徵分別進行後處理(320),使用對於該數個聲道的分離控制資訊以獲取該數個時間表徵。
  13. 如請求項12之所述降混器, 其中該轉換器(300)被配置為對於每個時間表徵分別進行一低音後濾波、一轉換編碼激勵長期預測(TCX-LTP)處理或一線性預測編碼(LPC)合成,作為該後處理(320)。
  14. 如前述請求項任一項所述之降混器, 其中該至少兩個聲道中的一第一聲道的一第一頻譜域表徵具有一第一時間解析度或一第一頻率解析度, 其中該至少兩個聲道中的一第二聲道的一第二頻譜域表徵具有一第二時間解析度或一第二頻率解析度,其中該第二時間解析度或該第二頻率解析度不同於該第一時間解析度或該第一頻率解析度,以及 其中該加權值估計器(100)被配置為計算數個頻帶式加權值,使得該數個頻帶式加權值相關聯的該數個頻帶的一頻率解析度低於該第一頻率解析度及該第二頻率解析度或者等於該第一頻率解析度及該第二頻率解析度中較低的一個。
  15. 如前述請求項任一項所述之降混器, 其中該第一頻譜域表徵具有在一頻帶中的一第一數量的頻譜值, 其中該第二頻譜域表徵具有該頻帶中的一第二數量的頻譜值,該第二數量高於該第一數量,以及 其中該加權值估計器(100)被配置為 組合該第二數量的頻譜值中的兩個或更多個頻譜值,或者從該第二數量的頻譜值選擇數個頻譜值的一子集, 使用組合該兩個或更多個頻譜值的一結果或使用該數個頻譜值的該子集計算一混合項,該混合項取決於來自該頻帶中的該至少兩個聲道的數個頻譜值的數個乘積或數個線性組合;以及 使用該混合項計算該數個頻帶式加權值。
  16. 如前述請求項任一項所述之降混器, 其中一第一頻譜域表徵包括代表一第一時間分格大小及一第一頻率分格大小的數個第一頻譜值, 其中該第二頻譜域表徵包括代表一第二時間分格大小及一第二頻率分格大小的數個頻譜值, 其中該第一時間分格大小係大於該第二時間分格大小,或其中該第一頻率分格大小係小於該第二頻率分格大小, 其中該加權值估計器(100)被配置為組合來自該第一頻譜域表徵的數個頻譜值以獲得一第一被組合的頻譜域表徵,其中一被組合的頻率分格大小係等於該第二頻率分格大小,或者組合來自該第二頻譜域表徵的數個頻譜值以獲得一第一被組合的頻譜域表徵,其中一被組合的時間分格大小係等於該第一時間分格大小。
  17. 如請求項16所述之降混器, 其中該加權值估計器(100)被配置為使用該第一被組合的頻譜域表徵或該第二被組合的頻譜域表徵,對於該至少兩個聲道中的一第一聲道及一第二聲道計算該數個頻帶式加權值,該計算包括計算在數個頻帶中的一混合項及計算在數個頻帶中的數個能量,以及 其中該頻譜加權器(200)被配置為將對於該至少兩個聲道中的該第一聲道的該數個頻帶式加權值應用於數個相應頻帶中的該第一頻譜域表徵的數個頻譜值,並且將對於該至少兩個聲道中的該第二聲道的該數個頻帶式加權值應用於該數個相應頻帶中的該第二頻譜域表徵的數個頻譜值。
  18. 如請求項1至15任一項所述之降混器, 其中一第一聲道的一第一頻譜域表徵包括表示一第一時間分格大小及一第一頻率分格大小的數個第一頻譜值, 其中一第二聲道的一第二頻譜域表徵包括至少兩個子幀,其中每個子幀包括表示一第二時間分格大小及一第二頻率分格大小的數個頻譜值, 其中該第一時間分格大小係大於該第二時間分格大小,或者其中該第一頻率分格大小係小於該第二頻率分格大小, 其中該加權值估計器(100)被配置為 以一第一方式從該第二頻譜域表徵的每個子幀組合屬於相同頻率分格的數個頻譜值,以獲得數個被組合的頻譜值的一第一群組,以及 以一第二方式從該第二頻譜域表徵的每個子幀組合屬於相同頻率分格的數個頻譜值,以獲得數個被組合的頻譜值的一第二群組,該第二方式不同於該第一方式, 其中該數個被組合的頻譜值的第一群組及該數個被組合的頻譜值的第二群組表示一被組合的頻譜域表徵,該被組合的頻譜域表徵具有該第一時間分格大小及該第一頻率分格大小,以及 使用該被組合的頻譜域表徵及該第一頻譜域表徵的該數個頻譜值計算該數個頻帶式加權值。
  19. 如請求項18所述之降混器, 其中該加權值估計器(100)被配置為以該第一方式進行一加法及一減法中的一種,並且以該第二方式進行該加法及該減法中的另一種。
  20. 如請求項18或19所述之降混器,其中該加權值估計器(100)被配置為以該第一方式及該第二方式進行一平均功能。
  21. 如請求項18至20任一項所述之降混器,其中該加權值估計器(100)被配置為應用該第一方式或該第二方式,包括使用一加權符號進行一加權,其中該加權值估計器(100)被配置為根據相同頻率分格的一頻率分格編號設定該加權符號。
  22. 如請求項18至21任一項所述之降混器,其中該加權值估計器(100)被配置為應用一高通濾波及一低通濾波中的一種作為該第一方式,以及應用一高通濾波及一低通濾波中的另一種作為該第二方式。
  23. 如請求項18至22任一項所述之降混器,其中該加權值估計器(100)被配置為將一較低解析度分格轉換成兩個較高解析度分格,其中該第一方式被用於該兩個較高解析度分格中的一第一較高解析度分格的一偶數分格編號,該第二方式被用於該兩個較高解析度分格中的一第二較高解析度分格的一奇數分格編號。
  24. 如請求項18至22任一項所述之降混器, 其中該第一聲道的該第一頻譜域表徵包括一TCX20幀,其中該第二聲道的該第二頻譜域表徵包括兩個TCX10子幀,其中該加權值估計器(100)被配置為從該兩個TCX10子幀計算一被組合的TCX20頻譜域表徵,或者 其中該第一聲道的該第一頻譜域表徵包括一TCX20幀,其中該第二聲道的該第二頻譜域表徵包括一TCX10子幀及兩個TCX5子幀,其中該加權值估計器(100)被配置為從該兩個TCX5子幀計算一第一被組合的TCX10頻譜域表徵,及從該第一被組合的TCX10頻譜域表徵及該TCX10子幀計算一第二被組合的TCX20子幀,或者 其中該第一聲道的該第一頻譜域表徵包括一TCX10子幀,其中該第二聲道的該第二頻譜域表徵包括兩個TCX5子幀,及其中該加權值估計器(100)被配置為從該兩個TCX5子幀計算一被組合的TCX10頻譜域表徵, 其中該表述TCX20指示一第一部分具備一第一時間長度,其中該表述TCX10指示一第二部分具備一第二時間長度,其中該表述TCX5指示一第三部分具備一第三時間長度,其中該第一時間長度比該第二時間長度或該第三時間長度更長,或者其中該第二時間長度比該第一時間長度更短或比第二時間長度更長,以及其中該第三時間長度比該第一時間長度更短或比該第二時間長度更短。
  25. 如請求項18至23任一項所述之降混器,其中該加權值估計器(100)被配置為基於以下方程式應用該第一方式:
    Figure 03_image051
    ,或者 其中該加權值估計器(100)被配置為基於以下方程式應用該第二方式:
    Figure 03_image053
    , 其中
    Figure 03_image015
    定義一頻譜分格編號並且
    Figure 03_image041
    Figure 03_image043
    定義該第二聲道的該第二頻譜域表徵的數個子幀,以及 其中,
    Figure 03_image055
    Figure 03_image057
    分別指示該被組合的頻譜域表徵的數個頻譜值,並且
    Figure 03_image059
    Figure 03_image061
    分別指示來自一第二子幀k1 及一第一子幀k0 的數個頻譜值。
  26. 如請求項1所述之降混器, 其中該至少兩個聲道中的一第一聲道的一第一頻譜域表徵具有一第一時間解析度或一第一頻率解析度,其中該至少兩個聲道中的一第二聲道的一第二頻譜域表徵具有一第二時間解析度或一第二頻率解析度,其中該第二時間解析度不同於該第一時間解析度,或者其中該第二頻率解析度不同於該第一頻率解析度,以及 其中該加權值估計器(100)被配置為將該第一頻譜域表徵轉換(132)成具有該第二時間解析度或該第二頻率解析度的一被組合的頻譜域表徵,並且使用該被組合的頻譜域表徵及該第二頻譜域表徵計算該數個頻帶式加權值,或者將該第二頻譜域表徵轉換成具有該第一時間解析度或該第一頻率解析度的一被組合的頻譜域表徵,並且使用該被組合的頻譜域表徵及該第一頻譜域表徵計算該數個頻帶式加權值,或者 其中該至少兩個聲道中的一第一聲道的一第一頻譜域表徵具有一第一時間解析度或一第一頻率解析度,其中該至少兩個聲道中的一第二聲道的一第二頻譜域表徵具有一第二時間解析度或一第二頻率解析度,其中該第二時間解析度不同於該第一時間解析度,或者其中該第二頻率解析度不同於該第一頻率解析度,以及 其中該加權值估計器(100)被配置為 將該第一頻譜域表徵轉換(132)成具有一第三時間解析度或一第三頻率解析度的一第一被組合的頻譜域表徵, 其中該第三時間解析度不同於該第一時間解析度或該第二時間解析度,及其中該第三頻率解析度不同於該第一頻率解析度或該第二頻率解析度, 將該第二頻譜域表徵轉換(132)成具有該第三時間解析度或該第三頻率解析度的一第二被組合的頻譜域表徵,以及 使用該第一被組合的頻譜域表徵及該第二被組合的頻譜域表徵計算(134)該數個頻帶式加權值。
  27. 如請求項25所述之降混器, 其中對於一特定時間部分(TCX20),該第二聲道包括該第二頻譜域表徵, 其中對於該特定時間部分(2xTCX10),該第一聲道包括該數個第一頻譜域表徵中的兩個或更多個, 其中該加權值估計器(100)被配置為將該兩個或更多個第一頻譜域表徵轉換成該被組合的頻譜域表徵,該被組合的頻譜域表徵具有相同於該第二頻譜域表徵的時間解析度及頻率解析度,並且使用該被組合的頻譜域表徵及該第二頻譜域表徵計算該數個頻帶式加權值,以及 其中該頻譜加權器(200)被配置為使用該數個頻帶式加權值對該第二頻譜域表徵進行加權,以及使用數個相同的頻帶式加權值對該兩個或更多個第一頻譜域表徵中的每個第一頻譜域表徵進行加權。
  28. 如請求項26所述之降混器, 其中該加權值估計器(100)被配置對於該兩個或更多個第一頻譜域表徵的一相同頻率的數個頻譜值進行相加以獲得該被組合的頻譜域表徵的一第一頻譜值,並且對於該兩個或更多個第一頻譜域表徵的一相同頻率的數個頻譜值進行相減以獲得該被組合的頻譜域表徵的一第二頻譜值,該被組合的頻譜域表徵的該第二頻譜值在頻率上高於且相鄰於該被組合的頻譜域表徵的該第一頻譜值,並且 其中該頻譜加權器(200)被配置為使用該相同的頻帶式加權值對該兩個或更多個第一頻譜域表徵中的每個第一頻譜域表徵中的具有相同的數個頻率的一頻帶進行加權。
  29. 如請求項25所述之降混器, 其中對於一特定時間部分(TCX20),該第二聲道包括該第二頻譜域表徵, 其中對於該特定時間部分(2xTCX10),該第一聲道包括兩個或更多個第一頻譜域表徵, 其中該加權值估計器(100)被配置為 將該第二頻譜域表徵轉換成兩個或更多個被組合的頻譜域表徵,該兩個或更多個被組合的頻譜域表徵具有相同於該兩個或更多個第一頻譜域表徵的時間解析度及頻率解析度, 使用該兩個或更多個被組合的頻譜域表徵中的一第一個被組合的頻譜域表徵及該兩個或更多個第一頻譜域表徵中的一第一個第一頻譜域表徵計算數個第一頻帶式加權值, 使用該兩個或更多個被組合的頻譜域表徵中的一第二個被組合的頻譜域表徵及該兩個或更多個第一頻譜域表徵中的一第二個第一頻譜域表徵計算數個第二頻帶式加權值,以及 其中該頻譜加權器(200)被配置為 使用從該數個第一頻帶式加權值及該數個第二頻帶式加權值被衍生(136)的數個被衍生的頻帶式加權值對該第二頻譜域表徵進行加權, 使用該數個第一頻帶式加權值對該兩個或更多個第一頻譜域表徵中的該第一個第一頻譜域表徵進行加權,及 使用該數個第二頻帶式加權值對該兩個或更多個第一頻譜域表徵中的該第二個第一頻譜域表徵進行加權。
  30. 如請求項28所述之降混器, 其中該加權值估計器(100)被配置用於將該第二頻譜域表徵的數個成對的頻率的數個頻譜值相加以獲得一被加的頻譜值,並且用於對該兩個或更多個被組合的頻譜域表徵中的每個複製到該被加的頻譜值以獲得一被組合的頻譜值,以及 其中該頻譜加權器(200)被配置為組合(136)用於該數個第一頻帶式加權值的一特定頻帶的一加權值與用於該數個第二頻帶式加權值的該特定頻帶的一加權值,以獲得用於該數個被衍生的頻帶式加權值的該特定頻帶的一被衍生的加權值。
  31. 如請求項25所述之降混器, 其中對於一特定時間部分(TCX20),該第二聲道包括該第二頻譜域表徵, 其中對於該特定時間部分(2xTCX10),該第一聲道包括兩個或更多個第一頻譜域表徵, 其中該加權值估計器(100)被配置為 將該第二頻譜域表徵轉換成兩個或更多個被組合的頻譜域表徵,該兩個或更多個被組合的頻譜域表徵具有相同於該兩個或更多個第一頻譜域表徵的時間解析度且具有相同於該第二頻譜域表徵的頻率解析度, 使用該兩個或更多個被組合的頻譜域表徵中的一第一個被組合的頻譜域表徵及該兩個或更多個第一頻譜域表徵中的一第一個第一頻譜域表徵計算數個第一頻帶式加權值, 使用該兩個或更多個被組合的頻譜域表徵中的一第二個被組合的頻譜域表徵及該兩個或更多個第一頻譜域表徵中的一第二個第一頻譜域表徵計算數個第二頻帶式加權值,以及 其中該頻譜加權器(200)被配置為 使用從該數個第一頻帶式加權值及該數個第二頻帶式加權值被衍生(136)的數個頻帶式加權值對該第二頻譜域表徵進行加權, 使用該數個第一頻帶式加權值對該兩個或更多個第一頻譜域表徵中的該第一個第一頻譜域表徵進行加權,以及 使用該數個第二頻帶式加權值對該兩個或更多個第一頻譜域表徵中的該第二個第一頻譜域表徵進行加權。
  32. 如請求項30所述之降混器, 其中該加權值估計器(100)被配置用於將一個或更多個頻譜值進行升取樣,以獲得對於該第二頻譜域表徵的數個相鄰頻率的數個被升取樣的頻譜值,並且用於對該兩個或更多個被組合的頻譜域表徵中的每個複製到數個被升取樣的頻譜值,以獲得數個被組合的頻譜值,以及 其中該頻譜加權器(200)被配置為組合(136)用於該數個第一頻帶式加權值的一特定頻帶的一加權值與用於該第二數量的頻帶式加權值的該特定頻帶的一加權值,以獲得用於該數個被衍生的頻帶式加權值的該特定頻帶的一被衍生的加權值。
  33. 如請求項25所述之降混器, 其中對於一特定時間部分(TCX20),該第二聲道包括該第二頻譜域表徵, 其中對於該特定時間部分(2xTCX10),該第一聲道包括該數個第一頻譜域表徵中的兩個或更多個, 其中該加權值估計器(100)被配置為 將該兩個或更多個第一頻譜域表徵轉換成該第一被組合的頻譜域表徵,該第一被組合的頻譜域表徵具有相同於該第二頻譜域表徵的時間解析度, 將該數個第二頻譜域表徵轉換成該第二被組合的頻譜域表徵,該第二被組合的頻譜域表徵具有相同於該兩個或更多個第一頻譜域表徵的頻率解析度,以及 使用該第一被組合的頻譜域表徵及該第二被組合的頻譜域表徵計算該數個頻帶式加權值,以及 其中該頻譜加權器(200)被配置為使用該數個頻帶式加權值對該第二頻譜域表徵進行加權,並且使用數個相同的頻帶式加權值對該兩個或更多個第一頻譜域表徵中的每個第一頻譜域表徵進行加權。
  34. 如請求項32所述之降混器, 其中該加權值估計器(100)被配置用於將該第二頻譜域表徵的數個成對的頻率的數個頻譜值進行相加,以獲得該第二被組合的頻譜域表徵,以及將該兩個或更多個第一頻譜域表徵的相同頻率的數個頻譜值進行相加,以獲得該第一被組合的頻譜域表徵,以及 其中該頻譜加權器(200)被配置為使用相同的頻帶式加權值對該兩個或更多個第一頻譜域表徵中的每個第一頻譜域表徵中具有數個相同頻率的一頻帶進行加權。
  35. 如前述請求項任一項所述之降混器, 其中該加權值估計器(100)被配置為使用一第一計算規則對於該至少兩個聲道中的一第一聲道的數個頻帶計算數個第一頻帶式加權值,該第一計算規則取決於下列中的至少兩者:該第一聲道的一第一頻譜域表徵的數個頻譜值、該第二聲道的一第二頻譜域表徵的數個頻譜值、衍生自該第一頻譜域表徵或該第二頻譜域表徵的該數個頻譜值的單個被組合的頻譜域表徵的數個頻譜值、衍生自該第一頻譜域表徵的該數個頻譜值的一第一被組合的頻譜域表徵的數個頻譜值,及衍生自該第二頻譜域表徵的該數個頻譜值的一第二被組合的頻譜域表徵的數個頻譜值,以及 其中該加權值估計器(100)被配置為使用一第二計算規則對於該至少兩個聲道中的該第一聲道的數個頻帶計算數個第二頻帶式加權值,該第二計算規則取決於下列中的至少兩者:該數個第一頻帶式加權值、該第一聲道的該第一頻譜域表徵的該數個頻譜值、該第二聲道的該第二頻譜域表徵的該數個頻譜值、衍生自該第一頻譜域表徵或該第二頻譜域表徵的該數個頻譜值的該單個被組合的頻譜域表徵的該數個頻譜值、衍生自該第一頻譜域表徵的該數個頻譜值的一第一被組合的頻譜域表徵的該數個頻譜值,及衍生自該第二頻譜域表徵的該數個頻譜值的一第二被組合的頻譜域表徵的該數個頻譜值,其中該第二計算規則不同於該第一計算規則。
  36. 一種對具有至少兩個聲道的一多聲道訊號進行降混的降混器,包括: 一加權值估計器(100),用於對該至少兩個聲道估計數個頻帶式加權值,其中該加權值估計器(100)被配置為基於每頻帶的一目標能量值計算該數個頻帶式加權值,以使在一降混訊號的該頻帶中的一能量與在該至少兩個聲道的該數個相同頻帶中的數個能量處於一預定關係; 一頻譜加權器(200),用於使用該數個頻帶式加權值對該至少兩個聲道的數個頻譜域表徵進行加權,以獲得數個被加權的頻譜域表徵;及 一混合器(400),用於使用該至少兩個聲道的該數個被加權的頻譜域表徵計算該降混訊號。
  37. 如請求項35所述之降混器, 其中該數個頻譜域表徵是純實數的或純虛數的, 其中該加權值估計器(100)被配置為當該頻譜域表徵是純實數時估計(140)一虛數頻譜域表徵,或當該頻譜域表徵是純虛數時估計(140)一實數頻譜域表徵,以及 其中該加權值估計器(100)被配置為使用該被估計的虛數頻譜域表徵或該被估計的實數頻譜域表徵估計該數個頻帶式加權值。
  38. 如請求項35或36中的一個所述之降混器,其中該加權值估計器(100)被配置為對於該至少兩個聲道中的一第一聲道的一頻帶計算一第一加權值,對於該至少兩個聲道中的一第二聲道的該頻帶計算一第二加權值,及使用(142)該第一聲道在該頻帶中的一能量、該第二聲道在該頻帶中的一能量及一混合項計算該第一加權值及該第二加權值,該混合項取決於來自該頻帶中的該至少兩個聲道的數個頻譜值的一乘積(148)或一線性組合(146)。
  39. 如請求項35至37任一項所述之降混器, 其中該加權值估計器(100)被配置為從該至少兩個聲道的該數個頻譜域表徵計算該頻帶中被彼此相加的數個頻譜值的一能量的一平方根,作為表示該線性組合(146)的該混合項,其中該頻帶包括數個頻譜值,或計算在該至少兩個聲道中的一第一聲道的該頻帶中的該數個頻譜值與一第二聲道的該頻帶中的該數個頻譜值之間的一複數點乘積的一絕對值,作為表示該乘積(148)的該混合項。
  40. 如請求項35至38任一項所述之降混器, 其中該至少兩個聲道中的一第一聲道及一第二聲道的每個頻帶具有數個頻譜值,其中該頻譜加權器(200)被配置為將相同權重應用於該至少兩個聲道中的一個的該頻帶中的每個頻譜值,並且將另一權重應用於該至少兩個聲道中的另一聲道的該頻帶中的每個頻譜值。
  41. 如請求項35至39任一項所述之降混器,其中該加權值估計器(100)被配置為基於以下方程式對於該至少兩個聲道中的一第一聲道計算(150)該數個頻帶式加權值:
    Figure 03_image009
    其中wR 是用於該第一聲道對一頻帶的一加權因子,其中
    Figure 03_image063
    是對於該第二聲道的一被估計的功率,其中
    Figure 03_image065
    是用於該第一聲道的該頻帶中的一被估計的功率,其中
    Figure 03_image067
    是在該頻帶中的該數個聲道之間的一被估計的點乘積,其中
    Figure 03_image069
    是對於該第二聲道在該頻帶中的一被估計的振幅,其中
    Figure 03_image071
    是對於該第一聲道在該頻帶中的一被估計的振幅。
  42. 如請求項40所述之降混器,其中該加權值估計器(100)被配置為基於以下方程式對於該至少兩個聲道中的一第二聲道計算(152)該數個頻帶式加權值:
    Figure 03_image073
    其中wL 是用於該第二聲道對該頻帶的一加權因子,以及其中
    Figure 03_image025
    是對於該第一聲道及該第二聲道在該頻帶中的該數個被估計的振幅的一被估計的線性組合。
  43. 如請求項39至41任一項所述之降混器,其中該加權值估計器(100)被配置為基於以下方程式對於該第二聲道在所述頻帶中計算(144)該被估計的振幅,及對於該第一聲道在所述頻帶中計算該被估計的振幅:
    Figure 03_image087
    ,或者 其中該加權值估計器(100)被配置為基於以下方程式對於該第一聲道及該第二聲道在該頻帶中計算(146)該數個被估計的振幅的該被估計的線性組合:
    Figure 03_image089
    ,或者 其中該加權值估計器(100)被配置為基於以下方程式計算(148)在該頻帶中的該數個聲道之間的該被估計的點乘積:
    Figure 03_image079
    ,或者 其中該加權值估計器(100)被配置為基於以下方程式對於該第二聲道在該頻帶中的該估計功率或對於該第一聲道在該頻帶中的該估計功率進行計算(142):
    Figure 03_image091
    其中
    Figure 03_image015
    指定頻譜頻帶
    Figure 03_image017
    內的該分格編號,其中
    Figure 03_image083
    代表一MDCT分格i的一被估計的虛部,其中
    Figure 03_image085
    代表被包含在該第一聲道或該第二聲道的該頻譜域表徵中的該MDCT分格i的該實部,其中r代表該第一聲道,其中l代表該第二聲道。
  44. 如請求項35至42任一項所述之降混器, 其中該至少兩個聲道中的一第一聲道的一第一頻譜域表徵具有一第一時間解析度或一第一頻率解析度,其中該至少兩個聲道中的一第二聲道的一第二頻譜域表徵具有一第二時間解析度或一第二頻率解析度,其中該第二時間解析度不同於該第一時間解析度,並且其中該第二頻率解析度不同於該第一頻率解析度(130),以及 其中該加權值估計器(100)被配置為將該第一頻譜域表徵轉換(132)成具有該第二時間解析度或該第二頻率解析度的一被組合的頻譜域表徵,並且使用該被組合的頻譜域表徵及該第二頻譜域表徵計算該數個頻帶式加權值(134),或者將該第二頻譜域表徵轉換(132)成具有該第一時間解析度或該第一頻率解析度的一被組合的頻譜域表徵,並且使用該被組合的頻譜域表徵及該第一頻譜域表徵計算(134)該數個頻帶式加權值,或者 其中該至少兩個聲道中的一第一聲道的一第一頻譜域表徵具有一第一時間解析度或一第一頻率解析度,其中該至少兩個聲道中的一第二聲道的一第二頻譜域表徵具有一第二時間解析度或一第二頻率解析度,其中該第二時間解析度不同於該第一時間解析度,並且其中該第二頻率解析度不同於該第一頻率解析度(130),以及 其中該加權值估計器(100)被配置為 將該第一頻譜域表徵轉換(132)成具有一第三時間解析度或一第三頻率解析度的一第一被組合的頻譜域表徵, 其中該第三時間解析度不同於該第一時間解析度或該第二時間解析度,並且其中該第三頻率解析度不同於該第一頻率解析度或該第二頻率解析度, 將該第二頻譜域表徵轉換(132)成具有該第三時間解析度或該第三頻率解析度的一第二被組合的頻譜域表徵,以及 使用該第一被組合的頻譜域表徵及該第二被組合的頻譜域表徵計算(134)該數個頻帶式加權值。
  45. 如請求項43所述之降混器,其中所述頻譜加權器(200)被配置對於該被組合的頻譜域表徵與該第二頻譜域表徵、該被組合的頻譜域表徵與該第一頻譜域表徵,及該第一被組合的頻譜域表徵與該第二被組合的頻譜域表徵中的一者進行加權,以獲得一第一被加權的頻譜域表徵及一第二被加權的頻譜域表徵,作為該至少兩個聲道的該數個頻譜域表徵。
  46. 如請求項44所述之降混器,其中該混合器(400)被配置用於將該第一被加權的頻譜域表徵及該第二被加權的頻譜域表徵相加以獲得一頻譜域降混表徵,並且將在該時間域中的該頻譜域降混表徵進行轉換以獲得該降混訊號,或者將該第一被加權的頻譜域表徵及該第二被加權的頻譜域表徵轉換成該時間域以獲得該至少兩個聲道的數個時間表徵,並且將該至少兩個聲道的該數個時間表徵相加以獲得該降混訊號。
  47. 一種對於具有至少兩個聲道的一多聲道訊號進行降混的方法,包括: 對於該至少兩個聲道估計數個頻帶式加權值; 使用該數個頻帶式加權值對該至少兩個聲道的數個頻譜域表徵進行加權; 將該至少兩個聲道的數個被加權的頻譜域表徵轉換成該至少兩個聲道的數個時間表徵;及 將該至少兩個聲道的該數個時間表徵進行混合以獲得一降混訊號。
  48. 一種對具有至少兩個聲道的一多聲道訊號進行降混的方法,包括步驟: 對於該至少兩個聲道估計數個頻帶式加權值,包括基於每頻帶的一目標能量值計算該數個頻帶式加權值,以使在一降混訊號的該頻帶中的一能量與在該至少兩個聲道的數個相同頻帶中的數個能量處於一預定關係; 使用該數個頻帶式加權值對該至少兩個聲道的數個頻譜域表徵進行加權,以獲得數個被加權的頻譜域表徵;以及 使用該至少兩個聲道的該數個被加權的頻譜域表徵計算該降混訊號。
  49. 一種電腦程式,用於當運作一電腦或處理器時進行如請求項46或47所述之方法。
TW109107332A 2019-03-06 2020-03-05 降混器及降混方法 TWI760705B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP19161076.5 2019-03-06
EP19161076 2019-03-06
PCT/EP2020/055669 WO2020178321A1 (en) 2019-03-06 2020-03-04 Downmixer and method of downmixing
WOPCT/EP2020/055669 2020-03-04

Publications (2)

Publication Number Publication Date
TW202101427A true TW202101427A (zh) 2021-01-01
TWI760705B TWI760705B (zh) 2022-04-11

Family

ID=65801834

Family Applications (2)

Application Number Title Priority Date Filing Date
TW109107332A TWI760705B (zh) 2019-03-06 2020-03-05 降混器及降混方法
TW109107331A TW202042214A (zh) 2019-03-06 2020-03-05 用於轉換一頻譜解析率的裝置及方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW109107331A TW202042214A (zh) 2019-03-06 2020-03-05 用於轉換一頻譜解析率的裝置及方法

Country Status (13)

Country Link
US (1) US20210375293A1 (zh)
EP (1) EP3935630A1 (zh)
JP (3) JP7416816B2 (zh)
KR (1) KR20210137121A (zh)
CN (1) CN113544774A (zh)
AU (2) AU2020233210B2 (zh)
BR (1) BR112021017197A2 (zh)
CA (1) CA3132404A1 (zh)
MX (1) MX2021010570A (zh)
SG (1) SG11202108895TA (zh)
TW (2) TWI760705B (zh)
WO (2) WO2020178321A1 (zh)
ZA (1) ZA202107327B (zh)

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7343281B2 (en) * 2003-03-17 2008-03-11 Koninklijke Philips Electronics N.V. Processing of multi-channel signals
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
SG10202004688SA (en) * 2004-03-01 2020-06-29 Dolby Laboratories Licensing Corp Multichannel Audio Coding
ES2947516T3 (es) * 2006-10-25 2023-08-10 Fraunhofer Ges Forschung Aparato y procedimiento para la generación de valores de subbanda de audio de valor complejo
KR20080076691A (ko) * 2007-02-14 2008-08-20 엘지전자 주식회사 멀티채널 오디오신호 복호화방법 및 그 장치, 부호화방법및 그 장치
JP5058844B2 (ja) * 2008-02-18 2012-10-24 シャープ株式会社 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
CN101809656B (zh) * 2008-07-29 2013-03-13 松下电器产业株式会社 音响编码装置、音响解码装置、音响编码解码装置及会议系统
DE102008056704B4 (de) 2008-11-11 2010-11-04 Institut für Rundfunktechnik GmbH Verfahren zum Erzeugen eines abwärtskompatiblen Tonformates
EP2237266A1 (en) * 2009-04-03 2010-10-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
KR101756838B1 (ko) * 2010-10-13 2017-07-11 삼성전자주식회사 다채널 오디오 신호를 다운 믹스하는 방법 및 장치
US9697840B2 (en) * 2011-11-30 2017-07-04 Dolby International Ab Enhanced chroma extraction from an audio codec
KR20150032614A (ko) * 2012-06-04 2015-03-27 삼성전자주식회사 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
TWI618051B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
US10362422B2 (en) * 2014-08-01 2019-07-23 Steven Jay Borne Audio device
US10217467B2 (en) * 2016-06-20 2019-02-26 Qualcomm Incorporated Encoding and decoding of interchannel phase differences between audio signals
BR112019009318A2 (pt) * 2016-11-08 2019-07-30 Fraunhofer Ges Forschung aparelho e método para codificar ou decodificar um sinal multicanal com o uso de um ganho lateral e um ganho residual
AU2017357452B2 (en) * 2016-11-08 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder
JP2017058696A (ja) * 2016-12-09 2017-03-23 ホアウェイ・テクノロジーズ・カンパニー・リミテッド インターチャネル差分推定方法及び空間オーディオ符号化装置
GB2561596A (en) * 2017-04-20 2018-10-24 Nokia Technologies Oy Audio signal generation for spatial audio mixing

Also Published As

Publication number Publication date
TWI760705B (zh) 2022-04-11
US20210375293A1 (en) 2021-12-02
AU2020233210A1 (en) 2021-11-04
CN113544774A (zh) 2021-10-22
EP3935630A1 (en) 2022-01-12
JP2024001324A (ja) 2024-01-09
JP7416816B2 (ja) 2024-01-17
WO2020178322A1 (en) 2020-09-10
TW202042214A (zh) 2020-11-16
BR112021017197A2 (pt) 2021-11-09
AU2023258388A1 (en) 2023-11-23
WO2020178321A1 (en) 2020-09-10
ZA202107327B (en) 2022-08-31
JP2022522706A (ja) 2022-04-20
MX2021010570A (es) 2021-10-13
AU2020233210B2 (en) 2023-09-28
JP2024001325A (ja) 2024-01-09
KR20210137121A (ko) 2021-11-17
SG11202108895TA (en) 2021-09-29
CA3132404A1 (en) 2020-09-10

Similar Documents

Publication Publication Date Title
JP7181671B2 (ja) マルチチャンネル信号を符号化するためのオーディオエンコーダおよび符号化されたオーディオ信号を復号化するためのオーディオデコーダ
US10535356B2 (en) Apparatus and method for encoding or decoding a multi-channel signal using spectral-domain resampling
KR101356972B1 (ko) 위상값 평활화를 이용하여 다운믹스 오디오 신호를 업믹스하는 장치, 방법 및 컴퓨터 프로그램
RU2639952C2 (ru) Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
US11074920B2 (en) Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
CN105378832B (zh) 解码器、编码器、解码方法、编码方法和存储介质
RU2749349C1 (ru) Кодер аудиосцены, декодер аудиосцены и соответствующие способы, использующие пространственный анализ с гибридным кодером/декодером
JP6732739B2 (ja) オーディオ・エンコーダおよびデコーダ
TWI760705B (zh) 降混器及降混方法
RU2791673C1 (ru) Устройство понижающего микширования и способ понижающего микширования
JP7348304B2 (ja) 出力ダウンミックス表現を生成するための装置及びコンピュータプログラム
RU2791872C1 (ru) Устройство, способ или компьютерная программа для формирования выходного представления понижающего микширования