TW201523586A - 自適應相位校準之多聲道降混之梳型濾波器之偽影削減 - Google Patents

自適應相位校準之多聲道降混之梳型濾波器之偽影削減 Download PDF

Info

Publication number
TW201523586A
TW201523586A TW103124999A TW103124999A TW201523586A TW 201523586 A TW201523586 A TW 201523586A TW 103124999 A TW103124999 A TW 103124999A TW 103124999 A TW103124999 A TW 103124999A TW 201523586 A TW201523586 A TW 201523586A
Authority
TW
Taiwan
Prior art keywords
matrix
input
channel
source signal
decoder
Prior art date
Application number
TW103124999A
Other languages
English (en)
Other versions
TWI560702B (en
Inventor
席夢尼 傅吉
亞琴 昆慈
米歇爾 卡拉茲奇門
維卡莫 珠哈 珠哈
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201523586A publication Critical patent/TW201523586A/zh
Application granted granted Critical
Publication of TWI560702B publication Critical patent/TWI560702B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)

Abstract

本發明係揭露一種音源訊號處理解碼器,包含至少一頻帶(36),且該音源訊號處理解碼器係用以處理在至少一頻帶(36)具有複數個輸入聲道(38)的一輸入音源訊號(37),其中該解碼器(2)被設置用以分析該輸入音源訊號(37),其中在該輸入聲道(38)間之聲道間相依性(39)為已識別;被設置用以根據該識別聲道間相依性(39)以校準該輸入聲道(38)之該相位,其中該輸入聲道(38)之該相位互相校準的愈多,其聲道間相依性(39)即愈高;以及被配置用於降混校準之該輸入音源訊號至一輸出音源訊號(40),該輸出音源訊號(40)具有比該輸入聲道(38)較少數目的輸出聲道(41)。

Description

自適應相位校準之多聲道降混之梳型濾波器之偽影削減
下列敘述是有關一種音源訊號處理,特別是,有關於一種自適應相位校準之多聲道降混之梳型濾波器之偽影削減。
至現在為止,一些多聲道音頻格式被採用,從典型的電影聲軌5.1環繞音效至更廣泛的3D環繞音效格式。在某些情況下,聲音內容必須透過一較少數目的揚聲器進行傳達。
此外,在近期的低位元速率音源解碼方法中,如在J.Breebaart,S.van de Par,A.Kohlrausch,and E.Schuijers,“Parametric coding of stereoaudio,”EURASIP Journal on Applied Signal Processing,vol.2005,pp.1305-1322,2005以及在J.Herre,K.Kjörling,J.Breebaart,C.Faller,S.Disch,H.Purnhagen,J.Koppens,J.Hilpert,J.Röden,W.Oomen,K.Linzmeier,and K.S.Chong,“MPEG Surround-The ISO/MPEG standard for efficient and compatible multichannel audio coding,”J.Audio Eng.Soc,vol.56,no.11,pp.932-955,2008所描述,高聲道數被傳送如一組降混訊號以及空間輔助資訊,使原來聲道組態之一多聲道訊號被還原。這些使用的案例激勵出降混方法之發展,來好好地保留住聲音品質。
最簡單的降混方法是使用一靜態降混矩陣的聲道總和。然而,若是輸入聲道包含連貫的聲音但在時間上未經過校準,所述降混訊號可能達到感知的光譜偏差,例如一梳型濾波器之特徵。
在In J.Breebaart and C.Faller,“Spatial audio processing:MPEG Surround and other applications”.Wiley-Interscience,2008中,描述一 個校準兩個輸入訊號的相位校準方法,其根據在頻帶所估計的內部聲道相位差異參數(ICPD)來調整輸入聲道的相位。此解決方案提供了如在論文裡提及之類似基本功能,但卻無法應用於多於兩個內部相關聲道之降混。
在WO 2012/006770,PCT/CN2010/075107(Huawei,Faller,Lang,Xu)中,提及一種二對一聲道(立體聲至單聲道)情況的相位校準處理。此處理並未直接應用在多聲道之音源。
在Wu et al,“Parametric Stereo Coding Scheme with a new Downmix Method and whole Band Inter Channel Time/Phase Differences”,Proceedings of the ICASSP,2013中,提出一種針對降混立體聲的使用全頻帶內部聲道相位差異被提出,單聲道訊號的相位被配置在左聲道以及所有相位差異間之相位差異。再次的,此方法僅適用於立體聲至單聲道之降混。多於兩個的內部相依聲道在此方法中無法被降混。
本發明之目的在於提供對音源訊號處理之改善概念。本發明之目的可根據專利保護範圍第1項之一編碼器、專利保護範圍第12項之一解碼器、專利保護範圍第13項之一系統、專利保護範圍第14項之一方法以及專利保護範圍第15項之一電腦來進行解決。
根據本發明之目的,提出一種音源訊號處理解碼器,其包含至少一頻帶,且該音源訊號處理解碼器係用以處理在至少一頻帶具有複數個輸入聲道的一輸入音源訊號,該解碼器用以校準該輸入聲道的相位,該相位係決取於該輸入聲道間的聲道間相依性,其中該輸入聲道之該相位互相校準的愈多,其聲道間相依性即愈高。另外,該解碼器用以降混校準之該輸入音源訊號至一輸出音源訊號,其中該輸出音源訊號具有比該輸入聲道較少數目的輸出聲道。
所述解碼器之基本工作原理為在特定頻帶中的相位中,所述輸入音源訊號的互相依賴(相干)輸入聲道係彼此相互吸引,而所述輸入音源訊號之那些輸入聲道是相互獨立(非相干)不受影響的。本文所提出解碼器的目的在於改善相對於臨界訊號取消條件之後均衡方法的降混品質,同時提供在非臨界條件下相同的效能。
另外,所述解碼器的至少一些函式可以被傳送至所述外部裝 置,例如一編碼器,所述外部裝置提供所述輸入音源訊號。這可以提供反應至訊號的可能性,在所述技術中解碼器可能會產生偽影。另外,有可能不改變解碼器的情形下更新降混處理規則,並確保一高級的降混品質。所述解碼器之轉移函式將詳細地被描述於其後。
在部份實施例中,為了識別在輸入音源聲道間的聲道間相依性,所述解碼器係用來分析在頻帶裡的輸入音源訊號。在此例子中,當輸入音源訊號的分析是由解碼器本身完成時,提供輸入音源訊號之編碼器可以是一個標準的編碼器。
在實施例中,所述解碼器可從一外部裝置的輸入聲道間接收所述聲道間相依性,例如從一編碼器,此外部裝置提供所述輸入音源訊號。這個版本允許在解碼器裡有彈性之配置,但在編碼器和解碼器之間需要更多額外的資料傳輸,通常在位元串流包含所述解碼器之輸入訊號。
在部份實施例中,根據所述輸入音源訊號之一決定能量,所述解碼器係用以正規化所述輸出音源訊號之能量,其中所述解碼器係用以決定所述輸入音源訊號之所述訊號能量。
在部份實施例中,根據所述輸入音源訊號之所決定的能量,所述解碼器係用以正規化所述輸出音源訊號之所述能量,其中所述解碼器用以從一外部裝置接收所述輸入音源訊號之所述決定能量,例如從一編碼器,所述外部裝置提供所述輸入音源訊號。
藉由決定所述輸入音源訊號之所述訊號能量以及正規化所述輸出音源訊號之所述能量,可確保所述輸出音源訊號之所述能量相較於其他頻帶具有一相當之水平。舉例來說,正規化可用以下方式完成:每個頻帶的音源輸出訊號的能量是相同頻帶的輸入音源訊號的能量乘以相對應的降混增益的平方的總和。
在各種實施例中,解碼器可以包含根據一降混矩陣用以降混輸入音源訊號之一降混器,其中所述解碼器用以計算所述降混矩陣,在此方式中,根據識別之聲道間相依性以校準輸入聲道之相位。矩陣操作是有效解決多維問題的一種數學工具。因此,一降混矩陣的使用係提供了一具有彈性且簡單的方法來降混所述輸入音源訊號至一輸出音源訊號,其中輸 出音源訊號具有之輸出聲道之數目少於輸入音源訊號的輸入聲道之數目。
在一些實施例中,所述解碼器包含一降混器,所述降混器根據一降混矩陣以降混輸入音源訊號,其中所述解碼器用以計算所述降混矩陣,在此方式中,根據從一外部裝置之識別的聲道間相依性以校準輸入聲道之相位,例如從一編碼器,所述外部裝置提供所述輸入音源訊號。在此,解碼器裡的輸出音源訊號之處理複雜度可大幅地降低。
在特定實施例中,所述解碼器可用以計算所述降混矩陣,在此方式中,根據所述輸入音源訊號之所述決定能量,所述輸出音源訊號之所述能量係被進行正規化。在此方式中,所述輸出音源訊號之所述能量之正規化係被整合至降混處理,使得訊號處理變得簡單。
在特定實施例中,所述解碼器可用以接收計算之所述降混矩陣M,在此方式中,根據從一外部裝置之所述輸入音源訊號之所述決定能量,所述輸出音源訊號之所述能量係被進行正規化,例如從一編碼器,所述外部裝置提供所述輸入音源訊號。
所述能量均衡步驟可以被包含在編碼處理或解碼器中進行,因為它是一種簡單且明確被定義的處理步驟。
在一些實施例中,所述解碼器可用以分析使用一視窗函式之所述輸入音源訊號之時間隔間,其中所述聲道間相依性係在每一個時間訊框被決定。
在實施例中,所述解碼器可用以接收使用一視窗函式之所述輸入音源訊號之時間隔間的分析,其中從一外部裝置,所述聲道間相依性在每一個時間訊框被決定,例如從一編碼器,所述外部裝置提供所述輸入音源訊號。
雖然其他選項也一應俱全,所述處理仍可以以一重疊逐訊框方式在兩種情況下完成,例如使用一遞迴視窗來評估的相關參數。原則上,可選擇任何視窗函式。
在一些實施例中,所述解碼器用以計算一共變異數值矩陣,其中所述共變異數值表示來自於一對輸入音源聲道之所述聲道間相依性。計算一共變異數值矩陣是一個簡單的方法來擷取所述頻帶的短時間隨機特 性,此短時間隨機特性可用於決定所述輸入音源訊號之所述輸入聲道之相干性。
在實施例中,所述解碼器用以接收一共變異數值矩陣,其中所述共變異數值表示來自於一外部裝置之一對輸入音源聲道之所述聲道間相依性,例如從一編碼器,所述外部裝置提供所述輸入音源訊號。在此方式下,所述共變異矩陣的計算可以被傳達至所述編碼器。然後,所述共變異數矩陣之所述共變異數值必須在所述編碼器與所述解碼器間的所述位元串流中被傳送。這個版本允許在接收端有彈性轉譯設定,但在所述輸出音源訊號裡需要額外的資料。
在較佳實施例中,可建立一個正規化共變異數值矩陣,其中所述正規化係數矩陣係以共變異數值矩陣為基礎。透過此特徵,可簡化更進一步之處理。
在部份實施例中,所述解碼器可用以建立一吸引力值矩陣(attraction value matrix),所述吸引力值矩陣係通過應用一映射函式至所述共變異數值矩陣或至從所述共變異數值矩陣所衍生之一矩陣。
在部份實施例中,對於所有的共變異數值或者從所述共變異數值衍生之數值,所述映射函式之所述梯度可以大於或等於0。
在較佳實施例中,所述映射函式對於0到1之間的輸入數值可以達到0到1之間的數值。
在部份實施例中,所述解碼器可用以接收一吸引力值矩陣,所述吸引力值矩陣係通過應用一映射函式至所述共變異數值矩陣或至從所述共變異數值矩陣所衍生之一矩陣而建立。通過應用一非線性函式到所共變異數值矩陣或是到所述共變異數值矩陣所衍生之一矩陣,例如一正規化共變異數矩陣,所述相位校準可以在兩種情況下被調整。
相位吸引力值矩陣提供相位吸引力係數之形式的一控制數據,其用以決定在聲道對之間的相位吸引力。根據量測共變異數值矩陣,衍生每一時間頻率片的相位調整,使得具有低共變異數值之聲道不互相影響且具有高共變異數值之聲道彼此被進行相位搜尋。
在部份實施例中,所述映射函式為一非線性函式。
在實施例中,對於共變異數值或是從所述共變異數值衍生之數值小於一第一映射門檻值者,所述映射函式即等於0,及/或對於共變異數值或是從所述共變異數值衍生之數值大於一第二映射門檻值者,所述映射函式即等於1。透過此特徵,所述映射函式包含三個區間。對於所有共變異數值或是從共變異數值衍生之數值且其值小於所述第一映射門檻值者,所述相位吸引力係數被計算成0,因此,相位調整並未被執行。對於所有共變異數值或是從所述共變異數值衍生之數值且其值高於所述第一映射門檻值者但小於所述第二映射門檻值者,所述相位吸引力係數被計算成0到1之間的數字,因此,部份相位調整係被執行。對於所有共變異數值或是從所述共變異數值衍生之數值且其值高於所述第二映射門檻值者,所述相位吸引力係數被計算成1,因此,執行一完整之相位調整。
藉由以下之映射函式來舉例說明:f(c' i,j )=a i,j =max(0,min(1,3c' i,j -1))
另一個較佳的範例說明如下:
在部份實施例中,所述映射函式係透過形成S形曲線之一函式來呈現。
在特定的實施例中,所述解碼器係用以計算一相位校準係數矩陣,其中此相位校準係數矩陣係以所述共變異數值矩陣為基礎。
在實施例中,所述解碼器用以接收一相位校準係數矩陣,其中此相位校準係數矩陣係以來自一外部裝置之所述共變異數值矩陣以及一原型降混矩陣為基礎,例如從一編碼器,所述外部裝置提供所述輸入音源訊號。
所述相位校準係數矩陣描述相位校準之個數,此相位校準是 校準所述輸入音源訊號之不為零的吸引力聲道。
所述原型降混矩陣係定義了那些輸入聲道被混合到那些輸出聲道。所述降混矩陣之係數可為比例因子,其用以降混一輸入聲道至一輸出聲道。
其亦有可能將所述相位校準係數矩陣的完整運算轉移到所述編碼器。然後,所述相位校準係數矩陣必須在此輸入音源訊號內傳送,但是其內容往往為零且僅能以一積極的方式(motivated way)來量化。當此相位校準係數矩陣與所述原型降混矩陣緊密相依時,此相位校準係數矩陣在所述編碼端即為被公開知曉的。此限制了可能的輸出聲道配置。
在部份實施例中,在所述降混矩陣之降混係數之所述相位及/或指幅被規畫成隨時間而平滑,使得在相鄰時間訊框間由於訊號抵消所產生之時間偽影得以避免。此處"隨時間而平滑"指的是隨著時間的推移且沒有突然的變化出現在降混係數中。特別是,降混係數可以按照一連續或一準連續的函式而隨時間變化。
在部份實施例中,在所述降混矩陣之降混係數之所述相位及/或指幅被規畫成隨頻率而平滑,使得在相鄰頻帶間由於訊號抵消產生之空間偽影得以避免。此處"隨頻率而平滑"指的是隨著頻率的推移且沒有突然的變化出現在降混係數中。特別是,降混係數可以按照一連續或一準連續的函式而隨頻率變化。
在部份的實施例中,所述解碼器用以計算或接收一正規化相位校準係數矩陣,其中所述正規化校準係數矩陣係以所述相位校準係數矩陣為基礎。透過此特徵,可以簡化更進一步之處理。
在較佳實施例中,所述解碼器用以根據所述相位校準係數矩陣以建立一正規化相位校準係數矩陣。
在實施例中,所述解碼器係用以接收來自於一外部裝置之以所述相位校準係數矩陣為基礎之一正規化相位校準係數矩陣,例如從一編碼器,所述外部裝置提供所述輸入音源訊號。
所建議的降混方法提供了在相反相位訊號的臨界條件中之有效正規化,其中此相位校準處理可以突然改變其極性。
此額外的正規化步驟被定義以減少由於突然改變相位調整係數所造成在相鄰訊框間之過渡區域中的取消。在相鄰時間頻率片之間的突然相位改變之正規化以及避免為本文提出降混之優點。它減少了當相鄰時間頻率片間之相位跳躍或是在相鄰頻帶間的凹槽出現所產生的偽影。
一個正規化的相位校準降混矩陣可以通過應用相化規則係數θ i,j 至規則的相位校準矩陣而取得。
此正則項係數可以在每一個時間頻率片的處理迴圈中被計算。此正則項可以遞迴地在時間及頻率方向被應用。考慮到在相鄰時間槽及頻帶間之相位差異,它們由產生的一加權矩陣之所述吸引力值來進行加權。從此矩陣可衍生如下面更詳細討論的正規化係數。
在較佳實施例中,所述降混矩陣係以所述規則相位校準係數矩陣為基礎。在此方式中,可確保降混矩陣之所述降混係數係隨著時間和頻率而平滑。
此外,本發明係提出一種音源訊號處理編碼器,其包含至少一頻帶,且此音源訊號處理解碼器係用以處理在至少一頻帶裡具有複數個輸入聲道的一輸入音源訊號,其中此編碼器用以校準所述輸入聲道的相位,此相位係決取於所述輸入聲道間的聲道間相依性,其中所述輸入聲道之所述相位互相校準的愈多,其聲道間相依性即愈高;以及 用以降混所述校準輸入音源訊號至一輸出音源訊號,所述輸出音源訊號具有比所述輸入聲道較少數目的輸出聲道。
此音源訊號處理編碼器可被配置成類似於在本申請中所討論的音源訊號處理的解碼器。
此外,一音源訊號處理編碼器包含至少一頻帶,所述音源訊號處理編碼器用以輸出一位元串流,其中所述位元串流包含在此頻帶裡之一編碼音源訊號,其中所述編碼音源訊號在所述至少一頻帶具有複數個編碼聲道,其中所述編碼器用以確定在所述輸入音源訊號之所述編碼聲道間之聲道間相依性,以及用以在所述位元串流內輸出所述聲道間相依性;及/或用於決定所述編碼音源訊號之所述能量及在所述位元串流 內輸出此編碼音源訊號之所述決定能量;及或用於計算一降混矩陣M,此降混矩陣係供一降混器降混所述輸入音源訊號,在此情形中,所述編碼聲道之所述相位係根據所述識別聲道間相依性以進行校準,較佳地,在此情況中,所述降混器之一輸出音源訊號之能量係根據所述編碼音源訊號之所述決定能量被進行正規化,以及被配置用於在所述字元串流內輸出所述降混矩陣,其中在特定降混矩陣之降混係數係被配置成隨時間而平滑,使得在相鄰時間訊框間由於訊號抵消所產生之時間偽影得以避免,及/或其中在特定降混矩陣之降混係數係規劃成隨頻率而平滑,使得在相鄰頻帶間由於訊號抵消產生之空間偽影得以避免;及/或使用一視窗函式分析所述編碼音源訊號之時間隔間,其中所述聲道間相依性是針對每一時間訊框而決定,以及被配置用於在每一時間訊框輸出所述聲道間相依性至所述位元串流;及/或用於計算一共變異數值矩陣,其中此共變異數值表示一對編碼音源聲道之所述聲道間相依性以及被配置用於在所述位元串流內輸出此共變異數值矩陣;及/或使用一映射函式建立一吸引力值矩陣,其中,對於所有的共變異數值或者從所述共變異數值衍生之數值,所述映射函式之所述梯度較佳地為大於或等於0,以及所述映射函式對於在0到1之間的輸入數值,較佳地可達到0到1之間的數值。特別是一非線性函式,特別是一映射函式,在共變異數值小於一第一映射門檻值時,映射函式等於0,及/或在共變異數值小於一第二映射門檻值時,映射函式等於0,及/或所述映射函式係透過形成S字曲線之一函式呈現,被配置用於到所述共變異數值矩陣或從所述共變異數值矩陣所衍生之一矩陣,且用於在所述位元串流內輸出所述吸引力值矩陣;及/或計算一相位校準係數矩陣,其中此相位校準係數矩陣係以所述共變異數值矩陣以及一原型降混矩陣為基礎,及/或用於根據所述相位校準係數矩陣V來建立一正規化相位校準係數矩陣以及被配置用於在所述位元串流调整內之矩陣個輸出所述正規 化相位校準係數矩陣。
在此編碼器之所述位元串流可傳送至所述之一解碼器並進行解碼。有關進一步詳情,可參閱有關解碼器的說明。
本發明再提供一種系統,其包含了本發明所提出之一音源訊號處理解碼器以及一音源訊號編碼器。
此外,本發明再提供一種處理一輸入音源訊號之方法,且此輸入音源訊號在一頻帶裡具有複數個輸入聲道,所述方法包含以下步驟:分析在所述頻帶之所述輸入音源訊號,其中在所述輸入音源聲道之聲道間相依性為已識別;根據所述識別聲道間相依性以校準所述輸入聲道之所述相位,其中所述輸入聲道之所述相位互相校準的愈多,其聲道間相依性即愈高;以及提出降混所述校準的輸入音源訊號至一輸出音源訊號,此輸出音源訊號在所述頻帶上具有比所述輸入聲道較少數目的輸出聲道。
此外,本發明再提供一種電腦程式,當被執行於一電腦上或一訊號處理器時,執行上述之方法。
1‧‧‧立體音源編碼器、立體編解碼系統、編碼器、解碼器
10‧‧‧轉譯器、後處理模組、揚聲器轉譯器模組、揚聲器轉譯器、格式轉換器
11‧‧‧物件、內容、已預先轉譯的物件
12‧‧‧物件、物件波形、輸出聲道、已轉譯的物件、離散/參數化的物件
13‧‧‧聲道、轉譯聲道、波形、多聲道音源材料、輸入聲道、聲道配置、輸入格式、通道、混合器輸出佈局
14‧‧‧物件元資料、物件降混訊號、訊號、OAM
15‧‧‧預先轉譯器/混合器、物件轉譯器/混合器
16‧‧‧聲道場景、聲道、訊號、物件
17‧‧‧SAOC資料、參數化物件波形、物件訊號、降混聲道、SAOC傳輸 聲道
18‧‧‧物件
19‧‧‧物件元資料訊息、物件元資料、已壓縮的OAM
2‧‧‧立體音源編碼器、立體編解碼系統、解碼器、轉譯器、音源訊號處理解碼器
20‧‧‧物件元資料訊息、輔助訊息、物件元資料、已壓縮的OAM
21‧‧‧接收器/轉譯器、物件轉譯器、區塊、已轉譯的物件
22‧‧‧SAOC參數、參數化訊息、參數化資料
23‧‧‧SAOC參數、物件元資料訊息、參數化資料、參數化訊息
24‧‧‧SAOC轉譯器、解碼器、SAOC解碼器、選擇性的SAOC解碼器
25‧‧‧SAOC編碼器、SAOC選擇性的編碼器
26‧‧‧SAOC傳輸聲道
27‧‧‧輸出立體聲場景、離散/參數化的物件、已轉譯的物件
28‧‧‧物件元資料編碼器、OAM編碼器
29‧‧‧OAM解碼器
3‧‧‧音源編碼編碼器、編碼器、USAC編碼器
30‧‧‧內容、通道
31‧‧‧播放格式、輸出聲道、輸出格式、揚聲器訊號
32‧‧‧降混器、降混過程、在QMF域的DMX處理
33‧‧‧DMX配置器
34‧‧‧混合器輸出佈局
35‧‧‧播放器佈局、播放佈局
36‧‧‧頻帶
37‧‧‧輸入音源訊號、輸入訊號、頻帶訊號、多聲道輸入音源訊號、初始訊號、訊號、音源輸入訊號、音源訊號、時域音源取樣、頻帶輸入訊號
38‧‧‧輸入聲道、聲道、輸入聲道訊號、頻帶輸入訊號、輸入音源訊號、第一聲道、第二聲道
39‧‧‧聲道間相依性
4‧‧‧聲道訊號、聲道物件輸入場景、聲道場景、揚聲器聲道訊號、訊號、輸入聲道、聲道
40‧‧‧輸出音源訊號、降混、輸出資料流、音源訊號、時域音源輸出訊號、時間域輸出訊號、輸出頻帶訊號、頻帶輸出訊號
41‧‧‧輸出聲道、訊號、通道、頻帶降混聲道訊號、頻帶降混訊號、輸出音源訊號、降混器、聲道
42‧‧‧自適應均衡器、格式轉換器、轉換器、相位校準降混
43‧‧‧音源輸入訊號框、訊號框、時間隔間、時間訊框
44‧‧‧視窗化步驟、視窗
45‧‧‧估計步驟、變異矩陣估計
46‧‧‧步驟、相位校準降混係數制定、相位校準係數矩陣的估計
47‧‧‧正規化、正規化步驟、突然相移調整
48‧‧‧能量正規化
49‧‧‧重複步驟、重覆疊加
5‧‧‧物件訊號、物件、聲道物件輸入場景、同步動態物件訊號、離散物件訊號、物件/聲道訊號、元件、訊號、音源物件、變異矩陣正規化
50‧‧‧變異正規化步驟、變異矩陣正規化
51‧‧‧吸引力值估計步驟、吸引力值估計
52‧‧‧相位校準係數矩陣步驟、矩陣正規化
53‧‧‧能量正規化步驟、能量正規化
54‧‧‧第一映射門檻值
55‧‧‧第二映射門檻值
56‧‧‧內頻道相位差
57、58‧‧‧非正規化相位調整
59、60‧‧‧正規化相位調整
6‧‧‧音源編碼解碼器、解碼器、核心解碼器、USAC解碼器
61‧‧‧初始頻譜
62、63‧‧‧未校準降混頻譜
64‧‧‧正規化降混頻譜
7‧‧‧輸出音源訊號、位元串流、立體音源位元串流、傳輸聲道、3D立體聲位元串流、降混
8‧‧‧轉譯器、混合器
9‧‧‧轉譯器、後處理模組、雙聲道轉譯器、雙聲道轉譯器模組
SI1‧‧‧訊號
SC1、SC2、SC3‧‧‧訊號、頻道
圖1係顯示建議的一自適應相位校準降混之方塊圖。
圖2係顯示建議的方法之工作原理。
圖3係描述計算一降混矩陣M之之處理步驟。
圖4係顯示可被用於一正規化共變異數矩陣C',以計算一吸引力值矩陣A之一公式。
圖5係顯示一立體音源編碼器之概念性綜述之示意方塊圖。
圖6係顯示一立體音源解碼器之概念性綜述之示意方塊圖。
圖7係顯示一格式轉換器之概念性綜述之一示意方塊圖。
圖8係顯示具有隨時間變化之兩聲道之初始訊號處理之示例。
圖9係顯示一具有隨頻率變化之兩聲道之初始訊號處理之示例。
圖10係顯示一77頻帶合成濾波器組。
在描述本發明之實施例之前,係提供更多編碼器及解碼器系統之相關背景。
圖5係顯示一立體音源編碼器1之概念性綜述之示意方塊圖,而圖6係顯示一立體音源編碼器2之概念性綜述之示意方塊圖。
立體編解碼系統1及2可以根據一MPEG-D聯合語音及音源編碼(USAC)編碼器3,以應用於聲道訊號4及物件訊號5之編碼,並根據一MPEG-D聯合語音及音源編碼(USAC)解碼器6,以應用於編碼器3之輸出音源訊號7之解碼。
此位元串流7可包含參照編碼器1之一頻帶之一已編碼的音源訊號37,其中已編碼的音源訊號37具有複數個已編碼的聲道38。此已編碼的音源訊號37可以被送入解碼器2之一頻帶36作為一輸入音源訊號37。
空間音源物件編碼(SAOC)技術的採用是為了增加大量物件5之編碼效率。三個型態之轉譯器8,9及10係執行將物件11及12轉譯至聲道13、轉譯聲道13至耳機或轉譯聲道至一不同的揚聲器方案。
當使用空間音源物件編碼物件訊號進行明確地傳遞或參數化編碼時,相對應的物件元資料(OAM)14訊息被壓縮且被多工處理成立體音源位元串流7。
在編碼之前,預先轉譯器/混合器15可以被選擇性使用於將一聲道物件輸入場景4及5轉換成一聲道場景4及16,其功能相同於下面所描述之物件轉譯器/混合器15。
物件5之預先轉譯在編碼器3之輸入能確保確定性訊號熵,此編碼器3基本上獨立於複數個同步動態物件訊號5。具有預先轉譯之物件訊號5,不需傳送任何物件元資料14。
離散物件訊號5係轉譯至供編碼器3使用之聲道布局。對於每個聲道16,物件5之權重係從相關聯的物件元資料14取得。
此核心編解碼器可以根據MPEG-D USAC技術,應用於揚聲器聲道訊號4、離散物件訊號5、物件降混訊號14及已預先轉譯的訊號16。此MPEG-D USAC技術根據輸入聲道及物件配置之幾何訊息及語意訊 息,利用聲道及其物件映射訊息以處理訊號4、5及14之多功能之編碼。此映射訊息描述輸入聲道4及物件5如何被映射至USAC聲道元件,亦即被映射至雙聲道元件(CPEs)、單聲道元件(SCEs)、低頻率增強(LFEs)以及被傳輸至解碼器6之相對應的訊息。
所有額外的負載像是SAOC資料17或物件元資料14可以經過延伸元件被傳輸,並且可以在編碼器3之速率控制被考慮。
物件5之編碼可以使用不同的方法,此方法取決於應用於轉譯器之速率/失真需求及交互作用的需求。下列物件編碼的變化是可能的: 預先轉譯的物件16:在編碼之前,物件訊號5被預先轉譯及混合至聲道訊號4,例如在編碼前,預先轉譯及混合至22.2聲道訊號4。隨後的編碼鏈可見22.2聲道訊號4。
離散物件波形:物件5作為單聲道波形且被供應至編碼器3。除了聲道訊號4以外,此編碼器3使用單聲道元件(SCEs)以傳輸物件5。已解碼的物件18被轉譯及混合於接收端。已壓縮的物件元資料訊息19及20被並排地傳輸至接收器/轉譯器21。
參數化物件波形17:使用SAOC參數22及23來描述物件屬性及物件屬性彼此之間的關係,此物件訊號17之降混使用USAC來編碼,參數化訊息22係被並列地傳輸。降混聲道17所選擇的數目係取決於複數個物件5及整體的資料速率。壓縮的物件元資料訊息23係傳輸至SAOC轉譯器24。
針對物件訊號5的SAOC編碼器25及解碼器24係基於MPEG SAOC技術。此系統根據較少數量的傳輸聲道7及額外的參數化資料22及23能夠重新創建、修正及轉譯複數個音源物件5,例如物件位準差異性(OLDs)、物件間的相關性(IOCs)及降混增益。額外的參數化資料22及23係顯示一資料速率明顯低於所有物件5個別傳輸所需要的資料速率,這使得編碼十分的有效率。
此SAOC編碼器25將此物件/聲道訊號5作為輸入以成為單聲道的波形,並且輸出(被填充至3D立體聲位元串流7的)此參數化訊息22及(被使用單聲道元件編碼並且被傳輸的)SAOC傳輸聲道17。此SAOC解 碼器24從已解碼的SAOC傳輸聲道26及參數化訊息23重建物件/聲道訊號5,並且根據播放布局(reproduction layout)、已解壓縮的物件元資料訊息20以及選擇性地使用使用者的交互訊息,以產生此輸出立體聲場景27。
對於每個元件5,此相關聯的物件元資料14具體定義幾何位置及在三維空間中的物體體積,一物件元資料編碼器28藉由在時間及空間內的物件屬性之量化,可以有效率地編碼此物件元資料。壓縮的物件元資料(cOAM)19被傳輸至接收器作為輔助訊息20,此輔助訊息20可以使用一OAM解碼器29來解碼。
物件轉譯器21根據給予的播放格式,利用已壓縮的物件元資料20來產生物件波形12。每個物件5根據其物件元資料19及20被轉譯至特定的輸出聲道12。區塊21之輸出從部分結果之總值所產生。如果內容11、30及離散/參數化的物件12、27為基本的兩個聲道被解碼,在由一混合器8輸出產生波形13之前(或在饋送產生的波形至一後處理模組9及10,如雙聲道轉譯器9或揚聲器轉譯器模組10,之前),兩個聲道根據內容11及30及已轉譯的物件波形將被混合。
此雙聲道轉譯器模組9產生多聲道音源材料13之一雙聲道降混,使得每個輸入聲道13由一虛擬音源所表示。此處理被進行逐訊框於一正交鏡像濾波器(QMF)域。雙聲道根據測量之雙聲道室進行脈衝響應。
圖7係顯示所述揚聲器轉譯器10,對於在傳輸的聲道配置13及所期望的播放格式31之間的轉換有更詳細的描述,在下文中將所述揚聲器轉譯器稱作“格式轉換器”10。所述格式轉換器10執行轉換以降低複數個輸出聲道31,亦即所述格式轉換器藉由一降混器32產生降混。所述DMX配置器33自動化產生最佳化的降混矩陣,應用於給予的輸入格式13及輸出格式31之結合,並且在一降混過程32中採用所述降混矩陣,其中一混合器輸出佈局34及一播放器佈局35被使用。所述格式轉換器10允許應用於標準揚聲器配置以及非標準揚聲器位置之隨機的配置。
圖1係顯示一音源訊號處理裝置具有至少一頻帶36,且被用以處理具有複數個輸入聲道38且在至少一頻帶36之一輸入音源訊號37,其中此裝置: 用以分析此輸入音源訊號37,其中在輸入聲道38之間之聲道間相依性被識別;以及用以根據已識別的聲道間相依性39來校準輸入聲道38之相位,其中輸入聲道38之相位互相校準的愈多,其聲道間相依性39則愈高;用以降混已校準的輸入音源訊號至一輸出音源訊號40,此輸出音源訊號40之輸出聲道41之數量少於輸入聲道38之數量。
此音源訊號處理裝置可以為一編碼器1或一解碼器,例如適用於本發明之編碼器1以及解碼器。
所建議的降混方法,例如在圖1之一方塊圖,係以下列原則來設計:
1.此相位調整根據測量的訊號共變異數矩陣C從每個時頻片導出,使得具有低c i,j 之聲道彼此之間不會互相影響,且具有高c i,j 之聲道相對於彼此被相位鎖定。
2.由於在相鄰的時頻片之重疊區之相位調整差異訊號,此相位調整隨時間及頻率之改變被正規化,用以避免訊號削減偽影。
3.降混矩陣增益被調整,以保存降混能量。
編碼器1之基本工作原理為,當這些輸入音源訊號37之輸入聲道38為彼此獨立(不相干的)且保持不受影響時,輸入音源訊號之互相依存(相干的)輸入聲道38依據頻帶36之相位互相吸引。當提供在非臨界條件之相同性能時,提出編碼器1之目的是為了改善相對應於在臨界訊號消除條件之後均衡方法之降混品質。
因為聲道間相依性39通常無法事先得知,故提出降混之一自適應方法。
復甦訊號頻譜的直接方法為,施加一自適應均衡器42以衰減或放大頻帶36內之訊號。然而,如果一頻率凹槽比施加的頻率轉換解析度更急劇,可以合理地預計此類一方法無法強勁地復甦訊號41。在降混之前,此問題由預先處理輸入訊號37之相位被解決,以避免在第一位置之此類頻率凹槽。
根據本發明之一實施例之方法,用以將在頻帶36之兩個或 更多的聲道38自適應地降混成數量更少的通道41,亦即在所謂的時間-頻率片。此方法包含下列特徵:在頻帶36分析訊號能量及聲道間相依性39(由訊號共變異數矩陣C包含)。
在降混之前,頻帶相位之調整輸入聲道訊號38,使得在降混時之訊號消除影響被降低及/或相干訊號總和被增加。
使用一方法進行相位之調整,此方法為當多個聲道較少互相依存(也有一個潛在的相位偏移量)或沒有全部都相對於彼此被相位校準時,使用具有高互相依存性(但潛在著相位偏移)之一聲道對或群組被相對於彼此再次校準。
相位調整係數被(選擇性地)配置成隨時間平滑改變,用以避免由於在相鄰時間訊框之間的訊號削減而產生時序偽影。
相位調整係數被(選擇性地)規劃成隨頻率平滑改變,用以避免由於在相鄰頻帶之間的訊號削減而產生頻譜偽影。
頻帶降混聲道訊號41之能量被正規化,例如使得每個頻帶降混訊號41之能量相等於頻帶輸入訊號38能量之總和乘以相對應的降混增益。
此外,所建議的降混方法係提供相反相位訊號之臨界條件之有效的正規化,在此相反相位訊號在相位同步處理時可能會突然地切換其極性。
接著,提供之降混之數學描述,其為上述內容的具體實現。對於本領域的技術工程師,可以預期地制定另一種具有根據上述描述之特徵之具體實現。
顯示於圖2之方法之基本原理為,當這些訊號SI1係為非相干且保持不受影響時,相互相關的訊號SC1、SC2及SC3依據頻帶36之相位彼此互相吸引,提出的方法之目的係為簡單改善在臨界訊號消除條件的後均衡方法之降混品質。
此方法係根據頻帶訊號37及一靜態均衡降混矩陣Q之短時間隨機特性而設計,用以制定頻帶36自適應一相位校準及能量平衡降混矩 陣M。尤其是,此方法只用以互相地實施相位校準於那些相互依存之頻道SC1,SC2,SC3。
圖1係顯示一般的操作過程。此處理使用一重疊逐訊框方式執行,儘管其它選擇也可以輕易得到,例如使用一遞迴式窗口以估計相關的參數。
對於每個音源輸入訊號框43,一相位校準降混矩陣M係包含相位校準矩陣係數,其根據音源輸入訊號框43之隨機資料被定義,且一原型降混矩陣Q被定義降混至輸出聲道41之輸入聲道38。此音源輸入訊號框43係在一視窗化步驟44所產生。此隨機資料被包含於輸入訊號37之共軛複數共變異數矩陣C,且從一估計步驟45之訊號框43裡被估計(或使用一遞迴視窗)。從此共軛複數共變異數矩陣C,一相位校準矩陣係在步驟46中的相位校準降混係數的制定所衍生。
讓輸入聲道之數量為N x 且降混聲道之數量N y <N x 。原型降混矩陣Q及相位校準矩陣M通常為稀疏矩陣且維度為N y ×N x 。此相位校準矩陣M通常隨時間及頻率之函式而變化。
相位校準混合的解決方案降低了頻道間的訊號消除,但若相位調整係數突然地被改變,可能引入在相鄰時間頻道片之過渡區內之消除。當相鄰的相反相位輸入訊號被降混時,可能會發生突然隨時間改變之相位,但至少在振幅或相位有微小的變化。在此情況,相位校準之極性可以快速地切換,即使訊號本身是相當穩定訊號。此效應可能會發生例如當一音調訊號組件符合頻道間時間差異性,且其反轉可以為根源,例如從間隔開的麥克風錄音技術之使用或從延遲為基礎的音頻效果。
在頻率軸,突然的相移在片之間移動可能會發生,例如當兩個相干但不同地延遲寬度帶訊號被降混時。相位差異朝向較高的頻帶放大以及包覆在特定頻帶邊界可能會造成一凹槽在過渡區域。
較佳地,在之相位調整係數將被在下一步驟正規化,用以避免由於突然的相移而產生處理的偽影,此相位調整係數不是隨時間變化就是隨頻率變化,或者是隨時間及頻率兩者變化。在這種方式可獲得一正規化矩陣。如果正規化47被省略,在此可能會由於在相鄰的時間訊框及/ 或相鄰的頻帶之重疊區之相位調整差異,而產生訊號消除效應。
接著,能量正規化48自適應地確認在降混40之一能量之積極位準。在重複步驟49,處理後的訊號框43被重複疊加至輸出資料流40。請注意,在設計此類時頻處理的結構時將得到很多變異。可能會獲得一相似的處理,此處理具有訊號處理區塊之一不同的次序。另外,那些區塊可以被結合成一單一處理步驟。此外,當達到相似的處理特性時,附近的視窗44或區塊處理可以使用各種方法被重新制定。
圖3描述相位校準降混之不同的步驟。在三個整體處理步驟獲得一降混矩陣M後,此降混矩陣M被用以將初始的多聲道輸入音源訊號37降混成一不同的聲道數量。
計算矩陣M的各子步驟係詳細描述如下。
根據本發明之一實施例,降混方法可在一64頻帶QMF域實現。可使用一64頻帶複合調變均勻QMF濾波器組。
計算來自時頻域內之輸入音源訊號x(等同於輸入音源訊號38),一共軛複數共變異數矩陣C係計算作為矩陣C=E{x x H },其中E{.}為期望運算子且x H 為x之共軛轉置,在實際執行時,期望運算子由隨複數個時間及/或頻率取樣變化之一平均運算子所取代。
接著,在變異正規化步驟50,矩陣C之絕對值被正規化,以使此矩陣C包含0及1之間的數值(元件接著被稱為c' i,j 且矩陣被稱為C')。這些數值表示在不同頻道對之間相關的聲音能量,但可能有一相位偏移。換句話說,當不相干訊號產生數值0時,同相、反相及倒相訊號每個將產生正規數值1。
在吸引力值估計步驟51,它們被轉換成控制資料(吸引力值矩陣A),此控制資料藉由一映射函式f(c' i,j )來表示在頻道對之間的相位吸引力,此函式f(c' i,j )被施加到絕對正規化共變異數矩陣M'之所有元素。在此,公式f(c' i,j )=a i,j =max(0,min(1,3c' i,j -1))
可使用(見圖4產生的映射函式)
在此實施例中,映射函式f(c' i,j )等於0且正規化的變異值c' i,j 小於一第一映射門檻值54及/或其中映射函式f(c' i,j )相等於1且c' i,j 大於一第二映射門檻值55。藉由這些特徵,映射函式由三個隔間所組成。對於所有小於第一映射門檻值54的正規化變異數值c' i,j ,相位吸引力係數a i,j 被估計為零,因此相位調整沒有被執行。對於所有大於第一映射門檻值54但小於第二映射門檻值55的正規化變異數值c' i,j ,相位吸引力係數a i,j 係估計為介於0到1之間的一數值,因此一部分相位調整被執行。對於所有高於第二映射門檻值55之正規化變異數值c' i,j ,相位吸引力係數a i,j 被估計為1且一完整相位調整被執行。
從此引力數值,計算相位校準係數v i,j ,其描述相位校準之總值,其被需要於校準非零值之訊號x之吸引力聲道。
為在對角線具有元素之一對角矩陣。此結果為一相位校準係數矩陣V
在一相位校準係數矩陣步驟52,係數v i,j 接著被正規化於降混矩陣Q之量級,以產生一正規化相位較準的降混矩陣,此降混矩陣具有複數個元素
此降混之優點在於具有低吸引力之聲道38彼此不會互相影響,因為相位調整從測量的訊號共變異數矩陣C被導出,且具有高吸引力之 聲道38相對於彼此相位鎖定。相位校正之強度取決於相干的特性。
如果相位調整係數突然地改變,則相位校準降混之方案降低頻道間之訊號消除,但可會產生削減於相鄰的時頻片之間的過渡區。當相鄰的相反相位輸入訊號被降混時,可能會發生突然隨時間改變之相位,但至少在指幅或相位有微小的變化。在此情況,相位校準之極性可以快速地切換。
由於自適應地改變相位調整係數vi,j,一額外的正規化步驟47被定義為降低在相鄰的訊框之間之過渡區內之消除。此正規化以及在音源訊框之間改變之自適應相位之迴避為此提供的降混之一優勢。它減少了當相鄰時間頻率片間之相位跳躍或是在相鄰頻帶間的凹槽出現所產生的偽影。
有各種不同的選項來執行正規化,用以避免在相鄰的時域片之間有大的相位移。在一實施例,一簡單的正規化方法被使用且被詳細的描述於下文中。在此方法,一處理迴圈可以被用以按照時間順序從較低到較高頻率片執行每個片,並且相位正規化可以相對於在時間及頻率之先前片被遞迴地施加。
圖8及圖9顯示下文所述之設計步驟之實際效果。圖8係顯示具有隨時間變化的兩聲道38之一初始訊號37之一示例。在兩聲道38之間存在一緩慢增加的內頻道相位差56。從+π到-π之突然的相位移產生第一聲道38之非正規化相位調整57之一突然的變化以及第二聲道38之非正規化相位調整58之一突然的變化。
然而,第一聲道38之正規化相位調整59以及第二聲道38之正規化相位調整60不會顯示出任何突然的變化。
圖9係顯示具有兩個聲道38之一初始訊號37之一示例。更 進一步,顯示訊號37之一聲道38之初始頻譜61。未校準降混頻譜62係顯示梳型濾波器效果。此梳型濾波器效果在未校準降混頻譜63被降低。然而,此類梳型濾波器效果在正規化降混並不明顯。
一正規化相位校準降混矩陣可藉由施加相位正規化係數θ i,j 至矩陣而取得。
在一處理迴圈中隨著每個時域訊框變化計算正規化係數。正規化47在時間及頻率的方向被遞迴地施加。在相鄰的時槽及頻率帶之間的相位差被考慮在內,且此相位差由吸引力值加權以產生一加權的矩陣M dA 。從此矩陣可以得到正規化係數:
固定的相位偏移藉由實施正規化來避免在0到之間朝向零逐漸減弱,此相位偏移相依於相對應的訊號能量: 具有
正規化的相位校準降混矩陣之元素為:
最後,一能量正規化的相位校準降混向量被定義為應用於每個聲道j之一能量正規化步驟53,形成所述最終相位校準降混矩陣的列:
計算完矩陣M後,接者計算輸出音源素材。QMF域輸出聲道被加權為QMF輸入聲道之總值。複數值加權納入自適應相位校準處理的矩陣M之元素:y=Mx
一些處理步驟可能轉移至編碼器1。此處理步驟將大幅地降低在解碼器2內之降混7之處理複雜度。此處理步驟也提供影響輸入音源訊號37之可能性,降混之標準版本將產生效果。在沒有改變解碼器2以及提高降混品質下,此處理步驟接著可能更新降混處理規則。
在部分的相位校準降混能被轉移至編碼器1時具有多種可能性。有可能轉移相位校準係數v i,j 的完整計算至編碼器1。相位校準係數v i,j 接著需要被轉移至位元串流7,但相位校準係數v i,j 時常為零-且以一積極方法作量化。當相位校準係數v i,j 緊密相依於原型降混矩陣Q,此矩陣Q在編碼器端必須被得知,此限制可能的輸出聲道配置。均衡器或能量正規化步驟接著可能不是被包括於編碼處理就是還被執行於解碼器2,因為正規化步驟為一簡單且清楚的被定義的處理步驟。
另外一種可能性係為轉移共變異數矩陣C之估計至編碼器1。然後,共變異數矩陣C之元素必須被轉移至位元串流7。此版本允許在轉譯器2之可變通之轉譯之方案,但需要更多在位元串流7之額外的資料。
在下文中,描述本發明之一較佳的實施例。
在下文中,音源訊號37被送入格式轉換器42且被稱為輸入訊號。音源訊號40為格式轉換處理之結果且被稱為輸出訊號。請注意格式轉換器之音源輸入訊號37為核心解碼器6之音源輸出訊號。
向量及矩陣係由粗體字符號表示。向量元素或矩陣元素由斜體的變數所表示,此變數藉由指數指出在向量/矩陣內之向量/矩陣元素之列/行來補充說明,也就是說[y 1...y A...y N]=y代表一向量及其元素。相似地,M a,b 代表在一矩陣M之第a列及第b行內之元素。
將使用下列變數:N in 在輸入聲道配置內之聲道之數量
N out 在輸出聲道配置內之聲道之數量
MDMX 降混矩陣係包含實質非負矩陣係數(降混增益),MDMX係為維度(N out×N in)
G EQ 由每個處理的頻帶之增益值所組成之矩陣,此頻帶取決於均衡濾波器之頻率響應。
I EQ 被均衡濾波器施加至輸入聲道(如果有的話)之向量訊號
L 在時間域音源取樣內被測量之訊框長度
v 時間域取樣索引
n QMF時槽索引(=子頻帶取樣索引)
L n 在QMF槽被測量之訊框長度
F 訊框索引(訊框數量)
K 混合式QMF頻率帶索引之數量,K=77
k QMF頻率帶索引(1..64)或混合式QMF頻率帶索引(1..K)
A,B 聲道指數(聲道配置之聲道數量)
eps 數值常數,eps=10-35
在發生音源取樣由核心解碼器6傳送之前,執行音源取樣格 式轉換器42之一初始化。
初始化係以下列數據做為輸入參數”
˙待處理的音源資料之取樣速率
˙一參數format_in:其訊號化格式轉換器待處理的音源資料之聲道配置
˙一參數format_out:訊號化期望輸出格式之聲道配置
˙選擇性的:參數從一標準揚聲器方案訊號化揚聲器位置的偏移(隨機設置功能)。
其回傳
˙輸入揚聲器配置之聲道之數量,N in
˙輸出揚聲器配置之聲道之數量,N out
˙一降混矩陣MDMX及均衡的濾波器參數(I EQ,G EQ),其被施加至格式轉換器42之音源訊號處理。
˙微調增益及延遲值(T g,A andT d,A ):係用以補償不同的揚聲器距離。
格式轉換器42之音源處理區塊從核心解碼器6取得時域音源取樣37,此時域音源取樣37應用於N in聲道38,並且產生由N out聲道41所組成之一降混的時域音源輸出訊號40。
此處理以下列數據作為輸入:˙被核心解碼器6解碼的音源資料,˙被格式轉換器42之初始化再回傳的降混矩陣MDMX,˙被格式轉換器42之初始化再回傳的均衡濾波器參數(I EQ,G EQ)。
此處理回傳一N out聲道之時間域輸出訊號40,其應用於format_out聲道配置且在格式轉換器42之初始化期間被訊號化。
格式轉換器42可以操作於輸入音源訊號之長度L=2048時間域取樣之連續且非重疊的訊號上,並且輸出長度L之每個已處理的輸入訊框的L取樣之一訊框。
更進一步,一T/F轉換(混合QMF分析)可以被執行。轉換器傳送N in聲道時域輸入訊號L=2048取樣至一混合QMF N in聲道訊號表示型態作為第一處理步驟,且此聲道訊號型態由L n =32 QMF時槽(槽索引n)以及K=77頻率帶(頻帶索引k)所組成。一QMF根據ISO/IEC 23003-2:2010之第7.14.2.2小節分析,首先執行: 接著是一混合分析
將執行混合濾波,如ISO/IEC 14496-3:2009之8.6.4.3內之描述。然而,低頻分離定義(ISO/IEC 14496-3:2009之表格8.36)可以由下面的表格取代:
77頻帶混合濾波器之低頻分離之概述
更進一步,在下面的表格中,原型濾波器定義必須由係數取代:
濾波器之原型濾波器係數分離77頻帶混合濾波器組之低QMF子頻帶
更進一步,相反於ISO/IEC 14496-3:2009之8.6.4.3,沒有子頻帶被結合,亦即藉由將最低的3個QMF子頻帶分離成(8,4,4)子頻帶,形成一77頻帶混合濾波器組。請參照圖10,此77頻帶混合濾波器組沒有被重新排序,但遵循混合濾波器之傳遞次序。
現在,可使用靜態均衡器增益。轉換器42施加零相位增益至輸入聲道,且此輸入聲道藉由I EQG EQ變數進行訊號化。
˙I EQ係為長度N in之一向量,N in係訊號化N in輸入聲道之每個聲道A
˙若不是均衡的濾波器必須被施加到特定的輸入聲道:I EQ,A =0,
˙或是G EQ之增益相對應的具有索引I EQ,A >0之均衡濾波器必須被施加。
如果輸入聲道AI EQ,A >0,聲道A之輸入訊號藉由從G EQ矩陣之行獲得零相位增益之乘法,此G EQ矩陣被I EQ,A 訊號化:
對於每個混合QMF頻帶k及獨立的k,請注意以下所有處理的步驟直到轉移回到時域訊號,此時域訊號被個別地執行。頻帶參數k係因此被省略在下文的方程式,例如對於每個頻率帶k
更進一步,輸入資料及一訊號自適應輸入資料視窗之一更新被執行。讓F為一單調性地增加的訊框索引用以表示輸入資料之目前訊框,例如對於訊框F,在格式轉換器42之初始化後,輸入資料之第一訊框在F=0開始。長度2*L n 之一分析訊框從輸入混合QMF頻譜被公式化如
分析訊框係根據以下公式乘以一分析視窗w F,n
在此,w F,n 係為一訊號自適應視窗,其被計算且應用於每個訊框F,如下公式:
現在,可執行一變異分析。一變異分析被執行於視窗化輸入資料上,在此的期望預算子E(.)被執行作為自動/交叉項之一總和且隨著視窗化輸入資料訊框F之2L n QMF時槽改變。對於每個處理的訊框F,下一個處理步驟被獨立地執行。索引F係因此被省略直到需要應用於清晰度,例如對於每個訊框F
請注意,在具有N in個輸入聲道的情況下,代表具有N in個元素之一列向量。
在此(.)T代表轉置以及(.)*代表一變數之共軛複數,且在每個訊框被計算一次之C y 為一N in x N in矩陣。
從在聲道AB之間的共變異數矩陣C y 內聲道相干係數被導出如 在此,在一符號C y,a,b 內之兩個指數代表在C y 內之第a列及第b行之矩陣元素。
更進一步,一相位校準矩陣可以被公式化。ICC A,B 數值被映射至一吸引力測量矩陣T,此吸引力測量矩陣T具有元素 並且一中間的相位校準混合矩陣M int(等價於在先前實施例之正規化相位校準係數)被公式化。以一吸引力值矩陣:P A,B =T A,B C y,A,B
V=M DMX P
矩陣元素被導出如下:M int,A,B =M DMX,A,B .exp(j arg(V A,B ))
在此exp(.)代表指數函式、為虛數單位,且arg(.)回傳複變數之自變數。
為避免突然的相位移動,中間的相位校準混合矩陣M int被修正而產生M mod:首先,對於每個訊框F,一加權的矩陣D F 被定義作為具有 元素之一對角矩陣。混合矩陣之隨著時間改變的相位(亦即隨著訊框改變)透過比較目前加權的中間混合矩陣以及目前訊框之加權產生的混合矩陣M mod來測量:
中間的混合矩陣之測量的相位改變被處理,用以取得一相位修正參數,且此相位修正參數被應用於中間的混合矩陣M int,產生M mod(等 價於正規化的相位校準係數矩陣)
一能量換算被應用於混合矩陣,用以取得最後的相位校準混合矩陣M PA。具有,在此(.)H代表共軛轉置運算元,且 S lim,B =min(S max,max(S min,S B ))
在此,限制被定義為S max=100.4S min=10-0.5,最後的相位校準混合矩陣元素如下M PA,B,A =S lim,B M mod,B,A
在進一步的步驟,可計算輸出資料。用於訊框F的輸出訊號係透過施加相同的共軛複數降混矩陣到視窗化的輸入資料向量之所有的2L n 時槽n來計算
一疊加步驟被應用於新計算出的輸出訊號框,以達成最後的頻域輸出訊號包含訊框F之每個聲道之L n 取樣,
現在,可執行一F/T轉換(混合QMF合成)。請注意上述所描述的處理步驟必須被獨立地執行於每個混合QMF頻帶k。在下面的方程 式,頻帶索引k被重新引入,亦即。混合QMF頻域輸出訊號被轉移至每個輸出聲道B之長度L時域取樣之一N out聲道的時域訊號框,以得到最後的時域輸出信號:此綜合合成
可以被實現如ISO/IEC 14496-3:2009之圖8.21內之定義,亦即藉由加總最低的三個QMF子頻帶之子頻帶,以取得64頻帶QMF表示型態之三個QMF子頻帶。然而,顯示於ISO/IEC 14496-3:2009之圖8.21之處理必須可被適用於(8,4,4)低頻帶分離,代替所顯示出的(6,2,2)低頻帶分離。
隨後的QMF合成
可如ISO/IEC 23003-2:2010內之第7.14.2.2小節之定義來執行。
如果輸出揚聲器位置之半徑不同(亦即如果trim A 不同於所有輸出聲道A),補償參數被導出在初始化且被應用於輸出訊號。輸出聲道A之訊號將被T d,A 時域取樣延遲且訊號也將被乘以線性增益T g,A
關於解碼器及編碼器以及所描述的實施例之方法,在下文中被提到:雖然一些方面在一裝置之上下文內已經被描述,很顯然那些方面也代表相對應的方法之一描述,其中一區塊或裝置相對應於一方法步驟或一方法步驟之一特徵。類似地,被描述於一方法步驟之上下文內之方面也代表一相對應的區塊或項目或一相對應的裝置之特徵之描述。
根據特定實施例要求,本發明之實施例可以被實施於硬體或軟體。本實施例可以使用一數位儲存媒體來執行,例如一軟碟機、一DVD、一Blu-Ray、一CD、一PROM、一EPROM或一FLASH memory,此數位儲存媒體具有電子可讀控制信號並且儲存於其內,且可讀控制信號配合一可編程計算機系統,以使相對應的方法被進行。
根據本發明之一些實施例係包含具有一電子可讀控制信號之一資料載體,且此電子可讀控制信號能夠結合一可編程計算機系統,可執行本文描述之方法之其中一個。
一般情況下,本發明之實施例可被實施並且作為具有一程式碼之一電腦程式產品,當電腦程式產品在一電腦上執行時,程式碼可操作用於方法之一,例如程式碼可被儲存於一機器可讀載體。
另一實施例,係包含電腦程式其用於執行被描述於實施例中之一方法,此方法係為將電腦程式儲存於一機器可讀載體或一非暫態電腦可讀媒體。
換句話說,本發明之一方法實施例,係當所述電腦程式執行於一電腦時,具有一程式碼之一電腦程式用以執行本文描述之方法之其中一個。
本發明之另一方法實施例,係一資料載體(或一數位儲存媒體,或是一電腦可讀之媒體)其包含所述之電腦程式,此電腦程式被記錄在資料載體上且用於執行本文描述之方法之其中一個。
本發明之另一方法實施例,係一數據流或一序列訊號代表程式碼用以執行本文描述之方法之一。數據流或序列訊號可以例如被配置為經由一資料通訊連接來傳輸,例如透過網際網路。
另一實施例係包含一處理裝置,例如一電腦或一可程式邏輯裝置,用以或適用於執行本文描述之方法之其中一個。
另一實施例係包含一電腦其具有一安裝於其內之電腦程式,用以執行本文描述之方法之其中一個。
在一些實施例,一可程式邏輯裝置(例如一場式可程式閘陣列元件)可用以執行本文所描述之一些或全部的功能。在一些實施例中,一場式可程式閘陣列元件可以結合一微處理器,以執行本文描述之方法之一。一般而言,此方法最佳地係由任何硬體裝置來執行。
雖然本發明已描述數個實施例,但對其進行變更、置換及等同均落入本發明的範圍之內。還有應當注意的是,有很多替換本發明之實施方法及組成之方式。因此,下文所附的權利項應當被理解為包含所有此類的變更、置換及等同,這些均未脫離本創作之精神及範疇。
1‧‧‧立體音源編碼器、立體編解碼系統、編碼器、解碼器
2‧‧‧立體音源編碼器、立體編解碼系統、解碼器、轉譯器、音源訊號處理解碼器
36‧‧‧頻帶
37‧‧‧輸入音源訊號、輸入訊號、頻帶訊號、多聲道輸入音源訊號、初始訊號、訊號、音源輸入訊號、音源訊號、時域音源取樣、頻帶輸入訊號
38‧‧‧輸入聲道、聲道、輸入聲道訊號、頻帶輸入訊號、輸入音源訊號、第一聲道、第二聲道
39‧‧‧聲道間相依性
4‧‧‧聲道訊號、聲道物件輸入場景、聲道場景、揚聲器聲道訊號、訊號、輸入聲道、聲道
40‧‧‧輸出音源訊號、降混、輸出資料流、音源訊號、時域音源輸出訊號、時間域輸出訊號、輸出頻帶訊號、頻帶輸出訊號
41‧‧‧輸出聲道、訊號、通道、頻帶降混聲道訊號、頻帶降混訊號、輸出音源訊號、降混器、聲道
42‧‧‧自適應均衡器、格式轉換器、轉換器、相位校準降混
43‧‧‧音源輸入訊號框、訊號框、時間隔間、時間訊框
44‧‧‧視窗化步驟、視窗
45‧‧‧估計步驟
46‧‧‧步驟
47‧‧‧正規化、正規化步驟
48‧‧‧能量正規化
49‧‧‧重複步驟、重覆疊加

Claims (21)

  1. 一種音源訊號處理解碼器,包含至少一頻帶(36),且該音源訊號處理解碼器係用以處理在至少一頻帶(36)具有複數個輸入聲道(38)的一輸入音源訊號(37),其中該解碼器(1)係用以校準該輸入聲道(38)的相位,該相位係決取於該輸入聲道(38)間的聲道間相依性(39),其中該輸入聲道(38)之該相位互相校準的愈多,其聲道間相依性(39)即愈高;以及降混該已校準之該輸入音源訊號至一輸出音源訊號(40),該輸出音源訊號(40)具有比該輸入聲道(38)較少數目的輸出聲道(41)。
  2. 如申請專利範圍第1項所述之解碼器,其中為了識別在該輸入音源聲道(38)間之該聲道間相依性(39)或為了接收來自於一外部裝置的輸入聲道(38)間的該聲道間相依性(39),例如從一編碼器(1),該外部裝置係提供該輸入音源訊號(37),該解碼器(2)用以分析在該頻帶(36)的該輸入音源訊號(37)。
  3. 如申請專利範圍第1項所述之解碼器,其中根據該輸入音源訊號(37)之一已決定能量,該解碼器(2)係用以正規化該輸出音源訊號(40)之該能量,其中該解碼器(2)係用以確定該輸入音源訊號(37)之該訊號能量或用以接收來自於一外部裝置之該輸入音源訊號(37)的該決定能量,例如從一編碼器(1),該外部裝置係提供該輸入音源訊號(37)。
  4. 如申請專利範圍第1項所述之解碼器,其中該解碼器(2)包含一降混器(42),該降混器(42)根據一降混矩陣(M, M PA)以降混該輸入音源訊號(37),其中該解碼器(1)用以計算該降混矩陣(M, M PA),在此方式中,根據該識別聲道間相依性(39)以校準該輸入聲道(38)之該相位,或用以接收一計算之降混矩陣(M, M PA),在此方式中,根據來自於一外部裝置之該識別聲道間相依性以校準該輸入聲道(38)之該相位,例如從一編碼器(1),該外部裝置係提供該輸入音源訊號(37)。
  5. 如申請專利範圍第4項所述之解碼器,其中該解碼器(2)用以計算該降混矩陣(M, M PA),在此方式中,根據該輸入音源訊號(37)之該決定能量以正規化該輸出音源訊號(41)之該能量,或用以接收該降混矩陣 (M, M PA),計算在此方式中,根據來自於一外部裝置之該輸入音源訊號之該決定能量以正規化該輸出音源訊號(41)之該能量,例如從一編碼器(1),該外部裝置係提供該輸入音源訊號(37)。
  6. 如申請專利範圍第1項所述之解碼器,其中該解碼器(2)用以分析使用一視窗函式之該輸入音源訊號(37)之時間隔間(43),其中該聲道間相依性(39)在每一個時間訊框(43)被決定,或其中該解碼器(2)用以接收使用一視窗函式之該輸入音源訊號(37)之時間隔間(43)的一分析,其中從一外部裝置,該聲道間相依性(39)在每一個時間訊框(43)被決定,例如從一編碼器(1),該外部裝置係提供該輸入音源訊號(37)。
  7. 如申請專利範圍第1項所述之解碼器,其中該解碼器(2)用以計算一共變異數值矩陣(C, C y ),其中該共變異數值(c i,j ,C y,A,B )表示一對輸入音源聲道(38)的聲道間相依性(39),或其中該解碼器(2)用以接收一共變異數值矩陣(C, C y ),其中該共變異數值(c i,j ,C y,A,B )表示來自於一外部裝置之一對輸入音源聲道(38)該聲道間相依性(39),例如從一編碼器(1),該外部裝置係提供該輸入音源訊號(37)。
  8. 如申請專利範圍第7項所述之解碼器,其中該解碼器(2)用以建立一吸引力值矩陣(A, P ),該吸引力值矩陣(A, P )係通過應用一映射函式(f(c' i,j ),T A,B )至該共變異數值矩陣(C, C y )或從該映射函式至該共變異數值矩陣(C, C y )所衍生之一矩陣(C')而建立,或用以接收一吸引力值矩陣(A, P ),該吸引力值矩陣(A, P )係通過應用一映射函式(f(c' i,j ),T A,B )至該共變異數值矩陣(C, C y )或從該映射函式至該共變異數值矩陣(C , C y )所衍生之一矩陣(C')而建立,其中對於所有的共變異數值(c i,j ,C y,A,B )或從該共變異數值(c i,j ,C y,A,B )所衍生之數值(c' i,j ,ICC A,B ),該映射函式(f(c' i,j ),T A,B )之該梯度大於或等於0,且其中在0至1之間的輸入數值裡,該映射函式(f(c' i,j ),T A,B )係達到0至1的數值。
  9. 如申請專利範圍第8項所述之解碼器,且其中該映射函式(f(c' i,j ),T A,B )為一非線性函式(f(c' i,j ),T A,B )。
  10. 如申請專利範圍第8項所述之解碼器,且其中在該共變異數值(c i,j ,C y,A,B ) 或從該共變異數值(c i,j ,C y,A,B )衍生之數值(c' i,j ,ICC A,B )小於一第一映射門檻值時,該映射函式(f(c' i,j ),T A,B )等於0;及/或且其中在該共變異數值(c i,j ,C y,A,B )或從該共變異數值(c i,j ,C y,A,B )所衍生之數值(c' i,j ,ICC A,B )大於一第二映射門檻值時,該映射函式(f(c' i,j ),T A,B )等於1。
  11. 如申請專利範圍第8項所述之解碼器,其中該映射函式(f(c' i,j ),T A,B )係透過形成S形曲線之一函式呈現。
  12. 如申請專利範圍第7項所述之解碼器,其中該解碼器(2)用以計算一相位校準係數矩陣(V, M int),其中該相位校準係數矩陣(V, M int)以該共變異數值矩陣(C, C y )及一原型降混矩陣(Q, M DMX)為基礎或用以接收來自一外部裝置之一相位校準係數矩陣(V, M int),其中該相位校準係數矩陣(V, M int)係以該共變異數值矩陣(C, C y )及一原型降混矩陣(Q, M DMX)為基礎,例如從一編碼器(1),該外部裝置係提供該輸入音源訊號(37)。
  13. 如申請專利範圍第12項所述之解碼器,其中該降混矩陣(M, M PA)之該降混係數(m i,j ,M PA,A,B )之該相位及/或該振幅係被配置成隨著時間而平滑,使得在相鄰時間訊框(43)間由於訊號抵消所產生時間偽影得以避免。
  14. 如申請專利範圍第12項所述之解碼器,其中該降混矩陣(M, M PA)之該降混係數(m i,j ,M PA,A,B )之該相位及/或該振幅係被配置成隨著時間而平滑,使得在相鄰頻帶(36)間由於訊號抵消產生之空間偽影得以避免。
  15. 如申請專利範圍第12項所述之解碼器,其中該解碼器(2)用以建立以該相位校準係數矩陣(V, M int)為基礎之一正規化相位校準係數矩陣(, M mod),或用以接收以一外部裝置之該相位校準係數矩陣(V, M int)為基礎之一正規化相位校準係數矩陣(, M mod),例如從一編碼器(1),該外部裝置係提供該輸入音源訊號(37)。
  16. 如申請專利範圍第15項所述之解碼器,其中該降混矩陣(M, M PA)係以該正規化相位校準係數矩陣(, M mod)為基礎。
  17. 一種音源訊號處理編碼器,係包含至少一頻帶(36),且該音源訊號處理編碼器係被配置用於處理在至少一頻帶(36)具有複數個輸入聲道(38)的一輸入音源訊號(37),其中該編碼器(1)用以校準該輸入聲道(38)的該相位,該相位係決取於該輸入聲道(38)間的聲道間相依性(39),其中該輸入聲道(38)之該相位互相校準的愈多,其聲道間相依性(39)即愈高;以及用於降混校準之該輸入音源訊號至一輸出音源訊號(40),該輸出音源訊號(40)具有比該輸入聲道(38)較少數目的輸出聲道(41)。
  18. 一種音源訊號處理編碼器,係包含至少一頻帶(36),該音源訊號處理編碼器被配置以用輸出一位元串流(7),其中該位元串流(7)包含在該頻帶(36)裡之一編碼音源訊號(37),其中該編碼音源訊號(37)在該至少一頻帶(36)具有複數個編碼聲道(38),其中該編碼器(1)係用於確定在該輸入音源訊號(37)之該輸入聲道(38)間之聲道間相依性(39),以及用以在該位元串流(7)內輸出該聲道間相依性(39);及/或用於決定該編碼音源訊號(37)之該能量以及在該位元串流(7)輸出該編碼音源訊號(37)之該決定能量;及/或用於針對一降混器(3)以計算一降混矩陣(M, M PA),該降混器(3)根據該降混矩陣(M, M PA)以降混該編碼音源訊號,該編碼聲道(38)之該相位根據識別聲道間相依性(39)以進行校準,在較佳地情況中,該降混器(41)之一輸出音源訊號之該能量係根據該編碼音源訊號(37)之決定能量被進行正規化,以及用於在該位元串流(7)內輸出該降混矩陣(M, M PA),其中特別是該降混矩陣(M, M PA)之該降混係數(m i,j , M PA,A,B )之該相位及/或該振幅係被配置成隨著時間而平滑,使得在相鄰時間訊框(43)間由於訊號抵消所產生之時間偽影得以避免,及/或其中特別是該降混矩陣(M, M PA))之該降混係數(m i,j ,M PA,A,B )之該相位及/或該振幅係被配置成隨著時間而平滑,使得由於在相鄰頻帶(36)的訊號抵消之空間態樣得以避免;及/或 用於分析使用一視窗函式之該編碼音源訊號(37)之時間隔間(43),其中該聲道間相依性(39)係在每一個時間訊框(43)被決定,以及被配置用於在該位元串流(7)內之每一個時間訊框(43)輸出該聲道間相依性(39);及/或用於計算一共變異數值矩陣(C, C y ),其中該共變異數值(c i,j )表示一對編碼音源聲道(38)之該聲道間相依性(39)以及用以在該位元串流(7)內輸出該共變異數值矩陣(C, C y );及/或用於建立一吸引力值矩陣(A, P ),該吸引力值矩陣(A, P )係被一映射函式(f(c' i,j ),T A,B )所應用,其中對於所有的共變異數值(c i,j ,C y,A,B )或從該共變異數值(c i,j ,C y,A,B )所衍生之數值(c' i,j ,ICC A,B ),較佳地,該映射函式(f(c' i,j ),T A,B )之該梯度大於或等於0,且其中該映射函式(f(c' i,j ),T A,B )較佳地在0至1之間的輸入數值裡達到0至1的數值,特別是一非線性函式(f(c' i,j ),T A,B ),特別是一映射函式(f(c' i,j ),T A,B ),在該共變異數值(c i,j ,C y,A,B )或從該共變異數值(c i,j ,C y,A,B )衍生之數值(c' i,j ,ICC A,B )小於第一映射門檻值時,該映射函式(f(c' i,j ),T A,B )等於0及/或對於共變異數值(c i,j ,C y,A,B )或從該共變異數值(c i,j ,C y,A,B )衍生之數值(c' i,j ,ICC A,B )大於一第二映射門檻值時,該映射函式等於1及/或該映射函式係透過形成S字曲線之一函式呈現,到該共變異數值矩陣(C, C y )或從該共變異數值矩陣(C, C y )所衍生之一矩陣(C'),及在該位元串流(7)內輸出該吸引力值矩陣(A, P );及/或用於計算一相位校準係數矩陣(V, M int),其中該相位校準係數矩陣(V, M int)係以該共變異數值矩陣(C, C y )及一原型降混矩陣(Q, M DMX)為基礎;及/或用於計算以該相位校準係數矩陣V為基礎之一正規化相位校準係數矩陣(, M mod),且被配置用於在該位元串流(7)內輸出該正規化相位校準係數矩陣(, M mod)。
  19. 一種系統,係包含如申請專利範圍第1項所述之一音源訊號處理解碼器(2),以及如申請專利範圍第17項或第18項所述之一音源訊號處 理編碼器。
  20. 一種處理一輸入音源訊號(37)之方法,該輸入音源訊號在一頻帶(36)具有複數個輸入聲道(38),該方法包含以下步驟:分析在該頻帶(36)之該輸入音源訊號(37),其中在該輸入音源聲道之聲道間相依性為已識別;根據該識別聲道間相依性以校準該輸入聲道(38)之該相位,其中該輸入聲道(38)之該相位互相校準的愈多,其聲道間相依性(39)即愈高;降混校準之該輸入音源訊號至一輸出音源訊號(40),該輸出音源訊號(40)在該頻帶(36)上具有比該輸入聲道(38)較少數目的輸出聲道(41)。
  21. 一種電腦程式,當於一電腦上或一訊號處理器上執行時實現如申請專利範圍第20項所述之方法。
TW103124999A 2013-07-22 2014-07-21 Audio signal processing decoder and encoder, system, method of processing input audio signal, computer program TWI560702B (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP13177358 2013-07-22
EP13189287.9A EP2838086A1 (en) 2013-07-22 2013-10-18 In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment

Publications (2)

Publication Number Publication Date
TW201523586A true TW201523586A (zh) 2015-06-16
TWI560702B TWI560702B (en) 2016-12-01

Family

ID=48874132

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103124999A TWI560702B (en) 2013-07-22 2014-07-21 Audio signal processing decoder and encoder, system, method of processing input audio signal, computer program

Country Status (18)

Country Link
US (2) US10360918B2 (zh)
EP (2) EP2838086A1 (zh)
JP (1) JP6279077B2 (zh)
KR (2) KR101835239B1 (zh)
CN (2) CN105518775B (zh)
AR (1) AR097001A1 (zh)
AU (1) AU2014295167B2 (zh)
BR (1) BR112016001003B1 (zh)
CA (1) CA2918874C (zh)
ES (1) ES2687952T3 (zh)
MX (1) MX359163B (zh)
PL (1) PL3025336T3 (zh)
PT (1) PT3025336T (zh)
RU (1) RU2678161C2 (zh)
SG (1) SG11201600393VA (zh)
TW (1) TWI560702B (zh)
WO (1) WO2015011057A1 (zh)
ZA (1) ZA201601112B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014112793A1 (ko) 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
CN109166587B (zh) 2013-01-15 2023-02-03 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2838086A1 (en) * 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
KR102160254B1 (ko) 2014-01-10 2020-09-25 삼성전자주식회사 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
US10217467B2 (en) * 2016-06-20 2019-02-26 Qualcomm Incorporated Encoding and decoding of interchannel phase differences between audio signals
WO2018013959A1 (en) * 2016-07-15 2018-01-18 Sonos, Inc. Spectral correction using spatial calibration
CN107731238B (zh) 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
CN107895580B (zh) * 2016-09-30 2021-06-01 华为技术有限公司 一种音频信号的重建方法和装置
US10362423B2 (en) * 2016-10-13 2019-07-23 Qualcomm Incorporated Parametric audio decoding
MX2019005214A (es) 2016-11-08 2019-06-24 Fraunhofer Ges Forschung Mezclador y metodo para mezclar al menos dos canales y codificador multicanal y decodificador multicanal.
ES2938244T3 (es) 2016-11-08 2023-04-05 Fraunhofer Ges Forschung Aparato y procedimiento para codificar o decodificar una señal multicanal usando una ganancia lateral y una ganancia residual
CN109427338B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号的编码方法和编码装置
EP3550561A1 (en) 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
CN115132214A (zh) * 2018-06-29 2022-09-30 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置
CN114223031A (zh) 2019-08-01 2022-03-22 杜比实验室特许公司 协方差平滑的系统及方法
US20220406318A1 (en) * 2019-10-30 2022-12-22 Dolby Laboratories Licensing Corporation Bitrate distribution in immersive voice and audio services
CN113518227B (zh) * 2020-04-09 2023-02-10 于江鸿 数据处理的方法和系统

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040042504A1 (en) * 2002-09-03 2004-03-04 Khoury John Michael Aligning data bits in frequency synchronous data channels
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
EP1914722B1 (en) 2004-03-01 2009-04-29 Dolby Laboratories Licensing Corporation Multichannel audio decoding
WO2007109338A1 (en) * 2006-03-21 2007-09-27 Dolby Laboratories Licensing Corporation Low bit rate audio encoding and decoding
CN1942929A (zh) * 2004-04-05 2007-04-04 皇家飞利浦电子股份有限公司 多信道编码器
JP2006050241A (ja) * 2004-08-04 2006-02-16 Matsushita Electric Ind Co Ltd 復号化装置
US8121836B2 (en) 2005-07-11 2012-02-21 Lg Electronics Inc. Apparatus and method of processing an audio signal
JP5302980B2 (ja) * 2008-03-04 2013-10-02 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 複数の入力データストリームのミキシングのための装置
MX2010009932A (es) * 2008-03-10 2010-11-30 Fraunhofer Ges Forschung Metodo y dispositivo para manipular una señal de audio que tiene un evento transitorio.
ES2796493T3 (es) * 2008-03-20 2020-11-27 Fraunhofer Ges Forschung Aparato y método para convertir una señal de audio en una representación parametrizada, aparato y método para modificar una representación parametrizada, aparato y método para sintetizar una representación parametrizada de una señal de audio
US8452587B2 (en) * 2008-05-30 2013-05-28 Panasonic Corporation Encoder, decoder, and the methods therefor
CN101604983B (zh) * 2008-06-12 2013-04-24 华为技术有限公司 编解码装置、系统及其方法
JP5608660B2 (ja) * 2008-10-10 2014-10-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) エネルギ保存型マルチチャネルオーディオ符号化
US8698612B2 (en) * 2009-01-05 2014-04-15 Gordon Toll Apparatus and method for defining a safety zone using a radiation source for a vehicle
EP2214161A1 (en) 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal
WO2010097748A1 (en) * 2009-02-27 2010-09-02 Koninklijke Philips Electronics N.V. Parametric stereo encoding and decoding
US8666752B2 (en) 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
WO2010105695A1 (en) * 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
CN101533641B (zh) * 2009-04-20 2011-07-20 华为技术有限公司 对多声道信号的声道延迟参数进行修正的方法和装置
BR112012007138B1 (pt) 2009-09-29 2021-11-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de sinal de áudio, codificador de sinal de áudio, método para prover uma representação de mescla ascendente de sinal, método para prover uma representação de mescla descendente de sinal e fluxo de bits usando um valor de parâmetro comum de correlação intra- objetos
WO2011039668A1 (en) * 2009-09-29 2011-04-07 Koninklijke Philips Electronics N.V. Apparatus for mixing a digital audio
KR101641685B1 (ko) 2010-03-29 2016-07-22 삼성전자주식회사 멀티채널 오디오의 다운믹스 방법 및 장치
KR20110116079A (ko) * 2010-04-17 2011-10-25 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 장치 및 방법
WO2012006770A1 (en) 2010-07-12 2012-01-19 Huawei Technologies Co., Ltd. Audio signal generator
AU2010345325B2 (en) 2010-07-14 2013-09-26 Guangdong Shengyi Sci. Tech Co., Ltd. Composite material, high-frequency circuit substrate made therefrom and making method thereof
EP2609591B1 (en) * 2010-08-25 2016-06-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for generating a decorrelated signal using transmitted phase information
US9311923B2 (en) * 2011-05-19 2016-04-12 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
EP2838086A1 (en) * 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment

Also Published As

Publication number Publication date
JP6279077B2 (ja) 2018-02-14
BR112016001003B1 (pt) 2022-09-27
BR112016001003A2 (pt) 2017-07-25
KR20160033776A (ko) 2016-03-28
CN105518775B (zh) 2020-07-17
TWI560702B (en) 2016-12-01
CN111862997A (zh) 2020-10-30
PT3025336T (pt) 2018-11-19
MX359163B (es) 2018-09-18
WO2015011057A1 (en) 2015-01-29
CA2918874A1 (en) 2015-01-29
ES2687952T3 (es) 2018-10-30
BR112016001003A8 (pt) 2020-01-07
MX2016000909A (es) 2016-05-05
US10937435B2 (en) 2021-03-02
KR101943601B1 (ko) 2019-04-17
AR097001A1 (es) 2016-02-10
US10360918B2 (en) 2019-07-23
EP3025336B1 (en) 2018-08-08
RU2678161C2 (ru) 2019-01-23
KR20180027607A (ko) 2018-03-14
CN105518775A (zh) 2016-04-20
PL3025336T3 (pl) 2019-02-28
EP2838086A1 (en) 2015-02-18
KR101835239B1 (ko) 2018-04-19
AU2014295167B2 (en) 2017-04-13
CA2918874C (en) 2019-05-28
SG11201600393VA (en) 2016-02-26
ZA201601112B (en) 2017-08-30
JP2016525716A (ja) 2016-08-25
RU2016105741A (ru) 2017-08-28
EP3025336A1 (en) 2016-06-01
US20190287542A1 (en) 2019-09-19
US20160133262A1 (en) 2016-05-12
AU2014295167A1 (en) 2016-02-11

Similar Documents

Publication Publication Date Title
TW201523586A (zh) 自適應相位校準之多聲道降混之梳型濾波器之偽影削減
JP6735053B2 (ja) マルチチャネル符号化におけるステレオ充填装置及び方法
RU2676233C2 (ru) Многоканальный аудиодекодер, многоканальный аудиокодер, способы и компьютерная программа с использованием регулирования доли декоррелированного сигнала на основании остаточных сигналов
JP5133401B2 (ja) 出力信号の合成装置及び合成方法
CA2750272C (en) Apparatus, method and computer program for upmixing a downmix audio signal
EP2405425A1 (en) Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing
US20110096932A1 (en) Parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder
CA2887228C (en) Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
PT2372701E (pt) Codificação aprimorada e representação de parâmetros de codificação de objeto de downmix multicanal
RU2696952C2 (ru) Аудиокодировщик и декодер
EP2690621A1 (en) Method and Apparatus for downmixing MPEG SAOC-like encoded audio signals at receiver side in a manner different from the manner of downmixing at encoder side
JPWO2010140350A1 (ja) ダウンミックス装置、符号化装置、及びこれらの方法
AU2020233210B2 (en) Downmixer and method of downmixing
JP6299202B2 (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム及びオーディオ復号装置