TWI797445B - 用於產生輸出降混表示的設備、方法或電腦程式 - Google Patents

用於產生輸出降混表示的設備、方法或電腦程式 Download PDF

Info

Publication number
TWI797445B
TWI797445B TW109113544A TW109113544A TWI797445B TW I797445 B TWI797445 B TW I797445B TW 109113544 A TW109113544 A TW 109113544A TW 109113544 A TW109113544 A TW 109113544A TW I797445 B TWI797445 B TW I797445B
Authority
TW
Taiwan
Prior art keywords
downmix
representation
channel
scheme
input
Prior art date
Application number
TW109113544A
Other languages
English (en)
Other versions
TW202103144A (zh
Inventor
弗朗茲 羅伊特胡伯
依萊尼 弗托波勞
馬庫斯 穆爾特斯
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW202103144A publication Critical patent/TW202103144A/zh
Application granted granted Critical
Publication of TWI797445B publication Critical patent/TWI797445B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Logic Circuits (AREA)
  • Stored Programmes (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Circuits Of Receivers In General (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一種用於從輸入降混表示產生輸出降混表示的設備,其中輸入降混表示 的至少一部分根據第一降混方案,該設備包括:升混器(200),用於使用對應於第一降混方案的升混方案將輸入降混的至少一部分進行升混以獲得至少一升混部分;以及降混器(300),用於根據不同於第一降混方案的第二降混方案將至少一升混部分進行降混。

Description

用於產生輸出降混表示的設備、方法或電腦程式
本發明係關於多聲道處理,並且特別是關於提供單聲道輸出的可能性的多聲道處理。
雖然通常將立體聲編碼的位元流解碼成在立體聲系統上播放,但並非所有能夠接收立體聲位元流的裝置總是能夠輸出立體聲信號。一種可能的情況是在僅帶有單聲道揚聲器的手機上播放立體聲信號。隨著新興3GPP IVAS標準支持的多聲道移動通信場景的到來,因此需要立體聲到單聲道降混,該降混無額外的延遲與複雜度,盡可能地有效率,同時也要提供最可能的感知品質,其係超越簡單被動降混可達到的效果。
有多種將立體聲信號轉換為單聲道信號的方法。最直接的方法是在時域中通過被動降混[1],通過添加左右聲道並縮放結果產生中間信號:
Figure 109113544-A0305-02-0003-1
其他更複雜的(亦即主動)基於時域的降混方法包括致力於保持信號的整體能量[2][3]的能量縮放、避免抵消效應[4]的相位對準以及防止相干抑制的梳狀濾波器效應[5]。
另一種方法是通過計算多個頻譜帶的各自加權因子,以頻率相關的方式進行能量校正。舉例來說,這是作為MPEG-H格式轉換器[6]的一部分完成的,其中降混是在信號的混合QMF子頻帶表示上進行,該信號具有聲道的附加先前相位對齊。在[7]中,類似的逐頻帶降混(包括相位與時間對齊)已經用於參數低位元率模式DFT立體聲,其中在DFT域中應用加權與混合。
在解碼立體聲信號之後,在時域中被動立體聲到單聲道降混的解決方案不是理想的,因為眾所周知,純被動降混具有某些缺點,例如,相位抵消效應或能量的一般損失,這可能會(取決於項目)嚴重降低品質。
純粹基於時域的其他主動降混方法緩解被動降混的某些問題,但由於缺少頻率相關的加權,仍然只是次佳選項。
就延遲與複雜而言,像IVAS(沉浸式語音與音頻服務)這樣的移動通信編解碼器存在隱含的約束,像MPEG-H格式轉換器應用逐頻帶降混具有專用後處理階段也不是一種選項,因為往返頻域的必要轉換將無可避免地導致複雜與延遲的遞增。
在[8]中所述的基於DFT的立體聲系統中,僅使用基於參數的殘差預測來還原解碼器處的立體聲信號,並且其中如[7]中所述通過主動降混產生中間信號,解碼器處可獲得良好的單聲道信號。然而,假如信號的頻譜部分依賴於通過M/S轉換產生的立體聲恢復的編碼殘差信號,則在立體聲升混之前可用的單聲道信號不再適合。在這種情況下,單聲道信號將 頻譜上地包括來自M/S變換的中間信號的部分(殘差編碼部分),該單聲道信號等於被動降混以及主動降混的部分(殘差預測部分)。兩種不同的降混方法的混合導致信號中的偽訊與能量不平衡。
本發明的一個目的是提供一種用於產生多聲道解碼的輸出降混表示的改良概念。
該目的通過一種用於產生請求項1的輸出降混表示的設備、一種請求項19的多聲道解碼器、一種用於產生請求項24的輸出降混表示的方法、一種請求項27的多聲道解碼的方法或一種請求項28的相關電腦程式來達成。
一種用於從一輸入降混表示產生一輸出降混表示的設備,其中該輸入降混表示的至少一部份根據一第一降混方案,該設備包括一升混器,用於使用對應於該第一降混方案的一升混方案將該輸入降混表示的至少該部分進行升混以獲得至少一升混部分。此外,該設備包括一降混器,用於根據不同於該第一降混方案的一第二降混方案將至少一升混部分進行降混。
在另一個實施例中,該輸入降混表示的該部分是根據該降混方案,另外,該輸入降混表示的一第二部分是根據不同於該第一降混方案的一第二降混方案。在此實施例中,該降混器配置為根據該第二降混方案或根據不同於該第一降混方案與該第二降混方案的一第三降混方案將該升混部分進行降混以獲得一第一降混部分。現在,關於該降混部分的情況是使得該第 一降混部分與該第二部分是相關的,並且可以說,在同一降混方案域中,以至於該第一降混部分與第二降混部分或從該第二降混部分導出的降混部分可以通過組合器組合以獲得包括該第一部分的一輸出表示與該第二部分的一輸出表示的該輸出降混表示,其中該第一部分的該輸出表示與該第二部分的該輸出表示基於相同的降混方案,亦即位於一個及相同的降混域中,因此彼此“協調”。
在另一個實施例中,整個頻寬或該輸入降混表示的僅一部分是基於一降混方案,該降混方案依賴於多個參數與一殘差信號或僅依賴於一殘差信號而沒有參數。在這種情況下,該輸入降混表示包括一核心信號、一殘差信號或一殘差信號與多個參數。使用該旁側資訊,亦即,使用該參數與該殘差信號,或者僅使用該殘差信號,將該信號進行升混。該升混包括所有可用資訊,該可用資訊包括該殘差信號並且一降混合被執行到該第二降混方案中,該第二降混方案不同於第一降混方案,亦即,較佳地,一主動降混具有用於解決能量計算的度量,或者換句話說,不產生一殘差信號並且較佳地不產生一殘差信號及任何參數的一降混方案。這樣的一個降混提供良好而愉悅及高品質音頻單聲道渲染的可能性,然而如果沒有有利地考慮該殘差信號與該參數下進行渲染,當在沒有升混與後續降混下,該輸入降混表示的該核心信號無法提供任何愉悅及高品質音頻重製。
根據此實施例,用於產生一輸出降混表示的該設備執行將一類殘差降混方案轉換為一類非殘差降混方案。此轉換既可以在該全頻帶中進行,也可以在一部分頻帶中進行。通常,在較佳實施例中,一多聲道編碼信號的該低頻帶包括一核心信號、一殘差信號以及較佳參數。然而,在 該高頻帶中,有利於一較低位元率而提供較低精度,因此,在這樣的高頻帶中,一主動降混就足夠,而沒有附加旁側資訊如殘差資料或多個參數。在這種情況下,將該殘差降混域中的該低頻帶轉換為該非殘差降混域,並該結果與已經在“正確”非殘差降混域中的該高頻帶合併。
在另一個實施例中,不需要將該第一部分從該第一降混域轉換成該第二部分所位於的相同降混域。相反,在其他實施例中,其中該第一部分在該第一降混域中,並且該輸入表示的該第二部分在該第二降混域中,根據對應於該第一降混方案的該第一升混方案通過將該第一部分進行升混將這兩個部分都轉換成另一第三降混域。另外,根據對應於該第二降混方案的該第二升混方案,將該第二部分進行升混,並且較佳地通過沒有任何殘差或參數資料的一主動降混將兩個升混降混為該第三降混方案,該第三降混方案不同於該第一與該第二降混方案。
在另外的實施例中,在不同的降混表示中可以使用多於兩個的部分,特別是頻譜部分或頻譜帶。通過本發明,較佳地,在該頻譜域中執行該升混與隨後的降混,其中可以執行個別頻帶的個別處理,而不會從一個頻譜頻帶干擾另一頻譜頻帶。在該降混器的該輸出處,所有頻帶都在同一個“降混”域中,因此,存在用於該單聲道輸出降混表示的一頻譜,可以通過一頻譜時間轉換器,例如一合成組、一逆離散傅立葉變換、一逆MDCT域或任何其他此類變換,將該頻譜轉換為時域表示。該個別頻帶的組合以及到該時域的該轉換可以藉助於這種合成濾波器組來實現。特別地,是否在實際轉換之前,亦即在頻譜域中執行該組合是無關緊要的。在這種情況下,該組合發生在頻譜時間變換之前,亦即在進入該合成濾波器組的該輸入處,並且僅執行單個變換以獲得單個時域信號。但是,等效 實現方式包括該組合器針對每個頻帶分別執行一頻譜時間變換的實現方式,使得每個這樣的單獨變換的該時域輸出代表一時域表示,然而是在某個頻寬中,以及當實現關鍵地取樣變換時,用一逐取樣方式組合該個別時域輸出,該逐取樣方式最好是在某種升取樣之後。
在進一步的實施方式中,本發明應用在可在兩種不同模式下操作的一多聲道解碼器中,亦即,在該多聲道輸出模式中作為“正常”模式,並且也在一第二模式中是可操作,例如是該單聲道輸出模式的一“例外”模式。當該聲道解碼器實現在僅具有一單聲道揚聲器輸出設備的一個元件中時,例如具有一單個揚聲器的手機,或者實現在某種省電模式的設備中時,此單聲道輸出模式特別有用,在某種省電模式的設備中,為了節省電池電量或節省處理資源,即使該設備基本上也具有一多聲道或一立體聲輸出模式的可能性,也僅提供一單聲道輸出模式。
在這樣的實施方式中,該多聲道解碼器包括用於解碼的核心信號的一第一時間頻譜變換及用於解碼器殘差信號的一第二時間頻譜變換設備。對於在兩個不同降混域中的兩個不同的頻譜部分,提供該頻譜域中的兩個不同的升混功能,並通過諸如一合成濾波器組或一IDFT區塊之類的一組合器組合該對應的左聲道頻譜線,並且通過一附加或第二合成濾波器組或IDFT(逆離散傅立葉變換)組合其他聲道頻譜線。
為了增強這樣的多聲道解碼器,根據不同於該第一降混方案的一第二降混方案提供用於將該至少一升混部分進行降混的該降混器,該降混器實現為一主動降混器。另外,在一個實施例中,也提供兩個開關與一個控制器。該控制器控制一第一開關繞過該高頻帶部分的一升混器,並 且該第二開關實現為向該降混器饋送該升混器的該輸出。在這種單聲道輸出模式下,該第二組合器或合成濾波器組是非活動狀態,並且該高頻帶的該升混器也處於非活動狀態,以節省處理能力。但是,在該立體聲輸出模式下,該第一個開關饋送該高頻帶的該升混,並且該第二個開關繞過該(主動)降混器,以及兩個輸出合成濾波器組都是活動的,以獲得該左立體聲輸出信號及該右輸出信號。
由於該單聲道輸出是在頻譜域中,例如該DFT域,計算的,因此與該立體聲輸出的產生相比,該單聲道輸出的產升不會導致任何額外的延遲,因為與該立體聲處理模式相比,任何額外的時間頻率變換是不必要的。相反地,該兩個立體聲模式合成濾波器組之一也用於該單聲道模式。此外,與通常比該單聲道輸出提供一增強的音頻體驗的該立體聲輸出相比,該單聲道處理模式節省複雜性,尤其是節省處理資源,因此節省在低功率模式下的電池電量,對於一電池供電的移動裝置特別有用。這是正確的,因為可以停用在該立體聲模式中正常需要的該高頻帶升混器,此外,也可以停用在該立體聲輸出模式中也需要的一第二輸出濾波器組。相反地,與該立體聲模式相比,僅需要在該頻譜域中完全操作的一低複雜度與低延遲主動降混區塊作為一附加處理區塊。但是,此主動降混區塊所需的該額外處理資源明顯小該處理資源,該處理資源通過停用該高頻帶升混器及該第二合成濾波器組或IDFT區塊來節省。
實施例旨在從一立體聲信號的降混所建立的一單聲道輸入信號產生一協調的單聲道輸出信號,其中,對於該立體聲信號的至少兩個不同的頻譜區域,使用不同的方法,例如,主動與被動來進行降混。通過選 擇一種降混方法作為該協調信號的較佳方法,以及變換所有頻譜部分來實現該協調,通過不同方法將該所有頻譜部分進行降混成為該較佳方法。這是使用該升混需要的所有該旁側參數通過首先將這些頻譜線進行升混以重新獲得各個頻譜域中的一LR表示來實現的。再次使用該較佳降混方法所需的所有必要參數,通過將該較佳方法應用於該立體聲表示,該頻譜部分轉換為一單聲道表示。產生一協調的單聲道輸出信號,避免一非均勻降混問題,而沒有額外的延遲與復雜性。
10:輸入介面
20:核心解碼器
30:旁側資訊解碼器
100:第一時間頻譜轉換器
120:第二時間頻譜轉換器
200:升混器
220:第二升混器
300:降混器
400:組合器
420:第二組合器
500:輸出介面
600:第二部分處理器
700:控制器
720:第二開關
800、820、840:方法步驟
802、804、806、808、810:方法步驟
接著,參考附圖討論較佳實施例,其中:圖1說明一個實施例中用於產生輸出降混表示的設備;圖2說明另一實施例中用於產生輸出降混表示的設備,其中降混方案基於殘差信號或殘差信號與多個參數;圖3說明另一實施例,其中對於不同部分例如輸入降混表示的頻譜部分執行不同的降混方案;圖4說明另一實施例,該實施例說明對於輸入降混表示在不同頻譜部分中不同降混方案的使用以及說明第一降混方案基於殘差資料並且第二降混方案是主動降混方案或沒有殘差或參數資料的降混方案的程序;圖5說明一個實施例中對應於第一降混方案的升混方案的較佳實施方式,其中Resi為頻譜二進位碼i的殘差信號,且
Figure 109113544-A0305-02-0010-36
為頻帶b的旁側增益;圖6說明在立體聲輸出模式中運作的多聲道解碼器; 圖7根據實施例說明在多聲道輸出模式或單聲道輸出模式之間可切換的多聲道編碼器;圖8a說明第二降混方案的較佳實施方式;圖8b說明第二降混方案的另一實施例;以及圖9說明將輸入降混表示分離成指示為第一部分的第一降混方案中的輸入降混表示的部分以及依賴於具權重的降混方案的輸入降混表示的第二部分。
圖1說明用於從一輸入降混表示產生一輸出降混表示的裝置,其中該輸入降混表示的至少一部分是根據第一降混方案的。該設備包括一升混器200,該降混器200使用與該第一降混方案對應的一升混方案將該輸入降混表示的至少該部分進行升混,以在區塊200的該輸出處獲得至少一升混部分。該設備更包括一降混器300,該降混器300根據一第二降混方案將至少一升混部分進行降混,該第二降混方案不同於該第一降混方案。較佳地,該降混器300的該輸出傳送到產生一單聲道輸出的一輸出級500。例如,該輸出級是用於將該輸出降混表示輸出到一渲染設備的一輸出介面,或者該輸出級500實際上包括用於將該輸出降混表示渲染為一單聲道重放信號的一渲染設備。
圖1說明的設備提供從一第一“降混域”中的一降混表示到另一第二降混域的轉換。如同將在其他附圖中說明的,該轉換僅對於該頻譜的有限部分是有效的,例如對於範例性給出的最低的三個頻帶b1、b2與b3的圖9中說明的該第一部分。可選替地,該設備也可以針對整個頻帶,即針對圖9中範例性說明的所有頻帶b1至b6,執行從一個降混域到另一降混域的轉換。該部分可以是該信號的 任何部分,例如一頻譜部分、一時間部分,例如時間區塊或畫面,或該信號的任何其他部分。
圖2說明該第一降混方案僅依賴於一殘差信號或僅依賴於殘餘信號與參數資訊的一個實施例。圖2包括一輸入介面10,其中該輸入介面接收一編碼的多聲道信號,該信號包括一編碼的核心信號與一編碼的旁側資訊部分。該核心信號由一核心解碼器20解碼以提供沒有旁側資訊的該輸入降混表示。另外,來自該編碼的多聲道信號的該旁側資訊部分由該輸入介面內的該旁側資訊解碼器30提供及處理,並且該旁側資訊解碼器30提供該殘差信號或殘差信號與多個參數,如圖2中的210所示。該資料,亦即與該解碼的核心信號對應的該輸入降混與該殘差資料都被輸入到該升混器200,並且該升混器200產生具有一第一聲道與一第二聲道的一升混信號,並且該第一聲道與第二聲道資料是高品質音頻資料,因為該高品質音頻資料不僅由該核心信號與某種被動升混產生,而且還使用該殘差資料或該殘差資料與該多個參數所產生,亦即,有用地來自該編碼的多聲道信號的所有資料。舉例來說,該降混器300使用一主動降混或一降混方案將該升混器200的該輸出進行降混,該降混方案不產生殘差信號或不產生任何參數但是產生能量補償的一降混或一單聲道信號,亦即,不會遭受到通常是一重大問題的能量波動,例如,當僅執行一被動降混時,如同由圖2的該核心解碼器20產生的該核心信號的情況。例如該降混器300的該輸出傳送到用於渲染該單聲道信號的一渲染器,或者例如傳送到圖1說明的該輸出級500。
圖3說明另一實施例,其中再次參考圖9,該第一部分在該第一降混方案中是可用的,例如具有殘差資料的一降混方案,並且例如在一第二降混方案中存在一第二頻譜部分是可用的而沒有任何殘差,亦即通過一主動降混產生該第二頻譜部分,該主動降混使用例如基於能量考慮而得出的降混權重以抵抗任何波動,如果應用一被動降混將會出現這種波動。
該降混合表示的該第一部分被輸入到該升混合器200中,該升混合器200對應於該第一降混合方案進行升混,並且如關於圖1或圖2所討論的,該第一部分被發送到現在於該第二個降混方案中執行一降混的該降混器300。圖3中說明的該第二部分可以,例如在該第二降混方案中但是也可以在一第三,亦即任何其他降混方案中,是來自輸入到該升混器200的該部分的該降混方案或該降混器300所輸出的該第二將混方案。針對該第二部分與該降混器300的該輸出在該降混域相同的情況下,不需要任何第二部分處理器600。可替代地,該第二部分可以發送到一組合器400中,該組合器400用於組合關於它們降混方案現在已經協調的該第一與第二部分。然而,當該第二部分是在降混域中時,亦即,具有不同於該降混方案的一基本降混方案,該降混方案中該降混器300的該輸出是可用的,提供該第二部分處理器600。通常,該第二部分處理器600也包括一升混器,該升混器用於在該第三降混方案中對該第二部分進行升混,並且該第二部分處理器600另外包括一降混器,該降混器用於將升混器表示降混到相同的降混域,亦即,使用相同的降混方案,當來自該降混器的是有用的。第二部分處理器600可以使用該升混器200與該隨後連接的降混器300來實現,所以獲得輸入到該組合器400的一完全協調的資料。該組合器400較佳地輸出該單聲道輸出降混表示的一頻譜表示,其通過頻譜時間轉換器,如一濾波器組、IDFT、IMDCT等被轉換成該時域。或者,該組合器400配置為將該各自輸入組合成各自時域信號,並且在該時域中組合該時域信號以獲得一時域單聲道輸出降混表示。
圖4包括一輸入介面,該輸入介面可以包括如圖4所說明的DFT區塊的一第一時間頻譜轉換器100與如圖4中該第二DFT區塊的一第二時間頻譜轉換器120。該第一區塊100配置為用於將該解碼的核心信號,例如當圖2的該核心解碼器20輸出時,轉換成一頻譜表示。此外,該第二時間頻譜轉換器120配置為將該解碼的殘差信號,例如當通過圖2的該旁側資訊解碼器30輸出時,轉換成為 在210a處說明的一頻譜表示。此外,線210b說明可選地提供的附加參數資料,例如也是由圖2的旁側資訊解碼器30輸出的旁側增益。圖4的升混器200產生低頻帶,亦即,圖9的前三個頻帶b1、b2、b3的範例,的一升混左聲道與一升混右聲道。此外,在區塊200的該輸出處的該低頻帶升混被輸入到該降混器300,較佳地執行一主動降混,使得提供用於圖9的範例性說明的三個頻帶b1、b2、b3的一低頻帶表示。現在,該低頻帶降混與該DFT區塊100已經產生的高頻帶降混處於相同的域。在圖9的範例中,該高頻帶的區塊100的該輸出對應於頻帶b4、b5、b6的該降混表示。現在,在圖4中作為一IDFT400說明的該組合器400的該輸入處,該降混的該低頻帶表示與高頻帶表示在相同的“降混域”中,並且已經用相同的降混方案產生。現在,可以將該協調的降混表示的該低頻帶與該高頻帶組合,並且最好轉換到時域,以在相應組合器400的區塊的該輸出處提供該單聲道輸出信號。
如[8]中所述的大多數參數立體聲方案是建立在僅發送一單個降混聲道並通過旁側參數重新創造該立體聲影像的思想上。通過動態地計算該DFT域中兩個聲道的權重,用一主動方式完成該編碼器端的這種降混[7]。使用該兩個聲道的該各自的能量及它們交互相關按頻帶計算這些權重。該降混必須保留的該目標能量等於該相位旋轉的中間聲道的該能量:
Figure 109113544-A0305-02-0014-42
其中L和R代表該左右聲道。基於此目標能量,可以按下列公式每個頻帶b計算該聲道的該權重:
Figure 109113544-A0305-02-0014-3
以及
Figure 109113544-A0305-02-0014-4
|L|和|R|為每個頻帶b計算為:
Figure 109113544-A0305-02-0015-5
|L+R|計算為
Figure 109113544-A0305-02-0015-7
以及|〈L,R〉|計算為該複數點積的該絕對值:
Figure 109113544-A0305-02-0015-8
具有
Figure 109113544-A0305-02-0015-10
以及
Figure 109113544-A0305-02-0015-12
其中,i指定頻譜帶b內的二進位碼編號。
通過將左右聲道的該加權頻譜二進位碼相加,可以得到每個頻帶的該降混頻譜:DMX real,i,b =w L,b L real,i,b +w R,b R real,i,b
以及DMX imag,i,b =w L,b L imag,i,b +w R,b R imag,i,b .
如果此類系統中的所有立體聲處理完全依賴於參數,並且所描述的主動降混是在整個頻譜上完成,則在該核心解碼之後,通過避免一被動降混的間題就有效滿足該給定品質要求的一單聲道信號。這意味著在大多數情況下,無需進入DFT域就可以跳過所有解碼器立體聲處理並且輸出信號。
然而,對於更高的位元率,這種系統也支持針對該較低頻譜帶的一殘差信號的該編碼。該殘差信號可以看作是這些最低頻帶的一MS變換的該旁側信號,然而該核心信號是該互補的中間信號,基本上是左與右的一被動降混。 為了維持該旁側信號盡可能小,使用每個頻帶計算出的旁側增益將該聲道之間的雙耳音強差(ILD)補償應用於它。
對於該殘差編碼頻譜內的每個頻譜二進位碼i,在該編碼器側計算該降混的中間聲道,如下所示:
Figure 109113544-A0305-02-0016-13
然而該互補旁側聲道計算為
Figure 109113544-A0305-02-0016-15
通過減去左右之間的一ILD的該預測部分,獲得該殘差信號:res i =side i -g b mid i
該當前頻譜帶b的旁側增益g b
Figure 109113544-A0305-02-0016-16
進入該核心編碼器的該全頻帶信號是較低頻帶的被動降混與所有較高頻帶中的主動降混的一個混合。聽力測試表明,當播放此類混合信號時存在感知議題。因此需要一種協調不同信號部分的方法。
圖5說明依賴於殘差資料res i 與參數資料的升混方案的一表示,該殘差資料res i 與參數資料通過頻帶旁側增益索引
Figure 109113544-A0305-02-0016-38
所說明。i代表頻譜值並且b代表某頻帶。圖5說明在圖9中也說明的情況,其中每個頻帶bi具有幾條頻譜線。特別地,為了計算該頻譜值Li,使用該中間信號頻譜值,亦即,具有該核心解碼器20的輸該出或圖4的DFT塊100的該輸出的索引i的對該應頻譜值。此外,如圖4中的線210b所示,需要該頻譜值i所位於的該對應頻帶的該對應參數
Figure 109113544-A0305-02-0016-41
,並且需要該殘差信號,該區塊120產生該殘差信號並且針對具有索引i的該特定頻譜值以及針對該各自頻帶b在線210a說明該殘差信號。
帶有殘差編碼的該低頻帶信號的L-R表示由此重新獲得如下:
Figure 109113544-A0305-02-0017-34
以及
Figure 109113544-A0305-02-0017-19
隨後,如上所述應用該主動降混,僅從升混解碼頻譜LR計算該權重。將該低頻帶與已經主動降混的高頻帶組合,以建立通過IDFT返回時域的一協調信號。
圖6說明用於立體聲輸出的多聲道解碼器的實現。該多聲道解碼器包括圖4的元件,這些元件用相同的參考數字表示。另外,該立體聲多聲道解碼器包括一第二升混器220,用於將高頻帶降混,即該第二部分升混為一第二升混表示,該第二升混表示包括例如一立體聲輸出的左聲道與右聲道,作為該多聲道解碼器的一種實現方式。對於該多聲道解碼器的另一種實現方式,其中有兩個以上的輸出聲道,例如三個或更多的輸出聲道,該第二升混器220以及該升混器200將產生一對應較高數量的輸出聲道,而不僅僅是左聲道與右聲道。
此外,在圖6中說明一第二組合器420,該第二組合器420用於該多聲道解碼器,亦即用於該說明的立體聲解碼器。如果兩個以上的輸出,則另一個組合器將用於該第三輸出聲道,並且另一個用於該第四輸出聲道,以此類推。然而,與圖6相比,圖4的降混器300不必然用於該多聲道輸出。
圖7說明一可切換多聲道解碼器的一較佳實施方式,該可切換多聲道解碼器通過一控制器700的該致動在一單聲道模式或一立體聲/多聲道輸出模式之間是可切換的。此外,與圖6相反,該多聲道解碼器還包括已經於圖4或其他圖描述的該降混器300。此外,在該可切換的實現方式中,一種選項是提供兩個單獨的開關S1,S2。然而,圖7的底部所說明的該開關功能也可以通過其他開關裝置來實現,例如組合開關或甚至兩個以上的開關。通常,開關1配置為以該 單聲道輸出模式操作,使得繞過也指示為“升混高”的該第二升混器220。此外,S2通過該第二控制信號CTRL2配置該第二開關,以將圖7中表示為“升混低”的該升混器200的該輸出饋送給該主動降混300。此外,在該單聲道輸出模式下,關於圖6描述的相應第二升混器220的升混高區塊是閒置的,並且另外,指示為“IDFTR”的該第二組合器420也是閒置的,因為僅需要單個組合器400用於產生該單一單聲道輸出信號。
與此相反,在該立體聲輸出模式,或通常在該多聲道輸出模式,該控制器700配置為經由控制信號CTRLl致動該第一開關,使得將該第一時間到頻率轉換器100的該輸出饋送到在圖7中指示為“升混高”的該第二升混器220。通過開關S1的該致動,相應第二升混器的第二組合器被致動。此外,該控制器700配置為控制該第二開關S2 720,使得塊200的該輸出不被輸入到該主動降混器300,而是繞過該降混器300。區塊200的該輸出的該左聲道(低頻帶)部分傳送為該組合器400該的低頻帶部分,並且在區塊200的該輸出的該右聲道低頻帶部分傳送到圖7所說明的該第二組合器420的該低頻帶輸入。此外,在該立體聲/多聲道輸出模式中,該降混器300是閒置的。
圖8a說明用在執行主動降混的該降混300中的實施例的流程圖。在步驟800中,基於一目標能量計算權重wR和wL。對每個頻帶進行此操作,使得獲得針對每個頻帶的該右聲道的一權重wR與該左聲道的權重wL
在區塊820中,在所考慮的信號的該整個頻寬上或僅在每個頻譜二進位碼的該對應部分中將該權重應用於該升混信號。為此,區塊820接收該頻譜域(複數)信號或二進位碼或頻譜值。在該權重的應用,並且特別是該加權值的一加法以獲得該降混之後,執行到時域的一轉換840。取決於是否在區塊820中僅處理一部分或該完全頻帶,在任何其他部分下進行到該時域的該轉換,或者具有 其他部分下一起進行,特別是在例如關於圖3或圖4所說明與討論的一協調的降混的背景中。
圖8b說明在圖8a的區塊800中執行的功能的較佳實施方式。特別地,為了計算每個頻帶的該權重wR與wL,針對一頻帶計算針對L的一振幅相關的度量。為此,輸入該左聲道的該各個頻譜線,亦即圖1至圖7中任何一區塊200輸出的該左聲道。在區塊804中,針對相同頻帶b中的第二聲道或右聲道執行相同的程序。此外,在區塊806中,針對頻帶b中的L與R的一線性組合計算另一振幅相關的度量。在區塊806中,再次,針對該頻帶在考慮下,需要該第一聲道L的該頻譜值,該第二聲道R的該頻譜值。在區塊808中,在該對應的頻帶b中計算該左聲道與該右聲道之間,或者通常在該第一聲道與該第二聲道之間的,一交互相關度量。為此,再次針對該對應的頻帶,需要在該第一與該第二通道的索引e處的該頻譜值。
如所說明的,振幅相關的度量可以是一頻帶中該頻譜值的平方振幅的平方根。這表示為|L b |。另一個振幅相關的度量,例如,是該頻帶中沒有任何平方根或是具有一指數的該頻譜線的該振幅的該總和,該指數不同於1/2,例如介於0與1之間的一指數,但不包括0與1。此外,該振幅相關的度量還可以參照為頻譜線的指數振幅的一總和,其中該指數不同於2。例如,使用3的一指數將對應於心理聲學方面的該響度。但是,其他指數大於1也會有用。
對於在區塊804中計算的該振幅相關的度量或在區塊806中計算的振幅相關的度量也是如此。
此外,對於在區塊808中計算的該交互相關度量,之前說明的該對應的數學方程式也依賴於該點積的一平方及一平方根的計算。但是,也可以使用不同於2的該點積的其他指數,例如指數等於3對應一響度域或指數大於1。同時, 除了該平方根,還可以使用其他不同於1/2的指數,例如1/3,或通常介於0與1之間的任何指數。
此外,區塊810基於該三個振幅相關的度量與該交互相關度量指示wR與wL的該計算。儘管已經指示該目標能量通過降混保留,並且等於該相位旋轉的中聲道的該能量,但是不論對於wR與wL的該計算以及該實際降混信號的該計算,不必然實際執行具有一旋轉角度的這樣一個旋轉。相反地,當不執行具有該旋轉角Φ的該實際旋轉時,唯一需要的是計算該對應頻帶b中的L與R之間的該交互相關度量。在先前描述的實施例中,儘管已經指出一相位旋轉的中間聲道的一能量被用作該目標能量,但是可以使用任何其他目標能量或者不必要去執行任何相位旋轉。關於其他目標能量,這些目標能量是確保對於相同的信號,該降混300所產生的該降混信號的一能量波動小於一被動降混的該能量的該些能量,例如構成輸入到圖4的區塊100中的該解碼的核心信號。
圖9說明頻譜的一般表示,該頻譜指示關於該輸入降混表示提供的一低頻帶第一部分,作為具有殘差資料的一降混,並且指示關於該輸入降混表示,通過一降混提供一第二部分,如先前關於圖8a、b所討論的,用權重產生該降混。儘管圖9僅說明六個頻帶,其中三個頻帶用於該第一部分,並且三個頻帶用於該第二部分,並且儘管圖9說明從較低頻帶增加到較高頻帶的某些頻寬,但是該特定數目、特定頻寬以及將頻譜分為該第一部分與第二部分僅僅是範例性的。在實際情況下,將明顯存在更多的頻帶,此外,另外具有該殘差信號的該第一部分將小於頻帶數b的數量的50%。
較佳地,圖4、6及7的時間到頻譜轉換器100、120以及組合器400、420實現為DFT或IDFT區塊,其優選地實現一FFT或IFFT算法。為了處理輸入到區塊100、120中的一連續解碼信號,執行一逐塊處理,其中重疊的區塊被形成、被分析過濾的、被變換到該頻譜域、被處理以及,在組合器400、420中被合成過 濾的,以及被組合,再一次用一50%的重疊。從一個區塊到另一個以一淡入淡出(cross fading),通常通過一重疊相加運算執行在該合成側上的一50%重疊的該組合,其中較佳地,淡入淡出權重已包含在分析/合成窗口中。但是,如果不是這種情況,則在相應組合器400的區塊的輸出執行實際的淡入淡出,例如圖7或圖6的區塊420,以致於通過相加兩個不同區塊的兩個值產生該單聲道輸出信號或該左輸出信號或該右輸出信號的每個時域輸出取樣。對於大於50%的重疊,也可以執行三個之間或對應甚至更多區塊之間的重疊。
可選替地,例如當用一改進的離散餘弦變換來一方面執行時間到頻譜的轉換與另一方面執行頻譜時間的轉換時,也使用一重疊處理。在該頻譜到時間的轉換側,執行一重疊相加處理,以至於再次通過將來自兩個(或更多個)不同IMDCT區塊的對應時域取樣加總來獲得每個輸出時域取樣。
較佳地,如圖4、6與7所說明的,在該頻譜域中完全執行該降混方案的該協調。當從單聲道切換到立體聲或從立體聲切換到單聲道時,不需要任何附加的時間頻譜變換或頻譜時間變換。對於該單聲道輸出模式通過該降混器300或對於該立體聲輸出模式通過該第二升混器200(升混高)必須進行該頻譜域中的資料操作。對於單聲道或立體聲輸出,處理的整個延遲是相同的,這也是一個顯著的優點,因為任何後續處理操作或先前的處理操作都不必知道是否存在一單聲道或一立體聲輸出信號。
較佳的實施例移除[8]中所述的一系統的該解碼的核心信號中的不同頻譜帶中的不同降混方法引起的偽訊與頻譜響度不平衡,而沒有一專用後處理階段將帶來的該額外延遲與明顯更高的複雜性。
在一個層面,實施例在一單聲道信號的一個(或多個)頻譜或時間部分的解碼器處提供一升混與一隨後的降混,其使用一種或多種降混方法進行降混以協調信號的所有頻譜或時間部分。
在一個層面,本發明提供在解碼器側的一立體聲到單聲道降混的一協調。
在一個實施例中,該輸出降混用於一重放裝置,該重放裝置接收包括在輸出表示中的降混並且將輸出表示的此降混饋送到一數位類比轉換器,並且該類比降混信號通過包括在該重放裝置中的一個或多個揚聲器呈現。該重放裝置可以是一單聲道裝置,例如手機、平板電腦、數位時鐘、藍牙揚聲器等。
這裡要提到的是,如前所述的所有替代方案或層面以及由以下申請專利範圍中的獨立請求項限定的所有層面可以單獨地使用,亦即,除了構想的替代方案、目的或獨立請求項外,沒有任何其他替代方案或目的。然而,在其他實施例中,兩個或多個替代方案或層面或獨立請求項可以彼此組合,並且在其他實施例中,所有層面或替代方案及所有獨立請求項可以彼此組合。
儘管已經在設備的上下文中描述一些層面,但是很明顯,這些層面也代表對應方法的描述,其中區塊或裝置對應於方法步驟或方法步驟的特徵。類似地,在方法步驟的上下文中描述的層面也表示對對應設備的對應區塊或項目或特徵的描述。
取決於某些實施要求,本發明的實施例可以在硬體或軟體中實施。可以使用數位儲存媒體執行該實施方法,例如軟碟、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH記憶體,其上儲存電子可讀控制信號,這些信號可以與一可程式化電腦系統協作(或能夠協作),使得執行各自的方法。
根據本發明的一些實施例包括具有電子可讀控制信號的資料載體,該電子可讀控制信號能夠與可程式化電腦系統協作,使得執行在此描述的方法之一。
通常,本發明的實施例可以實現為具有程式碼的電腦程式產品,當電腦程式產品在電腦上運行時,該程式碼是可運作於執行多種方法的一種。程式碼可以例如儲存在機器可讀載體上。
其他實施例包括儲存在機器可讀載體或非暫態儲存媒體上,用於執行在此描述的方法之一的電腦程式。
換句話說,因此,本發明方法的實施例是一種電腦程式,該電腦程式具有當電腦程式在電腦上運行時用於執行在此描述的方法之一的程式碼。
因此,本發明方法的另一實施例是一種資料載體(或數位儲存媒體,或電腦可讀媒體),該資料載體包括記錄在其上用於執行在此描述的方法之一的電腦程式。
因此,本發明方法的另一實施例是代表該電腦程式的資料流或信號序列,該電腦程式用於執行在此描述的方法之一。資料流或信號序列可以例如配置為經由資料通信連接,例如經由網際網路來傳輸。
另一實施例包括處理裝置,例如電腦或可程式化邏輯裝置,配置為或適於執行在此描述的方法之一。
另一實施例包括一種電腦,該電腦上安裝用於執行在此描述的方法之一的電腦程式。
在一些實施例中,可程式化邏輯裝置(例如現場可程式化邏輯閘陣列)可能用於執行在此描述的方法的一些或全部功能。在一些實施例中,現場可程式化邏輯閘陣列可能與微處理器協作以執行在此描述的方法之一。通常,該方法較佳地由任何硬體設備執行。
上面描述的實施例僅用於說明本發明的原理。應當理解,在此描述的設置與細節的修改及變化對於本領域的熟此技藝者將是顯而易見的。因此, 本發明的意圖僅由即將來臨的申請請求項的範圍限制,而不受通過在此的實施例的描述與解釋所呈現的具體細節的限制。
參考文獻
[1] ITU-R BS.775-2, Multichannel Stereophonic Sound System With And Without Accompanying Picture, 07/2006.
[2] F. Baumgarte, C. Faller und P. Kroon, ,,Audio Coder Enhancement using Scalable Binaural Cue Coding with Equalized Mixing,“ in 116th Convention of the AES, Berlin, 2004.
[3] G. Stoll, J. Groh, M. Link, J. Deigmöller, B. Runow, M. Keil, R. Stoll, M. Stoll und C. Stoll, ,,Method for Generating a Downward-Compatible Sound Format“. USA Patent US 2012/0 014 526, 2012.
[4] M. Kim, E. Oh und H. Shim, ,,Stereo audio coding improved by phase parameters,“ in 129th Convention of the AES, San Francisco, 2010.
[5] A. Adami, E. Habets und J. Herre, ,,Down-mixing using coherence suppression,“ in IEEE International Conference on Acoustics, Speech and Signal Processing, Florence, 2014.
[6] ISO/IEC 23008-3:, Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, 2019.
[7] S. Bayer, C. Borß, J. Büthe, S. Disch, B. Edler, G. Fuchs, F. Ghido und M. Multrus, ,,DOWNMIXER AND METHOD FOR DOWNMIXING AT LEAST TWO CHANNELS AND MULTICHANNEL ENCODER AND MULTICHANNEL DECODER“. Patent WO18086946, 17 05 2018.
[8] S. Bayer, M. Dietz, S. Döhla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli und M. Schnell, ,, APPARATUS AND METHOD FOR ESTIMATING AN INTER-CHANNEL TIME DIFFERENCE“. Patent WO17125563, 27 07 2017.
100:第一時間頻譜轉換器
120:第二時間頻譜轉換器
200:升混器
300:降混器
400:組合器

Claims (26)

  1. 一種用於從一輸入降混表示產生一輸出降混表示的設備,其中該輸入降混表示的至少一部份根據一第一降混方案,該第一降混方案依賴於一殘差信號或依賴於一殘差信號與多個參數資訊,該設備包括:一升混器(200),用於使用對應於該第一降混方案的一升混方案以及使用該殘差信號或該殘差信號與該參數資訊將該輸入降混表示的至少該部分進行升混以獲得至少一升混部分;以及一降混器(300),用於根據不同於該第一降混方案的一第二降混方案將該至少一升混部分進行降混,其中該第二降混方案是一主動降混方案或一完全參數降混方案。
  2. 如申請專利範圍第1項之設備,其中只有該輸入降混表示的該部分根據該第一降混方案,以及該輸入降混表示的一第二部分根據一第二降混方案,其中該降混器(300)配置為根據該第二降混方案或根據不同於該第一降混方案與該第二降混方案的一第三降混方案將該升混部分進行降混以獲得一第一降混部分;以及更包括一組合器(400),用於組合該第一降混部分與該輸入降混表示的該第二部分或從該輸入降混表示的該第二部分導出的一降混部分以獲得該輸出降混表示,該輸出降混表示包括該第一部分的一第一輸出表示及該第二部分的一第二輸出表示,其中該第一部分的該第一輸出表示以及該第二部分的該第二輸出表示基於同樣降混方案。
  3. 如申請專利範圍第1項之設備,其中該輸入降混表示的至少該部分是一第一頻帶,其中該降混方案是依賴於該殘差信號(residual signal)的一第一降混方案,以及其中該升混器(200)配置為使用該殘差信號作為該升混方案執行一升混。
  4. 如申請專利範圍第2項之設備,其中該輸入降混表示的該第二部分是一第二頻帶,以及其中該組合器(400)配置為組合該第一降混部分與該輸入降混表示的該第二部分以獲得該輸出降混表示。
  5. 如申請專利範圍第1項之設備,更包括一音頻解碼器(10),用於產生針對該輸入降混表示的至少該部分的一解碼的核心信號,以及針對該輸入降混表示至少的該部分的該殘差信號,該殘差信號係一解碼殘差信號,其中該升混器(200)配置為使用針對該輸入降混表示的至少該部分的該解碼的核心信號,以及針對該輸入降混表示的至少該部分的該殘差信號,以及其中,該降混器(300)配置為接收該至少一升混部分,該至少一升混部分相較於該輸入降混表示包括更多聲道。
  6. 如申請專利範圍第5項之設備,其中該輸入降混表示的一第二部分根據該第二降混方案,其中,該音頻解碼器(10)配置為僅產生該輸入降混表示的該第二部分的一解碼的核心信號及該第一部分的該殘差信號,該殘差信號係針對該輸入降混表示的至少該部分的一解碼殘差信號,以及其中該組合器(400)配置為組合該第一降混部分與該第二部分的該解碼的核心信號。
  7. 如申請專利範圍第1項之設備,更包括:一時間對頻譜轉換器(100),用於將該輸入降混表示的至少該部分的一時域輸入降混表示轉換為一頻譜域;以及一頻譜對時間轉換器,用於將一輸出信號轉換到一時域以獲得該輸出降混表示,其中該時間對頻譜轉換器(100)或該頻譜對時間轉換器配置為執行一重疊與相加處理或執行從一較早時間區塊到一較晚時間區塊的一交叉處理,或更包括一輸出介面(500),用於將該輸出降混表示輸出到一渲染裝置(rendering device),或更包括一渲染裝置,用於將該輸出降混表示渲染為一單聲道重播信號,或其中,該降混器(300)配置為如同該第二降混方案,應用一主動降混方案、一節能降混方案或一降混方案,其中該降混信號的一目標能量與從一第一聲道與一第二聲道導出的一中間聲道的一能量成一預定比例,其中,該第一聲道與該第二聲道的至少一個在被加在一起以形成該輸入降混表示之前被相位旋轉。
  8. 如申請專利範圍第7項的之設備,其中該輸入降混表示的一第二部分根據該第二降混方案,其中該時間對頻譜轉換器(100)配置為將該第二部分的一時域輸入降混表示轉換為該頻譜域,或其中,該預定比例指說明為3dB的一等分或一偏差範圍與該第一聲道及該第二聲道的多個能量的一較高能量相關。
  9. 如申請專利範圍第1項之設備,更包括一輸出介面(500),用於將該輸出降混表示輸出到一渲染裝置,或更包括一渲染裝置,用於將該輸出降混表示渲染為一單聲道重播信號。
  10. 如申請專利範圍第1項之設備,其中該降混器(300)配置為如同該主動降混方案,應用一節能降混方案或一降混方案,其中該降混信號的一目標能量與從一第一聲道與一第二聲道導出的一中間聲道的一能量成一預定比例,其中,該第一聲道與該第二聲道的至少一個在一起相加之前被相位旋轉。
  11. 如申請專利範圍第1項之設備,其中該至少一部分包括該輸入降混表示的該全部頻寬。
  12. 如申請專利範圍第1項之設備,其中該降混器(300)配置為執行該第二降混方案,該第二降混方案包括:計算(800)用於該升混部分的一頻譜帶的一第一聲道的一第一權重與一第二聲道的一第二權重,該頻譜帶包括多條頻譜線,以及將該第一權重應用(820)於該第一聲道的該頻譜帶的多條頻譜線並且將該第二權重應用於該第二聲道的該頻譜帶的該多條頻譜線,以及將該第一加權線與該第二加權線相加以獲得該頻譜帶中的多條降混頻譜線,以及其中該設備配置為將該降混頻譜線轉換(840)到一時域以獲得該輸出降混表示的時域取樣。
  13. 如申請專利範圍第12項之設備,其中該第一權重與該第二權重的計算使用該第一聲道與該第二聲道的能量以及一目標能量按頻帶執行。
  14. 如申請專利範圍第13項之設備,其中該目標能量等於一相位旋轉的中間聲道的一能量,或是從該第一聲道、該第二聲道的該能量導出以及來自該第一聲道與該第二聲道之間的一相關值。
  15. 如申請專利範圍第12項之設備,其中計算一頻帶的該第一權重與該第二權重包括:計算(802)該頻帶中的該第一聲道的一振幅相關的度量;計算(804)該頻帶中的該第二聲道的一振幅相關的度量:計算(806)該頻帶中的該第一聲道與該第二聲道的一線性組合一振幅相關的度量;計算(808)該頻帶中的該第一聲道與該第二聲道之間的一交叉相關度量;以及使用該第一聲道的該振幅相關的度量、該第二聲道的該振幅相關的度量、該線性組合的該振幅相關的度量及該交叉相關度量來計算(810)該第一權重與該第二權重。
  16. 如申請專利範圍第1項之設備,其中該升混器(200)配置為執行該升混方案,該升混方案包括:使用該頻譜帶的一預測參數與該頻譜帶的殘差信號線以及一第一計算規則,計算來自該輸入降混表示的該部分的該頻譜帶的多個頻譜線的該部分的一頻譜帶的多個第一聲道頻譜線,以及使用該頻譜帶的該預測參數與該頻譜帶的殘差信號以及一第二計算規則,計算來自該輸入降混表示的該部分的該頻譜帶的該頻譜線的該部分的該頻譜帶的多個第二聲道頻譜線,其中,該第一計算規則不同於該第二計算規則。
  17. 如申請專利範圍第16項之設備,其中該第一計算規則包括一加法與一減法的一個並且該第二計算規則包括該加法與該減法的另一個。
  18. 一種多聲道解碼器,包括:一輸入介面(100、120),用於至少針對一輸入表示的一第二部分提供該輸入表示與參數資料;以及如申請專利範圍第1項的設備,其中,該多聲道解碼器配置為用該升混器(200),根據該第一升混方案將該部分的該降混表示進行升混以獲得一升混的第一部分,及/或使用對應於該與第二降混方案的一第二升混方案將該第二部分的該降混表示與該參數資料進行升混(220)以獲得一升混的第二部分,以及其中一組合器(400、420)配置為組合該升混的第一部分與該升混的第二部分以獲得一多聲道輸出信號。
  19. 如申請專利範圍第18項之多聲道解碼器,其中該輸入介面(100,210)包括:一第一時間頻譜轉換器(100),用於產生該輸入降混表示的至少該部分的一第一頻譜表示以及該輸入降混表示的一第二部分的一第二頻譜表示,該第二部分包括相較於該第一頻譜表示的至少該部分具有多個較高頻率的多個頻譜數值;一第二時間頻譜轉換器(120),用於產生針對該輸入降混表示的至少該部分的該殘差信號的一頻譜表示,其中該升混器(200)配置為使用該殘差信號的該頻譜表示將該第一頻譜表示進行升混以獲得該頻譜域中的該升混部分, 其中該降混器(300)配置為將該升混部分進行降混以獲得該頻譜域中的該第一降混部分,以及其中該組合器(400)包括一頻譜時間轉換器,用於組合該第一降混部分與該第二部分的該頻譜表示,以及用於轉換為該時域以獲得該輸出降混表示。
  20. 如申請專利範圍第18項之多聲道解碼器,更包括:一第二升混器(220)用於將該第二部分進行升混以獲得一第二升混部分,其中,在一多聲道輸出模式,該組合器(400)配置為組合該升混部分的一第一聲道以及該第二升混部分的該第一聲道,以及轉換成一時域以獲得一多聲道輸出的一第一聲道,其中該多聲道解碼器更包括一第二組合器(420),配置為在該立體聲輸出模式組合該升混部分的一第二聲道及該第二升混部分的一第二聲道,以及轉換為該時域以獲得該多聲道輸出的一第二聲道。
  21. 如申請專利範圍第20項之多聲道解碼器,更包括:一開關(710),連接在該第一時間頻譜轉換器(100)與該第二升混器(220)之間,以及一控制器(700),其中該控制器(700)配置為在一單聲道輸出模式控制該開關(710)將該第一時間頻譜轉換器(100)的一輸出連接到該組合器(400)或繞過該第二升混器(220)並且將該升混器(200)的一輸出連接到該降混器(300)的一輸入,或在一多聲道輸出模式,控制該開關(710)將該第一時間頻譜轉換器(100)的一輸出連接到該第二升混器(220)的一輸入。
  22. 如申請專利範圍第20項之多聲道解碼器,更包括一第二開關(720)連接在該升混器(200)與該降混器(300)之間;以及 一控制器(700),其中該控制器(700)配置為在該單聲道輸出模式,控制該第二開關(720)將該升混器(200)的一輸出連接到該降混器(300)的一輸入,以及在該多聲道輸出模式,控制該第二開關(720)將該升混器(200)的一輸出連接到該第二組合器(420)的一輸出,或繞過該降混器(300)。
  23. 一種從一輸入降混表示產生一輸出降混表示的方法,其中該輸入降混表示的至少一部分根據一第一降混方案,該第一降混方案依賴於一殘差信號或依賴於一殘差信號與多個參數資訊,該方法包括:使用對應於該第一降混方案的一升混方案以及使用該殘差信號或該殘差信號與該參數資訊將至少該部分的該輸入降混表示進行升混以獲得至少一升混部分;以及根據不同於該第一降混方案的一第二降混方案將該至少一升混部分進行降混,其中該第二降混方案是一主動降混方案或一完全參數降混方案。
  24. 如申請專利範圍第23項之方法,其中該輸入降混表示的一第二部分根據一第二降混方案,其中該降混包括根據該第二降混方案或根據不同於該第一降混方案與該第二降混方案的一第三降混方案將該至少一升混部分進行降混以獲得一第一降混部分;以及其中該方法更包括組合該第一降混部分與該輸入降混表示的該第二部分或從該輸入降混表示的該第二部分導出的一降混部分以獲得該輸出降混表示,其中該輸入降混表示的該第一部分的該輸出降混表示以及該輸入降混表示的該第二部分的該輸出表示是基於同樣降混方案。
  25. 一種多聲道解碼的方法,包括: 至少針對該輸入表示的一第二部分提供一輸入表示與參數資料;如申請專利範圍第24項的該方法,其中,該多聲道解碼的方法包括該根據該第一升混方案將該第一部分的該降混表示進行升混以獲得一升混第一部分的步驟,及/或使用對應於該第二降混方案的一第二升混方案將該第二部分的該降混表示與該參數資料進行升混以獲得一升混第二部分的步驟,以及其中,該組合步驟包括組合該升混第一部分與該升混第二部分以獲得一多聲道輸出信號。
  26. 一種電腦程式,用於在一電腦或一處理器上運行時執行申請專利範圍第23或24或25的該方法。
TW109113544A 2019-04-23 2020-04-22 用於產生輸出降混表示的設備、方法或電腦程式 TWI797445B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP19170621.7 2019-04-23
EP19170621 2019-04-23
PCT/EP2019/070376 WO2020216459A1 (en) 2019-04-23 2019-07-29 Apparatus, method or computer program for generating an output downmix representation
WOPCT/EP2019/070376 2019-07-29

Publications (2)

Publication Number Publication Date
TW202103144A TW202103144A (zh) 2021-01-16
TWI797445B true TWI797445B (zh) 2023-04-01

Family

ID=66439870

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109113544A TWI797445B (zh) 2019-04-23 2020-04-22 用於產生輸出降混表示的設備、方法或電腦程式

Country Status (13)

Country Link
US (1) US20220036911A1 (zh)
EP (1) EP3959899A1 (zh)
JP (2) JP7348304B2 (zh)
KR (1) KR20220017400A (zh)
CN (1) CN113853805A (zh)
AU (1) AU2020262159B2 (zh)
BR (1) BR112021021274A2 (zh)
CA (1) CA3137446A1 (zh)
MX (1) MX2021012883A (zh)
SG (1) SG11202111413TA (zh)
TW (1) TWI797445B (zh)
WO (2) WO2020216459A1 (zh)
ZA (1) ZA202109418B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016050854A1 (en) * 2014-10-02 2016-04-07 Dolby International Ab Decoding method and decoder for dialog enhancement
TWI560706B (en) * 2009-04-28 2016-12-01 Fraunhofer Ges Forschung Apparatus for providing one or more adjusted parameters for a provision of an upmix signal representation on the basis of a downmix signal representation, audio signal decoder, audio signal transcoder, audio signal encoder, audio bitstream, method and co
WO2017125562A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses and methods for encoding or decoding a multi-channel audio signal using frame control synchronization
US20180033441A1 (en) * 2009-09-29 2018-02-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value
US20180124541A1 (en) * 2013-07-22 2018-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Renderer controlled spatial upmix
TWI634547B (zh) * 2013-09-12 2018-09-01 瑞典商杜比國際公司 在包含至少四音訊聲道的多聲道音訊系統中之解碼方法、解碼裝置、編碼方法以及編碼裝置以及包含電腦可讀取的媒體之電腦程式產品

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1914722B1 (en) * 2004-03-01 2009-04-29 Dolby Laboratories Licensing Corporation Multichannel audio decoding
KR100923478B1 (ko) * 2004-03-12 2009-10-27 노키아 코포레이션 부호화된 다중채널 오디오 신호에 기반하여 모노 오디오신호를 합성하는 방법 및 장치
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
TWI475896B (zh) * 2008-09-25 2015-03-01 Dolby Lab Licensing Corp 單音相容性及揚聲器相容性之立體聲濾波器
EP2345027B1 (en) * 2008-10-10 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Energy-conserving multi-channel audio coding and decoding
DE102008056704B4 (de) 2008-11-11 2010-11-04 Institut für Rundfunktechnik GmbH Verfahren zum Erzeugen eines abwärtskompatiblen Tonformates
WO2010097748A1 (en) * 2009-02-27 2010-09-02 Koninklijke Philips Electronics N.V. Parametric stereo encoding and decoding
PL2489037T3 (pl) * 2009-10-16 2022-03-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie, sposób i program komputerowy do dostarczania regulowanych parametrów
CN104380376B (zh) * 2012-06-14 2017-03-15 杜比国际公司 解码系统、重构方法和设备、编码系统、方法和设备及音频发布系统
EP3067886A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
CA3045847C (en) 2016-11-08 2021-06-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder
US10573326B2 (en) * 2017-04-05 2020-02-25 Qualcomm Incorporated Inter-channel bandwidth extension

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI560706B (en) * 2009-04-28 2016-12-01 Fraunhofer Ges Forschung Apparatus for providing one or more adjusted parameters for a provision of an upmix signal representation on the basis of a downmix signal representation, audio signal decoder, audio signal transcoder, audio signal encoder, audio bitstream, method and co
US20180033441A1 (en) * 2009-09-29 2018-02-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value
US20180124541A1 (en) * 2013-07-22 2018-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Renderer controlled spatial upmix
TWI634547B (zh) * 2013-09-12 2018-09-01 瑞典商杜比國際公司 在包含至少四音訊聲道的多聲道音訊系統中之解碼方法、解碼裝置、編碼方法以及編碼裝置以及包含電腦可讀取的媒體之電腦程式產品
WO2016050854A1 (en) * 2014-10-02 2016-04-07 Dolby International Ab Decoding method and decoder for dialog enhancement
WO2017125562A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses and methods for encoding or decoding a multi-channel audio signal using frame control synchronization

Also Published As

Publication number Publication date
AU2020262159A1 (en) 2021-11-11
MX2021012883A (es) 2021-11-17
SG11202111413TA (en) 2021-11-29
ZA202109418B (en) 2023-06-28
BR112021021274A2 (pt) 2021-12-21
TW202103144A (zh) 2021-01-16
WO2020216797A1 (en) 2020-10-29
KR20220017400A (ko) 2022-02-11
US20220036911A1 (en) 2022-02-03
EP3959899A1 (en) 2022-03-02
JP7348304B2 (ja) 2023-09-20
WO2020216459A1 (en) 2020-10-29
JP2022529731A (ja) 2022-06-23
CN113853805A (zh) 2021-12-28
JP2023164971A (ja) 2023-11-14
AU2020262159B2 (en) 2023-03-16
CA3137446A1 (en) 2020-10-29

Similar Documents

Publication Publication Date Title
US10861468B2 (en) Apparatus and method for encoding or decoding a multi-channel signal using a broadband alignment parameter and a plurality of narrowband alignment parameters
JP5189979B2 (ja) 聴覚事象の関数としての空間的オーディオコーディングパラメータの制御
JP5437638B2 (ja) マルチチャンネル復号化方法
JP5081838B2 (ja) オーディオ符号化及び復号
US8577686B2 (en) Method and apparatus for decoding an audio signal
RU2376726C2 (ru) Устройство и способ для формирования закодированного стереосигнала аудиочасти или потока данных аудио
KR101662681B1 (ko) 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법
TW200828269A (en) Enhanced coding and parameter representation of multichannel downmixed object coding
RU2696952C2 (ru) Аудиокодировщик и декодер
TWI797445B (zh) 用於產生輸出降混表示的設備、方法或電腦程式
RU2791872C1 (ru) Устройство, способ или компьютерная программа для формирования выходного представления понижающего микширования
AU2020233210B2 (en) Downmixer and method of downmixing