TW202230334A - 使用參數轉換處理編碼音頻場景的裝置、方法或電腦程式 - Google Patents

使用參數轉換處理編碼音頻場景的裝置、方法或電腦程式 Download PDF

Info

Publication number
TW202230334A
TW202230334A TW110137462A TW110137462A TW202230334A TW 202230334 A TW202230334 A TW 202230334A TW 110137462 A TW110137462 A TW 110137462A TW 110137462 A TW110137462 A TW 110137462A TW 202230334 A TW202230334 A TW 202230334A
Authority
TW
Taiwan
Prior art keywords
parameters
parameter
transmission signal
signal
representation
Prior art date
Application number
TW110137462A
Other languages
English (en)
Other versions
TWI803998B (zh
Inventor
法蘭茲 胡德胡博
貴勞美 夫杰斯
馬庫斯 木翠斯
艾琳尼 弗托波羅
史丹芬 拜耶
詹恩 布特
史丹芬 多伊拉
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW202230334A publication Critical patent/TW202230334A/zh
Application granted granted Critical
Publication of TWI803998B publication Critical patent/TWI803998B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

一種用於處理表示與一虛擬聽者位置相關的一聲場的一編碼音頻場景的裝置,編碼音頻場景包括一傳輸信號上的一資訊和與虛擬聽者位置相關的一第一組參數,該裝置包括:一參數轉換器,用於將第一組參數轉換成與包括兩個以上之聲道的一聲道表示有關的一第二組參數,藉以在該兩個以上之聲道的預定義空間位置處進行再現;以及一輸出介面,用於使用第二組參數和傳輸信號上的資訊生成一處理後音頻場景。

Description

使用參數轉換處理編碼音頻場景的裝置、方法或電腦程式
本發明關於音頻處理,特別關於為了生成用於渲染、傳輸和儲存的處理後音頻場景的目的之編碼音頻場景的處理。
傳統上,提供如電話或電話會議等用戶通訊方式的音頻應用程式主要限於單聲道錄音和回放。然而,近年來,新的沉浸式VR/AR技術的出現也引起了人們對通訊場景之空間渲染的興趣。為了滿足這種興趣,目前正在開發一種稱為沈浸式語音和音頻服務(IVAS)的新3GPP 音頻標準。基於最近發布的增強型語音服務(EVS)標準,IVAS 提供了能夠呈現沉浸式音頻場景的多聲道和VR擴展,例如 空間電話會議,同時仍然滿足流暢音頻通訊的低延遲要求。 這種在不犧牲播放品質的情況下將編解碼器的總體延遲保持在最低水平的持續需求為以下描述的工作提供了動機。
利用使用參數化音頻編碼(如定向音頻編碼(DirAC)[1]、[2])的系統,以低位元率(例如32 kbps及以下)來編碼基於場景的音頻(SBA)材料,如第三階環繞聲內容,僅允許直接編碼單個(傳輸)聲道,同時通過濾波器組域中的解碼器的側參數來恢復空間資訊。在解碼器上的揚聲器設置只能進行立體聲播放的情況下,則不需要完全恢復3D音頻場景。對於兩個或更多傳輸聲道的更高位元率編碼是可能的,因此在這些情況下,可以直接擷取和播放場景的立體聲再現,而無需任何參數空間昇混(完全跳過空間渲染器)、以及伴隨而來的額外延遲(例如,由於額外的濾波器組分析/合成,如複值低延遲濾波器組(CLDFB))。然而,在只有一個傳輸聲道的低速率的情況下,這是不可能的。因此,在DirAC的情況下,到目前為止,立體聲輸出需要帶有後續L/R轉換的第一階環繞聲(FOA, First Order Ambisonics)昇混。這是有問題的,因為這種情況現在比系統中其他可能的立體聲輸出配置具有更高的整體延遲,並且需要對齊所有立體聲輸出配置。
具有高延遲的 DirAC 立體聲渲染的示例
圖12顯示一種用於具有高延遲的DirAC立體聲昇混的習知解碼器處理的一示例的方塊圖。
例如,在未描繪的編碼器處,單個降混聲道藉由DirAC編碼器處理中的空間降混獲得,隨後使用如增強型語音服務(EVS)[3]的核心編碼器進行編碼。
在解碼器處,例如,使用如圖12所示的習知DirAC昇混程序,首先使用單聲道或IVAS單聲道解碼器1210將一個可用的傳輸聲道從位元流1212中解碼,以產生一時域信號,其可以看作是原始音頻場景的一解碼單聲道信號1214。
解碼單聲道信號1214被輸入到CLDFB 1220,用於分析引起延遲的信號1214(將信號轉換到頻域),明顯延遲的輸出信號1222進入DirAC渲染器1230,DirAC渲染器1230處理延遲的輸出信號1222和傳輸的側資訊,即DirAC側參數1213,用於將信號1222變換成FOA表示,即具有從DirAC側參數1213恢復的空間資訊的原始場景的FOA昇混1232。
傳輸的參數1213可以包括方向角(例如水平面的一個方位角值和垂直面的一個仰角值),以及每個頻帶的一個擴散值,以在感知上描述整個3D音頻場景。由於DirAC立體聲昇混的按頻帶處理,每幀多次發送參數1213,即每個頻帶一組。此外,每組包括用於整個幀(例如長度為20毫秒)內的各個子幀的多個方向參數,以提高時間解析度。
DirAC渲染器1230的結果可以例如是FOA格式的全3D場景,即FOA昇混1232,現在可以使用矩陣轉換1240將其轉變為適合依據立體聲揚聲器設置進行播放的L/R信號1242。換言之,L/R信號1242可以輸入到立體聲揚聲器或可以輸入到CLDFB合成1250,其使用預定義的聲道權重,CLDFB合成1250將頻域中的兩個輸出聲道(L/R信號1242)的輸入轉換到時域,藉以產生準備用於立體聲播放的一輸出信號1252。
或者,可以使用相同的DirAC立體聲昇混直接生成立體聲輸出配置的渲染,從而避免生成FOA信號的中間步驟,這將可降低框架中潛在複雜度化的演算法複雜性。然而,這兩種方法都需要在核心編碼後使用額外的濾波器組,這會導致5 ms的額外延遲。DirAC渲染的另一個示例可以在[2]中找到。
DirAC立體聲昇混的方法在延遲和複雜性方面都不太理想。由於使用CLDFB濾波器組,其輸出明顯延遲(在DirAC示例中額外延遲5 ms),因此具有與完整SBA昇混相同的總體延遲(與立體聲輸出配置的延遲相比,其不需要額外的渲染步驟)。考慮到系統複雜性,進行完整SBA昇混來生成立體聲信號並不理想,這也是一個合理的假設。
本發明的目的在於提供一種用於處理編碼音頻場景的改良概念。
上述目的通過請求項1的用於處理編碼音頻場景的裝置、請求項32的處理編碼音頻場景的方法、或請求項33的電腦程式來實現。
本發明基於以下發現:根據與參數轉換相關的第一實施態樣,揭露一種用於處理編碼音頻場景的改良概念,其通過將與虛擬聽者位置相關的編碼音頻場景中的給定參數轉換為與給定輸出格式的聲道表示相關的轉換參數,該過程在基於聲道的環境中處理和最終渲染處理後音頻場景方面,提供了高度的靈活性。
根據本發明的第一實施態樣的一實施例包括一種用於處理表示與虛擬聽者位置相關的聲場的編碼音頻場景的裝置,其中編碼音頻場景包括傳輸信號上的資訊(例如核心編碼音頻信號),以及與虛擬聽者位置相關的第一組參數。該裝置包括一參數轉換器,用於將第一組參數(例如B格式或一階環繞聲(FOA)格式的定向音頻編碼(DirAC)側參數)轉換成第二組參數(例如立體聲參數,其有關於包括用於在兩個以上之聲道的預定義空間位置處再現的兩個以上之聲道的一聲道表示),以及用於使用第二組參數和傳輸信號上的資訊生成處理後音頻場景的一輸出介面。
在一實施例中,將一短時傅立葉轉換(STFT)濾波器組用於昇混,而飛利用一定向音頻編碼(DirAC)渲染器,因此,可以將一個降混聲道(包含在位元流中)昇混為一立體聲輸出,而沒有任何額外的整體延遲。通過在解碼器處使用具有非常短重疊的窗口進行分析,昇混允許保持在通訊編解碼器或即將到來的沉浸式語音和音頻服務(IVAS)所需的整體延遲內,例如,該值可以是32毫秒。在該些實施例中,可以避免任何以頻寬擴展為目的的後處理,因為這樣的處理可以與參數轉換或參數映射並行進行。
通過將低頻帶(LB)信號的聽者特定參數映射到一組低頻帶特定聲道立體聲參數,可以實現DFT域內的低頻帶的低延遲昇混。對於高頻帶,單一組立體聲參數允許在時域中在高頻帶執行昇混,較佳是與低頻帶的頻譜分析、頻譜昇混和頻譜合成並行。
示例性地,參數轉換器被配置為使用單一側增益參數進行平移,以及與立體聲寬度密切相關並且還與定向音頻編碼(DirAC)中使用的擴散參數密切相關的殘差預測參數。
在一實施例中,這種“DFT-立體聲”方法允許在處理編碼音頻場景(基於場景的音頻)以獲得立體聲輸出的情況,將IVAS編解碼器保持在與EVS相同的總延遲內,特別是32毫秒。藉由通過DFT-立體聲來實現直接處理而非使用空間DirAC渲染,以便實現參數立體聲昇混的較低複雜性。
本發明基於以下發現:根據與頻寬擴展有關的第二實施態樣,其揭露用於處理編碼音頻場景的改良概念。
根據本發明的第二實施態樣的一實施例包括一種用於處理表示聲場的音頻場景的裝置,其中音頻場景包括傳輸信號上的資訊和一組參數,該裝置更包括一輸出介面,用於使用該組參數和該傳輸信號上的資訊來生成處理後音頻場景,其中該輸出介面被配置為使用該組參數和傳輸信號生成兩個以上之聲道的原始表示;一多聲道增強器,用於使用傳輸信號生成兩個以上之聲道的增強表示;以及一信號組合器,用於組合兩個以上之聲道的原始表示和兩個以上之聲道的增強表示以獲得處理後音頻場景。
一方面生成兩個以上之聲道的原始表示、另一方面單獨生成兩個以上之聲道的增強表示,允許在選擇用於原始表示和增強表示的演算法方面具有很大的靈活性。對於一個以上之輸出聲道中的每一個,最終組合已經發生,即在多聲道輸出域中而不是在較低聲道輸入或編碼場景域中。因此,在組合之後,兩個以上之聲道被合成並且可以用於進一步的程序,例如渲染、傳輸或儲存。
在一實施例中,核心處理的一部分,例如用於增強表示的代數碼激式線性預測(Algebraic Code-Excited Linear Prediction, ACELP)語音編碼器的頻寬擴展(BWE),可以與用於原始表示的DFT-立體聲處理並行執行,因此,兩種演算法產生的任何延遲不會累積,而只有一種演算法產生的給定延遲才是最終延遲。在一實施例中,只有傳輸信號(例如低頻帶(LB)信號(聲道)),被輸入到輸出介面(例如DFT-立體聲處理),而高頻帶(HB)在時域上單獨進行昇混,例如使用多聲道增強器進行,以便能夠在32毫秒的目標時間窗口內處理立體聲解碼。通過使用寬頻帶平移(例如基於映射的側增益),例如從參數轉換器獲得整個高頻帶的直接時域昇混,而沒有任何明顯延遲。
在一實施例中,DFT-立體聲的延遲減少可能不完全是由於兩個轉換的重疊的差異所造成的,例如CLDFB導致的5 ms的轉換延遲、和STFT導致的3.125 ms的轉換延遲。相反地,DFT-立體聲利用了這樣一個事實,即EVS編碼器目標延遲的32 ms,其中最後3.25 ms基本上來自ACELP BWE,其他所有延遲(達到EVS編碼器目標延遲之前的剩餘毫秒數)只是人為延遲,以在最後再次實現兩個變換信號(HB立體聲昇混信號和HB填充信號與LB立體聲核心信號)的對齊。因此,為了避免DFT-立體聲中的額外延遲,僅對編碼器的所有其他分量進行轉換,例如,在非常短的DFT窗口重疊內,而ACELP BWE則例如使用多聲道增強器混合在一起,其在時域中幾乎無延遲。
本發明基於以下發現:根據與參數平滑相關的第三實施態樣揭露一種通過根據平滑規則執行關於時間的參數平滑來獲得用於處理編碼音頻場景的改良概念。因此,通過將平滑參數而不是原始參數應用於傳輸聲道而獲得的處理音頻場景將具有改良的音頻品質,特別是當平滑參數是昇混參數時,但對於任何其他參數,如封包參數、或LPC參數、或噪音參數、或縮放因子參數,使用由平滑規則獲得的平滑參數將導致改良的獲得之處理後音頻場景的主觀音頻品質。
根據本發明第三實施態樣的實施例包括一種用於處理表示聲場的音頻場景的裝置,該音頻場景包括一傳輸信號上的資訊和一第一組參數,該裝置還包括一參數處理器,用於處理第一組參數以獲得一第二組參數,其中參數處理器被配置為使用輸入時間幀的第一組參數的至少一個參數為每個輸出時間幀計算至少一個原始參數,根據平滑規則計算每個原始參數的因子等平滑資訊,並將相應的平滑資訊應用到相應的原始參數上,以導出輸出時間幀的第二組參數的參數;以及一輸出介面,用於使用第二組參數和傳輸信號上的資訊生成處理後音頻場景。
通過隨時間平滑原始參數,避免了從一幀到下一幀的增益或參數的強烈波動。平滑因子決定平滑的強度,其在較佳實施例中由參數處理器自適應地計算,在實施例中,該參數處理器還具有參數轉換器的功能,用於將聽者位置相關參數轉換為聲道相關參數。自適應計算允許在音頻場景突然變化時獲得更快的響應,自適應平滑因子是根據當前頻帶中的能量變化按頻帶計算的,在一個幀中包括的所有子幀中計算頻帶能量。此外,能量隨時間的變化具有兩個平均值,即一短期平均值和一長期平均值,因此極端情況對平滑沒有影響,而能量的較緩慢增加不會強烈地降低平滑,因此,根據平均值的商為當前幀中的每個DTF-立體聲子幀計算出平滑因子。
需注意者,以上所述和下面討論的所有替代方案或實施態樣都可以單獨使用,即不與任何其他實施態樣組合。然而,在其他實施例中,兩個或更多個實施態樣彼此組合,並且在其他實施例中,所有實施態樣彼此組合以獲得總體延遲、可實現的音頻品質、和所需實施付出之間的較佳平衡。
圖1顯示一種用於處理編碼音頻場景130的裝置,例如,表示與虛擬聽者位置相關的聲場。編碼音頻場景130包括傳輸信號122上的資訊(例如為一位元流),以及一第一組參數112(例如也包括在該位元流中的與虛擬聽者位置相關的多個DirAC參數)。第一組參數112被輸入到一參數轉換器110或一參數處理器,其將第一組參數112轉換成一第二組參數114,這些參數與包括至少兩個以上之聲道的一聲道表示有關。該裝置能夠支援不同的音頻格式。音頻信號可以是由麥克風收集的聲音信號,也可以是應該傳輸到揚聲器的電信號。可支援的音頻格式可以是單聲道信號、低頻段信號、高頻段信號、多聲道信號、一階和高階環繞聲分量以及音頻對象,音頻場景也可以通過組合不同的輸入格式來描述。
參數轉換器110被配置為將第二組參數114計算為參數立體聲或多聲道參數,例如,被輸入到輸出介面120的兩個以上之聲道,輸出介面120被配置為生成處理後音頻場景124,其係通過將傳輸信號122或傳輸信號上的資訊與第二組參數114組合以獲得轉碼音頻場景,以作為處理後音頻場景124。另一實施例包括使用第二組參數114將傳輸信號122昇混為一昇混信號,其包括兩個以上之聲道,換言之,參數轉換器110將例如用於DirAC渲染的第一組參數112映射到第二組參數114。第二組參數可以包括用於平移的側增益參數,以及殘差預測參數,其係當應用於昇混時,會導致音頻場景的空間圖像得到改善。舉例而言,第一組參數112的參數可以包括一到達方向參數、一擴散參數、與以虛擬聽者位置為原點的球體相關的一方向資訊參數、以及一距離參數其中之至少一;舉例而言,第二組參數114的參數可以包括一側增益參數、一殘差預測增益參數、一聲道間等級差參數、一聲道間時間差參數、一聲道間相位差參數、以及聲道間相關性參數其中之至少一。
圖2a顯示根據一實施例的第一組參數112和第二組參數114的示意圖,特別地,其描繪了兩組參數(第一組和第二組)的參數解析度,圖2a的每個橫坐標代表時間,圖2a的每個縱坐標代表頻率。如圖2a所示,與第一組參數112相關的輸入時間幀210包括兩個或更多個輸入時間子幀212和213,在其正下方顯示與第二組參數114相關的輸出時間幀220,其顯示與上圖相關的對應圖。這表明輸出時間幀220與輸入時間幀210相比較小,而輸出時間幀220與輸入時間子幀212或213相比更長。需注意者,輸入時間子幀212或213和輸出時間幀220可以包括多個頻率作為頻帶,輸入頻帶230可以包括與輸出頻帶240相同的頻率。根據實施例,輸入頻帶230和輸出頻帶240的頻帶可以彼此不連接或彼此不相關。
應當注意,圖4中描述的側增益和殘餘增益通常是針對幀計算的,從而對於每個輸入幀210,計算單個側增益和單個殘餘增益。然而,在其他實施例中,不僅針對每一幀計算單個側增益和單個殘餘增益,而且還針對輸入時間幀210計算一組側增益和一組殘餘增益,其中每個側增益和每個殘餘增益與例如一頻帶的某個輸入時間子幀212或213有關,因此,在實施例中,參數轉換器110針對第一組參數112和第二組參數114的每一幀計算一組側增益和一組殘餘增益,其中針對一輸入時間幀210的側增益和殘餘增益的數量通常等於輸入頻帶230的數量。
圖2b顯示一種用於計算(250)第二組參數114的一原始參數252的參數轉換器110的實施例,參數轉換器110以一種時間隨後的方式,為兩個以上之輸入時間子幀212和213中的每一個計算原始參數252,例如,計算(250)針對每個輸入頻帶230和時刻(輸入時間子幀212、213)推導出方位角θ的主要到達方向(DOA)、仰角φ的主要到達方向、和擴散參數ψ。
對於如X、Y和Z等方向分量,可以使用以下方程式通過全向分量w(b,n)和DirAC參數導出在中心位置處的一階球諧函數:
Figure 02_image001
Figure 02_image003
Figure 02_image005
Figure 02_image007
W聲道代表信號的非定向單聲道分量,其對應於全向麥克風的輸出,X、Y和Z聲道是三個維度的方向分量,從這四個FOA聲道,能夠使用參數轉換器110對包括W聲道和Y聲道進行解碼,來獲得立體聲信號(立體聲版本、立體聲輸出),這導致兩個心形指向方位角(+90度和–90度)。由於這個事實,下面的方程式顯示了左右立體聲信號的關係,其中通過將Y聲道添加到W聲道以表示左聲道L,並通過從W聲道中減去Y聲道來表示右聲道R。
Figure 02_image009
換句話說,該解碼對應於指向兩個方向的一階波束成形,其可以使用以下方程式表示:
Figure 02_image011
因此,在立體聲輸出(左聲道和右聲道)和第一組參數112(即DirAC參數)之間存在直接聯繫。
但是,另一方面,第二組參數114(即DFT參數)依賴於基於中間信號M和側信號S的左聲道L和右聲道R的模型,其可以使用以下方程式表示:
Figure 02_image013
在此,M是作為單聲道信號(聲道)傳輸的,在基於場景的音頻(SBA)模式的情況下對應於全向聲道W。此外,在DFT中,立體聲S是使用側增益參數從中間信號M中預測的,這將在下面解釋。
圖4顯示參數轉換器110的一實施例,其係用於例如使用計算過程450來生成側增益參數455和殘差預測參數456,參數轉換器110較佳地進行計算250和450,以便例如利用以下方程式計算出原始參數252和輸出頻帶241的側增益參數455:
Figure 02_image015
根據上述方程式,b是輸出頻帶,sidegain是側增益參數455,azimuth是到達方向參數的方位角分量,且 elevation是到達方向參數的仰角分量。如圖4所示,第一組參數112包括到達方向(DOA)參數456,用於如前所述的輸入頻帶231,並且第二組參數114包括每個輸入頻帶230的側增益參數455。然而,如果第一組參數112另外包括輸入頻帶231的擴散參數ψ(453),則參數轉換器110被配置為使用以下方程式計算(250)輸出頻帶241的側增益參數455:
Figure 02_image017
根據上述方程式,diff(b)是輸入頻帶b(230)的擴散參數ψ(453),需注意者,第一組參數112的方向參數456可以包括不同的數值範圍,例如,方位角參數451是[0;360],仰角參數452是[0;180],且所得側增益參數455是[-1;1]。如圖2c所示,參數轉換器110使用組合器260組合至少兩個原始參數252,從而導出與輸出時間幀220相關的第二組參數114的參數。
根據實施例,第二組參數114還包括用於數個輸出頻帶240中的一輸出頻帶241的殘差預測參數456,如圖4所示。參數轉換器110可以使用作為輸出頻帶241的殘差預測參數456,並來自輸入頻帶231的擴散參數ψ(453),如殘差選擇器410所示。如果輸入頻帶231和輸出頻帶241彼此相等,則參數轉換器110使用來自輸入頻帶231的擴散參數ψ(453)。從輸入頻帶231的擴散參數ψ(453)導出輸出頻帶241的擴散參數ψ(453),並且擴散參數ψ(453)用於輸出頻帶241、而殘差預測參數456用於輸出頻帶241,接著參數轉換器110可以使用來自輸入頻帶231的擴散參數ψ(453)。
在DFT立體聲處理中,使用殘差選擇器410的預測殘差被假定且預期是不相關的,並且通過其能量和去相關左聲道L和右聲道R的殘差信號進行建模。以中間信號M為單聲道信號(聲道)的側信號S可表示為:
Figure 02_image019
其能量在DFT立體聲處理中使用殘差預測增益進行建模,其使用以下方程式:
Figure 02_image021
由於殘餘增益代表立體聲信號的聲道間不相關分量和空間寬度,因此其直接與DirAC建模的擴散部分相關聯。故,殘餘能量可以重寫為DirAC擴散參數的函數如下:
Figure 02_image023
圖3顯示根據一實施例的一種用於執行原始參數252的加權組合310的參數轉換器110。至少兩個原始參數252被輸入到加權組合310,其中加權組合310的加權因子324是基於對應輸入時間子幀212中傳輸信號122的幅度相關度量320導出的。此外,參數轉換器110被配置為使用相應輸入時間子幀212或213中的傳輸信號122的能量或功率值作為幅度相關度量320。幅度相關度量320例如測量相應輸入時間子幀212中的傳輸信號122的能量或功率,因此當對應輸入時間子幀212中的傳輸信號122的能量或功率較高時,該輸入子幀212的加權因子324較大,而當對應輸入時間子幀212中的傳輸信號122的能量或功率較低時,該輸入子幀212的加權因子324較小。
如前所述,方向參數、方位角參數和仰角參數都有相應的數值範圍,然而,第一組參數112的方向參數通常比第二組參數114具有更高的時間解析度,這意味著必須使用兩個或更多個方位角和仰角值來計算一側增益值。根據一實施例,計算基於與能量相關的權重,其可以作為幅度相關度量320的輸出獲得,例如,對於所有K個輸入時間子幀212和213,子幀的能量nrg使用下式計算:
Figure 02_image025
其中,x是時域輸入信號,N是每個子幀中的樣本數,i是樣本索引。此外,接著可以對於每個輸出時間幀l(220)之權重324進行計算,以求得在每個輸出時間幀l內的每個輸入時間子幀k(212、213)的貢獻如下:
Figure 02_image027
然後,使用以下方程式最終計算側增益參數455:
Figure 02_image029
由於參數之間的相似性,每個頻帶的擴散參數453被直接映射到同一頻帶中所有子幀的殘差預測參數456,此相似度可以用以下方程式表示:
Figure 02_image031
圖5a顯示一種用於根據平滑規則514為每個原始參數252計算平滑因子512的參數轉換器110或參數處理器的實施例。此外,參數轉換器110被配置為應用平滑因子512(對應一個原始參數的一平滑因子)到原始參數252(對應於該平滑因子的該一個原始參數),以導出輸出時間幀220的第二組參數114的參數,即輸出時間幀的參數。
圖5b顯示一種參數轉換器110或參數處理器的實施例,其係用於使用一壓縮函數540來計算一頻帶的一平滑因子522。對於不同的頻帶可以使用不同的壓縮函數540,使得壓縮函數540對於較低頻帶的壓縮強度比對於較高頻帶的壓縮強度更強。參數轉換器110更被配置為使用最大界限選擇550來計算平滑因子512、522。換言之,參數轉換器110可以通過針對不同頻帶使用不同的最大界限來獲得平滑因子512、522,使得較低頻帶的最大界限高於較高頻帶的最大界限。
壓縮函數540和最大界限選擇550兩者都被輸入到計算520以獲得用於頻帶的平滑因子522。例如,參數轉換器110使用(不限於)兩個計算510和520來計算平滑因子512和522,使得參數轉換器110被配置為僅使用一個計算方塊來計算平滑因子512、522,該計算方塊可以輸出平滑因子512和522。換言之,平滑因子是從當前頻帶中的能量變化中,逐頻帶計算(對於每個原始參數252),例如,通過使用參數平滑處理,側增益參數455和殘差預測參數456隨著時間被平滑以避免增益的強烈波動。由於這在大多數時間需要相對強的平滑但是每當音頻場景130突然改變時需要更快的響應,因此自適應地計算用以決定平滑強度的平滑因子512、522。
因此,使用以下方程式在所有子幀k中計算逐頻寬之能量nrg:
Figure 02_image033
其中,x是DFT變換信號(實數和虛數)的頻率柱,i是當前頻帶b中所有頻率柱的頻率柱索引。
為了擷取能量隨時間的變化,如圖3所示,使用傳輸信號122的幅度相關度量320計算兩個平均值,一個是短期平均值331、另一個是長期平均值332。
圖6顯示根據一實施例的用以對平滑因子512的傳輸信號122求平均的幅度相關度量320的示意圖,其中,x軸代表時間而y軸代表(傳輸信號122的)能量,傳輸信號122顯示一正弦函數122的一示意性部分。如圖6所示,第二時間部分631比第一時間部分632短,針對每個頻帶b根據以下方程式計算平均值331和332上的能量變化:
Figure 02_image035
以及
Figure 02_image037
其中,N short和N long是計算各個平均值的先前時間子幀k的數量,例如,在該特定實施例中,N short的數值被設置為3,而 N long的數值被設置為10。
此外,參數轉換器或參數處理器110被配置為使用計算510基於長期平均值332和短期平均值331之間的比例來計算平滑因子512、522。換言之,藉由計算兩個平均值331和332的商,可得知表示近期能量增加的較高短期平均值會導致平滑度降低。以下方程式顯示了平滑因子512與兩個平均值331和312的相關性。
Figure 02_image039
基於指示能量降低的較高長期平均值332不會導致平滑減少的事實,平滑因子512被設置為最大值1(目前),因此,上述公式將
Figure 02_image041
的最小值限制為
Figure 02_image043
(在本實施例中為0.3)。然而,在極端情況下,此因子必須接近0,這就是為什麼使用以下方程式將值從範圍
Figure 02_image045
]轉換為範圍[0;1]的原因:
Figure 02_image047
在一個實施例中,與之前說明的平滑相比,平滑被過度減少,使得因子被壓縮為具有朝向值1的根函數。由於穩定性在最低頻帶中特別重要,因此將4次方根計算應用在頻帶b=0和b=1,最低頻段的公式為:
Figure 02_image049
針對所有其他b>1的頻帶的方程式則通過平方根函數執行壓縮,如以下方程式所示。
Figure 02_image051
通過對所有其他b>1的頻帶應用平方根函數,能量可能呈指數增加的極端情況會變小,而能量的較慢增加則不會強烈地降低平滑。
此外,根據以下方程式的頻帶設定最大平滑。需注意者,當係數為1時,將簡單地重複先前的值,而沒有當前增益的貢獻。
Figure 02_image053
其中,bounds[b]表示具有5個頻帶的一個給定實施,這些頻帶根據下表進行設定:
b (=頻帶) bounds[b] (每個頻帶的設定值)
0 0.98
1 0.97
2 0.95
3 0.9
4 0.9
為當前幀中的每個DFT立體聲子幀k計算平滑因子。
圖7顯示一種根據使用遞歸平滑710的實施例的參數轉換器110,其中側增益參數g side[k][b](455)和殘差預測增益參數g pred[k][b](456)都被遞歸平滑,如以下方程式所示:
Figure 02_image055
以及
Figure 02_image057
通過組合由第一加權值加權的先前輸出時間幀的參數532和由第二加權值加權的當前輸出時間幀220的原始參數252,對當前輸出時間幀的時間後續的輸出時間幀的遞歸平滑710 計算輸出時間範圍。換言之,計算當前輸出時間幀的平滑參數,從而從當前時間幀的平滑因子導出第一權重值和第二權重值。
這些映射與平滑的參數(g side、g pred)被輸入到DFT立體聲處理(即輸出介面120),其中立體聲信號(L/R)是從降混DMX、殘差預測信號PRED和映射參數g side和g pred生成的,例如,通過增強立體聲填充(使用全通濾波器)或通過立體聲填充(使用延遲)從降混中獲得降混DMX。
昇混如以下方程式所示:
Figure 02_image059
以及
Figure 02_image061
如前所述,對頻帶 b 中所有頻率柱i中的每個子幀k進行昇混,此外,每個側增益g side由能量歸一化因子g norm加權,該因子根據縮混DMX的能量和殘差預測增益參數PRED或g pred[k][b]計算而得,如上所述。
映射與平滑的側增益755和映射與平滑的殘餘增益756被輸入到輸出介面120,以獲得平滑音頻場景。因此,基於以上描述使用平滑參數處理編碼音頻場景將導致可實現的音頻品質和實施付出之間取得較佳平衡。
圖8顯示根據實施例的一種用於對傳輸信號122進行解碼的裝置。(編碼的)音頻信號816被輸入到傳輸信號核心解碼器810,以便對(核心編碼的)音頻信號816進行核心解碼以獲得輸入到輸出介面120的(解碼的原始)傳輸信號812。舉例而言,傳輸信號122可以是從傳輸信號核心編碼器810輸出的編碼傳輸信號812,(解碼的)傳輸信號812被輸入到輸出介面120中,其被配置為利用包括第二組參數114的一參數組814來生成兩個或多個聲道(例如左聲道和右聲道)的原始表示818。例如,用於解碼核心編碼音頻信號以獲得傳輸信號122的傳輸信號核心解碼器810是一ACELP解碼器。此外,核心解碼器810被配置為在兩個並行分支中饋送解碼的原始傳輸信號812,兩個並行分支的第一分支包括輸出介面120,而兩個並行分支的第二分支包括傳輸信號增強器820與多聲道增強器990其中之一或兩者。信號組合器940被配置為接收來自第一分支的待組合之第一輸入和來自第二分支的待組合之第二輸入。
如圖9所示,用於處理編碼音頻場景130的裝置可以使用一頻寬擴展處理器910。低頻帶傳輸信號901被輸入到輸出介面120以獲得傳輸信號的雙聲道低頻帶表示972。需注意者,輸出介面120例如在昇混過程960期間處理頻域955中的傳輸信號901,並在時域966中轉換雙聲道傳輸信號901。這是由轉換器970完成的,其將呈現頻域955的昇混頻譜表示962轉換到時域,以獲得傳輸信號的雙聲道低頻帶表示972。
如圖8所示,單聲道低頻帶傳輸信號901被輸入到轉換器950,以例如執行將對應於輸出時間幀220的傳輸信號901的時間部分轉換為傳輸信號901的頻譜表示952,亦即從時域966轉換為頻域955。例如,如圖2所示,(輸出時間幀的)部分比輸入時間幀210短,其中對第一組參數112中的參數252進行組織。
頻譜表示952被輸入到昇混器960以例如使用第二組參數114對頻譜表示952進行昇混,以獲得昇混頻譜表示962,其(仍然)在頻域955中進行處理。如前所述,昇混頻譜表示962被輸入到轉換器970,用於將昇混頻譜表示962(即兩個以上之聲道中的每個聲道)從頻域955轉換到時域966(時間表示),以獲得低頻帶表示972,因此可以計算昇混頻譜表示962中的兩個以上之聲道。較佳地,輸出介面120被配置為在複雜離散傅立葉轉換域中運算,其中昇混運算在複雜離散傅立葉轉換域中執行。使用轉換器970進行從複雜離散傅立葉轉換域到實值時域表示的轉換。換言之,輸出介面120被配置為使用昇混器960在第二域(即頻域955)中生成兩個以上之聲道的原始表示,其中第一域代表時域966。
在一個實施例中,昇混器960的昇混運算基於以下方程式:
Figure 02_image063
=
Figure 02_image065
以及
Figure 02_image067
=
Figure 02_image069
,
其中,M̃ t,k是幀t和頻率柱k的傳輸信號901,其中g̃ t,b是幀t和子頻帶b的側增益參數455,其中r̃ t,b是幀t和子頻帶b的殘差預測增益參數456,其中g norm是可有可無的能量調整因子,其中ρ̃ t,k是用於幀t和頻率柱k的原始殘餘信號。
與低頻帶傳輸信號901相反,傳輸信號902、122在時域966中進行處理。傳輸信號902被輸入到頻寬擴展處理器(BWE處理器)910以產生高頻帶信號912,並且被輸入到多聲道濾波器930以便應用一多聲道填充運算。高頻帶信號912被輸入到昇混器920以使用第二組參數144(即輸出時間幀262的參數532)將高頻帶信號912昇混成昇混的高頻帶信號922,舉例而言,昇混器920可以使用來自第二組參數114的至少一個參數,在時域966中對高頻帶信號912進行寬頻平移程序。
將低頻帶表示972、昇混高頻帶信號922和多聲道填充傳輸信號932輸入到信號組合器940,用於在時域966中組合寬頻平移信號922的結果、立體聲填充信號932的結果和兩個以上之聲道的低頻帶表示972。所述組合將導致時域966中的全頻帶多聲道信號942,以作為聲道表示。如前所述,轉換器970將頻譜表示962中的兩個以上之聲道中的每個聲道轉換成時間表示,以獲得兩個以上之聲道的原始時間表示972,因此信號組合器940組合兩個以上之聲道的原始時間表示和兩個以上之聲道的增強時間表示。
在一實施例中,只有低頻帶(LB)傳輸信號901被輸入到輸出介面120(DFT立體聲)進行處理,而高頻帶(HB)傳輸信號912在時域中被獨立昇混(使用昇混器920)。通過使用BWE處理器910加上時域立體聲填充的平移運算,並使用多聲道填充器930來生成環境貢獻,藉以實現這樣的程序。平移程序包括基於映射側增益(例如每幀映射與平滑的側增益755)的寬頻平移。其中,每幀只有一個增益覆蓋整個高頻帶頻率區域,這簡化了從基於以下等式的從降混聲道計算左右高頻帶聲道的過程:
Figure 02_image071
以及
Figure 02_image073
對於每個子幀k中的每個樣本i。
高頻帶立體聲填充信號PRED hb,即多聲道填充傳輸信號932,是通過延遲HB dmx、通過g (side,hb)對其加權、並另外使用能量歸一化因子g norm獲得的,如以下方程式中所述:
Figure 02_image075
以及
Figure 02_image077
對於當前時間幀中的每個樣本i(在完整時間幀210上完成,而不是在時間子幀213和213上完成),d是多聲道填充器930所獲得的填充信號932的產生時,延遲高頻帶降混的樣本數。可以執行除延遲之外的其他產生填充信號的方式,例如更高階的去相關處理、或使用以不同於延遲的其他方式從傳輸信號導出的噪音信號或任何其他信號。
在使用信號組合器940進行DFT合成之後,平移立體聲信號972和922、以及生成的立體聲填充信號932都被組合(混回)為核心信號。
上述之ACELP高頻帶處理也與更高延遲的DirAC處理形成對比,其中ACELP核心和TCX幀被人為延遲以便與ACELP高頻帶對齊,於此,對完整信號執行CLDFB(分析),這意味著ACELP高頻帶的昇混也在CLDFB域(頻域)中完成。
圖10顯示一種用於獲得處理後音頻場景124的裝置的實施例。傳輸信號122被輸入到輸出介面120,用於使用第二組參數114和多聲道增強器990生成兩個以上之聲道的原始表示972,其中多聲道增強器990係用於生成兩個以上之聲道的增強表示992。舉例而言,多聲道增強器990被配置為執行包括頻寬擴展運算、間隙填充運算、品質增強運算及內插運算等運算集中的至少一個運算。兩個以上之聲道的原始表示972和兩個以上之聲道的增強表示992都被輸入到信號組合器940以獲得處理後音頻場景124。
圖11顯示一實施例的多聲道增強器990的方塊圖,其係用於生成兩個以上之聲道的增強表示992,並包括一傳輸信號增強器820、一昇混器830和一多聲道填充器930。傳輸信號122及/或解碼的原始傳輸信號812被輸入到傳輸信號增強器820,以生成增強傳輸信號822,該信號被輸入到昇混器830和多聲道填充器930。例如,傳輸信號增強器820被配置為執行包括頻寬擴展運算、間隙填充運算、品質增強運算及內插運算等運算集中的至少一個運算。
如圖9所示,多聲道填充器930使用傳輸信號902和至少一個參數532來生成多聲道填充傳輸信號932。換言之,多聲道增強器990被配置為使用增強傳輸信號822和第二組參數 114、或使用增強傳輸信號822和昇混增強傳輸信號832,來生成兩個以上之聲道的增強表示992。例如,多聲道增強器 990包括昇混器830與多聲道填充器930其中之一或兩者,用於使用傳輸信號122或增強傳輸信號933和第二組參數532中的至少一個參數來生成兩個以上之聲道的增強表示992。在一實施例中,傳輸信號增強器820或多聲道增強器990被配置為在生成原始表示972時與輸出介面120並行操作,或是參數轉換器110被配置為與傳輸信號增強器820並行操作。
在圖13中,從編碼器傳輸到解碼器的位元流1312可以與如圖12所示的基於DirAC的昇混方案中的相同。從基於DirAC的空降混程序導出的單個傳輸聲道1312輸入到核心解碼器1310、由核心解碼器(例如EVS或IVAS單聲道解碼器)1310進行解碼,並與相應的DirAC側參數1313一起傳輸。
在這種用於無額外延遲地處理音頻場景的DFT立體聲處理方法中,在單聲道核心解碼器(IVAS單聲道解碼器)中對傳輸聲道進行初始解碼也保持不變,不是通過圖12中的CLDFB濾波器組1220,而是將解碼的降混信號1314輸入到DFT分析1320,用於將解碼的單聲道信號1314變換到STFT域(頻域),例如通過使用具有非常短重疊的窗口,因此,DFT分析1320僅使用總延遲與核心解碼器的MDCT分析/合成已經引起的延遲之間的剩餘空間,故其相對於32ms的目標系統延遲而言,不會引起任何額外的延遲。
DirAC側參數1313或第一組參數112被輸入到參數映射1360,其例如可以包括用於獲得DFT立體聲側參數(即第二組參數114)的參數轉換器110或參數處理器。頻域信號1322和DFT側參數1362被輸入到DFT立體聲解碼器1330,以例如使用如圖9所示之昇混器960來產生立體聲昇混信號1332,立體聲昇混1332的兩個聲道被輸入到DFT合成,用於將立體聲昇混1332從頻域轉換到時域,例如使用如圖9所示之轉換器970來產生輸出信號1342,其可以表示處理後音頻場景124。
圖14顯示一種使用頻寬擴展1470處理編碼音頻場景的實施例,其係將位元流1412輸入到ACELP核心或低頻帶解碼器1410而不是如圖13所述之IVAS單聲道解碼器,以生成解碼的低頻帶信號1414,解碼的低頻帶信號1414被輸入到DFT分析1420,用於將信號1414轉換成頻域信號1422,例如,來自圖9的傳輸信號901的頻譜表示952。DFT立體聲解碼器1430可以表示昇混器960,其使用頻域中的解碼低頻帶信號1442和來自參數映射1460的DFT立體聲側參數1462,來生成低頻帶立體聲昇混1432。所生成的低頻帶立體聲昇混1432被輸入到DFT合成方塊1440以用於執行轉換成時域,例如使用圖9所示之轉換器970。傳輸信號122的低頻帶表示972(即DFT合成階段1440的輸出信號1442)被輸入到信號組合器940,用以將昇混的高頻帶立體聲信號922和多聲道填充的高頻帶傳輸信號932以及傳輸信號的低頻帶表示972組合,從而產生全頻帶多聲道信號942。
解碼的低頻帶信號1414和BWE 1470的參數1415被輸入到ACELP BWE解碼器910中以生成解碼的高頻帶信號912,映射的側增益1462(例如低頻帶頻譜區域的映射與平滑的側增益755)被輸入到DFT立體聲方塊1430,並且整個高頻帶的映射與平滑的單側增益被轉發到高頻帶昇混方塊920和立體聲填充方塊930。高頻帶昇混方塊920用於使用高頻帶側增益1472(例如來自第二組參數114的輸出時間幀262的參數532)生成昇混高頻帶信號922,用於填充解碼的高頻帶傳輸信號912、902的立體聲填充方塊930則使用來自第二組參數114的輸出時間幀262的參數532、456,並生成高頻帶填充傳輸信號932。
總而言之,根據本發明的實施例創建一種用於使用參數轉換、及/或使用頻寬擴展、及/或使用參數平滑來處理編碼音頻場景的概念,其導致總體延遲、可實現的音頻品質與實施付出之間取得較佳平衡。
以下將說明本發明實施態樣的另一實施例,特別是本發明實施態樣的組合的另一實施例,實現低延遲昇混的建議解決方案是使用參數立體聲方法,例如[4]中描述的方法,其係使用短時傅立葉轉換(STFT)濾波器組而不是DirAC渲染器。在這種“DFT-立體聲”方法中,描述了一種降混聲道到立體聲輸出的昇混,此方法的優點是在解碼器處的DFT分析具有非常短重疊的窗口,允許保持在通訊編解碼器(如EVS[3]或即將推出的IVAS編解碼器(32ms))所需的低得多的總體延遲內。此外,與DirAC CLDFB不同,DFT立體聲處理不是核心編碼器的後處理步驟,而是與核心處理的一部分並行運行,即代數碼激勵線性預測(ACELP)的頻寬擴展(BWE)語音編碼器,而不會超過這個已經給定的延遲。因此,相對於EVS的32ms 延遲,DFT立體聲處理可以稱為無延遲,因為其係以相同的整體編碼器延遲運行。另一方面,DirAC可以被視為一個後處理器,由於CLDFB將總延遲擴展到37 ms,導致額外的5 ms的延遲。
一般而言,延遲增益將被實現,低延遲來自與核心處理並行發生的處理步驟,而示例性CLDFB版本是一後處理步驟,用於在核心編碼之後進行所需的渲染。
與DirAC不同,DFT立體聲對除ACELP BWE之外的所有分量使用3.25 ms的人工延遲,方法是僅使用具有3.125 ms極短重疊的窗口將這些分量轉換到DFT域中,以適應可用的動態餘量而不會造成更多延遲,因此,只有不具有BWE的TCX和ACELP在頻域中進行昇混,而ACELP BWE在時域中通過稱為聲道間頻寬擴展(ICBWE)[5]的單獨無延遲處理步驟進行昇混。在給定實施例的特殊立體聲輸出情況下,此時域BWE處理略有改變,這將在本實施例的最後進行說明。
傳輸的DirAC參數不能直接用於DFT立體聲昇混, 因此,必須將給定的DirAC參數映射到相應的DFT立體聲參數。雖然DirAC使用方位角和仰角以及擴散參數進行空間放置,但DFT立體聲具有用於平移的單側增益參數和與立體聲寬度密切相關的殘差預測參數,因此與DirAC的擴散參數密切相關。在參數解析度方面,每幀被分為兩個子幀,且每個子幀有數個頻帶。在DFT立體聲中使用的側增益和殘餘增益係揭露於[6]中。
DirAC參數係從原始為B格式或FOA的音頻場景的逐頻帶分析推導而得,然後為每個頻帶k和時刻n推導出主要到達方向的方位角θ(b.n)和仰角φ(b,n)以及擴散因子ψ(b,n)。對於方向分量,可以通過全向分量w(b,n)和DirAC參數導出中心位置處的一階球諧函數:
Figure 02_image001
Figure 02_image003
Figure 02_image005
Figure 02_image007
此外,從FOA聲道可以藉由包括W和Y的解碼動作來獲得立體聲版本,這導致兩個心形指向方位角+ 90度和–90度。
Figure 02_image009
該解碼動作對應於指向兩個方向的一階波束成形。
Figure 02_image011
因此,立體聲輸出和DirAC參數之間存在一直接聯結。另一方面,DFT參數依賴於基於中間信號M和側信號S的L和R聲道模型。
Figure 02_image013
M是作為單聲道傳輸的,對應於SBA模式下的全向聲道W。在DFT立體聲中,S是使用側增益從M預測而得,然後可以使用DirAC參數表示如下:
Figure 02_image086
在DFT立體聲中,預測的殘差被假設和預期是不相關的,並通過其能量和去相關左側和右側的殘差信號進行建模,具有M的S的預測殘差可以表示為:
Figure 02_image019
且其能量在DFT立體聲中使用預測增益建模,如下所示:
Figure 02_image089
由於殘餘增益代表立體聲信號的聲道間不相關分量和空間寬度,因此其直接與DirAC建模的擴散部分相關聯。所以,殘餘能量可以重寫為DirAC擴散參數的函數:
Figure 02_image023
由於通常使用的DFT立體聲頻帶配置與DirAC不同,因此必須進行調整以覆蓋與DirAC頻帶相同的頻率範圍。對於這些頻帶,DirAC的方向角可以通過以下方式映射到DFT立體聲的側增益參數
Figure 02_image017
其中,b是當前頻帶,方位角的參數範圍為[0;360],仰角的參數範圍為[0;180],結果側增益值的參數範圍為[-1;1]。然而,DirAC的方向參數通常比DFT立體聲具有更高的時間解析度,這意味著必須使用兩個或更多方位角值和仰角值來計算一側增益值。一種方法是在子幀之間進行平均,但在此實施方式中,則是基於與能量相關的權重進行計算,對於所有K個DirAC子幀,子幀的能量計算如下
Figure 02_image025
其中,x是時域輸入信號,N是每個子幀中的樣本數,i是樣本索引。對於每個DFT立體聲子幀l,權重可以計算為每個DirAC子幀k在l內的貢獻
Figure 02_image027
然後,側增益最終計算為
Figure 02_image029
由於參數之間的相似性,每個頻帶的一個擴散值直接映射到同一頻帶中所有子幀的殘差預測參數
Figure 02_image096
此外,參數會隨著時間的推移而平滑以避免增益的劇烈波動,由於這在大多數情況下需要相對較強的平滑,但在場景突然變化時需要更快的響應,因此自適應地計算來決定平滑強度的平滑因子。該自適應平滑因子是根據當前頻帶中的能量變化按頻帶計算的,因此,必須首先在所有子幀k中逐頻帶計算能量:
Figure 02_image033
其中,x是DFT變換信號(實數和虛數)的頻率柱,i是當前頻帶b中所有頻率柱的頻率柱索引。
為了擷取能量隨時間的變化,接著根據下式為每個頻帶b計算2個平均值,一個是短期平均值、另一個是長期平均值
Figure 02_image035
以及
Figure 02_image037
其中,N short和N long是計算個別平均值的先前子幀k的數量。在這個特定的實施方式中,N short設定為3,N long設定為10,然後根據平均值的商計算平滑因子,所以當較高的短期平均值表明最近能量增加時,會導致平滑減少:
Figure 02_image039
當較高的長期平均值表明能量減少時,則不會導致平滑減少,因此現在將平滑因子設定為最大值1。
上述公式將fac smooth[b]的最小值限制為
Figure 02_image043
(在本實施中為0.3)。然而,在極端情況下,因子必須接近0,這就是為什麼值從範圍
Figure 02_image045
]轉換為範圍[0;1]的原因
Figure 02_image047
對於不太極端的情況,由於當前過度減少了平滑,因此使用根函數將因子壓縮到數值1。由於穩定性在最低頻帶中尤為重要,因此在頻帶b=0和b=1中使用4次方根運算:
Figure 02_image049
而所有其他頻帶b>1則使用平方根計算以進行壓縮
Figure 02_image051
通過這種方式,極端情況保持接近於0,而能量的較慢增加不會如此強烈地降低平滑。
最後,根據頻帶設定最大平滑(因子為1將簡單地重複先前的值,而沒有當前增益的貢獻):
Figure 02_image053
其中,根據下表設定bounds[b]在5個頻帶的給定數值
b bounds[b]
0 0.98
1 0.97
2 0.95
3 0.9
4 0.9
為當前幀中的每個DFT立體子幀k計算平滑因子。
在最後一步驟中,側增益和殘差預測增益都根據下式進行遞歸平滑
Figure 02_image055
以及
Figure 02_image057
這些映射與平滑的參數接著被饋送到DFT立體聲處理,其中立體聲信號L/R從降混DMX、殘餘預測信號PRED(通過使用全通濾波器的“增強立體聲填充”或通過使用延遲的常規立體聲填充,從降混中獲得[7])、以及映射參數g side和g pred之中生成,昇混一般由以下公式描述[6]:
Figure 02_image059
以及
Figure 02_image061
其係針對每個子幀k的頻帶b中的所有頻率柱i。此外,每個側增益g side由根據DMX和PRED之能量所計算的能量歸一化因子g norm進行加權。
最後,昇混信號通過IDFT轉換回時域,以在給定的立體聲設定上播放。
由於在ACELP中使用的“時域頻寬擴展”(TBE)[8]會自行產生延遲(在本實施例中的實施正好基於2.3125 ms),因此無法在保持在32 ms總延遲內的前提下同時轉換到DFT域(其中留給立體聲解碼器的3.25 ms,已經被STFT用掉了3.125 ms)。因此,只有低頻帶(LB)被放入DFT立體聲處理(如圖14所示的方塊1450),而高頻帶(HB)必須在時域中單獨昇混(如圖14所示的方塊920)。在常規DFT立體聲中,這是通過聲道間頻寬擴展(ICBWE)[5]來完成的,用於平移加上時域立體聲填充來達成環繞聲。在給定的情況下,方塊930的立體聲填充以與常規DFT立體聲中相同的方式計算。然而,ICBWE處理由於缺少參數而被完全跳過,並在方塊920中基於映射的側增益1472由低資源需求之寬頻平移來代替。在給定的實施例中,只有單個增益覆蓋整個高頻帶區域,這簡化了方塊920中從降混聲道來計算左及右低頻帶聲道,如下式
Figure 02_image071
以及
Figure 02_image073
其係針對每個子幀k中的每個樣本i。
由方塊930獲得低頻帶立體聲填充信號PRED hb,其係利用延遲HB dmx、並以g side,hb和能量歸一化因子g norm進行加權,如下式
Figure 02_image075
以及
Figure 02_image077
其係針對當前幀中的每個樣本i(在完整幀上完成,而不是在子幀上完成),其中d是填充信號的低頻帶縮混延遲的樣本數。
在組合器940中的DFT合成之後,平移的立體聲信號和生成的立體聲填充信號最終被混合回核心信號。
ACELP高頻帶的這種特殊處理也與更高延遲的DirAC處理形成對比,其中ACELP核心和TCX幀被人為延遲以便與ACELP高頻帶對齊,於此,對完整信號執行CLDFB,即ACELP高頻帶的昇混也在CLDFB域中完成。
所揭露之方法的優點
對於SBA輸入到立體聲輸出的這種特殊情況沒有額外的延遲,因而允許IVAS編解碼器保持在與EVS(32 ms)相同的總延遲內。
由於整體上更簡單、更直接的處理,通過DFT的參數立體聲昇混的複雜性遠比空間DirAC渲染的複雜性低。
其他較佳實施例
1. 如前所述的用於編碼或解碼的裝置、方法或電腦程式。
2. 用於編碼或解碼的裝置或方法、或其相關電腦程式,包括: • 一系統,其輸入係使用基於聲音場景的空間音頻表示的模型對第一組參數進行編碼,並在其輸出使用兩個輸出聲道的立體聲模型或兩個以上輸出聲道的多聲道模型對第二組參數進行解碼;及/或 • 將空間參數映射到立體聲參數;及/或 • 將基於一頻域的輸入表示/參數轉換到基於另一頻域的輸出表示/參數;及/或 • 將具有較高時間解析度的參數轉換為較低時間解析度的參數;及/或 • 由於第二次頻率變換的窗口重疊較短,因此輸出延遲較少;及/或 • 將DirAC參數(方向角、擴散度)映射到DFT立體聲參數(側增益、殘餘預測增益)以將SBA DirAC編碼內容輸出為立體聲;及/或 • 將基於CLDFB的輸入表示/參數轉換到基於DFT的輸出表示/參數;及/或 • 將5 ms解析度的參數轉換為10 ms解析度的參數;及/或 • 優點:與CLDFB 相比,DFT的窗口重疊更短,因此輸出延遲更少。
需注意者,先前討論的所有替代方案或實施態樣、以及由後續申請專利範圍中的獨立請求項定義的所有實施態樣都可以單獨使用,亦即,除了預期的替代方案、目標或獨立請求項外,沒有任何其他替代方案或目標。然而,在其他實施例中,兩個或更多個替代方案或實施態樣或獨立請求項可以彼此組合,並且在其他實施方案中,所有實施態樣或替代方案和所有獨立請求項可以組合到彼此之中。
需特別指出,本發明的不同實施態樣關於參數轉換實施態樣、平滑實施態樣和頻寬擴展實施態樣,在如上所述的實施例中,這些實施態樣可以彼此分開或獨立地實施,或者至少三個實施態樣中的任何兩個實施態樣可以組合、或者所有三個實施態樣可以組合。
本發明之編碼信號可以儲存在數位儲存媒體或非暫時性儲存媒體上,或者可以在諸如無線傳輸媒體或有線傳輸媒體(如網際網路)等傳輸媒體上進行傳輸。
儘管已經在本說明書中描述了本發明之裝置的一些實施態樣,但很明顯地,這些實施態樣也代表了相應方法的描述,其中一方塊或一裝置對應於方法步驟或方法步驟的特徵。類似地,在本說明書中描述的方法步驟的實施態樣也表示相應裝置的相應方塊或項目或特徵的描述。
根據某些實施要求,本發明的實施例可以藉由硬體或軟體來實現,該實現可以使用數位儲存媒體來執行,例如磁碟、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH記憶體,其具有儲存在其上的電子可讀控制信號,其係與(或能夠與)可編程計算機系統共同運作,從而執行相應的方法。
根據本發明的一些實施例包括具有電子可讀控制信號的資料載體,所述電子可讀控制信號能夠與可編程計算機系統共同運作,從而執行本說明書所述的方法之一。
一般而言,本發明的實施例可以實現為具有程式碼的電腦程式產品,當該電腦程式產品在電腦上運行時,該程式碼可執行用於實施上述方法之一,程式碼可以例如儲存在機器可讀載體上。
其他實施例包括用於執行本說明書所述的方法之一的電腦程式,其儲存在機器可讀載體或非暫時性儲存媒體上。
換句話說,本發明之方法的實施例因此是具有程式碼的電腦程式,當該電腦程式在電腦上運行時,該程式碼用於執行所述之方法其中之一。
因此,本發明之方法的另一實施例是一資料載體(或數位儲存媒體、或電腦可讀媒體),其上記錄有用於執行本說明書所述之方法之一的電腦程式。
因此,本發明之方法的另一實施例是一資料流或信號序列,其表示用於執行本說明書所述的方法之一的電腦程式,資料流或信號序列可以例如被配置為經由資料通訊連接(例如經由網際網路)來傳輸。
另一實施例包括一處理裝置,例如一電腦或可編程邏輯裝置,其被配置為或適合於執行本說明書所述的方法之一。
另一實施例包括一電腦,其安裝有用於執行本說明書所述方法之一的電腦程式。
在一些實施例中,可編程邏輯裝置(例如現場可編程閘極陣列)可用於執行本說明書所述方法的一些或全部功能。在一些實施例中,現場可編程閘極陣列可以與微處理器協作以執行本說明書所述的方法其中之一。通常,這些方法較佳由任何硬體設備執行。
上述實施例僅用於說明本發明的原理。應當理解,對本領域技術人員而言,本說明書描述的各種修改和變化的配置及其細節將是顯而易見的。因此,其意圖是僅受限於後續的申請專利範圍,而不是受限於通過本說明書之實施例的描述和解釋所呈現的具體細節。
參考書目或參考文獻
[1] V. Pulkki, M.-V. V. J. Laitinen, J. Ahonen, T. Lokki and T. Pihlajamäki, "Directional audio coding-perception - based reproduction of spatial sound," in INTERNATIONAL WORKSHOP ON THE PRINCIPLES AND APPLICATION ON SPATIAL HEARING, 2009.
[2] G. Fuchs, O. Thiergart, S. Korse, S. Döhla, M. Multrus, F. Küch, Bouthéon, A. Eichenseer and S. Bayer, "Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators". WO Patent 2020115311A1, 11 06 2020.
[3] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.
[4] S. Bayer, M. Dietz, S. Döhla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli and M. Schnell, " APPARATUS AND METHOD FOR ESTIMATING AN INTER-CHANNEL TIME DIFFERENCE". Patent WO17125563, 27 07 2017.
[5] V. S. C. S. Chebiyyam and V. Atti, "Inter-channel bandwidth extension". WO Patent 2018187082A1, 11 10 2018.
[6] J. Büthe, G. Fuchs, W. Jägers, F. Reutelhuber, J. Herre, E. Fotopoulou, M. Multrus and S. Korse, "Apparatus and method for encoding or decoding a multichannel signal using a side gain and a residual gain". WO Patent WO2018086947A1, 17 05 2018.
[7] J. Büthe, F. Reutelhuber, S. Disch, G. Fuchs, M. Multrus and R. Geiger, "Apparatus for Encoding or Decoding an Encoded Multichannel Signal Using a Filling Signal Generated by a Broad Band Filter". WO Patent WO2019020757A2, 31 01 2019.
[8] V. A. e. al., "Super-wideband bandwidth extension for speech in the 3GPP EVS codec," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, 2015.
110:參數轉換器 112:第一組參數 114:第二組參數 120:輸出介面 122:傳輸信號、正弦函數 124:處理後音頻場景 130:編碼音頻場景、音頻場景 210:輸入時間幀、輸入幀、時間幀 212:輸入時間子幀、輸入子幀 213:輸入時間子幀、輸入子幀 220:輸出時間幀、 230:輸入頻帶 231:輸入頻帶 240:輸出頻帶 241:輸出頻帶 250:計算 251:輸入時間子幀的參數 252:原始參數、參數 260:組合器 262:輸出時間幀 310:加權組合 320:幅度相關度量 324:加權因子、權重 331:短期平均值、平均值 332:長期平均值、平均值 410:殘差選擇器 450:計算過程、計算 451:方位角參數 452:仰角參數 453:擴散參數 455:側增益參數 456:殘差預測參數、殘差預測增益參數、參數 510:計算 512:平滑因子 514:平滑規則 520:計算 522:平滑因子 530:導出 532:參數 540:壓縮函數 550:最大界限選擇 631:第二時間部分 632:第一時間部分 710:遞歸平滑 755:映射與平滑的側增益 756:映射與平滑的殘餘增益 810:傳輸信號核心解碼器、核心解碼器 812:解碼的原始傳輸信號 814:參數組 816:音頻信號 818:聲道的原始表示 820:傳輸信號增強器 822:增強傳輸信號 830:昇混器 832:昇混增強傳輸信號 901:低頻帶傳輸信號、傳輸信號 902:傳輸信號、高頻帶傳輸信號 910:頻寬擴展處理器、BWE處理器、ACELP BWE解碼器 912:解碼的高頻帶信號、解碼的高頻帶傳輸信號 920:昇混器、高頻帶昇混方塊、方塊 922:昇混的高頻帶信號、信號、立體聲信號、昇混的高頻帶立體聲信號 930:多聲道填充器、立體聲填充方塊、方塊 932:多聲道填充傳輸信號、立體聲填充信號、填充信號、高頻帶傳輸信號、高頻帶填充傳輸信號 940:信號組合器、組合器 942:全頻帶多聲道信號 950:轉換器 952:頻譜表示 955:頻域 960:昇混器 962:昇混頻譜表示、頻譜表示 966:時域 970:轉換器 972:雙聲道低頻帶表示、低頻帶表示、原始時間表示、立體聲信號、原始表示 990:多聲道增強器 992:增強表示 1210:單聲道解碼器 1212:位元流 1213:DirAC側參數、參數 1214:解碼單聲道信號、信號 1220:CLDFB、CLDFB濾波器組 1222:輸出信號、信號 1230:DirAC渲染器 1232:FOA昇混 1240:矩陣轉換 1242:L/R信號 1250:CLDFB合成 1252:輸出信號 1310:核心解碼器、IVAS單聲道解碼器 1312:位元流、單個傳輸聲道 1313:DirAC側參數 1314:解碼的降混信號、解碼的單聲道信號 1320:DFT分析 1322:頻域信號 1330:DFT立體聲解碼器 1332:立體聲昇混信號、立體聲昇混 1342:輸出信號 1360:參數映射 1362:DFT側參數 1410:ACELP核心或低頻帶解碼器 1412:位元流 1414:解碼的低頻帶信號、信號 1415:參數 1420:DFT分析 1422:頻域信號 1430:DFT立體聲解碼器、DFT立體聲方塊 1432:低頻帶立體聲昇混 1440:DFT合成方塊、DFT合成階段 1450:方塊 1460:參數映射 1462:DFT立體聲側參數、映射的側增益 1470:頻寬擴展、BWE 1472:高頻帶側增益、映射的側增益
以下將參照附圖說明本發明的較佳實施例,其中: 圖1是根據一實施例的使用參數轉換器處理編碼音頻場景的裝置的方塊圖; 圖2a顯示根據一實施例的第一組參數和第二組參數的示意圖; 圖2b顯示用於計算原始參數的一參數轉換器或一參數處理器的一實施例; 圖2c顯示用於組合原始參數的一參數轉換器或一參數處理器的一實施例; 圖3顯示用於執行原始參數的一加權組合的一參數轉換器或一參數處理器的一實施例; 圖4顯示用於生成側增益參數和殘差預測參數的一參數轉換器的一實施例; 圖5a顯示用於計算原始參數的平滑因子的一參數轉換器或一參數處理器的一實施例; 圖5b顯示用於計算頻帶的平滑因子的一參數轉換器或一參數處理器的一實施例; 圖6顯示根據一實施例的針對平滑因子對傳輸信號進行平均的示意圖; 圖7顯示用於計算遞歸平滑的一參數轉換器或一參數處理器的一實施例; 圖8顯示用於解碼傳輸信號的裝置的一實施例; 圖9顯示使用頻寬擴展處理編碼音頻場景的裝置的一實施例; 圖10顯示獲取處理後音頻場景的裝置的一實施例; 圖11顯示多聲道增強器的一實施例的方塊圖; 圖12顯示習知DirAC立體聲昇混過程的方塊圖; 圖13顯示使用參數映射獲得處理後音頻場景的裝置的一實施例;以及 圖14顯示用於使用頻寬擴展獲得處理後音頻場景的裝置的一實施例。
110:參數轉換器
112:第一組參數
114:第二組參數
120:輸出介面
122:傳輸信號、正弦函數
124:處理後音頻場景
130:編碼音頻場景、音頻場景

Claims (33)

  1. 一種用於處理表示與一虛擬聽者位置相關的一聲場的一編碼音頻場景的裝置,該編碼音頻場景包括一傳輸信號上的一資訊和與該虛擬聽者位置相關的一第一組參數,該裝置包括: 一參數轉換器,用於將該第一組參數轉換成與包括兩個以上之聲道的一聲道表示有關的一第二組參數,藉以在該兩個以上之聲道的預定義空間位置處進行再現;以及 一輸出介面,用於使用該第二組參數和該傳輸信號上的該資訊生成一處理後音頻場景。
  2. 如請求項1所述之裝置, 其中,該輸出介面被配置為使用該第二組參數將該傳輸信號昇混為包括兩個以上之聲道的一昇混信號。
  3. 如請求項1所述之裝置,其中該輸出介面被配置為生成該處理後音頻場景,其係通過將該傳輸信號或該傳輸信號上的該資訊與該第二組參數組合,以獲得一轉碼音頻場景作為該處理後音頻場景。
  4. 如請求項1所述之裝置,其中對於多個輸入時間幀中的各該輸入時間幀和對於多個輸入頻帶中的各該輸入頻帶,該第一組參數包括至少一個定向音頻編碼(Directional Audio Coding, DirAC)參數, 其中,該參數轉換器被配置為將該第二組參數計算為參數化立體聲或多聲道參數。
  5. 如請求項4所述之裝置,其中該至少一參數包括一到達方向參數、一擴散參數、與以該虛擬聽者位置為一球體原點的一球體相關的一方向資訊參數、以及一距離參數其中之至少一,以及 其中,該參數化立體聲或多聲道參數包括一側增益參數、一殘差預測增益參數、一聲道間等級差參數、一聲道間時間差參數、一聲道間相位差參數、及一聲道間相關性參數其中的至少一個。
  6. 如請求項1所述之裝置,其中與該第一組參數相關的一輸入時間幀包括兩個以上之輸入時間子幀,並且其中與該第二組參數相關的一輸出時間幀係小於與該第一組參數相關的該輸入時間幀、並長於該兩個以上之輸入時間子幀中的一個輸入時間子幀,以及 其中,該參數轉換器被配置為針對時間在後的該兩個以上之輸入時間子幀中的各該輸入時間子幀計算該第二組參數的一原始參數,並且組合至少兩個原始參數以導出與該輸出子幀相關的該第二組參數的一參數。
  7. 如請求項6所述之裝置,其中該參數轉換器被配置為執行該至少兩個原始參數的一加權組合,其中用於該加權組合的加權因子係基於在相應的該輸入時間子幀中的該傳輸信號的一幅度相關度量而導出。
  8. 如請求項7所述之裝置,其中該參數轉換器被配置為使用能量或功率作為該幅度相關度量,以及其中在相應的該輸入時間子幀中的該傳輸信號具有較高能量或功率時的一輸入子幀的一加權因子,係大於在相應的該輸入時間子幀中的該傳輸信號具有較低能量或功率時的一輸入子幀的一加權因子。
  9. 如請求項1所述之裝置,其中該參數轉換器被配置為使用該輸入時間幀的該第一組參數中的至少一個參數,為每個輸出時間幀計算至少一個原始參數, 其中,該參數轉換器被配置為根據一平滑規則為各該原始參數計算一平滑因子,以及 其中,該參數轉換器被配置為將相應的該平滑因子應用於相應的該原始參數,以導出該輸出時間幀的該第二組參數的該參數。
  10. 如請求項9所述之裝置,其中該參數轉換器被配置為 計算該傳輸信號的一第一時間部分的一幅度相關度量上的一長期平均值,以及 計算該傳輸信號的一第二時間部分的一幅度相關度量上的一短期平均值,其中該第二時間部分係短於該第一時間部分,以及 根據該長期平均值和該短期平均值之間的一比率計算該平滑因子。
  11. 如請求項9所述之裝置,其中,該參數轉換器被配置為使用一壓縮函數計算一頻帶的一平滑因子,該壓縮函數對於不同頻帶是不同的,並且其中該壓縮函數的一壓縮強度對於較低頻帶比對於較高頻帶更強。
  12. 如請求項9所述之裝置,其中該參數轉換器被配置為使用不同頻帶的不同最大界限來計算該平滑因子,其中一較低頻帶的一最大界限高於用於一較高頻帶的一最大界限。
  13. 如請求項9所述之裝置,其中該參數轉換器被配置為在時間隨後的輸出時間幀上應用一遞歸平滑規則以作為該平滑規則,使得一當前輸出時間幀的一平滑參數是通過組合由一第一加權值加權的一先前輸出時間幀的參數和由一第二加權值加權的一當前輸出時間幀的一原始參數來計算的,其中該第一加權值和該第二加權值是從該當前時間幀的該平滑因子導出的。
  14. 如請求項1所述之裝置,其中該輸出介面被配置為 執行將對應於一輸出時間幀的該傳輸信號的一時間部分轉換為一頻譜表示,其中該時間部分比一輸入時間幀短,該第一組參數的該等參數係組織於該輸入時間幀中, 使用該第二組參數執行該頻譜表示的一昇混運算,以獲得該頻譜表示中的該兩個以上之聲道;以及 將該頻譜表示中的該兩個以上之聲道中的各該聲道轉換為一時間表示。
  15. 如請求項14所述之裝置,其中該輸出介面被配置為 轉換為複雜離散傅立葉轉換域, 在該複雜離散傅立葉轉換域中執行該昇混運算,以及 執行從該複雜離散傅立葉轉換域到一實值時域表示的轉換。
  16. 如請求項14所述之裝置,其中該輸出介面被配置為基於以下方程式執行該昇混運算:
    Figure 03_image063
    =
    Figure 03_image065
    以及
    Figure 03_image067
    =
    Figure 03_image069
    , 其中,
    Figure 03_image115
    是幀t和頻率柱k的該傳輸信號,其中
    Figure 03_image117
    是幀t和子頻帶b的側增益,其中
    Figure 03_image119
    是幀t和子頻帶b的殘差預測增益,其中g norm是可以存在或不存在的一能量調整因子,其中
    Figure 03_image121
    是幀t和頻率柱k的一原始殘差信號。
  17. 如請求項1所述之裝置, 其中,該第一組參數是一輸入頻帶的一到達方向參數,且其中該第二組參數包括各輸入頻帶的一側增益參數,以及 其中,該參數轉換器被配置為使用以下方程式計算一輸出頻帶的一側參數:
    Figure 03_image123
    , 其中,b是該輸出頻帶,其中sidegain是該側增益參數,其中azimuth是該到達方向參數的一方位角分量,且其中elevation是該到達方向參數的一仰角分量。
  18. 如請求項17所述之裝置, 其中,該第一組參數更包括該輸入頻帶的一擴散參數,並且其中該參數轉換器被配置為使用以下方程式計算該輸出頻帶的該側參數
    Figure 03_image017
    其中,diff(b)是該輸入頻帶b的該擴散參數。
  19. 如請求項1所述之裝置, 其中,該第一組參數包括各輸入頻帶的一擴散參數,及 其中,該第二組參數包括一輸出頻帶的一殘差預測參數,以及 其中,當該輸入頻帶和該輸出頻帶彼此相等時,該參數轉換器將該輸入頻帶的該擴散參數作為該輸出頻帶的該殘差預測參數,或者從該輸入頻帶的該擴散參數導出該輸出頻帶的一擴散參數,然後將該輸出頻帶的該擴散參數作為該輸出頻帶的該殘差預測參數。
  20. 如請求項14所述之裝置,其中該傳輸信號上的該資訊包括一核心編碼音頻信號,且其中該裝置更包括: 一核心解碼器,用於對該核心編碼音頻信號進行核心解碼以獲得該傳輸信號。
  21. 如請求項20所述之裝置,其中該核心解碼器在一代數碼激式線性預測(Algebraic Code-Excited Linear Prediction, ACELP)解碼器中,或 其中,該輸出介面被配置為將作為一低頻帶信號的該傳輸信號轉換為一頻譜表示,對該頻譜表示進行昇混並在一時域中轉換一昇混的頻譜表示,以獲得該兩個以上之聲道的一低頻帶表示, 其中,該裝置包括一頻寬擴展處理器,用於在該時域中從該傳輸信號生成一高頻帶信號, 其中,該裝置包括一多聲道填充器,用於在該時域中對該傳輸信號應用一多聲道填充運算, 其中,該裝置包括一昇混器,用於使用來自該第二組參數的至少一參數在該時域中將一寬頻平移應用於該高頻帶信號,以及 其中,該裝置包括一信號組合器,用於在該時域中組合該寬頻平移的結果、該立體聲填充的結果、和該兩個以上之聲道的該低頻帶表示,以獲得該時域中作為該聲道表示的一全頻帶多聲道信號。
  22. 如請求項1所述之裝置,其中該裝置更包括: 其中,該輸出介面被配置為使用該第二組參數和該傳輸信號生成該兩個以上之聲道的一原始表示,及 其中,該裝置更包括一多聲道增強器,用於使用該傳輸信號生成該兩個以上之聲道的一增強表示,以及 其中,該裝置更包括一信號組合器,用於組合該兩個以上之聲道的該原始表示和該兩個以上之聲道的該增強表示,以獲得該處理後音頻場景。
  23. 如請求項22所述之裝置,其中該多聲道增強器被配置為使用一增強傳輸信號和該第二組參數生成該兩個以上之聲道的一增強表示,或 其中,該多聲道增強器包括用於生成該增強傳輸信號的一傳輸信號增強器、以及用於對該增強傳輸信號進行昇混的一昇混器。
  24. 如請求項23所述之裝置,其中該傳輸信號是一編碼傳輸信號,並且其中該裝置更包括: 一傳輸信號核心解碼器,用於生成一解碼後原始傳輸信號, 其中,該傳輸信號增強器被配置為使用該解碼後原始傳輸信號生成該增強傳輸信號,以及 其中,該輸出介面被配置為使用該第二組參數和該解碼後原始傳輸信號生成該兩個以上之聲道的該原始表示。
  25. 如請求項22所述之裝置,其中該多聲道增強器包括該昇混器與一多聲道填充器其中之一或兩者,用於使用該傳輸信號或該增強傳輸信號、和該第二組參數中的至少一個參數,生成該兩個以上之聲道的該增強表示。
  26. 如請求項22所述之裝置,其中,胎輸出介面被配置為使用在一第二域中的一昇混來生成該兩個以上之聲道的一原始表示, 其中,該傳輸信號增強器被配置為用於在不同於該第二域的一第一域中生成該增強傳輸信號,或者其中該多聲道增強器被配置為用於使用在該第一域中的該增強傳輸信號生成該兩個以上之聲道的該增強表示,以及 其中,該信號組合器被配置為在該第一域中組合該兩個以上之聲道的該原始表示和該兩個以上之聲道的該增強表示。
  27. 如請求項26所述之裝置,其中該第一域是一時域,且該第二域是一頻譜域。
  28. 如請求項22所述之裝置,其中該傳輸信號增強器或該多聲道增強器被配置為執行一組運算中的至少一個運算,該組運算包括一頻寬擴展運算、一間隙填充運算、一品質增強運算、或一內插運算。
  29. 如請求項22所述之裝置, 其中,該傳輸信號增強器或該多聲道增強器被配置為在生成該原始表示時與該輸出介面並行操作,或 其中,該參數轉換器被配置為與該傳輸信號增強器並行操作。
  30. 如請求項24所述之裝置,其中該核心解碼器被配置為在兩個並行分支中饋入該解碼後原始傳輸信號,該兩個並行分支的一第一分支包括該輸出介面,且該兩個並行分支的一第二分支包括該傳輸信號增強器和該多聲道增強器其中之一或兩者,並且其中該信號組合器被配置為從該第一分支接收待組合之一第一輸入、並從該第二分支接收待組合之一第二輸入。
  31. 如請求項1所述之裝置,其中該輸出介面被配置為 將對應於一輸出時間幀的該傳輸信號的一時間部分轉換為一頻譜表示, 使用該第二組參數執行該頻譜表示的一昇混運算,以獲得該頻譜表示中的該兩個以上之聲道;以及 將該頻譜表示中的該兩個以上之聲道中的各該聲道轉換為一時間表示,以獲得該兩個以上之聲道的一原始時間表示,以及 其中,該信號組合器被配置為組合該兩個以上之聲道的該原始時間表示和該兩個以上之聲道的該增強時間表示。
  32. 一種用於處理表示與一虛擬聽者位置相關的一聲場的一編碼音頻場景的方法,該編碼音頻場景包括一傳輸信號上的一資訊和與該虛擬聽者位置相關的一第一組參數,該方法包括: 將該第一組參數轉換成與包括兩個以上之聲道的一聲道表示有關的一第二組參數,藉以在該兩個以上之聲道的預定義空間位置處進行再現;以及 使用該第二組參數和該傳輸信號上的該資訊生成一處理後音頻場景。
  33. 一種電腦程式,當其運行於一電腦或一處理器時,用以執行如請求項32所述之方法。
TW110137462A 2020-10-09 2021-10-08 使用參數轉換處理編碼音頻場景的裝置、方法或電腦程式 TWI803998B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
EP20201093.0 2020-10-09
EP20201093 2020-10-09
EP20207515.6 2020-11-13
EP20207515 2020-11-13
EP21180863 2021-06-22
EP21180863.9 2021-06-22

Publications (2)

Publication Number Publication Date
TW202230334A true TW202230334A (zh) 2022-08-01
TWI803998B TWI803998B (zh) 2023-06-01

Family

ID=78085944

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110137462A TWI803998B (zh) 2020-10-09 2021-10-08 使用參數轉換處理編碼音頻場景的裝置、方法或電腦程式

Country Status (11)

Country Link
US (1) US20230238006A1 (zh)
EP (1) EP4226365A2 (zh)
JP (1) JP2023549038A (zh)
KR (1) KR20230084251A (zh)
AU (1) AU2021358432A1 (zh)
BR (1) BR112023006291A2 (zh)
CA (1) CA3194884A1 (zh)
MX (1) MX2023003962A (zh)
TW (1) TWI803998B (zh)
WO (1) WO2022074200A2 (zh)
ZA (1) ZA202304059B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2610845A (en) * 2021-09-17 2023-03-22 Nokia Technologies Oy A method and apparatus for communication audio handling in immersive audio scene rendering

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1192358C (zh) * 1997-12-08 2005-03-09 三菱电机株式会社 声音信号加工方法和声音信号加工装置
JP4809370B2 (ja) * 2005-02-23 2011-11-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル音声符号化における適応ビット割り当て
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
PL1875463T3 (pl) * 2005-04-22 2019-03-29 Qualcomm Incorporated Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia
PL2394268T3 (pl) * 2009-04-08 2014-06-30 Fraunhofer Ges Forschung Urządzenie, sposób i program komputerowy do realizacji upmixu sygnału audio downmixu z użyciem wygładzania wartości faz
CN101958121A (zh) * 2009-12-15 2011-01-26 铜陵市维新投资咨询有限公司 一种语音数据压缩方法
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
CA2987808C (en) 2016-01-22 2020-03-10 Guillaume Fuchs Apparatus and method for encoding or decoding an audio multi-channel signal using spectral-domain resampling
CN105931649A (zh) * 2016-03-31 2016-09-07 欧仕达听力科技(厦门)有限公司 基于频谱分析的超低时延音频处理方法与系统
US10433076B2 (en) * 2016-05-30 2019-10-01 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
ES2938244T3 (es) 2016-11-08 2023-04-05 Fraunhofer Ges Forschung Aparato y procedimiento para codificar o decodificar una señal multicanal usando una ganancia lateral y una ganancia residual
KR102392804B1 (ko) 2017-07-28 2022-04-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 인코딩된 다채널 신호를 광대역 필터에 의해 생성된 충전 신호를 사용하여 인코딩 또는 디코딩하는 장치
EP3588495A1 (en) * 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
WO2020115311A1 (en) 2018-12-07 2020-06-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators

Also Published As

Publication number Publication date
AU2021358432A1 (en) 2023-05-18
EP4226365A2 (en) 2023-08-16
WO2022074200A2 (en) 2022-04-14
KR20230084251A (ko) 2023-06-12
MX2023003962A (es) 2023-05-25
BR112023006291A2 (pt) 2023-05-09
TWI803998B (zh) 2023-06-01
CA3194884A1 (en) 2022-04-14
WO2022074200A3 (en) 2022-05-19
JP2023549038A (ja) 2023-11-22
US20230238006A1 (en) 2023-07-27
ZA202304059B (en) 2023-10-25

Similar Documents

Publication Publication Date Title
US10861468B2 (en) Apparatus and method for encoding or decoding a multi-channel signal using a broadband alignment parameter and a plurality of narrowband alignment parameters
JP2015527610A (ja) マルチチャンネルオーディオ信号のレンダリングを改善する方法及び装置
JP7401625B2 (ja) 広帯域フィルタによって生成される補充信号を使用して、エンコードされたマルチチャネル信号をエンコードまたはデコードするための装置
JP2023139041A (ja) 時間領域ステレオエンコーディング及びデコーディング方法並びに関連製品
KR20230113413A (ko) 방향 컴포넌트 보상을 사용하는 DirAC 기반 공간 오디오코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램
US20230238006A1 (en) Apparatus, Method, or Computer Program for Processing an Encoded Audio Scene using a Parameter Conversion
TWI805019B (zh) 使用參數平滑處理編碼音頻場景的裝置、方法或電腦程式
TWI803999B (zh) 使用頻寬擴展處理編碼音頻場景的裝置、方法或電腦程式
RU2822446C1 (ru) Устройство, способ или компьютерная программа для обработки кодированной аудиосцены с использованием преобразования параметров
RU2818033C1 (ru) Устройство, способ или компьютерная программа для обработки кодированной аудиосцены с использованием сглаживания параметров
RU2820946C1 (ru) Устройство, способ или компьютерная программа для обработки кодированной аудиосцены с использованием расширения полосы пропускания
CN116457878A (zh) 使用带宽扩展来处理编码音频场景的装置、方法或计算机程序
CN116529813A (zh) 使用参数转换来处理编码音频场景的装置、方法或计算机程序
TW202347317A (zh) 用於方向性音訊寫碼空間重建音訊處理之方法、設備及系統