TW201419266A - 用於空間音訊物件編碼中信號相依變比變換之編碼器、解碼器及方法 - Google Patents

用於空間音訊物件編碼中信號相依變比變換之編碼器、解碼器及方法 Download PDF

Info

Publication number
TW201419266A
TW201419266A TW102136014A TW102136014A TW201419266A TW 201419266 A TW201419266 A TW 201419266A TW 102136014 A TW102136014 A TW 102136014A TW 102136014 A TW102136014 A TW 102136014A TW 201419266 A TW201419266 A TW 201419266A
Authority
TW
Taiwan
Prior art keywords
signal
sub
audio object
transformed
band
Prior art date
Application number
TW102136014A
Other languages
English (en)
Other versions
TWI541795B (zh
Inventor
Sascha Disch
Jouni Paulus
Bernd Edler
Oliver Hellmuth
Juergen Herre
Thorsten Kastner
Original Assignee
Fraunhofer Ges Forschung
Univ Friedrich Alexander Er
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung, Univ Friedrich Alexander Er filed Critical Fraunhofer Ges Forschung
Publication of TW201419266A publication Critical patent/TW201419266A/zh
Application granted granted Critical
Publication of TWI541795B publication Critical patent/TWI541795B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

本案提供一種用於自一降混信號產生包含一或多個音訊輸出聲道之一音訊輸出信號之解碼器。該降混信號編碼一或多個音訊物件信號。該解碼器包含一控制單元,其用於取決於該一或多個音訊物件信號中之至少一者的一信號屬性而將一啟動指示設定至一啟動狀態。此外,該解碼器包含一第一分析模組,其用於變換該降混信號以獲得包含多個第一子頻帶聲道的一第一經變換之降混。此外,該解碼器包含一第二分析模組,其用於當該啟動指示被設定至該啟動狀態時藉由變換該等第一子頻帶聲道中之至少一者以獲得多個第二子頻帶聲道來產生一第二經變換之降混,其中該第二經變換之降混包含尚未由該第二分析模組變換之該等第一子頻帶聲道及該等第二子頻帶聲道。此外,該解碼器包含一解混單元,其中該解混單元經組配以當該啟動指示被設定至該啟動狀態時,基於關於該一或多個音訊物件信號之參數旁側資訊對該第二經變換之降混進行解混以獲得該音訊輸出信號,且當該啟動指示未設定至該啟動狀態時,基於關於該一或多個音訊物件信號之該參數旁側資訊對該第一經變換之降混進行解混以獲得該音訊輸出信號。此外,提供一種編碼器。

Description

用於空間音訊物件編碼中信號相依變比變換之編碼器、解碼器及方法 發明領域
本發明係關於音訊信號編碼、音訊信號解碼及音訊信號處理,且詳言之,係關於一種用於空間音訊物件編碼(SAOC)中時間/頻率解析度之反向相容動態調適的編碼器、解碼器及方法。
發明背景
在現代數位音訊系統中,允許在接收器側上對所傳輸之內容進行與音訊物件有關之修改為主要趨勢。此等修改包括音訊信號之特定部分的增益修改及/或在經由空間分佈式揚聲器進行多聲道播放之情況下對專用音訊物件之空間重定位。此可藉由個別地將音訊內容之不同部分傳遞至不同揚聲器來達成。
換言之,在音訊處理、音訊傳輸及音訊儲存之技術中,存在允許關於物件導向式音訊內容播放之使用者互 動的增加需求,且亦存在利用多聲道播放之擴展可能性個別地呈現音訊內容或其部分以便改良聽力印象之要求。藉由此,多聲道音訊內容之使用為使用者帶來了顯著改良。舉例而言,可獲得三維聽力印象,其在娛樂應用中帶來改良之使用者滿意度。然而,多聲道音訊內容亦適用於專用環境,例如,在電話會議應用中,此係因為可藉由使用多聲道音訊播放來改良發話人可懂度。另一可能應用為使音樂作品之收聽者能個別地調整播放層面及/或不同部分(亦被稱為“音訊物件”)或樂曲(諸如,歌唱部分或不同樂器)之空間位置。使用者可因為個人品味、為了更易於轉錄來自音樂作品之一或多個部分、教育目的、伴唱、排演等之原因而執行此調整。
所有數位多聲道或多物件音訊內容(例如,呈脈碼調變(PCM)資料或甚至壓縮音訊格式之形式)之直接離散傳輸需要非常高的位元率。然而,亦需要按有位元率效率之方式傳輸及儲存音訊資料。因此,吾人樂於接受音訊品質與位元率要求之間的合理取捨以便避免由多聲道/多物件應用造成之過多資源負荷。
近來,在音訊編碼之領域中,用於多聲道/多物件音訊信號的有位元率效率之傳輸/儲存之參數技術已由(例如)動畫專業團體(MPEG)及其他者介紹。一實例為作為聲道導向式方法之MPEG環繞(MPS)[MPS、BCC],或作為物件導向式方法之MPEG空間音訊物件編碼(SAOC)[JSC、SAOC、SAOC1、SAOC2]。另一物件導向式方法被稱為“知 情源分離”[ISS1、ISS2、ISS3、ISS4、ISS5、ISS6]。此等技術旨在基於聲道/物件與額外旁側資訊(描述傳輸/儲存之音訊場景及/或音訊場景中之音訊源物件)之降混來重建構所要的輸出音訊場景或所要的音訊源物件。
按時間頻率選擇性方式進行在此系統中的與聲道/物件有關之旁側資訊之估計及應用。因此,此等系統使用時間頻率變換,諸如,離散傅立葉變換(DFT)、短時傅立葉變換(STFT)或濾波器組狀正交鏡相濾波器(QMF)組等。此等系統之基本原理使用MPEG SAOC之實例描繪於圖3中。
在STFT之情況下,時間維度由時間區塊數目表示,且空間維度由頻譜係數(“頻率區間”)數目捕獲。在QMF之情況下,時間維度由時槽數目表示,且空間維度由子頻帶數目捕獲。若QMF之空間解析度藉由隨後應用第二濾波器級而改良,則將整個濾波器組稱為混合QMF,且將精細解析度子頻帶稱為混合子頻帶。
如上已提到,在SAOC中,一般處理按時間頻率選擇性方式進行,且可如下在每一頻帶內描述,如在圖3中所描繪:
-使用由元素d 1,1 …d N,P 組成之降混矩陣將N個輸入音訊物件信號s 1 …s N 降混至P個聲道x 1 …x P ,作為編碼器處理之部分。此外,編碼器提取描述輸入音訊物件(旁側資訊估計器(SIE)模組)之特性的旁側資訊。對於MPEG SAOC,物件功率關於彼此之關係為此旁側資訊之最基本形 式。
-傳輸/儲存降混信號及旁側資訊。為此,可壓縮降混音訊信號,例如,使用熟知感知音訊編碼器,諸如,MPEG-1/2層II或III(又名.mp3)、MPEG-2/4進階音訊編碼(AAC)等。
-在接收端,解碼器在概念上嘗試使用所傳輸之旁側資訊自(經解碼之)降混信號復原原始物件信號(“物件分離”)。接著使用由圖3中之係數r 1,1 …r N,M 描述之呈現矩陣將此等估算之物件信號混合成由M個音訊輸出聲道表示之目標場景。在極端情況下,所要的目標場景可為來自混合物的僅一個源信號之呈現(源分離情景),但亦可為由所傳輸之物件組成的任一其他任意聲學場景。舉例而言,輸出可為單聲道、2聲道立體聲或5.1多聲道目標場景。
基於時間頻率之系統可利用具有靜態時間及頻率解析度之時間頻率(t/f)變換。選擇某一固定t/f解析度網格通常涉及時間與頻率解析度之間的取捨。
固定t/f解析度之效應可在音訊信號混合物中的典型物件信號之實例上演示。舉例而言,音調聲音之頻譜展現具有基本頻率及若干泛音之諧波有關結構。此等信號之能量集中於某些頻率區域。對於此等信號,所利用之t/f表示的高頻率解析度對於將窄頻音調頻譜區域與信號混合物分開係有益的。相反地,如鼓音之瞬態信號常具有截然不同的時間結構:大量能量僅在短時間週期內存在,且在 廣泛之頻率範圍上散佈開。對於此等信號,所利用之t/f表示的高時間解析度對於將瞬態信號部分與信號混合物分開係有利的。
當前音訊物件編碼方案僅提供SAOC處理之時間頻率選擇性的有限可變性。舉例而言,MPEG SAOC[SAOC][SAOC1][SAOC2]限於可藉由使用所謂的混合正交鏡相濾波器組(混合QMF)及其隨後分群成參數頻帶而獲得之時間頻率解析度。因此,標準SAOC(MPEG SAOC,如在[SAOC]中標準化)中之物件復原常具有混合QMF之粗略頻率解析度,從而導致來自其他音訊物件的聲訊調變之串擾(例如,語音中之雙通話偽訊或音樂中之可聞不調合偽訊)。
諸如雙耳線索編碼[BCC]及音訊源之參數聯合編碼[JSC]的音訊物件編碼方案亦限於一個固定解析度濾波器組之使用。固定解析度濾波器組或變換之實際選擇始終涉及編碼方案之時間與頻譜屬性之間的預定義之取捨(就最適性而言)。
在知情源分離(ISS)之領域中,已建議動態地使時間頻率變換長度適宜於信號之屬性[ISS7],如自感知音訊編碼方案(例如,進階音訊編碼(AAC)[AAC])所熟知。
發明概要
本發明之目標為提供用於音訊物件編碼的改良之概念。本發明之目標由如請求項1之解碼器、由如請求 項7之編碼器、由如請求項13之用於解碼之方法、由如請求項14之用於編碼之方法、及由如請求項15之電腦程式解決。
與目前SAOC相比,提供按反向相容方式動態地使時間頻率解析度適宜於信號之實施例,使得-源自標準SAOC編碼器(MPEG SAOC,如在[SAOC]中標準化)之SAOC參數位元流可仍由具有與藉由標準解碼器獲得之感知品質相當的感知品質之增強型解碼器解碼,-可藉由增強型解碼器按最佳品質解碼增強型SAOC參數位元流,且-可將標準與增強型SAOC參數位元流混合(例如,在多點控制單元(MCU)情境中)成可藉由標準或增強型解碼器解碼之一普通位元流。
對於以上提到之屬性,提供可按時間頻率解析度動態調適以支援新穎增強型SAOC資料之解碼且同時支援傳統標準SAOC資料之反向相容映射的普通濾波器組/變換表示係有用的。給定此普通表示,增強型SAOC資料與標準SAOC資料之合併係可能的。
可藉由動態地使用以估計或用以合成音訊物件線索的濾波器組或變換之時間頻率解析度適宜於輸入音訊物件之特定屬性來獲得增強型SAOC感知品質。舉例而言,若在某一時間跨度期間音訊物件為準靜止的,則對粗略時間解析度及精細頻率解析度執行參數估計及合成係有益的。若在某一時間跨度期間音訊物件含有瞬態或非靜止 性,則使用精細時間解析度及粗略頻率解析度進行參考估計及合成係有利的。藉此,濾波器組或變換之動態調適允許-在準靜止信號之頻譜分離中的高頻率選擇性,以便避免物件間串擾,以及-對於物件開始或瞬態事件之高時間精確度,以便使前及後回音最小化。
同時,可藉由將標準SAOC資料映射至藉由取決於描述物件信號特性之旁側資訊的本發明之反向相容信號調適性變換提供之時間頻率網格上來獲得傳統SAOC品質。
能夠使用一普通變換來解碼標準及增強型SAOC資料實現對於涵蓋標準與新穎增強型SAOC資料之混合的應用之直接反向相容性。
提供一種用於自包含多個時域降混樣本之一降混信號產生包含一或多個音訊輸出聲道之一音訊輸出信號之解碼器。降混信號編碼兩個或兩個以上音訊物件信號。
該解碼器包含一窗序列產生器或判定多個分析窗,其中分析窗中之各者包含降混信號之多個時域降混樣本。該等多個分析窗中之每一分析窗具有指示該分析窗之時域降混樣本之數目的窗長度。窗序列產生器經組配以判定多個分析窗,使得分析窗中之各者之窗長度取決於兩個或兩個以上音訊物件信號中之至少一者的信號屬性。
此外,該解碼器包含一t/f分析模組,其用於將 多個分析窗中之每一分析窗的多個時域降混樣本自時域變換至時間頻率域(取決於該分析窗之窗長度),以獲得經變換之降混。
此外,該解碼器包含一解混單元,其用於基於關於兩個或兩個以上音訊物件信號之參數旁側資訊對經變換之降混進行解混,以獲得音訊輸出信號。
根據一實施例,窗序列產生器可經組配以判定該等多個分析窗,使得指示正由降混信號編碼的兩個或兩個以上音訊物件信號中之至少一者之信號改變的瞬態由該等多個分析窗中之第一分析窗且由該等多個分析窗中之第二分析窗包含,其中第一分析窗之中心c k 根據c k =t-l b 由瞬態之位置t定義,且第一分析窗之中心c k+1根據c k+1=t+l a 由瞬態之位置t定義,其中l a l b 為數目。
在一實施例中,窗序列產生器可經組配以判定該等多個分析窗,使得指示正由降混信號編碼的兩個或兩個以上音訊物件信號中之至少一者之信號改變的瞬態由該等多個分析窗中之第一分析窗包含,其中第一分析窗之中心c k 根據c k =t由瞬態之位置t定義,其中該等多個分析窗中之第二分析窗之中心c k-1根據c k-1=t-l b 由瞬態之位置t定義,且其中該等多個分析窗中之第三分析窗之中心c k+1根據c k+1=t+l a 由瞬態之位置t定義,其中l a l b 為數目。
根據一實施例,窗序列產生器可經組配以判定該等多個分析窗,使得該等多個分析窗中之各者包含第一數目個時域信號樣本或第二數目個時域信號樣本,其中時域 信號樣本之第二數目大於時域信號樣本之第一數目,且其中當該等多個分析窗中之分析窗中的各者包含指示正由降混信號編碼的兩個或兩個以上音訊物件信號中之至少一者之信號改變的瞬態時,該分析窗包含第一數目個時域信號樣本。
在一實施例中,t/f分析模組可經組配以藉由使用QMF濾波器組及奈奎斯(Nyquist)濾波器組將分析窗中之各者的時域降混樣本自時域變換至時間頻率域,其中t/f分析單元(135)經組配以取決於該等分析窗中之各者之窗長度而變換該分析窗之多個時域信號樣本。
此外,提供一種用於編碼兩個或兩個以上輸入音訊物件信號之編碼器。該等兩個或兩個以上輸入音訊物件信號中之各者包含多個時域信號樣本。該編碼器包含一窗序列單元,其用於判定多個分析窗。該等分析窗中之各者包含輸入音訊物件信號中之一者的多個時域信號樣本,其中該等分析窗中之各者具有指示該分析窗之時域信號樣本之數目的窗長度。窗序列單元經組配以判定多個分析窗,使得分析窗中之各者之窗長度取決於兩個或兩個以上輸入音訊物件信號中之至少一者的信號屬性。
此外,該編碼器包含一t/f分析單元,其用於將該等分析窗中之各者之時域信號樣本自時域變換至時間頻率域以獲得經變換之信號樣本。該t/f分析單元可經組配以取決於該等分析窗中之各者之窗長度而變換該分析窗之多個時域信號樣本。
此外,該編碼器包含PSI估計單元,其用於取決於經變換之信號樣本而判定參數旁側資訊。
在一實施例中,該編碼器可進一步包含一瞬態偵測單元,其經組配以判定兩個或兩個以上輸入音訊物件信號之多個物件級差,且經組配以判定物件級差中之第一者與物件級差中之第二者之間的差是否大於一臨限值以判定對於分析窗中之各者,該分析窗是否包含指示該等兩個或兩個以上輸入音訊物件信號中之至少一者之信號改變的瞬態。
根據一實施例,該瞬態偵測單元可經組配以使用一偵測函數d(n)判定物件級差中之第一者與物件級差中之第二者之間的差是否大於臨限值,其中將偵測函數d(n)定義為:
其中n指示索引,其中i指示第一物件,其中j指示第二物件,其中b指示參數頻帶。OLD可(例如)指示物件級差。
在一實施例中,窗序列單元可經組配以判定該等多個分析窗,使得指示兩個或兩個以上輸入音訊物件信號中之至少一者之信號改變的瞬態由該等多個分析窗中之第一分析窗且由該等多個分析窗中之第二分析窗包含,其中第一分析窗之中心c k 根據c k =t-l b 由瞬態之位置t定義,且第一分析窗之中心c k+1根據c k+1=t+l a 由瞬態之位置t定義,其中l a l b 為數目。
根據一實施例,窗序列單元可經組配以判定該等多個分析窗,使得指示兩個或兩個以上輸入音訊物件信號中之至少一者之信號改變的瞬態由該等多個分析窗中之第一分析窗包含,其中第一分析窗之中心c k 根據c k =t由瞬態之位置t定義,其中該等多個分析窗中之第二分析窗之中心c k-1根據c k-1=t-l b 由瞬態之位置t定義,且其中該等多個分析窗中之第三分析窗之中心c k+1根據c k+1=t+l a 由瞬態之位置t定義,其中l a l b 為數目。
在一實施例中,窗序列單元可經組配以判定該等多個分析窗,使得該等多個分析窗中之各者包含第一數目個時域信號樣本或第二數目個時域信號樣本,其中時域信號樣本之第二數目大於時域信號樣本之第一數目,且其中當該等多個分析窗中之分析窗中的各者包含指示兩個或兩個以上輸入音訊物件信號中之至少一者之信號改變的瞬態時,該分析窗包含第一數目個時域信號樣本。
根據一實施例,t/f分析單元可經組配以藉由使用QMF濾波器組及奈奎斯濾波器組將分析窗中之各者的時域信號樣本自時域變換至時間頻率域,其中t/f分析單元可經組配以取決於該等分析窗中之各者之窗長度而變換該分析窗之多個時域信號樣本。
此外,提供一種用於自包含多個時域降混樣本之一降混信號產生包含一或多個音訊輸出聲道之一音訊輸出信號之解碼器。該降混信號編碼兩個或兩個以上音訊物件信號。該解碼器包含一第一分析子模組,其用於變換該等 多個時域降混樣本以獲得包含多個子頻帶樣本之多個子頻帶。此外,該解碼器包含一窗序列產生器,其用於判定多個分析窗,其中該等分析窗中之各者包含該等多個子頻帶中之一者之多個子頻帶樣本,其中該等多個分析窗中之每一分析窗具有指示該分析窗的子頻帶樣本之數目之一窗長度,其中該窗序列產生器經組配以判定該等多個分析窗,使得該等分析窗中之各者之窗長度取決於兩個或兩個以上音訊物件信號中之至少一者的信號屬性。此外,該解碼器包含一第二分析模組,其用於取決於該等多個分析窗中之每一分析窗之窗長度而變換該分析窗之多個子頻帶樣本,以獲得經變換之降混。此外,解碼器包含一解混單元,其用於基於關於兩個或兩個以上音訊物件信號之參數旁側資訊對經變換之降混進行解混,以獲得音訊輸出信號。
此外,提供一種用於編碼兩個或兩個以上輸入音訊物件信號之編碼器。該等兩個或兩個以上輸入音訊物件信號中之各者包含多個時域信號樣本。該編碼器包含一第一分析子模組,其用於變換該等多個時域信號樣本以獲得包含多個子頻帶樣本之多個子頻帶。此外,該編碼器包含一窗序列單元,其用於判定多個分析窗,其中該等分析窗中之各者包含該等多個子頻帶中之一者之多個子頻帶樣本,其中該等多個分析窗中之各者具有指示該分析窗的子頻帶樣本之數目之一窗長度,其中該窗序列單元經組配以判定該等多個分析窗,使得該等分析窗中之各者之窗長度取決於兩個或兩個以上輸入音訊物件信號中之至少一者的 信號屬性。此外,該編碼器包含一第二分析模組,其用於取決於該等多個分析窗中之每一分析窗之窗長度而變換該分析窗之多個子頻帶樣本,以獲得經變換之信號樣本。此外,該編碼器包含一PSI估計單元,其用於取決於經變換之信號樣本而判定參數旁側資訊。
此外,提供用於自一降混信號產生包含一或多個音訊輸出聲道之一音訊輸出信號之解碼器。該降混信號編碼一或多個音訊物件信號。該解碼器包含一控制單元,其用於取決於該一或多個音訊物件信號中之至少一者的信號屬性而將一啟動指示設定至一啟動狀態。此外,該解碼器包含一第一分析模組,其用於變換該降混信號以獲得包含多個第一子頻帶聲道的第一經變換之降混。此外,該解碼器包含一第二分析模組,其用於當該啟動指示被設定至該啟動狀態時藉由變換第一子頻帶聲道中之至少一者以獲得多個第二子頻帶聲道來產生第二經變換之降混,其中該第二經變換之降混包含尚未由第二分析模組變換之第一子頻帶聲道及第二子頻帶聲道。此外,該解碼器包含一解混單元,其中該解混單元經組配以當啟動指示被設定至啟動狀態時,基於關於一或多個音訊物件信號之參數旁側資訊對第二經變換之降混進行解混以獲得音訊輸出信號,且當啟動指示未設定至啟動狀態時,基於關於一或多個音訊物件信號之參數旁側資訊對第一經變換之降混進行解混以獲得音訊輸出信號。
此外,提供一種用於編碼一輸入音訊物件信號之 編碼器。該編碼器包含一控制單元,其用於取決於輸入音訊物件信號之信號屬性將啟動指示設定至啟動狀態。此外,該編碼器包含一第一分析模組,其用於變換該輸入音訊物件信號以獲得第一經變換之音訊物件信號,其中該第一經變換之音訊物件信號包含多個第一子頻帶聲道。此外,該編碼器包含一第二分析模組,其用於當該啟動指示被設定至該啟動狀態時藉由變換多個第一子頻帶聲道中之至少一者以獲得多個第二子頻帶聲道來產生第二經變換之音訊物件信號,其中該第二經變換之音訊物件信號包含尚未由第二分析模組變換之第一子頻帶聲道及第二子頻帶聲道。此外,該編碼器包含一PSI估計單元,其中該PSI估計單元經組配以當啟動指示被設定至啟動狀態時,基於該第二經變換之音訊物件信號判定參數旁側資訊,且當啟動指示未設定至啟動狀態時,基於該第一經變換之音訊物件信號判定參數旁側資訊。
此外,提供一種用於自包含多個時域降混樣本之一降混信號產生包含一或多個音訊輸出聲道之一音訊輸出信號的用於解碼之方法。該降混信號編碼兩個或兩個以上音訊物件信號。該方法包含:
-判定多個分析窗,其中該等分析窗中之各者包含該降混信號之多個時域降混樣本,其中該等多個分析窗中之每一分析窗具有指示該分析窗之該等時域降混樣本之數目的一窗長度,其中判定該等多個分析窗經進行使得該等分析窗中之各者的該窗長度取決於該等兩個或兩個以上音訊 物件信號中之至少一者的一信號屬性。
-取決於該等多個分析窗中之每一分析窗的該窗長度,將該分析窗之該等多個時域降混樣本自一時域變換至一時間頻率域,以獲得一經變換之降混,以及
-基於關於該等兩個或兩個以上音訊物件信號之參數旁側資訊對該經變換之降混進行解混,以獲得該音訊輸出信號。
此外,提供一種用於編碼兩個或兩個以上輸入音訊物件信號之方法。該等兩個或兩個以上輸入音訊物件信號中之各者包含多個時域信號樣本。該方法包含:
-判定多個分析窗,其中該等分析窗中之各者包含該等輸入音訊物件信號中之一者之多個該等時域信號樣本,其中該等分析窗中之各者具有指示該分析窗之時域信號樣本之數目的一窗長度,其中判定該等多個分析窗經進行使得該等分析窗中之各者的該窗長度取決於該等兩個或兩個以上輸入音訊物件信號中之至少一者的一信號屬性。
-將該等分析窗中之各者之該等時域信號樣本自一時域變換至一時間頻率域以獲得經變換之信號樣本,其中變換該等分析窗中之各者之該等多個時域信號樣本取決於該分析窗之該窗長度。以及:
-取決於該等經變換之信號樣本而判定參數旁側資訊。
此外,提供一種用於藉由自包含多個時域降混樣本之一降混信號產生包含一或多個音訊輸出聲道之一音訊 輸出信號來解碼之方法,其中該降混信號編碼兩個或兩個以上音訊物件信號。該方法包含:
-變換該等多個時域降混樣本以獲得包含多個子頻帶樣本之多個子頻帶。
-判定多個分析窗,其中該等分析窗中之各者包含該等多個子頻帶中之一者之多個子頻帶樣本,其中該等多個分析窗中之每一分析窗具有指示該分析窗之子頻帶樣本之數目的一窗長度,其中判定該等多個分析窗經進行使得該等分析窗中之各者的該窗長度取決於該等兩個或兩個以上音訊物件信號中之至少一者的一信號屬性。
-取決於該等多個分析窗中之每一分析窗的該窗長度而變換該分析窗之該等多個子頻帶樣本以獲得一經變換之降混。以及:
-基於關於該等兩個或兩個以上音訊物件信號之參數旁側資訊對該經變換之降混進行解混,以獲得該音訊輸出信號。
此外,提供一種用於編碼兩個或兩個以上輸入音訊物件信號之方法,其中該等兩個或兩個以上輸入音訊物件信號中之各者包含多個時域信號樣本。該方法包含:
-變換該等多個時域信號樣本以獲得包含多個子頻帶樣本之多個子頻帶。
-判定多個分析窗,其中該等分析窗中之各者包含該等多個子頻帶中之一者之多個子頻帶樣本,其中該等分析窗中之各者具有指示該分析窗之子頻帶樣本之數目的一窗 長度,其中判定該等多個分析窗經進行使得該等分析窗中之各者的該窗長度取決於該等兩個或兩個以上輸入音訊物件信號中之至少一者的一信號屬性。
-取決於該等多個分析窗中之每一分析窗的該窗長度而變換該分析窗之該等多個子頻帶樣本以獲得經變換之信號樣本。以及
-取決於該等經變換之信號樣本而判定參數旁側資訊。
此外,提供一種用於藉由自一降混信號產生包含一或多個音訊輸出聲道之一音訊輸出信號來解碼之方法,其中該降混信號編碼兩個或兩個以上音訊物件信號。該方法包含:
-取決於該等兩個或兩個以上音訊物件信號中之至少一者的一信號屬性而將一啟動指示設定至一啟動狀態。
-變換該降混信號以獲得包含多個第一子頻帶聲道的一第一經變換之降混。
-當該啟動指示被設定至該啟動狀態時,藉由變換該等第一子頻帶聲道中之至少一者以獲得多個第二子頻帶聲道來產生一第二經變換之降混,其中該第二經變換之降混包含尚未由該第二分析模組變換之該等第一子頻帶聲道及該等第二子頻帶聲道。以及:
-當該啟動指示被設定至該啟動狀態時,基於關於該等兩個或兩個以上音訊物件信號之參數旁側資訊對該第二經變換之降混進行解混以獲得該音訊輸出信號,且當該啟 動指示未設定至該啟動狀態時,基於關於該等兩個或兩個以上音訊物件信號之該參數旁側資訊對該第一經變換之降混進行解混以獲得該音訊輸出信號。
此外,提供一種用於編碼兩個或兩個以上輸入音訊物件信號之方法。該方法包含:
-取決於該等兩個或兩個以上輸入音訊物件信號中之至少一者的一信號屬性而將一啟動指示設定至一啟動狀態。
-變換該等輸入音訊物件信號中之各者以獲得該輸入音訊物件信號的一第一經變換之音訊物件信號,其中該第一經變換之音訊物件信號包含多個第一子頻帶聲道。
-當該啟動指示被設定至該啟動狀態時,針對該等輸入音訊物件信號中之各者,藉由變換該輸入音訊物件信號的該第一經變換之音訊物件信號的該等第一子頻帶聲道中之至少一者以獲得多個第二子頻帶聲道來產生一第二經變換之音訊物件信號,其中第二經變換之降混包含尚未由第二分析模組變換之該等第一子頻帶聲道及該等第二子頻帶聲道。以及:
-當該啟動指示被設定至該啟動狀態時,基於該等輸入音訊物件信號中之各者的該第二經變換之音訊物件信號判定參數旁側資訊,且當該啟動指示未設定至該啟動狀態時,基於該等輸入音訊物件信號中之各者的該第一經變換之音訊物件信號判定該參數旁側資訊。
此外,提供一種用於當在一電腦或信號處理器上 執行時實施上述方法中之一者之電腦程式。
在附屬項中提供較佳實施例。
10‧‧‧SAOC編碼器
12‧‧‧SAOC解碼器
16‧‧‧降混器/混頻器
17‧‧‧旁側資訊估計器
18‧‧‧降混信號
20‧‧‧旁側資訊
26‧‧‧呈現資訊
301、30k‧‧‧子頻帶信號/子頻帶
32‧‧‧子頻帶值
34‧‧‧濾波器組時槽
36‧‧‧頻率軸
38‧‧‧時間軸
41‧‧‧SAOC框
42‧‧‧虛線
45‧‧‧模組
46‧‧‧第二模組/t/f-SIE模組
101、175‧‧‧瞬態偵測單元
102‧‧‧窗序列單元
103‧‧‧t/f分析單元
104、174、194‧‧‧PSI估計單元
105‧‧‧粗略功率譜重建構單元
106‧‧‧功率譜估計單元
107‧‧‧頻率解析度調適單元
108‧‧‧差量估計單元
109‧‧‧差量模型化單元
111、112、113‧‧‧線
131‧‧‧解混矩陣計算器
132‧‧‧時間內插器
133‧‧‧窗頻率解析度調適單元
134‧‧‧窗序列產生器
135‧‧‧t/f分析模組
136、164、184‧‧‧解混單元
141‧‧‧頻帶上值擴展單元
142‧‧‧差量函數復原單元
143‧‧‧差量應用單元
161、171‧‧‧第一分析子模組
162‧‧‧窗序列產生器
163、173、183、193‧‧‧第二分析模組
172‧‧‧窗序列單元
181、191‧‧‧控制單元
182、192‧‧‧第一分析模組
在下文中,參看諸圖更詳細地描述本發明之實施例,其中:圖1a說明根據一實施例之解碼器,圖1b說明根據另一實施例之解碼器,圖1c說明根據再一實施例之解碼器,圖2a說明根據一實施例的用於編碼輸入音訊物件信號之編碼器,圖2b說明根據另一實施例的用於編碼輸入音訊物件信號之編碼器,圖2c說明根據再一實施例的用於編碼輸入音訊物件信號之編碼器,圖3展示SAOC系統之概念綜述之示意性方塊圖,圖4展示單聲道音訊信號之時間頻譜表示之示意性及例示性圖,圖5展示SAOC編碼器內的旁側資訊之時間頻率選擇性計算之示意性方塊圖,圖6描繪根據一實施例的增強型SAOC解碼器之方塊圖,其說明解碼標準SAOC位元流,圖7描繪根據一實施例的解碼器之方塊圖,圖8說明根據一特定實施例的編碼器之方塊圖,其實施編碼器之參數路徑, 圖9說明正常開窗序列之調適以適應瞬態時之窗跨越點,圖10說明根據一實施例的瞬態隔離區塊切換方案,圖11說明根據一實施例的具有瞬態之信號及所得AAC狀開窗序列,圖12說明擴展之QMF混合濾波,圖13說明將短窗用於變換之一實例,圖14說明將比在圖13之實例中長的窗用於變換之一實例,圖15說明實現高頻率解析度及低時間解析度之一實例,圖16說明實現高時間解析度及低頻率解析度之一實例,圖17說明實現中間時間解析度及中間頻率解析度之第一實例,以及圖18說明實現中間時間解析度及中間頻率解析度之第一實例。
較佳實施例之詳細說明
在描述本發明之實施例前,提供關於目前SAOC系統之更多背景。
圖3展示SAOC編碼器10及SAOC解碼器12之一般配置。SAOC編碼器10接收N個物件(亦即,音訊信號s 1 s N )作為輸入。詳言之,編碼器10包含一降混器 16,其接收音訊信號s 1 s N 且將其降混至降混信號18。替代地,可在外部提供降混(“藝術降混”),且系統估計額外旁側資訊以使所提供之降混匹配計算出之降混。在圖3中,展示降混信號為P聲道信號。因此,可想到任何單聲道(P=1)、立體聲(P=2)或多聲道(P>2)降混信號組配。
在立體聲降混之情況下,降混信號18之聲道表示為L0R0,在單聲道降混之情況下,其僅表示為L0。為了使SAOC解碼器12能夠復原個別物件s 1 s N ,旁側資訊估計器17給SAOC解碼器12提供包括SAOC參數之旁側資訊。舉例而言,在立體聲降混之情況下,SAOC參數包含物件級差(OLD)、物件間相關性(IOC)(物件間交互相關性參數)、降混增益值(DMG)及降混聲道級差(DCLD)。包括SAOC參數之旁側資訊20與降混信號18一起形成由SAOC解碼器12接收之SAOC輸出資料流。
SAOC解碼器12包含一升混器,其接收降混信號18以及旁側資訊20以便復原音訊信號,且將其呈現至任一組使用者選定聲道上,其中呈現由輸入至SAOC解碼器12之呈現資訊26規定。
可將音訊信號s 1 s N 在任一編碼域中(諸如,在時域或頻譜域中)輸入至編碼器10內。倘若音訊信號s 1 s N 在時域中饋入至編碼器10(諸如,經PCM編碼),則編碼器10可使用濾波器組(諸如,混合QMF組),以便將信號傳送至頻譜域內,其中按特定濾波器組解析度將音訊信號表示於與不同頻譜部分相關聯之若干子頻帶中。若音訊信 號s 1 s N 已在由編碼器10期望之表示中,則其不必執行頻譜分解。
圖4展示在剛提到之頻譜域中的音訊信號。如可看出,將音訊信號表示為多個子頻帶信號。每一子頻帶信號301至30K由由小方框32指示之子頻帶值之時間序列組成。如可看出,子頻帶信號301至30K之子頻帶值32經在時間上相互同步化,使得對於連續濾波器組時槽34中之各者,每一子頻帶301至30K確切地包含一個子頻帶值32。如由頻率軸36說明,子頻帶信號301至30K與不同頻率區域相關聯,且如由時間軸38說明,濾波器組時槽34在時間上連續配置。
如上概括,圖3之旁側資訊提取器17自輸入音訊信號s 1 s N 計算SAOC參數。根據當前實施之SAOC標準,編碼器10按可相對於如藉由濾波器組時槽34及子頻帶分解判定之原始時間/頻率解析度降低某一量之時間/頻率解析度執行此計算,其中此某一量經傳訊至旁側資訊20內之解碼器側。若干群組的連續濾波器組時槽34可形成一SAOC框41。又,SAOC框41內的參數頻帶之數目在旁側資訊20內傳達。因此,時間/頻率域由虛線42分成在圖4中舉例說明之時間/頻率資料塊(tile)。在圖4中,參數頻帶按相同方式分佈於各種描繪之SAOC框41中,使得獲得時間/頻率資料塊之規則配置。然而,一般而言,取決於對於各別SAOC框41中的頻譜解析度之不同需求,參數頻帶可自一SAOC框41至隨後者而變化。此外,SAOC框41之 長度亦可變化。結果,時間/頻率資料塊之配置可為不規則的。儘管如此,一特定SAOC框41內之時間/頻率資料塊通常具有相同的持續時間且在時間方向上對準,亦即,該SAOC框41中之所有t/f資料塊開始於給定SAOC框41之開始處且結束於該SAOC框41之結尾處。
圖3中描繪之旁側資訊提取器17根據以下公式計算SAOC參數。詳言之,旁側資訊提取器17將對於每一物件i之物件級差計算為
其中總和及索引nk分別遍歷屬於由用於SAOC框(或處理時槽)之索引l及用於參數頻帶之索引m參考的某一時間/頻率資料塊42之所有時間索引34及所有頻譜索引30。藉此,音訊信號或物件i之所有子頻帶值x i 之能量經總計及正規化至所有物件或音訊信號間的彼資料塊之最高能量值。表示之複共軛。
另外,SAOC旁側資訊提取器17能夠計算成對的不同輸入物件s 1 s N 之對應的時間/頻率資料塊之類似性量度。雖然SAOC旁側資訊提取器17可計算所有成對之輸入物件s 1 s N 之間的類似性量度,但SAOC旁側資訊提取器17亦可抑制類似性量度之傳訊或將類似性量度之計算限於形成普通立體聲聲道之左或右聲道的音訊物件s 1 s N 。在任一情況下,類似性量度稱作物件間交互相關性參 數。計算如下
其中再次,索引nk遍歷屬於某一時間/頻率資料塊42之所有子頻帶值,ij表示某一對音訊物件s 1 s N ,且Re{ }表示捨棄複共軛之虛數部分的操作。
圖3之降混器16藉由使用應用至每一物件s 1 s N 之增益因數降混物件s 1 s N 。亦即,將增益因數d i 應用至物件i,且接著總計所有經如此加權之物件s 1 s N 以獲得單聲道降混信號,其在圖3中舉例說明(若P=1)。在兩聲道降混信號之另一實例情況下(圖3中所描繪),若P=2,則將增益因數d 1 , i 應用至物件i,且接著對所有此等增益放大之物件求和,以便獲得左降混聲道L0,且將增益因數d 2 , i 應用至物件i,且接著對因此增益放大之物件求和,以便獲得右降混聲道R0。在多聲道降混(P>2)之情況下,將應用與以上相似之處理。
此降混規定藉由降混增益DMG i 及(在立體聲降混信號之情況下,降混聲道級差DCLD i )傳訊至解碼器側。
根據以下計算降混增益:DMG i =20log10(d i +ε),(單聲道降混),,(立體聲降混),其中為ε為小數,諸如,10-9
對於DCLD,以下公式適用:
在正常模式中,降混器16分別根據以下產生降混信號:
對於單聲道降混,或
對於立體聲降混。
因此,在以上提到之公式中,參數OLDIOC為音訊信號之函數,且參數DMGDCLDd之函數。附帶言之,注意,d可在時間上及在頻率上變化。
因此,在正常模式中,降混器16無偏好地混合所有物件s 1 s N ,亦即,同等地處置所有物件s 1 s N
在解碼器側,升混器在一計算步驟中(即,在兩聲道降混之情況下)執行降混程序之逆算及由矩陣R(在該文獻中,有時亦稱作A)表示的“呈現資訊”26之實施。
其中矩陣E為參數OLD及IOC之函數,且矩陣D含有降混係數,如
矩陣E為音訊物件s 1 s N 的估計之協方差矩陣。在當前SAOC實施中,估計的協方差矩陣E之計算通常按SAOC參數之頻譜/時間解析度執行(亦即,對於每一(l,m)),使得可將估計之協方差矩陣寫為E l,m 。估計之協方差矩陣E l,m 具有大小N×N,其中將其係數定義為
因此,具有
之矩陣E l,m 具有沿著其對角線之物件級差,亦即,(對於i=j),此係由於(對於i=j)。在其對角線外,估計之協方差矩陣E具有分別表示物件ij之物件級差之幾何平均數的矩陣係數,其藉由物件間交互相關性量度加權。
圖5顯示關於作為SAOC編碼器10之部分的旁側資訊估計器(SIE)之實例的實施之一可能原理。SAOC編碼器10包含混頻器16及旁側資訊估計器(SIE)17。SIE概念上由兩個模組組成:一模組45計算每一信號的基於短時之t/f表示(例如,STFT或QMF)。將計算出之短時t/f表示饋入至第二模組46(t/f選擇性旁側資訊估計模組(t/f-SIE))內。t/f-SIE模組46計算每一t/f資料塊之旁側資訊。在當前SAOC實施中,對於所有音訊物件s 1 s N ,時間/頻率變換係固定的且相同。此外,在對於所有音訊物件相同且對於所有音訊物件s 1 s N 具有相同時間/頻率解析度之SAOC 框上判定SAOC參數,因此忽視了在一些情況下對精細時間解析度或在其他情況下對精細頻譜解析度之物件特定需求。
在下文中,描述本發明之實施例。
圖1a說明根據一實施例的用於自包含多個時域降混樣本之一降混信號產生包含一或多個音訊輸出聲道之一音訊輸出信號之解碼器。該降混信號編碼兩個或兩個以上音訊物件信號。
該解碼器包含一窗序列產生器134,其用於判定多個分析窗(例如,基於參數旁側資訊,例如,物件級差),其中分析窗中之各者包含降混信號之多個時域降混樣本。該等多個分析窗中之每一分析窗具有指示該分析窗之時域降混樣本之數目的窗長度。窗序列產生器134經組配以判定多個分析窗,使得分析窗中之各者之窗長度取決於兩個或兩個以上音訊物件信號中之至少一者的信號屬性。舉例而言,窗長度可取決於該分析窗是否包含指示正由降混信號編碼的兩個或兩個以上音訊物件信號中之至少一者之信號改變的瞬態。
為了判定多個分析窗,窗序列產生器134可(例如)分析參數旁側資訊(例如,關於兩個或兩個以上音訊物件信號的所傳輸物件級差),以判定分析窗之窗長度,使得分析窗中之各者之窗長度取決於兩個或兩個以上音訊物件信號中之至少一者的信號屬性。或者,舉例而言,為了判定多個分析窗,窗序列產生器134可分析窗形狀或分析窗自 身,其中可將窗形狀或分析窗(例如)在位元流中自編碼器傳輸至解碼器,且其中分析窗中之各者之窗長度取決於兩個或兩個以上音訊物件信號中之至少一者的信號屬性。
此外,解碼器包含一t/f分析模組135,其用於將多個分析窗中之每一分析窗的多個時域降混樣本自時域變換至時間頻率域(取決於該分析窗之窗長度),以獲得經變換之降混。
此外,解碼器包含一解混單元136,其用於基於關於兩個或兩個以上音訊物件信號之參數旁側資訊對經變換之降混進行解混,以獲得音訊輸出信號。
以下實施例使用特殊窗序列建構機制。針對窗長度N w 之索引,定義原型窗函數f(n,N w )。設計單一窗w k (n)需要三個控制點,即,先前窗、當前窗及下一窗之中心--c k-1c k c k+1
使用該等控制點,將開窗函數定義為
實際窗位置則為,其中(表示將引數捨進至下一個整數的運算,且對應地表示將引數捨去至下一個整數的運算)。在說明中使用之原型窗函數為正弦窗,其定義為 但亦可使用其他形式。瞬態位置t定義三個窗之中心 c k-1=t-l b c k =tc k+1=t+l a ,其中數目l b l a 定義瞬態前及後之所要的窗範圍。
如稍後關於圖9所解釋,窗序列產生器134可(例如)經組配以判定該等多個分析窗,使得瞬態由該等多個分析窗中之第一分析窗且由該等多個分析窗中之第二分析窗包含,其中第一分析窗之中心c k 根據c k =t-l b 由瞬態之位置t定義,且第一分析窗之中心c k+1根據c k+1=t+l a 由瞬態之位置t定義,其中l a l b 為數目。
如稍後關於圖10所解釋,窗序列產生器134可(例如)經組配以判定該等多個分析窗,使得瞬態由該等多個分析窗中之第一分析窗包含,其中第一分析窗之中心c k 根據c k =t由瞬態之位置t定義,其中該等多個分析窗中之第二分析窗之中心c k-1根據c k-1=t-l b 由瞬態之位置t定義,且其中該等多個分析窗中之第三分析窗之中心c k+1根據c k+1=t+l a 由瞬態之位置t定義,其中l a l b 為數目。
如稍後關於圖11所解釋,窗序列產生器134可(例如)經組配以判定該等多個分析窗,使得該等多個分析窗中之各者包含第一數目個時域信號樣本或第二數目個時域信號樣本,其中時域信號樣本之第二數目大於時域信號樣本之第一數目,且其中當該等多個分析窗中之分析窗中的各者包含瞬態時,該分析窗包含第一數目個時域信號樣本。
在一實施例中,t/f分析模組135經組配以藉由使用QMF濾波器組及奈奎斯濾波器組將分析窗中之各者的時域降混樣本自時域變換至時間頻率域,其中t/f分析單 元(135)經組配以取決於該等分析窗中之各者之窗長度而變換該分析窗之多個時域信號樣本。
圖2a說明用於編碼兩個或兩個以上輸入音訊物件信號之編碼器。該等兩個或兩個以上輸入音訊物件信號中之各者包含多個時域信號樣本。
該編碼器包含一窗序列單元102,其用於判定多個分析窗。該等分析窗中之各者包含輸入音訊物件信號中之一者的多個時域信號樣本,其中該等分析窗中之各者具有指示該分析窗之時域信號樣本之數目的窗長度。窗序列單元102經組配以判定多個分析窗,使得分析窗中之各者之窗長度取決於兩個或兩個以上輸入音訊物件信號中之至少一者的信號屬性。舉例而言,窗長度可取決於該分析窗是否包含指示兩個或兩個以上輸入音訊物件信號中之至少一者之信號改變的瞬態。
此外,該編碼器包含一t/f分析單元103,其用於將該等分析窗中之各者之時域信號樣本自時域變換至時間頻率域以獲得經變換之信號樣本。該t/f分析單元103可經組配以取決於該等分析窗中之各者之窗長度而變換該分析窗之多個時域信號樣本。
此外,該編碼器包含PSI估計單元104,其用於取決於經變換之信號樣本而判定參數旁側資訊。
在一實施例中,該編碼器可(例如)進一步包含一瞬態偵測單元101,其經組配以判定兩個或兩個以上輸入音訊物件信號之多個物件級差,且經組配以判定物件級差中 之第一者與物件級差中之第二者之間的差是否大於一臨限值以判定對於分析窗中之各者,該分析窗是否包含指示該等兩個或兩個以上輸入音訊物件信號中之至少一者之信號改變的瞬態。
根據一實施例,該瞬態偵測單元101經組配以使用一偵測函數d(n)判定物件級差中之第一者與物件級差中之第二者之間的差是否大於臨限值,其中將偵測函數d(n)定義為:
其中n指示時間索引,其中i指示第一物件,其中j指示第二物件,其中b指示參數頻帶。OLD可(例如)指示物件級差。
如稍後關於圖9所解釋,窗序列單元102可(例如)經組配以判定該等多個分析窗,使得指示兩個或兩個以上輸入音訊物件信號中之至少一者之信號改變的瞬態由該等多個分析窗中之第一分析窗且由該等多個分析窗中之第二分析窗包含,其中第一分析窗之中心c k 根據c k =t-l b 由瞬態之位置t定義,且第一分析窗之中心c k+1根據c k+1=t+l a 由瞬態之位置t定義,其中l a l b 為數目。
如稍後關於圖10所解釋,窗序列單元102可(例如)經組配以判定該等多個分析窗,使得指示兩個或兩個以上輸入音訊物件信號中之至少一者之信號改變的瞬態由該等多個分析窗中之第一分析窗包含,其中第一分析窗之中心c k 根據c k =t由瞬態之位置t定義,其中該等多個分析窗 中之第二分析窗之中心c k-1根據c k-1=t-l b 由瞬態之位置t定義,且其中該等多個分析窗中之第三分析窗之中心c k+1根據c k+1=t+l a 由瞬態之位置t定義,其中l a l b 為數目。
如稍後關於圖11所解釋,窗序列單元102可(例如)經組配以判定該等多個分析窗,使得該等多個分析窗中之各者包含第一數目個時域信號樣本或第二數目個時域信號樣本,其中時域信號樣本之第二數目大於時域信號樣本之第一數目,且其中當該等多個分析窗中之分析窗中的各者包含指示兩個或兩個以上輸入音訊物件信號中之至少一者之信號改變的瞬態時,該分析窗包含第一數目個時域信號樣本。
根據一實施例,t/f分析單元103經組配以藉由使用QMF濾波器組及奈奎斯濾波器組將分析窗中之各者的時域信號樣本自時域變換至時間頻率域,其中t/f分析單元103經組配以取決於該等分析窗中之各者之窗長度而變換該分析窗之多個時域信號樣本。
在下文中,描述根據實施例的使用反向相容調適性濾波器組之增強型SAOC。
首先,解釋藉由增強型SAOC解碼器解碼標準SAOC位元流。
增強型SAOC解碼器經設計使得其能夠按良好品質解碼來自標準SAOC編碼器之位元流。解碼僅限於參數重建構,且忽略可能的殘餘流。
圖6描繪根據一實施例的增強型SAOC解碼器之 方塊圖,其說明解碼標準SAOC位元流。粗黑功能方塊(132、133、134、135)指示本發明之處理。參數旁側資訊(PSI)由用以自解碼器中之個別物件產生降混信號(DMX音訊)的若干組物件級差(OLD)、物件間相關性(IOC)及降混矩陣D組成。每一參數集與定義該等參數相關聯之時間區域的一參數邊界相關聯。在標準SAOC中,將基礎時間/頻率表示之頻率區間分群成參數頻帶。該等頻帶之間距類似人類聽覺系統中的臨界頻帶之間距。此外,可將多個t/f表示框分群成一參數框。此等操作皆提供所需之旁側資訊之量的減少,伴隨的代價為模型化不準確性。
如在SAOC標準中所描述,OLD及IOC用以計算解混矩陣G=ED T J,其中E之元素為,近似於物件交互相關性矩陣,ij為物件索引,,且D T D之轉置。解混矩陣計算器131可經組配以如此計算解混矩陣。
解混矩陣接著由時間內插器132按照標準SAOC自參數框上的先前框之解混矩陣線性內插至到達估計之值所在之參數邊界。此導致對於每一時間/頻率分析窗及參數頻帶之解混矩陣。
解混矩陣之參數頻帶頻率解析度由窗頻率解析度調適單元133擴展至彼分析窗中的時間頻率表示之解析度。當將用於時間框中之參數頻帶b的內插之解混矩陣定義為G(b)時,將相同的解混係數用於在彼參數頻帶內部之所有頻率區間。
窗序列產生器134經組配以使用來自PSI之參數集範圍資訊判定適當開窗序列,以用於分析輸入降混音訊信號。主要要求在於,當在PSI中存在參數集邊界時,連續分析窗之間的跨越點應匹配該邊界。開窗亦判定每一窗(在解混資料擴展中所使用,如較早所描述)內的資料之頻率解析度。
經開窗之資料接著由t/f分析模組135使用適當時間頻率變換(例如,離散傅立葉變換(DFT)、複合經修改離散餘弦變換(CMDCT)或奇數堆疊離散傅立葉變換(ODFT))變換成頻域表示。
最後,解混單元136對降混信號X之頻譜表示應用每框每頻率區間解混矩陣,以獲得參考重建構Y。輸出聲道j為降混聲道之線性組合。
可藉由此過程獲得之品質係針對感知上不能與藉由標準SAOC解碼器獲得之結果相區別的多數目的。
應注意到,以上文字描述個別物件之重建構,但在標準SAOC中,呈現包括於解混矩陣中,亦即,其包括於參數內插中。作為線性運算,該等運算之次序無所謂,但差異值得注意。
在下文中,描述藉由增強型SAOC解碼器來解碼增強型SAOC位元流。
較早已在標準SAOC位元流之解碼中描述了增強型SAOC解碼器之主要功能性。此章節將詳述PSI中所引入之增強型SAOC增強可用於獲得較好感知品質。
圖7描繪根據一實施例的解碼器之主要方塊圖,其說明頻率解析度增強之解碼。粗黑功能方塊(132、133、134、135)指示本發明之處理。
首先,頻帶上值擴展單元141使每一參數頻帶之OLD及IOC值適宜於在增強中使用之頻率解析度,例如,適宜於1024個頻率區間。此係藉由複製對應於參數頻帶之頻率區間上的值來進行。此導致新的,及K(f,b)為藉由以下定義將頻率區間f指派至參數頻帶b之核心矩陣
與此同時,差量函數復原單元142反轉校正因數參數化以獲得與擴展之OLD及IOC相同大小之差量函數
接著,差量應用單元143對擴展之OLD值應用差量,且獲得之精細解析度OLD值藉由獲得。
在一特定實施例中,解混矩陣之計算可(例如)由解混矩陣計算器131進行,如同解碼標準SAOC位元流:G(f)=E(f)D T (f)J(f),其中,且。若想要,則可將呈現矩陣與解混矩陣G(f)相乘。藉由時間內插器132之時間內插遵循標準SAOC。
因為每一窗中之頻率解析度可與標稱高頻率解析度不同(通常低於標稱高頻率解析度),所以窗頻率解析度調適單元133需要調適解混矩陣以匹配來自音訊的頻譜資料之解析度以允許其應用。此可(例如)藉由將頻率軸上之係數重取樣至正確的解析度來進行。或者,若解析度為整數倍數,則僅自高解析度資料平均化對應於低解析度中之一個頻率區間的索引
來自位元流之開窗序列資訊可用以獲得與在編碼器中使用之時間頻率分析完全互補之時間頻率分析,或可基於參數邊界建構開窗序列,如在標準SAOC位元流解碼中所進行。為此,可使用窗序列產生器134。
降混音訊之時間頻率分析接著由t/f分析模組135使用給定窗進行。
最後,經時間內插及頻譜(可能)調適之解混矩陣由解混單元136應用於輸入音訊之時間頻率表示上,且可獲得輸出聲道j,作為輸入聲道之線性組合
在下文中,描述反向相容增強型SAOC編碼。
現在,描述產生含有反向相容旁側資訊部分及額外增強之位元流的增強型SAOC編碼器。現有標準SAOC解碼器可解碼PSI之反向相容部分,且產生物件之重建構。在多數情況下,由增強型SAOC解碼器使用之添加資訊改良重建構之感知品質。另外,若增強型SAOC解碼器正在有限資源上運作,則可忽略增強,且仍獲得基本品質重建 構。應注意到,自標準SAOC與僅使用標準SAOC相容PSI的增強型SAOC解碼器之重建構不同,但被判斷為感知上非常類似(差異具有與在藉由增強型SAOC解碼器解碼標準SAOC位元流時類似之性質)。
圖8說明根據一特定實施例的編碼器之方塊圖,其實施上述編碼器之參數路徑。粗黑功能方塊(102、103)指示本發明之處理。詳言之,圖8說明產生反向相容位元流之二級編碼之方塊圖(具有功能更強大的解碼器之增強)。
首先,將信號細分成分析框,接著將分析框變換至頻域。(例如)在MPEG SAOC中使用普通之16及32個分析框之長度將多個分析框分群成一固定長度參數框。假定,信號屬性在參數框期間保持準靜止,且可因此藉由僅一組參數來表徵。若信號特性在參數框內改變,則存在模型化錯誤,且其將在將較長參數框細分成再次滿足準靜止之假定的部分時有益。為此目的,需要瞬態偵測。
瞬態可由瞬態偵測單元101自所有輸入物件單獨地偵測,且當在該等物件中之僅一者中存在瞬態事件時,將彼位置宣稱為全域瞬態位置。將瞬態位置之資訊用於建構一適當開窗序列。建構可基於(例如)以下邏輯:
-設定一預設窗長度,亦即,預設信號變換區塊之長度,例如,2048個樣本。
-設定對應於具有50%重疊之4個預設窗的參數框長度,例如,4096個樣本。參數框將多個窗分群在一起,且 將單一組信號描述符用於整個區塊,而非分開來對於每一窗具有描述符。此允許減少PSI之量。
-若無瞬態已偵測到,則使用預設窗及全參數框長度。
-若偵測到瞬態,則調適開窗以提供在瞬態之位置處的較好時間解析度。
當建構開窗序列時,負責其之窗序列單元102亦自一或多個分析窗建立參數子框。將每一子集作為一實體進行分析,且對於每一子區塊,僅傳輸一組PSI參數。為了提供一標準SAOC相容PSI,將定義之參數區塊長度用作主要參數區塊長度,且在彼區塊內之可能的已定位瞬態定義參數子集。
輸出所建構之窗序列,用於由t/f分析單元103進行的輸入音訊信號之時間頻率分析,且在PSI之增強型SAOC增強部分中傳輸所建構之窗序列。
每一分析窗之頻譜資料由PSI估計單元104用於估計用於反向相容(例如,MPEG)SAOC部分之PSI。此係藉由將頻譜頻率區間分群成MPEG SAOC之參數頻帶且估計頻帶中之IOC、OLD及絕對物件能量(NRG)來進行。寬鬆地遵循MPEG SAOC之記數法,將參數化資料塊中的兩個物件頻譜S i (f,n)與S j (f,n)之正規化乘積定義為 其中矩陣K(b,f,n):定義自(此參數框中之N個框中 之)框n中的F n 個t/f表示頻率區間至參數B頻帶之映射,其藉由,且S S之複共軛。頻譜解析度可在單一參數區塊內之框間變化,因此映射矩陣將資料轉換成普通解析度基礎。將此參數化資料塊中之最大物件能量定義為最大物件能量。具有此值後,接著將OLD定義為經正規化之物件能量
且最後,可自交互功率獲得IOC:
此完成位元流之標準SAOC相容部分之估計。
粗略功率譜重建構單元105經組配以將OLD及NRG用於在參數分析區塊中重建構頻譜包絡之粗略估計。按在彼區塊中使用之最高頻率解析度建構該包絡。
每一分析窗之原始頻譜由功率譜估計單元106用於計算彼窗中之功率譜。
所獲得之功率譜由頻率解析度調適單元107變換成普通高頻率解析度表示。此可(例如)藉由內插功率譜值來進行。接著,藉由平均化參數區塊內之頻譜來計算平均功率譜輪廓。此粗略地對應於忽略了參數頻帶聚集之OLD 估計。將所獲得之頻譜輪廓視為精細解析度OLD。
差量估計單元108經組配以估計校正因數“△”,例如,藉由用粗略功率譜重建構劃分精細解析度OLD。結果,此針對每一頻率區間提供可用於估算精細解析度OLD(給定粗略頻譜)之(乘法)校正因數。
最後,差量模型化單元109經組配以按有效率之方式模型化所估計之校正因數以供傳輸。
有效地,對位元流之增強型SAOC修改由開窗序列資訊及用於傳輸“差量”之參數組成。
在下文中,描述瞬態偵測。
當信號特性保持準靜止時,可藉由將若干時間框組合成參數區塊來獲得編碼增益(關於旁側資訊之量)。舉例而言,在標準SAOC中,常使用之值為每一個參數區塊16及32個QMF框。此等分別對應於1024及2048個樣本。參數區塊之長度可預先設定至一固定值。其具有之一直接效果為編碼解碼器延遲(編碼器必須具有全框以能夠將其編碼)。當使用長參數區塊時,偵測信號特性之顯著改變將為有益的,尤其當違反了準靜止假定時。在找到了顯著改變之位置後,可在其處劃分時域信號,且該等部分可再次較好地滿足準靜止假定。
此處,描述待與SAOC一起使用之新穎瞬態偵測方法。考究性地看,其並不旨在偵測瞬態,而改為亦可(例如)藉由聲音偏移觸發的信號參數化之改變。
將輸入信號分成短的重疊框,且將該等框變換至 頻域,例如,藉由離散傅立葉變換(DFT)。藉由將該等值與其複共軛相乘(亦即,將其絕對值自乘)將複頻譜變換成功率譜。接著,使用類似於在標準SAOC中使用之參數頻帶分群的參數頻帶分群,且計算每一物件中的每一時間框中之每一參數頻帶之能量。簡言之,運算為 其中S i (f,n)為時間框n中的物件i之複頻譜。在頻帶b中之頻率區間f上進行求和。為了自資料移除一些雜訊效應,藉由一階IIR濾波器對該等值進行低通濾波: 其中為濾波器回饋係數,例如,a LP =0.9。
SAOC中之主要參數化為物件級差(OLD)。所提議之偵測方法試圖偵測OLD將改變之時間。因此,藉由檢察所有物件對。藉由以下將所有唯一物件對之改變共計成偵測函數
將所獲得之值與臨限值T比較以濾除小的級偏離,且施行連續偵測之間的最小距離L。因此,偵測函數為
在下文中,描述增強型SAOC頻率解析度。
自標準SAOC分析獲得之頻率解析度限於在標準SAOC中具有最大值28的參數頻帶之數目。其自由64頻帶QMF分析接著為對最低頻帶之混合濾波階段(進一步 將其分成高達4個複子頻帶)組成之混合濾波器組獲得。將所獲得之頻帶分群成模仿人類聽覺系統之關鍵頻帶解析度的參數頻帶。分群允許減少所需旁側資訊資料速率。
給定合理的低資料速率,現有系統產生合理的分離品質。主要問題為用於音調聲音之清晰分離的不充分之頻率解析度。此展現為包圍物件之音調分量的其他物件之“暈(halo)”。感知上,將此觀測為不調合或聲碼器狀偽訊。可藉由增加參數頻率解析度來減少此暈之不利效應。注意,等於或高於512個頻帶(在44.1kHz取樣速率下)之解析度感知上產生測試信號之良好分離。可藉由擴展現有系統之混合濾波階段來獲得此解析度,但混合濾波器將需要具有用於充分分離之相當高的階,從而導致高的計算成本。
獲得所需頻率解析度之簡單方式為使用基於DFT之時間頻率變換。可經由快速傅立葉變換(FFT)演算法有效率地實施此等變換。替代正常DFT,將CMDCT或ODFT視為替代方案。差異在於,後兩者為臨時的,且所獲得之頻譜含有純的正及負頻率。與DFT相比,頻率區間移位0.5個頻率區間寬度。在DFT中,頻率區間中之一者在0Hz處居中,且另一者在奈奎斯頻率處居中。ODFT與CMDCT之間的差異在於,CMDCT含有影響相位頻譜之一額外後調變操作。自此之益處在於,所得複頻譜由經修改離散餘弦變換(MDCT)及經修改離散正弦變換(MDST)組成。
長度N的基於DFT之變換產生具有N個值之複頻譜。當變換之序列為真值時,此等值中僅N/2個需要用於完美的重建構;另外的N/2個值可藉由簡單的操縱自所給定者獲得。分析通常根據以下操作進行:自信號取得N個時域樣本之一框,對值應用開窗函數,以及接著計算關於經開窗之資料的實際變換。連續區塊在時間上重疊50%,且開窗函數經設計使得連續窗之平方將共計為整體。此保證當對資料應用開窗函數兩次時(一次分析時域信號,且第二次在合成變換之後在重疊相加之前),無信號修改之分析加合成鏈無損失。
倘若給定連續框與2048個樣本之框長度之間的50%重疊,則有效時間解析度為1024個樣本(對應於44.1kHz取樣速率下23.2ms)。因兩個原因,此並不夠小:首先,將需要能夠解碼由標準SAOC編碼器產生之位元流,且其次,若必要,按較精細時間解析度分析增強型SAOC編碼器中之信號。
在SAOC中,可將多個區塊分群成參數框。假定信號屬性在參數框上保持足夠類似,以便其用單一參數集來表徵。在標準SAOC中通常遇到之參數框長度為16或32個QMF框(該標準允許高達72之長度)。當使用具有高頻率解析度之濾波器組時,可進行類似的分群。當信號屬性在參數框期間不改變時,分群提供編碼效率,而無品質降級。然而,當信號屬性在參數框內改變時,分群誘發錯誤。標準SAOC允許定義預設分群長度,其供準靜止信號 使用,但亦定義參數子區塊。子區塊定義比預設長度短之分群,且單獨地對每一子區塊進行參數化。由於基礎QMF組之時間解析度,所得時間解析度為64個時域樣本,其比可使用具有高頻率解析度之固定濾波器組獲得之解析度精細得多。此要求影響增強型SAOC解碼器。
使用具有大變換長度之濾波器組提供良好的頻率解析度,但同時時間解析度降級(所謂的不確定原理)。若信號屬性在單一分析框內改變,則低時間解析度可造成合成輸出中之模糊。因此,在相當大的信號改變之位置中獲得子框時間解析度將為有益的。子框時間解析度自然地導致較低頻率解析度,但假定在信號改變期間,時間解析度為待準確捕獲之更重要態樣。此子框時間解析度要求主要影響增強型SAOC編碼器(且因此,亦影響解碼器)。
可在兩個情況下使用相同解析度原理:當信號為準靜止(未偵測到瞬態)時且當不存在參數邊界時,使用長分析框。當不滿足兩個條件中之任一者時,使用區塊長度切換方案。此條件之一例外可為駐留於未劃分之框群組之間且與兩個長窗之間的跨越點重合的參數邊界(在解碼標準SAOC位元流時)。假定,在此情況下,對於高解析度濾波器組,信號屬性保持足夠靜止。當傳訊參數邊界(自位元流或瞬態偵測器)時,調整成框以使用較小的框長度,因此局部地改良時間解析度。
前兩個實施例使用相同的基礎窗序列建構機制。對於窗長度N,針對索引,定義原型窗函數 f(n,N)。設計單一窗w k (n)需要三個控制點,即,先前窗、當前窗及下一窗之中心--c k-1c k c k+1
使用該等控制點,將開窗函數定義為
實際窗位置則為,其中。在說明中使用之原型窗函數為正弦窗,其定義為 但亦可使用其他形式。
在下文中,描述根據一實施例的在瞬態之跨越。
圖9為“在瞬態之跨越”區塊切換方案之原理之說明。詳言之,圖9說明正常開窗序列之調適以適應瞬態時之窗跨越點。線111表示時域信號樣本,垂直線112表示偵測到之瞬態的位置t(或自位元流之參數邊界),且線113說明開窗函數及其時間範圍。此方案需要決定在瞬態周圍的兩個窗w k w k+1之間的重疊,從而定義窗陡度。將重疊長度設定至小值時,窗靠近瞬態具有其最大點,且該等區段與瞬態衰減快速處相交。重疊長度亦可在瞬態之前與之後不同。在此方法中,將在長度上調整包圍瞬態的兩個窗或框。瞬態之位置將周圍窗之中心定義為c k =t-l b c k+1=t+l a ,其中l b l a 分別為瞬態之前及之後的重疊長度。在此等經定義之情況下,可使用以上等式。
在下文中,描述根據一實施例的瞬態隔離。
圖10說明根據一實施例的瞬態隔離區塊切換方案之原理。短窗w k 在瞬態上居中,且兩個相鄰窗w k-1w k+1經調整以補充短窗。有效地,相鄰窗限於瞬態位置,因此先前窗僅含有瞬態前之信號,且接下來的窗僅含有瞬態後之信號。在此方法中,瞬態定義三個窗之中心c k-1=t-l b c k =tc k+1=t+l a ,其中l b l a 定義瞬態前及後之所要的窗範圍。在此等經定義之情況下,可使用以上等式。
在下文中,描述根據一實施例的AAC狀成框。
可能並不始終需要兩個較早開窗方案之自由度。在感知音訊編碼之領域中亦使用不同的瞬態處理。因此目標為減少將造成所謂的前回音之瞬態之時間散佈。在MPEG-2/4 AAC[AAC]中,使用兩個基本窗長度:長(具有2048樣本長度)及短(具有256樣本長度)。除了此等兩個之外,亦定義兩個過渡窗以實現自長至短之過渡且反之亦然。作為一額外約束,需要短窗按8個窗之群組出現。以此方式,窗與窗群組之間的步幅保持1024個樣本之恆定值。
若SAOC系統將基於AAC之編碼解碼器用於物件信號、降混或物件殘餘,則具有可易於與編碼解碼器同步之成框方案將為有益的。為此原因,描述基於AAC窗之區塊切換方案。
圖11描繪AAC狀區塊切換實例。詳言之,圖11說明具有瞬態及所得AAC狀開窗序列之同一信號。可看出,瞬態之時間位置覆蓋有8個短窗,其由自及至長窗 之過渡窗包圍。自該說明可看出,瞬態自身既不在單一窗中居中,亦不在兩個窗之間的跨越點處居中。此係因為窗位置固定至一網格,但此網格同時保證恆定步幅。與藉由僅使用長窗造成之誤差相比,假定所得時間捨入誤差足夠小以在感知上不相關。
將該等窗定義為:
-長窗:w LONG (n)=f(n,N LONG ),其中N LONG =2048。
-短窗:w SHORT (n)=f(n,N SHORT ),其中N SHORT =256。
-自長至短之過渡窗
-自短至長之過渡窗w STOP (n)=w START (N LONG -n-1)。
在下文中,描述根據實施例的實施變體。
無關於區塊切換方案,另一設計選擇為實際t/f變換之長度。若主要目標為保持下列頻域操作在分析框上簡單,則可使用恆定變換長度。將長度設定至一適當的大值,例如,對應於最長允許框之長度。若時域框短於此值,則將其補零至全長。應注意到,即使在補零後頻譜具有較大量頻率區間,與較短變換相比,實際變換之量仍未增加。在此情況下,對於所有值n,核心矩陣K(b,f,n)具有相同的維度。
另一替代方案為無補零地變換經開窗之框。此具有比在恆定變換長度之情況下小的計算複雜性。然而,需要藉由核心矩陣K(b,f,n)考量連續框之間的不同頻率解析度。
在下文中,描述根據一實施例的擴展之混合濾波。
對於獲得較高頻率解析度之另一可能性將為為獲得更精細解析度而修改在標準SAOC中使用之混合濾波器組。在標準SAOC中,僅使64個QMF頻帶中之最低三個穿過奈奎斯濾波器組,從而進一步細分頻帶內容。
圖12說明擴展之QMF混合濾波。針對每一QMF頻帶單獨地重複奈奎斯濾波器,且為獲得單一高解析度頻譜而組合輸出。詳言之,圖12說明如何獲得與基於DFT之方法相當的頻率解析度將需要將每一QMF頻帶細分成(例如)16個子頻帶(需要複合濾波成32個子頻帶)。此方法之缺點在於,歸因於頻帶之狹窄,所需之濾波器原型長。此造成一些處理延遲,且增加了計算複雜性。
一替代方式為藉由用有效率的濾波器組/變換(例如,“變比”DFT、離散餘弦變換等)替換該等成組之奈奎斯濾波器來實施擴展之混合濾波。此外,由第一濾波器級(此處:QMF)之洩漏效應造成的在所得高解析度頻譜係數中含有之頻疊可實質上藉由高解析度頻譜係數之頻疊消除後處理來減少,其類似於熟知MPEG-1/2層3混合濾波器組[FB][MPEG-1]。
圖1b說明根據一對應實施例的用於自包含多個時域降混樣本之一降混信號產生包含一或多個音訊輸出聲道之一音訊輸出信號之解碼器。該降混信號編碼兩個或兩個以上音訊物件信號。
該解碼器包含一第一分析子模組161,其用於變換該等多個時域降混樣本以獲得包含多個子頻帶樣本之多個子頻帶。
此外,解碼器包含一窗序列產生器162,其用於判定多個分析窗,其中該等分析窗中之各者包含該等多個子頻帶中之一者之多個子頻帶樣本,其中該等多個分析窗中之每一分析窗具有指示該分析窗之子頻帶樣本之數目的一窗長度。窗序列產生器162經組配以判定多個分析窗(例如,基於參數旁側資訊),使得分析窗中之各者之窗長度取決於兩個或兩個以上音訊物件信號中之至少一者的信號屬性。
此外,該解碼器包含一第二分析模組163,其用於取決於該等多個分析窗中之每一分析窗之窗長度變換該分析窗之多個子頻帶樣本,以獲得經變換之降混。
此外,解碼器包含一解混單元164,其用於基於關於兩個或兩個以上音訊物件信號之參數旁側資訊對經變換之降混進行解混,以獲得音訊輸出信號。
換言之,按兩個階段進行變換。在第一變換階段,產生各包含多個子頻帶樣本之多個子頻帶。接著,在第二階段中,進行再一變換。其中,用於第二階段之分析 窗判定所得經變換之降混的時間解析度及頻率解析度。
圖13說明將短窗用於變換之一實例。使用短窗導致低頻率解析度,但導致高的時間解析度。當瞬態存在於經編碼之音訊物件信號中時,使用短窗可(例如)為適當的(u i,j 指示子頻帶樣本,且vs,r指示時間頻率域中的經變換之降混之樣本)。
圖14說明將比在圖13之實例中長的窗用於變換之一實例。使用長窗導致高頻率解析度,但導致低的時間解析度。當瞬態不存在於經編碼之音訊物件信號中時,使用長窗可(例如)為適當的。(再次,u i,j 指示子頻帶樣本,且v s,r 指示時間頻率域中的經變換之降混之樣本)。
圖2b說明根據一實施例的用於編碼兩個或兩個以上輸入音訊物件信號之一對應的編碼器。該等兩個或兩個以上輸入音訊物件信號中之各者包含多個時域信號樣本。
該編碼器包含一第一分析子模組171,其用於變換該等多個時域信號樣本以獲得包含多個子頻帶樣本之多個子頻帶。
此外,該編碼器包含一窗序列單元172,其用於判定多個分析窗,其中該等分析窗中之各者包含該等多個子頻帶中之一者之多個子頻帶樣本,其中該等多個分析窗中之各者具有指示該分析窗的子頻帶樣本之數目之一窗長度,其中該窗序列單元172經組配以判定該等多個分析窗,使得該等分析窗中之各者之窗長度取決於兩個或兩個以上 輸入音訊物件信號中之至少一者的信號屬性。例如,一(可選)瞬態偵測單元175可提供關於瞬態是否存在於至窗序列單元172的輸入音訊物件信號中之一者中之資訊。
此外,該編碼器包含一第二分析模組173,其用於取決於該等多個分析窗中之每一分析窗之窗長度而變換該分析窗之多個子頻帶樣本,以獲得經變換之信號樣本。
此外,該編碼器包含一PSI估計單元174,其用於取決於經變換之信號樣本而判定參數旁側資訊。
根據其他實施例,可存在用於在兩個階段中進行分析之兩個分析模組,但第二模組可取決於信號屬性而接通及斷開。
舉例而言,若需要高頻率解析度且低時間解析度為可接受的,則接通第二分析模組。
相比之下,若需要高時間解析度且低頻率解析度為可接受的,則斷開第二分析模組。
圖1c說明根據此實施例的用於自降混信號產生包含一或多個音訊輸出聲道之音訊輸出信號之解碼器。該降混信號編碼一或多個音訊物件信號。
該解碼器包含一控制單元181,其用於取決於該一或多個音訊物件信號中之至少一者的信號屬性而將一啟動指示設定至一啟動狀態。
此外,該解碼器包含一第一分析模組182,其用於變換該降混信號以獲得包含多個第一子頻帶聲道的第一經變換之降混。
此外,該解碼器包含一第二分析模組183,其用於當該啟動指示被設定至該啟動狀態時藉由變換第一子頻帶聲道中之至少一者以獲得多個第二子頻帶聲道來產生第二經變換之降混,其中該第二經變換之降混包含尚未由第二分析模組變換之第一子頻帶聲道及第二子頻帶聲道。
此外,該解碼器包含一解混單元184,其中該解混單元184經組配以當啟動指示被設定至啟動狀態時,基於關於一或多個音訊物件信號之參數旁側資訊對第二經變換之降混進行解混以獲得音訊輸出信號,且當啟動指示未設定至啟動狀態時,基於關於一或多個音訊物件信號之參數旁側資訊對第一經變換之降混進行解混以獲得音訊輸出信號。
圖15說明需要高頻率解析度且低時間解析度可接受之一實例。因此,控制單元181藉由將啟動指示設定至啟動狀態(例如,藉由將布林變數“activation_indication”設定至“activation_indication=真”)來接通第二分析模組。降混信號由第一分析模組182(圖15中未展示)變換,以獲得第一經變換之降混。在圖15之實例中,經變換之降混具有三個子頻帶。在更現實的應用情境中,經變換之降混可(例如)具有(例如)32或64個子頻帶。接著,第一經變換之降混由第二分析模組183(圖15中未展示)變換,以獲得第二經變換之降混。在圖15之實例中,經變換之降混具有九個子頻帶。在更現實的應用情境中,經變換之降混可(例如)具有(例如)512、1024或2048 個子頻帶。解混單元184將接著對第二經變換之降混進行解混以獲得音訊輸出信號。
舉例而言,解混單元184可自控制單元181接收啟動指示。或者,舉例而言,無論何時在解混單元184自第二分析模組183接收到第二經變換之降混時,解混單元184得出結論,必須對第二經變換之降混進行解混;無論何時在解混單元184不自第二分析模組183接收到第二經變換之降混時,解混單元184得出結論,必須對第一經變換之降混進行解混。
圖16說明需要高時間解析度且低頻率解析度可接受之一實例。因此,控制單元181藉由將啟動指示設定至與啟動狀態不同之狀態(例如,藉由將布林變數“activation_indication”設定至“activation_indication=假”)來斷開第二分析模組。降混信號由第一分析模組182(圖16中未展示)變換,以獲得第一經變換之降混。接著,與圖15相反,第一經變換之降混並未再一次由第二分析模組183變換。實情為,解混單元184將對第一個第二經變換之降混進行解混以獲得音訊輸出信號。
根據一實施例,控制單元181經組配以取決於一或多個音訊物件信號中之至少一者是否包含指示該一或多個音訊物件信號中之至少一者之信號改變的瞬態而將啟動指示設定至啟動狀態。
在另一實施例中,將子頻帶變換指示指派至第一子頻帶聲道中之各者。控制單元181經組配以取決於一或 多個音訊物件信號中之至少一者的信號屬性而將第一子頻帶聲道中之各者之子頻帶變換指示設定至一子頻帶變換狀態。此外,第二分析模組183經組配以變換第一子頻帶聲道中之各者(其子頻帶變換指示被設定至該子頻帶變換狀態),以獲得多個第二子頻帶聲道,且不變換第二子頻帶聲道中之各者(其子頻帶變換指示未設定至該子頻帶變換狀態)。
圖17說明控制單元181(圖17中未展示)確實將第二子頻帶之子頻帶變換指示設定至子頻帶變換狀態(例如,藉由將布林變數“subband_transform_indication_2”設定至“subband transform_indication_2=真”)之一實例。因此,第二分析模組183(圖17中未展示)變換第二子頻帶以獲得三個新的“精細解析度”子頻帶。在圖17之實例中,控制單元181不將第一及第三子頻帶之子頻帶變換指示設定至該子頻帶變換狀態(例如,此可由控制單元181藉由將布林變數“subband_transform_indication_1”及“subband_transform_indication_3”設定至“subband transform_indication_1=假”及“subband transform_indication_3=假”來指示)。因此,第二分析模組183不變換第一及第三子頻帶。實情為,第一子頻帶及第三子頻帶自身被用作第二經變換之降混的子頻帶。
圖18說明控制單元181(圖18中未展示)確實將第一及第二子頻帶之子頻帶變換指示設定至子頻帶變換狀態(例如,藉由將布林變數 “subband_transform_indication_1”設定至“subband transform_indication_1=真”,及例如藉由將布林變數“subband_transform_indication_2”設定至“subband transform_indication_2=真”)之一實例。因此,第二分析模組183(圖18中未展示)變換第一及第二子頻帶以獲得六個新的“精細解析度”子頻帶。在圖18之實例中,控制單元181不將第三子頻帶之子頻帶變換指示設定至該子頻帶變換狀態(例如,此可由控制單元181藉由將布林變數“subband_transform_indication_3”設定至“subband transform_indication_3=假”來指示)。因此,第二分析模組183不變換第三子頻帶。實情為,第三子頻帶自身被用作第二經變換之降混的子頻帶。
根據一實施例,第一分析模組182經組配以藉由使用正交鏡相濾波器(QMF)變換降混信號以獲得包含多個第一子頻帶聲道的第一經變換之降混。
在一實施例中,第一分析模組182經組配以取決於第一分析窗長度而變換降混信號,其中第一分析窗長度取決於該信號屬性,及/或第二分析模組183經組配以當啟動指示被設定至啟動狀態時藉由取決於第二分析窗長度變換第一子頻帶聲道中之至少一者來產生第二經變換之降混,其中第二分析窗長度取決於該信號屬性。此實施例實現接通及斷開第二分析模組183,及設定分析窗之長度。
在一實施例中,解碼器經組配以自降混信號產生包含一或多個音訊輸出聲道之音訊輸出信號,其中降混信 號編碼兩個或兩個以上音訊物件信號。控制單元181經組配以取決於該等兩個或兩個以上音訊物件信號中之至少一者的信號屬性而將啟動指示設定至啟動狀態。此外,解混單元184經組配以當啟動指示被設定至啟動狀態時,基於關於一或多個音訊物件信號之參數旁側資訊對第二經變換之降混進行解混以獲得音訊輸出信號,且當啟動指示未設定至啟動狀態時,基於關於兩個或兩個以上音訊物件信號之參數旁側資訊對第一經變換之降混進行解混以獲得音訊輸出信號。
圖2c說明根據一實施例的用於編碼輸入音訊物件信號之編碼器。
該編碼器包含一控制單元191,其用於取決於輸入音訊物件信號之信號屬性而將啟動指示設定至啟動狀態。
此外,該編碼器包含一第一分析模組192,其用於變換該輸入音訊物件信號以獲得第一經變換之音訊物件信號,其中該第一經變換之音訊物件信號包含多個第一子頻帶聲道。
此外,該編碼器包含一第二分析模組193,其用於當啟動指示被設定至啟動狀態時藉由變換多個第一子頻帶聲道中之至少一者以獲得多個第二子頻帶聲道來產生第二經變換之音訊物件信號,其中該第二經變換之音訊物件信號包含尚未由第二分析模組變換之第一子頻帶聲道及第二子頻帶聲道。
此外,該編碼器包含一PSI估計單元194,其中該PSI估計單元194經組配以當啟動指示被設定至啟動狀態時,基於該第二經變換之音訊物件信號判定參數旁側資訊,且當啟動指示未設定至啟動狀態時,基於該第一經變換之音訊物件信號判定參數旁側資訊。
根據一實施例,控制單元191經組配以取決於輸入音訊物件信號是否包含指示輸入音訊物件信號之信號改變的瞬態而將啟動指示設定至啟動狀態。
在另一實施例中,將子頻帶變換指示指派至第一子頻帶聲道中之各者。控制單元191經組配以取決於輸入音訊物件信號之信號屬性而將第一子頻帶聲道中之各者之子頻帶變換指示設定至一子頻帶變換狀態。第二分析模組193經組配以變換第一子頻帶聲道中之各者(其子頻帶變換指示被設定至該子頻帶變換狀態),以獲得多個第二子頻帶聲道,且不變換第二子頻帶聲道中之各者(其子頻帶變換指示未設定至該子頻帶變換狀態)。
根據一實施例,第一分析模組192經組配以藉由使用正交鏡相濾波器變換輸入音訊物件信號中之各者。
在另一實施例中,第一分析模組192經組配以取決於第一分析窗長度而變換輸入音訊物件信號,其中第一分析窗長度取決於該信號屬性,及/或第二分析模組193經組配以當啟動指示被設定至啟動狀態時藉由取決於第二分析窗長度變換多個第一子頻帶聲道中之至少一者來產生第二經變換之音訊物件信號,其中第二分析窗長度取決於該 信號屬性。
根據另一實施例,編碼器經組配以編碼輸入音訊物件信號及至少一另外的輸入音訊物件信號。控制單元191經組配以取決於輸入音訊物件信號之信號屬性且取決於至少一另外的輸入音訊物件信號之信號屬性而將啟動指示設定至啟動狀態。第一分析模組192經組配以變換至少一另外的輸入音訊物件信號以獲得至少一另外的第一經變換之音訊物件信號,其中該至少一另外的第一經變換之音訊物件信號中之各者包含多個第一子頻帶聲道。第二分析模組193經組配以當啟動指示被設定至啟動狀態時變換該至少一另外的第一經變換之音訊物件信號中之至少一者的多個第一子頻帶聲道中之至少一者以獲得多個另外的第二子頻帶聲道。此外,PSI估計單元194經組配以當啟動指示被設定至啟動狀態時基於多個另外的第二子頻帶聲道判定參數旁側資訊。
本發明之方法及裝置緩解了使用固定濾波器組或時間頻率變換的目前SAOC處理之前述缺點。藉由動態地調適用以分析及同步化SAOC內之音訊物件的變換或濾波器組之時間/頻率解析度,可獲得較好的主觀音訊品質。同時,可最小化在同一SAOC系統內的因缺乏時間精確度而造成的如前及後回音之偽訊及由不充分之頻譜精確度造成的如可聞不調合及雙通話之偽訊。更重要地,裝備有本發明之調適性變換的增強型SAOC系統維持與標準SAOC之反向相容性,仍提供與標準SAOC之感知品質相當的良 好感知品質。
實施例提供如上所述的一種音訊編碼器或音訊編碼之方法或有關電腦程式。此外,實施例提供如上所述的一種音訊編碼器或音訊解碼之方法或有關電腦程式。此外,實施例提供如上所述的一種經編碼之音訊信號或已儲存了經編碼之音訊信號之儲存媒體。
雖然已在一裝置之上下文中描述了一些態樣,但顯然,此等態樣亦表示對應的方法之描述,其中一區塊或器件對應於一方法步驟或一方法步驟之一特徵。類似地,在方法步驟之上下文中描述的態樣亦表示對應的裝置之對應區塊或項目或特徵之描述。
本發明之分解信號可儲存於數位儲存媒體上,或可在諸如無線傳輸媒體或有線傳輸媒體(諸如,網際網路)之傳輸媒體上傳輸。
取決於某些實施要求,本發明之實施例可以硬體或以軟體實施。可使用具有儲存於其上之電子可讀控制信號的例如軟性磁碟、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH記憶體之數位儲存媒體執行該實施,電子可讀控制信號與(或能夠與)可程式化電腦系統協作,使得各別方法得以執行。
根據本發明之一些實施例包含具有電子可讀控制信號之非暫時性資料載體,電子可讀控制信號能夠與可程式化電腦系統協作,使得本文中描述的方法中之一者得以執行。
大體上,可將本發明之實施例實施為具有程式碼之電腦程式產品,程式碼可操作以用於當電腦程式產品在電腦上執行時執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含儲存於機器可讀載體上的用於執行本文中描述的方法中之一者之電腦程式。
換言之,本發明之方法之一實施例因此為具有程式碼之電腦程式,該程式碼用於當電腦程式在電腦上執行時執行本文中描述的方法中之一者。
本發明之再一實施例因此為資料載體(或數位儲存媒體或電腦可讀媒體),其包含記錄於其上的用於執行本文中描述的方法中之一者之電腦程式。
本發明之再一實施例因此為資料流或一連串信號,其表示用於執行本文中描述的方法中之一者之電腦程式。該資料流或該一連串信號可(例如)經組配以經由資料通訊連接(例如,經由網際網路)傳送。
再一實施例包含一種處理構件(例如,電腦或可程式化邏輯器件),其經組配或調適以執行本文中描述的方法中之一者。
再一實施例包含一種電腦,其具有安裝於其上用於執行本文中描述的方法中之一者之電腦程式。
在一些實施例中,可使用可程式化邏輯器件(例如,場可程式化閘陣列)執行本文中描述的方法之一些或全部功能性。在一些實施例中,場可程式化閘陣列可與微處 理器協作以便執行本文中描述的方法中之一者。通常,該等方法較佳地由任一硬體裝置執行。
上述實施例僅為說明本發明之原理。應理解,本文中描述的配置及細節之修改及變化將對其他熟習此項技術者顯而易見。因此,其僅受到即將出現的專利申請專利範圍之範疇限制,且不受藉由本文中之實施例之描述及解釋而呈現的特定細節限制。
參考文獻
[BCC] C. Faller and F. Baumgarte,“Binaural Cue Coding - Part II: Schemes and applications,”IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
[JSC] C. Faller,“Parametric Joint-Coding of Audio Sources”, 120th AES Convention, Paris, 2006.
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April, 2007.
[SAOC2] J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hölzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam, 2008.
[SAOC] ISO/IEC,“MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC),”ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010.
[AAC] Bosi, Marina; Brandenburg, Karlheinz; Quackenbush, Schuyler; Fielder, Louis; Akagiri, Kenzo; Fuchs, Hendrik; Dietz, Martin,“ISO/IEC MPEG-2 Advanced Audio Coding”, J. Audio Eng. Soc, vol 45, no 10, pp. 789-814, 1997.
[ISS1] M. Parvaix and L. Girin:“Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding”, IEEE ICASSP, 2010.
[ISS2] M. Parvaix, L. Girin, J.-M. Brossier:“A watermarking-based method for informed source separation of audio signals with a single sensor”, IEEE Transactions on Audio, Speech and Language Processing, 2010.
[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard:“Informed source separation through spectrogram coding and data embedding”, Signal Processing Journal, 2011.
[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard:“Informed source separation: source coding meets source separation”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.
[ISS5] Shuhua Zhang and Laurent Girin:“An Informed Source Separation System for Speech Signals”, INTERSPEECH, 2011.
[ISS6] L. Girin and J. Pinel:“Informed Audio Source Separation from Compressed Linear Stereo Mixtures”, AES 42nd International Conference: Semantic Audio, 2011.
[ISS7] Andrew Nesbit, Emmanuel Vincent, and Mark D. Plumbley:“Benchmarking flexible adaptive time-frequency transforms for underdetermined audio source separation”, IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 37-40, 2009.
[FB] B. Edler, "Aliasing reduction in subbands of cascaded filterbanks with decimation", Electronic Letters, vol. 28, No. 12, pp. 1104-1106, June 1992.
[MPEG-1] ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 11172, Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s,1993.
181‧‧‧控制單元
182‧‧‧第一分析模組
183‧‧‧第二分析模組
184‧‧‧解混單元

Claims (15)

  1. 一種用於自一降混信號產生包含一或多個音訊輸出聲道之一音訊輸出信號之解碼器,其中該降混信號編碼一或多個音訊物件信號,其中該解碼器包含:一控制單元,其用於取決於該一或多個音訊物件信號中之至少一者的一信號屬性而將一啟動指示設定至一啟動狀態,一第一分析模組,其用於變換該降混信號以獲得包含多個第一子頻帶聲道的一第一經變換之降混,一第二分析模組,其用於當該啟動指示被設定至該啟動狀態時藉由變換該等第一子頻帶聲道中之至少一者以獲得多個第二子頻帶聲道來產生一第二經變換之降混,其中該第二經變換之降混包含尚未由該第二分析模組變換之該等第一子頻帶聲道及該等第二子頻帶聲道,以及一解混單元,其中該解混單元經組配以當該啟動指示被設定至該啟動狀態時,基於關於該一或多個音訊物件信號之參數旁側資訊對該第二經變換之降混進行解混以獲得該音訊輸出信號,且當該啟動指示未設定至該啟動狀態時,基於關於該一或多個音訊物件信號之該參數旁側資訊對該第一經變換之降混進行解混以獲得該音訊輸出信號。
  2. 如請求項1之解碼器,其中該控制單元經組配以取決於 該一或多個音訊物件信號中之至少一者是否包含指示該一或多個音訊物件信號中之該至少一者之一信號改變的一瞬態而將該啟動指示設定至該啟動狀態。
  3. 如請求項1或2之解碼器,其中一子頻帶變換指示被指派至該等第一子頻帶聲道中之各者,其中該控制單元經組配以取決於該一或多個音訊物件信號中之至少一者的該信號屬性而將該等第一子頻帶聲道中之各者之該子頻帶變換指示設定至一子頻帶變換狀態,且其中該第二分析模組經組配以變換該等第一子頻帶聲道中之該子頻帶變換指示被設定至該子頻帶變換狀態的每一子頻帶聲道,以獲得該等多個第二子頻帶聲道,且不變換該等第二子頻帶聲道中之該子頻帶變換指示未設定至該子頻帶變換狀態的每一子頻帶聲道。
  4. 如前述請求項中任一項之解碼器,其中該第一分析模組經組配以藉由使用一正交鏡相濾波器來變換該降混信號以獲得包含該等多個第一子頻帶聲道的該第一經變換之降混。
  5. 如前述請求項中任一項之解碼器,其中該第一分析模組經組配以取決於一第一分析窗長度而變換該降混信號,其中該第一分析窗長度取決於該信號屬性,或其中該第二分析模組經組配以當該啟動指示被設 定至該啟動狀態時,藉由取決於一第二分析窗長度變換該等第一子頻帶聲道中之該至少一者來產生該第二經變換之降混,其中該第二分析窗長度取決於該信號屬性。
  6. 如前述請求項中任一項之解碼器,其中該解碼器經組配以自該降混信號產生包含一或多個音訊輸出聲道之該音訊輸出信號,其中該降混信號編碼兩個或兩個以上音訊物件信號,其中該控制單元經組配以取決於該等兩個或兩個以上音訊物件信號中之至少一者的該信號屬性而將該啟動指示設定至該啟動狀態,且其中該解混單元經組配以當該啟動指示被設定至該啟動狀態時,基於關於該一或多個音訊物件信號之參數旁側資訊對該第二經變換之降混進行解混以獲得該音訊輸出信號,且當該啟動指示未設定至該啟動狀態時,基於關於該等兩個或兩個以上音訊物件信號之該參數旁側資訊對該第一經變換之降混進行解混以獲得該音訊輸出信號。
  7. 一種用於編碼一輸入音訊物件信號之編碼器,其中該編碼器包含:一控制單元,其用於取決於該輸入音訊物件信號之一信號屬性而將一啟動指示設定至一啟動狀態,一第一分析模組,其用於變換該輸入音訊物件信號以獲得一第一經變換之音訊物件信號,其中該第一經變 換之音訊物件信號包含多個第一子頻帶聲道,一第二分析模組,其用於當該啟動指示被設定至該啟動狀態時藉由變換該等多個第一子頻帶聲道中之至少一者以獲得多個第二子頻帶聲道來產生一第二經變換之音訊物件信號,其中該第二經變換之音訊物件信號包含尚未由該第二分析模組變換之該等第一子頻帶聲道及該等第二子頻帶聲道,以及一PSI估計單元,其中該PSI估計單元經組配以當該啟動指示被設定至該啟動狀態時,基於該第二經變換之音訊物件信號判定參數旁側資訊,且當該啟動指示未設定至該啟動狀態時,基於該第一經變換之音訊物件信號判定該參數旁側資訊。
  8. 如請求項7之編碼器,其中該控制單元經組配以取決於該輸入音訊物件信號是否包含指示該輸入音訊物件信號之一信號改變的一瞬態而將該啟動指示設定至該啟動狀態。
  9. 如請求項7或8之編碼器,其中一子頻帶變換指示被指派至該等第一子頻帶聲道中之各者,其中該控制單元經組配以取決於該輸入音訊物件信號之該信號屬性而將該等第一子頻帶聲道中之各者之該子頻帶變換指示設定至一子頻帶變換狀態,且其中該第二分析模組經組配以變換該等第一子頻帶聲道中之該子頻帶變換指示被設定至該子頻帶變換 狀態的每一子頻帶聲道,以獲得該等多個第二子頻帶聲道,且不變換該等第二子頻帶聲道中之該子頻帶變換指示未設定至該子頻帶變換狀態的每一子頻帶聲道。
  10. 如請求項7至9中任一項之編碼器,其中該第一分析模組經組配以藉由使用一正交鏡相濾波器來變換該等輸入音訊物件信號中之各者。
  11. 如請求項7至10中任一項之編碼器,其中該第一分析模組經組配以取決於一第一分析窗長度而變換該輸入音訊物件信號,其中該第一分析窗長度取決於該信號屬性,或其中該第二分析模組經組配以當該啟動指示被設定至該啟動狀態時,藉由取決於一第二分析窗長度變換該等多個第一子頻帶聲道中之至少一者來產生該第二經變換之音訊物件信號,其中該第二分析窗長度取決於該信號屬性。
  12. 如請求項7至11中任一項之編碼器,其中該編碼器經組配以編碼該輸入音訊物件信號及至少一另外的輸入音訊物件信號,其中該控制單元經組配以取決於該輸入音訊物件信號之該信號屬性且取決於該至少一另外的輸入音訊物件信號之一信號屬性而將該啟動指示設定至該啟動狀態,其中該第一分析模組經組配以變換至少一另外的輸入音訊物件信號以獲得至少一另外的第一經變換之 音訊物件信號,其中該至少一另外的第一經變換之音訊物件信號中之各者包含多個第一子頻帶聲道,其中該第二分析模組經組配以當該啟動指示被設定至該啟動狀態時變換該至少一另外的第一經變換之音訊物件信號中之至少一者的該等多個第一子頻帶聲道中之至少一者以獲得多個另外的第二子頻帶聲道,且其中該PSI估計單元經組配以當該啟動指示被設定至該啟動狀態時基於該等多個另外的第二子頻帶聲道判定該參數旁側資訊。
  13. 一種用於藉由自一降混信號產生包含一或多個音訊輸出聲道之一音訊輸出信號來解碼之方法,其中該降混信號編碼兩個或兩個以上音訊物件信號,其中該方法包含:取決於該等兩個或兩個以上音訊物件信號中之至少一者的一信號屬性而將一啟動指示設定至一啟動狀態,變換該降混信號以獲得包含多個第一子頻帶聲道的一第一經變換之降混,當該啟動指示被設定至該啟動狀態時,藉由變換該等第一子頻帶聲道中之至少一者以獲得多個第二子頻帶聲道來產生一第二經變換之降混,其中該第二經變換之降混包含尚未由第二分析模組變換之該等第一子頻帶聲道及該等第二子頻帶聲道,以及當該啟動指示被設定至該啟動狀態時,基於關於該 等兩個或兩個以上音訊物件信號之參數旁側資訊對該第二經變換之降混進行解混以獲得該音訊輸出信號,且當該啟動指示未設定至該啟動狀態時,基於關於該等兩個或兩個以上音訊物件信號之該參數旁側資訊對該第一經變換之降混進行解混以獲得該音訊輸出信號。
  14. 一種用於編碼兩個或兩個以上輸入音訊物件信號之方法,其中該方法包含:取決於該等兩個或兩個以上輸入音訊物件信號中之至少一者的一信號屬性而將一啟動指示設定至一啟動狀態,變換該等輸入音訊物件信號中之各者以獲得該輸入音訊物件信號的一第一經變換之音訊物件信號,其中該第一經變換之音訊物件信號包含多個第一子頻帶聲道,當該啟動指示被設定至該啟動狀態時,針對該等輸入音訊物件信號中之各者,藉由變換該輸入音訊物件信號的該第一經變換之音訊物件信號的該等第一子頻帶聲道中之至少一者以獲得多個第二子頻帶聲道來產生一第二經變換之音訊物件信號,其中該第二經變換之降混包含尚未由第二分析模組變換之該等第一子頻帶聲道及該等第二子頻帶聲道,以及當該啟動指示被設定至該啟動狀態時,基於該等輸入音訊物件信號中之各者的該第二經變換之音訊物件信號判定參數旁側資訊,且當該啟動指示未設定至該啟 動狀態時,基於該等輸入音訊物件信號中之各者的該第一經變換之音訊物件信號判定該參數旁側資訊。
  15. 一種電腦程式,其用於當在一電腦或信號處理器上執行時實施如請求項13或14之方法。
TW102136014A 2012-10-05 2013-10-04 編碼器、解碼器、用於解碼之方法、用於編碼之方法及電腦程式 TWI541795B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201261710133P 2012-10-05 2012-10-05
EP13167487.1A EP2717262A1 (en) 2012-10-05 2013-05-13 Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding

Publications (2)

Publication Number Publication Date
TW201419266A true TW201419266A (zh) 2014-05-16
TWI541795B TWI541795B (zh) 2016-07-11

Family

ID=48325509

Family Applications (2)

Application Number Title Priority Date Filing Date
TW102136014A TWI541795B (zh) 2012-10-05 2013-10-04 編碼器、解碼器、用於解碼之方法、用於編碼之方法及電腦程式
TW102136012A TWI539444B (zh) 2012-10-05 2013-10-04 編碼器、解碼器、用於編碼兩個或兩個以上輸入音訊物件信號之方法、用於解碼以產生音訊輸出信號之方法、用於藉由產生音訊輸出信號以解碼之方法、以及相關電腦程式

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW102136012A TWI539444B (zh) 2012-10-05 2013-10-04 編碼器、解碼器、用於編碼兩個或兩個以上輸入音訊物件信號之方法、用於解碼以產生音訊輸出信號之方法、用於藉由產生音訊輸出信號以解碼之方法、以及相關電腦程式

Country Status (17)

Country Link
US (2) US10152978B2 (zh)
EP (4) EP2717262A1 (zh)
JP (2) JP6268180B2 (zh)
KR (2) KR101685860B1 (zh)
CN (2) CN105190747B (zh)
AR (2) AR092929A1 (zh)
AU (1) AU2013326526B2 (zh)
BR (2) BR112015007649B1 (zh)
CA (2) CA2887028C (zh)
ES (2) ES2880883T3 (zh)
HK (1) HK1213361A1 (zh)
MX (2) MX351359B (zh)
MY (1) MY178697A (zh)
RU (2) RU2639658C2 (zh)
SG (1) SG11201502611TA (zh)
TW (2) TWI541795B (zh)
WO (2) WO2014053548A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI584271B (zh) * 2015-03-09 2017-05-21 弗勞恩霍夫爾協會 編碼裝置及其編碼方法、解碼裝置及其解碼方法、電腦程式
TWI603321B (zh) * 2015-02-02 2017-10-21 弗勞恩霍夫爾協會 用以處理編碼音訊信號之裝置及方法
TWI658458B (zh) * 2018-05-17 2019-05-01 張智星 歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2717262A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
EP3005353B1 (en) * 2013-05-24 2017-08-16 Dolby International AB Efficient coding of audio scenes comprising audio objects
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
US20150100324A1 (en) * 2013-10-04 2015-04-09 Nvidia Corporation Audio encoder performance for miracast
CN106409303B (zh) 2014-04-29 2019-09-20 华为技术有限公司 处理信号的方法及设备
CN105336335B (zh) 2014-07-25 2020-12-08 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
WO2017064264A1 (en) * 2015-10-15 2017-04-20 Huawei Technologies Co., Ltd. Method and appratus for sinusoidal encoding and decoding
GB2544083B (en) * 2015-11-05 2020-05-20 Advanced Risc Mach Ltd Data stream assembly control
US9711121B1 (en) * 2015-12-28 2017-07-18 Berggram Development Oy Latency enhanced note recognition method in gaming
US9640157B1 (en) * 2015-12-28 2017-05-02 Berggram Development Oy Latency enhanced note recognition method
US10269360B2 (en) * 2016-02-03 2019-04-23 Dolby International Ab Efficient format conversion in audio coding
US10210874B2 (en) * 2017-02-03 2019-02-19 Qualcomm Incorporated Multi channel coding
CN113242508B (zh) 2017-03-06 2022-12-06 杜比国际公司 基于音频数据流渲染音频输出的方法、解码器系统和介质
CN108694955B (zh) * 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
WO2018201112A1 (en) 2017-04-28 2018-11-01 Goodwin Michael M Audio coder window sizes and time-frequency transformations
CN109427337B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
US10856755B2 (en) * 2018-03-06 2020-12-08 Ricoh Company, Ltd. Intelligent parameterization of time-frequency analysis of encephalography signals
GB2577885A (en) 2018-10-08 2020-04-15 Nokia Technologies Oy Spatial audio augmentation and reproduction
BR112021025265A2 (pt) * 2019-06-14 2022-03-15 Fraunhofer Ges Forschung Sintetizador de áudio, codificador de áudio, sistema, método e unidade de armazenamento não transitória
EP4229631A2 (en) * 2020-10-13 2023-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding a plurality of audio objects and apparatus and method for decoding using two or more relevant audio objects
CN113453114B (zh) * 2021-06-30 2023-04-07 Oppo广东移动通信有限公司 编码控制方法、装置、无线耳机及存储介质
CN114127844A (zh) * 2021-10-21 2022-03-01 北京小米移动软件有限公司 一种信号编解码方法、装置、编码设备、解码设备及存储介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3175446B2 (ja) * 1993-11-29 2001-06-11 ソニー株式会社 情報圧縮方法及び装置、圧縮情報伸張方法及び装置、圧縮情報記録/伝送装置、圧縮情報再生装置、圧縮情報受信装置、並びに記録媒体
DE60326782D1 (de) * 2002-04-22 2009-04-30 Koninkl Philips Electronics Nv Dekodiervorrichtung mit Dekorreliereinheit
US7272567B2 (en) * 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
CN101312041B (zh) * 2004-09-17 2011-05-11 广州广晟数码技术有限公司 多声道数字音频编码设备及其方法
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
US8081764B2 (en) * 2005-07-15 2011-12-20 Panasonic Corporation Audio decoder
US7917358B2 (en) 2005-09-30 2011-03-29 Apple Inc. Transient detection by power weighted average
TWI329462B (en) * 2006-01-19 2010-08-21 Lg Electronics Inc Method and apparatus for processing a media signal
EP1999747B1 (en) * 2006-03-29 2016-10-12 Koninklijke Philips N.V. Audio decoding
DE602007013415D1 (de) * 2006-10-16 2011-05-05 Dolby Sweden Ab Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung
EP3288027B1 (en) 2006-10-25 2021-04-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating complex-valued audio subband values
KR101100213B1 (ko) * 2007-03-16 2011-12-28 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP3712888B1 (en) * 2007-03-30 2024-05-08 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
EP2278582B1 (en) * 2007-06-08 2016-08-10 LG Electronics Inc. A method and an apparatus for processing an audio signal
EP2144229A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
WO2010105695A1 (en) * 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
KR101387808B1 (ko) * 2009-04-15 2014-04-21 한국전자통신연구원 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
JP5678048B2 (ja) * 2009-06-24 2015-02-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ カスケード化されたオーディオオブジェクト処理ステージを用いたオーディオ信号デコーダ、オーディオ信号を復号化する方法、およびコンピュータプログラム
ES2793958T3 (es) * 2009-08-14 2020-11-17 Dts Llc Sistema para trasmitir adaptativamente objetos de audio
KR20110018107A (ko) * 2009-08-17 2011-02-23 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
PL2491551T3 (pl) * 2009-10-20 2015-06-30 Fraunhofer Ges Forschung Urządzenie do dostarczania reprezentacji sygnału upmixu w oparciu o reprezentację sygnału downmixu, urządzenie do dostarczania strumienia bitów reprezentującego wielokanałowy sygnał audio, sposoby, program komputerowy i strumień bitów wykorzystujący sygnalizację sterowania zniekształceniami
AU2010321013B2 (en) * 2009-11-20 2014-05-29 Dolby International Ab Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
US9332346B2 (en) * 2010-02-17 2016-05-03 Nokia Technologies Oy Processing of multi-device audio capture
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
EP2717262A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI603321B (zh) * 2015-02-02 2017-10-21 弗勞恩霍夫爾協會 用以處理編碼音訊信號之裝置及方法
CN107533845A (zh) * 2015-02-02 2018-01-02 弗劳恩霍夫应用研究促进协会 用于处理编码音频信号的装置和方法
CN107533845B (zh) * 2015-02-02 2020-12-22 弗劳恩霍夫应用研究促进协会 用于处理编码音频信号的装置和方法
US11004455B2 (en) 2015-02-02 2021-05-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an encoded audio signal
TWI584271B (zh) * 2015-03-09 2017-05-21 弗勞恩霍夫爾協會 編碼裝置及其編碼方法、解碼裝置及其解碼方法、電腦程式
US10388289B2 (en) 2015-03-09 2019-08-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal
US10762909B2 (en) 2015-03-09 2020-09-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal
US11508384B2 (en) 2015-03-09 2022-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal
US11955131B2 (en) 2015-03-09 2024-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal
TWI658458B (zh) * 2018-05-17 2019-05-01 張智星 歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品

Also Published As

Publication number Publication date
HK1213361A1 (zh) 2016-06-30
TWI539444B (zh) 2016-06-21
CA2887028C (en) 2018-08-28
AU2013326526A1 (en) 2015-05-28
WO2014053548A1 (en) 2014-04-10
US10152978B2 (en) 2018-12-11
ES2880883T3 (es) 2021-11-25
CN104798131B (zh) 2018-09-25
RU2015116287A (ru) 2016-11-27
JP6268180B2 (ja) 2018-01-24
JP6185592B2 (ja) 2017-08-23
CN105190747A (zh) 2015-12-23
EP2717265A1 (en) 2014-04-09
AU2013326526B2 (en) 2017-03-02
MY178697A (en) 2020-10-20
ES2873977T3 (es) 2021-11-04
AR092928A1 (es) 2015-05-06
AR092929A1 (es) 2015-05-06
EP2717262A1 (en) 2014-04-09
US9734833B2 (en) 2017-08-15
WO2014053547A1 (en) 2014-04-10
CN104798131A (zh) 2015-07-22
JP2015535960A (ja) 2015-12-17
RU2625939C2 (ru) 2017-07-19
MX351359B (es) 2017-10-11
EP2904610B1 (en) 2021-05-05
KR20150056875A (ko) 2015-05-27
KR101689489B1 (ko) 2016-12-23
BR112015007650A2 (pt) 2019-11-12
EP2904611B1 (en) 2021-06-23
BR112015007650B1 (pt) 2022-05-17
CA2887028A1 (en) 2014-04-10
RU2015116645A (ru) 2016-11-27
MX350691B (es) 2017-09-13
US20150279377A1 (en) 2015-10-01
BR112015007649B1 (pt) 2023-04-25
TW201423729A (zh) 2014-06-16
CA2886999C (en) 2018-10-23
SG11201502611TA (en) 2015-05-28
TWI541795B (zh) 2016-07-11
KR101685860B1 (ko) 2016-12-12
KR20150065852A (ko) 2015-06-15
CA2886999A1 (en) 2014-04-10
CN105190747B (zh) 2019-01-04
US20150221314A1 (en) 2015-08-06
MX2015004018A (es) 2015-07-06
EP2904610A1 (en) 2015-08-12
RU2639658C2 (ru) 2017-12-21
EP2904611A1 (en) 2015-08-12
MX2015004019A (es) 2015-07-06
BR112015007649A2 (pt) 2022-07-19
JP2015535959A (ja) 2015-12-17

Similar Documents

Publication Publication Date Title
TWI541795B (zh) 編碼器、解碼器、用於解碼之方法、用於編碼之方法及電腦程式
JP6285939B2 (ja) 後方互換性のある多重分解能空間オーディオオブジェクト符号化のためのエンコーダ、デコーダおよび方法
RU2646375C2 (ru) Выделение аудиообъекта из сигнала микширования с использованием характерных для объекта временно-частотных разрешений