TWI640980B - 用於音訊寫碼之裝置、方法、設備及電腦可讀儲存裝置 - Google Patents
用於音訊寫碼之裝置、方法、設備及電腦可讀儲存裝置 Download PDFInfo
- Publication number
- TWI640980B TWI640980B TW106109041A TW106109041A TWI640980B TW I640980 B TWI640980 B TW I640980B TW 106109041 A TW106109041 A TW 106109041A TW 106109041 A TW106109041 A TW 106109041A TW I640980 B TWI640980 B TW I640980B
- Authority
- TW
- Taiwan
- Prior art keywords
- windows
- window
- signal
- length
- stereo
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 53
- 230000005236 sound signal Effects 0.000 claims abstract description 119
- 238000012545 processing Methods 0.000 claims description 21
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000010295 mobile communication Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 description 29
- 230000009466 transformation Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 230000001131 transforming effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/05—Generation or adaptation of centre channel in multi-channel audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereo-Broadcasting Methods (AREA)
Abstract
本發明提供一種裝置,其包括一接收器及一解碼器。該接收器經組態以接收由一編碼器基於複數個視窗而編碼之立體聲參數,該複數個視窗具有為該複數個視窗之間的重疊部分之一第一長度。該解碼器經組態以使用該等立體聲參數來執行一上混操作以產生至少兩個音訊信號。該至少兩個音訊信號係基於用於該上混操作中之第二複數個視窗而產生。該第二複數個視窗具有為該第二複數個視窗之間的重疊部分之一第二長度。該第二長度不同於該第一長度。
Description
本發明大體上係關於音訊寫碼。
計算裝置可包括多個麥克風以接收音訊信號。在多聲道編碼解碼系統中,寫碼器(例如,編碼器、解碼器或兩者)可經組態以在一或多個域(諸如變換域、時域、混合域或另一域,作為說明性非限制性實例)中起作用。在立體聲編碼中,來自麥克風之音訊信號可經編碼以產生中間聲道信號(mid channel signal)及一或多個側聲道信號(side channel signal)。舉例而言,當立體聲(2聲道)信號經寫碼時,可在變換域(諸如離散傅立葉變換(DFT)域)中之一或多個頻帶中估計空間參數之集合。另外或替代地,可在一或多個子訊框之時域中估計空間參數之另一集合。可在變換域抑或時域中執行其他波形寫碼。中間聲道信號可對應於第一音訊信號與第二音訊信號之總和。另外,在立體聲解碼中,中間聲道信號及一或多個側聲道信號可經解碼以產生多個輸出信號。
在多聲道編碼解碼系統中,可對音訊信號執行DFT變換以將音訊信號自時域轉換成變換域。可使用視窗(例如,分析視窗)來對音訊信號之一部分執行DFT變換。視窗可包括將一些延遲引入至寫碼程序(例如,編碼及解碼)之預看部分。基於編碼程序及解碼程序之預看部分所引入之延遲
促成用以對音訊信號進行編碼及解碼之多聲道編碼解碼系統的延遲總量。
在一特定態樣中,一種裝置包括一接收器及一解碼器。該接收器經組態以接收由一編碼器基於複數個視窗而編碼之立體聲參數,該複數個視窗具有為該複數個視窗之間的重疊部分之一第一長度。該解碼器經組態以使用該等立體聲參數來執行一上混操作以產生至少兩個音訊信號。該至少兩個音訊信號係基於用於該上混操作中之第二複數個視窗而產生。該第二複數個視窗具有為該第二複數個視窗之間的重疊部分之一第二長度。該第二長度不同於該第一長度。
在另一特定態樣中,一種方法包括接收由一編碼器基於複數個視窗而編碼之立體聲參數,該複數個視窗具有為該複數個視窗之間的重疊部分之一第一長度。該方法進一步包括使用該等立體聲參數來基於一上混操作產生至少兩個音訊信號。該至少兩個音訊信號係基於用於該上混操作中之第二複數個視窗而產生。該第二複數個視窗具有為該第二複數個視窗之間的重疊部分之一第二長度。該第二長度不同於該第一長度。
在另一特定態樣中,一種設備包括用於接收由一編碼器基於複數個視窗而編碼之立體聲參數的構件,該複數個視窗具有為該複數個視窗之間的重疊部分之一第一長度。該設備亦包括用於使用該等立體聲參數來執行一上混操作以產生至少兩個音訊信號之構件。該至少兩個音訊信號係基於用於該上混操作中之第二複數個視窗而產生。該第二複數個視窗具有為該第二複數個視窗之間的重疊部分之一第二長度。該第二長度不同於該第一長度。
在另一特定態樣中,一種電腦可讀儲存裝置儲存在由一處理器執行
時使得該處理器執行包括以下操作之指令:接收由一編碼器基於複數個視窗而編碼之立體聲參數,該複數個視窗具有為該複數個視窗之間的重疊部分之一第一長度。該等操作亦包括使用該等立體聲參數來基於一上混操作產生至少兩個音訊信號。該至少兩個音訊信號係基於用於該上混操作中之第二複數個視窗而產生。該第二複數個視窗具有為該第二複數個視窗之間的重疊部分之一第二長度。該第二長度不同於該第一長度。
本發明的其他態樣、優點及特徵將在檢閱本申請案之後變得顯而易見,本申請案包括以下部分:圖式簡單說明、實施方式及申請專利範圍。
100‧‧‧系統
104‧‧‧第一裝置
106‧‧‧第二裝置
108‧‧‧樣本產生器
109‧‧‧變換裝置
110‧‧‧傳輸器
111‧‧‧經視窗化樣本
112‧‧‧輸入介面
114‧‧‧編碼器
118‧‧‧解碼器
120‧‧‧網路
126‧‧‧第一輸出信號
128‧‧‧第二輸出信號
130‧‧‧第一音訊信號
132‧‧‧第二音訊信號
142‧‧‧第一揚聲器
144‧‧‧第二揚聲器
146‧‧‧第一麥克風
148‧‧‧第二麥克風
152‧‧‧第一視窗參數/聲源
153‧‧‧記憶體
162‧‧‧立體聲提示
164‧‧‧側位元串流
166‧‧‧中間位元串流
172‧‧‧樣本產生器
174‧‧‧變換裝置
175‧‧‧記憶體
176‧‧‧第二視窗參數
177‧‧‧輸出介面
178‧‧‧接收器
190‧‧‧視窗化方案
191‧‧‧第二視窗(n)
192‧‧‧第一視窗(n-1)
193‧‧‧第三視窗(n+1)
194‧‧‧補零部分
195‧‧‧視窗中心
196‧‧‧補零部分
197‧‧‧躍點大小
198‧‧‧平坦部分
199‧‧‧重疊部分
202‧‧‧變換
204‧‧‧變換
206‧‧‧立體聲提示估計器
208‧‧‧側信號產生器
210‧‧‧側信號編碼器
212‧‧‧中間信號產生器
216‧‧‧中間信號編碼器
230‧‧‧頻域參考信號
232‧‧‧頻域目標信號
234‧‧‧頻域側信號Sfr(b)
235‧‧‧時域側信號S(t)
236‧‧‧時域中間信號
238‧‧‧頻域中間信號
250‧‧‧反變換
252‧‧‧反變換
290‧‧‧經視窗化左聲道/參考信號
292‧‧‧經視窗化右聲道/目標信號
302‧‧‧解多工器(DEMUX)
304‧‧‧中間信號解碼器
306‧‧‧側信號解碼器
308‧‧‧變換
309‧‧‧變換
310‧‧‧上混器
312‧‧‧立體聲提示處理器
314‧‧‧反變換
316‧‧‧反變換
350‧‧‧中間信號mCODED(t)
352‧‧‧頻域中間信號MCODED(b)
354‧‧‧側信號SCODED(b)
355‧‧‧頻域側信號SCODED(b)
356‧‧‧第一上混信號Lfr
358‧‧‧第二上混信號Rfr
360‧‧‧信號
362‧‧‧信號
364‧‧‧第一時域信號l(t)
366‧‧‧第二時域信號r(t)
400‧‧‧視窗化方案
450‧‧‧視窗化方案
510‧‧‧視窗化方案
520‧‧‧視窗化方案
610‧‧‧視窗化方案
620‧‧‧視窗化方案
700‧‧‧方法
800‧‧‧方法
900‧‧‧裝置
902‧‧‧數位至類比轉換器(DAC)
904‧‧‧類比至數位轉換器(ADC)
906‧‧‧處理器
908‧‧‧編解碼器
910‧‧‧處理器
922‧‧‧系統級封裝/系統單晶片裝置
926‧‧‧顯示器控制器
928‧‧‧顯示器
930‧‧‧輸入裝置
932‧‧‧記憶體
934‧‧‧編解碼器
936‧‧‧揚聲器
938‧‧‧麥克風陣列
940‧‧‧無線控制器
942‧‧‧天線
944‧‧‧電力供應器
950‧‧‧收發器
960‧‧‧指令
991‧‧‧所儲存視窗參數/編碼器
992‧‧‧解碼器
圖1係包括可操作以對多個音訊信號進行編碼之編碼器及可操作以對多個音訊信號進行解碼之解碼器的系統之特定說明性實例的方塊圖;圖2係說明圖1之編碼器的一實例之圖式;圖3係說明圖1之解碼器的一實例之圖式;圖4包括用於由圖1之系統執行的編碼及解碼之視窗的第一說明性實例;圖5包括用於由圖1之系統執行的編碼及解碼之視窗的第二說明性實例;圖6包括用於由圖1之系統執行的編碼及解碼之視窗的第三說明性實例;圖7係說明操作寫碼器之方法的一實例之流程圖;圖8係說明操作寫碼器之方法的一實例的流程圖;且圖9係可操作以對多個音訊信號進行編碼之裝置的特定說明性實例之方塊圖。
本申請案主張2016年3月18日申請之標題為「MULTI CHANNEL CODING」的美國臨時專利申請案第62/310,635號之權益,該專利申請案以全文引用之方式併入本文中。
下文參考圖式描述本發明之特定態樣。在描述中,共同特徵由共同參考數字指定。如本文所使用,各種術語僅僅用於描述特定實施之目的,且並不意欲限制實施。舉例而言,除非上下文另外明確指示,否則單數形式「一」、「一個」及「該」意欲同樣包括複數形式。可進一步理解,術語「包含(comprise/comprises/comprising)」可與「包括(include/includes/including)」互換使用。"另外,應理解,術語「其中(wherein)」可與「在…之情況下(where)」互換使用。如本文中所使用,用以修飾元件(諸如結構、組件、操作等)之序數術語(例如,「第一」、「第二」、「第三」等)本身不指示元件相對於另一元件之任何優先級或次序,而是僅將元件與具有相同名稱(但使用序數術語)之另一元件區別開。如本文所使用,術語「集合」指代一或多個特定元件,且術語「複數個」指代多個(例如,兩個或兩個以上)特定元件。
在本發明中,諸如「判定」、「計算」、「移位」、「調整」等之術語可用以描述如何執行一或多個操作。應注意,此等術語不應被解釋為限制性的,且其他技術可用以執行類似操作。另外,如本文中所提及,「產生」、「計算」、「使用」、「選擇」、「存取」與「判定」可互換使用。舉例而言,「產生」、「計算」或「判定」參數(或信號)可指積極地產生、計算或判定參數(或信號),或可指使用、選擇或存取已(諸如)由另一組件或裝置產生
之參數(或信號)。
在本發明中,揭示可操作以對多個音訊信號進行寫碼(例如,編碼、解碼或兩者)之系統及裝置。在一些實施中,編碼器/解碼器視窗化(windowing)可能針對多聲道信號寫碼不匹配以減小解碼延遲,如本文中進一步描述。
裝置可包括經組態以對多個音訊信號進行編碼之編碼器,經組態以對多個音訊信號進行解碼之解碼器、或兩者。可使用多個記錄裝置(例如,多個麥克風)同時及時地捕獲多個音訊信號。在一些實例中,可藉由對若干同時或非同時記錄之音訊聲道進行多工來合成地(例如,人工地)產生多個音訊信號(或多聲道音訊)。作為說明性實例,音訊聲道之並行記錄或多工可產生2聲道組態(亦即,立體聲:左及右)、5.1聲道組態(左、右、中央、左環繞、右環繞及低頻重音(LFE)聲道)、7.1聲道組態、7.1+4聲道組態、22.2聲道組態或N聲道組態。
在一些系統中,編碼器與解碼器可作為一對操作。編碼器可執行一或多個操作以對音訊信號進行編碼,且解碼器可(以反次序)執行一或多個操作以產生經解碼音訊輸出。為了說明,編碼器及解碼器中之每一者可經組態以執行變換操作(例如,DFT操作)及反變換操作(例如,IDFT操作)。舉例而言,編碼器可將音訊信號自時域變換成變換域以估計變換域頻帶(諸如DFT頻帶)中之一或多個參數(例如,聲道間立體聲參數)。編碼器亦可基於所估計一或多個參數而對一或多個音訊信號進行波形寫碼。作為另一實例,解碼器可在將一或多個所接收參數應用於所接收音訊信號之前將所合成音訊信號自時域變換成變換域。
在每一變換操作之前且在每一反變換操作之後,信號(例如,音訊信
號)「經視窗化」以產生經視窗化樣本且經視窗化樣本用以執行變換操作或反變換操作。在一些實施例中,在多聲道寫碼或立體聲寫碼中,在變換域中執行立體聲降混操作,且傳輸所估計立體聲提示參數連同側聲道及中間聲道經寫碼位元串流。在反變換立體聲降混中間信號及側信號之後,(例如)使用ACELP/BWE或TCX寫碼來對中間聲道及側聲道進行編碼。在解碼器處,中間聲道及側聲道經解碼、經視窗化、經變換成頻域,隨後進行立體聲上混處理、反變換及視窗重疊添加以產生多聲道(或立體聲聲道)以供顯現。如本文所使用,將視窗應用於信號或視窗化信號包括縮放信號之一部分以產生信號之樣本的時間範圍。縮放該部分可包括將信號之該部分乘以對應於視窗之形狀的值。
在一些實施中,編碼器及解碼器可實施不同的視窗化方案。由編碼器或解碼器實施之特定視窗化方案可用於DFT分析(例如,以執行DFT變換)或可用於DFT合成(例如,以執行反DFT反變換)。如本文所使用,視窗(或分析合成視窗)係分析視窗、合成視窗或分析視窗及對應合成視窗兩者。作為由編碼器及解碼器實施之不同視窗化方案的一實例,編碼器可應用具有第一集合之特性(例如,第一集合之參數)的第一視窗,且解碼器可應用具有第二集合之特性(例如,第二集合之參數)的第二視窗。第一集合之特性中的一或多個特性可不同於第二集合之特性。舉例而言,作為說明性非限制性實例,第一集合之特性可在視窗之重疊部分大小的大小(例如,基於預看量)、補零(zero padding)之量、視窗之躍點大小、視窗之中心、視窗之平坦部分的大小、視窗之形狀或其組合方面不同於第二集合之特性。在一些實施中,編碼器處之第一視窗(例如,在多聲道或立體聲降混處理中)經組態以產生第一經視窗化樣本,且解碼器處之第二視窗(例
如,在多聲道或立體聲上混處理中)經組態以產生第二經視窗化樣本。第一經視窗化樣本及第二經視窗化樣本可對應於與系統之編碼器延遲及解碼器延遲相關聯的不同時間框或不同樣本集合。第一經視窗化樣本與第二經視窗化樣本可具有相同DFT區間解析度或可具有不同DFT區間解析度。舉例而言,編碼器處之第一視窗可係25ms長,從而產生40Hz DFT區間(頻率)解析度,且解碼器處之第二視窗可係20ms長,從而產生50Hz DFT區間(頻率)解析度。視窗可包括重疊部分、平坦部分及補零部分。
由所揭示態樣中之至少一者提供的一個特定優點係可減小寫碼延遲。此外,可顯著地減小寫碼器之計算複雜度。舉例而言,藉由使第一視窗與第二視窗不匹配(例如,解碼器處之第二視窗的補零部分或重疊部分可短於編碼器處之第一視窗的補零部分或重疊部分),可相比於其中編碼器與解碼器兩者使用相同第一視窗(具有大重疊部分及補零部分)且應用於對應於樣本之相同時間範圍之樣本上的系統而減小延遲。
參考圖1,描繪系統100之特定說明性實例。系統100包括經由網路120以通信方式耦接至第二裝置106之第一裝置104。網路120可包括一或多個無線網路、一或多個有線網路或其組合。
第一裝置104可包括編碼器114、傳輸器110、一或多個輸入介面112或其組合。輸入介面112中之第一輸入介面可耦接至第一麥克風146。輸入介面112中之第二輸入介面可耦接至第二麥克風148。編碼器114可包括樣本產生器108及變換裝置109,且可經組態以對多個音訊信號進行編碼,如本文中所描述。
第一裝置104亦可包括經組態以儲存第一視窗參數152之記憶體153。第一視窗參數152可界定待由樣本產生器108應用於音訊信號(諸如第一音
訊信號130或第二音訊信號132)之至少一部分的第一視窗或第一視窗化方案。舉例而言,樣本產生器108可將第一視窗(基於第一視窗參數152)應用於音訊信號之至少一部分,以產生經提供至變換裝置109之經視窗化樣本111。變換裝置109可經組態以對經視窗化樣本執行變換操作,諸如變換操作(例如,DFT操作)或反變換操作(例如,IDFT操作)。
視窗化方案190之實例包括多個視窗,諸如第一視窗(n-1)192、第二視窗(n)191及第三視窗(n+1)193,其中n係整數。儘管視窗化方案190被描述為具有三個視窗,但在其他實施中,視窗化方案可包括多於或少於三個視窗。
參看第二視窗(n)191,第二視窗(n)191包括補零部分194、196、視窗中心195及平坦部分198。補零部分194、196可包括於第二視窗(n)191中,(例如)以控制第二視窗(n)191之總長度(例如,持續時間)。平坦部分198可對應於(例如)1之縮放因數。第二視窗(n)191亦可包括多個重疊部分,諸如代表性重疊部分199。躍點大小197可指示第二視窗(n)191相對於第一視窗(n-1)192之偏移。視窗化方案190之任何兩個連續視窗之間的躍點大小可相同。
第二裝置106可包括解碼器118、記憶體175、接收器178、一或多個輸出介面177或其組合。第二裝置106之接收器178可經由網路120自第一裝置104接收經編碼音訊信號(例如,一或多個位元串流)、一或多個參數或兩者。解碼器118可包括樣本產生器172及變換裝置174,且可經組態以顯現多個聲道。第二裝置106可耦接至第一揚聲器(loudspeaker)142、第二揚聲器144或兩者。
記憶體175可經組態以儲存第二視窗參數176。第二視窗參數176可界
定待由樣本產生器172應用於音訊信號(諸如經編碼音訊信號(例如,側位元串流164、中間位元串流166或兩者))之至少一部分的第二視窗或第二視窗化方案。舉例而言,樣本產生器172可將第二視窗(基於第二視窗參數176)應用於經編碼音訊信號之至少一部分,以產生經提供至變換裝置174之經視窗化樣本。變換裝置174可經組態以對經視窗化樣本執行變換操作,諸如變換操作(例如,DFT操作)或反變換操作(例如,IDFT操作)。
由編碼器114使用之(第一裝置104的)第一視窗參數152與由解碼器118使用之(第二裝置106的)第二視窗參數176可不匹配。舉例而言,作為說明性非限制性實例,第一視窗(其由第一視窗參數152界定)可在視窗之重疊部分大小的大小(例如,基於預看量)、補零之量、視窗之躍點大小、視窗之中心、視窗之平坦部分的大小、視窗之形狀或其組合方面不同於第二視窗(其由第二視窗參數176界定)。在一些實施中,編碼器114處之第一視窗(例如,在多聲道或立體聲降混處理中)經組態以產生第一經視窗化樣本,且解碼器118處之第二視窗(例如,在多聲道或立體聲上混處理中)經組態以產生第二經視窗化樣本。在一些實施中,第一視窗由編碼器114使用以產生第一經視窗化樣本,且第二視窗由解碼器118使用以產生第二經視窗化樣本。第一經視窗化樣本與第二經視窗化樣本可具有相同DFT區間(或頻率)解析度或可具有不同DFT區間解析度。
在操作期間,第一裝置104可經由第一輸入介面自第一麥克風146接收第一音訊信號130,且可經由第二輸入介面自第二麥克風148接收第二音訊信號132。第一音訊信號130可對應於右聲道信號或左聲道信號中之一者。第二音訊信號132可對應於右聲道信號或左聲道信號中之另一者。在一些實施中,相比於接近第二麥克風148,聲源152(例如,使用者、說
話者、周圍雜訊、樂器等)可更接近第一麥克風146。因此,可在輸入介面112處經由第一麥克風146以比經由第二麥克風148早的時間接收到來自聲源152之音訊信號。經由多個麥克風之多聲道信號獲取中的此固有延遲可在第一音訊信號130與第二音訊信號132之間引入時間移位。在一些實施中,編碼器114可經組態以調整(例如,移位)第一音訊信號130或第二音訊信號132中之至少一者,以在時間上及時地對準第一音訊信號130與第二音訊信號132。舉例而言,編碼器118可相對於(第二音訊信號132之)第二訊框移位(第一音訊信號130之)第一訊框。
樣本產生器108可將第一視窗(基於第一視窗參數152)應用於音訊信號之至少一部分,以產生經提供至變換裝置109之經視窗化樣本111。可在時域中產生經視窗化樣本111。變換裝置109(例如,頻域立體聲寫碼器)可將一或多個時域信號(諸如經視窗化樣本(例如,第一音訊信號130及第二音訊信號132))變換成頻域信號。頻域信號可用以估計立體聲提示162。立體聲提示162可包括使得能夠顯現與左聲道及右聲道相關聯之空間屬性的參數。根據一些實施,立體聲提示162可包括各種參數,諸如聲道間強度差(IID)參數(例如,聲道間位準差(ILD)、聲道間時差(ITD)參數、聲道間相位差(IPD)參數、聲道間相關性(ICC)參數、立體聲填充參數、非因果移位參數、頻譜傾斜參數、聲道間發聲參數、聲道間間距參數、聲道間增益參數等,作為說明性非限制性實例)。可在立體聲降混處理期間在頻域立體聲寫碼器109處使用立體聲提示162。立體聲提示162亦可作為經編碼信號之部分傳輸。相對於圖2更詳細地描述對立體聲提示162之估計及使用。
編碼器114亦可至少部分基於頻域信號而產生側位元串流164及中間
位元串流166。出於說明之目的,除非另外指出,否則假定第一音訊信號130係左聲道信號(l或L),且第二信號132係右聲道信號(r或R)。第一音訊信號130之頻域表示可註解為Lfr(b)且第二音訊信號132之頻域表示可註解為Rfr(b),其中b表示頻率區間之頻帶。根據一個實施,可在頻域中自第一音訊信號130及第二音訊信號132之頻域表示產生側信號Sfr(b)。舉例而言,側信號Sfr(b)可表達為(Lfr(b)-Rfr(b))/2。可將側信號Sfr(b)提供至「側或殘餘」編碼器以產生側位元串流164。根據一個實施,可在頻域中自第一音訊信號130及第二音訊信號132之頻域表示產生中間信號Mfr(b)。根據一個實施,中間信號Mfr(b)可產生於頻域中且變換成中間信號m(t)之頻域。根據另一實施,中間信號m(t)可產生於時域中且變換成頻域。舉例而言,中間信號m(t)可表達為(l(t)+r(t))/2。相對於圖2更詳細地描述產生中間信號及側信號。可將時域/頻域中間信號提供至中間信號編碼器以產生中間位元串流166。
可使用多個技術來對側信號Sfr(b)及中間信號m(t)或Mfr(b)進行編碼。根據一個實施,可使用具有用於高頻帶寫碼之頻寬擴展的時域技術(諸如代數碼激勵線性預測(ACELP))來對時域中間信號m(t)進行編碼。
側寫碼之一個實施包括使用頻率中間信號Mfr(b)及對應於頻帶(b)之立體聲提示162(例如,ILD)中的資訊來自頻域中間信號Mfr(b)預測側信號SPRED(b)。舉例而言,所預測側信號SPRED(b)可表達為Mfr(b)×(ILD(b)-1)/(ILD(b)+1)。頻帶(b)中之錯誤信號(或殘餘信號)e(b)可經計算為側信號Sfr(b)及所預測側信號SPRED(b)之函數。舉例而言,錯誤信號e(b)可表達為Sfr(b)-SPRED(b)。可使用變換域寫碼技術來對錯誤信號e(b)進行寫碼以產生經寫碼錯誤信號eCODED(b)。對於上部頻帶,錯誤信號e(b)可表達為來自
先前訊框的頻帶(b)中之中間信號M_PASTfr(b)之經縮放版本。舉例而言,經寫碼錯誤信號eCODED(b)可表達為gPRED(b)×M_PASTfr(b),其中在一些實施中,可估計gPRED(b)使得e(b)-gPRED(b)×M_PASTfr(b)之能量大體上減少(例如,最小化)。gPRED(b)值可被替代地稱作立體聲填充增益。
傳輸器110可經由網路120將立體聲提示162、側位元串流164、中間位元串流166或其組合傳輸至第二裝置106。替代地或另外,傳輸器110可在網路120之裝置或本地裝置處儲存立體聲提示162、側位元串流164、中間位元串流166或其組合以供稍後進行進一步處理或解碼。
解碼器118可基於立體聲提示162、側位元串流164及中間位元串流166而執行解碼操作。樣本產生器172可將第二視窗(基於第二視窗參數176)應用於所接收經編碼(例如,經合成中間信號或側信號)信號(例如,基於側位元串流164、中間位元串流166或兩者)之至少一部分,以產生被提供至變換裝置174之經視窗化樣本。經視窗化樣本可產生於時域中。變換裝置174(例如,頻域立體聲寫碼器)可將一或多個時域信號(諸如經視窗化樣本(例如,側位元串流164、中間位元串流166或兩者))變換成頻域信號。立體聲提示162可應用於頻域信號。
藉由應用立體聲提示162,解碼器118可執行立體聲上混程序且產生第一輸出信號126(例如,對應於第一音訊信號130)、第二輸出信號128(例如,對應於第二音訊信號132)或兩者。第二裝置106可經由第一揚聲器142輸出第一輸出信號126。第二裝置106可經由第二揚聲器144輸出第二輸出信號128。在替代性實例中,第一輸出信號126及第二輸出信號128可作為立體聲信號對傳輸至單個輸出揚聲器。
儘管已將第一裝置104及第二裝置106描述為單獨裝置,但在其他實
施中,第一裝置104可包括參考第二裝置106所描述之一或多個組件。另外或替代地,第二裝置106可包括參考第一裝置104所描述之一或多個組件。舉例而言,單個裝置可包括編碼器114、解碼器118、傳輸器110、接收器178、一或多個輸入介面112、一或多個輸出介面177及記憶體。單個裝置之記憶體可包括界定待由編碼器114應用之第一視窗的第一視窗參數152及界定待由解碼器176應用之第二視窗的第二視窗參數176。
在一特定實施中,第二裝置106包括經組態以接收由(第一裝置104之)編碼器114基於複數個視窗(例如,特定視窗化方案)而編碼之立體聲參數(例如,立體聲提示162)的接收器178,該複數個視窗具有為該複數個視窗之間的重疊部分之第一長度。接收器178亦可經組態以接收中間信號,諸如由編碼器114使用立體聲參數(例如,立體聲提示162)來基於降混操作而產生之中間位元串流166,如參考圖2所描述。
如進一步參考圖3所描述,第二裝置106進一步包括解碼器118,解碼器118經組態以使用立體聲參數來執行上混操作以產生至少兩個音訊信號(諸如第一輸出信號126及第二輸出信號128)。第二複數個視窗經組態以產生小於對應於複數個視窗之視窗重疊的解碼延遲。換言之,解碼器處之第二複數個視窗的訊框間重疊小於對應編碼器處之複數個視窗的訊框間重疊。基於具有為第二複數個視窗之間的重疊部分之第二長度的第二複數個視窗而產生至少兩個音訊信號。第二長度不同於第一長度。舉例而言,第二長度小於第一長度。在一些實施中,使用立體聲參數及中間信號來執行上混操作。在一些實施中,接收器經組態以接收包括立體聲參數之音訊信號,且解碼器118經組態以在對音訊信號進行解碼期間應用第二複數個視窗,以產生經視窗化時域音訊解碼信號。
在一些實施中,由編碼器114使用之複數個視窗中的每一視窗之總長度不同於由解碼器118使用之第二複數個視窗中的每一視窗之總長度。另外或替代地,與編碼器114處之變換域中的每一頻率區間相關聯之第一頻寬不同於與解碼器118處之變換域中的每一頻率區間相關聯之第二頻寬。
在一些實施中,複數個視窗與第一躍點長度相關聯且第二複數個視窗與第二躍點長度相關聯。第一躍點長度不同於第二躍點長度。另外或替代地,每音訊資料之每一訊框的複數個視窗可包括與第二複數個視窗不同之視窗數目。在一些實施中,複數個視窗中之第一視窗與第二複數個視窗中之第二視窗大小相同。在一特定實施中,複數個視窗中之每一視窗係對稱的,且第二複數個視窗中之第一特定視窗(例如,個別地或相對於第二複數個視窗中之第二特定視窗)係不對稱的。
在一些實施中,第二複數個視窗之視窗重疊係不對稱的。另外或替代地,第二複數個視窗中之一對連續視窗中的第一視窗係不對稱的。第一視窗與第二視窗之第一重疊部分的第三長度不同於第二視窗與第二對連續視窗中之第三視窗的第二重疊部分之第四長度。在其他實施中,第二複數個視窗中之一對連續視窗中的兩個視窗係對稱的。
在一些實施中,第二裝置106包括編碼器,編碼器經組態以在對第二音訊信號之編碼期間應用複數個視窗以產生經視窗化時域音訊編碼信號。第二裝置106可進一步包括傳輸器,傳輸器經組態以傳輸基於經視窗化時域音訊編碼信號所產生之輸出位元串流(例如,輸出音訊信號)。
系統100可因此實現減少之寫碼延遲。舉例而言,藉由使第一視窗(由編碼器114應用)與第二視窗(由解碼器118應用)不匹配(例如,解碼器之第二視窗的重疊部分可短於編碼器之第一視窗的重疊部分),可相比於其
中編碼器變換視窗與解碼器變換視窗準確地匹配且將該等視窗應用於對應於樣本之相同時間範圍之樣本上的系統而減少延遲。
參考圖2,展示說明編碼器114之特定實施的圖式。第一信號290及第二信號292可對應於左聲道信號及右聲道信號。在一些實施中,左聲道信號或右聲道信號中之一者(「目標」信號)已相對於左聲道信號或右聲道信號中之另一者(「參考」信號)經時間移位,以增大寫碼效率(例如,以減少側信號能量)。在一些實例中,第一信號或參考信號290可包括經視窗化左聲道信號,且第二信號或目標信號292可包括經視窗化右聲道信號。視窗可係基於第一視窗參數152。然而,應理解,在其他實例中,參考信號290可包括經視窗化右聲道信號且目標信號292可包括經視窗化左聲道信號。在其他實施中,參考聲道290可係左或右經視窗化聲道中之在逐訊框基礎上所選的任一者,且類似地,目標信號292可係左或右經視窗化聲道中之另一者。出於下文描述之目的,提供參考信號290包括經視窗化左聲道信號(L)且目標信號292包括經視窗化右聲道信號(R)之特定狀況的一實例。可平常地擴展對於其他狀況之類似描述。亦應理解,可使用硬體(例如,專用電路)、軟體(例如,由處理器執行之指令)或其任何組合來實施圖2中所說明之各種組件(例如,變換、信號產生器、編碼器、估計器等)。
可對參考信號290(或左聲道)執行變換202,且可對目標信號292(或右聲道)執行變換204。變換202、204可由產生頻域(或子頻帶域或經濾波低頻帶核心及高頻帶頻寬擴展)信號之變換操作執行。作為非限制性實例,執行變換202、204可包括對經視窗化左聲道290及經視窗化右聲道292執行離散傅立葉變換(DFT)操作、快速傅立葉變換(FFT)操作、經修改
離散餘弦變換(MDCT)等。在一些其他實施中,基於第一視窗參數152之視窗化可係變換裝置109之部分且可係變換202、204之部分。根據一些實施,正交鏡相濾波器組(QMF)操作(使用濾波器頻帶,諸如複雜低延遲濾波器組)可用以使輸入信號(例如,參考信號290及目標信號292)分裂成多個子頻帶,且可使用另一頻域變換操作來將子頻帶轉化成頻域。變換202可應用於參考信號290以產生頻域參考信號(Lfr(b))230,且變換204可應用於目標信號292以產生頻域目標信號(Rfr(b))232。變換202、204操作可包括基於第一視窗參數152之視窗化操作。可將頻域參考信號230及頻域目標信號232提供至立體聲提示估計器206及側信號產生器208。
立體聲提示估計器206可基於頻域參考信號230及頻域目標信號232而提取(例如,產生)立體聲提示162。為了說明,IID(b)可係頻帶(b)中之左聲道的能量EL(b)及頻帶(b)中之右聲道的能量ER(b)之函數。舉例而言,IID(b)可表達為20×log10(EL(b)/ER(b))。在編碼器處估計且傳輸之IPD可提供頻帶(b)中之左聲道與右聲道之間的相位差在頻域中之估計。立體聲提示162可包括額外(或替代)參數,諸如ICC、ITD等。可將立體聲提示162傳輸至圖1之第二裝置106,提供至側信號產生器208,且提供至側信號編碼器210。在一些實施中,立體聲參數中之至少一個參數經訊框間內插,且(立體聲參數之)至少一個經內插參數或至少一個未經內插值被發送至解碼器(諸如圖1之解碼器118)且由解碼器使用。舉例而言,可在編碼器處執行內插,且可將至少一個經內插參數發送至解碼器。替代地,將立體聲參數自編碼器發送至解碼器,且解碼器執行訊框間內插以產生至少一個經內插參數。
側信號產生器208可基於頻域參考信號230及頻域目標信號232而產生
頻域側信號(Sfr(b))234。可在頻域區間/頻帶中估計頻域側信號234。在每一頻帶中,增益參數(g)可不同且可係基於聲道間位準差(例如,基於立體聲提示162)。舉例而言,頻域側信號234可表達為(Lfr(b)-c(b)×Rfr(b))/(1+c(b)),其中c(b)可係ILD(b)或ILD(b)之函數(例如,c(b)=10^(ILD(b)/20))。可將頻域側信號234提供至反變換250。舉例而言,頻域側信號234可經反變換回至時域以產生時域側信號S(t)235或經變換至MDCT域,以供寫碼。可將時域側信號235提供至側信號編碼器210。
可將頻域參考信號230及頻域目標信號232提供至中間信號產生器212。根據一些實施,亦可將立體聲提示162提供至中間信號產生器212。中間信號產生器212可基於頻域參考信號230及頻域目標信號232而產生頻域中間信號Mfr(b)238。根據一些實施,亦可基於立體聲提示162而產生頻域中間信號Mfr(b)238。基於頻域參考聲道230、目標聲道232及立體聲提示162產生中間信號238的一些方法係如下。
Mfr(b)=(Lfr(b)+Rfr(b))/2
Mfr(b)=c1(b)×Lfr(b)+c2×Rfr(b),其中c1(b)及c2(b)為複值。
在一些實施中,複值c1(b)及c2(b)係基於立體聲提示162。舉例而言,在中間側降混之一個實施中,當估計IPD時,c1(b)=(cos(-γ)-i×sin(-γ))/20.5且c2(b)=(cos(IPD(b)-γ)+i×sin(IPD(b)-γ))/20.5,其中i係表示-1之平方根的虛數。
可將頻域中間信號238提供至反變換252。舉例而言,頻域中間信號238可經反變換至時域以產生時域中間信號236,或經變換至MDCT域,以供寫碼。在反變換252之後,中間信號可經視窗化且與先前訊框之經視窗化中間信號重疊部分重疊相加。此視窗可類似於或不同於用於變換
202、204中之視窗。出於有效側頻帶信號編碼之目的,可將時域中間信號236提供至中間信號編碼器216,且可將頻域中間信號238提供至側信號編碼器210。
側信號編碼器210可基於立體聲提示162、時域側信號235及頻域中間信號238而產生側位元串流164。中間信號編碼器216可基於時域中間信號236而產生中間位元串流166。舉例而言,中間信號編碼器216可對時域中間信號236進行編碼以產生中間位元串流166。
變換202及204可經組態以應用與圖1之第一視窗參數152相關聯的分析視窗化方案。舉例而言,立體聲提示參數162可包括基於圖1之經視窗化樣本111所計算的參數值。另外,反變換250、252可經組態以執行反變換,隨後執行合成視窗化(使用與圖1之第一視窗參數152相關聯的視窗化方案所產生),以將頻域信號返回至重疊經視窗化時域信號。
在一些實施中,立體聲提示估計器206、側信號產生器208及中間信號產生器212中之一或多者可包括於降混器中。另外或替代地,儘管編碼器114描述為包括側信號編碼器210,但在其他實施中,編碼器114可不包括側信號編碼器210。
參考圖3,展示說明解碼器118之特定實施的圖式。經編碼音訊信號被提供至解碼器118之解多工器(DEMUX)302。經編碼音訊信號可包括立體聲提示162、側位元串流164及中間位元串流166。解多工器302可經組態以自經編碼音訊信號提取中間位元串流166且將中間位元串流166提供至中間信號解碼器304。解多工器302亦可經組態以自經編碼音訊信號提取側位元串流164及立體聲提示162。可將側位元串流164及立體聲提示162提供至側信號解碼器306。
中間信號解碼器304可經組態以對中間位元串流166進行解碼以產生中間信號(mCODED(t))350。變換308可應用於中間信號350以產生頻域中間信號(MCODED(b))352。可將頻域中間信號352提供至上混器310。
側信號解碼器306可基於側位元串流164、立體聲提示162及頻域中間信號352而產生側信號(SCODED(b))354。舉例而言,錯誤(e)可經解碼用於低頻帶及高頻帶。側信號354可表達為SPRED(b)+eCODED(b),其中SPRED(b)=MCODED(b)×(ILD(b)-1)/(ILD(b)+1)。變換309可應用於側信號354以產生頻域側信號(SCODED(b))355。頻域側信號355亦可經提供至上混器310。
上混器310可基於頻域中間信號352及頻域側信號355而執行上混操作。舉例而言,上混器310可基於頻域中間信號352及頻域側信號355而產生第一經上混信號(Lfr)356及第二經上混信號(Rfr)358。因此,在所描述實例中,第一經上混信號356可係左聲道信號,且第二經上混信號358可係右聲道信號。第一經上混信號356可表達為MCODED(b)+SCODED(b),且第二經上混信號358可表達為MCODED(b)-SCODED(b)。可將經上混信號356、358提供至立體聲提示處理器312。
立體聲提示處理器312可將立體聲提示162應用於經上混信號356、358以產生信號360、362。舉例而言,立體聲提示162可應用於頻域中之經上混左及右聲道。當可用時,IPD(相位差)可在左及右聲道上擴展以維持聲道間相位差。反變換314可應用於信號360以產生第一時域信號l(t)364(例如,左聲道信號),且反變換316可應用於信號362以產生第二時域信號r(t)366(例如,右聲道信號)。反變換314、316之非限制性實例包括反離散餘弦變換(IDCT)操作、反快速傅立葉逆變換(IFFT)操作等。根據
一個實施,第一時域信號364可係參考信號290之重建構版本,且第二時域信號366可係目標信號292之重建構版本。
根據一個實施,可在立體聲提示處理器312處執行在上混器310處所執行之操作。根據另一個實施,可在上混器310處執行在立體聲提示處理器312處所執行之操作。根據又一個實施,上混器310及立體聲提示處理器312可實施於單個處理元件(例如,單個處理器)內。
變換308及309可經組態以應用與圖1之第二視窗參數176相關聯的分析視窗化方案。與由變換308及309使用之視窗化方案相關聯的第二視窗化參數176可不同於由編碼器(諸如圖1之編碼器114)使用的視窗化方案。可在變換308、309處使用第二視窗化方案以在解碼時減少延遲。舉例而言,第二視窗化方案(由解碼器應用)可包括與用於第一視窗化方案(由編碼器應用)中之視窗具有不同大小的視窗,使得變換可帶來相同數目個頻帶(但不同頻率解析度),且可進一步減少用於變換308及309之視窗重疊量。減少視窗重疊量減少處理來自先前視窗之重疊樣本的解碼延遲。因為立體聲提示可係基於第一視窗化(由編碼器114應用)而產生,所以解碼器118可產生經調整立體聲參數以考慮視窗化方案之差異。舉例而言,解碼器114(例如,立體聲提示處理器312)可經由對所接收立體聲參數之內插(例如,經加權總和)產生經調整立體聲參數。類似地,反變換314、316可經組態以執行反變換以將頻域信號返回至重疊經視窗化時域信號。
在一些實施中,立體聲提示處理器312可包括於上混器310中。另外或替代地,儘管解碼器118經描述為包括側信號解碼器306及變換309,但在其他實施中,解碼器118可不包括側信號解碼器306及變換309。在此等實施中,可將側位元串流164自解多工器302提供至上混器310,且可將立
體聲提示162自解多工器302提供至上混器310或提供至立體聲提示處理器312。
應注意,圖2之編碼器及圖3之解碼器可包括編碼器或解碼器框架之一部分,而非全部。舉例而言,圖2之編碼器、圖3之解碼器或兩者亦可包括高頻帶(HB)處理之並行路徑。另外或替代地,在一些實施中,可在圖2之編碼器處執行時域降混。另外或替代地,時域上混可遵循圖3之解碼器以獲得經解碼器移位補償之左及右聲道。
參考圖4,描繪在編碼器及解碼器處所實施之視窗化方案的一實例。舉例而言,描繪由解碼器(諸如圖1之解碼器118)實施的視窗化方案且通常將該方案指定為400。在一些實施中,可基於第二視窗參數176而實施視窗化方案400。描繪由編碼器(諸如圖1之編碼器114)實施的視窗化方案且通常將該方案指定為450。在一些實施中,可基於第一視窗參數152而實施視窗化方案450。參考視窗化方案400及視窗化方案450,每一視窗係相同的。為了說明,每一視窗具有相同補零長度、相同躍點大小、相同重疊及相同平坦部分大小。舉例而言,補零長度係3.125ms,視窗躍點大小係10ms,視窗之重疊長度係8.75ms,且視窗之平坦部分的大小係1.25ms。因此,每一視窗可具有25ms之總長度。
音訊信號之訊框大小可係20ms,且可每訊框以2個視窗估計變換操作(諸如DFT操作)。對於每一訊框,可量化且傳輸立體聲提示參數(例如,DFT立體聲提示參數)之集合,諸如圖1之立體聲提示162。此等立體聲提示亦用以在變換域中產生中間信號及側信號,如參考圖1及圖2所描述(上文所描述)及如參考等式1及2(下文已包括)所描述。舉例而言,中間聲道可係基於:
M=(L+gDR)/2,或 等式1
M=g1L+g2R 等式2
其中g1+g2=1.0,且其中gD係增益參數,M對應於中間聲道,L對應於左聲道,且R對應於右聲道。
在寫碼之前,藉由對變換域中間信號及側信號應用反變換來合成對應於中間及側之[0至28.75]的訊框。在反變換之後,將時域信號與類似於上文之視窗重疊相加。在一些實施中,視窗可剛好相同;在其他實施中,此變換視窗與反變換視窗可在保持補零之長度、重疊及平坦部分大小全部相同情況下,在重疊區域中具有不同視窗值。重疊相加用於反變換合成上,此係因為重疊視窗將在重疊部分中產生兩個集合之時間樣本。舉例而言,w0(n)(例如,訊框n之第一視窗)上的反變換產生來自[0至18.75]ms之樣本,而反變換產生來自[10至28.75]ms之樣本。來自[10至18.75]之樣本經重疊相加以產生[0至28.75]ms之部分的中間信號及側信號。因為在編碼器上尚不存在來自[20至38.75]ms之重疊視窗(w0(n+1))(例如,訊框n+1之第一視窗)(因為28.75之後的樣本將來不可用於當前訊框n中),所以自w1(n)(例如,訊框n之第二視窗)之反變換產生的樣本未經視窗化,且用於在[20至28.75]ms之部分中進行寫碼。未視窗化意謂自IDFT產生之樣本由彼部分中之w1(n)劃分。
應注意,編碼器上來自[20至28.75]的樣本係訊框n內之中間/側寫碼預看的部分。在解碼器上,此等樣本可意欲在訊框n+1中得以解碼。
在解碼器上,吾人接收位元串流,首先對中間信號及側信號進行解碼,若使用語音解碼器(諸如ACELP解碼器),則該等信號可自部分[0至20]ms接收至時域中,且若使用非語音解碼器(諸如TCX解碼器),則該等
信號可自部分[0至28.75]ms接收至時域中。若使用非語音解碼器,則不可在當前訊框中使用/耗盡來自[20至28.75]之樣本,但該等樣本經儲存用於重疊相加於下一訊框中,此具有自[0至20]ms產生可使用樣本集合之效果。因為來自[20至28.75]之樣本在解碼器處不可用,所以引入視窗躍點大小之延遲以及時地回看且使用[-10至18.75]ms用於立體聲參數之視窗化及應用。一旦對經解碼中間/側信號執行此視窗化,則執行上混,隨後執行立體聲參數應用以獲得左及右聲道之經解碼DFT域表示。應用反DFT,隨後應用重疊相加操作以獲得經解碼左及右時域信號。
如圖4中所描繪,(視窗化方案450之)編碼器視窗與(視窗化方案400之)解碼器視窗具有相同特性。舉例而言,(視窗化方案450之)編碼器視窗與(視窗化方案400之)解碼器視窗具有相同大小、相同重疊量、相同補零、相同大小之平坦部分等。歸因於編碼器視窗與解碼器視窗匹配,除了引入於編碼器上之28.75ms延遲以外,亦在解碼器上引入10ms之延遲。
應注意,編碼器之視窗化方案450及解碼器之視窗化方案400係在完全相同時間樣本處應用。舉例而言,如圖4中所描繪,解碼器視窗與編碼器視窗相同且定位於相同時間範圍處。因此,視窗中心在編碼器與解碼器上對準。替代地,在其他實施中,由編碼器使用之視窗與由解碼器使用之視窗可不對準。舉例而言,由編碼器使用之複數個視窗中的每一視窗之視窗位置(例如,視窗中心)不同於用於解碼器處之複數個視窗中的每一視窗之視窗位置(例如,視窗中心)。
參考圖5,描繪在編碼器及解碼器處所實施之視窗化方案的另一實例。舉例而言,描繪由解碼器(諸如圖1之解碼器118)實施的視窗化方案且通常將該方案指定為510。在一些實施中,可基於第二視窗參數176實施
視窗化方案510。描繪由編碼器(諸如圖1之編碼器114)實施的視窗化方案且通常將該方案指定為520。在一些實施中,可基於第一視窗參數152實施視窗化方案520。
視窗化方案510可每訊框具有單個視窗(20ms之躍點大小)及3.25ms之重疊區域。因此,解碼器延遲係3.25ms。視窗化方案510之補零(zp)長度在視窗之兩側上係0.875ms,且平坦部分之長度係16.75ms。視窗化方案510之視窗的總長度(L)可判定為L=2×zp+2×重疊+flat_portion=25ms。重疊部分+平坦部分之長度一起構成所使用樣本之實際量。補零用以將視窗變成所要大小。在另一實施中,視窗化方案510可使用具有(例如)3.125ms之外部重疊而(例如)10ms之內部重疊的兩個視窗。
視窗化方案520可包括或對應於圖4之視窗化方案450。應注意,用於編碼器上之視窗化方案520的每一視窗之總長度與用於解碼器上之視窗化方案510的總長度相同。藉由具有相同總長度,由編碼器產生之DFT區間的大小與解碼器產生之DFT區間的大小可匹配。應注意,匹配視窗之大小的總長度係為方便起見而考慮,且在其他實施中,可能違反具有相同長度,因此在編碼器及解碼器處具有DFT區間之相同大小的此原理。應注意,所說明視窗化方案520可表示用於編碼器處之DFT變換操作之前及DFT反變換操作之後的視窗。在一些實施中,用於編碼器處之視窗(例如,分析視窗、合成視窗或兩者)可藉由具有相同重疊部分長度、相同補零、相同平坦部分長度、相同躍點大小等來大體上類似於視窗化方案520,但重疊部分中之視窗形狀可與所說明視窗化方案520不同(例如,被修改)。
參考圖6,描繪在編碼器及解碼器處所實施之視窗化方案的另一實
例。舉例而言,描繪由解碼器(諸如圖1之解碼器118)實施的視窗化方案且通常將該方案指定為610。在一些實施中,可基於第二視窗參數176實施視窗化方案610。描繪由編碼器(諸如圖1之編碼器114)實施的視窗化方案且通常將該方案指定為620。在一些實施中,可基於第一視窗參數152實施視窗化方案620。
由編碼器使用之視窗化方案620可相比於圖4之視窗化方案450或圖5之視窗化方案520包括一個大視窗。視窗化方案620可具有8.75ms之重疊區域、在視窗之兩側上具有3.125之補零長度,且平坦部分之長度係11.25ms。視窗化方案620之視窗的總長度(L)可判定為L=2×zp+2×重疊+flat_portion=35ms。
由解碼器使用之視窗化方案610可相比於圖4之視窗化方案400包括一個視窗,且可不同於圖5之視窗化方案510。視窗化方案610可具有3.25ms之重疊區域、在視窗之兩側上具有5.875ms之補零長度,且平坦部分之長度係16.75ms。視窗化方案620之視窗的總長度(L)可判定為L=2×zp+2×重疊+flat_portion=35ms。
在上文參考圖5至圖6所描述之實施中,視窗中心不在編碼器及解碼器上之相同位置處。在特定參數在時間上極快變化的情境中,此失配可在經編碼或經解碼音訊信號中引起假影(例如,失真)。對於此類快速變化之參數,可對編碼器、解碼器或兩者執行經加權視窗間內插。加權可使得經內插參數將接近在解碼器視窗之時間範圍處所估計之參數。舉例而言,參數(b,n)可對應於第n編碼器視窗中之頻帶b,其中n係整數。可使用經加權內插:α1×參數(b,n)+α2×參數(b,n-1),其中α1及α2中之每一者係正值。在一些實施中,α1+α2=1。
參考圖7,揭示了操作解碼器之方法的特定說明性實例之流程圖,且通常將該方法指定為700。解碼器可對應於圖1或圖3之解碼器118。舉例而言,可藉由圖1之第二裝置106執行方法700。
方法700包括在702處接收基於具有第一視窗特性之取樣視窗所編碼的音訊信號。舉例而言,音訊信號可對應於圖1之包括立體聲提示162、側位元串流164及中間位元串流166的經編碼音訊信號。音訊信號可能已由第一裝置104之編碼器114使用基於第一視窗參數152之取樣視窗來編碼。舉例而言,第一視窗參數152可指定包括視窗躍點長度、視窗大小重疊、補零量或中心位置之第一視窗特性。其他非限制性實例包括視窗形狀、平坦視窗部分或視窗大小。
方法700亦可包括在704處使用具有不同於第一視窗特性之第二視窗特性的取樣視窗來對音訊信號進行解碼。舉例而言,音訊信號可由第二裝置106之解碼器118使用基於第二視窗參數176之取樣視窗來解碼。使用具有第二視窗特性之取樣視窗進行解碼可產生小於對應於第一視窗特性之視窗重疊的訊框間解碼延遲。
在一些實施中,對音訊信號進行解碼包括應用具有第二視窗特性之取樣視窗以產生經視窗化時域音訊解碼信號。舉例而言,具有第二視窗特性之取樣視窗可由圖1之樣本產生器172應用。作為另一實例,可在圖3之變換308、309處應用具有第二視窗特性之取樣視窗。對音訊信號進行解碼亦可包括對經視窗化時域音訊解碼信號執行變換操作以產生經視窗化頻域音訊解碼信號。舉例而言,變換操作可由圖1之變換裝置174執行。為了說明,變換操作可由圖3之變換308、309執行。
解碼器118可接收對應於基於具有第一視窗特性之取樣視窗的經視窗
化頻域音訊編碼信號之第一經估計立體聲參數。舉例而言,第一經估計立體聲參數可對應於或包括於圖1至圖3之立體聲提示162中。對音訊信號進行解碼可包括應用與基於具有第二視窗特性之取樣視窗的經視窗化頻域音訊解碼信號相關聯之第二經估計立體聲參數。舉例而言,可基於所接收第一經估計立體聲參數之內插而產生第二經估計立體聲參數以對應於具有第二視窗特性之取樣視窗。
方法700可因此使得解碼器能夠藉由在經編碼音訊信號之解碼期間使用如下取樣視窗來減少解碼延遲,該等取樣視窗相比於用以對經編碼音訊信號進行編碼之取樣視窗的重疊部分具有減少之重疊部分。可在使用具有第一特性(例如,較大重疊部分)之取樣視窗進行編碼期間產生的參數(例如,立體聲提示162)可在解碼期間經內插,以至少部分地補償具有第二特性之取樣視窗中的視窗差異。結果,可改良解碼延遲,同時對所再現信號品質產生可忽略之影響。
參考圖8,揭示了操作解碼器之方法的特定說明性實例之流程圖,且通常將該方法指定為800。解碼器可對應於圖1或圖3之解碼器118。舉例而言,可藉由圖1之第二裝置106或在另一裝置(諸如基地台)處執行方法800。
方法800包括在802處接收由編碼器基於複數個視窗而編碼之立體聲參數,該複數個視窗具有為該複數個視窗之間的重疊部分之第一長度。舉例而言,立體聲參數可包括或對應於立體聲提示162。立體聲參數可包括於音訊信號中,諸如圖1之包括立體聲提示162、側位元串流164及中間位元串流166的經編碼音訊信號中。立體聲參數可能已由第一裝置104之編碼器114使用基於第一視窗參數152之取樣視窗來編碼。舉例而言,第一
視窗參數152可指定第一視窗特性,諸如視窗躍點長度、視窗大小重疊、補零量或中心位置。視窗特性之其他非限制性實例包括視窗形狀、平坦視窗部分或視窗大小。
方法800亦包括在804處使用立體聲參數來基於上混操作產生至少兩個音訊信號。至少兩個音訊信號係基於用於上混操作中之第二複數個視窗而產生。該第二複數個視窗具有為該第二複數個視窗之間的重疊部分之第二長度。第二長度不同於第一長度。舉例而言,至少兩個音訊信號可由第二裝置106之解碼器118使用基於第二視窗參數176之取樣視窗來產生。
在一些實施中,複數個視窗與第一躍點長度相關聯,且第二複數個視窗與第二躍點長度相關聯。第一躍點長度與第二躍點長度可係相同躍點長度或可係不同躍點長度。另外或替代地,複數個視窗可包括與第二複數個視窗不同的視窗數目。在其他實施中,複數個視窗包括與第二複數個視窗相同的視窗數目。另外或替代地,複數個視窗中之第一視窗與第二複數個視窗中之第二視窗大小相同。在其他實施中,複數個視窗中之第一視窗與第二複數個視窗中之第二視窗大小不同。另外或替代地,複數個視窗中之每一視窗係對稱的,而第二複數個視窗中之第一特定視窗係不對稱的。在其他實施中,所有複數個視窗係不對稱的。
在一些實施中,方法800可包括接收包括立體聲參數之音訊信號、及應用第二複數個視窗以產生經視窗化時域音訊解碼信號。方法800亦可包括對經視窗化時域音訊解碼信號執行變換操作以產生經視窗化頻域音訊解碼信號。
在一些實施中,在編碼器處之立體聲降混處理期間所使用的複數個視窗中之每一視窗的總長度不同於在解碼器處之立體聲上混處理期間所使
用的第二複數個視窗中之每一視窗的總長度。複數個視窗可對應於用於立體聲降混處理中之DFT分析視窗,且第二複數個視窗可對應於用於立體聲上混處理中之反DFT合成視窗。另外或替代地,與編碼器處之變換域中的每一頻率區間相關聯之第一頻率解析度不同於與解碼器處之變換域中的每一頻率區間相關聯之第二頻率解析度。
在其他實施中,用於編碼器處之複數個視窗中的每一視窗之視窗位置不同於用於解碼器處之複數個視窗中的每一視窗之視窗位置。另外或替代地,立體聲參數中之至少一個參數經訊框間內插,且其中至少一個經內插參數用於解碼器處。可在編碼器處執行此內插並將其傳輸至解碼器,或編碼器可傳輸未經內插值且解碼器可執行訊框間內插。
方法800可因此使得解碼器能夠藉由在解碼期間使用如下取樣視窗來減少解碼延遲,該等取樣視窗相比於用以對經編碼音訊信號進行編碼之取樣視窗的重疊部分之長度具有不同長度重疊部分。結果,可顯著地減少解碼延遲,而對所再現信號品質產生可忽略之影響。
在特定態樣中,可藉由場可程式化閘陣列(FPGA)裝置、特殊應用積體電路(ASIC)、諸如中央處理單元(CPU)之處理單元、數位信號處理器(DSP)、控制器、另一硬體裝置、韌體裝置或其任何組合實施圖7之方法700或圖8之方法800。作為一實例,可藉由如關於圖9所描述之執行指令的處理器執行圖7之方法700或圖8之方法800。
參考圖9,描繪了裝置(例如,無線通信裝置)之特定說明性實例的方塊圖,且通常將該裝置指定為900。在各種實施中,裝置900可相比圖9中所說明具有更多或更少組件。在說明性實例中,裝置900可對應於圖1之系統。舉例而言,裝置900可對應於圖1之第一裝置104或第二裝置106。
在說明性實例中,裝置900可根據圖7之方法或圖8之方法而操作。
在特定實施中,裝置900包括處理器906(例如,CPU)。裝置900可包括一或多個額外處理器,諸如處理器910(例如,DSP)。處理器910可包括編解碼器908,諸如語音編解碼器、音樂編解碼器或其組合。處理器910可包括經組態以執行語音/音樂編解碼器908之操作的一或多個組件(例如,電路)。作為另一實例,處理器910可經組態以執行一或多個電腦可讀指令以執行語音/音樂編解碼器908之操作。因此,編解碼器908可包括硬體及軟體。儘管語音/音樂編解碼器908被說明為處理器910之組件,但在其他實例中,語音/音樂編解碼器908之一或多個組件可包括於處理器906、編解碼器934、另一處理組件或其組合中。
語音/音樂編解碼器908可包括解碼器992,諸如聲碼器解碼器。舉例而言,解碼器992可對應於圖1之解碼器118。在一特定態樣中,解碼器992經組態以使用具有第二視窗特性之取樣視窗來對經編碼信號進行解碼,第二視窗特性不同於用以對信號進行編碼之取樣視窗的第一視窗特性。舉例而言,解碼器992可經組態以使用基於一或多個所儲存視窗參數991(例如,圖1之第二視窗參數176)的取樣視窗。語音/音樂編解碼器908可包括編碼器991,諸如圖1之編碼器114。編碼器991可經組態以使用具有第一視窗特性之取樣視窗來對音訊信號進行編碼。
裝置900可包括記憶體932及編解碼器934。編解碼器934可包括數位/類比轉換器(DAC)902及類比/數位轉換器(ADC)904。揚聲器936、麥克風陣列938或兩者可耦接至編解碼器934。編解碼器934可自麥克風陣列938接收類比信號,使用類比/數位轉換器904來將類比信號轉換成數位信號,且將數位信號提供至語音/音樂編解碼器908。語音/音樂編解碼器908可處
理數位信號。在一些實施中,語音/音樂編解碼器908可將數位信號提供至編解碼器934。編解碼器934可使用數位/類比轉換器902將數位信號轉換為類比信號,且可將類比信號提供至揚聲器936。
裝置900可包括經由收發器950(例如,傳輸器、接收器或該等兩者)耦接至天線942之無線控制器940。裝置900可包括記憶體932,諸如電腦可讀儲存裝置。記憶體932可包括指令960,諸如可由處理器906、處理器910或其組合執行以執行相對於圖1至圖6所描述之技術中的一或多者、圖7之方法、圖8之方法、或其組合的一或多個指令。
作為說明性實例,記憶體932可儲存在由處理器906、處理器910或其組合執行時使得處理器906、處理器910或其組合執行包括以下各者之操作的指令:接收基於具有第一視窗特性之取樣視窗而編碼之音訊信號(例如,基於使用第一視窗參數152之編碼取樣視窗而接收立體聲提示162),及使用具有不同於第一視窗特性之第二視窗特性的取樣視窗來對音訊信號進行解碼(例如,基於第二視窗參數176)。
作為另一說明性實例,記憶體932可儲存在由處理器906、處理器910或其組合執行時使得處理器906、處理器910或其組合執行包括以下各者之操作的指令:接收由編碼器基於複數個視窗而編碼之立體聲參數(例如,接收立體聲提示162),該複數個視窗具有為該複數個視窗之間的重疊部分之第一長度,及使用立體聲參數來基於上混操作而產生至少兩個音訊信號。該至少兩個音訊信號係基於用於上混操作中之第二複數個視窗而產生,該第二複數個視窗具有為該第二複數個視窗之間的重疊部分之第二長度。第二長度不同於第一長度。
在一些實施中,記憶體932可包括程式碼(例如,經解譯或經編譯程
式指令),程式碼可由處理器906、處理器910或其組合執行以使得處理器906、處理器910或其組合執行如參考圖1之第二裝置106或圖1或圖3之解碼器118所描述的功能、執行圖7之方法700的至少一部分、執行圖8之方法800的至少一部分或其組合。
記憶體932可包括可由處理器906、處理器910、編解碼器934、裝置900之另一處理單元或其組合執行以執行本文中所揭示之方法及程序的指令960。可經由專用硬體(例如,電路)、藉由執行用以執行一或多個任務之指令(例如,指令960)的處理器或其組合實施圖1之系統100的一或多個組件。作為一實例,記憶體932或處理器906、處理器910、編解碼器934或其組合之一或多個組件可為記憶體裝置,諸如隨機存取記憶體(RAM)、磁電阻隨機存取記憶體(MRAM)、自旋扭矩轉移MRAM(STT-MRAM)、快閃記憶體、唯讀記憶體(ROM)、可程式化唯讀記憶體(PROM)、可抹除可程式化唯讀記憶體(EPROM)、電可抹除可程式化唯讀記憶體(EEPROM)、暫存器、硬碟、可移除式磁碟、或緊密光碟唯讀記憶體(CD-ROM)。記憶體裝置可包括在由電腦(例如,編解碼器934中之處理器、處理器906、處理器910或其組合)執行時可使得電腦執行圖7之方法的至少一部分、圖8之方法的至少一部分或其組合的指令(例如,指令960)。作為一實例,記憶體932或處理器906、處理器910、編解碼器934中之一或多個組件可係非暫時性電腦可讀媒體,非暫時性電腦可讀媒體包括在由電腦(例如,編解碼器934中之處理器、處理器906、處理器910或其組合)執行時使得電腦執行圖7之方法的至少一部分、圖8之方法的至少一部分或其組合的指令(例如,指令960)。
在一特定實施中,裝置900可包括於系統級封裝或系統單晶片裝置
922中。在一些實施中,記憶體932、處理器906、處理器910、顯示器控制器926、編解碼器934、無線控制器940及收發器950包括於系統級封裝或系統單晶片裝置922中。在一些實施中,輸入裝置930及電力供應器944耦接至系統單晶片裝置922。此外,在一特定實施中,如圖9中所說明,顯示器928、輸入裝置930、揚聲器936、麥克風陣列938、天線942及電力供應器944在系統單晶片裝置922外部。在其他實施中,顯示器928、輸入裝置930、揚聲器936、麥克風陣列938、天線942及電力供應器944中之每一者可耦接至系統單晶片裝置922之組件,諸如系統單晶片裝置922之介面或控制器。在說明性實例中,裝置900對應於通信裝置、行動通信裝置、智慧型電話、蜂巢式電話、膝上型電腦、電腦、平板電腦、個人數位助理、機上盒、顯示裝置、電視、遊戲控制台、音樂播放機、無線電、數位視訊播放機、數位視訊光碟(DVD)播放機、光學光碟播放機、調諧器、攝影機、導航裝置、解碼器系統、編碼器系統、基地台、車輛,或其任何組合。
結合所描述態樣,設備可包括用於接收基於具有第一視窗特性之取樣視窗所編碼的音訊信號之構件。舉例而言,用於接收之構件可包括或對應於圖1之接收器178、圖9之收發器950、用以接收經編碼音訊信號之一或多個其他結構、裝置、電路、模組或指令、或其組合。
設備亦可包括用於使用具有不同於第一視窗特性之第二視窗特性的取樣視窗來對音訊信號進行解碼之構件。舉例而言,用於解碼之構件可包括或對應於圖1或圖3之解碼器118、經程式化以執行圖9之指令960的處理器906、910中之一或多者、用以對音訊信號進行解碼之一或多個其他結構、裝置、電路、模組或指令、或其組合。
設備可包括用於應用具有第二視窗特性之取樣視窗以產生經視窗化時域音訊解碼信號的構件。舉例而言,用於應用之構件可包括或對應於圖1之樣本產生器172、解碼器902、經程式化以執行圖9之指令960的處理器906、910中之一或多者、用以應用取樣視窗之一或多個其他結構、裝置、電路、模組或指令、或其組合。
設備亦可包括用於對經視窗化時域音訊解碼信號執行變換操作以產生經視窗化頻域音訊解碼信號之構件。舉例而言,用於執行變換操作之構件可包括或對應於圖1之變換裝置174、圖3之變換308、309、解碼器992、經程式化以執行圖9之指令960的處理器906、910中之一或多者、用以執行變換操作之一或多個其他結構、裝置、電路、模組或指令、或其組合。
在另一實施中,設備包括用於接收由編碼器基於複數個視窗而編碼之立體聲參數的構件,該複數個視窗具有為該複數個視窗之間的重疊部分之第一長度。舉例而言,用於接收之構件可包括或對應於解碼器118、圖1之接收器178、解多工器302、側信號解碼器306、圖3之立體聲提示處理器312、上混器、圖9之收發器950、用以接收立體聲參數之一或多個其他結構、裝置、電路、模組或指令、或其組合。在一些實施中,立體聲參數可對應於離散傅立葉變換(DFT)立體聲提示參數。設備亦包括用於使用立體聲參數來執行上混操作以產生至少兩個音訊信號之構件。舉例而言,用於執行上混操作之構件可包括或對應於圖1之解碼器118、上混器310、圖3之立體聲提示處理器312、經程式化以執行指令960的處理器906、910中之一或多者、圖9之解碼器992、用以執行上混操作之一或多個其他結構、裝置、電路、模組或指令、或其組合。該至少兩個音訊信號係基於用
於上混操作中之第二複數個視窗而產生,該第二複數個視窗具有為該第二複數個視窗之間的重疊部分之第二長度。第二長度不同於第一長度。舉例而言,第二長度可小於第一長度。
在上文所描述之描述的態樣中,已將所執行各種功能描述為由某些組件或模組(諸如圖1之系統100的組件或模組)執行。然而,組件及模組之此劃分僅係為了說明。在替代性實例中,由特定組件或模組執行之功能可替代地劃分於多個組件或模組當中。此外,在其他替代性實例中,圖1之兩個或大於兩個組件或模組可整合至單個組件或模組中。可使用硬體(例如,ASIC、DSP、控制器、FPGA裝置等)、軟體(例如,可由處理器執行之指令)或其任何組合來實施圖1中所說明之每一組件或模組。
熟習此項技術者將進一步瞭解,結合本文所揭示之態樣所描述的各種說明性邏輯區塊、組態、模組、電路及演算法步驟可作為電子硬體、由處理器執行之電腦軟體,或兩者的組合進行實施。上文已大體上就其功能性而言描述各種說明性組件、區塊、組態、模組、電路及步驟。將此功能性實施為硬體還是處理器可執行指令取決於特定應用及強加於整個系統上之設計約束。對於每一特定應用而言,熟習此項技術者可以變化之方式實施所描述功能性,但不將此等實施決策解譯為導致脫離本發明之範疇。
結合本文中所揭示態樣所描述之方法或演算法的步驟可直接包括於硬體、由處理器執行之軟體模組或兩者之組合中。軟體模組可駐存於RAM、快閃記憶體、ROM、PROM、EPROM、EEPROM、暫存器、硬碟、可移除磁碟、CD-ROM,或此項技術中已知的任何其他形式之非暫時儲存媒體中。特定儲存媒體可耦接至處理器,使得處理器可自儲存媒體讀取資訊且向儲存媒體寫入資訊。在替代方案中,儲存媒體可整合至處理
器。處理器及儲存媒體可駐存於ASIC中。ASIC可駐存於計算裝置或使用者終端機中。在替代方案中,處理器及儲存媒體可作為離散組件而駐存於計算裝置或使用者終端機中。
提供先前描述以使得熟習此項技術者能夠進行或使用所揭示態樣。對此等態樣之各種修改將對熟習此項技術者易於顯而易見,且本文中所界定之原理可在不脫離本發明之範疇的情況下應用於其他態樣。因此,本發明並不意欲限於本文中所展示之態樣,且應符合可能與如由以下申請專利範圍所界定之原理及新穎特徵相一致的最廣泛範疇。
Claims (32)
- 一種用於音訊寫碼之裝置,其包含:一接收器,其經組態以接收由一編碼器基於複數個視窗而編碼之立體聲參數,該複數個視窗具有為該複數個視窗之間的重疊部分之一第一長度;及一解碼器,其經組態以使用該等立體聲參數來執行一上混操作以產生至少兩個音訊信號,該至少兩個音訊信號基於用於該上混操作中之第二複數個視窗而產生,該第二複數個視窗具有為該第二複數個視窗之間的重疊部分之一第二長度,該第二長度不同於該第一長度。
- 如請求項1之裝置,其中在該編碼器處之立體聲降混處理期間所使用的該複數個視窗中之每一視窗的一總長度不同於在該解碼器處之立體聲上混處理期間所使用的該第二複數個視窗中之每一視窗的總長度。
- 如請求項2之裝置,其中該複數個視窗對應於用於該立體聲降混處理中之DFT分析視窗,且該第二複數個視窗對應於用於該立體聲上混處理中之反DFT合成視窗。
- 如請求項2之裝置,其中與該編碼器處之一變換域中的每一頻率區間相關聯之一第一頻率解析度不同於與該解碼器處之該變換域中的每一頻率區間相關聯之一第二頻率解析度。
- 如請求項1之裝置,其中用於該編碼器處之該複數個視窗中的每一視窗之一視窗位置不同於用於該解碼器處之該複數個視窗中的每一視窗之一視窗位置。
- 如請求項5之裝置,其中該等立體聲參數中之至少一個參數經訊框間內插,且其中該至少一個經內插參數及至少一個未經內插值用於該解碼器處。
- 如請求項1之裝置,其中該第二複數個視窗之一視窗重疊係不對稱的。
- 如請求項1之裝置,其中該接收器經進一步組態以接收一中間信號。
- 如請求項8之裝置,其中該中間信號係由該編碼器使用該等立體聲參數來基於一降混操作而產生。
- 如請求項8之裝置,其中該上混操作係使用該等立體聲參數及該中間信號來執行。
- 如請求項1之裝置,其中該第二複數個視窗中之一對連續視窗中的兩個視窗係不對稱的。
- 如請求項1之裝置,其中該第二複數個視窗中之一對連續視窗中的一第一視窗係不對稱的。
- 如請求項12之裝置,其中該第一視窗與該第二視窗之一第一重疊部分的一第三長度不同於該第二視窗與一第二對連續視窗中之一第三視窗的一第二重疊部分之一第四長度。
- 如請求項1之裝置,其中該接收器經組態以接收包括該等立體聲參數之一音訊信號,且其中該解碼器經組態以在對該音訊信號之解碼期間應用該第二複數個視窗,以產生一經視窗化時域音訊解碼信號。
- 如請求項1之裝置,其中該接收器及該解碼器整合至一行動通信裝置中。
- 如請求項1之裝置,其中該接收器及該解碼器整合至一基地台中。
- 一種用於音訊寫碼之方法,其包含:接收由一編碼器基於複數個視窗而編碼之立體聲參數,該複數個視窗具有為該複數個視窗之間的重疊部分之一第一長度;及使用該等立體聲參數來基於一上混操作而產生至少兩個音訊信號,該至少兩個音訊信號基於用於該上混操作中之第二複數個視窗而產生,該第二複數個視窗具有為該第二複數個視窗之間的重疊部分之一第二長度,該第二長度不同於該第一長度。
- 如請求項17之方法,其中該複數個視窗與一第一躍點長度相關聯且該第二複數個視窗與一第二躍點長度相關聯。
- 如請求項17之方法,其中該複數個視窗包括與該第二複數個視窗不同的視窗數目。
- 如請求項17之方法,其中該複數個視窗中之一第一視窗與該第二複數個視窗中之一第二視窗大小相同。
- 如請求項17之方法,其中該複數個視窗中之每一視窗係對稱的,且其中該第二複數個視窗中之一第一視窗係不對稱的。
- 如請求項17之方法,其進一步包含:接收包括該等立體聲參數之一音訊信號;及應用該第二複數個視窗以產生一經視窗化時域音訊解碼信號。
- 如請求項22之方法,其進一步包含對該經視窗化時域音訊解碼信號執行一變換操作以產生一經視窗化頻域音訊解碼信號。
- 如請求項17之方法,其中在包含一行動通信裝置之一裝置處執行接收及產生。
- 如請求項17之方法,其中在包含一基地台之一裝置處執行接收及產生。
- 一種用於音訊寫碼之設備,其包含:用於接收由一編碼器基於複數個視窗而編碼之立體聲參數的構件,該複數個視窗具有為該複數個視窗之間的重疊部分之一第一長度;及用於使用該等立體聲參數來執行一上混操作以產生至少兩個音訊信號之構件,該至少兩個音訊信號基於用於該上混操作中之第二複數個視窗而產生,該第二複數個視窗具有為該第二複數個視窗之間的重疊部分之一第二長度,該第二長度不同於該第一長度。
- 如請求項26之設備,其進一步包含:用於應用該第二複數個視窗以產生一經視窗化時域音訊解碼信號之構件;及用於對該經視窗化時域音訊解碼信號執行一變換操作以產生一經視窗化頻域音訊解碼信號之構件。
- 如請求項26之設備,其中用於接收之該構件及用於執行之該構件整合至一行動通信裝置中。
- 如請求項26之設備,其中用於接收之該構件及用於執行之該構件整合至一基地台中。
- 一種電腦可讀儲存裝置,其儲存在由一處理器執行時使得該處理器執行包含以下各者之操作的指令:接收由一編碼器基於複數個視窗而編碼之立體聲參數,該複數個視窗具有為該複數個視窗之間的重疊部分之一第一長度;及使用該等立體聲參數來基於一上混操作而產生至少兩個音訊信號,該至少兩個音訊信號基於用於該上混操作中之第二複數個視窗而產生,該第二複數個視窗具有為該第二複數個視窗之間的重疊部分之一第二長度,該第二長度不同於該第一長度。
- 如請求項30之電腦可讀儲存裝置,其中該第二長度小於該第一長度。
- 如請求項30之電腦可讀儲存裝置,其中該等立體聲參數對應於離散傅立葉變換(DFT)立體聲提示參數。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662310635P | 2016-03-18 | 2016-03-18 | |
US62/310,635 | 2016-03-18 | ||
US15/461,312 | 2017-03-16 | ||
US15/461,312 US9959877B2 (en) | 2016-03-18 | 2017-03-16 | Multi channel coding |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201737242A TW201737242A (zh) | 2017-10-16 |
TWI640980B true TWI640980B (zh) | 2018-11-11 |
Family
ID=58489063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106109041A TWI640980B (zh) | 2016-03-18 | 2017-03-17 | 用於音訊寫碼之裝置、方法、設備及電腦可讀儲存裝置 |
Country Status (10)
Country | Link |
---|---|
US (1) | US9959877B2 (zh) |
EP (1) | EP3430623B1 (zh) |
JP (1) | JP6768824B2 (zh) |
KR (1) | KR102168054B1 (zh) |
CN (1) | CN108780651B (zh) |
BR (1) | BR112018068491A2 (zh) |
CA (1) | CA3014784C (zh) |
ES (1) | ES2783975T3 (zh) |
TW (1) | TWI640980B (zh) |
WO (1) | WO2017161315A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112352277B (zh) * | 2018-07-03 | 2024-05-31 | 松下电器(美国)知识产权公司 | 编码装置及编码方法 |
WO2020094263A1 (en) * | 2018-11-05 | 2020-05-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs |
CN115917644A (zh) * | 2020-06-24 | 2023-04-04 | 日本电信电话株式会社 | 声音信号编码方法、声音信号编码装置、程序以及记录介质 |
US20230298598A1 (en) * | 2020-06-24 | 2023-09-21 | Nippon Telegraph And Telephone Corporation | Sound signal decoding method, sound signal decoder, program, and recording medium |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050137729A1 (en) * | 2003-12-18 | 2005-06-23 | Atsuhiro Sakurai | Time-scale modification stereo audio signals |
US20130028426A1 (en) * | 2010-04-09 | 2013-01-31 | Heiko Purnhagen | MDCT-Based Complex Prediction Stereo Coding |
US20130268264A1 (en) * | 2010-10-15 | 2013-10-10 | Huawei Technologies Co., Ltd. | Signal analyzer, signal analyzing method, signal synthesizer, signal synthesizing, windower, transformer and inverse transformer |
EP2980791A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions |
US20160035361A1 (en) * | 2009-01-28 | 2016-02-04 | Dolby International Ab | Harmonic Transposition in an Audio Coding Method and System |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7072726B2 (en) * | 2002-06-19 | 2006-07-04 | Microsoft Corporation | Converting M channels of digital audio data into N channels of digital audio data |
US7325023B2 (en) * | 2003-09-29 | 2008-01-29 | Sony Corporation | Method of making a window type decision based on MDCT data in audio encoding |
US20050276430A1 (en) * | 2004-05-28 | 2005-12-15 | Microsoft Corporation | Fast headphone virtualization |
CN102177426B (zh) * | 2008-10-08 | 2014-11-05 | 弗兰霍菲尔运输应用研究公司 | 多分辨率切换音频编码/解码方案 |
-
2017
- 2017-03-16 US US15/461,312 patent/US9959877B2/en active Active
- 2017-03-17 CN CN201780015738.7A patent/CN108780651B/zh active Active
- 2017-03-17 BR BR112018068491A patent/BR112018068491A2/pt unknown
- 2017-03-17 ES ES17715567T patent/ES2783975T3/es active Active
- 2017-03-17 EP EP17715567.8A patent/EP3430623B1/en active Active
- 2017-03-17 WO PCT/US2017/023035 patent/WO2017161315A1/en active Application Filing
- 2017-03-17 CA CA3014784A patent/CA3014784C/en active Active
- 2017-03-17 JP JP2018548749A patent/JP6768824B2/ja active Active
- 2017-03-17 KR KR1020187026599A patent/KR102168054B1/ko active IP Right Grant
- 2017-03-17 TW TW106109041A patent/TWI640980B/zh active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050137729A1 (en) * | 2003-12-18 | 2005-06-23 | Atsuhiro Sakurai | Time-scale modification stereo audio signals |
US20160035361A1 (en) * | 2009-01-28 | 2016-02-04 | Dolby International Ab | Harmonic Transposition in an Audio Coding Method and System |
US20130028426A1 (en) * | 2010-04-09 | 2013-01-31 | Heiko Purnhagen | MDCT-Based Complex Prediction Stereo Coding |
US20130268264A1 (en) * | 2010-10-15 | 2013-10-10 | Huawei Technologies Co., Ltd. | Signal analyzer, signal analyzing method, signal synthesizer, signal synthesizing, windower, transformer and inverse transformer |
EP2980791A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions |
Also Published As
Publication number | Publication date |
---|---|
US9959877B2 (en) | 2018-05-01 |
BR112018068491A2 (pt) | 2019-01-22 |
WO2017161315A1 (en) | 2017-09-21 |
EP3430623A1 (en) | 2019-01-23 |
KR102168054B1 (ko) | 2020-10-20 |
CA3014784C (en) | 2023-04-25 |
CA3014784A1 (en) | 2017-09-21 |
EP3430623B1 (en) | 2020-01-01 |
JP2019512737A (ja) | 2019-05-16 |
KR20180125475A (ko) | 2018-11-23 |
CN108780651B (zh) | 2023-05-30 |
TW201737242A (zh) | 2017-10-16 |
JP6768824B2 (ja) | 2020-10-14 |
CN108780651A (zh) | 2018-11-09 |
US20170270936A1 (en) | 2017-09-21 |
ES2783975T3 (es) | 2020-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2705007C1 (ru) | Устройство и способ для кодирования или декодирования многоканального сигнала с использованием сихронизации управления кадрами | |
CN107408389B (zh) | 用于编码的音频编码器及用于解码的音频解码器 | |
US9275648B2 (en) | Method and apparatus for processing audio signal using spectral data of audio signal | |
TWI732832B (zh) | 通信裝置,通信方法以及電腦可讀儲存器件 | |
TWI640980B (zh) | 用於音訊寫碼之裝置、方法、設備及電腦可讀儲存裝置 | |
JP7261807B2 (ja) | ハイブリッドエンコーダ/デコーダ空間解析を使用する音響シーンエンコーダ、音響シーンデコーダおよびその方法 | |
WO2014161996A2 (en) | Audio processing system | |
TWI713819B (zh) | 用於頻譜映射及調整之計算裝置及方法 | |
JP2011509429A (ja) | 信号処理方法及び装置 | |
KR20170087529A (ko) | 오디오 인코더 및 디코더 | |
US20220293112A1 (en) | Low-latency, low-frequency effects codec | |
EP3577647B1 (en) | Multi channel decoding | |
JP2023549038A (ja) | パラメータ変換を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム | |
JP2023549033A (ja) | パラメータ平滑化を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム | |
JP2023548650A (ja) | 帯域幅拡張を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム | |
BR122024008230A2 (pt) | Aparelho e método para decodificar um sinal multicanal codificado | |
BR122024008232A2 (pt) | Aparelho e método para decodificar um sinal multicanal codificado |