TWI450267B - 編碼時域音訊訊號之方法及電子裝置以及產生頻帶之頻率係數的比例因子之方法 - Google Patents
編碼時域音訊訊號之方法及電子裝置以及產生頻帶之頻率係數的比例因子之方法 Download PDFInfo
- Publication number
- TWI450267B TWI450267B TW099126515A TW99126515A TWI450267B TW I450267 B TWI450267 B TW I450267B TW 099126515 A TW099126515 A TW 099126515A TW 99126515 A TW99126515 A TW 99126515A TW I450267 B TWI450267 B TW I450267B
- Authority
- TW
- Taiwan
- Prior art keywords
- frequency band
- audio signal
- frequency
- coefficients
- energy
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims description 90
- 238000000034 method Methods 0.000 title claims description 26
- 238000013139 quantization Methods 0.000 claims description 8
- 238000013500 data storage Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011066 ex-situ storage Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
音訊資訊之高效的壓縮減小用於儲存該音訊資訊之記憶體容量需要及傳輸該資訊所需之通信頻寬兩者。為實現此壓縮,各種音訊編碼方案(諸如無所不在的動畫專家群1(MPEG-1)音訊層3(MP3)格式及較新的高級音訊編碼(AAC)標準)採用主要描述在接收及處理音訊資訊中之人耳的限制的至少一種心理聲學模型(PAM)。例如,人類音訊系統展現頻域(其中處於一特定頻率之音訊遮蔽處於鄰近頻率、低於某些音量位準之音訊)及時域(其中具有一特定頻率之一音訊音調在移除之後遮蔽相同的音調持續某一時間週期)兩者中的一聲音遮蔽原理。提供壓縮之音訊編碼方案藉由移除將為人類音訊系統所遮蔽之原始音訊資訊的該等部分而利用此等聲音遮蔽原理。
為判定移除該原始音訊訊號的哪些部分,音訊編碼系統通常處理該原始訊號以產生一遮蔽臨限,使得可消除位於該臨限之下的音訊訊號而不產生音訊保真度之一顯著損失。此種處理係相當運算密集,從而使音訊訊號之即時編碼變得困難。此外,執行此等運算通常對於消費型電子裝置費力且耗時,消費型電子裝置之許多採用並非為此種密集處理所特定設計的定點數位訊號處理器(DSP)。
參考下列圖式可更好地瞭解本揭示內容之許多態樣。因為將重點替代地放在對本揭示內容之原理的清晰繪示上,所以該等圖式中之組件無需按比例描繪。此外,在該等圖式中,相同的參考符號貫穿若干視圖標示對應的部件。同時,雖然結合此等圖式描述若干實施例,但是本揭示內容並不限於本文所揭示之該等實施例。相比而言,意欲涵蓋全部替代、修改及等效物。
隨附圖式及下列描述描繪本發明之特定實施例以教導熟習此項技術者如何製作並使用本發明之最佳模式。出於教導發明原理之目的,已簡化或省略一些習知態樣。熟習此項技術者將瞭解落於本發明之範疇內之此等實施例的變更。熟習此項技術者亦將瞭解可以各種方式組合下文所述之特徵以形成本發明之多重實施例。因此,本發明並不限於下文所述之該等特定實施例,而是僅由申請專利範圍及其等之等效物所限制。
圖1提供根據本發明之一實施例之經組態以將一時域音訊訊號110編碼為一編碼的音訊訊號120之一電子裝置100的一簡化方塊圖。在一實施方案中,該編碼係根據高級音訊編碼(AAC)標準執行,但是涉及將一時域訊號變換為一編碼音訊訊號之其他編碼方案可有利地利用下文所論述之概念。此外,該電子裝置100可為能夠執行此種編碼之任意裝置,包含但不限於個人桌上型電腦及膝上型電腦、音訊/視訊編碼系統、光碟(CD)及數位視訊碟(DVD)播放器、電視機機上盒、音訊接收器、蜂巢式電話、個人數位助理(PDA)及音訊/視訊易地播放裝置(諸如Sling Media,Inc所提供之Slingbox的各種型號)。
圖2呈現操作圖1之該電子裝置100以編碼該時域音訊訊號110以產生該編碼的音訊訊號120之一方法200的一流程圖。在該方法200中,該電子裝置100接收該時域音訊訊號110(操作202)。該裝置100然後將該時域音訊訊號110變換為具有複數個頻率之一頻域訊號,使各頻率與指示該頻率之一量值的一係數相關聯(操作204)。然後將該等係數分組為若干頻帶(操作206)。該等頻帶之各頻帶包含該等係數之至少一係數。對於各頻帶(操作208),該電子裝置100判定該頻帶之一能量(操作210),基於該頻帶之該能量判定該頻帶之一比例因子(操作212),且基於與該頻帶相關聯之該比例因子量化該頻帶之該等係數(操作214)。該裝置100基於該等量化係數及該等比例因子產生該編碼的音訊訊號120(操作216)。
雖然圖2之操作係描繪為以一特定順序執行,但是可能存在其他執行順序,包含兩個或兩個以上操作之同時執行。例如,可將圖2之該等操作作為一類執行管線執行,其中各操作隨著該時域音訊訊號110進入該管線而在該時域音訊訊號110之一不同部分上執行。在另一實施例中,一電腦可讀儲存媒體可具有對於圖1之該電子裝置100之至少一處理器或其他控制電路的於其上編碼的指令以實施該方法200。
由於該方法200之至少一些實施例,各頻帶用於量化該頻帶之係數的比例因子係基於對該頻帶之頻率能量的一判定。此一判定因為通常在大多數AAC實施方案中執行,故通常與一遮蔽臨限之一計算相比不算運算密集。因此,可能存在由任意類別的電子裝置(包含利用廉價的數位訊號處理組件之小型裝置)進行即時音訊編碼。可自下文更詳細論述之本發明的各種實施方案認知其他優點。
圖3係根據本發明之另一實施例之一電子裝置300的一方塊圖。該裝置300包含控制電路302及資料儲存器304。在一些實施方案中,該裝置300亦可包含一通信介面306及一使用者介面308之任一者或兩者。其他組件(包含但不限於一電源供應器及一裝置外殼)亦可含於該電子裝置300中,但是圖3中並未明確地展示此等組件,下文亦未論述其等以簡化下列論述。
該控制電路302係經組態以控制該電子裝置300之各種態樣,以將一時域音訊訊號310編碼為一編碼的音訊訊號320。在一實施例中,該控制電路302包含經組態以執行指導該處理器執行下文更詳細論述之各種操作的指令的至少一處理器(諸如一微處理器、微控制器或數位訊號處理器(DSP))。在另一實例中,該控制電路302可包含經組態以執行下文所述之任務或操作的一或多個任務或操作的一或多個硬體組件,或可併入硬體及軟體處理元件之某一組合。
該資料儲存器304係經組態以儲存待編碼之該時域音訊訊號310及該所得之編碼音訊訊號320的一些或全部。該資料儲存器304亦可儲存中間資料、控制資訊及編碼程序中所涉及之相似物。該資料儲存器304亦可包含待由該控制電路302之一處理器執行之指令以及關於該等指令之執行的任意程式資料或控制資訊。該資料儲存器304可包含任意揮發性記憶體組件(諸如動態隨機存取記憶體(DRAM)及靜態隨機存取記憶體(SRAM))、非揮發性記憶體裝置(諸如可卸除及繫留之快閃記憶體、磁碟驅動器及光碟驅動器)及其等之組合。
該電子裝置300亦可包含經組態以經由一通信鏈路接收該時域音訊訊號310及/或傳輸該編碼的音訊訊號320之一通信介面306。該通信介面306之實例可為一廣域網路(WAN)介面(諸如至網際網路之一數位用戶線(DSL)或纜線介面),一區域網路(LAN)(諸如Wi-Fi或乙太網路),或經調適以經由一通信鏈路或以一導線連接、無線或光學方式的連接進行通信之任意其他的通信介面。
在其他實例中,該通信介面306可經組態以發送作為音訊/視訊節目之部分的該等音訊訊號310、320至一輸出裝置(圖3中未展示),諸如一電視機、視訊監視器或音訊/視訊接收器。例如,該音訊/視訊節目之視訊部分可藉由一調變視訊纜線連接、一複合或組成視訊RCA(美國廣播公司)式連接及一數位視訊介面(DVI)或高清晰度多媒體介面(HDMI)連接予以遞送。該節目之音訊部分可經由一單聲道或立體聲音訊RCA式連接、一TOSLINK連接或經由一HDMI連接予以傳輸。其他實施例中可採用其他的音訊/視訊格式及相關聯的連接。
此外,該電子裝置300可包含經組態以(諸如)藉由一音訊麥克風及相關聯電路(包含一放大器、一類比轉數位轉換器(ADC)及相似物)自一或多個使用者接收該時域音訊訊號310所表示之聲音訊號311的一使用者介面308。同樣,該使用者介面308可包含放大器電路及一或多個音訊揚聲器,以對使用者呈現該編碼音訊訊號320所表示之聲音訊號321。取決於實施方案,該使用者介面308亦可包含用於允許一使用者控制該電子裝置300的構件,諸如藉由一鍵盤、小鍵盤、觸控墊、滑鼠、操縱桿或其他使用者輸入裝置。類似地,該使用者介面308可提供一可視輸出構件,諸如一監視器或其他可視的顯示裝置,從而允許該使用者自該電子裝置300接收可視資訊。
圖4提供該電子裝置300所提供的一音訊編碼系統400以將該時域音訊訊號310編碼為圖3之該編碼音訊訊號320的一實例。圖3之該控制電路302可藉由硬體電路、執行軟體或韌體指令之一處理器或其等之某一組合實施該音訊編碼系統400之各部分。
圖4之該特定系統400表示AAC之一特定實施方案,但是其他音訊編碼方案可用於其他實施例中。一般而言,AAC表示音訊編碼之一模組化方法,藉此圖4之各功能區塊450-472以及其中未特定描繪之功能區塊可以一單獨的硬體、軟體或韌體模組或「工具」予以實施,因此允許發源於各種開發來源之模組整合至一單一編碼系統400中以執行所期望的音訊編碼。因此,使用不同數目及類型的模組可引起任意數目的編碼器「設定檔」之形成,各編碼器「設定檔」能夠解決與一特定編碼環境相關聯之特定限制。此等限制可包含該裝置300之運算能力、該時域音訊訊號310之複雜性及該編碼音訊訊號320之期望的特性(諸如輸出位元速率及失真位準)。該AAC標準通常提供四種預設設定檔,包含低複雜性(LC)設定檔、主要(MAIN)設定檔、取樣速率可按比例調整(SRS)設定檔及長期預測(LTP)設定檔。圖4之該系統400基本上對應於該主要設定檔,但是其他設定檔可將增強併入下文所述之感知模型450、比例因子產生器466及/或速率/失真控制區塊464。
圖4藉由實箭頭線描繪音訊資料之一般流程,而經由虛箭頭線繪示可能的控制路徑的一些控制路徑。其他配置中可能存在關於圖4中未特定展示之該等模組450-472之間的控制資訊傳遞的其他可能性。
在圖4中,接收該時域音訊訊號310以作為該系統400之一輸入。一般而言,該時域音訊訊號310包含格式化為一時變音訊訊號之一系列數位樣本的音訊資訊的一或多個聲道。在一些實施例中,該時域音訊訊號310最初可呈一類比音訊訊號之形式,隨後在如由該控制電路302所實施之將其轉遞至該編碼系統400之前,(諸如)藉由該使用者介面308之一ADC以一規定的速率對其數位化。
如圖4中所繪示,該音訊編碼系統400之該等模組可包含組態為接收作為輸入之該時域音訊訊號310之一處理管線的部分的一增益控制區塊452、一濾波器組454、一暫態雜訊整形(TNS)區塊456、一強度/耦合區塊458、一向後預測工具460及一中間/側邊立體聲區塊462。此等功能區塊452-462可對應於經常存在於AAC之其他實施方案中之相同的功能區塊。該時域音訊訊號310亦被轉遞至可提供控制資訊至以上提及之該等功能區塊452-462的任意功能區塊的一感知模型450。在一典型的AAC系統中,此控制資訊指示該時域音訊訊號310之哪些部分在一心理聲學模型(PAM)下為多餘,因此允許丟棄該時域音訊訊號310中之音訊資訊的該等部分以便於如該編碼音訊訊號320中所實現之壓縮。
為此,在典型的AAC系統中,該感知模型450自該時域音訊訊號310之一快速傅立葉變換(FFT)的一輸出計算一遮蔽臨限,以指示可丟棄該音訊訊號310之哪些部分。然而,在圖4之該實例中,該感知模型450接收提供一頻域訊號474之該濾波器組454的輸出。在一特定實例中,該濾波器組454係如AAC系統中通常提供之一經修改的離散餘弦變換(MDCT)功能區塊。
如圖5中所描繪,該MDCT區塊454所產生之該頻域訊號474包含對於待編碼之音訊資訊的各聲道之許多頻率502,而各頻率502係由指示該頻域訊號474中之該頻率502的量值或強度的一係數表示。在圖5中,各頻率502係描繪為一垂直向量,其等之高度表示與該頻率502相關聯之該係數的值。
另外,如在典型的AAC方案中所進行者,該等頻率502被邏輯地組織為鄰接的頻率群組或「帶」504A-504E。雖然圖4指示各頻帶504利用相同的頻率範圍且包含該濾波器組454所產生之相同數目的離散頻率502,但是可在該等頻帶504之間採用各種數目的頻率502及各種大小的頻率502範圍,如經常為AAC系統之情況。
形成該等頻帶504以允許頻率502之一頻帶504之各頻率502的係數由圖4之該比例因子產生器466所產生之一比例因子按比例調整或劃分。此種按比例調整減少表示該編碼音訊訊號320中之該等頻率502係數的資料數量,因此壓縮該資料,從而引起該編碼音訊訊號320之一較低的傳輸位元速率。此按比例調整亦引起音訊資訊的量化,其中該等頻率502係數被強迫變為離散的預定值,因此可能在解碼之後引入該編碼音訊訊號320中之某些失真。一般而言,較高的比例因子導致較粗糙的量化,從而引起較高的音訊失真位準及較低的編碼音訊訊號320位元速率。
為滿足先前的AAC系統中之該編碼音訊訊號320的預定失真位準及位元速率,該感知模型450計算以上提及之該遮蔽臨限以判定該編碼音訊訊號320之各取樣區塊的一可接受比例因子。然而,在本文論述之該等實施例中,該感知模型450替代地判定與各頻帶504之該等頻率502相關聯的能量,且然後基於該能量計算各頻帶504之一期望的比例因子。在一實例中,一頻帶504中之該等頻率502之該能量係由該頻帶504中之該等頻率502的MDCT係數的「絕對總和」或絕對值的總和(有時被稱為絕對光譜係數之總和(SASC))計算。
一但判定該頻帶504之能量之後,即可藉由採用該頻帶504之該能量的一對數(諸如一以十為底數的對數),相加一常數值,且然後將該項乘以一預定乘數以產生該頻帶504之至少一初始比例因子來計算與該頻帶504相關聯之該比例因子。根據先前已知的心理聲學模型之音訊編碼中的試驗指示近似為1.75之一常數及一乘數10產生與由大量遮蔽臨限計算所產生之比例因子相當的比例因子。因此,對於此特定實例,產生一比例因子之下列方程式。
比例因子
=(log10
(Σ|頻帶係數
|)+1.75)*10
其他組態中可採用除1.75以外之其他常數值。
為編碼該時域音訊訊號310,該MDCT濾波器組454產生該頻域訊號474之頻率樣本的一系列區塊,而各區塊係與該時域音訊訊號310之一特定時間週期相關聯。因此,可對於該頻域訊號474中所產生之頻率樣本的各聲道的每個區塊採用上文註明之該等比例因子計算,因此可能提供各頻帶504之各區塊的一不同的比例因子。在所涉及之資料數量情況下,與估計相同的頻率樣本區塊之一遮蔽臨限相比,對於各比例因子使用以上計算顯著減少判定該等比例因子所需之處理量。
在該管線中之該比例因子產生器466後之一量化器468將如由該比例因子產生器466產生(及可能由如下文所述之一速率/失真控制區塊464調整)之各頻帶504之比例因子用於劃分該頻帶504中之各種頻率502的係數。藉由劃分該等係數,該等係數得以減少或在大小上得以壓縮,因此降低該編碼音訊訊號320之整體位元速率。此種劃分引起該等係數被量化為某一定義數目之離散值的一值。
在一實施例中,可將產生該等比例因子之上文列舉之該方程式的使用限於其中該編碼音訊訊號320之目標或期望位元速率不超過某一預定位準或值之情形。為解決其中該目標位元速率超過該預定位準之情況,該速率/失真控制區塊464可替代地判定各頻帶504之該等係數之哪些係數為該頻帶504之最高或最大的係數,且然後選擇該頻帶504之一比例因子,使得不迫使如該量化器468所產生之該係數的量化值成為零。藉由以此一方式產生比例因子,可避免存在音訊「孔」,其中若干頻率之一整個頻帶504正自該編碼音訊訊號320漏掉若干時間週期,且因此對於聆聽者可為顯著。在一實施例中,該速率/失真控制區塊464可選擇允許該頻帶504之最大係數在量化之後為非零的最大比例因子。
在量化之後,一無雜訊編碼區塊470根據一無雜訊編碼方案編碼該等所得之量化係數。在一實施例中,該編碼方案可為AAC中所採用之無損的霍夫曼(Huffman)編碼方案。
如圖4中所描繪之該速率/失真控制區塊464可調整該比例因子產生器466中產生之該等比例因子的一或多個比例因子以滿足該編碼音訊訊號320之預定位元速率及失真位準需要。例如,該速率/失真控制區塊464可判定該計算比例因子可引起與待保持之平均位元速率相比顯著較高的該編碼音訊訊號320之一輸出位元速率,且因此相應地增加該比例因子。
在另一實施方案中,該速率/失真控制區塊464採用一位元儲存器,或「漏桶(leaky bucket)」模型來調整該等比例因子以維持該編碼音訊訊號320之一可接受的平均位元速率,同時允許該位元速率隨時間增加以考慮包含較高資料內容之該時域音訊訊號310之週期。更特定言之,假設具有與該編碼音訊訊號320所需之位元速率相關聯之某一時間週期的一容量的一實際或虛擬位元儲存器或緩衝器初始為空。在一實例中,該緩衝器之大小對應於該編碼音訊訊號320之近似五秒鐘的資料,但是其他實施方案中可調用更短或更長的時間週期。
在理想的資料傳輸條件(其中該比例因子產生器466所產生之該等比例因子導致該輸出音訊訊號320之實際位元速率匹配期望的位元速率)期間,該緩衝器仍然處於其之初始空狀態。然而,若該編碼音訊訊號320之多重區塊的一部分臨時需要使用一較高的位元速率以維持一期望的失真位準,則可應用較高的位元速率,因此消耗該緩衝器或儲存器之一些。若接著該緩衝器之充滿程度超過某一預定臨限,則可增加所產生之比例因子以降低該輸出位元速率。類似地,若該輸出位元速率下降使得該緩衝器仍然為空,則該速率/失真控制區塊464可減小該比例因子產生器466所供應之該等比例因子以增加該位元速率。取決於該實施例,該速率/失真控制區塊464可增加或減小所有該等頻帶504的比例因子,或可取決於原始比例因子、係數及其他特性而選擇特定的比例因子用於調整。
在一配置中,可在應用上文所述之該位元儲存器模型之前採用該速率/失真控制區塊464基於所產生之位元速率調整該等比例因子的能力,以允許該模型快速收斂於遵循該預定位元速率同時將最小失真量置入該編碼音訊訊號320中之比例因子。
在該編碼區塊470中編碼該等比例因子及係數之後,所得的資料被轉遞至一位元串流多工器472,該位元串流多工器472輸出包含該等係數及比例因子的該編碼音訊訊號320。此資料可進一步與其他控制資訊及元資料混合,諸如文字資料(包含一標題及關於該編碼音訊訊號320之相關資訊)及關於經使用使得接收該音訊訊號320之一解碼器可精確地解碼該訊號320的特定解碼方案的資訊。
如本文所述之至少一些實施例提供一種音訊編碼方法,其中一音訊訊號之各頻帶內之音訊頻率所展現之能量可用於以相對少的運算計算用於該音訊資訊之編碼及壓縮的有用的比例因子。藉由以此一方式產生該等比例因子,可更容易完成音訊訊號之即時編碼(諸如可在一易地播放裝置中用於經由一通信網路傳輸音訊)。此外,以此一方式產生比例因子可允許擁有先前不能編碼及壓縮音訊訊號之廉價的數位訊號處理電路的許多可攜式及其他消費型裝置具備此種能力。
雖然本文已經論述本發明之若干實施例,但是可能存在本發明之範疇所涵蓋的其他實施方案。例如,雖然已經在一易地播放裝置之內容中描述本文所揭示之至少一實施例,但是其他數位處理裝置(諸如通用運算系統)、電視機接收器或機上盒(包含與衛星、纜線及地面電視訊號傳輸相關聯的裝置)、衛星及地面音訊接收器、遊戲控制台、DVR及CD及DVD播放器可得益於上文解釋之該等概念的應用。另外,本文所揭示之一實施例的若干態樣可與替代實施例之態樣組合以產生本發明之進一步實施方案。因此,雖然已在特定實施例之內容中描述本發明,但是此等描述係出於繪示而提供且並非限制。因此,本發明之合適範疇僅由下列申請專利範圍及其等之等效物所界定。
100...電子裝置
300...電子裝置
302...控制電路
304...資料儲存器
306...通信介面
308...使用者介面
400...音訊編碼系統
450...感知模型
452...增益控制區塊
454...濾波器組
456...暫態雜訊整形區塊
458...強度/耦合區塊
460...向後預測工具
462...中間/側邊立體聲區塊
464...速率/失真控制區塊
466...比例因子產生器
468...量化器
470...無雜訊編碼區塊
472...位元串流多工器
圖1係根據本發明之一實施例之經組態以編碼一時域音訊訊號的一電子裝置的一簡化方塊圖;
圖2係根據本發明之一實施例之操作圖1之該電子裝置以編碼一時域音訊訊號的一方法的一流程圖;
圖3係根據本發明之另一實施例之一電子裝置的一方塊圖;
圖4係根據本發明之一實施例之一音訊編碼系統的一方塊圖;及
圖5係根據本發明之一實施例之處理頻帶的一頻域訊號的一圖形描繪。
100‧‧‧電子裝置
Claims (17)
- 一種編碼一時域音訊訊號之方法,該方法包括:在一電子裝置處接收該時域音訊訊號;將該時域音訊訊號變換為一頻域訊號,該頻域訊號包括對於複數個頻率之各頻率的一係數;將該等係數分組為若干頻帶,其中該等頻帶之各頻帶包含該等係數之至少一係數;對於各頻帶,判定該頻帶之一能量;對於各頻帶,基於該頻帶之該能量判定一比例因子,其中判定該比例因子包括計算該頻帶之該能量之一以十為底數的對數,將一常數相加至該頻帶之該能量之該以十為底數的對數以產生一第一項,及將該第一項乘以一乘數以產生該比例因子;對於各頻帶,基於相關聯的比例因子量化該頻帶之該等係數;及基於該等量化係數及該等比例因子產生一編碼的音訊訊號。
- 如請求項1之方法,其中:產生該編碼的訊號包括編碼該等量化係數,其中該編碼的音訊訊號係基於該等編碼係數及該等比例因子。
- 如請求項1之方法,其中判定該頻帶之該能量包括:計算該頻帶之該等係數的一絕對總和。
- 如請求項1之方法,其中:該常數近似為1.75;及 該乘數為10。
- 如請求項1之方法,其中判定該頻帶之該能量及基於該頻帶之該能量判定該比例因子係在該編碼音訊訊號之一目標位元速率未超過一預定位準時執行;及該方法進一步包括:當該編碼音訊訊號之該目標位元速率超過一預定位準時,對於該等頻帶之各頻帶判定該頻帶之該等係數的一最大係數,且選擇一比例因子,使得與該最大係數相關聯之量化係數不為零。
- 如請求項1之方法,其進一步包括:對於各頻帶,基於該編碼音訊訊號之一預定位元速率調整該比例因子,其中該比例因子係反比於該預定位元速率。
- 如請求項1之方法,其進一步包括:對於各頻帶,基於一位元儲存器模型調整該比例因子以維持該編碼音訊訊號之一預定位元速率。
- 如請求項7之方法,其中:該位元儲存器模型對應於處於該預定位元速率之五秒鐘的該編碼音訊訊號。
- 一種產生一頻域音訊訊號之一頻帶之頻率係數的一比例因子以產生一量化輸出訊號之方法,該方法包括:對於未超過一預定位準之該量化輸出訊號的一位元速率,判定於一電子裝置之該頻帶之一能量,且基於該頻 帶之該能量判定一比例因子,其中判定該比例因子包括計算該頻帶之該能量之一對數,將一常數相加至該頻帶之該能量之該對數以產生一第一項,及將該第一項乘以一乘數以產生該比例因子;及對於超過該預定位準之該量化輸出訊號的一位元速率,判定該頻帶之一最大頻率係數,且選擇一比例因子,使得對應的係數在量化後不為零。其中該等頻率係數之量化係基於該比例因子。
- 如請求項9之方法,其中判定該頻帶之該能量包括:計算該頻帶之該等係數的一絕對總和。
- 如請求項9之方法,其中:該常數近似為1.75;及該乘數為10。
- 如請求項9之方法,其進一步包括對於各頻帶,基於該量化輸出訊號之該位元速率調整該比例因子,其中該比例因子係反比於該量化輸出訊號之該位元速率。
- 一種編碼一時域音訊訊號之電子裝置,其包括:資料儲存器,其經組態以儲存一時域音訊訊號及表示該時域音訊訊號之一編碼的音訊訊號;及控制電路,其經組態以:自該資料儲存器擷取該時域音訊訊號;將該時域音訊訊號變換為一頻域訊號,該頻域訊號包括對於複數個頻率之各頻率的一係數; 將該等係數分組為若干頻帶,其中該等頻帶之各頻帶包含該等係數之至少一係數;對於各頻帶,判定該頻帶之一能量;對於各頻帶,基於該頻帶之該能量判定一比例因子,其中判定該比例因子包括判定該頻帶之該能量之一對數,將一常數相加至該頻帶之該能量之該對數以產生一第一項,及將該第一項乘以一乘數以產生該比例因子;對於各頻帶,基於相關聯的比例因子量化該頻帶之該等係數;及基於該等量化係數及該等比例因子產生該編碼的音訊訊號。
- 如請求項13之電子裝置,其中該控制電路係經組態以:將該編碼的音訊訊號儲存於該資料儲存器中。
- 如請求項13之電子裝置,其中為判定該頻帶之該能量,該控制電路係經組態以:加總該頻帶之該等係數的絕對值。
- 如請求項13之電子裝置,其中:該常數近似為1.75;及該乘數為10。
- 如請求項13之電子裝置,其中:該控制電路係經組態以在該編碼音訊訊號之一目標位元速率未超過一預定位準時判定該頻帶之該能量且基於該頻帶之該能量判定該比例因子;及 當該編碼音訊訊號之該目標位元速率超過該預定位準時,該控制電路係經組態以判定該頻帶之一最大頻率係數,且選擇一比例因子,使得對應的係數在量化後不為零。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/546,428 US8311843B2 (en) | 2009-08-24 | 2009-08-24 | Frequency band scale factor determination in audio encoding based upon frequency band signal energy |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201123173A TW201123173A (en) | 2011-07-01 |
TWI450267B true TWI450267B (zh) | 2014-08-21 |
Family
ID=43302938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW099126515A TWI450267B (zh) | 2009-08-24 | 2010-08-09 | 編碼時域音訊訊號之方法及電子裝置以及產生頻帶之頻率係數的比例因子之方法 |
Country Status (13)
Country | Link |
---|---|
US (1) | US8311843B2 (zh) |
EP (1) | EP2471062B1 (zh) |
JP (1) | JP2013502619A (zh) |
KR (1) | KR101361933B1 (zh) |
CN (1) | CN102483923B (zh) |
AU (1) | AU2010288103B8 (zh) |
BR (1) | BR112012003364A2 (zh) |
CA (1) | CA2770622C (zh) |
IL (1) | IL217958A (zh) |
MX (1) | MX2012002182A (zh) |
SG (1) | SG178364A1 (zh) |
TW (1) | TWI450267B (zh) |
WO (1) | WO2011024198A2 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
SG191771A1 (en) * | 2010-12-29 | 2013-08-30 | Samsung Electronics Co Ltd | Apparatus and method for encoding/decoding for high-frequency bandwidth extension |
JP5942463B2 (ja) * | 2012-02-17 | 2016-06-29 | 株式会社ソシオネクスト | オーディオ信号符号化装置およびオーディオ信号符号化方法 |
US9225310B1 (en) * | 2012-11-08 | 2015-12-29 | iZotope, Inc. | Audio limiter system and method |
EP2830058A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Frequency-domain audio coding supporting transform length switching |
US10573324B2 (en) * | 2016-02-24 | 2020-02-25 | Dolby International Ab | Method and system for bit reservoir control in case of varying metadata |
DE102016206327A1 (de) * | 2016-04-14 | 2017-10-19 | Sivantos Pte. Ltd. | Verfahren zum Übertragen eines Audiosignals von einem Sender zu einem Empfänger |
DE102016206985A1 (de) | 2016-04-25 | 2017-10-26 | Sivantos Pte. Ltd. | Verfahren zum Übertragen eines Audiosignals |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774844A (en) * | 1993-11-09 | 1998-06-30 | Sony Corporation | Methods and apparatus for quantizing, encoding and decoding and recording media therefor |
US20030088400A1 (en) * | 2001-11-02 | 2003-05-08 | Kosuke Nishio | Encoding device, decoding device and audio data distribution system |
US20070276889A1 (en) * | 2004-12-13 | 2007-11-29 | Marc Gayer | Method for creating a representation of a calculation result linearly dependent upon a square of a value |
US20080077413A1 (en) * | 2006-09-27 | 2008-03-27 | Fujitsu Limited | Audio coding device with two-stage quantization mechanism |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6678653B1 (en) * | 1999-09-07 | 2004-01-13 | Matsushita Electric Industrial Co., Ltd. | Apparatus and method for coding audio data at high speed using precision information |
JP4409733B2 (ja) * | 1999-09-07 | 2010-02-03 | パナソニック株式会社 | 符号化装置、符号化方法、及びその記録媒体 |
JP2002196792A (ja) * | 2000-12-25 | 2002-07-12 | Matsushita Electric Ind Co Ltd | 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム |
JP4317355B2 (ja) * | 2001-11-30 | 2009-08-19 | パナソニック株式会社 | 符号化装置、符号化方法、復号化装置、復号化方法および音響データ配信システム |
US7027982B2 (en) * | 2001-12-14 | 2006-04-11 | Microsoft Corporation | Quality and rate control strategy for digital audio |
US20070094035A1 (en) * | 2005-10-21 | 2007-04-26 | Nokia Corporation | Audio coding |
US8032371B2 (en) * | 2006-07-28 | 2011-10-04 | Apple Inc. | Determining scale factor values in encoding audio data with AAC |
-
2009
- 2009-08-24 US US12/546,428 patent/US8311843B2/en active Active
-
2010
- 2010-08-09 TW TW099126515A patent/TWI450267B/zh active
- 2010-08-24 BR BR112012003364A patent/BR112012003364A2/pt not_active Application Discontinuation
- 2010-08-24 KR KR1020127007643A patent/KR101361933B1/ko active IP Right Grant
- 2010-08-24 SG SG2012009486A patent/SG178364A1/en unknown
- 2010-08-24 CA CA2770622A patent/CA2770622C/en active Active
- 2010-08-24 AU AU2010288103A patent/AU2010288103B8/en active Active
- 2010-08-24 CN CN201080037711.6A patent/CN102483923B/zh active Active
- 2010-08-24 WO PCT/IN2010/000557 patent/WO2011024198A2/en active Application Filing
- 2010-08-24 MX MX2012002182A patent/MX2012002182A/es active IP Right Grant
- 2010-08-24 JP JP2012526186A patent/JP2013502619A/ja active Pending
- 2010-08-24 EP EP10781751.2A patent/EP2471062B1/en active Active
-
2012
- 2012-02-06 IL IL217958A patent/IL217958A/en active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774844A (en) * | 1993-11-09 | 1998-06-30 | Sony Corporation | Methods and apparatus for quantizing, encoding and decoding and recording media therefor |
US20030088400A1 (en) * | 2001-11-02 | 2003-05-08 | Kosuke Nishio | Encoding device, decoding device and audio data distribution system |
US20070276889A1 (en) * | 2004-12-13 | 2007-11-29 | Marc Gayer | Method for creating a representation of a calculation result linearly dependent upon a square of a value |
US20080077413A1 (en) * | 2006-09-27 | 2008-03-27 | Fujitsu Limited | Audio coding device with two-stage quantization mechanism |
Also Published As
Publication number | Publication date |
---|---|
US8311843B2 (en) | 2012-11-13 |
CN102483923B (zh) | 2014-10-08 |
KR20120048694A (ko) | 2012-05-15 |
MX2012002182A (es) | 2012-09-07 |
WO2011024198A3 (en) | 2011-07-28 |
SG178364A1 (en) | 2012-04-27 |
CA2770622C (en) | 2015-06-23 |
WO2011024198A2 (en) | 2011-03-03 |
US20110046966A1 (en) | 2011-02-24 |
IL217958A0 (en) | 2012-03-29 |
AU2010288103A1 (en) | 2012-03-01 |
AU2010288103B2 (en) | 2014-01-30 |
CN102483923A (zh) | 2012-05-30 |
AU2010288103B8 (en) | 2014-02-20 |
JP2013502619A (ja) | 2013-01-24 |
CA2770622A1 (en) | 2011-03-03 |
AU2010288103A8 (en) | 2014-02-20 |
TW201123173A (en) | 2011-07-01 |
KR101361933B1 (ko) | 2014-02-12 |
BR112012003364A2 (pt) | 2016-02-16 |
IL217958A (en) | 2014-12-31 |
EP2471062A2 (en) | 2012-07-04 |
EP2471062B1 (en) | 2018-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI450267B (zh) | 編碼時域音訊訊號之方法及電子裝置以及產生頻帶之頻率係數的比例因子之方法 | |
TWI397903B (zh) | 編碼音訊之節約音量測量技術 | |
US9646615B2 (en) | Audio signal encoding employing interchannel and temporal redundancy reduction | |
KR100707177B1 (ko) | 디지털 신호 부호화/복호화 방법 및 장치 | |
WO2009007639A1 (fr) | Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe | |
KR20210083225A (ko) | 에너지 무손실 부호화방법 및 장치, 신호 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 신호 복호화방법 및 장치 | |
US8788277B2 (en) | Apparatus and methods for processing a signal using a fixed-point operation |