TWI616869B - 音訊解碼方法、裝置及電腦可讀取記錄媒體 - Google Patents
音訊解碼方法、裝置及電腦可讀取記錄媒體 Download PDFInfo
- Publication number
- TWI616869B TWI616869B TW106128176A TW106128176A TWI616869B TW I616869 B TWI616869 B TW I616869B TW 106128176 A TW106128176 A TW 106128176A TW 106128176 A TW106128176 A TW 106128176A TW I616869 B TWI616869 B TW I616869B
- Authority
- TW
- Taiwan
- Prior art keywords
- band
- sub
- quantization
- envelope
- group
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000001228 spectrum Methods 0.000 claims abstract description 33
- 238000013139 quantization Methods 0.000 claims description 116
- 230000003595 spectral effect Effects 0.000 abstract description 9
- 230000005236 sound signal Effects 0.000 description 22
- 238000004891 communication Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 17
- 238000009826 distribution Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008571 general function Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本發明提供一種音訊編碼方法。所述音訊編碼方法包含:基於音訊頻譜之預定次頻帶而獲取包絡;基於所述預定次頻帶而對所述包絡進行量化;以及獲得鄰近次頻帶之經量化之包絡之間的差值且藉由將先前次頻帶之差值用作內容脈絡來對當前次頻帶之差值進行無損編碼。因此,在有限位元範圍中,可減小對音訊頻譜之包絡資訊進行編碼所需之位元的數目,藉此增大對實際頻譜分量進行編碼所需之位元的數目。
Description
本發明是關於音訊編碼/解碼,且更特定言之,是關於能夠藉由在有限位元範圍中減小對音訊頻譜之包絡資訊進行編碼所需之位元之數目來增大對實際頻譜分量進行編碼所需之位元之數目而不會提高複雜性以及使復原聲音品質劣化的音訊編碼方法與裝置、音訊解碼方法與裝置、記錄媒體以及使用上述方法裝置之多媒體元件。
當對音訊信號進行編碼時,在位元串流中,除包含實際頻譜分量之外,亦可能包含額外資訊,諸如,包絡。在此狀況下,藉由在使損失最小化的同時減小對額外資訊之編碼分配的位元之數目,可增大對實際頻譜分量之編碼分配的位元之數目。
亦即,當對音訊信號進行編碼或解碼時,需要藉由按照尤其低之位元率有效地使用有限數目之位元來在對應位元範圍中重新建構具有最佳聲音品質之音訊信號。
本發明提供能夠在有限位元範圍中減小對音訊頻譜之包絡資訊進行編碼所需之位元之數目的同時增大對實際頻譜分量進行編碼所需之位元之數目而不會提高複雜性以及使復原聲音品質劣化的音訊編碼方法與裝置、音訊解碼方法與裝置、記錄媒體以及使用上述方法裝置之多媒體元件。
根據本發明之一態樣,提供一種音訊編碼方法,包含:基於音訊頻譜之預定次頻帶而獲取包絡;基於所述預定次頻帶而對所述包絡進行量化;以及獲得鄰近次頻帶之經量化之包絡之間的差值且藉由將先前次頻帶之差值用作內容脈絡來對當前次頻帶之差值進行無損編碼。
根據本發明之另一態樣,提供一種音訊編碼裝置,包含:包絡獲取單元,其基於音訊頻譜之預定次頻帶而獲取包絡;包絡量化器,其基於所述預定次頻帶而對所述包絡進行量化;包絡編碼器,其獲得鄰近次頻帶之經量化之包絡之間的差值且藉由將先前次頻帶之差值用作內容脈絡來對當前次頻帶之差值進行無損編碼;以及頻譜編碼器,其對所述音訊頻譜進行量化及無損編碼。
根據本發明之另一態樣,提供一種音訊解碼方法,包含:自位元串流獲得鄰近次頻帶之經量化之包絡之間的差值且藉由將先前次頻帶之差值用作內容脈絡來對當前次頻帶之差值進行無損解碼;以及藉由自因所述無損解碼而重新建構之當前次頻帶之差值基於次頻帶來獲得經量化之包絡而執行解量化。
根據本發明之另一態樣,提供一種音訊解碼裝置,包含:包絡解碼器,其自位元串流獲得鄰近次頻帶之經量化之包絡之間的差值且藉由將先前次頻帶之差值用作內容脈絡來對當前次頻帶之差值進行無損解碼;包絡解量化器,其藉由自因所述無損解碼而重新建構之當前次頻帶之差值基於次頻帶來獲得經量化之包絡而執行解量化;以及頻譜解碼器,其對所述位元串流中所包含之頻譜分量進行無損解碼及解量化。
根據本發明之另一態樣,提供一種多媒體元件,包含編碼模組,所述編碼模組基於音訊頻譜之預定次頻帶而獲取包絡,基於所述預定次頻帶而對所述包絡進行量化,且獲得鄰近次頻帶之經量化之包絡之間的差值且藉由將先前次頻帶之差值用作內容脈絡來對當前次頻帶之差值進行無損編碼。
所述多媒體元件可更包含解碼模組,所述解碼模組自位元串流獲得鄰近次頻帶之經量化之包絡之間的差值且藉由將先前次頻帶之差值用作內容脈絡來對當前次頻帶之差值進行無損解碼,且藉由自因所述無損解碼而重新建構之當前次頻帶之差值基於次頻帶來獲得經量化之包絡而執行解量化。
藉由參看隨附圖式詳細描述本發明之例示性實施例,本發明之以上以及其他特徵以及優勢將變得更加顯而易見。
本發明可允許進行各種種類之改變或修改以及各種形式改變,且具體實施例將說明於圖式中且詳細描述於本說明書中。然而,應理解,具體實施例並不將本發明限於具體揭露形式,而是將每一經修改的、等效的或經替換的實施例包含於本發明之精神以及技術範疇內。在下文描述中,並不會詳細描述熟知功能或構造,此是因為熟知功能或構造會以不必要之細節混淆本發明。
雖然若干術語(諸如,「第一」以及「第二」)可用來描述各種部件,但所述部件可並不受所述術語限制。所述術語可用來區分某一部件與另一部件。
本申請案中所使用之術語僅用來描述具體實施例,而並不具有限制本發明之任何意圖。雖然考慮到本發明中之功能而選擇當前儘可能廣泛使用之一般術語作為本發明中所使用之術語,但此等術語可根據一般熟習此項技術者之意圖、司法判例或新技術的出現而發生變化。此外,在具體狀況下,可使用本申請人故意選擇之術語,且在此狀況下,將在本發明之對應描述中揭露此等術語之涵義。因此,本發明中所使用之術語並不是由此等術語之簡單名來定義,而是由術語之涵義以及本發明全文之內容來定義。
單數形式之表達包含複數形式之表達,除非在上下文中,兩種表達明顯不同。在本申請案中,應理解,諸如「包含」以及「具有」之術語用來表示所實施之特徵、數目、步驟、操作、部件、零件或其組合之存在,而並不會預先排除一或多個其他特徵、數目、步驟、操作、部件、零件或其組合之存在或添加的可能性。
下文中,將參看附圖來更全面地描述本發明,在附圖中,圖示了本發明之例示性實施例。圖中相似參考數字表示相似部件,且因此其重複描述將加以省略。
在一列部件之前的諸如「……中之至少一者」之表達修飾整列部件,而不是修飾整列部件中之個別部件。
圖1為根據本發明之一實施例之數位信號處理裝置100的方塊圖。
圖1所示之數位信號處理裝置100可包含變換器110、包絡獲取單元120、包絡量化器130、包絡編碼器140、頻譜正規器150以及頻譜編碼器160。數位信號處理裝置100之組件可整合於至少一個模組中且由至少一個處理器實施。此處,數位信號可表示媒體信號,諸如,視訊、影像、音訊或語音或表示藉由合成音訊以及語音而獲得之信號的聲音,但下文中,為了便於描述,數位信號大體上表示音訊信號。
參看圖1,變換器110可藉由將音訊信號自時域變換至頻域而產生音訊頻譜。可藉由使用各種熟知之方法(諸如,修改型離散餘弦變換(Modified Discrete Cosine Transform;MDCT))來執行時域至頻域變換。舉例而言,可使用方程式1來執行時域中之音訊信號之MDCT。
(1)
在方程式1中,N表示單個訊框中所包含之樣本之數目(即,訊框大小),hj
表示所應用窗制,sj
表示時域中之音訊信號,且xi
表示MDCT係數。或者,可使用正弦窗制(例如,)來代替方程式1中之餘弦窗制。
變換器110所獲得之音訊頻譜之變換係數(例如,MDCT係數xi
)提供至包絡獲取單元120。
包絡獲取單元120可自變換器110所提供之變換係數基於預定次頻帶而獲取包絡值。次頻帶為將音訊頻譜之樣本分組之單位且可藉由反映臨界頻帶而具有均勻或非均勻長度。當次頻帶具有非均勻長度時,次頻帶可經設定以使得每一次頻帶中所包含之樣本之數目(自起始樣本至最後樣本)針對一個訊框而逐漸增大。此外,當支援多種位元率時,次頻帶可經設定以使得不同位元率之對應次頻帶中之每一者中所包含的樣本之數目相同。可先前確定一個訊框中所包含之次頻帶之數目或每一次頻帶中所包含之樣本之數目。包絡值可表示每一次頻帶中所包含之變換係數之平均振幅、平均能量、功率或範數值。
可使用方程式2來計算每一次頻帶之包絡值,但不限於此。
(2)
在方程式2中,w表示次頻帶中所包含之變換係數之數目(即,次頻帶大小)、xi
表示變換係數,且n表示次頻帶之包絡值。
包絡量化器130可按照經最佳化之對數尺度對每一次頻帶之包絡值n進行量化。可例如使用方程式3來獲得包絡量化器130所獲得的每一次頻帶之包絡值n之量化索引nq
。
(3)
在方程式3中,b表示捨入係數,且其最佳化之前之初始值為r/2。此外,c表示對數尺度之底數,且r表示量化解析度。
根據一實施例,包絡量化器130可不定地改變對應於每一量化索引之量化區域之左邊界與右邊界,使得對應於每一量化索引之量化區域中之總量化誤差最小化。為此,捨入係數b可經調整以使得在量化索引與對應於每一量化索引之量化區域之左邊界與右邊界之間獲得的左量化誤差與右量化誤差彼此相同。下文將描述包絡量化器130之詳細操作。
可藉由方程式4來執行每一次頻帶之包絡值n之量化索引nq
的解量化。
(4)
在方程式4中,表示每一次頻帶之經解量化之包絡值,r表示量化解析度,且c表示對數尺度之底數。
包絡量化器130所獲得的每一次頻帶之包絡值n之量化索引nq
可提供至包絡編碼器140,且每一次頻帶之經解量化之包絡值可提供至頻譜正規器150。
雖然未繪示,但基於次頻帶而獲得之包絡值可用於對經正規化之頻譜(即,經正規化之係數)進行編碼所需之位元分配。在此狀況下,基於次頻帶而量化且無損編碼之包絡值可包含於位元串流中且提供至解碼裝置。結合使用基於次頻帶而獲得之包絡值來進行的位元分配,可應用經解量化之包絡值而在編碼裝置以及對應之解碼裝置中使用相同程序。
舉例而言,當包絡值為範數值時,可基於次頻帶使用範數值來計算遮蔽臨限值,且可使用遮蔽臨限值來預測位元之感知上所需之數目。亦即,遮蔽臨限值為對應於臨界可視失真(Just Noticeable Distortion;JND)之值,且當量化雜訊小於遮蔽臨限值時,可不會感測到感知雜訊。因此,可使用遮蔽臨限值來計算為了不會感測到感知雜訊而需要之位元之最小數目。舉例而言,可基於次頻帶使用範數值對遮蔽臨限值之比率來計算信號遮蔽比(Signal-to-Mask Ratio;SMR),可針對SMR使用6.025分貝≒1個位元之關係式來預測滿足遮蔽臨限值之位元之數目。雖然位元之預測數目是為了不會感測到感知雜訊而需要之位元之最小數目,但就壓縮而言,不需要使用超過預測數目之位元,因此,可將位元之預測數目視為基於次頻帶而允許之位元之最大數目(下文中,稱為位元之允許數目)。可按照十進制單位(decimal point unit)來表示每一次頻帶之位元之允許數目,但不限於此。
此外,可使用十進制單位之範數值來執行基於次頻帶而進行之位元分配,但不限於此。位元從具有最大範數值之次頻帶順序地分配,且所分配之位元可經調整以使得藉由基於每一次頻帶之感知重要性來權衡每一次頻帶之範數值,較多位元分配給感知上較重要之次頻帶。可例如經由ITU-T G.719中所定義之心理聲學權衡(psycho-acoustic weighting)而確定感知重要性。
包絡編碼器140可獲得自包絡量化器130提供的每一次頻帶之包絡值n之量化索引nq
的量化差分值,可基於量化差分值之內容脈絡(context)而執行無損編碼,可將無損編碼結果包含至位元串流中,且可傳輸以及儲存位元串流。先前次頻帶之量化差分值可用作內容脈絡。下文將描述包絡編碼器140之詳細操作。
頻譜正規器150藉由使用每一次頻帶之經解量化之包絡值來按照對變換係數進行正規化而使頻譜平均能量為1。
頻譜編碼器160可執行經正規化之變換係數之量化以及無損編碼,可將量化以及無損編碼結果包含至位元串流中,且可傳輸以及儲存位元串流。此處,頻譜編碼器160可藉由使用最終基於次頻帶之包絡值而確定的位元之允許數目來執行經正規化之變換係數之量化以及無損編碼。
經正規化之變換係數之無損編碼可使用例如階乘脈衝寫碼(Factorial Pulse Coding;FPC)。FPC為藉由使用單位量值之脈衝來有效地對資訊信號進行編碼之方法。根據FPC,可藉由四個分量來表示資訊內容,即,非零脈衝位置之數目、非零脈衝之位置、非零脈衝之量值以及非零脈衝之正負號。詳言之,FPC可基於均方誤差(Mean Square Error;MSE)標準來確定之最佳解,其中次頻帶之原始向量y與FPC向量之間的差最小化,同時滿足(m表示單位量值之脈衝的總數)。
可藉由使用如方程式5所示之拉格朗日(Lagrangian)函數來尋找條件極值(conditional extreme value)而獲得最佳解。
(5)
在方程式5中,L表示拉格朗日(Lagrangian)函數,m表示次頻帶中之單位量值之脈衝的總數,λ表示用於尋找給定函數之最小值作為拉格朗日乘數(其為最佳化係數)的控制參數,yi
表示經正規化之變換係數,且表示位置i處所需之脈衝之最佳數目。
當使用FPC執行無損編碼時,基於次頻帶而獲得之總集合之可包含於位元串流中且加以傳輸。此外,用於使每一次頻帶中之量化誤差最小化且執行平均能量之對準之最佳乘數亦可包含於位元傳輸中且加以傳輸。可藉由方程式6來獲得最佳乘數。
(6)
在方程式6中,D表示量化誤差,且G表示最佳乘數。
圖2為根據本發明之另一實施例之數位信號解碼裝置200的方塊圖。
圖2所示之數位信號解碼裝置200可包含包絡解碼器210、包絡解量化器220、頻譜解碼器230、頻譜解正規器240以及逆變換器250。數位信號解碼裝置200之組件可整合於至少一個模組中且由至少一個處理器實施。此處,數位信號可表示媒體信號,諸如,視訊、影像、音訊或語音或表示藉由合成音訊以及語音而獲得之信號的聲音,但下文中,數位信號大體上表示對應於圖1之編碼裝置的音訊信號。
參看圖2,包絡解碼器210可經由通信頻道或網路接收位元串流,對位元串流中所包含之每一次頻帶之量化差分值進行無損解碼,且重新建構每一次頻帶之包絡值之量化索引nq
。
包絡解量化器220可藉由對每一次頻帶之包絡值之量化索引nq
解量化而獲得經解量化之包絡值。
頻譜解碼器230可藉由對所接收之位元串流進行無損解碼以及解量化來重新建構經正規化之變換係數。舉例而言,包絡解量化器220可在編碼裝置已使用FPC時對每一次頻帶之總集合之進行無損解碼以及解量化。可藉由方程式7使用最佳乘數G來執行每一次頻帶之平均能量對準。
(7)
頻譜解碼器230可如同在圖1之頻譜編碼器160中般藉由使用最終基於每一次頻帶之包絡值而確定之位元之允許數目來執行無損解碼以及解量化。
頻譜解正規器240可藉由使用自包絡解量化器220提供之經解量化之包絡值而對自包絡解碼器210提供之經正規化之變換係數進行解正規化。舉例而言,當編碼裝置已使用FPC時,藉由使用經解量化之包絡值而對執行了能量對準之進行解正規化。藉由執行解正規化,重新建構每一次頻帶之原始頻譜平均能量。
逆變換器250可藉由對自頻譜解正規器240提供之變換係數進行逆變換而重新建構時域中之音訊信號。舉例而言,可藉由使用對應於方程式1之方程式8對頻譜分量進行逆變換而獲得時域中之音訊信號sj
。
(8)
下文中,將更詳細描述圖1之包絡量化器130之操作。
當包絡量化器130按照底數為c之對數尺度對每一次頻帶之包絡值進行量化時,對應於量化索引之量化區域之邊界Bi
可由表示,近似點(即,量化索引)Ai
可由表示,量化解析度r可由表示,且量化步階大小可由表示。可藉由方程式3來獲得每一次頻帶之包絡值n之量化索引nq
。
在未經最佳化之線性尺度之狀況下,對應於量化索引nq
之量化區域之左邊界與右邊界與近似點相隔不同距離。歸因於此差,用於量化之信號雜訊比(Signal-to-Noise Ratio;SNR)量度(即,量化誤差)相對於近似點針對左邊界與右邊界而具有不同值,如圖3A以及圖4A所示。圖3A圖示按照未經最佳化之對數尺度(底數為2)進行之量化,其中,量化解析度為0.5且量化步階大小為3.01。如圖3A所示,量化區域中之左邊界與右邊界處的相對於近似點之量化誤差SNRL
以及SNRR
分別為14.46分貝以及15.96分貝。圖4A圖示按照未經最佳化之對數尺度(底數為2)進行之量化,其中,量化解析度為1且量化步階大小為6.02。如圖4A所示,量化區域中之左邊界與右邊界處的相對於近似點之量化誤差SNRL
以及SNRR
分別為7.65分貝以及10.66分貝。
根據一實施例,藉由不定地改變對應於量化索引之量化區域之邊界,可將對應於每一量化索引之量化區域中之總量化誤差最小化。在量化區域中之左邊界與右邊界處相對於近似點而獲得之量化誤差相同時,可將量化區域中之總量化誤差最小化。可藉由不定地改變捨入係數b來獲得量化區域之邊界移位。
在對應於量化索引i之量化區域中之左邊界與右邊界處相對於近似點而獲得之量化誤差SNRL
以及SNRR
可由方程式9表示。
(9)
在方程式9中,c表示對數尺度之底數,且Si
表示對應於量化索引i之量化區域中之邊界的指數。
可使用由方程式10定義之參數bL
以及bR
來表示對應於量化索引之量化區域中之左邊界與右邊界的指數移位。
(10)
在方程式10中,Si
表示對應於量化索引i之量化區域中之邊界處的指數,且bL
以及bR
表示量化區域中之左邊界與右邊界相對於近似點的指數移位。
量化區域中之左邊界與右邊界處相對於近似點的指數移位的總和與量化解析度相同,且因此可由方程式11表示。
(11)
捨入係數基於量化之一般特性與對應於量化索引之量化區域中之左邊界處相對於近似點的指數移位相同。因此,方程式9可由方程式12表示。
(12)
藉由使對應於量化索引之量化區域中之左邊界與右邊界處相對於近似點的量化誤差SNRL
以及SNRR
相同,可藉由方程式13來確定參數bL
。
(13)
因此,捨入係數bL
可由方程式14表示。
(14)
圖3B圖示按照經最佳化之對數尺度(底數為2)進行之量化,其中,量化解析度為0.5且量化步階大小為3.01。如圖3B所示,量化區域中之左邊界與右邊界處的相對於近似點之量化誤差SNRL
以及SNRR
兩者為15.31分貝。圖4B圖示按照經最佳化之對數尺度(底數為2)進行之量化,其中,量化解析度為1且量化步階大小為6.02。如圖4B所示,量化區域中之左邊界與右邊界處的相對於近似點之量化誤差SNRL
以及SNRR
兩者為9.54分貝。
捨入係數b=bL
確定自對應於量化索引i之量化區域中的左邊界與右邊界中之每一者至近似點之指數距離。因此,可藉由方程式15來執行根據一實施例之量化。
(15)
藉由按照底數為2之對數尺度執行量化而獲得之測試結果圖示於圖5A以及圖5B中。根據資訊理論,位元率失真函數H(D)可用作可藉以比較與分析各種量化方法之參考。量化索引集合之熵可視為位元率且具有尺寸位元/秒(b/s),且按照分貝尺度的SNR可視為失真量度。
圖5A為在常態分佈中執行之量化的比較曲線圖。在圖5A中,實線表示按照未經最佳化之對數尺度進行之量化的位元率失真函數,且虛線表示按照經最佳化之對數尺度進行之量化的位元率失真函數。圖5B為在均勻分佈中執行之量化的比較曲線圖。在圖5B中,實線表示按照未經最佳化之對數尺度進行之量化的位元率失真函數,且虛線表示按照經最佳化之對數尺度進行之量化的位元率失真函數。根據對應分佈法則、零期望值以及單個方差使用隨機數目之感測器而產生常態分佈以及均勻分佈中之樣本。可針對各種量化解析度來計算位元率失真函數H(D)。如圖5A以及圖5B所示,虛線位於實線之下,此情形表示按照經最佳化之對數尺度進行之量化的效能好於按照未經最佳化之對數尺度進行之量化的效能
亦即,根據按照經最佳化之對數尺度進行之量化,可在相同位元率下以較小量化誤差來執行量化,或在相同位元率下以相同量化誤差使用較少數目之位元來執行量化。測試結果展示於表1以及表2中,其中表1展示按照未經最佳化之對數尺度進行之量化,且表2展示按照經最佳化之對數尺度進行之量化。
表1
表2
根據表1以及表2,特性值SNR在0.5之量化解析度下改良達0.1分貝,在1.0之量化解析度下改良達0.45分貝,且在2.0之量化解析度下改良達1.5分貝。
因為根據一實施例之量化方法僅基於捨入係數更新量化索引之搜尋表,所以複雜性並未提高。
現將更詳細描述圖1之包絡解碼器140之操作。
使用差分寫碼來執行包絡值的基於內容脈絡之編碼。當前次頻帶之包絡值與先前次頻帶之包絡值之間的量化差分值可由方程式16表示。
(16)
在方程式16中,d(i)表示次頻帶(i+1)之量化差分值,nq
(i)表示次頻帶(i)之包絡值之量化索引,且nq
(i+1)表示次頻帶(i+1)之包絡值之量化索引。
每一次頻帶之量化差分值d(i)限於範圍[-15, 16]內,且如下所述,首先調整負的量化差分值,且接著調整正的量化差分值。
首先,使用方程式16,按照自高頻次頻帶至低頻次頻帶之次序獲得量化差分值d(i)。在此狀況下,若d(i)<-15,則藉由nq
(i)=nq
(i+1) + 15 (i=42, …, 0)來執行調整。
接著,使用方程式16,按照自低頻次頻帶至高頻次頻帶之次序獲得量化差分值d(i)。在此狀況下,若d(i)>16,則藉由d(i) = 16、nq
(i+1)=nq
(i) + 16 (i=0, …, 42)來執行調整。
最終,藉由將偏移15與所有所獲得之量化差分值d(i)相加而產生在範圍[0, 31]內之量化差分值。
根據方程式16,當在單個訊框中存在N個次頻帶時,獲得nq
(0)、d(0)、d(1)、d(2)、……、d(N-2)。使用內容脈絡模型來編碼當前次頻帶之量化差分值,且根據一實施例,先前次頻帶之量化差分值可用作內容脈絡。因為在範圍[0, 31]中存在第一次頻帶之nq
(0),所以藉由使用5個位元來按照原狀對量化差分值nq
(0)進行無損編碼。當第一次頻帶之nq
(0)用作d(0)之內容脈絡時,可使用藉由使用預定參考值而自nq
(0)獲得之值。亦即,當執行d(i)之霍夫曼(Huffman)寫碼時,d(i-1)可用作內容脈絡,且當執行d(0)之霍夫曼寫碼時,藉由自nq
(0)減去預定參考值而獲得之值可用作內容脈絡。預定參考值可為(例如)預定恆定值,其可預先經由模擬或實驗作為最佳值來設定。參考值可包含在位元串流中且加以傳輸或預先提供於編碼裝置或解碼裝置中。
根據一實施例,包絡編碼器140可將用作內容脈絡之先前次頻帶之量化差分值的範圍劃分為多個群組且基於對多個群組預先定義之霍夫曼表來對當前次頻帶之量化差分值執行霍夫曼寫碼。可例如使用大資料庫經由訓練程序而產生霍夫曼表。亦即,基於預定準則來收集資料,且基於所收集之資料而產生霍夫曼表。根據一實施例,在先前次頻帶之量化差分值之範圍內收集當前次頻帶之量化差分值之頻率的資料,且可針對多個群組而產生霍夫曼表。
可使用當前次頻帶之量化差分值(其是藉由將先前次頻帶之量化差分值用作內容脈絡而獲得)之機率分佈的分析結果而選擇各種分佈模型,且因此,可執行具有類似分佈模型之量化階層之分組。三個群組之參數展示於表3中。
表3
三個群組之機率分佈圖示於圖6中。群組#1之機率分佈類似於群組#3之機率分佈,且群組#1之機率分佈與群組#3之機率分佈基於x軸實質上顛倒(或倒轉)。此情形表示相同機率模型可用於兩個群組#1及#3,而不會存在編碼效率之任何損失。亦即,兩個群組#1及#3可使用相同霍夫曼表。因此,可使用供群組#2使用之第一霍夫曼表以及由群組#1及#3共用之第二霍夫曼表。在此狀況下,群組#1中之碼之索引可與群組#3相反地得以表示。亦即,在當前次頻帶之量化差分值d(i)之霍夫曼表由於先前次頻帶之量化差分值(其為內容脈絡)而確定為群組#1時,當前次頻帶之量化差分值d(i)可藉由編碼端中之相反處理程序而改變為d’(i)=A-d(i),藉此,藉由參考群組#3之霍夫曼表而執行霍夫曼寫碼。在解碼端中,藉由參考群組#3之霍夫曼表而執行霍夫曼解碼,且經由轉換程序d(i)=A-d’(i)而自d’(i)提取最終值d(i)。此處,值A可經設定以使得群組#1及#3之機率分佈彼此對稱。值A可預先作為最佳值來設定,而不是在編碼以及解碼程序中提取。或者可使用群組#1之霍夫曼表來代替群組#3之霍夫曼表,且有可能改變群組#3中之量化差分值。根據一實施例,當d(i)具有在範圍[0, 31]內之值時,值A可為31。
圖7為說明根據本發明之一實施例的圖1之數位信號處理裝置100之包絡編碼器140中的基於內容脈絡之霍夫曼編碼程序的流程圖。在圖7中,使用根據三個群組中之量化差分值之機率分佈而確定之兩個霍夫曼表。此外,在對當前次頻帶之量化差分值d(i)執行霍夫曼寫碼時,將先前次頻帶之量化差分值d(i-1)用作內容脈絡,且例如使用供群組#2使用之第一霍夫曼表以及供群組#3使用之第二霍夫曼表。
參看圖7,在操作710中,判定先前次頻帶之量化差分值d(i-1)是否屬於群組#2。
若在操作710中判定先前次頻帶之量化差分值d(i-1)屬於群組#2,則在操作720中,自第一霍夫曼表選擇當前次頻帶之量化差分值d(i)之碼。
若實際上在操作710中判定先前次頻帶之量化差分值d(i-1)不屬於群組#2,則在操作730中,判定先前次頻帶之量化差分值d(i-1)是否屬於群組#1。
若在操作730中判定先前次頻帶之量化差分值d(i-1)不屬於群組#1(即,若先前次頻帶之量化差分值d(i-1)屬於群組#3),則在操作740中,自第二霍夫曼表選擇當前次頻帶之量化差分值d(i)之碼。
若實際上在操作730中判定先前次頻帶之量化差分值d(i-1)屬於群組#1,則在操作750中,顛倒當前次頻帶之量化差分值d(i),且自第二霍夫曼表選擇當前次頻帶之顛倒之量化差分值d’(i)的碼。
在操作760中,使用操作720、740或750中選擇之碼來執行當前次頻帶之量化差分值d(i)之霍夫曼寫碼。
圖8為說明根據本發明之一實施例的圖2之數位信號解碼裝置200之包絡解碼器210中的基於內容脈絡之霍夫曼解碼程序的流程圖。與圖7中相似,在圖8中,使用根據三個群組中之量化差分值之機率分佈而確定之兩個霍夫曼表。此外,在對當前次頻帶之量化差分值d(i)執行霍夫曼寫碼時,將先前次頻帶之量化差分值d(i-1)用作內容脈絡,且例如使用供群組#2使用之第一霍夫曼表以及供群組#3使用之第二霍夫曼表。
參看圖8,在操作810中,判定先前次頻帶之量化差分值d(i-1)是否屬於群組#2。
若在操作810中判定先前次頻帶之量化差分值d(i-1)屬於群組#2,則在操作820中,自第一霍夫曼表選擇當前次頻帶之量化差分值d(i)之碼。
若實際上在操作810中判定先前次頻帶之量化差分值d(i-1)不屬於群組#2,則在操作830中,判定先前次頻帶之量化差分值d(i-1)是否屬於群組#1。
若在操作830中判定先前次頻帶之量化差分值d(i-1)不屬於群組#1(即,若先前次頻帶之量化差分值d(i-1)屬於群組#3),則在操作840中,自第二霍夫曼表選擇當前次頻帶之量化差分值d(i)之碼。
若實際上在操作830中判定先前次頻帶之量化差分值d(i-1)屬於群組#1,則在操作850中,顛倒當前次頻帶之量化差分值d(i),且自第二霍夫曼表選擇當前次頻帶之顛倒之量化差分值d’(i)的碼。
在操作860中,使用操作820、840或850中選擇之碼來執行當前次頻帶之量化差分值d(i)之霍夫曼解碼。
每訊框之位元成本差分析展示於表4中。如表4所示,相比原始霍夫曼寫碼演算法,根據圖7之實施例之編碼效率平均提高9%。
表4
圖9為根據本發明之一實施例的包含編碼模組930之多媒體元件900的方塊圖。
圖9之多媒體元件900可包含通信單元910以及編碼模組930。此外,根據作為編碼結果而獲得之音訊位元串流之用途,圖9之多媒體元件900可更包含用以儲存音訊位元串流之儲存單元950。此外,圖9之多媒體元件900可更包含麥克風970。亦即,儲存單元950以及麥克風970是任選的。圖9之多媒體元件900可更包含解碼模組(未繪示),例如,用以執行一般解碼功能之解碼模組或根據本發明之一實施例之解碼模組。編碼模組930可與多媒體元件900中所包含之其他組件(未繪示)整合且由至少一個處理器實施。
參看圖9,通信單元910可接收自外部提供之音訊信號以及經編碼之位元串流中之至少一者,或可傳輸經重新建構之音訊信號以及作為編碼模組930之編碼之結果而獲得的音訊位元串流中之至少一者。
通信單元910經組態以經由無線網路或有線網路將資料傳輸至外部多媒體元件以及自外部多媒體元件接收資料,無線網路諸如為無線網際網路(wireless Internet)、無線企業內部網路(wireless intranet)、無線電話網路(wireless telephone network)、無線區域網路(Local Area Network;LAN)、Wi-Fi、Wi-Fi直連(Wi-Fi Direct;WFD)、第三代(third generation;3G)、第四代(fourth generation;4G)、藍牙(Bluetooth)、紅外線資料協會(Infrared Data Association;IrDA)、射頻識別(Radio Frequency Identification;RFID)、超寬頻(Ultra WideBand;UWB)、紫蜂(Zigbee)或近場通信(Near Field Communication;NFC),有線網路諸如為有線電話網路(wired telephone network)或有線網際網路(wired Internet)。
根據一實施例,編碼模組930可藉由如下方式而產生位元串流:將時域中之音訊信號(其經由通信單元910或麥克風970而提供)變換為頻域中之音訊頻譜;基於音訊頻譜之預定次頻帶而獲取包絡;基於預定次頻帶而對包絡進行量化;以及獲得鄰近次頻帶之經量化之包絡之間的差值且藉由將先前次頻帶之差值用作內容脈絡來對當前次頻帶之差值進行無損編碼。
根據另一實施例,當對包絡進行量化時,編碼模組930可調整對應於預定量化索引之量化區域之邊界以使得量化區域中之總量化誤差最小化,且可使用藉由調整而更新之量化表來執行量化。
儲存單元950可儲存由編碼模組930產生之經編碼之位元串流。此外,儲存單元950可儲存操作多媒體元件900所需之各種程式。
麥克風970可將音訊信號自使用者或外部提供至編碼模組930。
圖10為根據本發明之一實施例的包含解碼模組1030之多媒體元件1000的方塊圖。
圖10之多媒體元件1000可包含通信單元1010以及解碼模組1030。此外,根據作為解碼結果而獲得之經重新建構之音訊信號的用途,圖10之多媒體元件1000可更包含用以儲存經重新建構之音訊信號之儲存單元1050。此外,圖10之多媒體元件1000可更包含揚聲器1070。亦即,儲存單元1050以及揚聲器1070是任選的。圖10之多媒體元件1000可更包含編碼模組(未繪示),例如,用於執行一般編碼功能之編碼模組或根據本發明之一實施例之編碼模組。解碼模組1030可與多媒體元件1000中所包含之其他組件(未繪示)整合且由至少一個處理器實施。
參看圖10,通信單元1010可接收自外部提供之音訊信號以及經編碼之位元串流中之至少一者,或可傳輸作為解碼模組1030之解碼之結果而獲得的經重新建構之音訊信號以及作為編碼之結果而獲得之音訊位元串流中之至少一者。通信單元1010可實質上與圖9之通信單元910相同地加以實施。
根據一實施例,解碼模組1030可藉由如下方式執行解量化:接收經由通信單元1010而提供之位元串流;自位元串流獲得鄰近次頻帶之經量化之包絡之間的差值;藉由將先前次頻帶之差值用作內容脈絡來對當前次頻帶之差值進行無損解碼;以及自因所述無損解碼而重新建構之當前次頻帶之差值基於次頻帶而獲得經量化之包絡。
儲存單元1050可儲存由解碼模組1030產生之經重新建構之音訊信號。此外,儲存單元1050可儲存操作多媒體元件1000所需之各種程式。
揚聲器1070可將由解碼模組1030產生之經重新建構之音訊信號輸出至外部。
圖11為根據本發明之一實施例的包含編碼模組1120以及解碼模組1130之多媒體元件1100的方塊圖。
圖11之多媒體元件1100可包含通信單元1110、編碼模組1120以及解碼模組1130。此外,根據作為編碼結果而獲得之音訊位元串流或作為解碼結果而獲得之經重新建構之音訊信號的用途,圖11之多媒體元件1100可更包含用於儲存音訊位元串流或經重新建構之音訊信號之儲存單元1140。此外,圖11之多媒體元件1100可更包含麥克風1150或揚聲器1160。編碼模組1120以及解碼模組1130可與多媒體元件1100中所包含之其他組件(未繪示)整合且由至少一個處理器實施。
因為圖11之多媒體元件1100中之組件與圖9之多媒體元件900中之組件或圖10之多媒體元件1000中之組件相同,因此,省略了其詳細描述。
圖9、圖10或圖11之多媒體元件900、1000或1100可包含唯語音通信終端(包含電話或行動電話)、廣播或唯音樂元件(包含TV或MP3播放器)或唯語音通信終端與廣播或唯音樂元件之混合終端元件,但不限於此。此外,圖9、圖10或圖11之多媒體元件900、1000或1100可用作用戶端、伺服器或安置於用戶端與伺服器之間的變換器。
舉例而言,若多媒體元件900、1000或1100為行動電話,則雖然未繪示,但行動電話可更包含:使用者輸入單元,諸如,小鍵盤;使用者介面或顯示單元,其用於顯示由行動電話處理之資訊;以及處理器,其用於控制行動電話之一般功能。此外,行動電話可更包含:相機單元,其具有影像拾取功能;以及用於執行行動電話所需之功能的至少一個組件。
作為另一實例,若多媒體元件900、1000或1100為TV,則雖然未繪示,但TV可更包含:使用者輸入單元,諸如,小鍵盤;顯示單元,其用於顯示所接收之廣播資訊;以及處理器,其用於控制TV之一般功能。此外,TV可更包含用於執行TV所需之功能的至少一個組件。
根據本發明之實施例之方法可編寫為電腦程式,且可實施於使用電腦可讀記錄媒體來執行程式的通用數位電腦中。此外,可用於本發明之實施例中之資料結構、程式指令或資料檔案可按照各種方式記錄在電腦可讀記錄媒體中。電腦可讀記錄媒體為可儲存可之後由電腦系統讀取之資料的任何資料儲存元件。電腦可讀記錄媒體之實例包含:磁性媒體,諸如,硬碟(hard disk)、軟碟(floppy disk)以及磁帶(magnetic tape);光學媒體,諸如,CD-ROM以及DVD;磁光媒體,諸如,軟磁光碟(floptical disk);以及硬體元件,諸如,ROM、RAM以及快閃記憶體,上述媒體經特定組態以儲存並執行程式指令。此外,電腦可讀記錄媒體可為用於傳輸指定了程式指令以及資料結構之信號的傳輸媒體。程式指令可包含由編譯器編輯之機器語言碼以及可由電腦使用解譯器來執行之高階語言碼。
雖然已特定參考本發明之例示性實施例而展示並描述了本發明,但一般熟習此項技術者應理解,可對本發明進行形式以及細節之各種改變,而不偏離隨附申請專利範圍所定義之本發明之精神以及範疇。
100‧‧‧數位信號處理裝置
110‧‧‧變換器
120‧‧‧包絡獲取單元
130‧‧‧包絡量化器
140‧‧‧包絡編碼器
150‧‧‧頻譜正規器
160‧‧‧頻譜編碼器
200‧‧‧數位信號解碼裝置
210‧‧‧包絡解碼器
220‧‧‧包絡解量化器
230‧‧‧頻譜解碼器
240‧‧‧頻譜解正規器
250‧‧‧逆變換器
710~760、810~860‧‧‧操作
900‧‧‧多媒體元件
910‧‧‧通信單元
930‧‧‧編碼模組
950‧‧‧儲存單元
970‧‧‧麥克風
1000‧‧‧多媒體元件
1010‧‧‧通信單元
1030‧‧‧解碼模組
1050‧‧‧儲存單元
1070‧‧‧揚聲器
1100‧‧‧多媒體元件
1110‧‧‧通信單元
1120‧‧‧編碼模組
1130‧‧‧解碼模組
1140‧‧‧儲存單元
1150‧‧‧麥克風
1160‧‧‧揚聲器
110‧‧‧變換器
120‧‧‧包絡獲取單元
130‧‧‧包絡量化器
140‧‧‧包絡編碼器
150‧‧‧頻譜正規器
160‧‧‧頻譜編碼器
200‧‧‧數位信號解碼裝置
210‧‧‧包絡解碼器
220‧‧‧包絡解量化器
230‧‧‧頻譜解碼器
240‧‧‧頻譜解正規器
250‧‧‧逆變換器
710~760、810~860‧‧‧操作
900‧‧‧多媒體元件
910‧‧‧通信單元
930‧‧‧編碼模組
950‧‧‧儲存單元
970‧‧‧麥克風
1000‧‧‧多媒體元件
1010‧‧‧通信單元
1030‧‧‧解碼模組
1050‧‧‧儲存單元
1070‧‧‧揚聲器
1100‧‧‧多媒體元件
1110‧‧‧通信單元
1120‧‧‧編碼模組
1130‧‧‧解碼模組
1140‧‧‧儲存單元
1150‧‧‧麥克風
1160‧‧‧揚聲器
圖1為根據本發明之一實施例之數位信號處理裝置的方塊圖。 圖2為根據本發明之另一實施例之數位信號處理裝置的方塊圖。 圖3A以及圖3B分別圖示在量化解析度為0.5且量化步階大小為3.01時彼此比較的未經最佳化之對數尺度以及經最佳化之對數尺度。 圖4A以及圖4B分別圖示在量化解析度為1且量化步階大小為6.02時彼此比較的未經最佳化之對數尺度以及經最佳化之對數尺度。 圖5A以及圖5B分別圖示彼此比較的未經最佳化之對數尺度之量化結果以及經最佳化之對數尺度之量化結果的曲線圖。 圖6為圖示在先前次頻帶之量化差分值用作內容脈絡時選擇之三個群組的機率分佈的曲線圖。 圖7為說明根據本發明之一實施例的圖1中之數位信號處理裝置之包絡編碼器中的基於內容脈絡之編碼程序的流程圖。 圖8為說明根據本發明之一實施例的圖2中之數位信號處理裝置之包絡解碼器中的基於內容脈絡之解碼程序的流程圖。 圖9為根據本發明之一實施例的包含編碼模組之多媒體元件的方塊圖。 圖10為根據本發明之一實施例的包含解碼模組之多媒體元件的方塊圖。 圖11為根據本發明之一實施例的包含編碼模組以及解碼模組之多媒體元件的方塊圖。
710~760‧‧‧操作
Claims (11)
- 一種音訊解碼方法,包括: 接收包括音訊頻譜中的次頻帶的包絡的經編碼量化差分索引的位元串流;以及 藉由參考基於內容脈絡的多個表中的一者無損解碼當前次頻帶的經編碼量化差分索引,所述內容脈絡是從先前次頻帶的解碼後量化差分索引獲得, 其中所述多個表中的所述一者是藉由所述內容脈絡所確定的多個群組中的一者選定。
- 如申請專利範圍第1項所述的方法,其中所述包絡為對應次頻帶之平均能量、平均振幅、功率以及範數值中的一者。
- 如申請專利範圍第1項所述的方法,其中所述無損解碼是藉由參考所述多個表而執行,所述多個表包括供第二群組的第一表及由第一群組及第三群組共用的第二表,其中所述第一群組至所述第三群組是藉由將與所述內容脈絡對應的解碼後量化差分索引進行分組而獲得。
- 如申請專利範圍第3項所述的方法,其中從所述先前次頻帶的所述解碼後量化差分索引獲得的所述內容脈絡是在所述第二表被共用時按照原狀或在顛倒之後被使用。
- 如申請專利範圍第1項所述的方法,其中所述無損解碼包括針對不存在所述先前次頻帶的第一次頻帶的經編碼量化索引進行解碼,以及基於所述第一次頻帶的解碼後量化索引及預定參考值,對跟在所述第一次頻帶之後的第二次頻帶的經編碼量化差分索引進行解碼。
- 一種非暫態電腦可讀取記錄媒體,儲存用以執行如申請專利範圍第1項所述的音頻解碼方法的電腦可讀取程式。
- 一種音訊解碼裝置,包括: 至少一個處理器,經組態以: 接收包括音訊頻譜中的次頻帶的包絡的經編碼量化差分索引的位元串流;以及 藉由參考基於內容脈絡的多個表中的一者無損解碼當前次頻帶的經編碼量化差分索引,所述內容脈絡是從先前次頻帶的解碼後量化差分索引獲得, 其中所述多個表中的所述一者是藉由所述內容脈絡所確定的多個群組中的一者選定。
- 如申請專利範圍第7項所述的裝置,其中所述包絡為對應次頻帶之平均能量、平均振幅、功率以及範數值中的一者。
- 如申請專利範圍第7項所述的裝置,其中所述處理器經配置以藉由參考所述多個表執行無損解碼,所述多個表包括供第二群組的第一表及由第一群組及第三群組共用的第二表,其中所述第一群組至所述第三群組是藉由將與所述內容脈絡對應的解碼後量化差分索引進行分組而獲得。
- 如申請專利範圍第9項所述的裝置,其中從所述先前次頻帶的所述解碼量化差分索引獲得的所述內容脈絡是在所述第二表被共用時按照原狀或在顛倒之後被使用。
- 如申請專利範圍第7項所述的裝置,其中從所述處理器經配置以針對不存在所述先前次頻帶的第一次頻帶的經編碼量化索引進行解碼,以及基於所述第一次頻帶的解碼後量化索引及預定參考值,對跟在所述第一次頻帶之後的第二次頻帶的經編碼量化差分索引進行解碼。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2011121982/08A RU2464649C1 (ru) | 2011-06-01 | 2011-06-01 | Способ обработки звукового сигнала |
??RU2011121982 | 2011-06-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201738881A TW201738881A (zh) | 2017-11-01 |
TWI616869B true TWI616869B (zh) | 2018-03-01 |
Family
ID=47145534
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106128176A TWI616869B (zh) | 2011-06-01 | 2012-06-01 | 音訊解碼方法、裝置及電腦可讀取記錄媒體 |
TW101119835A TWI562134B (en) | 2011-06-01 | 2012-06-01 | Audio encoding method and non-transitory computer-readable recording medium |
TW105134207A TWI601130B (zh) | 2011-06-01 | 2012-06-01 | 音訊編碼裝置 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101119835A TWI562134B (en) | 2011-06-01 | 2012-06-01 | Audio encoding method and non-transitory computer-readable recording medium |
TW105134207A TWI601130B (zh) | 2011-06-01 | 2012-06-01 | 音訊編碼裝置 |
Country Status (12)
Country | Link |
---|---|
US (3) | US9361895B2 (zh) |
EP (1) | EP2717264B1 (zh) |
JP (2) | JP6262649B2 (zh) |
KR (2) | KR102044006B1 (zh) |
CN (3) | CN103733257B (zh) |
AU (3) | AU2012263093B2 (zh) |
CA (1) | CA2838170C (zh) |
MX (2) | MX357875B (zh) |
PL (1) | PL2717264T3 (zh) |
RU (1) | RU2464649C1 (zh) |
TW (3) | TWI616869B (zh) |
WO (1) | WO2012165910A2 (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2464649C1 (ru) | 2011-06-01 | 2012-10-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ обработки звукового сигнала |
TWI671736B (zh) | 2011-10-21 | 2019-09-11 | 南韓商三星電子股份有限公司 | 對信號的包絡進行寫碼的設備及對其進行解碼的設備 |
GB2508417B (en) * | 2012-11-30 | 2017-02-08 | Toshiba Res Europe Ltd | A speech processing system |
CN108198564B (zh) | 2013-07-01 | 2021-02-26 | 华为技术有限公司 | 信号编码和解码方法以及设备 |
TWI579831B (zh) | 2013-09-12 | 2017-04-21 | 杜比國際公司 | 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統 |
KR102270106B1 (ko) * | 2013-09-13 | 2021-06-28 | 삼성전자주식회사 | 에너지 무손실 부호화방법 및 장치, 신호 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 신호 복호화방법 및 장치 |
EP3046105B1 (en) | 2013-09-13 | 2020-01-15 | Samsung Electronics Co., Ltd. | Lossless coding method |
EP3614381A1 (en) * | 2013-09-16 | 2020-02-26 | Samsung Electronics Co., Ltd. | Signal encoding method and device and signal decoding method and device |
CA2925734C (en) * | 2013-10-18 | 2018-07-10 | Guillaume Fuchs | Coding of spectral coefficients of a spectrum of an audio signal |
RU2636697C1 (ru) | 2013-12-02 | 2017-11-27 | Хуавэй Текнолоджиз Ко., Лтд. | Устройство и способ кодирования |
CN106463143B (zh) | 2014-03-03 | 2020-03-13 | 三星电子株式会社 | 用于带宽扩展的高频解码的方法及设备 |
SG11201609834TA (en) * | 2014-03-24 | 2016-12-29 | Samsung Electronics Co Ltd | High-band encoding method and device, and high-band decoding method and device |
CN105096957B (zh) * | 2014-04-29 | 2016-09-14 | 华为技术有限公司 | 处理信号的方法及设备 |
CN111968656B (zh) | 2014-07-28 | 2023-11-10 | 三星电子株式会社 | 信号编码方法和装置以及信号解码方法和装置 |
GB2526636B (en) * | 2014-09-19 | 2016-10-26 | Gurulogic Microsystems Oy | Encoder, decoder and methods employing partial data encryption |
WO2016162283A1 (en) * | 2015-04-07 | 2016-10-13 | Dolby International Ab | Audio coding with range extension |
CN104966517B (zh) * | 2015-06-02 | 2019-02-01 | 华为技术有限公司 | 一种音频信号增强方法和装置 |
US10609374B2 (en) * | 2015-11-22 | 2020-03-31 | Lg Electronics Inc. | Method and apparatus for entropy-encoding and entropy-decoding video signal |
CN115410583A (zh) | 2018-04-11 | 2022-11-29 | 杜比实验室特许公司 | 基于机器学习的用于音频编码和解码的基于感知的损失函数 |
US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
US10573331B2 (en) * | 2018-05-01 | 2020-02-25 | Qualcomm Incorporated | Cooperative pyramid vector quantizers for scalable audio coding |
US10580424B2 (en) * | 2018-06-01 | 2020-03-03 | Qualcomm Incorporated | Perceptual audio coding as sequential decision-making problems |
US10734006B2 (en) | 2018-06-01 | 2020-08-04 | Qualcomm Incorporated | Audio coding based on audio pattern recognition |
CN109473116B (zh) * | 2018-12-12 | 2021-07-20 | 思必驰科技股份有限公司 | 语音编码方法、语音解码方法及装置 |
CN110400578B (zh) * | 2019-07-19 | 2022-05-17 | 广州市百果园信息技术有限公司 | 哈希码的生成及其匹配方法、装置、电子设备和存储介质 |
RU2769618C2 (ru) * | 2020-05-18 | 2022-04-04 | ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "СберМедИИ" | Способ уменьшения вклада технических факторов в суммарный сигнал данных масс-спектрометрии с помощью фильтрации по техническим образцам |
KR102660883B1 (ko) * | 2023-12-01 | 2024-04-25 | 주식회사 테스트웍스 | 임베디드 장치의 미디어 프로세싱 테스트 방법 및 이를 수행하는 컴퓨팅 장치 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6484142B1 (en) * | 1999-04-20 | 2002-11-19 | Matsushita Electric Industrial Co., Ltd. | Encoder using Huffman codes |
US20030014136A1 (en) * | 2001-05-11 | 2003-01-16 | Nokia Corporation | Method and system for inter-channel signal redundancy removal in perceptual audio coding |
US20050091040A1 (en) * | 2003-01-09 | 2005-04-28 | Nam Young H. | Preprocessing of digital audio data for improving perceptual sound quality on a mobile phone |
US20090240491A1 (en) * | 2007-11-04 | 2009-09-24 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized mdct spectrum in scalable speech and audio codecs |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1336841C (en) * | 1987-04-08 | 1995-08-29 | Tetsu Taguchi | Multi-pulse type coding system |
JP3013698B2 (ja) * | 1994-04-20 | 2000-02-28 | 松下電器産業株式会社 | ベクトル量子化符号化装置と復号化装置 |
US5687191A (en) * | 1995-12-06 | 1997-11-11 | Solana Technology Development Corporation | Post-compression hidden data transport |
US5924064A (en) * | 1996-10-07 | 1999-07-13 | Picturetel Corporation | Variable length coding using a plurality of region bit allocation patterns |
US8024269B1 (en) * | 1997-08-27 | 2011-09-20 | Datatreasury Corporation | Remote image capture with centralized processing and storage |
JP4281131B2 (ja) * | 1998-10-22 | 2009-06-17 | ソニー株式会社 | 信号符号化装置及び方法、並びに信号復号装置及び方法 |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
JP3559485B2 (ja) * | 1999-11-22 | 2004-09-02 | 日本電信電話株式会社 | 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体 |
JP2002268693A (ja) * | 2001-03-12 | 2002-09-20 | Mitsubishi Electric Corp | オーディオ符号化装置 |
CN1231890C (zh) | 2001-05-11 | 2005-12-14 | 松下电器产业株式会社 | 编码设备、解码设备和广播系统 |
JP2003029797A (ja) * | 2001-05-11 | 2003-01-31 | Matsushita Electric Ind Co Ltd | 符号化装置、復号化装置および放送システム |
EP1292036B1 (en) * | 2001-08-23 | 2012-08-01 | Nippon Telegraph And Telephone Corporation | Digital signal decoding methods and apparatuses |
EP1701340B1 (en) * | 2001-11-14 | 2012-08-29 | Panasonic Corporation | Decoding device, method and program |
JP2003233397A (ja) * | 2002-02-12 | 2003-08-22 | Victor Co Of Japan Ltd | オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化データ伝送装置 |
KR100462611B1 (ko) * | 2002-06-27 | 2004-12-20 | 삼성전자주식회사 | 하모닉 성분을 이용한 오디오 코딩방법 및 장치 |
JP4728568B2 (ja) * | 2002-09-04 | 2011-07-20 | マイクロソフト コーポレーション | レベル・モードとラン・レングス/レベル・モードの間での符号化を適応させるエントロピー符号化 |
US7433824B2 (en) | 2002-09-04 | 2008-10-07 | Microsoft Corporation | Entropy coding by adapting coding between level and run-length/level modes |
CN1898724A (zh) * | 2003-12-26 | 2007-01-17 | 松下电器产业株式会社 | 语音/乐音编码设备及语音/乐音编码方法 |
KR100657916B1 (ko) * | 2004-12-01 | 2006-12-14 | 삼성전자주식회사 | 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법 |
KR100771401B1 (ko) * | 2005-08-01 | 2007-10-30 | (주)펄서스 테크놀러지 | 프로그래머블 프로세서에서 mpeg-2 또는 mpeg-4aac 오디오 복호 알고리즘을 처리하기 위한 연산 회로및 연산 방법 |
WO2007052088A1 (en) * | 2005-11-04 | 2007-05-10 | Nokia Corporation | Audio compression |
EP2381440A3 (en) * | 2005-11-30 | 2012-03-21 | Panasonic Corporation | Subband coding apparatus and method of coding subband |
EP1989707A2 (fr) * | 2006-02-24 | 2008-11-12 | France Telecom | Procede de codage binaire d'indices de quantification d'une enveloppe d'un signal, procede de decodage d'une enveloppe d'un signal et modules de codage et decodage correspondants |
KR101040160B1 (ko) * | 2006-08-15 | 2011-06-09 | 브로드콤 코포레이션 | 패킷 손실 후의 제한되고 제어된 디코딩 |
KR101346358B1 (ko) * | 2006-09-18 | 2013-12-31 | 삼성전자주식회사 | 대역폭 확장 기법을 이용한 오디오 신호의 부호화/복호화방법 및 장치 |
JP4823001B2 (ja) | 2006-09-27 | 2011-11-24 | 富士通セミコンダクター株式会社 | オーディオ符号化装置 |
US7953595B2 (en) * | 2006-10-18 | 2011-05-31 | Polycom, Inc. | Dual-transform coding of audio signals |
US20080243518A1 (en) * | 2006-11-16 | 2008-10-02 | Alexey Oraevsky | System And Method For Compressing And Reconstructing Audio Files |
KR100895100B1 (ko) * | 2007-01-31 | 2009-04-28 | 엠텍비젼 주식회사 | 디지털 오디오 데이터의 복호화 방법 및 디지털 오디오데이터의 복호화 장치 |
EP2077551B1 (en) * | 2008-01-04 | 2011-03-02 | Dolby Sweden AB | Audio encoder and decoder |
US8554551B2 (en) * | 2008-01-28 | 2013-10-08 | Qualcomm Incorporated | Systems, methods, and apparatus for context replacement by audio level |
MY159110A (en) * | 2008-07-11 | 2016-12-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V | Audio encoder and decoder for encoding and decoding audio samples |
US8290782B2 (en) * | 2008-07-24 | 2012-10-16 | Dts, Inc. | Compression of audio scale-factors by two-dimensional transformation |
CN101673547B (zh) * | 2008-09-08 | 2011-11-30 | 华为技术有限公司 | 编码方法、解码方法及其装置 |
CN101898724B (zh) | 2009-05-27 | 2013-04-10 | 无锡港盛港口机械有限公司 | 双颚抓斗取物装置 |
KR20100136890A (ko) * | 2009-06-19 | 2010-12-29 | 삼성전자주식회사 | 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법 |
CN102081927B (zh) * | 2009-11-27 | 2012-07-18 | 中兴通讯股份有限公司 | 一种可分层音频编码、解码方法及系统 |
CN101847410A (zh) * | 2010-05-31 | 2010-09-29 | 中国传媒大学广播电视数字化教育部工程研究中心 | 一种用于数字音频信号压缩的快速量化方法 |
RU2464649C1 (ru) | 2011-06-01 | 2012-10-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ обработки звукового сигнала |
TWI671736B (zh) | 2011-10-21 | 2019-09-11 | 南韓商三星電子股份有限公司 | 對信號的包絡進行寫碼的設備及對其進行解碼的設備 |
-
2011
- 2011-06-01 RU RU2011121982/08A patent/RU2464649C1/ru active
-
2012
- 2012-06-01 CN CN201280037719.1A patent/CN103733257B/zh active Active
- 2012-06-01 MX MX2015014526A patent/MX357875B/es unknown
- 2012-06-01 CN CN201710035445.7A patent/CN106803425B/zh active Active
- 2012-06-01 KR KR1020120059434A patent/KR102044006B1/ko active IP Right Grant
- 2012-06-01 PL PL12791983T patent/PL2717264T3/pl unknown
- 2012-06-01 WO PCT/KR2012/004362 patent/WO2012165910A2/ko active Application Filing
- 2012-06-01 CN CN201710031335.3A patent/CN106782575B/zh active Active
- 2012-06-01 CA CA2838170A patent/CA2838170C/en active Active
- 2012-06-01 US US14/123,359 patent/US9361895B2/en active Active
- 2012-06-01 TW TW106128176A patent/TWI616869B/zh active
- 2012-06-01 JP JP2014513447A patent/JP6262649B2/ja active Active
- 2012-06-01 EP EP12791983.5A patent/EP2717264B1/en active Active
- 2012-06-01 AU AU2012263093A patent/AU2012263093B2/en active Active
- 2012-06-01 TW TW101119835A patent/TWI562134B/zh active
- 2012-06-01 TW TW105134207A patent/TWI601130B/zh active
- 2012-06-01 MX MX2013014152A patent/MX2013014152A/es active IP Right Grant
-
2016
- 2016-04-29 US US15/142,594 patent/US9589569B2/en active Active
- 2016-11-08 AU AU2016256685A patent/AU2016256685B2/en active Active
-
2017
- 2017-03-06 US US15/450,672 patent/US9858934B2/en active Active
- 2017-09-11 AU AU2017228519A patent/AU2017228519B2/en active Active
- 2017-12-14 JP JP2017239861A patent/JP6612837B2/ja active Active
-
2019
- 2019-11-06 KR KR1020190140945A patent/KR102154741B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6484142B1 (en) * | 1999-04-20 | 2002-11-19 | Matsushita Electric Industrial Co., Ltd. | Encoder using Huffman codes |
US20030014136A1 (en) * | 2001-05-11 | 2003-01-16 | Nokia Corporation | Method and system for inter-channel signal redundancy removal in perceptual audio coding |
US20050091040A1 (en) * | 2003-01-09 | 2005-04-28 | Nam Young H. | Preprocessing of digital audio data for improving perceptual sound quality on a mobile phone |
US20090240491A1 (en) * | 2007-11-04 | 2009-09-24 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized mdct spectrum in scalable speech and audio codecs |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI616869B (zh) | 音訊解碼方法、裝置及電腦可讀取記錄媒體 | |
KR102209073B1 (ko) | 비트할당방법, 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 기록매체와 이를 채용하는 멀티미디어 기기 | |
TWI671736B (zh) | 對信號的包絡進行寫碼的設備及對其進行解碼的設備 | |
CN105723454B (zh) | 能量无损编码方法和设备、信号编码方法和设备、能量无损解码方法和设备及信号解码方法和设备 |