TW201923748A - 使用尺度參數之降低取樣或內插來編碼及解碼音訊信號之設備及方法 - Google Patents
使用尺度參數之降低取樣或內插來編碼及解碼音訊信號之設備及方法 Download PDFInfo
- Publication number
- TW201923748A TW201923748A TW107139706A TW107139706A TW201923748A TW 201923748 A TW201923748 A TW 201923748A TW 107139706 A TW107139706 A TW 107139706A TW 107139706 A TW107139706 A TW 107139706A TW 201923748 A TW201923748 A TW 201923748A
- Authority
- TW
- Taiwan
- Prior art keywords
- scale
- scale parameters
- parameters
- representation
- spectrum
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims description 56
- 230000003595 spectral effect Effects 0.000 claims abstract description 86
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000001228 spectrum Methods 0.000 claims description 116
- 238000013139 quantization Methods 0.000 claims description 47
- 239000013598 vector Substances 0.000 claims description 27
- 238000007493 shaping process Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 10
- 238000009499 grossing Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000013213 extrapolation Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 3
- 230000001174 ascending effect Effects 0.000 claims 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000007704 transition Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 14
- 238000001914 filtration Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 101100521334 Mus musculus Prom1 gene Proteins 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一種用於編碼一音訊信號之設備,其包含:一轉換器,其用於將該音訊信號轉換為一頻譜表示;一尺度參數計算器,其用於依據該頻譜表示計算第一組尺度參數;一降低取樣器,其用於降低取樣該第一組尺度參數以獲得第二組尺度參數,其中該第二組尺度參數中的尺度參數之一第二數目低於該第一組尺度參數中的尺度參數之一第一數目;一尺度參數編碼器,其用於產生該第二組尺度參數之一經編碼表示;一頻譜處理器,其用於使用第三組尺度參數處理該頻譜表示,該第三組尺度參數具有大於尺度參數之該第二數目的第三數目個尺度參數,其中該頻譜處理器經組配以使用該第一組尺度參數或使用一內插操作自該第二組尺度參數或自該第二組尺度參數之該經編碼表示導出該第三組尺度參數;及一輸出介面,其用於產生包含關於該頻譜表示之該經編碼表示的資訊及關於該第二組尺度參數之該經編碼表示的資訊之一經編碼輸出信號。
Description
發明領域
本發明係關於音訊處理,且特定言之,係關於使用頻譜帶之尺度參數在譜域中操作之音訊處理。
本發明係關於音訊處理,且特定言之,係關於使用頻譜帶之尺度參數在譜域中操作之音訊處理。
發明背景
先前技術1:高級音訊寫碼(AAC)
先前技術1:高級音訊寫碼(AAC)
在最廣泛使用的目前先進技術之感知音訊編解碼器中之一者,即高級音訊寫碼(AAC)[1-2]中,藉助於所謂的比例因數執行頻譜雜訊塑形。
在此方法中,MDCT頻譜被分割成數個非均勻比例因數頻帶。舉例而言,在48 kHz處,MDCT具有1024個係數,且其被分割成49個比例因數頻帶。在每一頻帶中,使用比例因數來縮放該頻帶之MDCT係數。接著使用具有恆定步長之純量量化器來量化經縮放之MDCT係數。在解碼器側,在每一頻帶中執行逆縮放,從而對由純量量化器引入之量化雜訊進行塑形。
49個比例因數作為旁側資訊編碼至位元串流中。由於相對較高之比例因數數目及所需之高精度,因此通常需要相當大之位元量用於編碼比例因數。此在低位元率及/或低延遲下可能成為問題。
先前技術2:基於MDCT之TCX
先前技術2:基於MDCT之TCX
在基於MDCT之TCX (即MPEG-D USAC [3]及3GPP EVS [4]標準中使用之基於變換之音訊編解碼器)中,藉助於基於LPC之感知濾波器執行頻譜雜訊塑形,該感知濾波器與最近的基於ACELP之語音編解碼器(例如,AMR-WB)中所使用的感知濾波器相同。
在此方法中,首先依據預加重之輸入信號估計一組16個LPC。接著對LPC進行加權及量化。接著,在64個均勻隔開的頻帶中計算經加權及量化之LPC之頻率回應。接著使用所計算之頻率回應在每一頻帶中縮放MDCT係數。接著使用具有由全域增益控制之步長的純量量化器來量化經縮放之MDCT係數。在解碼器處,在每64個頻帶中執行逆縮放,從而對由純量量化器引入之量化雜訊進行塑形。
與AAC方法相比,此方法具有明顯優勢:其僅需要編碼16個(LPC)+作為旁側資訊的1 個(全域增益)參數(與AAC中之49個參數相比)。此外,可藉由使用LSF表示及向量量化器來用少量位元有效地編碼16個LPC。因此,先前技術2之方法較之於先前技術1之方法需要較少之旁側資訊位元,此可在低位元率及/或低延遲下產生顯著差異。
然而,此方法亦具有一些缺陷。第一缺陷為雜訊塑形之頻率尺度被限制為線性(即,使用均勻隔開的頻帶),此係因為LPC係在時域中估計的。此係不利的,因為人耳在低頻中比在高頻中更敏感。第二缺點為此方法所需之高複雜性。LPC估計(自相關,Levinson-Durbin)、LPC量化(LPC <-> LSF轉換、向量量化)及LPC頻率回應計算全部為昂貴之操作。第三缺陷為此方法不很靈活,此係因為基於LPC之感知濾波器不能輕易修改,且此阻止關鍵音訊項目所需之一些特定調諧。
先前技術3:改良的基於MDCT之TCX
先前技術3:改良的基於MDCT之TCX
一些最近之工作已經解決了先前技術2之第一缺陷及部分第二缺陷。其公開於US 9595262 B2、EP2676266 B1中。在此新方法中,自相關(用於估計LPC)不再在時域中執行,而改為使用MDCT係數能量之逆變換在MDCT域中計算。此允許藉由簡單地將MDCT係數分組為64個非均勻頻帶且計算每一頻帶之能量來使用非均勻頻率尺度。其亦降低了計算自相關所需之複雜性。
然而,即使使用該新方法,大多數第二缺陷及第三缺陷仍然存在。
然而,即使使用該新方法,大多數第二缺陷及第三缺陷仍然存在。
發明概要
本發明之目標為提供用於處理音訊信號之經改良概念。
本發明之目標為提供用於處理音訊信號之經改良概念。
該目標藉由如請求項1之編碼音訊信號之設備、如請求項24之編碼音訊信號之方法、如請求項25之解碼經編碼音訊信號之設備、如請求項40之解碼經編碼音訊信號之方法或如請求項41之電腦程式來達成。
一種用於編碼一音訊信號之設備包含用於將該音訊信號轉換為一頻譜表示之一轉換器。此外,提供用於依據該頻譜表示計算第一組尺度參數之一尺度參數計算器。另外,為了使位元率儘可能低,該第一組尺度參數經降低取樣以獲得第二組尺度參數,其中該第二組尺度參數中的尺度參數之一第二數目低於該第一組尺度參數中的尺度參數之一第一數目。此外,除了用於使用第三組尺度參數處理該頻譜表示之一頻譜處理器之外,亦提供用於產生該第二組尺度參數之一經編碼表示之一尺度參數編碼器,該第三組尺度參數具有大於尺度參數之該第二數目的第三數目個尺度參數。特定言之,該頻譜處理器經組配以使用該第一組尺度參數,或使用一內插操作自該第二組尺度參數或自該第二組尺度參數之該經編碼表示導出該第三組尺度參數,以獲得該頻譜表示之一經編碼表示。此外,提供一輸出介面以用於產生一經編碼輸出信號,該經編碼輸出信號包含關於該頻譜表示之該經編碼表示的資訊,且亦包含關於該第二組尺度參數之該經編碼表示的資訊。
本發明係基於以下發現:可藉由在編碼器側用較高數目個比例因數縮放且藉由在編碼器側將尺度參數降低取樣為第二組尺度參數或比例因數來獲得無實質性品質損失之低位元率,其中第二組中接著經編碼且經由輸出介面傳輸或儲存之尺度參數低於尺度參數之第一數目。因此,在編碼器側獲得精細縮放(一方面)及低位元率(另一方面)。
在該解碼器側,藉由一比例因數解碼器對所傳輸之小數目比例因數進行解碼以獲得第一組比例因數,其中該第一組中之比例因數或尺度參數之數目大於該第二組之比例因數或尺度參數之數目,且由此,再次,在頻譜處理器內在解碼器側執行使用較高數目個尺度參數之精細縮放以獲得經精細縮放之頻譜表示。
因此,一方面獲得低位元率,且儘管如此,另一方面獲得音訊信號頻譜之高品質頻譜處理。
如在較佳實施例中進行之頻譜雜訊塑形僅使用非常低之位元率來實施。因此,即使在低位元率的基於變換之音訊編解碼器中,此頻譜雜訊塑形亦可為必需工具。頻譜雜訊塑形在頻域中對量化雜訊進行塑形,使得量化雜訊最小程度地被人耳感知,且因此,可最大化經解碼輸出信號之感知品質。
較佳實施例依賴於自振幅相關量度(諸如頻譜表示之能量)計算之頻譜參數。特定言之,逐頻帶能量或通常逐頻帶之振幅相關量度被計算為尺度參數之基礎,其中用於計算逐頻帶之振幅相關量度之頻寬自較低頻帶至較高頻帶增大以便儘可能地接近人類聽覺之特徵。較佳地,根據眾所周知之巴克(Bark)尺度將頻譜表示劃分為頻帶。
在其他實施例中,計算線性域尺度參數,且特定言之針對具有大量尺度參數之第一組尺度參數計算線性域尺度參數,且將此大量尺度參數轉換至一類對數域(log-like domain)中。類對數域通常為其中小值經擴展且高值經壓縮之域。接著,在類對數域中進行尺度參數之降低取樣或抽取操作,該類對數域可為具有基數10之對數域或具有基數2之對數域,其中後者對於實施目的係較佳的。接著在類對數域中計算第二組比例因數,且較佳地,執行第二組比例因數之向量量化,其中比例因數係在類對數域中。因此,向量量化之結果指示類對數域尺度參數。第二組比例因數或尺度參數例如具有的比例因數數目為第一組比例因數之一半,或甚至三分之一或甚至更佳為四分之一。接著,第二組尺度參數中之經量化之小數目尺度參數被帶入位元串流中,且接著自編碼器側傳輸至解碼器側,或作為經編碼音訊信號與亦已使用此等參數處理之經量化頻譜一起儲存,其中此處理另外涉及使用全域增益之量化。然而,較佳地,編碼器自此等經量化類對數域導出再次為一組線性域比例因數之第二比例因數,其為第三組比例因數,且該第三組比例因數中之比例因數之數目大於第二數目,且較佳甚至等於第一組第一比例因數中之比例因數的第一數目。接著,在編碼器側,此等經內插比例因數用於處理頻譜表示,其中經處理之頻譜表示最終經量化,且以任何方式進行熵編碼,諸如藉由霍夫曼編碼(Huffman-encoding)、算術編碼或基於向量量化之編碼等。
在接收具有低數目頻譜參數之經編碼信號及頻譜表示之經編碼表示之解碼器中,將低數目之尺度參數內插至高數目之尺度參數中,即,獲得第一組尺度參數,其中第二組比例因數或尺度參數中之比例因數之尺度參數之數目小於第一組之尺度參數之數目,該第一組即為如由比例因數/參數解碼器計算之組。接著,位於用於解碼經編碼音訊信號之設備內的頻譜處理器使用此第一組尺度參數處理經解碼頻譜表示,以獲得經縮放頻譜表示。接著,用於轉換經縮放頻譜表示之轉換器操作以最終獲得較佳在時域中之經解碼音訊信號。
其他實施例導致下文闡述之額外優點。在較佳實施例中,藉助於與先前技術1中使用之比例因數類似之16個縮放參數來執行頻譜雜訊塑形。此等參數係藉由以下操作而在編碼器中獲得:首先計算64個非均勻頻帶(類似於先前技術3之64個非均勻頻帶)中之MDCT頻譜之能量,接著對64個能量施加一些處理(平滑化、預加重、設雜訊底限、對數轉換),接著將64個經處理之能量降低取樣4倍,以獲得最終經正規化及縮放之16個參數。接著使用向量量化(使用與先前技術2/3中使用的類似向量量化)量化此等16個參數。接著內插經量化參數以獲得64個經內插縮放參數。接著使用此等64個縮放參數直接在64個非均勻頻帶中對MDCT頻譜進行塑形。類似於先前技術2及3,接著使用具有由全域增益控制之步長的純量量化器來量化經縮放之MDCT係數。在解碼器處,在每64個頻帶中執行逆縮放,從而對由純量量化器引入之量化雜訊進行塑形。
如在先前技術2/3中,較佳實施例僅使用16 + 1 (作為旁側資訊)個參數,且可使用向量量化以低位元數目有效地編碼該等參數。因此,較佳實施例具有與先前2/3相同之優點:其需要的旁側資訊位元比先前技術1之方法少,此可在低位元率及/或低延遲下產生顯著差異。
如在先前技術3中,較佳實施例使用非線性頻率縮放,且因此不具有先前技術2之第一缺陷。
與先前技術2/3相比,較佳實施例不使用任何具有高複雜性之LPC相關功能。所需之處理功能(平滑化、預加重、設雜訊底限、對數轉換、正規化、縮放、內插)相比之下需要非常小之複雜性。僅向量量化仍然具有相對高之複雜性。但可使用效能損失小之一些低複雜性向量量化技術(多分裂/多級方法)。因此,較佳實施例不具有先前技術2/3關於複雜性之第二缺陷。
與先前技術2/3相比,較佳實施例不依賴於基於LPC之感知濾波器。其使用可很自由地計算之16個縮放參數。較佳實施例比先前技術2/3更靈活,且因此具有先前技術2/3之第三缺陷。
總之,較佳實施例具有先前技術2/3之所有優點,而無任何缺陷。
總之,較佳實施例具有先前技術2/3之所有優點,而無任何缺陷。
圖1說明用於編碼音訊信號160之設備。音訊信號160較佳在時域中可用,但為諸如預測域或任何其他域之音訊信號之其他表示亦將原則上係有用的。該設備包含轉換器100、比例因數計算器110、頻譜處理器120、降低取樣器130、比例因數編碼器140及輸出介面150。轉換器100經組配用於將音訊信號160轉換為頻譜表示。比例因數計算器110經組配用於依據頻譜表示計算第一組尺度參數或比例因數。
在整個說明書中,使用「比例因數」或「尺度參數」一詞以便指代相同之參數或值,即,在某一處理之後用於加權某種頻譜值之值或參數。當在線性域中執行時,此加權實際上為具有縮放因數之乘法運算。然而,當在對數域中執行加權時,利用比例因數之加權運算藉由實際之加法或減法運算來進行。因此,在本申請案之術語中,縮放不僅意謂乘法或除法,而且亦取決於特定域而意謂加法或減法,或通常意謂藉以使用比例因數或尺度參數對頻譜值例如加權或修改之每一操作。
降低取樣器130經組配用於降低取樣第一組尺度參數以獲得第二組尺度參數,其中該第二組尺度參數中的尺度參數之一第二數目低於該第一組尺度參數中的尺度參數之一第一數目。此亦在圖1中之邏輯框中概述,其闡述第二數位低於第一數位。如圖1中所說明,比例因數編碼器經組配用於產生第二組比例因數之經編碼表示,且此經編碼表示被轉發至輸出介面150。由於第二組比例因數具有比第一組比例因數數目低之比例因數之事實,用於傳輸或儲存第二組比例因數之經編碼表示之位元率與以下情境相比較低:在降低取樣器130中執行之比例因數之降低取樣尚未執行。
此外,頻譜處理器120經組配用於使用第三組尺度參數處理由圖1中之轉換器100輸出之頻譜表示,該第三組尺度參數或比例因數具有大於比例因數之第二數目的第三數目個比例因數,其中頻譜處理器120經組配以出於頻譜處理之目的使用已經由線171自區塊110獲得之第一組比例因數。或者,頻譜處理器120經組配以使用如由降低取樣器130輸出之第二組比例因數用於計算第三組比例因數,如線172所說明。在另一實施中,頻譜處理器120使用由比例因數/參數編碼器140輸出之經編碼表示用於計算第三組比例因數,如圖1中之線173所說明。較佳地,頻譜處理器120不使用第一組比例因數,而使用如由降低取樣器計算之第二組比例因數,或甚至更佳地使用經編碼表示或通常使用經量化之第二組比例因數,且接著執行內插操作以內插經量化之第二組頻譜參數,以獲得由於內插操作而具有較高數目個尺度參數之第三組尺度參數。
因此,由區塊140輸出之第二組比例因數之經編碼表示包含用於較佳使用之尺度參數碼簿的碼簿索引,或包含一組對應之碼簿索引。在其他實施例中,經編碼表示包含當碼簿索引或碼簿索引集合或通常經編碼表示輸入至解碼器側向量解碼器或任何其他解碼器時獲得的經量化比例因數之經量化尺度參數。
較佳地,頻譜處理器120使用在解碼器側亦可用之同一組比例因數,即,使用經量化之第二組尺度參數及內插操作來最終獲得第三組比例因數。
在一較佳實施例中,第三組比例因數中的比例因數之第三數目等於比例因數之第一數目。然而,較小數目之比例因數亦為有用的。例示性地,舉例而言,可在區塊110中導出64個比例因數,且接著可將64個比例因數降低取樣至16個比例因數以進行傳輸。接著,可不必對64個比例因數執行內插,而對頻譜處理器120中之32個比例因數執行內插。或者,只要在經編碼輸出信號170中傳輸之比例因數之數目小於在區塊110中計算或在圖1之區塊120中計算及使用的比例因數之數目,便可執行至更高數目之內插,諸如超過64個比例因數(視具體情況而定)。
較佳地,比例因數計算器110經組配以執行圖2中所說明之若干操作。此等操作係指每頻帶之振幅相關量度之計算111。每頻帶之較佳振幅相關量度為每頻帶之能量,但亦可使用其他振幅相關量度,例如,每頻帶之振幅之量值之總和或與能量相對應的振幅之平方之總和。然而,除了用於計算每頻帶之能量的2之冪之外,亦可使用諸如能夠反映信號之響度的3之冪之其他冪,且甚至亦可使用不同於整數之冪(諸如1.5或2.5之冪)來計算每頻帶之振幅相關量度。甚至可使用小於1.0之冪,只要確保由此等冪處理之值為正值即可。
由比例因數計算器執行之另一操作可為頻帶間平滑化112。此頻帶間平滑化較佳用於消除可能出現在如由步驟111獲得之振幅相關量度之向量中的可能不穩定性。若不執行此平滑化,則此等不穩定性在稍後如115處所說明轉換至對數域時將被放大,在能量接近於0之頻譜值中尤其如此。然而,在其他實施例中,不執行頻帶間平滑化。
由比例因數計算器110執行之另一較佳操作為預加重操作113。此預加重操作具有與在先前關於先前技術論述之基於MDCT之TCX處理之基於LPC之感知濾波器中使用的預加重操作類似之目的。此程序增大低頻中的經塑形頻譜之振幅,從而導致低頻中之量化雜訊減小。
然而,取決於實施,不一定必須執行預加重操作(如其他特定操作)。
另一可選之處理操作為雜訊底限添加處理114。此程序藉由限制穀值中經塑形頻譜之振幅放大來改良含有非常高頻譜動力學(諸如鐘琴)之信號之品質,其具有降低峰值中之量化雜訊的間接效果,代價為穀值中量化雜訊之增大,其中量化雜訊無論如何由於人耳之掩蔽特性(諸如絕對聽取臨限值、預掩蔽、後掩蔽或通用掩蔽臨限值)而不可察覺,從而指示,通常,在頻率上相對接近於高音量音調之相當低音量之音調完全不可察覺,即完全被掩蔽或僅被人類聽覺機構粗略地感知,使得此頻譜貢獻可相當粗略地量化。
然而,不一定必須執行雜訊底限添加操作114。
此外,區塊115指示類對數域轉換。較佳地,在類對數域中執行圖2中之區塊111、112、113、114中之一者的輸出之變換。類對數域為其中接近於0之值經擴展且高值經壓縮之域。較佳地,對數域為基於2之域,但亦可使用其他對數域。然而,基於2之對數域更適合在固定點信號處理器上實施。
比例因數計算器110之輸出為第一組比例因數。
如圖2中所說明,可橋接區塊112至115中之每一者,即,例如,區塊111之輸出可能已經為第一組比例因數。然而,所有處理操作且特定言之類對數域轉換,為較佳的。因此,例如,甚至可藉由僅執行步驟111及115來實施比例因數計算器,而無需步驟112至114中之程序。
因此,比例因數計算器經組配用於執行圖2中所說明的程序中之一者或兩者或更多者,如由連接若干區塊之輸入/輸出線所指示。
圖3說明圖1之降低取樣器130之較佳實施。較佳地,在步驟131中執行低通濾波或通常具有特定窗w(k)之濾波,且接著,執行濾波結果之降低取樣/抽取操作。由於低通濾波131及在較佳實施例中降低取樣/抽取操作132兩者皆為算術運算之事實,濾波131與降低取樣132可在單個操作中執行,如稍後將概述的。較佳地,以如下方式執行降低取樣/抽取操作:執行第一組尺度參數中之個別組尺度參數之間的重疊。較佳地,執行兩個抽取之所計算參數之間的濾波操作中之一個比例因數之重疊。因此,步驟131在抽取之前對尺度參數向量執行低通濾波。此低通濾波具有與心理聲學模型中使用之擴散函數類似之效果。其減少峰值處之量化雜訊,代價為峰值周圍之量化雜訊增大,無論如何,相對於峰值處之量化雜訊,其至少在感知上被掩蔽至較高程度。
此外,降低取樣器額外執行均值移除133及額外縮放步驟134。然而,低通濾波操作131、均值移除步驟133及縮放步驟134僅為可選步驟。因此,圖3中說明之或圖1中說明之降低取樣器可經實施以僅執行步驟132或執行圖3中所說明之兩個步驟,諸如步驟132及步驟131、133及134中之一者。或者,只要執行降低取樣/抽取操作132,降低取樣器便可執行圖3所說明之四個步驟中的所有四個步驟或僅三個步驟。
如圖3中所概述,由降低取樣器執行之圖3中之音訊操作在類對數域中執行,以便獲得較佳結果。
圖4說明比例因數編碼器140之較佳實施。比例因數編碼器140接收較佳類對數域第二組比例因數,且執行如區塊141所說明之向量量化以最終每訊框輸出一或多個索引。每訊框之此等一或多個索引可轉發至輸出介面且寫入至位元串流中,即藉助於任何可用之輸出介面程序引入至輸出的經編碼音訊信號170中。較佳地,向量量化器141另外輸出經量化之類對數域第二組比例因數。因此,此資料可由區塊141直接輸出,如箭頭144所指示。然而,替代地,解碼器碼簿142亦可在編碼器中單獨使用。此解碼器碼簿每訊框接收一或多個索引,且自每訊框之此等一或多個索引導出經量化之較佳類對數域第二組比例因數,如線145所指示。在典型實施中,解碼器碼簿142將整合在向量量化器141內。較佳地,向量量化器141為如例如在任何所指示之先前技術程序中所使用的多級或分級或組合之多級/分級向量量化器。
因此,確保第二組比例因數為在解碼器側(即,在僅接收如由區塊141經由線146輸出的具有每訊框一或多個索引之經編碼音訊信號之解碼器中)亦可獲得的相同的經量化之第二組比例因數。
圖5說明頻譜處理器之較佳實施。包括在圖1之編碼器內之頻譜處理器120包含內插器121,其接收經量化之第二組尺度參數且輸出第三組尺度參數,其中第三數目大於第二數目且較佳等於第一數目。此外,頻譜處理器包含線性域轉換器120。接著,在區塊123中使用線性尺度參數(一方面)及由轉換器100獲得之頻譜表示(另一方面)來執行頻譜塑形。較佳地,執行後續時間雜訊塑形操作,即,頻率上之預測,以便在區塊124之輸出處獲得頻譜殘餘值,同時如箭頭129所指示將TNS旁側資訊轉發至輸出介面。
最終,頻譜處理器125具有純量量化器/編碼器,其經組配用於接收整個頻譜表示之單個全域增益,即,用於整個訊框。較佳地,取決於特定位元率考慮因素導出全域增益。因此,全域增益經設定而使得由區塊125產生之頻譜表示之經編碼表示滿足特定要求,諸如位元率要求、品質要求或兩者。可迭代地計算全域增益,或可視具體情況而定在前饋量測中計算全域增益。通常,全域增益與量化器一起使用,且高全域增益通常導致更粗略之量化,其中低全域增益導致更精細之量化。因此,換言之,當獲得固定量化器時,高全域增益導致較高之量化步長,而低全域增益導致較小之量化步長。然而,其他量化器亦可與全域增益功能一起使用,諸如具有用於高值之某種壓縮功能(即,某種非線性壓縮功能)之量化器,以使得例如較高之值比較低之值壓縮得更多。當全域增益在對應於對數域中之加法之線性域中之量化之前乘以該等值時,全域增益與量化粗糙度之間的上述相依性為有效的。然而,若全域增益由線性域中之除法應用,或藉由對數域中之減法應用,則相依性相反。當「全域增益」表示逆值時,情況如此。
隨後,給出關於圖1至圖5描述的個別程序之較佳實施。
較佳實施例之詳細逐步描述編碼器 : 步驟1 : 每頻帶之能量 (111 )
較佳實施例之詳細逐步描述編碼器 : 步驟1 : 每頻帶之能量 (111 )
每頻帶之能量計算如下:
其中為MDCT係數,為頻帶之數目,且為頻帶索引。頻帶為非均一的,且遵循感知相關的巴克尺度(低頻更小,高頻更大)。
步驟 2 :平滑化 (112 )
其中為MDCT係數,為頻帶之數目,且為頻帶索引。頻帶為非均一的,且遵循感知相關的巴克尺度(低頻更小,高頻更大)。
步驟 2 :平滑化 (112 )
使用下式對每頻帶之能量進行平滑化
備註:此步驟主要用於平滑化可能出現在向量中的可能不穩定度。若不經平滑化,則此等不穩定性在轉換至對數域(見步驟5)時會被放大,在能量接近於0之穀值中尤其如此。
步驟 3 :預加重 (113 )
備註:此步驟主要用於平滑化可能出現在向量中的可能不穩定度。若不經平滑化,則此等不穩定性在轉換至對數域(見步驟5)時會被放大,在能量接近於0之穀值中尤其如此。
步驟 3 :預加重 (113 )
接著使用下式預加重經平滑化之每頻帶之能量
其中控制預加重傾斜且取決於取樣頻率。其例如在16 kHz下為18且在48 kHz下為30。在此步驟中使用的預加重與在先前技術2的基於LPC之感知濾波器中使用的預加重具有相同目的,其增加了低頻中之塑形頻譜的振幅,從而減少了低頻中之量化雜訊。
步驟4 : 設雜訊底限 (114 )
其中控制預加重傾斜且取決於取樣頻率。其例如在16 kHz下為18且在48 kHz下為30。在此步驟中使用的預加重與在先前技術2的基於LPC之感知濾波器中使用的預加重具有相同目的,其增加了低頻中之塑形頻譜的振幅,從而減少了低頻中之量化雜訊。
步驟4 : 設雜訊底限 (114 )
使用下式將-40 dB下的雜訊底限添加至
其中雜訊底限之計算方法為
此步驟藉由限制穀值中經塑形頻譜之振幅放大來改良含有非常高頻譜動力學(諸如鐘琴)之信號之品質,其具有降低峰值中之量化雜訊的間接效果,代價為穀值中量化雜訊之增大,其中量化雜訊無論如何不可察覺。
步驟 5 :對數 ( 115 )
其中雜訊底限之計算方法為
此步驟藉由限制穀值中經塑形頻譜之振幅放大來改良含有非常高頻譜動力學(諸如鐘琴)之信號之品質,其具有降低峰值中之量化雜訊的間接效果,代價為穀值中量化雜訊之增大,其中量化雜訊無論如何不可察覺。
步驟 5 :對數 ( 115 )
接著使用下式執行至對數域之變換:
步驟 6 :降低取樣 (131 、132 )
步驟 6 :降低取樣 (131 、132 )
接著使用下式將向量降低取樣為4分之一
其中
此步驟在抽取前對向量應用低通濾波(w(k))。此低通濾波具有與心理聲學模型中使用之擴散函數類似之效果:其減小峰值處之量化雜訊,代價為峰值周圍之量化雜訊增大,無論如何其在感知上被掩蔽。
步驟7 : 均值移除 及縮放 (133 、134 )
其中
此步驟在抽取前對向量應用低通濾波(w(k))。此低通濾波具有與心理聲學模型中使用之擴散函數類似之效果:其減小峰值處之量化雜訊,代價為峰值周圍之量化雜訊增大,無論如何其在感知上被掩蔽。
步驟7 : 均值移除 及縮放 (133 、134 )
最終比例因數係在均值移除及縮放0.85倍之後獲得
由於編解碼器具有額外全域增益,因此可在不丟失任何資訊之情況下移除均值。移除均值亦允許更有效之向量量化。
由於編解碼器具有額外全域增益,因此可在不丟失任何資訊之情況下移除均值。移除均值亦允許更有效之向量量化。
0.85之縮放稍微壓縮了雜訊塑形曲線之振幅。其具有與步驟6中提及之擴展函數類似之感知效果:減少峰值處之量化雜訊且增大穀值中之量化雜訊。
步驟 8 :量化 (141 、142 )
步驟 8 :量化 (141 、142 )
比例因數使用向量量化進行量化,從而產生接著封裝至位元串流中且發送至解碼器之索引及經量化比例因數。
步驟 9 :內插 (121 、122 )
步驟 9 :內插 (121 、122 )
使用下式內插經量化比例因數
且使用下式變換回至線性域
內插可用於獲得平滑的雜訊塑形曲線,且因此避免了鄰近頻帶之間的任何大振幅跳躍。
步驟 10 :頻譜塑形 (123 )
且使用下式變換回至線性域
內插可用於獲得平滑的雜訊塑形曲線,且因此避免了鄰近頻帶之間的任何大振幅跳躍。
步驟 10 :頻譜塑形 (123 )
SNS比例因數分別應用於每一頻帶之MDCT頻率線,以便產生經塑形頻譜
圖8說明用於解碼經編碼音訊信號250之設備之較佳實施,該經編碼音訊信號包含關於經編碼頻譜表示之資訊及關於第二組尺度參數之經編碼表示之資訊。解碼器包含輸入介面200、頻譜解碼器210、比例因數/參數解碼器220、頻譜處理器230及轉換器240。輸入介面200經組配用於接收經編碼音訊信號250且用於提取被轉發至頻譜解碼器210之經編碼頻譜表示,且用於提取被轉發至比例因數解碼器220之第二組比例因數之經編碼表示。此外,頻譜解碼器210經組配用於解碼經編碼頻譜表示以獲得被轉發至頻譜處理器230之經解碼頻譜表示。比例因數解碼器220經組配用於解碼經編碼之第二組尺度參數以獲得轉發至頻譜處理器230之第一組尺度參數。第一組比例因數具有大於第二組中之比例因數或尺度參數之數目的數目個比例因數或尺度參數。頻譜處理器230經組配以使用第一組尺度參數處理經解碼頻譜表示以獲得經縮放之頻譜表示。接著,經縮放之頻譜表示由轉換器240轉換,以最終獲得經解碼音訊信號260。
較佳地,比例因數解碼器220經組配而以已與關於圖1之頻譜處理器120所論述之方式基本相同之方式操作,其與如結合區塊141或142,特別是相對於圖5之區塊121、122所論述之第三組比例因數或尺度參數之計算有關。特定言之,比例因數解碼器經組配以執行與內插及變換回至線性域之基本相同之程序,如之前關於步驟9所論述的。因此,如圖9中所說明,比例因數解碼器220經組配用於將解碼器碼簿221應用於表示經編碼尺度參數表示之每訊框之一或多個索引。接著,在區塊222中執行內插,該內插與關於圖5中之區塊121所論述之內插基本相同。接著,使用線性域轉換器223,其為與關於圖5所論述之基本相同之線性域轉換器122。然而,在其他實施中,區塊221、222、223可與關於編碼器側之對應區塊所論述之操作不同。
此外,圖8中所說明之頻譜解碼器210包含解量化器/解碼器區塊,其接收經編碼頻譜作為輸入且輸出經解量化頻譜,該經解量化頻譜較佳地使用以經編碼形式在經編碼音訊信號內額外自編碼器側傳輸至解碼器側之全域增益進行解量化。解量化器/解碼器210可例如包含算術或霍夫曼解碼器功能,其接收某種程式碼作為輸入且輸出表示頻譜值之量化索引。接著,將此等量化索引與全域增益一起輸入至解量化器中,且輸出為經解量化之頻譜值,其可接著在TNS解碼器處理區塊211中經受TNS處理,諸如頻率上之逆預測,然而,其為可選的。特定言之,TNS解碼器處理區塊額外接收由圖5之區塊124產生之TNS旁側資訊,如由線129所指示。TNS解碼器處理步驟211之輸出被輸入至頻譜塑形區塊212,其中如由比例因數解碼器計算之第一組比例因數被應用於經解碼頻譜表示,其可或可不經TNS處理(視具體情況而定),且輸出為接著輸入至圖8之轉換器240中的經縮放之頻譜表示。
隨後論述解碼器之較佳實施例之進一步程序。
解碼器: 步驟1 :量化 (221 )
解碼器: 步驟1 :量化 (221 )
自位元串流讀出在編碼器步驟8中產生之向量量化器索引,且將其用於解碼經量化之比例因數。
步驟 2 :內插 (222 、223 )
步驟 2 :內插 (222 、223 )
與編碼器步驟9相同。
步驟 3 :頻譜塑形 ( 212 )
步驟 3 :頻譜塑形 ( 212 )
將SNS比例因數分別應用於每一頻帶之經量化MDCT頻率線,以便產生如以下程式碼所概述之經解碼頻譜。
圖6及圖7說明通用編碼器/解碼器設定,其中圖6表示無TNS處理之實施,而圖7說明包含TNS處理之實施。當指示相同之參考數字時,圖6及圖7中所示之類似功能對應於其他圖中之類似功能。特定言之,如圖6中所說明,輸入信號160輸入至變換級110,且隨後執行頻譜處理120。特定言之,頻譜處理由藉由參考數字123、110、130、140指示之SNS編碼器反映,從而指示區塊SNS編碼器實施由此等參考數字指示之功能。在SNS編碼器區塊之後,執行量化編碼操作125,且經編碼信號輸入至位元串流中,如圖6中之180所示。接著,位元串流180在解碼器側出現,且在由參考數字210說明之逆量化及解碼後,執行由圖8之區塊210、220、230所說明之SNS解碼器操作,以便最後在逆變換240之後,獲得經解碼輸出信號260。
圖7說明與圖6中類似之表示,但其指示較佳地,相對於解碼器側上之處理順序,在編碼器側之SNS處理之後執行TNS處理,且相應地,在SNS處理212之前執行TNS處理211。
較佳地,使用頻譜雜訊塑形(SNS)及量化/寫碼(見下文之方塊圖)之間的額外工具TNS。TNS (時間雜訊塑形)亦對量化雜訊進行塑形,但亦進行時域塑形(與SNS之頻域塑形相比)。TNS對於含有尖銳起音及語音信號之信號係有用的。
通常在變換與SNS之間應用TNS (例如在AAC中)。然而,較佳地,在經塑形頻譜上應用TNS。此避免了在以低位元率操作編解碼器時由TNS解碼器產生之一些偽聲。
圖10說明由編碼器側之區塊100獲得之頻譜係數或頻譜線至頻帶之較佳細分。特定言之,其指示較低頻帶具有比較高頻帶更少數目之頻譜線。
特定言之,圖10中之x軸對應於頻帶索引且說明64個頻帶之較佳實施例,且y軸對應於說明一個訊框中之320個頻譜係數之頻譜線之索引。特定言之,圖10例示性地說明存在32 kHz之取樣頻率之超寬頻帶(SWB)情況之情境。
對於寬頻帶情況,關於個別頻帶之情境為使得一個訊框導致160個頻譜線且取樣頻率為16 kHz,以使得對於兩種情況,一個訊框具有10毫秒之時間長度。
圖11說明關於在圖1之降低取樣器130中執行之較佳降低取樣或在圖8之比例因數解碼器220中執行或如圖9之區塊222中所說明之對應增加取樣或內插之更多細節。
沿著x軸,給出了頻帶0至63之索引。特定言之,存在自0至63之64個頻帶。
對應於scfQ(i)之16個降低取樣點被說明為豎直線1100。特定言之,圖11說明如何執行尺度參數之特定分組以最終獲得降低取樣之點1100。例示性地,四個頻帶之第一區塊由(0、1、2、3)組成,且此第一區塊之中間點處於由項目1100沿著x軸在索引1.5處指示的1.5處。
相應地,四個頻帶之第二區塊為(4、5、6、7),且第二區塊之中間點為5.5。
窗1110對應於關於先前描述之步驟6降低取樣所論述之窗w(k)。可看出,此等窗以降低取樣之點為中心,且如先前所論述,一個區塊與每一側重疊。
圖9之內插步驟222自16個降低取樣之點恢復64個頻帶。此在圖11中藉由計算隨在1100處圍繞特定線1120指示之兩個降低取樣之點而變的任何線1120之位置看出。以下實例舉例說明了此情況。
第二頻帶之位置係根據其周圍之兩條豎直線(1.5及5.5)計算:2=1.5+1/8x(5.5-1.5)。
對應地,第三頻帶之位置係根據其周圍之兩條豎直線1100 (1.5及5.5):3=1.5+3/8x(5.5-1.5)。
對前兩個頻帶及後兩個頻帶執行特定程序。對於此等頻帶,不能執行內插,此係因為不存在豎直線或對應於自0至63之範圍之外的豎直線1100之值。因此,為了解決此問題,如關於步驟9所描述執行外插:如先前概述之內插用於兩個頻帶0、1 (一方面)以及62及63 (另一方面)。
隨後,論述圖1之轉換器100 (一方面)及圖8之轉換器240 (另一方面)之較佳實施。
特定言之,圖12a說明用於指示在轉換器100內在編碼器側上執行的成框之時間表。圖12b說明編碼器側之圖1之轉換器100之較佳實施,且圖12c說明解碼器側之轉換器240之較佳實施。
編碼器側之轉換器100較佳經實施以執行具有重疊訊框之成框,諸如50%重疊,以使得訊框2與訊框1重疊,且訊框3與訊框2及訊框4重疊。然而,亦可執行其他重疊或非重疊處理,但較佳與MDCT演算法一起執行50%重疊。為此,轉換器100包含分析窗101及隨後連接之頻譜轉換器102,用於執行FFT處理、MDCT處理或任何其他種類之時間 - 頻譜轉換處理,以獲得對應於頻譜表示序列(圖1中作為至轉換器100之後的區塊之輸入)之訊框序列。
對應地,經縮放之頻譜表示輸入至圖8之轉換器240中。特定言之,該轉換器包含時間轉換器241,其實施逆FFT操作、逆MDCT操作或對應之頻譜 - 時間轉換操作。輸出插入至合成窗242中,且合成窗242之輸出被輸入至疊加處理器243中以執行疊加運算,以便最終獲得經解碼音訊信號。特定言之,例如,區塊243中之疊加處理在例如訊框3之後半部分及訊框4之前半部分之對應樣本之間執行逐樣本相加,以便針對如圖12a中之項目1200所指示的訊框3與訊框4之間的重疊獲得音訊取樣值。以逐樣本方式執行類似之疊加運算以獲得經解碼音訊輸出信號之其餘音訊取樣值。
本發明之經編碼音訊信號可儲存於數位儲存媒體或非暫時性儲存媒體上,或可在傳輸媒體(諸如無線傳輸媒體或有線傳輸媒體,諸如網際網路)上傳輸。
儘管已在設備之上下文中描述一些態樣,但顯然,此等態樣亦表示對應方法之描述,其中區塊或裝置對應於方法步驟或方法步驟之特徵。類似地,方法步驟之上下文中所描述的態樣亦表示對應區塊或項目或對應設備之特徵的描述。
取決於某些實施要求,本發明之實施例可在硬體或軟體中實施。可使用其上儲存有與可程式化電腦系統協作(或能夠協作)之電子可讀控制信號,使得執行各別方法之數位儲存媒體(例如,軟碟、DVD、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體)來執行實施。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,該等控制信號能夠與可程式化電腦系統協作,使得進行本文中所描述之方法中之一者。
大體而言,本發明之實施例可實施為具有程式碼之電腦程式產品,當電腦程式產品運行於電腦上時,程式碼操作性地用於執行該等方法中之一者。程式碼可例如儲存於機器可讀載體上。
其他實施例包含用於執行本文中描述的方法中之一者之電腦程式,其儲存於機器可讀載體或非暫時性儲存媒體上。
換言之,本發明方法之實施例因此為電腦程式,其具有用於在電腦程式於電腦上執行時執行本文中所描述之方法中之一者的程式碼。
因此,本發明方法之另一實施例為資料載體(或數位儲存媒體,或電腦可讀媒體),其包含記錄於其上的用於執行本文中所描述之方法中之一者的電腦程式。
因此,本發明之方法之另一實施例為表示用於執行本文中所描述之方法中的一者之電腦程式之資料串流或信號序列。資料流或信號序列可(例如)經組配以經由資料通訊連接(例如,經由網際網路)而傳送。
另一實施例包含處理構件,例如經組配或經調適以執行本文中所描述之方法中的一者的電腦或可規劃邏輯裝置。
另一實施例包含上面安裝有用於執行本文中所描述之方法中之一者的電腦程式之電腦。
在一些實施例中,可規劃邏輯裝置(例如,場可規劃閘陣列)可用以執行本文中所描述之方法的功能性中之一些或全部。在一些實施例中,場可程式化閘陣列可與微處理器協作,以便執行本文中所描述之方法中之一者。通常,該等方法較佳由任何硬體設備來執行。
上述實施例僅說明本發明之原理。應理解,對本文中所描述之佈置及細節的修改及變化將對本領域熟習此項技術者顯而易見。因此,意圖為僅受到接下來之申請專利範圍之範疇限制,而不受到藉由本文中之實施例之描述及解釋所呈現的特定細節限制。
參考文獻
參考文獻
[1] ISO/IEC 14496-3:2001; Information technology - Coding of audio-visual objects - Part 3: Audio.
[2] 3GPP TS 26.403; General audio codec audio processing functions; Enhanced aacPlus general audio codec; Encoder specification; Advanced Audio Coding (AAC) part.
[3] ISO/IEC 23003-3; Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding.
[4] 3GPP TS 26.445; Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.
100、240‧‧‧轉換器
101‧‧‧分析窗/分析開窗器
102‧‧‧時間-頻譜轉換器
110‧‧‧尺度參數計算器
111、112、113、114、115、122、123、124、141、222、243‧‧‧區塊
120、125、230‧‧‧頻譜處理器
121‧‧‧內插器
129、145、146、171、172、173、1120‧‧‧線
130‧‧‧降低取樣器
131、132、133、134‧‧‧步驟
140‧‧‧尺度參數編碼器
142、221‧‧‧解碼器碼簿
144‧‧‧箭頭
150‧‧‧輸出介面
160‧‧‧音訊信號/輸入信號
170‧‧‧經編碼輸出信號
180‧‧‧位元串流
200‧‧‧輸入介面
210‧‧‧頻譜解碼器
211‧‧‧TNS解碼器處理區塊
212‧‧‧頻譜塑形區塊
220‧‧‧比例因數/參數解碼器
223‧‧‧線性域轉換器
241‧‧‧時間轉換器
242‧‧‧合成窗
250‧‧‧經編碼音訊信號
260‧‧‧經解碼音訊信號
1100‧‧‧豎直線/降低取樣之點
1110‧‧‧窗
隨後參考附圖更詳細地描述本發明之較佳實施例,其中:
圖1為用於編碼音訊信號之設備的方塊圖;
圖2為圖1之比例因數計算器之較佳實施之示意性表示;
圖3為圖1之降低取樣器之較佳實施之示意性表示;
圖4為圖4之比例因數編碼器之示意性表示;
圖5為圖1之頻譜處理器之示意性說明;
圖6一方面說明編碼器之通用表示,且另一方面說明實施頻譜雜訊塑形(SNS)之解碼器之通用表示;
圖7一方面說明編碼器側之更詳細表示且另一方面說明解碼器側之更詳細表示,其中時間雜訊塑形(TNS)與頻譜雜訊塑形(SNS)一起實施;
圖8說明用於解碼經編碼音訊信號之設備的方塊圖;
圖9說明說明圖8之比例因數解碼器、頻譜處理器及頻譜解碼器之細節的示意性說明;
圖10說明將頻譜細分為64個頻帶;
圖11一方面說明降低取樣操作之示意性說明且另一方面說明內插操作之示意性說明;
圖12a說明具有重疊訊框之時域音訊信號;
圖12b說明圖1之轉換器之實施;及
圖12c說明圖8之轉換器之示意性說明。
Claims (41)
- 一種用於編碼一音訊信號之設備,其包含: 一轉換器,其用於將該音訊信號轉換為一頻譜表示; 一尺度參數計算器,其用於依據該頻譜表示計算第一組尺度參數; 一降低取樣器,其用於降低取樣該第一組尺度參數以獲得第二組尺度參數,其中該第二組尺度參數中的尺度參數之一第二數目低於該第一組尺度參數中的尺度參數之一第一數目; 一尺度參數編碼器,其用於產生該第二組尺度參數之一經編碼表示; 一頻譜處理器,其用於使用第三組尺度參數處理該頻譜表示,該第三組尺度參數具有大於尺度參數之該第二數目的第三數目個尺度參數,其中該頻譜處理器經組配以使用該第一組尺度參數或使用一內插操作自該第二組尺度參數或自該第二組尺度參數之該經編碼表示導出該第三組尺度參數;及 一輸出介面,其用於產生包含關於該頻譜表示之該經編碼表示的資訊及關於該第二組尺度參數之該經編碼表示的資訊之一經編碼輸出信號。
- 如請求項1之設備, 其中該尺度參數計算器經組配以 針對該頻譜表示之複數個頻帶中的每一頻帶在一線性域中計算一振幅相關量度以獲得第一組線性域量度; 將該第一組線性域量度變換至一類對數域中以獲得第一組類對數域量度;及 其中該降低取樣器經組配以在該類對數域中降低取樣該第一組比例因數以在該類對數域中獲得該第二組比例因數。
- 如請求項2之設備, 其中該頻譜處理器經組配以使用該線性域中的該第一組尺度參數用於處理該頻譜表示或將該第二組尺度參數內插於該類對數域中以獲得經內插類對數域比例因數且將該類對數域比例因數變換至一線性域中以獲得該第三組尺度參數。
- 如前述請求項中任一項之設備, 其中該尺度參數計算器經組配以計算非均勻頻帶之該第一組尺度參數,且 其中該降低取樣器經組配以藉由組合具有該第一組中的第一預定義數目個頻率鄰近尺度參數的一第一群組來降低取樣該第一組尺度參數以獲得該第二組之一第一比例因數,且其中該降低取樣器經組配以藉由組合具有該第一組中之第二預定義數目個頻率鄰近尺度參數的一第二群組來降低取樣該第一組尺度參數以獲得該第二組之一第二尺度參數,其中該第二預定義數目等於該第一預定義數目,且其中該第二群組具有的成員不同於該第一預定義群組之成員。
- 如請求項4之設備,其中該第一組中的頻率鄰近尺度參數之該第一群組與該第一組中的頻率鄰近尺度參數之該第二群組具有共同的該第一組中的至少一個尺度參數,以使得該第一群組與該第二群組彼此重疊。
- 如前述請求項中任一項之設備,其中該降低取樣器經組配以使用一群組第一尺度參數之間的一平均運算,該群組具有兩個或更多個成員。
- 如請求項6之設備, 其中該平均運算為經組配以使得該群組之一中間的一尺度參數的權重高於該群組之一邊緣處的一尺度參數之一加權平均運算。
- 如前述請求項中任一項之設備, 其中該降低取樣器經組配以執行一均值移除,以使得該第二組尺度參數無均值。
- 如前述請求項中任一項之設備, 其中該降低取樣器經組配以使用低於1.0且大於0.0之一縮放因數在一類對數域中執行一縮放操作。
- 如前述請求項中任一項之設備, 其中該尺度參數編碼器經組配以使用一向量量化器量化且編碼該第二組,其中該經編碼表示包含用於一或多個向量量化器碼簿之一或多個索引。
- 如前述請求項中任一項之設備, 其中該比例因數編碼器經組配以提供與該經編碼表示相關聯的第二組經量化比例因數,且 其中該頻譜處理器經組配以自該第二組經量化比例因數導出該第二組比例因數。
- 如前述請求項中任一項之設備, 其中該頻譜處理器經組配以判定此第三組尺度參數,以使得該第三數目等於該第一數目。
- 如前述請求項中任一項之設備, 其中該頻譜處理器經組配以基於一經量化比例因數及該經量化比例因數與相對於頻率按經量化比例因數之一遞升順序的下一經量化比例因數之間的一差判定一經內插比例因數。
- 如請求項13之設備, 其中該頻譜處理器經組配以依據該經量化比例因數及該差判定至少兩個經內插比例因數,其中對於該兩個經內插比例因數中之每一者,使用一不同加權因數。
- 如請求項14之設備, 其中該等加權因數隨著與該等經內插比例因數相關聯的頻率之增大而增大。
- 如前述請求項中任一項之設備, 其中該頻譜處理器經組配以在一類對數域中執行該內插操作,且 將經內插比例因數轉換至一線性域中以獲得該第三組尺度參數。
- 如前述請求項中任一項之設備, 其中該尺度參數計算器經組配以針對每一頻帶計算一振幅相關量度以獲得一組振幅相關量度,且 平滑化能量相關量度以獲得一組經平滑化之振幅相關量度作為該第一組比例因數。
- 如前述請求項中任一項之設備, 其中該尺度參數計算器經組配以針對每一頻帶計算一振幅相關量度以獲得一組振幅相關量度,且 對該組振幅相關量度執行一預加重操作,其中該預加重操作使得低頻振幅相對於高頻振幅被加重。
- 如前述請求項中任一項之設備, 其中該尺度參數計算器經組配以針對每一頻帶計算一振幅相關量度以獲得一組振幅相關量度,且 執行一雜訊底限添加操作,其中一雜訊底限係依據自該頻譜表示之兩個或更多個頻帶作為一均值導出的一振幅相關量度加以計算。
- 如前述請求項中任一項之設備,其中該比例因數計算器經組配以執行一群操作中之至少一者,該群操作包含:計算複數個頻帶之振幅相關量度、執行一平滑化操作、執行一預加重操作、執行一雜訊底限添加操作,及執行一類對數域轉換操作以獲得該第一組尺度參數。
- 如前述請求項中任一項之設備, 其中該頻譜處理器經組配以使用該第三組比例因數對該頻譜表示中之頻譜值進行加權以獲得一經加權頻譜表示,且將一時間雜訊塑形(TNS)操作應用於該經加權頻譜表示,且 其中該頻譜處理器經組配以量化且編碼該時間雜訊塑形操作之一結果,以獲得該頻譜表示之該經編碼表示。
- 如前述請求項中任一項之設備, 其中該轉換器包含一分析開窗器以產生經開窗音訊樣本之一區塊序列,且包含一時間-頻譜轉換器以將經開窗音訊樣本之該等區塊轉換為頻譜表示之一序列,一頻譜表示為一頻譜訊框。
- 如前述請求項中任一項之設備, 其中該轉換器經組配以應用一MDCT (經修改離散餘弦變換)操作以自時域樣本之一區塊獲得一MDCT頻譜,或 其中該比例因數計算器經組配以針對每一頻帶計算該頻帶之一能量,該計算包含對頻譜線求平方、將平方頻譜線相加且將該等平方頻譜線除以該頻帶中的線之一數目,或 其中該頻譜處理器經組配以對該頻譜表示之頻譜值進行加權或對根據一頻帶方案自該頻譜表示導出的頻譜值進行加權,該頻帶方案與該比例因數計算器用於計算該第一組比例因數之該頻帶方案相同,或 其中頻帶之一數目為64,該第一數目為64,該第二數目為16,且第三數目為64,或 其中該頻譜處理器經組配以計算所有頻帶之一全域增益且在涉及該第三數目個比例因數的一縮放之後使用一純量量化器量化該等頻譜值,其中該頻譜處理器經組配以取決於該全域增益而控制該純量量化器之一步長。
- 一種用於編碼一音訊信號之方法,其包含: 將該音訊信號轉換為一頻譜表示; 依據該頻譜表示計算第一組尺度參數; 降低取樣該第一組尺度參數以獲得第二組尺度參數,其中該第二組尺度參數中的尺度參數之一第二數目低於該第一組尺度參數中的尺度參數之一第一數目; 產生該第二組尺度參數之一經編碼表示; 使用第三組尺度參數處理該頻譜表示,該第三組尺度參數具有大於尺度參數之該第二數目的第三數目個尺度參數,其中該處理使用該第一組尺度參數或使用一內插操作自該第二組尺度參數或自該第二組尺度參數之該經編碼表示導出該第三組尺度參數;及 產生包含關於該頻譜表示之該經編碼表示的資訊及關於該第二組尺度參數之該經編碼表示的資訊之一經編碼輸出信號。
- 一種用於解碼一經編碼音訊信號之設備,該經編碼音訊信號包含關於一經編碼頻譜表示之資訊及關於第二組尺度參數之一經編碼表示的資訊,該設備包含: 一輸入介面,其用於接收該經編碼信號且提取該經編碼頻譜表示及該第二組尺度參數之該經編碼表示; 一頻譜解碼器,其用於解碼該經編碼頻譜表示以獲得一經解碼頻譜表示; 一尺度參數解碼器,其用於解碼該經編碼第二組尺度參數以獲得第一組尺度參數,其中該第二組中的尺度參數之數目小於該第一組中的尺度參數之一數目; 一頻譜處理器,其用於使用該第一組尺度參數處理該經解碼頻譜表示以獲得一經縮放頻譜表示;及 一轉換器,其用於轉換該經縮放頻譜表示以獲得一經解碼音訊信號。
- 如請求項25之設備, 其中該頻譜尺度參數解碼器經組配以將該第二組尺度參數內插於一類對數域中以獲得經內插類對數域尺度參數。
- 如請求項25或26之設備, 其中該尺度參數解碼器經組配以使用一向量解量化器解碼該經編碼頻譜表示,從而對於一或多個量化索引提供該第二組經解碼尺度參數,且 其中該尺度參數解碼器經組配以內插該第二組經解碼尺度參數以獲得該第一組尺度參數。
- 如請求項25至27中任一項之設備, 其中該尺度參數解碼器經組配以基於該經量化尺度參數及該經量化尺度參數與相對於頻率按經量化尺度參數之一遞升順序的下一經量化尺度參數之間的一差判定一經內插尺度參數。
- 如請求項28之設備, 其中該尺度參數解碼器經組配以依據該經量化尺度參數及該差判定至少兩個經內插尺度參數,其中對於該兩個經內插尺度參數中之每一者之該產生,使用一不同加權因數。
- 如請求項29之設備, 其中該尺度參數解碼器經組配以使用該等加權因數,其中該等加權因數隨著與該等經內插尺度參數相關聯的頻率之增大而增大。
- 如請求項25至30中任一項之設備,其中該尺度參數解碼器經組配以在一類對數域中執行該內插操作,且 將經內插尺度參數轉換至一線性域中以獲得該第一組尺度參數,其中該類對數域為具有一基數10或一基數2之一對數域。
- 如請求項25至31中任一項之設備, 其中該頻譜處理器經組配以 將一時間雜訊塑形(TNS)解碼器操作應用於該經解碼頻譜表示以獲得一TNS經解碼頻譜表示,且 使用該第一組尺度參數對該TNS經解碼頻譜表示進行加權。
- 如請求項25至32中任一項之設備, 其中該尺度參數解碼器經組配以內插經量化尺度參數,以使得經內插經量化尺度參數具有在使用以下方程式獲得的值之±20%之一範圍內的值: 其中scfQ(n)為對於一索引n之該經量化尺度參數,且其中scfQint(k)為對於一索引k之該經內插尺度參數。
- 如請求項25至33中任一項之設備, 其中該尺度參數解碼器經組配以執行一內插以獲得在頻率上在該第一組尺度參數內之尺度參數,且執行一外插操作以獲得在頻率上在該第一組尺度參數之邊緣處的尺度參數。
- 如請求項34之設備, 其中該尺度參數解碼器經組配以相對於遞升頻帶藉由一外插操作至少判定該第一組尺度參數之一第一尺度參數及一最末尺度參數。
- 如請求項25至35中任一項之設備, 其中該尺度參數解碼器經組配以執行一內插及自一類對數域至一線性域之一後續變換,其中該類對數域為一對數2域,且其中該線性域的值係使用一基數為二之一取冪加以計算。
- 如請求項25至36中任一項之設備, 其中該經編碼音訊信號包含關於該經編碼頻譜表示之一全域增益的資訊, 其中該頻譜解碼器經組配以使用該全域增益解量化該經編碼頻譜表示,且 其中該頻譜處理器經組配以藉由對每一經解量化頻譜值或使用一頻帶之該第一組尺度參數中之相同尺度參數自該頻帶之該經解量化頻譜表示導出的每一值進行加權來處理該經解量化頻譜表示或自該經解量化頻譜表示導出之值。
- 如請求項25至37中任一項之設備, 其中該轉換器經組配以 轉換時間-後續經縮放頻譜表示; 合成窗轉換時間-後續經縮放頻譜表示,且 疊加經開窗之經轉換表示以獲得一經解碼音訊信號。
- 如請求項25至38中任一項之設備, 其中該轉換器包含一逆經修改離散餘弦變換(MDCT)轉換器,或 其中該頻譜處理器經組配以使頻譜值乘以該第一組尺度參數中之對應尺度參數,或 其中該第二數目為16,且該第一數目為64,或 其中該第一組中之每一尺度參數與一頻帶相關聯,其中對應於較高頻率之頻帶比與較低頻率相關聯之頻帶寬,以使得該第一組尺度參數中與一高頻帶相關聯的一尺度參數較之於與一較低頻帶相關聯的一尺度參數用於加權較高數目個頻譜值,其中與該較低頻帶相關聯之該尺度參數用於加權該低頻帶中的較低數目個頻譜值。
- 一種用於解碼一經編碼音訊信號之方法,該經編碼音訊信號包含關於一經編碼頻譜表示之資訊及關於第二組尺度參數之一經編碼表示的資訊,該方法包含: 接收該經編碼信號且提取該經編碼頻譜表示及該第二組尺度參數之該經編碼表示; 解碼該經編碼頻譜表示以獲得一經解碼頻譜表示; 解碼該經編碼第二組尺度參數以獲得第一組尺度參數,其中該第二組中的尺度參數之數目小於該第一組中的尺度參數之一數目; 使用該第一組尺度參數處理該經解碼頻譜表示以獲得一經縮放頻譜表示;及 轉換該經縮放頻譜表示以獲得一經解碼音訊信號。
- 一種電腦程式,其用於在於一電腦或一處理器上執行時執行如請求項24之方法或如請求項40之方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
WOPCT/EP2017/078921 | 2017-11-10 | ||
PCT/EP2017/078921 WO2019091573A1 (en) | 2017-11-10 | 2017-11-10 | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201923748A true TW201923748A (zh) | 2019-06-16 |
TWI713927B TWI713927B (zh) | 2020-12-21 |
Family
ID=60388039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107139706A TWI713927B (zh) | 2017-11-10 | 2018-11-08 | 使用尺度參數之降低取樣或內插來編碼及解碼音訊信號之設備及方法 |
Country Status (15)
Country | Link |
---|---|
US (1) | US11043226B2 (zh) |
EP (2) | EP4375995A1 (zh) |
JP (1) | JP7073491B2 (zh) |
KR (1) | KR102423959B1 (zh) |
CN (1) | CN111357050B (zh) |
AR (2) | AR113483A1 (zh) |
AU (1) | AU2018363652B2 (zh) |
BR (1) | BR112020009323A2 (zh) |
CA (2) | CA3182037A1 (zh) |
MX (1) | MX2020004790A (zh) |
RU (1) | RU2762301C2 (zh) |
SG (1) | SG11202004170QA (zh) |
TW (1) | TWI713927B (zh) |
WO (2) | WO2019091573A1 (zh) |
ZA (1) | ZA202002077B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI793666B (zh) * | 2020-07-07 | 2023-02-21 | 弗勞恩霍夫爾協會 | 對多頻道音頻信號的頻道使用比例參數的聯合編碼的音頻解碼器、音頻編碼器和相關方法以及電腦程式 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402905B (zh) * | 2018-12-28 | 2023-05-26 | 南京中感微电子有限公司 | 音频数据恢复方法、装置及蓝牙设备 |
US11527252B2 (en) | 2019-08-30 | 2022-12-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | MDCT M/S stereo |
US20210192019A1 (en) * | 2019-12-18 | 2021-06-24 | Booz Allen Hamilton Inc. | System and method for digital steganography purification |
CN115050378B (zh) * | 2022-05-19 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 音频编解码方法及相关产品 |
Family Cites Families (116)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3639753A1 (de) * | 1986-11-21 | 1988-06-01 | Inst Rundfunktechnik Gmbh | Verfahren zum uebertragen digitalisierter tonsignale |
CA2002015C (en) * | 1988-12-30 | 1994-12-27 | Joseph Lindley Ii Hall | Perceptual coding of audio signals |
US5012517A (en) * | 1989-04-18 | 1991-04-30 | Pacific Communication Science, Inc. | Adaptive transform coder having long term predictor |
US5233660A (en) | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
US5581653A (en) * | 1993-08-31 | 1996-12-03 | Dolby Laboratories Licensing Corporation | Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder |
JP3402748B2 (ja) | 1994-05-23 | 2003-05-06 | 三洋電機株式会社 | 音声信号のピッチ周期抽出装置 |
DE69619284T3 (de) | 1995-03-13 | 2006-04-27 | Matsushita Electric Industrial Co., Ltd., Kadoma | Vorrichtung zur Erweiterung der Sprachbandbreite |
US5781888A (en) | 1996-01-16 | 1998-07-14 | Lucent Technologies Inc. | Perceptual noise shaping in the time domain via LPC prediction in the frequency domain |
WO1997027578A1 (en) | 1996-01-26 | 1997-07-31 | Motorola Inc. | Very low bit rate time domain speech analyzer for voice messaging |
US5812971A (en) | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
KR100261253B1 (ko) | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치 |
GB2326572A (en) | 1997-06-19 | 1998-12-23 | Softsound Limited | Low bit rate audio coder and decoder |
AU9404098A (en) * | 1997-09-23 | 1999-04-12 | Voxware, Inc. | Scalable and embedded codec for speech and audio signals |
US6507814B1 (en) | 1998-08-24 | 2003-01-14 | Conexant Systems, Inc. | Pitch determination using speech classification and prior pitch estimation |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
US7099830B1 (en) | 2000-03-29 | 2006-08-29 | At&T Corp. | Effective deployment of temporal noise shaping (TNS) filters |
US6735561B1 (en) | 2000-03-29 | 2004-05-11 | At&T Corp. | Effective deployment of temporal noise shaping (TNS) filters |
US7395209B1 (en) | 2000-05-12 | 2008-07-01 | Cirrus Logic, Inc. | Fixed point audio decoding system and method |
US7353168B2 (en) | 2001-10-03 | 2008-04-01 | Broadcom Corporation | Method and apparatus to eliminate discontinuities in adaptively filtered signals |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
US7447631B2 (en) | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
US7433824B2 (en) | 2002-09-04 | 2008-10-07 | Microsoft Corporation | Entropy coding by adapting coding between level and run-length/level modes |
US7502743B2 (en) * | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
ATE339759T1 (de) | 2003-02-11 | 2006-10-15 | Koninkl Philips Electronics Nv | Audiocodierung |
KR20030031936A (ko) | 2003-02-13 | 2003-04-23 | 배명진 | 피치변경법을 이용한 단일 음성 다중 목소리 합성기 |
WO2005027096A1 (en) | 2003-09-15 | 2005-03-24 | Zakrytoe Aktsionernoe Obschestvo Intel | Method and apparatus for encoding audio |
US7009533B1 (en) * | 2004-02-13 | 2006-03-07 | Samplify Systems Llc | Adaptive compression and decompression of bandlimited signals |
DE102004009949B4 (de) | 2004-03-01 | 2006-03-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes |
DE102004009954B4 (de) | 2004-03-01 | 2005-12-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals |
EP1914722B1 (en) * | 2004-03-01 | 2009-04-29 | Dolby Laboratories Licensing Corporation | Multichannel audio decoding |
AU2006232364B2 (en) | 2005-04-01 | 2010-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband speech coding |
US7546240B2 (en) | 2005-07-15 | 2009-06-09 | Microsoft Corporation | Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition |
US7539612B2 (en) * | 2005-07-15 | 2009-05-26 | Microsoft Corporation | Coding and decoding scale factor information |
KR100888474B1 (ko) | 2005-11-21 | 2009-03-12 | 삼성전자주식회사 | 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법 |
US7805297B2 (en) | 2005-11-23 | 2010-09-28 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
US8255207B2 (en) | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
WO2007102782A2 (en) | 2006-03-07 | 2007-09-13 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods and arrangements for audio coding and decoding |
US8150065B2 (en) | 2006-05-25 | 2012-04-03 | Audience, Inc. | System and method for processing an audio signal |
WO2007138511A1 (en) | 2006-05-30 | 2007-12-06 | Koninklijke Philips Electronics N.V. | Linear predictive coding of an audio signal |
US8015000B2 (en) | 2006-08-03 | 2011-09-06 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
DE102006049154B4 (de) | 2006-10-18 | 2009-07-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Kodierung eines Informationssignals |
EP2099026A4 (en) | 2006-12-13 | 2011-02-23 | Panasonic Corp | POST-FILTER AND FILTERING METHOD |
EP2015293A1 (en) | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
JP5618826B2 (ja) | 2007-06-14 | 2014-11-05 | ヴォイスエイジ・コーポレーション | Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法 |
US20110116542A1 (en) | 2007-08-24 | 2011-05-19 | France Telecom | Symbol plane encoding/decoding with dynamic calculation of probability tables |
EP2186087B1 (en) * | 2007-08-27 | 2011-11-30 | Telefonaktiebolaget L M Ericsson (PUBL) | Improved transform coding of speech and audio signals |
US9659568B2 (en) | 2007-12-31 | 2017-05-23 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
EP2077551B1 (en) * | 2008-01-04 | 2011-03-02 | Dolby Sweden AB | Audio encoder and decoder |
WO2009150290A1 (en) | 2008-06-13 | 2009-12-17 | Nokia Corporation | Method and apparatus for error concealment of encoded audio data |
BRPI0910784B1 (pt) | 2008-07-11 | 2022-02-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | Codificador e decodificador de áudio para estruturas de codificação de sinais de áudio amostrados |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
PL2346029T3 (pl) | 2008-07-11 | 2013-11-29 | Fraunhofer Ges Forschung | Koder sygnału audio, sposób kodowania sygnału audio i odpowiadający mu program komputerowy |
EP2144231A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
US8577673B2 (en) | 2008-09-15 | 2013-11-05 | Huawei Technologies Co., Ltd. | CELP post-processing for music signals |
MX2011003824A (es) | 2008-10-08 | 2011-05-02 | Fraunhofer Ges Forschung | Esquema de codificacion/decodificacion de audio conmutado de resolucion multiple. |
BRPI1005300B1 (pt) | 2009-01-28 | 2021-06-29 | Fraunhofer - Gesellschaft Zur Forderung Der Angewandten Ten Forschung E.V. | Codificador de áudio, decodificador de áudio, informações de áudio codificado e métodos para codificar e decodificar um sinal de áudio com base em uma informação de áudio codificado e em uma informação de áudio de entrada. |
JP4932917B2 (ja) | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
FR2944664A1 (fr) | 2009-04-21 | 2010-10-22 | Thomson Licensing | Dispositif et procede de traitement d'images |
US8352252B2 (en) | 2009-06-04 | 2013-01-08 | Qualcomm Incorporated | Systems and methods for preventing the loss of information within a speech frame |
US8428938B2 (en) | 2009-06-04 | 2013-04-23 | Qualcomm Incorporated | Systems and methods for reconstructing an erased speech frame |
KR20100136890A (ko) | 2009-06-19 | 2010-12-29 | 삼성전자주식회사 | 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법 |
PL2473995T3 (pl) | 2009-10-20 | 2015-06-30 | Fraunhofer Ges Forschung | Koder sygnału audio, dekoder sygnału audio, sposób dostarczania zakodowanej reprezentacji treści audio, sposób dostarczania dekodowanej reprezentacji treści audio oraz program komputerowy do wykorzystania w zastosowaniach z małym opóźnieniem |
TWI451403B (zh) | 2009-10-20 | 2014-09-01 | Fraunhofer Ges Forschung | 音訊編碼器、音訊解碼器、用以將音訊資訊編碼之方法、用以將音訊資訊解碼之方法及使用區域從屬算術編碼對映規則之電腦程式 |
US8207875B2 (en) | 2009-10-28 | 2012-06-26 | Motorola Mobility, Inc. | Encoder that optimizes bit allocation for information sub-parts |
US7978101B2 (en) | 2009-10-28 | 2011-07-12 | Motorola Mobility, Inc. | Encoder and decoder using arithmetic stage to compress code space that is not fully utilized |
US9020812B2 (en) | 2009-11-24 | 2015-04-28 | Lg Electronics Inc. | Audio signal processing method and device |
EP2524371B1 (en) | 2010-01-12 | 2016-12-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a hash table describing both significant state values and interval boundaries |
US20110196673A1 (en) | 2010-02-11 | 2011-08-11 | Qualcomm Incorporated | Concealing lost packets in a sub-band coding decoder |
EP2375409A1 (en) | 2010-04-09 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction |
FR2961980A1 (fr) | 2010-06-24 | 2011-12-30 | France Telecom | Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique |
KR101696632B1 (ko) | 2010-07-02 | 2017-01-16 | 돌비 인터네셔널 에이비 | 선택적인 베이스 포스트 필터 |
EP2596494B1 (en) | 2010-07-20 | 2020-08-05 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Audio decoder, audio decoding method and computer program |
US8738385B2 (en) | 2010-10-20 | 2014-05-27 | Broadcom Corporation | Pitch-based pre-filtering and post-filtering for compression of audio signals |
EP2676266B1 (en) | 2011-02-14 | 2015-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Linear prediction based coding scheme using spectral domain noise shaping |
US9270807B2 (en) | 2011-02-23 | 2016-02-23 | Digimarc Corporation | Audio localization using audio signal encoding and recognition |
KR101767175B1 (ko) | 2011-03-18 | 2017-08-10 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 코딩에서의 프레임 요소 길이 전송 |
MX2013012301A (es) | 2011-04-21 | 2013-12-06 | Samsung Electronics Co Ltd | Aparato para cuantificar coeficientes de codificacion predictiva lineal, aparato de codificacion de sonido, aparato para decuantificar coeficientes de codificacion predictiva lineal, aparato de decodificacion de sonido y dispositivo electronico para los mismos. |
WO2012152764A1 (en) | 2011-05-09 | 2012-11-15 | Dolby International Ab | Method and encoder for processing a digital stereo audio signal |
FR2977439A1 (fr) | 2011-06-28 | 2013-01-04 | France Telecom | Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard. |
FR2977969A1 (fr) | 2011-07-12 | 2013-01-18 | France Telecom | Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee |
WO2013149672A1 (en) | 2012-04-05 | 2013-10-10 | Huawei Technologies Co., Ltd. | Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder |
US9305567B2 (en) | 2012-04-23 | 2016-04-05 | Qualcomm Incorporated | Systems and methods for audio signal processing |
US9558750B2 (en) | 2012-06-08 | 2017-01-31 | Samsung Electronics Co., Ltd. | Method and apparatus for concealing frame error and method and apparatus for audio decoding |
GB201210373D0 (en) | 2012-06-12 | 2012-07-25 | Meridian Audio Ltd | Doubly compatible lossless audio sandwidth extension |
FR2992766A1 (fr) | 2012-06-29 | 2014-01-03 | France Telecom | Attenuation efficace de pre-echos dans un signal audionumerique |
CN102779526B (zh) | 2012-08-07 | 2014-04-16 | 无锡成电科大科技发展有限公司 | 语音信号中基音提取及修正方法 |
US9406307B2 (en) | 2012-08-19 | 2016-08-02 | The Regents Of The University Of California | Method and apparatus for polyphonic audio signal prediction in coding and networking systems |
US9293146B2 (en) * | 2012-09-04 | 2016-03-22 | Apple Inc. | Intensity stereo coding in advanced audio coding |
US9280975B2 (en) | 2012-09-24 | 2016-03-08 | Samsung Electronics Co., Ltd. | Frame error concealment method and apparatus, and audio decoding method and apparatus |
US9401153B2 (en) | 2012-10-15 | 2016-07-26 | Digimarc Corporation | Multi-mode audio recognition and auxiliary data encoding and decoding |
TWI530941B (zh) | 2013-04-03 | 2016-04-21 | 杜比實驗室特許公司 | 用於基於物件音頻之互動成像的方法與系統 |
AU2014283389B2 (en) | 2013-06-21 | 2017-10-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse resynchronization |
EP2830064A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
EP2830055A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Context-based entropy coding of sample values of a spectral envelope |
CN105706166B (zh) | 2013-10-31 | 2020-07-14 | 弗劳恩霍夫应用研究促进协会 | 对比特流进行解码的音频解码器设备和方法 |
PL3285256T3 (pl) * | 2013-10-31 | 2020-01-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dekoder audio i sposób dostarczania zdekodowanej informacji audio z wykorzystaniem ukrywania błędów na bazie sygnału pobudzenia w dziedzinie czasu |
CA2928882C (en) | 2013-11-13 | 2018-08-14 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Encoder for encoding an audio signal, audio transmission system and method for determining correction values |
GB2524333A (en) | 2014-03-21 | 2015-09-23 | Nokia Technologies Oy | Audio signal payload |
US9396733B2 (en) | 2014-05-06 | 2016-07-19 | University Of Macau | Reversible audio data hiding |
NO2780522T3 (zh) | 2014-05-15 | 2018-06-09 | ||
EP2963648A1 (en) | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio processor and method for processing an audio signal using vertical phase correction |
US9685166B2 (en) | 2014-07-26 | 2017-06-20 | Huawei Technologies Co., Ltd. | Classification between time-domain coding and frequency domain coding |
EP2980799A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an audio signal using a harmonic post-filter |
EP2980796A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for processing an audio signal, audio decoder, and audio encoder |
EP2980798A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Harmonicity-dependent controlling of a harmonic filter tool |
EP2988300A1 (en) * | 2014-08-18 | 2016-02-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Switching of sampling rates at audio processing devices |
US9886963B2 (en) | 2015-04-05 | 2018-02-06 | Qualcomm Incorporated | Encoder selection |
US9978400B2 (en) | 2015-06-11 | 2018-05-22 | Zte Corporation | Method and apparatus for frame loss concealment in transform domain |
US10847170B2 (en) | 2015-06-18 | 2020-11-24 | Qualcomm Incorporated | Device and method for generating a high-band signal from non-linearly processed sub-ranges |
US9837089B2 (en) | 2015-06-18 | 2017-12-05 | Qualcomm Incorporated | High-band signal generation |
KR20170000933A (ko) | 2015-06-25 | 2017-01-04 | 한국전기연구원 | 시간 지연 추정을 이용한 풍력 터빈의 피치 제어 시스템 |
US9830921B2 (en) | 2015-08-17 | 2017-11-28 | Qualcomm Incorporated | High-band target signal control |
US9978381B2 (en) | 2016-02-12 | 2018-05-22 | Qualcomm Incorporated | Encoding of multiple audio signals |
US10283143B2 (en) | 2016-04-08 | 2019-05-07 | Friday Harbor Llc | Estimating pitch of harmonic signals |
CN107945809B (zh) | 2017-05-02 | 2021-11-09 | 大连民族大学 | 一种复调音乐多音高估计方法 |
-
2017
- 2017-11-10 WO PCT/EP2017/078921 patent/WO2019091573A1/en active Application Filing
-
2018
- 2018-11-05 MX MX2020004790A patent/MX2020004790A/es unknown
- 2018-11-05 JP JP2020524593A patent/JP7073491B2/ja active Active
- 2018-11-05 WO PCT/EP2018/080137 patent/WO2019091904A1/en active Search and Examination
- 2018-11-05 EP EP24166212.1A patent/EP4375995A1/en active Pending
- 2018-11-05 KR KR1020207015511A patent/KR102423959B1/ko active IP Right Grant
- 2018-11-05 AU AU2018363652A patent/AU2018363652B2/en active Active
- 2018-11-05 EP EP18793692.7A patent/EP3707709B1/en active Active
- 2018-11-05 BR BR112020009323-8A patent/BR112020009323A2/pt unknown
- 2018-11-05 CN CN201880072933.8A patent/CN111357050B/zh active Active
- 2018-11-05 CA CA3182037A patent/CA3182037A1/en active Pending
- 2018-11-05 SG SG11202004170QA patent/SG11202004170QA/en unknown
- 2018-11-05 RU RU2020119052A patent/RU2762301C2/ru active
- 2018-11-05 CA CA3081634A patent/CA3081634C/en active Active
- 2018-11-08 TW TW107139706A patent/TWI713927B/zh active
- 2018-11-09 AR ARP180103275A patent/AR113483A1/es active IP Right Grant
-
2020
- 2020-04-27 US US16/859,106 patent/US11043226B2/en active Active
- 2020-05-04 ZA ZA2020/02077A patent/ZA202002077B/en unknown
-
2022
- 2022-01-27 AR ARP220100163A patent/AR124710A2/es unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI793666B (zh) * | 2020-07-07 | 2023-02-21 | 弗勞恩霍夫爾協會 | 對多頻道音頻信號的頻道使用比例參數的聯合編碼的音頻解碼器、音頻編碼器和相關方法以及電腦程式 |
Also Published As
Publication number | Publication date |
---|---|
EP3707709C0 (en) | 2024-04-24 |
EP3707709A1 (en) | 2020-09-16 |
AU2018363652B2 (en) | 2021-09-16 |
JP7073491B2 (ja) | 2022-05-23 |
US11043226B2 (en) | 2021-06-22 |
WO2019091573A1 (en) | 2019-05-16 |
RU2762301C2 (ru) | 2021-12-17 |
KR20200077574A (ko) | 2020-06-30 |
CA3182037A1 (en) | 2019-05-16 |
ZA202002077B (en) | 2021-10-27 |
AR113483A1 (es) | 2020-05-06 |
CA3081634A1 (en) | 2019-05-16 |
TWI713927B (zh) | 2020-12-21 |
MX2020004790A (es) | 2020-08-13 |
EP3707709B1 (en) | 2024-04-24 |
US20200294518A1 (en) | 2020-09-17 |
RU2020119052A (ru) | 2021-12-10 |
BR112020009323A2 (pt) | 2020-10-27 |
CN111357050A (zh) | 2020-06-30 |
SG11202004170QA (en) | 2020-06-29 |
AU2018363652A1 (en) | 2020-05-28 |
RU2020119052A3 (zh) | 2021-12-10 |
EP4375995A1 (en) | 2024-05-29 |
JP2021502592A (ja) | 2021-01-28 |
AR124710A2 (es) | 2023-04-26 |
CA3081634C (en) | 2023-09-05 |
CN111357050B (zh) | 2023-10-10 |
WO2019091904A1 (en) | 2019-05-16 |
KR102423959B1 (ko) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI713927B (zh) | 使用尺度參數之降低取樣或內插來編碼及解碼音訊信號之設備及方法 | |
KR101373004B1 (ko) | 고주파수 신호 부호화 및 복호화 장치 및 방법 | |
AU2014211520B2 (en) | Low-frequency emphasis for LPC-based coding in frequency domain | |
TWI590237B (zh) | 用以估計音訊信號中雜訊之方法、雜訊估計器、音訊編碼器、音訊解碼器、及用以傳送音訊信號之系統 | |
CN111344784B (zh) | 控制编码器和/或解码器中的带宽 | |
TWI793666B (zh) | 對多頻道音頻信號的頻道使用比例參數的聯合編碼的音頻解碼器、音頻編碼器和相關方法以及電腦程式 | |
KR20130028718A (ko) | 오디오 신호 처리 방법 및 장치 | |
TWI841856B (zh) | 音頻量化器和音頻去量化器及相關方法以及電腦程式 | |
US20240153513A1 (en) | Method and apparatus for encoding and decoding audio signal using complex polar quantizer |