TWI529700B - 雜訊塡充技術 - Google Patents
雜訊塡充技術 Download PDFInfo
- Publication number
- TWI529700B TWI529700B TW103103519A TW103103519A TWI529700B TW I529700 B TWI529700 B TW I529700B TW 103103519 A TW103103519 A TW 103103519A TW 103103519 A TW103103519 A TW 103103519A TW I529700 B TWI529700 B TW I529700B
- Authority
- TW
- Taiwan
- Prior art keywords
- spectrum
- noise
- spectral
- function
- zero
- Prior art date
Links
- 238000001228 spectrum Methods 0.000 claims description 390
- 230000003595 spectral effect Effects 0.000 claims description 202
- 230000006870 function Effects 0.000 claims description 184
- 230000005236 sound signal Effects 0.000 claims description 118
- 230000001419 dependent effect Effects 0.000 claims description 42
- 238000000034 method Methods 0.000 claims description 40
- 238000013139 quantization Methods 0.000 claims description 36
- 238000007493 shaping process Methods 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 8
- 230000003247 decreasing effect Effects 0.000 claims description 7
- 230000007774 longterm Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- HIZCTWCPHWUPFU-UHFFFAOYSA-N Glycerol tribenzoate Chemical compound C=1C=CC=CC=1C(=O)OCC(OC(=O)C=1C=CC=CC=1)COC(=O)C1=CC=CC=C1 HIZCTWCPHWUPFU-UHFFFAOYSA-N 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000004611 spectroscopical analysis Methods 0.000 claims 1
- 238000003786 synthesis reaction Methods 0.000 claims 1
- 239000000945 filler Substances 0.000 description 51
- 230000007704 transition Effects 0.000 description 26
- 238000006243 chemical reaction Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 13
- 230000002123 temporal effect Effects 0.000 description 10
- 230000000873 masking effect Effects 0.000 description 8
- 230000011664 signaling Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000012886 linear function Methods 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007620 mathematical function Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 229940035637 spectrum-4 Drugs 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012885 constant function Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereo-Broadcasting Methods (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Noise Elimination (AREA)
- Stereophonic System (AREA)
Description
本申請案係關於音訊寫碼(audio coding),且尤其係關於結合音訊寫碼之雜訊填充。
在轉換寫碼中,常常認識到(對照[1]、[2]、[3]),將頻譜之部分量化至零會導致感知降級。量化至零之此等部分被稱作頻譜洞(spectrum hole)。[1]、[2]、[3]及[4]中呈現的針對此問題之解決方案係運用雜訊來替換零量化譜線。有時,在低於某一頻率的情況下避免雜訊之插入。用於雜訊填充之開始頻率固定,但在已知先前技術之間不同。
有時,使用頻域雜訊整型(Frequency Domain Noise Shaping,FDNS)以用於整型頻譜(包括經插入雜訊)且用於控制量化雜訊,如在USAC中(對照[4])。使用LPC濾波器之量值回應來執行FDNS。使用經預強調輸入信號來計算LPC濾波器係數。
在[1]中注意到,在音調分量之緊接鄰域中添加雜訊會導致降級,且因此,正如在[5]中,運用雜訊來填充
僅長系列零以避免由經注入周圍雜訊隱蔽非零量化值。
在[3]中注意到,存在雜訊填充之粒度與所需旁側資訊之大小之間的折衷之問題。在[1]、[2]、[3]及[5]中,傳輸每完整頻譜一個雜訊填充參數。如在[2]中使用LPC或如在[3]中使用比例因子來頻譜上整型經插入雜訊。[3]中描述如何針對整個頻譜使比例因子適應於具有一個雜訊填充位準之雜訊填充。在[3]中,修改用於完全地量化至零之頻帶的比例因子以避免頻譜洞且具有正確雜訊位準。
即使[1]及[5]中之解決方案因其建議不填充小頻譜洞而避免音調分量之降級,仍需要進一步改良使用雜訊填充而寫碼之音訊信號的品質,尤其是在極低位元速率下。
本發明之目標係提供一種用於具有改良型特性之雜訊填充的概念。
此目標係藉由同此附入之獨立請求項的標的而達成,其中本申請案之有利態樣為附屬請求項之主題。
本申請案之一基本發現為:藉由以相依於一音訊信號之一調性的一方式來執行該音訊信號之一頻譜的雜訊填充,可關於該雜訊填充式頻譜而在品質上改良該雜訊填充,使得該雜訊填充式音訊信號之重現較不煩人。
根據本申請案之一實施例,藉由使用一函數而頻譜上整型之雜訊來填充該音訊信號之頻譜的一相連頻譜零
部分,該函數在該相連頻譜零部分之一內部中採取一最大值,且具有向外下降邊緣,該等向外下降邊緣之一絕對斜率係負相依於該調性,亦即,該斜率隨著調性遞增而遞減。另外或替代地,用於填充之該函數在該相連頻譜零部分之一內部中採取一最大值,且具有向外下降邊緣,該等向外下降邊緣之一頻譜寬度係正相依於該調性,亦即,該頻譜寬度隨著調性遞增而遞增。更進一步,另外或替代地,可將一常數或單峰函數用於填充,該常數或單峰函數對該相連頻譜零部分之外部四等份部(outer quarter)的一積分--正規化至為1之一積分--係負相依於該調性,亦即,該積分隨著調性遞增而遞減。藉由所有此等措施,雜訊填充傾向於對於該音訊信號之音調部分較不有害,然而,在頻譜洞之縮減方面對於該音訊信號之非音調部分仍然有效。換言之,無論何時該音訊信號具有一音調內容,填充至該音訊信號之頻譜中的該雜訊皆離開未受到保持與其相隔足夠距離影響的該頻譜之音調峰,然而,其中仍然藉由該雜訊填充來滿足具有作為非音調之音訊內容的該音訊信號之時間相位之非音調特性。
根據本申請案之一實施例,識別該音訊信號之頻譜的相連頻譜零部分,且運用藉由函數而頻譜上整型之雜訊來填充所識別之該等零部分,使得對於每一相連頻譜零部分,相依於一各別相連頻譜零部分之寬度及該音訊信號之一調性來設定該各別函數。出於實施簡易起見,可藉由在函數之一查找表中的一查找來達成該相依性,或可相依
於該相連頻譜零部分之寬度及該音訊信號之該調性而使用一數學公式來分析上計算該等函數。在任何狀況下,相比於由該相依性引起之優勢,用於實現該相依性之努力相對微小。詳言之,該相依性可使得:相依於該相連頻譜零部分之寬度來設定該各別函數,使得該函數限於該各別相連頻譜零部分;及相依於該音訊信號之該調性來設定該各別函數,使得對於該音訊信號之一較高調性,一函數之群體(mass)在該各別相連頻譜零部分之該內部中變得更緊湊,且遠離於該各別相連頻譜零部分之邊緣。
根據一另外實施例,通常使用一頻譜上全域雜訊填充位準來按比例調整經頻譜上整型且填充至該等相連頻譜零部分中之該雜訊。詳言之,按比例調整該雜訊,使得在該等相連頻譜零部分中對該雜訊之一積分或對該等相連頻譜零部分之該等函數的一積分對應於(例如,等於)一全域雜訊填充位準。有利地,無論如何皆在現有音訊編碼解碼器內寫碼一全域雜訊填充位準,使得不必針對此等音訊編碼解碼器提供額外語法。亦即,可以少量努力明確地在該音訊信號被寫碼至之資料串流中傳信該全域雜訊填充位準。實際上,可按比例調整供頻譜上整型該相連頻譜零部分之雜訊的該等函數,使得對供填充所有相連頻譜零部分之該雜訊的一積分對應於該全域雜訊填充位準。
根據本申請案之一實施例,該調性係自一寫碼參數導出,該音訊信號係使用該寫碼參數予以寫碼。藉由此措施,無需在一現有音訊編碼解碼器內傳輸額外資訊。根
據特定實施例,該寫碼參數為一長期預測(Long-Term Prediction,LTP)旗標或增益、一時間雜訊整型(Temporal Noise Shaping,TNS)啟用旗標或增益,及/或一頻譜重新配置啟用旗標(spectrum rearrangement enablement flag)。
根據一另外實施例,該雜訊填充之該執行限於一高頻頻譜部分上,其中對應於一資料串流中之一明確傳信來設定該高頻頻譜部分之一低頻開始位置,且將該音訊信號寫碼至該資料串流。藉由此措施,執行該雜訊填充的該高頻頻譜部分之下限的一信號自適應性設定係可行的。藉由此措施,又可增加由該雜訊填充引起之該音訊品質。又由該明確傳信造成的所必要之額外旁側資訊比較小。
根據本申請案之一另外實施例,裝置經組配以使用一頻譜低通濾波器來執行該雜訊填充,以便抵消由用以寫碼該音訊信號之頻譜之一預強調造成的一頻譜傾斜。藉由此措施,更進一步增加該雜訊填充品質,此係因為進一步縮減剩餘頻譜洞之深度。更一般而言,除了在頻譜洞內相依地頻譜上整型該雜訊之調性以外,亦可藉由運用一頻譜上全域傾斜而非以一頻譜上平坦方式來執行感知轉換音訊編碼解碼器中之雜訊填充而改良該雜訊填充。舉例來說,該頻譜上全域傾斜可具有一負斜率,亦即,展現自低頻至高頻之一遞減,以便至少部分地反轉由使雜訊填充式頻譜經受頻譜感知加權函數造成之頻譜傾斜。一正斜率亦可為可想像的,例如,在該經寫碼頻譜展現一似高通特性之狀況下。詳言之,頻譜感知加權函數通常傾向於展現自低頻
至高頻率之一遞增。因此,以一頻譜上平坦方式填充至感知轉換音訊寫碼器之頻譜中的雜訊將在經最終重新建構頻譜中以一傾斜雜訊底限而完結。然而,本申請案之發明者已認識到,該經最終重新建構頻譜中之此傾斜負面地影響音訊品質,此係因為其導致頻譜洞剩餘於該頻譜之雜訊填充式部分中。因此,運用一頻譜上全域傾斜來插入該雜訊以使得雜訊位準自低頻至高頻遞減會使用該頻譜感知加權函數來至少部分地補償由該雜訊填充式頻譜之後續整型造成的此頻譜傾斜,藉此改良該音訊品質。相依於情況,一正斜率可較佳,例如,在某些似高通頻譜上。
根據一實施例,該頻譜上全域傾斜之該斜率係回應於該頻譜被寫碼至之資料串流中的一傳信而變化。該傳信可(例如)明確地傳信陡度,且可在編碼側處適應於由該頻譜感知加權函數造成之頻譜傾斜的量。舉例來說,由該頻譜感知加權函數造成之頻譜傾斜的量可源於在對音訊信號應用LPC分析之前該音訊信號所經受的一預強調。
該雜訊填充可用於音訊編碼及/或音訊解碼側處。當用於該音訊編碼側處時,可出於合成式分析目的而使用該雜訊填充式頻譜。
根據一實施例,一編碼器藉由考量該調性相依性來判定該全域雜訊比例位準。
1‧‧‧頻譜加權器
2、108、154‧‧‧量化器
3‧‧‧雜訊位準電腦
4‧‧‧感知上加權頻譜
5‧‧‧部分
6‧‧‧頻域雜訊整型器
7、134、176‧‧‧反轉換器
8、104、152‧‧‧轉換器
9‧‧‧雜訊
10‧‧‧音訊信號
11‧‧‧逐頻譜線相乘
12、164‧‧‧頻譜圖
13‧‧‧中間雜訊信號
14‧‧‧搭接轉換
15、48、50‧‧‧函數
16‧‧‧轉換窗
18‧‧‧頻譜
20‧‧‧調性
30‧‧‧裝置
32‧‧‧雜訊填充器
34‧‧‧調性判定器/稀疏頻譜
36‧‧‧雜訊填充式頻譜
38‧‧‧調性提示
40、42‧‧‧相連部分
40a、40b、40c、40d、90、92、94‧‧‧相連頻譜零部分
44‧‧‧時間部分
52‧‧‧中心區間
54、56‧‧‧邊緣部分
58‧‧‧下降邊緣
60‧‧‧上升邊緣
62‧‧‧峰
70‧‧‧零部分識別器
72‧‧‧零部分填充器
74、78‧‧‧區間
76‧‧‧集合
100、150‧‧‧編碼器
102‧‧‧原始音訊信號
106‧‧‧感知模型化器
110、110a、110b、110c、110d、110e、110f、110g、110h‧‧‧比例因子頻帶
112‧‧‧比例因子
114‧‧‧全域雜訊位準
116‧‧‧按比例調整
130、170‧‧‧解碼器
132、174‧‧‧去量化器
140‧‧‧雜訊位準
156‧‧‧預強調器
158‧‧‧LPC分析器
160、172‧‧‧LPC至頻譜線變換器
162‧‧‧LPC資訊/線性預測係數資訊
a、b、c、d‧‧‧四等份部
fstart‧‧‧頻率
下文關於諸圖來描述本申請案之較佳實施例,在該等圖當中:
圖1出於說明目的而以時間對準方式相繼地自頂部至底部展示來自音訊信號之時間片段、其使用頻譜能量之示意性指示之「灰階」頻譜時間變化的頻譜圖,及音訊信號之調性;圖2展示根據一實施例之雜訊填充裝置的方塊圖;圖3展示根據一實施例的將經受雜訊填充之頻譜及用以頻譜上整型雜訊之函數的示意圖,該雜訊用以填充此頻譜之相連頻譜零部分;圖4展示根據一另外實施例的將經受雜訊填充之頻譜及用以頻譜上整型雜訊之函數的示意圖,該雜訊用以填充此頻譜之相連頻譜零部分;圖5展示根據再一實施例的將經受雜訊填充之頻譜及用以頻譜上整型雜訊之函數的示意圖,該雜訊用以填充此頻譜之相連頻譜零部分;圖6展示根據一實施例的圖2之雜訊填充器的方塊圖;圖7示意性地展示根據一實施例的所判定的音訊信號之調性(一方面)與可用於頻譜上整型相連頻譜零部分之可能函數(另一方面)之間的可能關係;圖8示意性地展示根據一實施例的待雜訊填充之頻譜,其中另外展示用以頻譜上整型用於填充該頻譜之相連頻譜零部分之雜訊的函數,以便說明如何按比例調整該雜訊之位準;圖9展示可用於採用關於圖1至圖8所描述之雜訊填充概念的音訊編碼解碼器內之編碼器的方塊圖;
圖10示意性地展示根據一實施例的如由圖9之編碼器寫碼的待雜訊填充之量化頻譜,連同經傳輸旁側資訊,即,比例因子及全域雜訊位準;圖11展示配合於圖9之編碼器且包括根據圖2之雜訊填充裝置之解碼器的方塊圖;圖12展示根據圖9之編碼器及圖11之解碼器的實施之變體的具有關聯旁側資訊資料之頻譜圖的示意圖;圖13展示根據一實施例的可包括於使用圖1至圖8之雜訊填充概念之音訊編碼解碼器中的線性預測轉換音訊編碼器;圖14展示配合於圖13之編碼器之解碼器的方塊圖;圖15展示來自待雜訊填充之頻譜的片段之實例;圖16展示根據一實施例的用於一函數之明確實例,該函數用於整型填充至待雜訊填充之頻譜之某一相連頻譜零部分中的雜訊;圖17a至圖17d展示用於函數之各種實例,該等函數用於針對用於不同調性之不同零部分寬度及不同過渡寬度頻譜上整型填充至相連頻譜零部分中之雜訊;以及圖18a展示根據一實施例之感知轉換音訊編碼器的方塊圖;圖18b展示根據一實施例之感知轉換音訊解碼器的方塊圖;圖18c展示根據一實施例的說明達成引入至所填充之雜訊中之頻譜上全域傾斜之可能方式的示意圖。
無論在該等圖之以下描述中何處,皆將相同參考記號用於此等圖所展示之元件,關於一個圖中之一個元件所提出的描述應被解譯為可轉移至另一圖中已使用相同參考記號而參考之元件上。藉由此措施,儘可能地避免延伸性且重複性之描述,藉此使各種實施例之描述集中於彼此間之差異,而非自開頭起一次又一次地重新描述所有實施例。
以下描述首先開始於用於對音訊信號之頻譜執行雜訊填充之裝置的實施例。其次,針對各種音訊編碼解碼器呈現不同實施例(其中此雜訊填充可為內建式),連同可結合所呈現之各別音訊編碼解碼器而應用之細節。注意到,在任何狀況下,可在解碼側處執行接下來所描述之雜訊填充。然而,相依於編碼器,亦可在編碼側處執行如接下來所描述之雜訊填充,諸如,出於合成式分析原因。下文亦描述一中間狀況,根據該中間狀況,根據下文所概述之實施例之雜訊填充的經修改方式僅僅部分地改變編碼器工作之方式,諸如,以便判定頻譜上全域雜訊填充位準。
圖1出於說明目的而展示音訊信號10,亦即,其音訊樣本之時間進程,例如,音訊信號之時間對準頻譜圖12,其係已自音訊信號10導出,該導出係至少尤其經由諸如在14處說明之搭接轉換的合適轉換,該搭接轉換針對兩個連續轉換窗16及關聯頻譜18係例示性的,其因此表示(例
如)在對應於關聯轉換窗16之中間的時間例項時來自頻譜圖12之切片。下文進一步呈現用於頻譜圖12及如何導出頻譜圖12之實例。在任何狀況下,頻譜圖12已經受某一種類之量化,且因此具有零部分,其中頻譜圖12被頻譜時間上取樣時之頻譜值相連地為零。搭接轉換14可(例如)為諸如MDCT之臨界取樣轉換。轉換窗16可具有相互50%之重疊,但不同實施例亦係可行的。另外,頻譜圖12被取樣至頻譜值中時之頻譜時間解析度可在時間上變化。換言之,頻譜圖12之連續頻譜18之間的時間距離可在時間上變化,且其適用於每一頻譜18之頻譜解析度。詳言之,就連續頻譜18之間的時間距離而言,時間變化可與該等頻譜之頻譜解析度之變化相反。舉例來說,量化使用頻譜上變化之信號自適應性量化步長,其(例如)根據藉由在具有待雜訊填充之頻譜18的頻譜圖12之量化頻譜值被寫碼至的資料串流中傳信之LP係數而描述的音訊信號之LPC頻譜包絡而變化,或根據又根據心理聲學模型所判定且在該資料串流中傳信之比例因子而變化。
除此之外,以時間對準方式,圖1展示音訊信號10之特性及其時間變化,即,該音訊信號之調性。一般而言,「調性」指示描述音訊信號之能量在某一時間點時在與彼時間點相關聯之各別頻譜18中之集中程度的度量。若能量散佈得多,諸如,在音訊信號10之有雜訊時間相位中,則調性低。但,若能量實質上集中至一或多個頻譜峰,則調性高。
圖2展示根據本發明之一實施例的經組配以對音訊信號之頻譜執行雜訊填充之裝置。如下文將更詳細地所描述,該裝置經組配以相依於音訊信號之調性來執行雜訊填充。
圖2之裝置係使用參考記號30予以大體上指示,且包含雜訊填充器32及調性判定器34,調性判定器34係選用的。
實際雜訊填充係由雜訊填充器32執行。雜訊填充器32接收應被應用雜訊填充之頻譜。此頻譜在圖2中被說明為稀疏頻譜34。稀疏頻譜34可為來自頻譜圖12之頻譜18。頻譜18循序地進入雜訊填充器32。雜訊填充器32使頻譜34經受雜訊填充且輸出「填充式頻譜」36。雜訊填充器32相依於音訊信號之調性(諸如,圖1中之調性20)來執行雜訊填充。相依於情況,可能不會直接地可得到調性。舉例來說,現有音訊編碼解碼器不提供音訊信號之調性在資料串流中的明確傳信,使得若裝置30安裝於解碼側處,則將不可行的是在無高度錯誤估計的情況下重新建構該調性。舉例來說,歸因於頻譜34之稀疏性及/或由於其信號自適應性變化量化,頻譜34可並非用於調性估計之最佳基礎。
因此,調性判定器34之任務係基於另一調性提示38而向雜訊填充器32提供調性之估計,如下文將更詳細地所描述。根據稍後所描述之實施例,藉由在使用(例如)裝置30之音訊編碼解碼器之資料串流內傳送的各別寫碼參數,無論如何皆可在編碼側及解碼側處可得到調性提示38。
圖3展示用於量化至零之稀疏頻譜34(亦即,具有由頻譜34之數系列頻譜上相鄰頻譜值組成之相連部分40及42的量化頻譜)之實例。相連部分40及42因此頻譜上不相交,或經由頻譜34中之至少一未量化至零頻譜線而彼此遠離。
可如下實施上文關於圖2大體上所描述之雜訊填充之調性相依性。圖3展示在46處誇示的包括相連頻譜零部分40之時間部分44。雜訊填充器32經組配成以相依於在頻譜34所屬之時間時的音訊信號之調性的方式來填充此相連頻譜零部分40。詳言之,雜訊填充器32藉由使用一函數而頻譜上整型之雜訊來填充相連頻譜零部分,該函數在相連頻譜零部分之內部中採取最大值,且具有向外下降邊緣,該等向外下降邊緣之絕對斜率係負相依於調性。圖3針對兩個不同調性例示性地展示兩個函數48。兩個函數皆為「單峰」,亦即,在相連頻譜零部分40之內部中採取絕對最大值,且具有可為平線區或單一頻譜頻率之僅僅一個局域最大值。此處,局域最大值係由函數48及50遍及零部分40之中心中配置的延伸區間52(亦即,平線區)連續地採取。函數48及50之域為零部分40。中心區間52僅僅涵蓋零部分40之中心部分,且係由在區間52之較高頻率側處的邊緣部分54及在區間52之較低頻率側處的較低頻率邊緣部分56側接。在邊緣部分54內,函數48及52具有下降邊緣58,且在邊緣部分56內,函數48及52具有上升邊緣60。絕對斜率可分別歸因於每一邊緣58及60,諸如,分別在邊緣部分54及56內之平均斜率。亦即,歸因於下降邊緣58之斜率可為分別在邊緣部
分54內之各別函數48及52的平均斜率,且歸因於上升邊緣60之斜率可為分別在邊緣部分56內之函數48及52的平均斜率。
可看出,邊緣58及60之斜率的絕對值針對函數50相比於針對函數48較高。針對低於雜訊填充器32選擇使用函數48以用於填充零部分40所針對之調性的調性,雜訊填充器32選擇運用函數50來填充零部分40。藉由此措施,雜訊填充器32避免群集頻譜34之潛在音調頻譜峰(諸如,峰62)的緊接周邊。邊緣58及60之絕對斜率愈小,則填充至零部分40中之雜訊與環繞零部分40的頻譜34之非零部分相隔得愈遠。
雜訊填充器32可(例如)在音訊信號之調性為τ2之狀況下決定選擇函數48,且在音訊信號之調性為τ1之狀況下決定選擇函數50,但下文進一步所提出之描述將揭露出雜訊填充器32可鑑別音訊信號之調性的兩個以上不同狀態,亦即,可支援用於填充某一相連頻譜零部分之兩個以上不同函數48、50,且經由自調性至函數之滿射映射而相依於調性在彼等函數之間進行選擇。
作為微小註解,注意到,函數48、50之建構僅僅為一實例,根據該建構,該等函數在內部區間52中具有平線區,其係由邊緣58及60側接,以便引起單峰函數。替代地,舉例來說,根據一替代例,可使用鐘形函數(bell-shaped function)。區間52可替代地被定義為函數比其最大值高95%所處之區間。
圖4展示關於調性的用於函數之變化之替代例,該函數用以頻譜上整型由雜訊填充器32填充某一相連頻譜零部分40所運用之雜訊。根據圖4,該變化係關於分別為邊緣部分54及56以及向外下降邊緣58及60之頻譜寬度。如圖4所展示,根據圖4之實例,邊緣58及60之斜率可甚至獨立於調性,亦即,不根據調性而改變。詳言之,根據圖4之實例,雜訊填充器32設定頻譜上整型用於填充零部分40之雜訊所使用的函數,使得向外下降邊緣58及60之頻譜寬度係正相依於調性,亦即,對於較高調性,使用向外下降邊緣58及60之頻譜寬度較大的函數48,且對於較低調性,使用向外下降邊緣58及60之頻譜寬度較小的函數50。
圖4展示一函數之變化之另一實例,該函數係由雜訊填充器32使用以用於頻譜上整型填充相連頻譜零部分40所運用之雜訊:此處,隨著調性而變化的函數之特性為對零部分40之外部四等份部的積分。調性愈高,則區間愈大。在判定區間之前,函數對完整零部分40之總積分等化/正規化至(諸如)1。
為了解釋此情形,參見圖5。相連頻譜零部分40被展示為經分割成四個相等大小之四等份部a、b、c、d,其中四等份部a及d為外部四等份部。可看出,函數50及48兩者在內部中(此處例示性地在零部分40之中間中)具有其質心,但該等函數兩者自內部四等份部b、c延伸至外部四等份部a及d中。函數48及50之重疊部分(分別重疊於外部四等份部a及d)僅僅被展示為陰影。
在圖5中,兩個函數皆具有對整個零部分40(亦即,對所有四個四等份部a、b、c、d)之相同積分。該積分被(例如)正規化至1。
在此情形中,函數50對四等份部a、d之積分大於函數48對四等份部a、d之積分,且因此,雜訊填充器32將函數50用於較高調性,且將函數48用於較低調性,亦即,對正規化函數50及48之外部四等份部的積分係負相依於調性。
出於說明目的,在圖5之狀況下,函數48及50兩者已被例示性地展示為常數或二元函數。舉例來說,函數50為遍及整個域(亦即,整個零部分40)採取常數值之函數,且函數48為在零部分40之外部邊緣處為零且在其間採取非零常數值的二元函數。應清楚,一般而言,根據圖5之實例的函數50及48可為任何常數或單峰函數,諸如,對應於圖3及圖4所展示之函數的函數。甚至更精確而言,至少一者可為單峰且至少一者可為(分段)常數,且潛在另外者可為單峰或常數中任一者。
雖然相依於調性的函數48及50之變化類型變化,但圖3至圖5之所有實例共同之處在於:對於遞增之調性,縮減或避免使頻譜34中之音調峰之緊接周圍拖尾的程度,使得雜訊填充之品質增加,此係因為雜訊填充不負面地影響音訊信號之音調相位且仍然引起音訊信號之非音調相位的合意近似。
直到現在,圖3至圖5之描述聚焦於一個相連頻譜
零部分之填充。根據圖6之實施例,圖2之裝置經組配以識別音訊信號之頻譜的相連頻譜零部分且將雜訊填充應用至如此所識別之相連頻譜零部分上。詳言之,圖6將圖2之雜訊填充器32更詳細地展示為包含零部分識別器70及零部分填充器72。該零部分識別器在頻譜34中搜尋相連頻譜零部分,諸如,圖3中之40及42。如上文已經描述,可將相連頻譜零部分定義為已量化至零之數系列頻譜值。零部分識別器70可經組配以將識別限於開始某一開始頻率(亦即,位於某一開始頻率上方)的音訊信號頻譜之高頻頻譜部分上。因此,裝置可經組配以將雜訊填充之執行限於此高頻頻譜部分上。該開始頻率(在高於該開始頻率的情況下,零部分識別器70執行相連頻譜零部分之識別且裝置經組配以限制雜訊填充之執行)可固定或可變化。舉例來說,可使用音訊信號經由其頻譜被寫碼至的音訊信號之資料串流中的明確傳信以傳信待使用之開始頻率。
零部分填充器72經組配以運用根據如上文關於圖3、圖4或圖5所描述之函數而頻譜上整型的雜訊來填充由識別器70識別的經識別之相連頻譜零部分。因此,零部分填充器72運用相依於各別相連頻譜零部分之寬度(諸如,各別相連頻譜零部分之一系列零量化頻譜值的已量化至零之頻譜值的數目)及音訊信號之調性而設定的函數來填充由識別器70識別之相連頻譜零部分。
詳言之,由識別器70識別之每一相連頻譜零部分的個別填充係可由填充器72執行如下:相依於相連頻譜零
部分之寬度來設定函數,使得函數限於各別相連頻譜零部分,亦即,函數之域與相連頻譜零部分之寬度重合。函數之設定進一步相依於音訊信號之調性,即,以上文關於圖3至圖5所概述之方式,使得若音訊信號之調性遞增,則函數之群體在各別相連零部分之內部中變得更緊湊,且遠離於各別相連頻譜零部分之邊緣。在使用此函數的情況下,頻譜上整型相連頻譜零部分之初步填充狀態(根據該狀態,將每一頻譜值設定至一隨機、偽隨機或修補/複製值),即,藉由該函數與初步頻譜值之相乘。
上文已經概述出,雜訊填充對調性之相依性可鑑別僅兩個以上(諸如,3個、4個或甚至4個以上)不同調性。舉例來說,圖7展示可能調性之域,亦即,可能調性間值之區間,如由判定器34在參考記號74處所判定。在76處,圖7例示性地展示用於頻譜上整型可填充相連頻譜零部分所運用之雜訊的可能函數集合。如圖7所說明之集合76為藉由頻譜寬度或域長度及/或形狀(亦即,緊湊性及與外部邊緣相隔之距離)彼此相互區分之離散函數具現化集合。在78處,圖7進一步展示可能零部分寬度之域。雖然區間78為自某一最小寬度至某一最大寬度之範圍的離散值之區間,但由判定器34輸出以量測音訊信號之調性的調性值可為整數值抑或屬於某一其他類型,諸如,浮點值。可藉由表查找或使用數學函數來實現自區間74及78之對至可能函數之集合76的映射。舉例來說,對於由識別器70識別之某一相連頻譜零部分,零部分填充器72可使用各別相連頻譜零部分之寬度
及如由判定器34判定之當前調性,以便在表中查找被定義為(例如)函數值之序列的集合76之函數,該序列之長度與相連頻譜零部分之寬度重合。替代地,零部分填充器72查找函數參數,且將此等函數之參數填充至預定函數中,以便導出待用於頻譜上整型待填充至各別相連頻譜零部分中之雜訊的函數。在另一替代例中,零部分填充器72可直接地將各別相連頻譜零部分之寬度及當前調性插入至數學公式中以便得出函數參數,以便根據數學上所計算之函數參數來建置各別函數。
直到現在,本申請案之某些實施例的描述聚焦於用以頻譜上整型填充某些相連頻譜零部分所運用之雜訊的函數之形狀。然而,有利的是控制添加至待雜訊填充之某一頻譜的雜訊之總位準,以便引起合意重新建構或甚至頻譜上控制雜訊引入之位準。
圖8展示待雜訊填充之頻譜,其中未量化至零且因此未經受雜訊填充之部分係以交叉影線指示,其中三個相連頻譜零部分90、92及94係以預填充狀態展示,該預填充狀態係使用不關注之標度而由記有用於頻譜整型填充至此等部分90至94中之雜訊之選定函數的零部分說明。
根據一個實施例,用於頻譜上整型待填充至部分90至94中之雜訊的函數48、50之可用集合皆具有為編碼器及解碼器所知之預定義標度。明確地在音訊信號(亦即,頻譜之未量化部分)被寫碼至之資料串流內傳信頻譜上全域比例因子。此因子指示(例如)針對一雜訊位準之RMS或另一
度量,亦即,隨機或偽隨機頻譜線值,藉由該等值,部分90至94在解碼側處被預設定,接著使用調性相依選定函數48、50按原樣被頻譜上整型。下文進一步描述關於可如何在編碼器側處判定全域雜訊比例因子。舉例來說,使A為頻譜被量化至零且屬於部分90至94中任一者的頻譜線之索引i之集合,且使N表示全域雜訊比例因子。頻譜之值將被表示為xi。另外,「random(N)」將表示在給出對應於位準「N」的位準之隨機值之情況下的函數,且left(i)將為指示下者之函數:對於在索引i處之任何零量化頻譜值,在i所屬的零部分之低頻端處的零量化值之索引,且Fi(j)(其中j=0至Ji-1)將表示相依於調性而指派至開始於索引i之零部分90至94的函數48或50,其中Ji指示彼零部分之寬度。接著,根據xi=Fleft(i)(i-left(i)).random(N)來填充部分90至94。
另外,可控制雜訊至部分90至94中之填充,使得雜訊位準自低頻至高頻遞減。此情形係可藉由頻譜上整型預設定部分所運用之雜訊而進行,或根據低通濾波器之轉移函數來頻譜上整型函數48、50之配置而進行。此情形可補償當歸因於(例如)在判定量化步長之頻譜進程時使用之預強調而重新按比例調整/去量化填充式頻譜時造成的頻譜傾斜。因此,可根據所應用之預強調之程度來控制遞減之陡度或低通濾波器之轉移函數。在應用上文所使用之術語的情況下,可根據xi=Fleft(i)(i-left(i)).random(N).LPF(i)來填充部分90至94,其中LPF(i)表示可為線性的低頻濾波器之轉移函數。相依於情況,對應於函數15之函數LPF可具有
正斜率,及經改變以相應地讀取HPF之LPF。
代替使用相依於調性及零部分之寬度而選擇的函數之固定按比例調整,可直接地藉由亦使用各別相連零部分之頻譜位置作為查找中之索引或以其他方式判定(80)待用於頻譜上整型必須填充各別相連頻譜零部分所運用之雜訊的函數來考量剛才所概述之頻譜傾斜校正。舉例來說,函數之平均值或其用於頻譜上整型待填充至某一零部分90至94中之雜訊的預按比例調整可相依於零部分90至94之頻譜位置,使得遍及頻譜之整個頻寬,預按比例調整用於相連頻譜零部分90至94之函數以便模仿低通濾波器轉移函數,以便補償用以導出頻譜之非零量化部分的任何高通預強調轉移函數。
在已描述用於執行雜訊填充之實施例的情況下,在下文中,呈現用於音訊編碼解碼器之實施例,上文所概述之雜訊填充可有利地建置至用於音訊編碼解碼器之實施例中。舉例來說,圖9及圖10分別展示編碼器及解碼器之對,其一起實施形成(例如)進階音訊寫碼(Advanced Audio Coding,AAC)之基礎的類型之以轉換為基礎之感知音訊編碼解碼器。圖9所展示之編碼器100使原始音訊信號102經受轉換器104中之轉換。由轉換器104執行之轉換為(例如)對應於圖1之轉換14的搭接轉換:其藉由使原始音訊信號之連續相互重疊轉換窗經受一連串頻譜18來頻譜上分解入埠原始音訊信號102,該一連串頻譜18一起構成頻譜圖12。如上文所表示,定義頻譜圖12之時間解析度的轉換窗間補片可在
時間上變化,正如轉換窗之時間長度可在時間上變化,此情形定義每一頻譜18之頻譜解析度。編碼器100進一步包含感知模型化器106,其基於進入轉換器104之時域版本或由轉換器104輸出之頻譜分解版本而自原始音訊信號導出定義一頻譜曲線之感知遮蔽臨限值,在低於該頻譜曲線的情況下,可隱藏量化雜訊,使得其為不可察覺的。
音訊信號之逐頻譜線表示(亦即,頻譜圖12)及遮蔽臨限值進入量化器108,量化器108負責使用相依於遮蔽臨限值之頻譜上變化量化步長來使頻譜圖12之頻譜樣本量化:遮蔽臨限值愈大,則量化步長愈小。詳言之,量化器108以所謂的比例因子之形式向解碼側通知量化步長之變化,藉由量化步長(一方面)與感知遮蔽臨限值(另一方面)之間的剛才所描述之關係,該等比例因子表示感知遮蔽臨限值自身之表示種類。為了找到將比例因子傳輸至解碼側所花費之旁側資訊的量與使量化雜訊適應於感知遮蔽臨限值之粒度之間的良好折衷,量化器108以比量化頻譜位準描述音訊信號之頻譜圖12的逐頻譜線表示時之頻譜時間解析度低或粗的頻譜時間解析度來設定/變化比例因子。舉例來說,量化器108將每一頻譜細分成比例因子頻帶110(諸如,巴克(bark)頻帶),且傳輸每比例因子頻帶110一個比例因子。就時間解析度而言,相比於頻譜圖12之頻譜值的頻譜位準,時間解析度就比例因子之傳輸而言亦可較低。
將頻譜圖12之頻譜值之頻譜位準以及比例因子112兩者傳輸至解碼側。然而,為了改良音訊品質,編碼器
100亦在資料串流內傳輸向解碼側傳信雜訊位準之全域雜訊位準,必須在藉由應用比例因子112來重新按比例調整頻譜或使頻譜去量化之前運用雜訊來填充表示12之零量化部分直至該雜訊位準。圖10中展示此情形。圖10使用交叉影線來展示尚未重新按比例調整之音訊信號之頻譜,諸如,圖9中之18。其具有相連頻譜零部分40a、40b、40c及40d。亦可針對每一頻譜18而在資料串流中傳輸之全域雜訊位準114向解碼器指示在使此填充式頻譜經受使用比例因子112之重新按比例調整或重新量化之前此等零部分40a至40d應運用雜訊被填充直至的位準。
如上文已經表示,全域雜訊位準114所指之雜訊填充可經受一限定,此在於:此種類之雜訊填充僅僅將高於圖10中僅僅出於說明目的而指示之某一開始頻率的頻率稱作fstart。
圖10亦說明另一特定特徵,其可實施於編碼器100中:因為可存在包含比例因子頻帶110之頻譜18,其中各別比例因子頻帶內之所有頻譜值已被量化至零,所以與此比例因子頻帶相關聯之比例因子112實際上多餘。因此,量化器100使用此恰好的比例因子以用於運用除了使用全域雜訊位準114而填充至比例因子頻帶中之雜訊以外的雜訊來個別地填滿比例因子頻帶,或換言之,以便回應於全域雜訊位準114而按比例調整歸因於各別比例因子頻帶之雜訊。舉例來說,參見圖10。圖10展示頻譜18成為比例因子頻帶110a至110h之例示性細分。比例因子頻帶110e為一
比例因子頻帶,其頻譜值皆已被量化至零。因此,關聯比例因子112「自由」,且用以判定(114)此比例因子頻帶被完全地填充直至的雜訊之位準。包含量化至非零位準之頻譜值的其他比例因子頻帶具有與其相關聯之比例因子,其用以重新按比例調整尚未量化至零的頻譜18之頻譜值,包括已填充零部分40a至40d所使用之雜訊,此按比例調整係代表性地使用箭頭116予以指示。
圖9之編碼器100可能已經考量到,在解碼側內,將使用上文所描述之雜訊填充實施例來執行使用全域雜訊位準114之雜訊填充,例如,使用對調性之相依性,及/或對雜訊強加頻譜上全域傾斜,及/或變化雜訊填充開始頻率,等等。
就對調性之相依性而言,編碼器100可判定全域雜訊位準114,且藉由使用於頻譜上整型用於填充各別零部分之雜訊的函數關聯至零部分40a至40d而將全域雜訊位準114插入至資料串流中。詳言之,編碼器可使用此等函數以便加權此等部分40a至40d中之原始(亦即,經加權但尚未量化)音訊信號之頻譜值,以便判定全域雜訊位準114。藉此,在資料串流內判定及傳輸之全域雜訊位準114在解碼側處導致雜訊填充,其更緊密地恢復原始音訊信號之頻譜。
編碼器100可相依於音訊信號之內容而決定使用一些寫碼選項,該等寫碼選項又可用作調性提示(諸如,圖2所展示之調性提示38),以便允許解碼側正確地設定用於頻譜上整型用以填充部分40a至40d之雜訊的函數。舉例來
說,編碼器100可使用時間預測,以便使用所謂的長期預測增益參數而自先前頻譜預測一個頻譜18。換言之,長期預測增益可設定使用或不使用此時間預測所至之程度。因此,長期預測增益或LTP增益為可用作調性提示之參數,此係因為:LTP增益愈高,則音訊信號之調性將最有可能愈高。因此,舉例來說,圖2之調性判定器34可根據對LTP增益之單調正相依性來設定調性。代替LTP增益或除了LTP增益以外,資料串流亦可包含傳信接通/斷開LTP之LTP啟用旗標,藉此亦揭露(例如)關於調性之二元值提示。
另外或替代地,編碼器100可支援時間雜訊整型。亦即,舉例來說,基於每頻譜18,編碼器100可決定使頻譜18經受時間雜訊整型,其中藉由時間雜訊整型啟用旗標而向解碼器指示此決策。TNS啟用旗標指示頻譜18之頻譜位準是否形成頻譜之頻譜(亦即,沿著所判定之頻率方向)線性預測之預測殘差,或頻譜是否未被LP預測。若TNS被傳信為啟用,則資料串流另外包含用於頻譜上線性預測頻譜之線性預測係數,使得解碼器可使用此等線性預測係數藉由在重新按比例調整或去量化之前或之後將該等線性預測係數應用至頻譜上而恢復頻譜。TNS啟用旗標亦為調性提示:若TNS啟用旗標將TNS傳信為接通(例如,在一瞬間),則音訊信號非常不太可能為音調,此係因為頻譜似乎可藉由線性預測沿著頻率軸線被良好地預測,且因此為非靜止的。因此,可基於TNS啟用旗標來判定調性,使得若TNS啟用旗標停用TNS,則調性較高,且若TNS啟用旗標傳信TNS之啟
用,則調性較低。代替TNS啟用旗標或除了TNS啟用旗標以外,亦可有可能自TNS濾波器係數導出TNS增益,TNS增益指示TNS可用於預測頻譜所至之程度,藉此亦揭露關於調性之兩值以上提示。
亦可由編碼器100在資料串流內寫碼其他寫碼參數。舉例來說,頻譜重新配置啟用旗標可傳信一個寫碼選項,根據該寫碼選項,藉由頻譜上重新配置頻譜位準(亦即,量化頻譜值)來寫碼頻譜18,其中另外在資料串流內傳輸重新配置規定,使得解碼器可重新配置或重新擾亂頻譜位準以便恢復頻譜18。若啟用頻譜重新配置啟用旗標,亦即,應用頻譜重新配置,則此情形指示出音訊信號很可能為音調,此係因為:若在頻譜內存在許多音調峰,則重新配置傾向於在壓縮資料串流時更具速率/失真效益。因此,另外或替代地,可使用頻譜重新配置啟用旗標作為音調提示,且在啟用頻譜重新配置啟用旗標之狀況下,可將用於雜訊填充之調性設定為較大,且若停用頻譜配置啟用旗標,則可將用於雜訊填充之調性設定為較低。
出於完整起見,且亦參看圖2b,注意到,至少對於高於預定最小寬度的相連頻譜零部分之寬度,用於頻譜上整型零部分40a至40d之不同函數的數目(亦即,經鑑別用於設定用於頻譜上整型之函數之不同調性的數目)可(例如)大於四,或甚至大於八。
就對雜訊強加頻譜上全域傾斜且當在編碼側處計算雜訊位準參數時考量頻譜上全域傾斜之概念而言,編
碼器100可判定全域雜訊位準114,且將全域雜訊位準114插入至資料串流中,其係藉由運用至少遍及頻譜頻寬之整個雜訊填充部分頻譜上延伸且具有相對於(例如)在解碼側處用於雜訊填充之函數15的相反正負號之斜率的函數來加權尚未量化但具有感知加權函數加權音訊信號之頻譜值之逆的部分(頻譜上共置至零部分40a至40d),且基於如此所加權之未量化值來量測該位準。
圖11展示配合於圖9之編碼器的解碼器。圖11之解碼器係使用參考記號130予以大體上指示,且包含對應於上述實施例之雜訊填充器30、去量化器132及反轉換器134。雜訊填充器30接收頻譜圖12內之一連串頻譜18,亦即,包括量化頻譜值之逐頻譜線表示,且視情況自資料串流接收調性提示,諸如,上文所論述之寫碼參數中之一者或若干者。雜訊填充器30接著如上文所描述而運用雜訊來填滿相連頻譜零部分40a至40d,諸如,使用上文所描述之調性相依性,及/或藉由對雜訊強加頻譜上全域傾斜,且如上文所描述而使用全域雜訊位準114以用於按比例調整雜訊位準。在如此填充的情況下,此等頻譜到達去量化器132,去量化器132又使用比例因子112來使雜訊填充式頻譜去量化或重新按比例調整雜訊填充式頻譜。反轉換器134又使去量化頻譜經受反轉換,以便恢復音訊信號。如上文所描述,反轉換器134亦可包含一重疊相加程序(overlap-add-process),以便達成在由轉換器104使用之轉換為諸如MDCT之臨界取樣搭接轉換之狀況下造成的時域混疊消除,在此狀況下,
由反轉換器134應用之反轉換將為IMDCT(反MDCT)。
如已經關於圖9及圖10所描述,去量化器132將比例因子應用至預填充式頻譜。亦即,使用比例因子來按比例調整比例因子頻帶內未完全地量化至零之頻譜值,而不管表示非零頻譜值之頻譜值或已由如上文所描述之雜訊填充器30頻譜上整型之雜訊。完全零量化頻譜帶具有與其相關聯之比例因子,其完全自由地控制雜訊填充,且雜訊填充器30可使用此比例因子以個別地按比例調整比例因子頻帶已藉由雜訊填充器30對相連頻譜零部分之雜訊填充而填充所運用的雜訊,或就此等零量化頻譜帶而言,雜訊填充器30可使用該比例因子以另外填滿(亦即,添加)額外雜訊。
注意到,雜訊填充器30以上文所描述之調性相依方式頻譜上整型及/或以上文所描述之方式經受頻譜上全域傾斜的雜訊可源於偽隨機雜訊來源,或係可基於自同一頻譜或相關頻譜(諸如,另一通道之時間對準頻譜,或時間上在前頻譜)之其他區域的頻譜複製或修補而自雜訊填充器30導出。甚至自同一頻譜之修補仍可為可行的,諸如,自頻譜18之較低頻率區域的複製(頻譜複製)。不管雜訊填充器30導出雜訊之方式,填充器30皆以上文所描述之調性相依方式來頻譜上整型雜訊以用於填充至相連頻譜零部分40a至40d中,及/或以上文所描述之方式來使雜訊經受頻譜上全域傾斜。
僅出於完整起見,在圖12中展示出圖9之編碼器100及圖11之解碼器130的實施例可變化,此在於:比例因
子(一方面)與比例因子特定雜訊位準之間的並置被不同地實施。根據圖12之實例,除了比例因子112以外,編碼器亦在資料串流內傳輸以比頻譜圖12之逐頻譜線解析度粗的解析度(諸如,以與比例因子112相同的頻譜時間解析度)而頻譜時間上取樣的雜訊包絡之資訊。圖12中使用參考記號140來指示此雜訊包絡資訊。藉由此措施,對於未完全地量化至零之比例因子頻帶,存在兩個值:用於重新按比例調整彼各別比例因子頻帶內之非零頻譜值或使彼各別比例因子頻帶內之非零頻譜值去量化的比例因子,以及用於個別按比例調整彼比例因子頻帶內之零量化頻譜值之雜訊位準的比例因子頻帶之雜訊位準140。此概念有時被稱作智慧間隙填充(Intelligent Gap Filling,IGF)。
甚至在此處,雜訊填充器30可應用相連頻譜零部分40a至40d之調性相依填充,如圖12例示性地所展示。
根據上文關於圖9至圖12所概述之音訊編碼解碼器實例,已藉由使用呈比例因子之形式的頻譜時間表示來傳輸關於感知遮蔽臨限值之資訊而執行量化雜訊之頻譜整型。圖13及圖14展示一對編碼器及解碼器,其中亦可使用關於圖1至圖8所描述之雜訊填充實施例,但其中根據音訊信號之頻譜的線性預測(Linear Prediction,LP)描述來頻譜上整型量化雜訊。在兩個實施例中,待雜訊填充之頻譜在加權域中,亦即,使用加權域或感知上加權域中之頻譜上恆定步長來使該頻譜量化。
圖13展示編碼器150,其包含轉換器152、量化器
154、預強調器156、LPC分析器158及LPC至頻譜線變換器160。預強調器156係選用的。預強調器156使入埠音訊信號12經受預強調,即,使用(例如)FIR或IIR濾波器而運用淺高通濾波器轉移函數進行高通濾波。一階高通濾波器可(例如)用於預強調器156,諸如,H(z)=1-αz-1,其中α設定(例如)預強調之量或強度,根據該等實施例中之一者,用於填充至頻譜中之雜訊所經受的頻譜上全域傾斜按照該量或強度而變化。α之可能設定可為0.68。由預強調器156造成之預強調係使由編碼器150傳輸之量化頻譜值之能量自高頻至低頻移位,藉此考量人類感知在低頻區中比在高頻區中較高所根據的心理聲學法則。無論音訊信號是否被預強調,LPC分析器158皆對入埠音訊信號12執行LPC分析,以便線性地預測音訊信號,或更精確而言,估計其頻譜包絡。LPC分析器158以(例如)由音訊信號12之數個音訊樣本組成之子訊框的時間單位來判定線性預測係數,且如在162處所展示而在資料串流內將線性預測係數傳輸至解碼側。LPC分析器158使用分析窗中之自動相關性且使用(例如)李文森-杜賓(Levinson-Durbin)演算法來判定(例如)線性預測係數。可以量化及/或經轉換版本(諸如,以頻譜線對或其類似者之形式)而在資料串流中傳輸線性預測係數。在任何狀況下,LPC分析器158經由資料串流而將亦可用於解碼側處之線性預測係數轉遞至LPC至頻譜線變換器160,且變換器160將線性預測係數變換成由量化器154使用以頻譜上變化/設定量化步長之頻譜曲線。詳言之,轉換器152使入埠音訊信號12
經受轉換,諸如,以與轉換器104進行轉換之方式相同的方式。因此,轉換器152輸出一連串頻譜,且量化器154可(例如)藉由自變換器160獲得之頻譜曲線來劃分每一頻譜,接著將頻譜上恆定量化步長用於整個頻譜。由量化器154輸出之一連串頻譜之頻譜圖被展示於圖13中之164處,且亦包含可在解碼側處填充之一些相連頻譜零部分。可由編碼器150在資料串流內傳輸全域雜訊位準參數。
圖14展示配合於圖13之編碼器的解碼器。圖14之解碼器係使用參考記號170予以大體上指示,且包含雜訊填充器30、LPC至頻譜線變換器172、去量化器174及反轉換器176。雜訊填充器30接收量化頻譜164,執行如上文所描述的至相連頻譜零部分上之雜訊填充,且將如此填充之頻譜圖轉遞至去量化器174。去量化器174自LPC至頻譜線變換器172接收待由去量化器174使用以用於重新整型填充式頻譜或換言之用於使填充式頻譜去量化之頻譜曲線。此程序有時被稱作頻域雜訊整型(FDNS)。LPC至頻譜線變換器172基於資料串流中之LPC資訊162來導出頻譜曲線。由去量化器174輸出之去量化頻譜或經重新整型頻譜經受由反轉換器176進行之反轉換,以便恢復音訊信號。再次,可由反轉換器176使該一連串經重新整型頻譜經受反轉換,接著經受一重疊相加程序,以便在轉換器152之轉換為諸如MDCT之臨界取樣搭接轉換之狀況下執行連續重新轉換之間的時域混疊消除。
藉由圖13及圖14中之虛線,展示出由預強調器
156應用之預強調可在時間上變化,其中一變化係在資料串流內被傳信。在彼狀況下,雜訊填充器30可在執行如上文關於圖8所描述之雜訊填充時考量預強調。詳言之,預強調在由量化器154輸出之量化頻譜中造成頻譜傾斜,此在於:量化頻譜值(亦即,頻譜位準)傾向於自較低頻率至較高頻率遞減,亦即,其展示頻譜傾斜。可由雜訊填充器30以上文所描述之方式來補償或更好地模仿或適應於此頻譜傾斜。若在資料串流中進行傳信,則所傳信的預強調之程度可用來以相依於預強調之程度的方式來執行填充雜訊之自適應性傾斜。亦即,在資料串流中傳信的預強調之程度可由解碼器使用以設定強加至由雜訊填充器30填充至頻譜中之雜訊上的頻譜傾斜之程度。
到現在為止,已描述若干實施例,且下文呈現特定實施實例。關於此等實例所提出之細節應被理解為可個別地轉移至以上實施例上以進一步指定該等細節。然而,此前,應注意到,上文所描述之所有實施例可用於音訊以及語音寫碼中。其通常係指轉換寫碼,且使用信號自適應性概念以用於使用極少量之旁側資訊而運用經頻譜上整型雜訊來替換量化程序中引入之零。在上文所描述之實施例中,已利用以下觀測:若使用一雜訊填充開始頻率,則頻譜洞有時亦剛好出現於任何此類開始頻率下方,且此等頻譜洞有時感知上煩人。使用開始頻率之明確傳信的以上實施例允許移除引起降級之洞,但允許避免在雜訊之插入將引入失真之處在低頻下插入雜訊。
此外,上文所概述之實施例中之一些使用預強調控制雜訊填充,以便補償由預強調造成之頻譜傾斜。此等實施例考量以下慣例:若對一預強調信號計算LPC濾波器,則僅僅應用待插入雜訊之全域或平均量值或平均能量將會使雜訊整型在經插入雜訊中引入頻譜傾斜,此係因為解碼側處之FDNS將使經頻譜上平坦插入雜訊經受仍展示預強調之頻譜傾斜的頻譜整型。因此,後者實施例以使得考量及補償來自預強調之頻譜傾斜的方式來執行雜訊填充。
因此,換言之,圖11及圖14各自展示一感知轉換音訊解碼器。其包含經組配以對音訊信號之頻譜18執行雜訊填充的雜訊填充器30。可調性相依地進行該執行,如上文所描述。可藉由運用展現頻譜上全域傾斜之雜訊來填充頻譜以便獲得雜訊填充式頻譜而進行該執行,如上文所描述。「頻譜上全域傾斜」應(例如)意謂該傾斜(例如)在橫越待運用雜訊而填充之所有部分40包絡雜訊的包絡中顯現自身,該包絡傾斜,亦即,具有非零斜率。舉例來說,「包絡」被定義為頻譜回歸曲線,諸如,線性函數或另一二階或三階多項式,例如,經由填充至部分40中之雜訊的局域最大值而引向,該等局域最大值皆自我相連,但頻譜上遠離。「自低頻至高頻遞減」意謂此傾斜具有負斜率,且「自低頻至高頻遞增」意謂此傾斜具有正斜率。兩個執行態樣可同時地或僅僅應用其中之一者。
另外,感知轉換音訊解碼器包含呈去量化器132、174之形式的頻域雜訊整型器6,其經組配以使用頻譜感知
加權函數來使雜訊填充式頻譜經受頻譜整型。在圖11之狀況下,頻域雜訊整型器132經組配以自在頻譜被寫碼至之資料串流中傳信的線性預測係數資訊162判定頻譜感知加權函數。在圖14之狀況下,頻域雜訊整型器174經組配以自在資料串流中傳信的關於比例因子頻帶110之比例因子112判定頻譜感知加權函數。如關於圖8所描述且關於圖11所說明,雜訊填充器34可經組配以回應於資料串流中之明確傳信來變化頻譜上全域傾斜之斜率,或自傳信頻譜感知加權函數的資料串流之部分推斷該斜率(諸如,藉由評估LPC頻譜包絡或比例因子),或自經量化且經傳輸之頻譜18推斷該斜率。
另外,感知轉換音訊解碼器包含反轉換器134、176,其經組配以反轉換由頻域雜訊整型器頻譜上整型之雜訊填充式頻譜,以獲得反轉換,且使反轉換經受重疊相加程序。
對應地,圖13及圖9皆展示用於經組配以執行皆實施於圖9及圖13所展示之量化器模組108、154中之頻譜加權1及量化2的感知轉換音訊編碼器之實例。頻譜加權1根據頻譜感知加權函數之逆來頻譜上加權音訊信號之原始頻譜,以便獲得感知上加權頻譜,且量化2以頻譜上均一方式來使感知上加權頻譜量化,以便獲得量化頻譜。感知轉換音訊編碼器在量化模組108、154內進一步執行雜訊位準計算3,例如,藉由以運用自低頻至高頻遞增之頻譜上全域傾斜而加權的方式來量測共置至量化頻譜之零部分的感知上加權
頻譜之位準而計算雜訊位準參數。根據圖13,感知轉換音訊編碼器包含LPC分析器158,其經組配以判定表示音訊信號之原始頻譜之LPC頻譜包絡的線性預測係數資訊162,其中頻譜加權器154經組配以判定頻譜感知加權函數,以便遵循LPC頻譜包絡。如所描述,LPC分析器158可經組配以藉由對經受預強調濾波器156的音訊信號之版本執行LP分析來判定線性預測係數資訊162。如上文關於圖13所描述,預強調濾波器156可經組配以運用變化之預強調量來對音訊信號進行高通濾波,以便獲得經受預強調濾波器的音訊信號之版本,其中雜訊位準計算可經組配以相依於預強調量來設定頻譜上全域傾斜之量。可使用頻譜上全域傾斜之量或預強調量在資料串流中的明確傳信。在圖9之狀況下,感知轉換音訊編碼器包含經由感知模型106而控制之比例因子判定,其判定關於比例因子頻帶110之比例因子112,以便遵循遮蔽臨限值。此判定實施於量化模組108中,例如,量化模組108亦充當經組配以判定頻譜感知加權函數以便遵循比例因子之頻譜加權器。
現在拾取用以描述圖9至圖14的剛才所應用之替代性且一般化之用語以描述圖18a及圖18b。
圖18a展示根據本申請案之一實施例的感知轉換音訊編碼器,且圖18b展示根據本申請案之一實施例的感知轉換音訊解碼器,兩者配合在一起以便形成感知轉換音訊編碼解碼器。
如圖18a所展示,感知轉換音訊編碼器包含頻譜
加權器1,其經組配成以實例在下文中被展示之預定方式而根據由頻譜加權器1判定之頻譜加權感知加權函數之逆來頻譜上加權由頻譜加權器1接收的音訊信號之原始頻譜。藉由此措施,頻譜加權器1獲得感知上加權頻譜,其接著以頻譜上均一方式(亦即,以對於頻譜線相同之方式)在感知轉換音訊編碼器之量化器2中經受量化。由均一量化器2輸出之結果為量化頻譜34,其最終被寫碼至由感知轉換音訊編碼器輸出之資料串流中。
為了控制待在解碼側處執行之雜訊填充以便改良頻譜34,關於設定雜訊之位準,可視情況存在感知轉換音訊編碼器之雜訊位準電腦3,其藉由量測在共置至量化頻譜34之零部分40之部分5處的感知上加權頻譜4之位準來計算雜訊位準參數。亦可在前述資料串流中寫碼如此計算之雜訊位準參數,以便到達解碼器。
圖18b中展示感知轉換音訊解碼器。感知轉換音訊解碼器包含雜訊填充裝置30,其經組配以藉由運用展現頻譜上全域傾斜之雜訊來填充頻譜34以使得雜訊底限自低頻至高頻遞減而對如寫碼至由圖1a之編碼器產生之資料串流中的音訊信號之入埠頻譜34執行雜訊填充,以便獲得雜訊填充式頻譜36。使用參考記號6而指示的感知轉換音訊解碼器之雜訊頻域雜訊整型器經組配成以下文進一步藉由特定實例描述之方式使用經由資料串流而自編碼側獲得之頻譜感知加權函數來使雜訊填充式頻譜經受頻譜整型。可將由頻域雜訊整型器6輸出之此頻譜轉遞至反轉換器7,以便
在時域中重新建構音訊信號,且同樣地,在感知轉換音訊編碼器內,轉換器8可在頻譜加權器1之前,以便向頻譜加權器1提供音訊信號之頻譜。
運用展現頻譜上全域傾斜之雜訊9來填充頻譜34的顯著性如下:稍後,當雜訊填充式頻譜36經受由頻域雜訊整型器6進行之頻譜整型時,頻譜36將經受傾斜加權函數。舉例來說,相比於低頻之加權,在高頻下,頻譜將被放大。亦即,相對於較低頻率,在較高頻率下,頻譜36之位準將升高。此情形在頻譜36之原始頻譜上平坦部分中造成具有正斜率之頻譜上全域傾斜。因此,若雜訊9將以頻譜上平坦方式被填充至頻譜36中以便填充其零部分40,則由FDNS 6輸出之頻譜將在此等部分40內展示傾向於自(例如)低頻至高頻遞增之雜訊底限。亦即,當檢驗執行雜訊填充的整個頻譜或頻譜頻寬之至少部分時,吾人將看到,部分40內之雜訊所具有的傾向或線性回歸函數具有正斜率或負斜率。然而,因為雜訊填充裝置30運用展現正或負斜率(在圖1b中被指示為α)之頻譜上全域傾斜且傾斜成相反方向(相比於由FDNS 9造成之傾斜)的雜訊來填充頻譜34,所以補償由FDNS 6造成之頻譜傾斜,且如此引入至在FDNS 6之輸出處之經最終重新建構頻譜中的雜訊底限平坦或至少較平坦,藉此增加音訊品質,從而留下較少的深雜訊洞。
「頻譜上全域傾斜」應表示出填充至頻譜34中之雜訊9具有傾向於自低頻至高頻遞減(或遞增)之位準。舉例來說,當經由如填充至相連頻譜零部分40中(例如,相互頻
譜上遠離)的雜訊9之局域最大值而置放線性回歸線時,所得線性回歸線具有負(或正)斜率α。
雖然並非強制性,但感知轉換音訊編碼器之雜訊位準電腦可藉由以運用頻譜上全域傾斜而加權之方式來量測在部分5處的感知上加權頻譜4之位準而考量將雜訊填充至頻譜34中之傾斜方式,該頻譜上全域傾斜(例如)在α為負之狀況下具有正斜率且在α為正之情況下具有負斜率。由雜訊位準電腦應用之斜率(其在圖18a中被指示為β)就其絕對值而言不必與在解碼側處應用之斜率相同,但根據一實施例,可能為該等斜率相同之狀況。藉此,雜訊位準電腦3能夠以最佳方式且橫越整個頻譜頻寬使在解碼側處插入的雜訊9之位準更精確地適應於近似原始信號之雜訊位準。
稍後,將描述出可能可行的是經由資料串流中之明確傳信或經由隱含傳信而控制頻譜上全域傾斜之斜率α的變化,此在於(例如):雜訊填充裝置30自(例如)頻譜感知加權函數自身或自轉換窗長度切換推斷陡度。舉例來說,藉由文字推斷,可使斜率適應於窗長度。
存在供雜訊填充裝置30使雜訊9展現頻譜上全域傾斜之不同可行方式。舉例來說,圖18c說明出雜訊填充裝置30執行表示雜訊填充程序中之中間狀態的中間雜訊信號13與單調遞減(或遞增)函數15(亦即,橫越整個頻譜或執行雜訊填充之至少部分單調地頻譜上遞減(或遞增)的函數)之間的逐頻譜線相乘11,以獲得雜訊9。如圖18c所說明,中間雜訊信號13可能已被頻譜上整型。在此方面之細節係關
於下文進一步所概述之特定實施例,根據該等實施例,亦相依於調性來執行雜訊填充。然而,亦可略去或可在相乘11之後執行頻譜整型。可使用雜訊位準參數信號及資料串流以設定中間雜訊信號13之位準,但替代地,可使用標準位準來產生中間雜訊信號,從而應用純量雜訊位準參數以便在相乘11之後按比例調整頻譜線。如圖18c所說明,單調遞減函數15可為線性函數、分段線性函數、多項式函數或任何其他函數。
如下文將更詳細地所描述,將可行的是自適應性地設定由雜訊填充裝置30執行雜訊填充所處的整個頻譜之部分。
結合以特定非平坦且調性相依之方式來填充頻譜34中之相連頻譜零部分(亦即,頻譜洞)所根據的下文進一步所概述之實施例,將解釋到亦存在用於圖18c所說明之相乘11的替代例,以便激發至此所論述之頻譜上全域傾斜。
上文所描述之所有實施例所具有的共同之處在於:避免頻譜洞,且亦避免音調非零量化線之隱蔽。以上文所描述之方式,可節約信號之有雜訊部分中的能量,且以上文所描述之方式避免遮蔽音調分量之雜訊的添加。
在上文所描述之特定實例中,用於執行調性相依雜訊填充的旁側資訊之部分未將任何事項添加至使用雜訊填充的編碼解碼器之現有旁側資訊。不管雜訊填充,用於頻譜之重新建構的來自資料串流之所有資訊亦可用於雜訊填充之整型。
根據一實施實例,如下執行雜訊填充器30中之雜訊填充。運用非零值來替換量化至零的在雜訊填充開始索引上方之所有頻譜線。此情形係(例如)運用頻譜上恆定機率密度函數或使用來自其他頻譜頻譜圖位置(來源)之修補以隨機或偽隨機方式而進行。舉例來說,參見圖15。圖15展示用於將經受雜訊填充之頻譜的兩個實例,正如由量化器108輸出之頻譜圖12中之頻譜34或頻譜18,或由量化器154輸出之頻譜164。雜訊填充開始索引為介於iFreq0與iFreq1之間的頻譜線索引(0<iFreq0<=iFreq1),其中iFreq0及iFreq1為預定位元速率及頻寬相依頻譜線索引。雜訊填充開始索引等於量化至非零值之頻譜線的索引iStart(iFreq0<=iStart<=iFreq1),其中具有索引j(iStart<j<=Freq1)之所有頻譜線被量化至零。亦可在位元串流中傳輸用於iStart、iFreq0或iFreq1之不同值以允許在某些信號(例如,環境雜訊)中插入極低頻率雜訊。
在以下步驟中整型經插入雜訊:
1.在殘餘域或加權域中。上文已關於圖1至圖14而延伸性地描述在殘餘域或加權域中之整型。
2.已關於圖13及圖14而描述使用LPC或FDNS之頻譜整型(使用LPC之量值回應的在轉換域中之整型)。亦可使用比例因子(如在AAC中)或使用用於整型完整頻譜之任何其他頻譜整型方法(如關於圖9至圖12所描述)來整型頻譜。
3.已簡要地關於圖9至圖12而描述使用較少量之位元的使用時間雜訊整型(TNS)之選用整型。
雜訊填充所需要之僅有額外旁側資訊為位準,其係(例如)使用3個位元予以傳輸。
當使用FDNS時,無需使其適應於特定雜訊填充,且其使用數目小於比例因子之位元而遍及完整頻譜來整型雜訊。
可在經插入雜訊中引入頻譜傾斜以抵消來自以LPC為基礎之感知雜訊整型中之預強調的頻譜傾斜。因為預強調表示應用至輸入信號之平緩高通濾波器,所以傾斜補償可藉由將輕微低通濾波器之轉移函數之當量乘至經插入雜訊頻譜上來抵消此預強調。此低通操作之頻譜傾斜相依於預強調因子,且較佳地相依於位元速率及頻寬。參看圖8而論述此情形。
對於由1或多個連續零量化頻譜線構成之每一頻譜洞,可如圖16所描繪來整型經插入雜訊。可在編碼器中找到且在位元串流中傳輸雜訊填充位準。在非零量化線處不存在雜訊填充,且其在過渡區域中增加直至完全雜訊填充。在完全雜訊填充之區域中,雜訊填充位準等於(例如)在位元串流中傳輸之位準。此情形避免在可潛在地遮蔽音調分量或使音調分量失真之非零量化頻譜線的緊接鄰域中插入高位準之雜訊。然而,運用雜訊來替換所有零量化線,從而不留下頻譜洞。
過渡寬度相依於輸入信號之調性。針對每一時間訊框獲得調性。在圖17a至圖17d中,針對不同洞大小及過渡寬度例示性地描繪雜訊填充形狀。
頻譜之調性度量可基於可在位元串流中得到之資訊:
‧LTP增益
‧頻譜重新配置啟用旗標(參見[6])
‧TNS啟用旗標
過渡寬度係與調性成比例--對於似雜訊信號而言小,對於恰好的音調信號而言大。
在一實施例中,若LTP增益>0,則過渡寬度係與LTP增益成比例。若LTP增益等於0且啟用頻譜重新配置,則使用用於平均LTP增益之過渡寬度。若啟用TNS,則不存在過渡區域,但應將完全雜訊填充應用至所有零量化頻譜線。若LTP增益等於0且停用TNS及頻譜重新配置,則使用最小過渡寬度。
若在位元串流中不存在調性資訊,則可在無雜訊填充的情況下對經解碼信號計算調性度量。若不存在TNS資訊,則可對經解碼信號計算時間平坦度度量。然而,若可得到TNS資訊,則可直接地自TNS濾波器係數導出此平坦度度量,例如,藉由計算濾波器之預測增益。
在編碼器中,可較佳地藉由考量過渡寬度來計算雜訊填充位準。用以自量化頻譜判定雜訊填充位準之若干方式係可能的。最簡單方式係對雜訊填充區中之正規化輸入頻譜(亦即,在iStart上方)之所有線(其被量化至零)的能量(平方)求總和,接著將此總和除以此等線之數目以獲得每線之平均能量,且最終自平均線能量之平方根計算量化雜訊
位準。以此方式,自量化至零之頻譜分量之RMS有效地導出雜訊位準。舉例來說,使A為頻譜已被量化至零且屬於零部分中任一者(亦即,在開始頻率上方)的頻譜線之索引i之集合,且使N表示全域雜訊比例因子。尚未量化之頻譜之值將被表示為yi。另外,left(i)將為指示下者之函數:對於在索引i處之任何零量化頻譜值,在i所屬的零部分之低頻端處的零量化值之索引,且Fi(j)(其中j=0至Ji-1)將表示相依於調性而指派至開始於索引i之零部分的函數,其中Ji指示彼零部分之寬度。接著,可藉由N=sqrt(/cardinality(A))來判定N。
在較佳實施例中,考慮個別洞大小以及過渡寬度。為此,將數系列連續零量化線分組成洞區。接著藉由過渡函數來按比例調整一洞區中之每一正規化輸入頻譜線(亦即,任何相連頻譜零部分內之頻譜位置處的原始信號之每一頻譜值),如在先前章節中所描述,且隨後計算經按比例調整線之能量的總和。類似於在先前簡單實施例中,接著可自零量化線之RMS計算雜訊填充位準。在應用以上術語的情況下,可藉由N=sqrt((F left(i)(i-left(i)).y i)2/cardinality(A))來計算N。
然而,此途徑之問題為:小洞區(亦即,具有比過渡寬度之兩倍小得多之寬度的區)中之頻譜能量被低估,此係因為在RMS計算中,總和中除能量總和的頻譜線之數目不變。換言之,當量化頻譜主要地展現許多小洞區時,相比於當該頻譜稀疏且僅具有少數長洞區時,所得雜訊填
充位準將較低。為了確保在兩種此等狀況下找到相似雜訊位準,因此有利的是使在RMS計算之分母中使用的線計數適應於過渡寬度。最重要地,若洞區大小小於過渡寬度之兩倍,則彼洞區中的頻譜線之數目未被按原樣(亦即,作為整數個線)計數,而作為小於整數線數之分數線數計數。舉例來說,在關於N之以上公式中,相依於「小」零部分之數目,將藉由較小數來替換「cardinality(A)」。
此外,亦應在雜訊位準計算期間考量歸因於以LPC為基礎之感知寫碼的在雜訊填充中之頻譜傾斜的補償。更具體言之,較佳地將解碼器側雜訊填充傾斜補償之逆應用至原始未量化頻譜線,在計算雜訊位準之前,將原始未量化頻譜線量化至零。在使用預強調的以LPC為基礎之寫碼的上下文中,此隱含著在雜訊位準估計之前相對於較低頻率線稍微放大較高頻率線。在應用以上術語的情況下,可藉由N=sqrt((F left(i)(i-left(i)).LPF(i)-1.y i)2/cardinality(A))來計算N。如上文所提到,相依於情況,對應於函數15之函數LPF可具有正斜率,及經改變以相應地讀取HPF之LPF。簡要地注意到,在使用「LPF」之所有以上公式中,將Fleft設定至常數函數(諸如,設定至全1)將揭露如何應用藉由頻譜上全域傾斜使雜訊經受填充至頻譜34中而無調性相依洞填充之概念的方式。
可在編碼器中(諸如,在108或154中)執行N之可能計算。
最後,已發現,當恰好音調的靜止信號之諧波被
量化至零時,表示此等諧波之線導致相對高或不穩定(亦即,時間波動)雜訊位準。可藉由在雜訊位準計算中使用零量化線之平均量值而非其RMS來縮減此偽訊。雖然此替代途徑並不始終保證解碼器中的雜訊填充式線之能量重現在雜訊填充區中的原始線之能量,但其確實確保雜訊填充區中之頻譜峰對總雜訊位準僅具有有限貢獻,藉此縮減雜訊位準高估之風險。
最後,注意到,編碼器可甚至經組配以完全地執行雜訊填充,以便使其自身按照解碼器,諸如,出於合成式分析目的。
因此,以上實施例尤其描述一種用於運用經頻譜上整型雜訊來替換量化程序中引入之零的信號自適應性方法。描述藉由實施以下各者來滿足上述要求的用於編碼器及解碼器之雜訊填充延伸:
‧可使雜訊填充開始索引適應於頻譜量化之結果,但限於某一範圍
‧可在經插入雜訊中引入頻譜傾斜以抵消來自感知雜訊整型之頻譜傾斜
‧運用雜訊來替換在雜訊填充開始索引上方之所有零量化線
‧藉由過渡函數,使經插入雜訊衰減至靠近未量化至零之頻譜線
‧過渡函數相依於輸入信號之瞬時特性
‧雜訊填充開始索引、頻譜傾斜及過渡函數之調適可
基於可在解碼器中得到之資訊
無需額外旁側資訊,惟雜訊填充位準除外
雖然已在裝置之上下文中描述一些態樣,但很顯然,此等態樣亦表示對應方法之描述,其中區塊或器件對應於方法步驟或方法步驟之特徵。類似地,在方法步驟之上下文中描述的態樣亦表示對應裝置之對應區塊或項目或特徵的描述。該等方法步驟中之一些或全部係可由(或使用)硬體裝置(例如,微處理器、可規劃電腦或電子電路)執行。在一些實施例中,最重要的方法步驟中之某一者或多者係可由此裝置執行。
相依於某些實施要求,可以硬體或以軟體來實施本發明之實施例。可使用儲存有電子可讀控制信號之數位儲存媒體(例如,軟性磁碟、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或FLASH記憶體)來執行該實施,該等電子可讀控制信號與(或能夠與)一可規劃電腦系統合作,使得執行各別方法。因此,數位儲存媒體可為電腦可讀的。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,該等電子可讀控制信號能夠與一可規劃電腦系統合作,使得執行本文所描述之方法中之一者。
通常,可將本發明之實施例實施為具有程式碼之電腦程式產品,該程式碼係操作性的以當該電腦程式產品在電腦上執行時執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含用於執行本文所描述之方法中之一者之電腦程式,其儲存於機器可讀載體上。
換言之,本發明之方法之一實施例因此為具有程式碼之電腦程式,該程式碼用於當該電腦程式在電腦上執行時執行本文所描述之方法中之一者。
本發明之方法之另外實施例因此為一資料載體(或數位儲存媒體,或電腦可讀媒體),其包含記錄於其上的用於執行本文所描述之方法中之一者之電腦程式。資料載體、數位儲存媒體或記錄媒體通常係有形的及/或非過渡性的。
本發明之方法之另外實施例因此為一資料串流或一連串信號,其表示用於執行本文所描述之方法中之一者之電腦程式。舉例來說,該資料串流或該一連串信號可經組配以經由資料通信連接(例如,經由網際網路)而傳送。
一另外實施例包含一處理構件,例如,電腦或可規劃邏輯器件,其經組配或調適以執行本文所描述之方法中之一者。
一另外實施例包含一電腦,其具有安裝於其上的用於執行本文所描述之方法中之一者之電腦程式。
根據本發明之另外實施例包含經組配以將用於執行本文所描述之方法中之一者之電腦程式傳送(例如,電子地或光學的)至接收器的裝置或系統。舉例來說,該接收器可為電腦、行動器件、記憶體器件或其類似者。舉例來說,該裝置或系統可包含用於將電腦程式傳送至接收器之
檔案伺服器。
在一些實施例中,可使用可規劃邏輯器件(例如,場可規劃閘陣列)以執行本文所描述之方法之功能性中的一些或全部。在一些實施例中,場可規劃閘陣列可與微處理器合作,以便執行本文所描述之方法中之一者。通常,該等方法係較佳地由任何硬體裝置執行。
可使用硬體裝置或使用電腦或使用硬體裝置與電腦之組合來實施本文所描述之裝置。
可使用硬體裝置或使用電腦或使用硬體裝置與電腦之組合來執行本文所描述之方法。
上述實施例僅僅說明本發明之原理。應理解,本文所描述之配置及細節的修改及變化對於其他熟習此項技術者將顯而易見。因此,意圖係僅受到即將出現的專利申請專利範圍之範疇限制,而不受到作為本文中之實施例之描述及解釋而呈現的特定細節限制。
[1] B. G. G. F. S. G. M. M. H. P. J. H. S. W. G. S. J. H. Nikolaus Rettelbach, "Noise Filler, Noise Filling Parameter Calculator Encoded Audio Signal Representation, Methods and Computer Program". Patent US 2011/0173012 A1.
[2]Extended Adaptive Multi-Rate-Wideband (AMR-WB+) codec, 3GPP TS 26.290 V6.3.0, 2005-2006.
[3] B. G. G. F. S. G. M. M. H. P. J. H. S. W. G. S. J.
H. Nikolaus Rettelbach, "Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program". Patent WO 2010/003556 A1.
[4] M. M. N. R. G. F. J. R. J. L. S. W. S. B. S. D. C. H. R. L. P. G. B. B. J. L. K. K. H. Max Neuendorf, "MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types," in 132nd Convertion AES, Budapest, 2012. Also appears in the Journal of the AES, vol. 61, 2013.
[5] M. M. M. N. a. R. G. Guillaume Fuchs, "MDCT-Based Coder for Highly Adaptive Speech and Audio Coding," in 17th European Signal Processing Conference (EUSIPCO 2009), Glasgow, 2009.
[6] H. Y. K. Y. M. T. Harada Noboru, "Coding Mmethod, Decoding Method, Coding Device, Decoding Device, Program, and Recording Medium". Patent WO 2012/046685 A1.
30‧‧‧裝置
32‧‧‧雜訊填充器
34‧‧‧調性判定器/稀疏頻譜
36‧‧‧雜訊填充式頻譜
38‧‧‧調性提示
Claims (21)
- 一種用以執行雜訊填充之裝置,其中該裝置係組配來以取決於一音訊信號之一音調性的一方式來對該音訊信號之頻譜執行雜訊填充,其中該裝置係組配來使用經由一線性預測頻譜包絡而控制的一頻譜上變化且信號適應性之量化步長、或關於比例因子頻帶之比例因子來將如在該雜訊填充之後導出的該頻譜去量化,該線性預測頻譜包絡係透過在該頻譜被編碼入之一資料串流中的線性預測係數予以傳信,關於比例因子頻帶之該等比例因子係在該頻譜被編碼入之該資料串流中傳信,其中該裝置係組配來使用下列一函數於頻譜上塑型之雜訊來填充該音訊信號之頻譜的一相連頻譜零部分:採取在該相連頻譜零部分之一內部中的一最大值且具有向外下降邊緣之一函數,而該等向外下降邊緣之一絕對斜率係負相依於該音調性,或者採取在該相連頻譜零部分之一內部中的一最大值且具有向外下降邊緣之一函數,而該等向外下降邊緣之一頻譜寬度係正相依於該音調性,或者一常數或單峰函數,其對該相連頻譜零部分之外部四等份部的一積分(相對於1之積分正規化)係負相依於該音調性。
- 一種用以執行雜訊填充之裝置,其中該裝置係組配來以 取決於一音訊信號之一音調性的一方式來對該音訊信號之頻譜執行雜訊填充,其中該裝置係組配來:使用經由一線性預測頻譜包絡而控制的一頻譜上變化且信號適應性之量化步長或關於比例因子頻帶之比例因子來將如在該雜訊填充之後導出的該頻譜去量化,該線性預測頻譜包絡係透過在該頻譜被編碼入之一資料串流中的線性預測係數予以傳信,關於比例因子頻帶之該等比例因子係在該頻譜被編碼入之該資料串流中傳信,識別該音訊信號之頻譜的相連頻譜零部分,且將該雜訊填充應用至所識別之該等相連頻譜零部分上,以及以使用一函數於頻譜上塑型之雜訊來分別填充該音訊信號之頻譜的該等相連頻譜零部分,該函數取決於一個別相連頻譜零部分之寬度而設定,使得該函數限於該個別相連頻譜零部分,且該函數係取決於該音訊信號之該音調性而設定,使得若該音訊信號之該音調性遞增,則該函數在該個別相連頻譜零部分之內部中變得更緊密,且遠離該個別相連頻譜零部分之外部邊緣。
- 如請求項1或2之裝置,其中該裝置係組配來使用一純量全域雜訊位準來按比例縮放將該等相連頻譜零部分予以填充之該雜訊,該純量全域雜訊位準以一頻譜上全域方式在該頻譜被編碼入之該資料串流中傳信。
- 如請求項1或2之裝置,其中該裝置經組配來使用一隨機或偽隨機程序或使用修補來產生將該等相連頻譜零部 分予以填充之該雜訊。
- 如請求項1或2之裝置,其中該裝置經組配以自於該資料串流內所編碼之一編碼參數來導出該音調性。
- 如請求項5之裝置,其中該裝置經組配成使得該編碼參數為一長期預測(LTP)或時間雜訊整型(TNS)啟用旗標或增益,及/或一頻譜重新配置啟用旗標。
- 如請求項1或2之裝置,其中該裝置經組配以將該雜訊填充之執行限制於該音訊信號之頻譜的一高頻頻譜部分上。
- 如請求項1或2之裝置,其中該裝置經組配以設定對應於該資料串流中之一明確傳信的該高頻頻譜部分之一低頻開始位置。
- 如請求項1或2之裝置,其中該裝置係組配來在執行該雜訊填充時,以一位準自低頻至高頻呈現一遞減的雜訊來填充該頻譜之相連頻譜零部分,從而趨近一頻譜低通濾波器之轉移函數,以便抵消由用以編碼該音訊信號之頻譜之一預強調所造成的一頻譜傾斜。
- 如請求項9之裝置,其中該裝置經組配以使該遞減之一陡度適應於該預強調之一預強調因子。
- 如請求項1或2之裝置,其中該裝置經組配以識別該音訊信號之頻譜的相連頻譜零部分且以函數來填充該等相連頻譜零部分,該等函數係取決於一個別相連頻譜零部分之寬度而設定使得該函數限制於該個別相連頻譜零部分,且該等函數係取決於該音訊信號之該音調性而設 定,使得若該音訊信號之該音調性遞增,則該函數在該個別相連頻譜零部分之該內部中變得愈加更緊密,且遠離於該個別相連頻譜零部分之邊緣,且另外,該等函數係取決於該個別相連頻譜零部分之頻譜位置而設定,使得該函數之一比例縮放取決於該個別相連頻譜零部分之頻譜位置。
- 一種感知轉換音訊解碼器,其包含:如請求項1或2之一用以執行雜訊填充之裝置,其組配來對一音訊信號之一頻譜執行雜訊填充;以及一頻域雜訊塑型器,其組配來使用一頻譜感知加權函數來使由該裝置所填充之該頻譜經受頻譜塑型。
- 一種支援雜訊填充之音訊編碼器,其包含如請求項1或2之一用以執行雜訊填充之裝置,該編碼器係組配來使用由該裝置填充以雜訊之頻譜,供合成分析使用。
- 一種支援雜訊填充之音訊編碼器,其組配來使一音訊信號之一頻譜量化且編碼入一資料串流中,以及以取決於該音訊信號之一音調性的一方式來設定用於對該音訊信號之該頻譜執行雜訊填充的一頻譜上全域雜訊填充位準,且編碼入該資料串流中,其中該編碼器組配來在設定及編碼該頻譜上全域雜訊填充位準時,得到取決於該音訊信號之該音調性而頻譜上整型的該頻譜之相連頻譜零部分內的該音訊信號之一位準之一度量,其中該音訊信號之頻譜的該等相連頻譜零部分使 用下列一函數於頻譜上塑型:採取在該相連頻譜零部分之一內部中的一最大值且具有向外下降邊緣之一函數,而該等向外下降邊緣之一絕對斜率係負相依於該音調性,或者採取在該相連頻譜零部分之一內部中的一最大值且具有向外下降邊緣之一函數,而該等向外下降邊緣之一頻譜寬度係正相依於該音調性,或者一常數或單峰函數,其對該相連頻譜零部分之外部四等份部的一積分(相對於1之積分正規化)係負相依於該音調性。
- 如請求項14之音訊編碼器,其中該度量為一均方根值。
- 如請求項14之音訊編碼器,其中該編碼器組配來根據一線性預測頻譜包絡而使用一頻譜上變化且信號適應性之量化步長來將該頻譜量化,經由該資料串流中的線性預測係數來傳信該線性預測頻譜包絡,及將該頻譜編碼入該資料串流中。
- 如請求項14之音訊編碼器,其中該編碼器組配來根據關於比例因子頻帶之比例因子而使用一頻譜上變化且信號適應性之量化步長來將該頻譜量化,在該資料串流中傳信該等比例因子,及將該頻譜編碼入該資料串流中。
- 如請求項14之音訊編碼器,其中該裝置組配來從用以編碼該音訊信號之頻譜的一編碼參數導出該音調性。
- 一種用以執行雜訊填充之方法,其中該方法包含以取決於一音訊信號之一音調性的一方式來對該音訊信號之 一頻譜執行雜訊填充,其中該方法包含使用經由一線性預測頻譜包絡而控制的一頻譜上變化且信號適應性之量化步長、或關於比例因子頻帶之比例因子來將如在該雜訊填充之後導出的該頻譜去量化,該線性預測頻譜包絡係透過在該頻譜被編碼入之一資料串流中的線性預測係數予以傳信,關於比例因子頻帶之該等比例因子在該頻譜被編碼入之該資料串流中傳信,其中該方法包含使用下列一函數於頻譜上塑型之雜訊來填充該音訊信號之頻譜的一相連頻譜零部分:採取在該相連頻譜零部分之一內部中的一最大值且具有向外下降邊緣之一函數,而該等向外下降邊緣之一絕對斜率係負相依於該音調性,或者採取在該相連頻譜零部分之一內部中的一最大值且具有向外下降邊緣之一函數,而該等向外下降邊緣之一頻譜寬度係正相依於該音調性,或者一常數或單峰函數,其對該相連頻譜零部分之外部四等份部的一積分(相對於1之積分正規化)係負相依於該音調性。
- 一種支援雜訊填充的用於音訊編碼之方法,該方法包含:使一音訊信號之一頻譜量化且將該頻譜編碼入一資料串流中;以及以取決於該音訊信號之一音調性的一方式來設定用於對該音訊信號之該頻譜執行雜訊填充的一頻譜上全域雜訊填充位準且將該頻譜上全域雜訊填充位準編碼入該資料串流中,其中該設定及編碼該頻譜上 全域雜訊填充位準之步驟包含量測取決於該音訊信號之該音調性而頻譜上塑型的該頻譜之相連頻譜零部分內的該音訊信號之一位準,其中該音訊信號之頻譜的該等相連頻譜零部分使用下列一函數於頻譜上塑型:採取在該相連頻譜零部分之一內部中的一最大值且具有向外下降邊緣之一函數,而該等向外下降邊緣之一絕對斜率係負相依於該音調性,或者採取在該相連頻譜零部分之一內部中的一最大值且具有向外下降邊緣之一函數,而該等向外下降邊緣之一頻譜寬度係正相依於該音調性,或者一常數或單峰函數,其對該相連頻譜零部分之外部四等份部的一積分(相對於1之積分正規化)係負相依於該音調性。
- 一種具有用以執行雜訊填充之方法的程式碼之電腦程式,該程式碼係用以於在一電腦上運行時執行如請求項19或20之方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361758209P | 2013-01-29 | 2013-01-29 | |
PCT/EP2014/051630 WO2014118175A1 (en) | 2013-01-29 | 2014-01-28 | Noise filling concept |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201434034A TW201434034A (zh) | 2014-09-01 |
TWI529700B true TWI529700B (zh) | 2016-04-11 |
Family
ID=50029035
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW103103524A TWI536367B (zh) | 2013-01-29 | 2014-01-29 | 感知轉換音訊編碼中之雜訊塡充技術 |
TW103103519A TWI529700B (zh) | 2013-01-29 | 2014-01-29 | 雜訊塡充技術 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW103103524A TWI536367B (zh) | 2013-01-29 | 2014-01-29 | 感知轉換音訊編碼中之雜訊塡充技術 |
Country Status (21)
Country | Link |
---|---|
US (4) | US9524724B2 (zh) |
EP (6) | EP3761312B1 (zh) |
JP (2) | JP6158352B2 (zh) |
KR (6) | KR101757347B1 (zh) |
CN (5) | CN110223704B (zh) |
AR (2) | AR094678A1 (zh) |
AU (2) | AU2014211544B2 (zh) |
BR (2) | BR112015017748B1 (zh) |
CA (2) | CA2898029C (zh) |
ES (4) | ES2714289T3 (zh) |
HK (2) | HK1218345A1 (zh) |
MX (2) | MX345160B (zh) |
MY (2) | MY185164A (zh) |
PL (4) | PL2951817T3 (zh) |
PT (4) | PT3451334T (zh) |
RU (2) | RU2660605C2 (zh) |
SG (2) | SG11201505915YA (zh) |
TR (2) | TR201902394T4 (zh) |
TW (2) | TWI536367B (zh) |
WO (2) | WO2014118176A1 (zh) |
ZA (2) | ZA201506266B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101757347B1 (ko) | 2013-01-29 | 2017-07-26 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. | 지각적 변환 오디오 코딩에서의 노이즈 채움 |
MX347316B (es) * | 2013-01-29 | 2017-04-21 | Fraunhofer Ges Forschung | Aparato y método para sintetizar una señal de audio, decodificador, codificador, sistema y programa de computación. |
AU2014350366B2 (en) | 2013-11-13 | 2017-02-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoder for encoding an audio signal, audio transmission system and method for determining correction values |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980792A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating an enhanced signal using independent noise-filling |
DE102016104665A1 (de) * | 2016-03-14 | 2017-09-14 | Ask Industries Gmbh | Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals |
US10146500B2 (en) | 2016-08-31 | 2018-12-04 | Dts, Inc. | Transform-based audio codec and method with subband energy smoothing |
TWI807562B (zh) | 2017-03-23 | 2023-07-01 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合 |
EP3483880A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3759917B1 (en) * | 2018-02-27 | 2024-07-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | A spectrally adaptive noise filling tool (sanft) for perceptual transform coding of still and moving images |
US10950251B2 (en) * | 2018-03-05 | 2021-03-16 | Dts, Inc. | Coding of harmonic signals in transform-based audio codecs |
CN112735449B (zh) * | 2020-12-30 | 2023-04-14 | 北京百瑞互联技术有限公司 | 优化频域噪声整形的音频编码方法及装置 |
CN113883672B (zh) * | 2021-09-13 | 2022-11-15 | Tcl空调器(中山)有限公司 | 噪音类型识别方法、空调器及计算机可读存储介质 |
WO2023118598A1 (en) * | 2021-12-23 | 2023-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for spectrotemporally improved spectral gap filling in audio coding using a tilt |
WO2023117144A1 (en) * | 2021-12-23 | 2023-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for spectrotemporally improved spectral gap filling in audio coding using a tilt |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5040217A (en) * | 1989-10-18 | 1991-08-13 | At&T Bell Laboratories | Perceptual coding of audio signals |
US5692102A (en) * | 1995-10-26 | 1997-11-25 | Motorola, Inc. | Method device and system for an efficient noise injection process for low bitrate audio compression |
US6167133A (en) | 1997-04-02 | 2000-12-26 | At&T Corporation | Echo detection, tracking, cancellation and noise fill in real time in a communication system |
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
DE60209888T2 (de) * | 2001-05-08 | 2006-11-23 | Koninklijke Philips Electronics N.V. | Kodieren eines audiosignals |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
CA2454296A1 (en) * | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
CA2596341C (en) * | 2005-01-31 | 2013-12-03 | Sonorit Aps | Method for concatenating frames in communication system |
KR100707186B1 (ko) * | 2005-03-24 | 2007-04-13 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체 |
US8332216B2 (en) | 2006-01-12 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte., Ltd. | System and method for low power stereo perceptual audio coding using adaptive masking threshold |
US7953595B2 (en) | 2006-10-18 | 2011-05-31 | Polycom, Inc. | Dual-transform coding of audio signals |
KR101291672B1 (ko) * | 2007-03-07 | 2013-08-01 | 삼성전자주식회사 | 노이즈 신호 부호화 및 복호화 장치 및 방법 |
CN101303855B (zh) * | 2007-05-11 | 2011-06-22 | 华为技术有限公司 | 一种舒适噪声参数产生方法和装置 |
US9653088B2 (en) | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
PT2186089T (pt) * | 2007-08-27 | 2019-01-10 | Ericsson Telefon Ab L M | Método e dispositivo para descodificação espetral percetual de um sinal áudio que inclui preenchimento de buracos espetrais |
CN101939782B (zh) * | 2007-08-27 | 2012-12-05 | 爱立信电话股份有限公司 | 噪声填充与带宽扩展之间的自适应过渡频率 |
US8527265B2 (en) * | 2007-10-22 | 2013-09-03 | Qualcomm Incorporated | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs |
EP2207166B1 (en) * | 2007-11-02 | 2013-06-19 | Huawei Technologies Co., Ltd. | An audio decoding method and device |
EP2077551B1 (en) * | 2008-01-04 | 2011-03-02 | Dolby Sweden AB | Audio encoder and decoder |
CN101335000B (zh) * | 2008-03-26 | 2010-04-21 | 华为技术有限公司 | 编码的方法及装置 |
CN103000178B (zh) * | 2008-07-11 | 2015-04-08 | 弗劳恩霍夫应用研究促进协会 | 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码 |
EP2304719B1 (en) | 2008-07-11 | 2017-07-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, methods for providing an audio stream and computer program |
MY159110A (en) | 2008-07-11 | 2016-12-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V | Audio encoder and decoder for encoding and decoding audio samples |
CN102177426B (zh) | 2008-10-08 | 2014-11-05 | 弗兰霍菲尔运输应用研究公司 | 多分辨率切换音频编码/解码方案 |
WO2011042464A1 (en) * | 2009-10-08 | 2011-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping |
PL2489041T3 (pl) * | 2009-10-15 | 2020-11-02 | Voiceage Corporation | Jednoczesne kształtowanie szumu w dziedzinie czasu i w dziedzinie częstotliwości dla przekształcenia tdac |
EP4362014A1 (en) * | 2009-10-20 | 2024-05-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation |
CN102063905A (zh) * | 2009-11-13 | 2011-05-18 | 数维科技(北京)有限公司 | 一种用于音频解码的盲噪声填充方法及其装置 |
CN102194457B (zh) * | 2010-03-02 | 2013-02-27 | 中兴通讯股份有限公司 | 音频编解码方法、系统及噪声水平估计方法 |
US20120029926A1 (en) * | 2010-07-30 | 2012-02-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals |
US9208792B2 (en) * | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
WO2012046685A1 (ja) | 2010-10-05 | 2012-04-12 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体 |
AR085895A1 (es) * | 2011-02-14 | 2013-11-06 | Fraunhofer Ges Forschung | Generacion de ruido en codecs de audio |
EP2975611B1 (en) * | 2011-03-10 | 2018-01-10 | Telefonaktiebolaget LM Ericsson (publ) | Filling of non-coded sub-vectors in transform coded audio signals |
KR102053900B1 (ko) * | 2011-05-13 | 2019-12-09 | 삼성전자주식회사 | 노이즈 필링방법, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기 |
EP2728577A4 (en) * | 2011-06-30 | 2016-07-27 | Samsung Electronics Co Ltd | APPARATUS AND METHOD FOR GENERATING A BANDWIDTH EXTENSION SIGNAL |
US8731949B2 (en) * | 2011-06-30 | 2014-05-20 | Zte Corporation | Method and system for audio encoding and decoding and method for estimating noise level |
CN102208188B (zh) * | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
KR101757347B1 (ko) * | 2013-01-29 | 2017-07-26 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. | 지각적 변환 오디오 코딩에서의 노이즈 채움 |
-
2014
- 2014-01-28 KR KR1020157022827A patent/KR101757347B1/ko active IP Right Grant
- 2014-01-28 PL PL14701753T patent/PL2951817T3/pl unknown
- 2014-01-28 MY MYPI2015001882A patent/MY185164A/en unknown
- 2014-01-28 PL PL18199319T patent/PL3451334T3/pl unknown
- 2014-01-28 WO PCT/EP2014/051631 patent/WO2014118176A1/en active Application Filing
- 2014-01-28 KR KR1020167019944A patent/KR101778217B1/ko active IP Right Grant
- 2014-01-28 PT PT181993197T patent/PT3451334T/pt unknown
- 2014-01-28 EP EP20192419.8A patent/EP3761312B1/en active Active
- 2014-01-28 MY MYPI2015001884A patent/MY172238A/en unknown
- 2014-01-28 AU AU2014211544A patent/AU2014211544B2/en active Active
- 2014-01-28 KR KR1020167019946A patent/KR101778220B1/ko active IP Right Grant
- 2014-01-28 TR TR2019/02394T patent/TR201902394T4/tr unknown
- 2014-01-28 BR BR112015017748-4A patent/BR112015017748B1/pt active IP Right Grant
- 2014-01-28 CN CN201910420349.3A patent/CN110223704B/zh active Active
- 2014-01-28 EP EP14701753.7A patent/EP2951817B1/en active Active
- 2014-01-28 CA CA2898029A patent/CA2898029C/en active Active
- 2014-01-28 EP EP20164371.5A patent/EP3693962B1/en active Active
- 2014-01-28 EP EP18199319.7A patent/EP3451334B1/en active Active
- 2014-01-28 SG SG11201505915YA patent/SG11201505915YA/en unknown
- 2014-01-28 EP EP18206224.0A patent/EP3471093B1/en active Active
- 2014-01-28 PT PT14701753T patent/PT2951817T/pt unknown
- 2014-01-28 PL PL14701991T patent/PL2951818T3/pl unknown
- 2014-01-28 CN CN201910419597.6A patent/CN110197667B/zh active Active
- 2014-01-28 BR BR112015017633-0A patent/BR112015017633B1/pt active IP Right Grant
- 2014-01-28 PL PL18206224T patent/PL3471093T3/pl unknown
- 2014-01-28 CN CN201910419610.8A patent/CN110189760B/zh active Active
- 2014-01-28 JP JP2015555680A patent/JP6158352B2/ja active Active
- 2014-01-28 ES ES14701753T patent/ES2714289T3/es active Active
- 2014-01-28 KR KR1020167019945A patent/KR101877906B1/ko active IP Right Grant
- 2014-01-28 EP EP14701991.3A patent/EP2951818B1/en active Active
- 2014-01-28 ES ES14701991T patent/ES2709360T3/es active Active
- 2014-01-28 MX MX2015009600A patent/MX345160B/es active IP Right Grant
- 2014-01-28 CA CA2898024A patent/CA2898024C/en active Active
- 2014-01-28 CN CN201480019092.6A patent/CN105264597B/zh active Active
- 2014-01-28 ES ES18199319T patent/ES2796485T3/es active Active
- 2014-01-28 PT PT182062240T patent/PT3471093T/pt unknown
- 2014-01-28 MX MX2015009601A patent/MX343572B/es active IP Right Grant
- 2014-01-28 PT PT14701991T patent/PT2951818T/pt unknown
- 2014-01-28 SG SG11201505893TA patent/SG11201505893TA/en unknown
- 2014-01-28 RU RU2015136505A patent/RU2660605C2/ru active
- 2014-01-28 KR KR1020157022497A patent/KR101897092B1/ko active IP Right Grant
- 2014-01-28 WO PCT/EP2014/051630 patent/WO2014118175A1/en active Application Filing
- 2014-01-28 JP JP2015555679A patent/JP6289508B2/ja active Active
- 2014-01-28 CN CN201480006656.2A patent/CN105190749B/zh active Active
- 2014-01-28 ES ES18206224T patent/ES2834929T3/es active Active
- 2014-01-28 KR KR1020177028123A patent/KR101926651B1/ko active IP Right Grant
- 2014-01-28 TR TR2019/02849T patent/TR201902849T4/tr unknown
- 2014-01-28 AU AU2014211543A patent/AU2014211543B2/en active Active
- 2014-01-28 RU RU2015136502A patent/RU2631988C2/ru active
- 2014-01-29 TW TW103103524A patent/TWI536367B/zh active
- 2014-01-29 AR ARP140100294A patent/AR094678A1/es active IP Right Grant
- 2014-01-29 TW TW103103519A patent/TWI529700B/zh active
- 2014-01-29 AR ARP140100295A patent/AR094679A1/es active IP Right Grant
-
2015
- 2015-07-28 US US14/811,748 patent/US9524724B2/en active Active
- 2015-07-29 US US14/812,354 patent/US9792920B2/en active Active
- 2015-08-27 ZA ZA2015/06266A patent/ZA201506266B/en unknown
- 2015-08-27 ZA ZA2015/06269A patent/ZA201506269B/en unknown
-
2016
- 2016-06-03 HK HK16106324.6A patent/HK1218345A1/zh unknown
- 2016-06-03 HK HK16106322.8A patent/HK1218344A1/zh unknown
-
2017
- 2017-09-07 US US15/698,442 patent/US10410642B2/en active Active
-
2019
- 2019-07-26 US US16/523,588 patent/US11031022B2/en active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI529700B (zh) | 雜訊塡充技術 |