TW201618083A - 使用獨立噪聲填充產生增強信號的裝置及方法 - Google Patents

使用獨立噪聲填充產生增強信號的裝置及方法 Download PDF

Info

Publication number
TW201618083A
TW201618083A TW104123736A TW104123736A TW201618083A TW 201618083 A TW201618083 A TW 201618083A TW 104123736 A TW104123736 A TW 104123736A TW 104123736 A TW104123736 A TW 104123736A TW 201618083 A TW201618083 A TW 201618083A
Authority
TW
Taiwan
Prior art keywords
noise
spectral
region
source
values
Prior art date
Application number
TW104123736A
Other languages
English (en)
Other versions
TWI575511B (zh
Inventor
薩斯洽 帝斯奇
拉夫 紀哲爾
安卓斯 尼德米爾
曼薩斯 紐新傑
高斯坦汀 史密德
史蒂芬 衛爾德
班傑明 史屈博特
克利斯汀安 盧坎
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201618083A publication Critical patent/TW201618083A/zh
Application granted granted Critical
Publication of TWI575511B publication Critical patent/TWI575511B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Picture Signal Circuits (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Dc Digital Transmission (AREA)
  • Image Processing (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Tests Of Electronic Circuits (AREA)

Abstract

一種裝置從一輸入訊號(600)產生一增強訊號,其中該增強訊號具有多個頻譜值供一增強頻譜區域,該等頻譜值供該等增強頻譜區域未含在該輸入訊號(600)中,包括:一映像器(602),將該輸入訊號的一來源頻譜區域映像至在增強頻譜區域中的一目標區域,該來源頻譜區域包括一噪聲填充區域(302);以及一噪聲填充器(604),設來產生多個第一噪聲值供噪聲填充區域(302)在該輸入訊號的該來源頻譜區域以及產生多個第二噪聲值供在目標區域的一噪聲區域,其中該等第二噪聲值係與該等第一噪聲值去相關或產生多個第二噪聲值供一噪聲區域於該目標區域,其中該等第二噪聲值係與該等第一噪聲值在該來源區域去相關。

Description

使用獨立噪聲填充產生增強信號的裝置及方法
本發明係關於訊號處理,特別關於音源訊號處理。
以資料削減供有效率的儲存或訊號傳輸為目的的音源訊號的感知編碼係廣泛地實際使用。特別是當最低位元率達成時,所用的編碼導至音源品質降低經常主要是因為在編碼器側要傳送的音源訊號帶寬的限制。在當前編碼中,已知方法存在供經由音源訊號帶寬擴展(BWE)的解碼器側訊號復原,即頻譜頻段複製(SBR)。
在低位元率編碼,使用俗稱的噪聲填充。在解碼器中,因嚴格的位元率限制已經量化為0明顯的頻譜區域係填有合成噪聲。
通常,此二技術在低位元率編碼應用中結合。再者,整合方案例如智慧型填隙(IGF)存在結合音源編碼、噪聲填充以及頻譜填隙。
然而,全部這些方法的共通在於在一第一步驟中基帶或音源訊號係使用波形解碼以及噪聲填充而再現,且在一第二步驟中BWE或IGF處理係使用立即再現訊號來進行。這導致藉由噪聲填充已經填充於基帶的相同噪聲值當再現時係用來在高頻段(在BWE)產生缺掉的部分或填充剩下的頻譜間隙(在IGF)。使用高度相關的噪聲供再現多個頻譜區域在BWE或IGF可導致感知的損傷。
現有技術相關議題包括
‧SBR為一後置處理器至波形解碼[1-3]
‧AAC PNS[4]
‧MPEG-D USAC噪聲填充[5]
‧G.719 and G.722.1C[6]
‧MPEG-H 3D IGF[8]
以下文獻及專利案所述之方法係與本案相關:
[1] M. Dietz, L. Liljeryd, K. Kjörling and O. Kunz, “Spectral Band Replication, a novel approach in audio coding,” in 112th AES Convention, Munich, Germany, 2002.
[2] S. Meltzer, R. Böhm and F. Henn, “SBR enhanced audio codecs for digital broadcasting such as “Digital Radio Mondiale” (DRM),” in 112th AES Convention, Munich, Germany, 2002.
[3] T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, “Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm,” in 112th AES Convention, Munich, Germany, 2002.
[4] J. Herre, D. Schulz, Extending the MPEG-4 AAC Codec by Perceptual Noise Substitution, Audio Engineering Society 104th Convention, Preprint 4720, Amsterdam, Netherlands, 1998
[5] European Patent application EP2304720 USAC noise-filling
[6] ITU-T Recommendations G.719 and G.221C
[7] EP 2704142
[8] EP 13177350
以這些方法處理的音源訊號受苦於假造例如粗糙、調變失真以及感覺不愉悅的音色,特別在低位元率以及伴隨的低頻段寬度及/或在LF範圍中多個頻譜洞的出現。之後也將說明的此原因主要是擴展或間隙填充頻譜的再現的部分係基於一或更多個直接複本其含有從基帶的噪聲。從再現的噪聲中所述不想要的相關所造成的時間調變係可聽見的,在一傳播方式中為感知的粗糙或討厭的失真。全部存在的方法像是mp3+SBR、AAC+SBR、USAC、G.719及G.722.1C、以及MPEG-H 3D IGF先做一完整的核心解碼其包括填充多個頻譜間隙前的噪聲填充或具從核心複製或鏡像的頻譜資料的高頻段。
本發明的一目的為提供一種產生一增強訊號的改善概念。
這目的可由請求項1的產生增強訊號的裝置、請求項13的產生增強訊號的方法、請求項14的編碼及解碼系統、請求項15的編碼及解碼方法或請求項16的電腦程式來達成。
本發明係基於藉由產生多個第一噪聲值供一噪聲填充區域在輸入訊號的一來源頻譜區域以及然後藉由產生多個第二獨立噪聲值供一噪聲區域於目的或目標區域,即在增強區域其現在具有多個噪聲值,即獨立於多個第一噪聲值的多個第二噪聲值,得到一增強訊號的音源品質的明顯改善其藉由帶寬擴展或智慧型填隙或任合其他產生具有多個頻譜值的一增強訊號供一增強頻譜區域沒有含在一輸入訊號內的方式而產生。
因此,因頻譜值映像在基帶及增強頻段有從屬噪聲的習知問題係可消除,具假造的相關問題例如粗糙、調變失真以及感覺不愉悅的音色特別在低位元率係可消除。
換句話說,多個第二噪聲值的噪聲填充係與該等第一噪聲值去相關,即多個噪聲值,其至少部分獨立於多個第一噪聲值,確保假造不再發生或至少隨著先前技術減少。因此,多個噪聲填充頻譜值的先前技術處理在基帶藉由一直截的帶寬擴展或智慧型填隙操作並沒有與從基帶的噪聲去相關,但舉例來說僅改變程度。然而,一方面引進多個去相關噪聲值在來源頻段且另一方面在目標頻段,較佳是衍生於一分開的噪聲處理,提供了最佳結果。然而,即使多個噪聲值的引進沒有完全去相關或沒有完全獨立,但至少部分地去相關例如藉由一去相關值0.5或更小,當多個零表現的去相關值完全去相關時,改善了習知技術全相關問題。
因此,多個實施例係關於在一感知的解碼器中波形解碼、帶寬擴展或填隙以及噪聲填充的結合。
相對於已經存在的概念,其他優點是訊號失真及感知的粗糙假造的出現其目前典型地供在隨波形解碼及噪聲填充之後的計算帶寬擴展或填隙將可避免。
在一些實施例中,這是因為前述處理步驟的次序的改變。較佳是直接在波形解碼之後進行帶寬擴展或填隙,更較佳的是使用不相關的噪聲計算隨已經再現的訊號之後的噪聲填充。
在其他實施例,波形解碼以及噪聲填充可進行在傳統次序以及在處理中進一步降取樣,多個噪聲值可以由適當地縮放的不相關的噪聲來取代。
因此,藉由移動噪聲填充步驟至一處理鏈的一非常尾端以及使用不相關的噪聲供修補或填隙,本發明對付在噪聲填充頻譜因複製操作或鏡像操作發生的問題。
99‧‧‧音源訊號、音源輸入訊號、訊號、時間域音源訊號、輸入音源訊號、編碼音源訊號
100‧‧‧時間頻譜轉換器
101‧‧‧頻譜表現、頻譜、頻譜分析器
102‧‧‧頻譜分析器
103‧‧‧第一組第一頻譜部分、核心頻帶以及音調成分
104‧‧‧參數計算器/參數化編碼器
105‧‧‧第二組第二頻譜部分
106‧‧‧頻譜域音源編碼器、頻譜域編碼器
107‧‧‧第一編碼表現
108‧‧‧位元流形成器、區塊、位元流多工器
109‧‧‧第二編碼表現、線
112‧‧‧頻譜域音源解碼器、區塊、頻譜域解碼器
114‧‧‧參數化解碼器、區塊
116‧‧‧頻率再生器
117‧‧‧線、再建的第二組頻譜部分
118‧‧‧頻譜時間轉換器
119‧‧‧時域表示
200‧‧‧解多工器/解碼器
202‧‧‧IGF區塊、IGF
203‧‧‧線
204‧‧‧聯合聲道解碼、聯合聲道解碼區塊
206‧‧‧音調遮罩、音調遮罩區塊
208‧‧‧組合器
209‧‧‧填隙開始頻率+A146
210‧‧‧區塊、反向TNS
212‧‧‧合成濾波器組
220‧‧‧分析濾波器組、音源訊號
222‧‧‧TNS區塊、區塊、TNS、分析濾波器組
224‧‧‧IGF參數抽取編碼、區塊
226‧‧‧音調遮罩區塊、頻譜分析器/音調遮罩
228‧‧‧聯合聲道編碼、聯合聲道編碼區塊、核心編碼器、聯合聲道編碼器
230‧‧‧位元流多工器
232‧‧‧熵編碼器
301‧‧‧倍率因子頻段、噪聲填充頻段
302‧‧‧編碼音調部分
304、305、306‧‧‧高解析度頻譜成分、編碼音調部分、頻譜部分、第一頻譜部分
307‧‧‧高解析度頻譜成分、編碼音調部分、頻譜成分、消失的諧波、頻譜部分、第一頻譜部分、諧波
307a、307b‧‧‧頻譜部分
308‧‧‧雜音填充資訊
309‧‧‧IGF開始頻率、智慧型填隙開始頻率、填隙開始頻率、填隙頻率、間隙填充頻率
309‧‧‧填隙開始頻率
390‧‧‧頻率、再建頻率
391‧‧‧頻率錯誤
400‧‧‧倍率因子計算器
401‧‧‧頻譜範圍
402‧‧‧心理聽覺模型
404‧‧‧量化處理器
410‧‧‧設零區塊、區塊、設零
412‧‧‧區塊、加權區塊、倍率因子加權
418‧‧‧區塊、設零區塊、設零
420‧‧‧量化器區塊、量化器
422‧‧‧設零區塊、區塊、設零
424‧‧‧頻譜分析器
502‧‧‧設窗器
504‧‧‧瞬變偵測器
506‧‧‧區塊轉換器、區塊
510‧‧‧訊框建立器/調整器區塊、訊框建立器/調整器、區塊
512‧‧‧區塊、反向區塊轉換/內插
514‧‧‧區塊、合成設窗
516‧‧‧區塊、對先前時間訊框執行重疊/相加
522‧‧‧區塊、頻率平鋪產生器
523‧‧‧原始第二部分、頻譜成分
524‧‧‧訊框建立器
526‧‧‧調整器
527‧‧‧增益因子
528‧‧‧增益因子計算器
600‧‧‧輸入
602‧‧‧映像器、填隙或帶寬擴展、填隙或帶寬擴展區塊
604‧‧‧噪聲填充器、(獨立)噪聲填充、噪聲填充器區塊
700‧‧‧反向量化、解碼器處理、區塊
702‧‧‧獨立噪聲填充、噪聲填充區塊
704‧‧‧核心編碼器噪聲填充、核心編碼器噪聲填充區塊或噪聲填充器區塊
706‧‧‧控制線
900~908、1002~1010、1100~1106、1200~1204‧‧‧步驟
1300‧‧‧線、音源訊號
1302‧‧‧低通、低通濾波器
1304‧‧‧高通、高通濾波器
1306‧‧‧參數萃取器、參數萃取器/編碼器
1308‧‧‧位元流多工器
1310‧‧‧降取樣器
1312‧‧‧核心編碼器
1320‧‧‧位元流多工器、位元流解多工器
1322‧‧‧核心解碼器
1324‧‧‧參數化解碼器
1325‧‧‧升取樣器
1326‧‧‧濾波器組
1326‧‧‧區塊、濾波器組
1330‧‧‧高頻率再現器
本發明實施例隨後將根據圖示說明,其中圖1a出示編碼一音源訊號的一裝置。
圖1b出示一解碼器供解碼與圖1a編碼器匹配的一編碼音源訊號。
圖2a出示解碼器的一實作。
圖2b出示編碼器的一實作。
圖3a出示藉由圖1b的頻譜域解碼器所產生的一頻譜的一示意的表現。
圖3b出示一倍率因子頻帶之倍率因子以及用於噪聲填充頻帶之再建頻段與噪聲填充資訊的能量之間的關係的表格。
圖4a出示將頻譜部分的選擇用在第一及第二組頻譜部分的頻譜域編碼器的功能。
圖4b出示圖4a的功能的一實作。
圖5a出示一MDCT編碼器的一功能。
圖5b出示具一MDCT技術的解碼器的一功能。
圖5c出示一頻率再生器的一實作。
圖6出示根據本發明實施例的產生增強訊號的裝置的一區塊圖。
圖7出示根據本發明的一實施例藉由在一解碼器的一選擇資訊所操縱的獨立噪聲填充的一訊號流。
圖8出示經由在一解碼器中填隙或帶寬擴展以及噪聲填充的一交換順序所實現的一獨立噪聲填充的一訊號流。
圖9出示根據本發明的另一實施例的一程序的一流程圖。
圖10出示根據本發明的另一實施例的一程序的一流程圖。
圖11出示一流程圖以說明多個隨機值的縮放。
圖12出示一流程圖出示了本發明的一嵌入至一通常的帶寬擴展或一填隙程序。
圖13a出示一編碼器具一帶寬擴展參數計算。
圖13b出示具一帶寬擴展的一解碼器實現為一後置處理器而非如圖1a或圖1b中的一整合程序。
圖6係出示一裝置其係產生一增強訊號例如從一輸入訊號的一音源訊號,其也可以是一音源訊號。增強訊號具有多個頻譜值供一增強頻譜區域,其中供增強頻譜區域的多個頻譜值係沒有含在一輸入訊號輸入600的原始輸入訊號。此裝置包括一映像器602以映像輸入訊號的一來源頻譜區域至在增強頻譜區域中的一目標區域,其中來源頻譜區域包括一噪聲填充區域。
再者,此裝置包括一噪聲填充器604設來產生多個第一噪聲值供噪聲填充區域在輸入訊號的來源頻譜區域以及產生多個第二噪聲值供一噪聲區域在目標區域,其中多個第二噪聲值即多個噪聲值在目標區域係獨立於或不相關於或去相關於噪聲填充區域中的多個第一噪聲值。
一實施例與一狀況相關,其中噪聲填充係實際地進行在基頻段,即在其中多個噪聲值在來源區域已經藉由噪聲填充而產生。在一更替代例中,是假設一噪聲填充在來源區域還沒有進行。然而,來源區域具有一噪聲區域實際地填充有噪聲像是多個頻譜值,例如藉由來源或核心編碼器編碼為多個頻譜值。映像此像是來源區域的噪聲至增強區域也將產生從屬噪聲在來源以及目標區域。為對付此議題,噪聲填充器僅填充噪聲至映像器的目標區域,即產生多個第二噪聲值供噪聲區域在目標區域,其中該等第二噪聲值係與該等第一噪聲值在來源區域去相關。此取代或噪聲填充也可發生在一來源平鋪緩衝器或也可發生在目標本身。噪聲區域可藉由分類器或藉由分析來源區域或藉由分析目標區域來識別。
在此端,請參考圖3a。圖3a出示為填充區域例如在輸入訊號的倍率因子頻段301,噪聲填充器於輸入訊號的一解碼操作中產生多個第一噪聲頻譜值在此噪聲填充頻段301。
再者,此噪聲填充頻段301係映像至一目標區域,即根據已知技術,產生的多個噪聲值係映像至目標區域,因此,目標區域將具有從屬或與來源區域相關的噪聲。
然而,根據本發明,圖6的噪聲填充器604產生多個第二噪聲值供一噪聲區域在目的或目標區域,在其中該等第二噪聲值係去相關於或不相關於或獨立於圖3a中噪聲填充頻段301的多個第一噪聲值。
一般來說,噪聲填充以及映像來源頻譜區域至一目的區域的映像器係可包含在一高頻率再生器如圖1a至圖5c的內容所示例如在一整合填隙之中或可以實作為圖13b所示的一後置處理器以及圖13a中對應的編碼器。
一般來說,一輸入訊號係注到一反向量化700或任何其他額外預定義的解碼器處理700,此指在區塊700的輸出,得到圖6的輸入訊號,使得至核心編碼器噪聲填充區塊或噪聲填充器區塊704的輸入是圖6的輸入600。圖6中的映像器對應至填隙或帶寬擴展區塊602且獨立噪聲填充區塊702係也包含在圖6的噪聲填充器604之中。因此,區塊702皆包含在圖6的噪聲填充器區塊604,且區塊704產生俗稱的多個第一噪聲值供一噪聲區域在噪聲填充區域,且區塊702產生多個第二噪聲值供一噪聲區域在目的或目標區域其係藉由映像器或填隙或帶寬擴展區塊602所進行的帶寬擴展而衍生於在基帶的噪聲填充區域。再者,如將於後所述,藉由區塊702所進行的獨立噪聲填充操作係受控於一控制向量phi如一控制線706所示。
1、步驟:噪聲識別
在一第一步驟中,代表在一傳送的音源訊框中噪聲的全部頻譜線係被識別。識別處理可以受控於已經存在、噪聲填充[4][5]所用的噪聲位置的傳送的消息或可藉由一額外的分類器來識別。噪聲線識別的結果是一向量其含有多個零和一,其中一個一所在之處表示代表噪聲的一頻譜線。
在數學術語此程序可描述為:設 C N 為長度N 的一變換編碼加窗訊號的噪聲填充[4][5]之後的一傳送的及再量化頻譜。設m ,0<m N,為整個解碼處理的停止線。
分類器C 0決定多個頻譜線在此之中使用噪聲填充[4][5]於核心區域:C 0C N → {0,1} m , 結果φ{0,1} m 是長度m的向量。
一額外的分類器C 1更可識別在代表噪聲的中的多個線。此分類器可以描述為:C 1C N ×{0,1} m → {0,1} m ,
噪聲識別處理之後,噪聲表示向量φ{0,1} m 係定義為:
2、步驟:獨立噪聲
在第二步驟中,所傳送的頻譜的一特定區域係被選擇並複製到一來源平鋪。在此來源平鋪中,識別噪聲係被隨機噪聲所取代。插入的隨機噪聲的能量係調節至與在來源平鋪的原始噪聲相同的能量。
在數學術語此程序可描述為:設n,n<m為開始線供描述在步驟3中的複製處理。設為一傳送的頻譜的一連續部分,代表長度v<n的一來源平鋪,其含有多個的頻譜線l k ,l k+1,...,l k+v-1,在其中k是在來源平鋪的第一頻譜線的所引,使得[i]=l k+i ,0 i<v,。再者,設φ' φ,使得φ'[i]=φ[k+i],0 i<v,。
識別噪聲現在係被隨機產生的合成噪聲所取代。為了保持頻譜能量在相同程度,先計算φ所表示的噪聲的能量E
如果E=0,跳過獨立噪聲取代供來源平鋪,否則取代φ'所表示的噪聲: 其中r[i] C是一隨機數對於全部的0 i<v
然後計算插入的多個隨機數能量E'
如果E'>0,計算一因子g,否則設定g=0:
以g,再縮放該取代噪聲:
噪聲取代之後,來源平鋪含有多個噪聲線其係在獨立於噪聲線。
3、步驟:複製
來源平鋪[i]係映像至在的其目的區域: 或,如果使用IGF機制[8]:
圖8出示一實施例,在其中,係隨任何後置處理例如出示在 圖1b中區塊112的頻譜域解碼之後,或在出示在圖13b中區塊1326的後置處理器實施例,輸入訊號係先注到一填隙或帶寬擴展,即先注到一映像操作,然後,一獨立噪聲填充係向後進行,即在全頻譜之內。
如圖7的先前內容所述的處理可以在一放置操作中做完,使得中間的緩衝區不需要。因此,執行的順序是可調適的。
執行圖7內容中所述的第一步驟,再次該組多個頻譜線k,k-1,...,k+v-1是來源區域。進行:
2、步驟:複製Up
或者,如果使用IGF機制[8]:
0 i<v,c n,0<k+i<n,c+i<m<N,
3、步驟:獨立噪聲填充
進行傳統的噪聲填充直到n並計算在來源區域k,k+1,...,k+v-1中多個噪聲頻譜線的能量:
進行獨立噪聲填充在填隙或BWE頻譜區域: 其中r[i],0 i<v再次是一組多個隨機數。
計算插入的多個隨機數的能量E'
再次,如果E'>0計算因子g,否則設g:=0:
以g,再縮放該取代噪聲:
創新的獨立噪聲填充也可用在立體聲通道對環境。因此,編碼器計算適當的通道對表現、L/R或M/S、各頻率頻段以及多個選擇性預估係數。解碼器應用如前述的獨立噪聲填充至多個通道的適當地選擇的表現,在隨後的全部頻率頻段的最終轉換至L/R表現的計算之前。
本發明係可用於或適宜供全部音源應用,在其中並非全帶寬是不可取得或其使用填隙供填充頻譜洞。本發明可使用在音源內容的傳播或廣播例如以數位無線電、網際網路串流以及音源通訊應用。
隨後地,本發明實施例將參考圖9至圖12說明。在步驟900中,多個噪聲區域係被識別在來源範圍。先前已參考“噪聲識別”說明的此程序可以依賴完全從一編碼器-側所接收的噪聲填充或可以設來替代地或額外地依賴已經產生的輸入訊號的訊號分析,但沒有多個頻譜值供增強頻譜區域,即沒有多個頻譜值供此增強頻譜區域。
然後,在步驟902中,來源範圍其係已經注到直截的噪聲填充如已知技術,即一完整的來源範圍係複製到一來源平鋪緩衝器。
然後,在步驟904中,多個第一噪聲值,即產生在輸入訊號的噪聲填充區域之中的多個直截的噪聲值係在來源平鋪緩衝器被多個隨機值取代。然後,在步驟906中,這些隨機值係縮放在來源平鋪緩衝器以得到多個第二噪聲值供目標區域。然後,在步驟908中,映像操作係進行,即其接隨於步驟904及906可取得的來源平鋪緩衝器的內容係映像至目的範圍。因此,藉由取代操作904,且隨映像操作908之後,然後可以得到在來源範圍以及在目標範圍的獨立噪聲填充操作。
圖10出示本發明另一實施例。再次,在步驟900中,在來源範圍中的噪聲係識別。然而,此步驟900的功能性係有別於圖9中步驟900的功能性,既然圖9中步驟900可操作在一輸入訊號頻譜其係已經接收多個噪聲值,即在其中噪聲填充操作已經進行。
然而,在圖10中,任何噪聲填充操作至輸入訊號已經沒有進行,輸入訊號仍沒有任何噪聲值在噪聲填充區域在步驟902的輸入。在步驟902中,來源範圍係映像至目的或目標範圍其中多個噪聲填充值沒有包含在來源範圍。
因此,步驟900中在來源範圍的噪聲的識別可以參考噪聲填充區域藉由在訊號中的識別零頻譜值及/或藉由使用此噪聲填充從輸入訊號的輔助資訊來進行,即編碼器-側產生的噪聲填充資訊。然後,在步驟904,噪聲填充資訊以及特別是識別將引進至解碼器-側輸入訊號的能量的能量資訊係被讀取。
然後,如步驟1006中所示,進行了一噪聲填充在來源範圍,隨後或同時進行一步驟1008,即多個隨機值係插入在目的範圍中的位置其已經在步驟900中被識別整個全頻段或其已經藉由使用基帶或輸入訊號資訊連同映像資訊來識別,即其(多個)來源範圍係被映像至其(多個)目標範圍。
最後,插入的隨機值係縮放以得到第二獨立或不相關的或去相關的多個噪聲值。
隨後地,圖11係說明來出示更多資訊在多個噪聲填充值的縮放於增強頻譜區域,即如何從多個隨機值得到多個第二噪聲值。
在步驟1100中,於來源範圍的噪聲得到一能量資訊。然後,一能量資訊係從多個隨機值來決定,即從藉由一隨機或偽隨機處理所產生的多個值如步驟1102所示。再者,步驟1104出示如何計算倍率因子的方式,即使用在噪聲上的能量資訊於來源範圍以及藉由使用在多個隨機值上的能量資訊。然後,在步驟1106中,多個隨機值即從其能量已經計算於步驟1102係乘以步驟1104所產生的倍率因子。因此,圖11出示的程序對應至倍率因子g的計算已出示在先前的實施例。然而,全部這些計算也能在一對數域或任何其他域進行,且乘法步驟1106可以在對數範圍中被加法或減法取代。
更參考圖12來出示本發明的嵌入於一通常的智慧型填隙或帶寬擴展機制。在步驟1200中,頻譜包跡資訊係從輸入訊號取得。舉例來 說,頻譜包跡資訊可以藉由圖13a的一參數萃取器1306產生,且可以藉由圖13b的一參數化解碼器1324提供。然後,多個第二噪聲值以及在其他目的範圍的值係使用出示於1202的頻譜包跡資訊來縮放。隨後,任何進一步後置處理1204可進行來得到最終時域增強訊號其具有一增加的帶寬在帶寬擴展或具有一減少數量或沒有頻譜洞在智慧型填隙的內容的情況下。
在此內容中,所要說的是,特別是圖9的實施例,數個替代可以施用。舉一實施例,步驟902係進行有輸入訊號的整個頻譜或至少有輸入訊號的頻譜的部分期係高於噪聲填充邊緣頻率。此頻率確保了低於某一頻率,即低於此頻率,任何噪聲填充不再進行。
然後,不管任何特定來源範圍/目標範圍映像資訊,整個輸入訊號頻譜,即完整潛在來源範圍係複製到來源平鋪緩衝器902,然後以步驟904及步驟906處理,然後步驟908從此來源平鋪緩衝器選擇某個特定要求的來源區域。
然而,在其他實施例中,僅特定要求的多個來源範圍其可以僅是輸入訊號的部分,其係基於包含在輸入訊號內的來源範圍/目標範圍資訊而複製到單一來源平鋪緩衝器或數個個別的來源平鋪緩衝器,即所相關為輔助資訊對此音源輸入訊號。依據這狀況,第二替代其中僅特定要求的多個來源範圍藉由步驟902、904、906所處理,複雜度或至少記憶體要求可以減少相較於總是特定映像獨立的情況來說,整個來源範圍至少高於噪聲填充邊緣頻率是藉由步驟902、904、906所處理。
隨後,將參考圖1a至圖5來出示本發明在一頻率再生器116期係放置於頻譜時間轉換器118的實作。
圖1a繪示一編碼音源訊號99的裝置。音源訊號99係輸入至時間頻譜轉換器100用以將具有取樣率的音源訊號轉換成時間頻譜轉換器所輸出的頻譜表現101。頻譜101係輸入至頻譜分析器102以分析其頻譜表現101。頻譜分析器101係用於判斷第一組第一頻譜部分103,其待編碼成第一頻譜解析度,以及不同的第二組第二頻譜部分105,其待編碼成第二頻譜解析度。第二頻譜解析度係小於第一頻譜解析度。第二組第二頻譜部 分105係輸入至參數計算器或是參數化編碼器104,用以計算具有第二頻譜解析度的頻譜包絡線資訊。此外,頻譜域音源編碼器106係用於產生具有第一頻譜解析度之第一組第一頻譜部分的第一編碼表現107。此外,參數計算器/參數化編碼器104係用於產生第二組第二頻譜部分之第二編碼表現109。第一編碼表現107以及第二編碼表現109係輸入至位元流多工器或是位元流形成器108(即區塊108),最後輸出編碼音源訊號以傳送,或是儲存在儲存裝置上。
通常,第一頻譜部分(例如圖3a之306)將由兩個第二頻譜部分(例如307a與307b)所環繞。此並非HE AAC的情況,在此核心編碼器頻率範圍係頻帶受限。
圖1b係繪示與圖1a之編碼器相匹配的解碼器。第一編碼表現107係輸入至頻譜域音源解碼器112用於產生第一組第一頻譜部分的第一解碼表現,此解碼表現具有第一頻譜解析度。此外,第二編碼表現109係輸入至參數化解碼器114用於產生第二組第二頻譜部分之第二解碼表現,此第二組第二頻譜部分具有低於第一頻譜解析度的第二頻譜解析度。
解碼器更包含頻率再生器116,用以使用第一頻譜部分再生一再建第二頻譜部分,其具有第一頻譜解析度。頻率再生器116係執行平鋪填充操作,即使用一平鋪或是第一組第一頻譜部分之一部分,並將第一組第一頻譜部分複製到重建範圍或具有第二頻譜部分的再建頻帶中。頻率再生器116係通常執行頻譜包絡線塑形或是由參數化解碼器114輸出的第二解碼表現所標示的另一操作,即使用第二組第二頻譜部分上的資訊。解碼的第一組第一頻譜部分以及再建的第二組頻譜部分,其標示在線117上之頻率再生器116之輸出,係輸入至頻譜時間轉換器118用於將第一解碼表現以及再建第二頻譜部分轉換成一時域表示119,其具有特定的高取樣率。
圖2b係繪示圖1a之編碼器的實現方式。音源輸入訊號99係輸入至對應於圖1a之時間頻譜轉換器100的分析濾波器組220。然後,TNS區塊222係執行時域雜訊塑形操作。因此,當沒有使用時域雜訊塑形/時域平鋪塑形操作,輸入至對應於圖2b之音調遮罩區塊226的圖1a之頻 譜分析器102可以是全部頻譜值中的任一個;當使用如圖2b所繪示的區塊222之TNS操作時,該輸入可為頻譜剩餘數值。針對雙聲道訊號或是多聲道訊號,可另外執行聯合聲道編碼228,所以圖1a之頻譜域編碼器106可包含此聯合聲道編碼區塊228。此外,熵編碼器232係執行無損漏數據壓縮,且其亦為圖1a之頻譜域編碼器之一部分。
頻譜分析器/音調遮罩226係將TNS區塊222之輸出分離成核心頻帶以及對應於第一組第一頻譜部分103的音調成分,以及對應於圖1a之第二組第二頻譜部分105的剩餘成分。標示為IGF參數抽取編碼的區塊224係對應圖1a之參數化編碼器104,而位元流多工器230係對應圖1a之位元流多工器108。
較佳地,分析濾波器組222係以MDCT(修改型離散餘弦轉換濾波器組)來實現,而此MDCT係以修改型離散餘弦轉換作為頻率分析工具,將訊號99轉換成時間頻率域。
頻譜分析器226較佳地施用一音調遮罩。此音調遮罩估測階段係用來從訊號中的類噪聲部分而分開音調部分。這允許核心編碼器228以一心理聲學模組來編碼全部音調部分。音調遮罩估測階段可以用數種方式來實現且較佳地實現在其功能上相似於使用在正弦及噪聲模型中的正弦曲線軌估測階段供語音/音源編碼〔8、9〕或描述在〔10〕的一HILN模型基礎音源編碼器。較佳地,使用容易實現且不需要維持生滅軌道的一實作,但任何其他音調或噪聲偵測器也可以使用。
IGF模組計算存在於一來源區域以及一目標區域之間的相似度。目標區域將藉由從來源區域的頻譜來表示。來源以及目標區域之間相似度的測量係使用一跨相關方法來做。目標區域係切為非重疊頻率平鋪。對於在目標區域的每個平鋪,nSrc來源平鋪係從一固定開始頻率而創造。這些來源平鋪藉由介於0及1之間的因子而重疊,其中0指0%重疊,1指100%重疊。這些來源平鋪各自與目標平鋪相關在不同的遲滯來找出最匹配目標平鋪的來源平鋪。最佳匹配平鋪數係儲存在tileNum[idx_tar],其與目標最相關所在的遲滯係儲存在xcorr__lag[idx_tar][idx_src],相關的符號係儲存在xcorr__sign[idx_tar][idx_src]。在高負相關情況下,在解碼器平鋪填 充處理之前,來源平鋪需要乘以-1。既然音調部分係使用音調遮罩而保留,IGF模組也注意不要複寫在頻譜中的音調部分。一逐頻段能量參數係用來儲存目標區域能量讓我們準確地重現頻譜。
此方法相較於經典SBR〔1〕有某些優點在於多音調訊號的諧波格係藉由核心編碼器而保留當僅正弦曲線間的間隙填有從來源區域的最佳匹配「塑形噪聲」。相較於準確頻譜替換(ASR,Accurate頻譜Replacement)〔2-4〕此系統的其他優點是缺少在解碼器創造訊號的重要部分的一訊號合成階段。取而代之,此任務藉由核心編碼器來負責,讓頻譜重要部分能表現。所提出系統的其他優點是特徵提供的連續倍率性。對每一平鋪僅使用tileNum[idx_tar]以及xcorr_lag=0係稱為總粒度匹配並可用於低位元率,當對每一平鋪使用可變xcorr_lag時能來比較好地匹配目標以及來源頻譜。
除此之外,一平鋪選擇穩定技術係提出來移除頻域假造例如顫音以及音樂噪聲。
在一對立體聲道之情形中,使用額外的聯合立體聲處理。此係必要的,因為對於特定的目的範圍,此訊號可為一相關性高的音源。在為特别區域選擇的來源區域非良好相關之情形中,雖然能量係匹配此目的區域,但此空間影像可能由於此非相關來源區域而受損。編碼器係分析每一個目的區域能量頻帶,通常執行頻譜值之一交叉相關性,且如果超過特定的門檻值,則為此能量頻帶設定聯合旗標。在此解碼器中,如果未設定聯合立體聲旗標,則個別地處理左聲道與右聲道能量頻帶。在設定聯合立體聲旗標之情形中,能量以及修補兩者係在聯合立體聲領域中執行。IGF區域的聯合立體聲資訊係訊號化,且與核心編碼之聯合立體聲資訊相似,如果預測之方向係從降混到剩餘,則此核心編碼含有指示預測之情形的旗標;亦可反向操作。
此能量可從L/R領域中所傳送的能量來計算。
midNrg[k]=leftNrg[k]+rightNrg[k];sideNrg[k]=leftNrg[k]-rightNrg[k]; 其中,k為轉換領域的頻率參數。
另一解決方案係在聯合立體聲領域中針對頻帶直接計算以及傳送能量,在此頻帶中聯合立體聲係活躍的,所以在解碼器側不需要額外的能量轉換。
此來源平鋪總是根據此中間/側矩陣來創建;midTile[k]=0.5.(leftTile[k]+rightTile[k])
sideTile[k]=0.5.(leftTile[k]-rightTile[k])
能量調整:midTile[k]=midTile[k]+midNrg[k];sideTile[k]=sideTile[k]+sideNrg[k];聯合立體聲->LR轉換:如果沒有編碼額外的預測參數:leftTile[k]=midTile[k]+sideTile[k]
rightTile[k]=midTile[k]-sideTile[k]
如果編碼額外的預測參數且如果訊號化方向係從中間往側邊:sideTile[k]=sideTile[k]-predictionCoeffmidTile[k]
leftTile[k]=midTile[k]+sideTile[k]
rightTile[k]=midTile[k]-sideTile[k]
如果訊號化方向係從側邊往中間:midTilel[k]=midTile[k]-predictionCoeffsideTile[k]
leftTile[k]=midTilel[k]-sideTile[k]
rightTile[k]=midTilel[k]+sideTile[k]
此處理係確保用於再生的平鋪與目的區域以及經淘選的目的區域為高度相關,即使來源區域不相關,但此結果左聲道以及右聲道仍然代表具相關性且經淘選的音源,以維護此種區域的立體聲影像。
換句話說,在此位元流中,傳送聯合立體聲旗標以表示是否將使用L/R或是M/S作為一般聯合立體聲編碼之舉例。在解碼器中,首先,核心訊號係解碼,其由核心頻帶之聯合立體聲旗標來標示。第二,核心訊 號係儲存在L/R以及M/S表現。為了IGF平鋪填充,選擇來源平鋪表現以配合此目標平鋪表現,其由IGF頻帶之聯合立體聲資訊來標示。
時域雜訊塑形(TNS)係為一標準技術,且為AAC[11-13]的一部分。TNS被認為是感知編碼器之基本機制的延伸,在濾波器組以及量化級之間插入一可選擇的處理步驟。TNS模組之主要任務係隱藏在瞬變(像是訊號)之時域遮蔽區域中所製造的量化噪聲,如此可導致更高效率的編碼機制。首先,TNS使用「向前預測」在轉換領域(例如MDCT)計算一組預測係數。然後,這些係數用於平坦化訊號之時域包絡線。當量化影響TNS所濾波的頻譜,量化噪聲亦暫時地平坦。在解碼器側上使用反向TNS濾波,根據TNS濾波器之時域包絡線塑形量化噪聲,因此量化噪聲短暫的被遮蔽。
IGF係基於MDCT表現。為高效率的編碼,較佳地,必須使用大約20毫秒之長區塊。如果在此種長區內的訊號包含瞬變訊號,由於平鋪填充,在IGF頻譜帶中可聽見的預回音以及後回音。圖7c出示因IGF的瞬變開始之前的一典型前迴聲效應。在左側顯示了原始訊號的頻譜圖,在右側顯示了沒有TNS濾波的帶寬擴展訊號的頻譜圖。
在IGF的鄰近關係中使用TNS以降低預回音效果。在此,當解碼器中的頻譜再生在TNS剩餘訊號上執行時,TNS係作為一時域平鋪塑形(TTS)工具。通常,使用編碼器側上的全部頻譜來計算以及使用所需要的TTS預測係數。TNS/TTS開始頻率以及停止頻率不受IGF工具之IGF開始頻率f IGFstart 的影響。相比於傳統的TNS,TTS停止頻率係增加至IGF工具之停止頻率,其係高於f IGFstart 。在解碼器側上,TNS/TTS係數係再次應用於全部頻譜上,即核心頻譜加上再生頻譜加上來自音調遮罩的音調成分(參見第7e圖)。必須使用TTS以形成再生頻譜之時域包絡線,以再次匹配原始訊號之包絡線。因此出示的前迴聲係減少。除此之外,其仍塑形了量化噪聲在低於f IGFstart 的訊號如同一般以TNS。
在傳統的解碼器中,音源訊號上的頻譜修補造成修補邊界上的頻譜相關性惡化,從而引進分散影響音源訊號之時域包絡線。因此,在剩餘訊號上執行IGF平鋪填充的另一好處是,在使用塑形濾波器之後平鋪 邊界係無縫相關,導致訊號有更忠實的時域再現。
在創新的編碼器中,除了音調成分之外,高於IGF開始頻率的訊號沒有經歷TNS/TTS濾波、音調遮罩處理以及IGF參數估算的頻譜。核心編碼器使用演算編碼以及預測編碼之原理來編碼此稀疏頻譜。這些編碼成分隨著訊號化位元而形成此音源之位元流。
圖2a繪示相對應的解碼器實現方式。在圖2a中的位元流對應於編碼音源訊號,且輸入至解多工器/解碼器,其係連接圖1b之區塊112與114。位元流解多工器係將輸入音源訊號分離成圖1b之第一編碼表現107以及圖1b之第二編碼表現109。具有第一組第一頻譜部分的第一編碼表現係輸入至對應於圖1b之頻譜域解碼器112的聯合聲道解碼區塊204。第二編碼表現係輸入至參數化解碼器114(圖2a未繪示),然後輸入至對應於圖1b之頻率再生器116的IGF區塊202。頻率再生所需的第一組第一頻譜部分係經由線203輸入至IGF區塊202。此外,在聯合聲道解碼204之後,在音調遮罩區塊206使用特定的核心解碼,使得音調遮罩206之輸出能對應頻譜域解碼器112之輸出。然後,組合器208執行結合,即組合器208輸出之訊框架購現在具有全部範圍的頻譜,但是仍然在TNS/TTS濾波領域中。然後,在區塊210,使用線109提供之TNS/TTS濾波器資訊執行反向TNS/TTS操作,即TTS輔助資訊較佳地包含在頻譜域編碼器106(例如直接AAC或是USAC核心編碼器)所產生的第一編碼表現內;或是亦可包含在第二編碼表現內。在區塊210之輸出中,提供完整的到最高頻率的頻譜,其全部範圍頻率係由原始輸入訊號之取樣率所定義。然後,在合成濾波器組212中執行頻譜/時間轉換,以最後取得音源輸出訊號。
圖3a繪示此頻譜之示意表現。此頻譜係在倍率因數頻帶SCB細分,在圖3a之繪示範例中倍率因數頻帶SCB有七個倍率因數頻帶SCB1至SCB7。倍率因數頻帶可為AAC標準所定義的AAC倍率因數頻帶,以及有增加頻寬至上頻率,如圖3a所大略地繪示。較佳地,不從頻譜此開始處(即低頻處)執行智慧型填隙,但是在309所繪示的IGF開始頻率上開始IGF操作。因此,核心頻帶從最低頻率核心頻帶延伸至IGF開始頻率。高於IGF開始頻率,頻譜分析係用以區分高解析度頻譜成分304、 305、306與307,以以及第二組第二頻譜部分所表現的低解析度成分。圖3a係繪示例示性地輸入至頻譜域編碼器106或聯合聲道編碼器228的頻譜,即核心編碼器運作在全部範圍,但是編碼大量的零頻譜值,即這些零頻譜值量化成零,或是在量化之前或之後設定為零。不管怎樣,核心編碼器運作在全部範圍,彷彿是所繪示的頻譜一樣,即此核心解碼器不知道具有低頻譜解析度之第二組第二頻譜部分之任何智慧型填隙或是編碼。
較佳地,當僅計算每一個比例因數帶的單一頻譜值而定義第二解析度或是低解析度,此高解析度係由頻譜線(例如MDCT線)之線狀編碼來定義。其中一個比例因數帶係覆蓋幾個頻率線。如此,相對於頻譜解析度,第二低解析度係低於線狀編碼所定義的第一解析度或是高解析度許多。核心編碼器(例如AAC核心編碼器或是USAC核心編碼器)係通常使用線狀編碼。
圖3b係繪示關於倍率因數或是能量計算之狀況。由於編碼器為核心編碼器,但本發明不受限於此,以及由於每一個頻帶中的第一組頻譜部分之成分,此核心編碼器係為每一個頻帶計算倍率因數,不僅在低於IGF開始頻率309的核心範圍,也在高於IGF開始頻率直到最高頻率f IGFstop 。最高頻率f IGFstop 係小於或等於取樣頻率之一半,即fs/2。如此,圖3a之編碼音調部分302、304、305、306與307,以及此實施例中的倍率因數SCB1至SCB7係對應於高解析度頻譜數據。低解析度頻譜數據係從IGF開始頻率開始計算,且對應於能量資訊值E1、E2、E3與E4,其與倍率因數SF4至SF7一起傳送。
特別地,當核心編碼器係在低位元率之情況時,可額外使用核心頻帶中的額外噪聲填充操作,即比IGF開始頻率更低的頻率,即在倍率因數頻帶SCB1至SCB3。在噪聲填充,其存在幾個已經量化成零的相鄰近頻譜線。在解碼器側上,這些量化成零的頻譜值係再合成,且使用噪聲填充能量(例如圖3b之308所繪示的NF2)調整再合成頻譜值之振幅。噪聲填充能量,其可相對於USAC中的倍率因數而用絕對用語或是相對用語特別地給定,係對應於該組量化成零的頻譜值之能量。這些噪聲填充頻譜線亦可被認為是第三組第三頻譜部分,其係使用來自來源範圍以及能量資 訊E1、E2、E3與E4的頻譜值,使用來自用於再建頻率平鋪的其他頻率的頻率平鋪而直截噪聲填充合成,沒有使用任何依賴頻率再生的IGF操作。
較佳地,用於能量資訊的此頻帶係與倍率因數頻帶相一致地計算在其他實施例中,使用能量資訊數值分群,例如倍率因數頻帶4以及5,使得僅傳送單一能量資訊數值,但是在此實施例中,分群再建頻帶之邊界係與倍率因數頻帶之邊界相一致。如果使用不同頻帶分隔,然後使用特定的再計算或是計算,此可依據特定的實現方式而能被理解。
較佳地,圖1a之頻譜域編碼器106係為心理聽覺驅動編碼器,如圖4a所繪示。通常,如MPEG2/4 AAC標準或是MPEG1/2所繪示,第3層標準,被轉換成頻譜範圍(圖4a中的401)之後,待編碼的音源訊號係轉發至倍率因子計算器400。倍率因子計算器係由心理聽覺模型所控制,其另外接收此待量化的音源訊號或是接收(在MPEG 1/2第3層或是MPEG AAC標準)音源訊號之複值頻譜表現。心理聽覺模型係針對每一個比例因子帶計算代表心理聽覺門檻值的倍率因子。然後,由內部迭代以及外部迭代或是任何其他合適的編碼程序來調整倍率因子,以執行特定的位元率情況。然後,一方面待量化的頻譜值,以及另一方面所計算的倍率因子係輸入至量化處理器404。在直接音源編碼器操作中,待量化的頻譜值係由倍率因子加權,然後加權頻譜值係輸入至固定量化器(其通常具有壓縮功能)到上振幅範圍。然後,在量化處理器之輸出存在量化參數,其係轉發到熵編碼器,其通常對鄰近頻率值的一組零量化參數有特定且非常高效率的編碼,或是此技術領域中亦被稱為零數值之「執行(run)」。
然而,在圖1a之音源編碼器中,量化處理器通常從頻譜分析器接收第二頻譜部分上的資訊。如此,量化處理器404係確保,在量化處理器404之輸出,由頻譜分析器102識別出的第二頻譜部分係為零或是有由編碼器或是解碼器確認為零表示,其可為非常有效率的編碼,特別是當頻譜中存在零值的「執行」。
圖4b繪示此量化處理器之一實現方式。MDCT頻譜值可輸入至一設零區塊410。然後,在區塊412執行倍率因子加權之前第二頻譜部分已經設定為零。在額外的實現方式,不提供區塊410,但是在加權區塊 412之後在區塊418執行設零運作。在另一實現方式,設零操作亦可在量化器區塊420地量化之後,於設零區塊422執行。在此實現方式,將不出現區塊410以及418。通常,依據特定的實現方式來提供區塊410、418與422中的至少一個。
然後,在區塊422之輸出,對應於圖3a中所繪示的取得量化頻譜。然後,量化頻譜係輸入至熵編碼器,例如圖2b中的232,其可為一Huffman編碼器或是一演算編碼器,如USAC標準中所定義的。
設零區塊410、418與422係彼此可選擇地提供,或由頻譜分析器424平行控制。較佳地,頻譜分析器包含熟知的音調偵測器之任何實現方式,或包含任何不同種類的偵測器,其操作用於將頻譜分隔成高解析度之待編碼的成分以及低解析度之待編碼成分。在頻譜分析器中實現的其他演算法,可為聲音活動偵測器、噪聲偵測器、語音偵測器或是任何其他依據不同頻譜部分之解析度需求上頻譜資訊或是相關聯的元數據而決定的偵測器。
圖5a係繪示圖1a之時間頻譜轉換器100較佳實現方式,例如以AAC或是USAC實現。時間頻譜轉換器100包含由瞬變偵測器504控制的設窗器(windower)502。當瞬變偵測器504偵測到一瞬變,然後從長視窗到短視窗的切換係訊號化到設窗器502。然後,設窗器502針對重疊區塊計算設窗的訊框,其中每一個設窗的訊框通常具有兩個N數值,例如2048數值。然後,執行在區塊轉換器506之內的轉換,而區塊轉換器通常另外提供一抽取(decimation),以執行結合的抽取/轉換以取得具有N個數值的頻譜訊框,例如MDCT頻譜值。如此,為了長窗操作,在區塊506之輸入的訊框包含兩倍N個數值,例如2048個數值,而一頻譜訊框具有1024個數值。然而,當執行八個短區塊且相比於長窗每一個短區塊具有1/8設窗時間域數值,且相比於長區塊每一個頻譜區塊具有1/8頻譜值時,對短區塊執行切換。如此,當抽取與設窗器之50%重疊操作相結合時,此頻譜為時間域音源訊號99之嚴格取樣版本。
後續,參考圖5b,其繪示圖1b之頻率再生器116以及頻譜時間轉換器118,或是圖2a之區塊208與212之結合操作之特定實現方式。 在圖5b,考量特定的再建頻帶,例如圖3a之比例因子帶6。在再建頻帶中的第一頻譜部分,即圖3a之第一頻譜部分306係輸入至訊框建立器/調整器區塊510。此外,為了比例因子帶6而再建的第二頻譜部分係一起輸入至訊框建立器/調整器510。此外,用於比例因子帶6的能量資訊,例如圖3b之E3,亦輸入至區塊510。在再建頻帶中再建的第二頻譜部分已經由使用來源範圍的頻率平鋪填充產生,然後再建頻帶係對應目標範圍。現在,執行此訊框之能量調整,然後最終取得完整的具有N個數值的再建訊框,例如在圖2a之組合器208之輸出取得。然後,在區塊512,執行反向區塊轉換/內插以取得248時間域數值,例如在區塊512之輸入上的124個頻譜值。然後,在區塊514執行一合成設窗操作,其由在編碼音源訊號中傳送作為輔助資訊之長窗/短窗指示再次控制。然後,在區塊516,對先前時間訊框執行重疊/相加操作。較佳地,MDCT係使用50%重疊,而為了每一個新的2N個數值的時間訊框,最後輸出N個時間域數值。由於在區塊516中重疊/相加操作,從一訊框到下一個訊框提供臨界取樣以及連續交越點,較佳的是50%重疊。
如圖3a中的301所繪示,不僅在低於IGF開始頻率下另外使用噪聲填充操作,但亦可高於IGF開始頻率,例如為考量再建頻帶與圖3a之比例因子帶6相一致。然後,噪聲填充頻譜值亦可輸入至訊框建立器/調整器510,而噪聲填充頻譜值之調整亦可在區塊內應用或是在輸入至訊框建立器/調整器510之前可使用噪聲填充能量調整噪聲填充頻譜值。
較佳地,可在此完整的頻譜中使用IGF操作,即使用來自其他部分的頻譜值的頻率平鋪填充操作。如此,頻譜平鋪填充操作不僅可應用在高於IGF開始頻率的高頻帶,但亦可應用在低頻帶。此外,没有頻率平鋪填充的噪聲填充亦可應用在低於IGF開始頻率,亦可高於IGF開始頻率。然而,其發現當噪聲填充操作受限於低於IGF開始頻率的頻率範圍,以及當此頻率平鋪填充操作係受限於高於IGF開始頻率的頻率範圍,可如圖3a所繪示,獲得高品質以及高效率音源編碼。
較佳地,目標平鋪(TT)(具有大於IGF開始頻率的頻率)係受制於全部比率編碼器之比例因子帶邊界。來源平鋪(ST),其從資訊取 得,即低於IGF開始頻率的頻率不受限於比例因子帶邊界。ST的尺寸應對應於相關聯的TT的尺寸。此用以下例子來出示。TT〔0〕具有10 MDCT箱的長度。這確切的對應至二隨後的SCBs(例如4+6)的長度。然後,相關於TT[0]的全部可能的ST也具有10箱長度。相鄰於TT〔0〕的一第二目標平鋪TT〔1〕具有15箱l(SCB具有7+8的長度)的長度。然後,其ST具有15箱的長度而非10箱如同TT〔0〕。
若無法找出一TT供一ST以目標平鋪的長度(即當TT的長度大於可取得來源範圍),然後一相關係沒有計算,來源範圍係複製多個至此TT(複製係隨其他之後完成使得在頻率上供第二複本最低頻率的一頻率線立即跟隨供第一複本最高頻率的頻率線),直到目標平鋪TT完全地填滿。
後續,參考圖5c其繪示圖1b實施例之頻率再生器116或是圖2a之IGF區塊202之較佳實施例。區塊522係為頻率平鋪產生器,其不僅接收目標頻帶ID,也另外接收來源頻帶ID。例示性地,其已經決定在編碼器側上圖3a之比例因子帶3係非常良好的適合再建比例因子帶7。如此,來源頻帶ID將是2,而目標頻帶ID將是7。基於此資訊,頻率平鋪產生器522係使用複製或是諧波平鋪填充操作或是任何其他平鋪填充操作,以產生頻譜成分之原始第二部分523。頻譜成分之原始第二部分具有頻率解析度,其與第一組第一頻譜部分中的頻率解析度相同。
然後,再建頻帶之第一頻譜部分,例如圖3a之307,係輸入至訊框建立器524,而原始第二部分523亦輸入至訊框建立器524。然後,再建訊框係由調整器526使用再建頻帶之增益因子調整,此增益因子係由增益因子計算器528所計算。然而,重要地,訊框中的第一頻譜部分並不受調整器526影響,但是僅再建訊框之原始第二部分受調整器526影響。在此,增益因子計算器528係分析來源頻帶或是原始第二部分523,並另外分析在再建頻帶中的第一頻譜部分,以最終發現正確的增益因子527,使得當考量比例因子帶7時,調整器526所輸出的調整訊框之能量具有能量E4。
在此內容中,非常重要的是評估相較於HE-AAC本發明的高頻率再現準確度。這將參考圖3a中倍率因子頻段7。假設一習知編碼器 例如圖13a所示將偵測將以高解析度編碼的頻譜部分307為一「缺掉的諧波」。然後,此頻譜部分的能量將隨同一頻譜包跡資訊傳送供再現頻段例如倍率因子頻段7至解碼器。然後,解碼器將在創造缺掉的諧波。然而,藉由圖13b的習知解碼器所再現的缺掉的諧波307所在的頻譜值將是在再建頻率390所指的一頻率中頻段7的中間。因此,本發明避免藉由圖13d的習知解碼器所導入的一頻率錯誤391。
在一實作中,頻譜分析器也實現來計算第一頻譜部分及第二頻譜部分間的相似度,並基於計算出的相似度而對於在一再現範圍的一第二頻譜部分決定盡可能與第二頻譜部分匹配的一第一頻譜部分。然後,在此可變來源範圍/目的範圍實作,參數化編碼器將額外的導入至第二編碼表現一匹配資訊指明各目的範圍一匹配來源範圍。在解碼器側,此資訊將然後藉由圖5c的一頻率平鋪產生器522,圖5c出示基於一來源頻段ID以及一目標頻段ID的一原始第二部分523的一產生。
此外,如圖3a所繪示,頻譜分析器係用以分析頻譜表現,直到最高分析頻率,其僅是低於取樣頻率之一半的小數量,而較佳的是取樣頻率的至少一四分之一或是通常更高。
如圖所繪示,編碼器之運作不須降取樣,而解碼器之運作不須升取樣。換句話說,頻譜域音源編碼器係用以產生具有Nyquist頻率的頻譜表現,此Nyquist頻率係由最初輸入音源訊號之取樣率所定義。
此外,如圖3a所繪示,頻譜分析器係用以分析從填隙開始頻率開始且結束於由最高頻率表現之最高頻率的頻譜表現。從最低頻率向上延伸到填隙開始頻率的頻譜部分係屬於第一組頻譜部分以及另一頻譜部分例如304、305、306與307,其具有高於填隙頻率的頻率值,另外係包含在第一組第一頻譜部分內。
如概述,頻譜域音源解碼器112係使得第一解碼表現中的頻譜數值的最高頻率表現等於包含在具有此取樣率的時域表示內的最高頻率,其中在第一組第一頻譜部分中的最高頻率的頻譜數值係為零或是不同於零。不管怎樣,對於第一組頻譜成分的最高頻率,存在比例因子帶之倍率因子,其不考慮是否此比例因子帶中的所有頻譜值係設為零而產生且傳 送,如圖3a以及圖3b所討論的鄰近關係。
因此,相對於其他參數化技術係增加壓縮效率,例如噪聲替換以及噪聲填充(這些技術係專為像局部訊號內容的噪聲之高效率表現),本發明之優點在於讓音調成分之精確頻率再現。目前,沒有技術可以在低頻帶(LF)以及高頻帶(HF)中不須固定a-優先區段(a-priory division)的限制而解決任意的訊號內容之高效率參數表現。
本發明系統的實施例改善了現有技術方法因此提供高壓縮效率,沒有或僅有一小感知的打擾以及全音源帶寬甚至在低位元率下。
一般系統的組成為
‧全頻段核心編碼
‧智慧型間隙填充(平鋪填充或噪聲填充)
‧在核心的稀疏音調部分藉由音調遮罩來選擇
‧全頻段的聯合立體聲對編碼,包括平鋪填充
‧在平鋪的TNS
‧頻譜白化於IGF範圍
朝一較有效率系統的一第一步驟是移除將頻譜資料變換至不同於核心編碼器其中之一的一第二變換域的需求。如大多的音源編碼例如AAC使用MDCT作為基礎變換,在MDCT域進行BWE也是很有用的。供BWE系統的一第二要求將是保留音調grid的需求,其中甚至HF音調部分係被保留,編碼音源的品質仍優於現存系統。為注意以上所述二者供一BWE機制的要求,一已經提來的新系統稱為智慧間隙填充(Intelligent Gap Filling,IGF)。圖2b顯示在編碼器側所提出的系統的區塊圖,圖2a顯示在解碼器側的系統。
然後,一後置處理架構係參考圖13a以及圖13b來說明本發明也可以實現在此後置處理實施例中的高頻率再現器1330。
圖13a出示供帶寬擴展技術例如用在高效率先進音源編碼(HE-AAC)的一音源編碼器的一示意圖。一音源訊號在線1300係輸入至一濾波系統其包括一低通1302以及一高通1304。高通濾波器1304所輸出的訊號係輸入至一參數萃取器/編碼器1306。參數萃取器/編碼器1306係 設來計算多個編碼參數例如一頻譜包跡參數、一噪聲額外參數、一缺掉的諧波參數、或一反向濾波參數。這些萃取的參數係輸入至一位元流多工器1308。低通輸出訊號係輸入至一處理器典型地包括一降取樣器1310以及一核心編碼器1312的功能性。低通1302限制將被編碼的帶寬至一明顯小於發生在線1300上原始輸入音源訊號的帶寬。此提供一明顯的編碼增益這是因為發生在核心編碼器的整個功能僅必須操作在縮小帶寬的訊號。舉例來說,當線1300上的音源訊號的帶寬是20kHz且當低通濾波器1302例如具有4kHz的帶寬,為了滿足取樣理論,其理論上足夠使隨降取樣器之後的訊號具有8kHz的取樣頻率,其係實質上降低對於音源訊號1300要求的取樣率其至少40kHz來說。
圖13b出示一對應帶寬擴展解碼器的一示意圖。解碼器包括一位元流多工器1320。位元流解多工器1320萃取供一核心解碼器1322的一輸入訊號以及供一參數化解碼器1324的一輸入訊號。在以上例子中,一核心解碼器輸出訊號具有8kHz的取樣率,因此,4kHz的一帶寬供一完整帶寬再現,當一高頻率再現器1330的輸出訊號必須在20kHz要求至少40kHz的一取樣率。為了讓此變為可能,一解碼器處理器具有一升取樣器1325以及一濾波器組1326的功能性是需要的。高頻率再現器1330然後接收濾波器組1326所輸出的頻率經分析的低頻率訊號並使用高頻率頻段的參數化表現來再現了圖13a的高通濾波器1304所定義的頻率範圍。高頻率再現器1330具有數個功能例如較高頻率範圍的再生其使用在低頻率範圍的來源範圍、一頻譜包跡調節、一噪聲額外功能以及一功能來引進在較高頻率範圍中缺掉的諧波,如果在圖13a的編碼器中施用以及計算,一反向濾波操作要交代較高頻率範圍典型上沒有如較低頻率範圍的音調。在HE-AAC,缺掉的諧波係合成在解碼器側並準確地放置在一再現頻段的中間。因此,全部缺掉已經決定在某一再現頻段的諧波線沒有放置在其在原始訊號中所在的多個頻率值。取而代之的,這些缺掉的諧波線係放置在某一頻段的中間的多個頻率。因此,當在原始訊號中一缺掉的諧波線係放置在非常靠近原始訊號中再現頻段邊緣,放置此缺掉的諧波線在頻段中間的再現的訊號所引進的頻率上錯誤係接近個別再現頻段的50%,對其多個參數已經產生以 及傳送。
再者,即使典型音源核心編碼器操作在頻譜域,核心解碼器仍然產生一時域訊號其係然後藉由濾波器組1326功能再次被轉換至一頻譜域。這引進額外處理延遲,可能引進因先從頻譜域變換至頻率域以及再次變換至典型上一不同頻率域的的串連處理的多個假造,當然,這也要求一實質上計算複雜度的量因此需要電力,其係特別是個問題當帶寬擴展技術施用在行動裝置例如行動電話、平板或筆記型電腦等等。
雖然一些方面已經描述在供編碼或解碼的一裝置的內容,很清楚的是這些方面也代表對應方法的一描述,其中一區塊或裝置對應至一方法步驟或一方法步驟的特徵。類似的,描述在一方法步驟的內容的方面也代表一對應區塊或項目或一對應裝置的特徵的的一描述。方法步驟的一些或全部也可以藉由(或使用)一硬體裝置來執行,像是例如一微處理器、一可編程電腦或一電子電路。在一些實施例中,大多重要方法步驟的某一個或更多也可以執行在這種裝置上。
依據某個實作需求,本發明的實施例可實作在硬體或軟體。這實作可使用一非暫態儲存媒體來進行如一數位儲存媒體,例如一軟碟、一硬碟機(HDD)、一DVD、一藍光光碟、一CD、一ROM、一PROM、EPROM、一EEPROM或一快閃記憶體,其中儲存具電子可讀取控制訊號,其係與一可編程電腦系統協同操作(或能夠協同操作)使得分別的方法係進行。因此,數位儲存媒體可以是電腦可讀取的。
根據本發明的一些實施例包括一資料載體其具有電子可讀取控制訊號,其能夠與一可編程電腦系統協同運作,使得所述方法之一能夠進行。
一般來說,本發明實施例可實作為具程式碼的一電腦程式產品,當電腦程式產品執行在一電腦時,程式碼可運作來進行其中一種方法。程式碼可例如儲存在一機器可讀取載體。
其他實施例包括進行前述其中之一方法的電腦程式,儲存在一機器可讀取載體。
換句話說,本發明方法的一實施例因而是一電腦程式其具有 一程式碼供進行所述方法之一當電腦程式運行在一電腦時。
本發明方法的再一實施例因而是一資料載體(或一數位儲存媒體、或一電腦可讀取媒體)其包括記錄於其的電腦程式供進行所述方法之一。此資料載體、數位儲存媒體、或電腦可讀取媒體典型上是有形的及/或非暫態。
本發明方法的再一實施例因而是一資料串流或一連串的訊號其表現電腦程式供進行所述方法之一。此資料串流或一連串的訊號可以例如配置為經由一資料通訊連線例如網際網路來傳輸。
再一實施例包括一處理裝置,例如,一電腦或一可編程邏輯裝置,配置為或適宜進行所述方法之一。
再一實施例包括一電腦具安裝在其的電腦程式供進行所述方法之一。
根據本發明再一實施例包括一裝置或一系統配置為傳送(例如,電子地或光學地)供進行所述方法之一的一電腦程式至一接收器。接收器可以例如是一電腦、一行動裝置、一記憶裝置或類似物等。此裝置或系統可以例如包括一檔案伺服器供傳輸電腦程式至接收器。
在一些實施例中,一可編程邏輯裝置(例如,一現場可編程邏輯閘陣列)可以使用來進行所述方法的一些或全部功能。在一些實施例中,一現場可編程邏輯閘陣列可與一微處理器協同操作以進行所述方法之一。一般來說,這些方法較佳地藉由硬體裝置來進行。
在較佳實施例之詳細說明中所提出之具體實施例僅用以方便說明本發明之技術內容,而非將本發明狹義地限制於上述實施例,在不超出本發明之精神及以下申請專利範圍之情況,所做之種種變化實施,皆屬於本發明之範圍。
600‧‧‧輸入
602‧‧‧填隙或帶寬擴展
700‧‧‧反向量化
702‧‧‧獨立噪聲填充
704‧‧‧核心編碼器噪聲填充
706‧‧‧phi

Claims (16)

  1. 一種裝置,從一輸入訊號(600)產生一增強訊號,其中該增強訊號具有多個頻譜值供一增強頻譜區域,該等頻譜值供該等增強頻譜區域未含在該輸入訊號(600)中,包括:一映像器(602),將該輸入訊號的一來源頻譜區域映像至在增強頻譜區域中的一目標區域,該來源頻譜區域包括一噪聲填充區域(302);以及一噪聲填充器(604),設來產生多個第一噪聲值供噪聲填充區域(302)在該輸入訊號的該來源頻譜區域以及產生多個第二噪聲值供在目標區域的一噪聲區域,其中該等第二噪聲值係與該等第一噪聲值去相關或產生多個第二噪聲值供一噪聲區域於該目標區域,其中該等第二噪聲值係與該等第一噪聲值在該來源區域去相關,其中該噪聲填充器(604)係設來:識別該噪聲填充區域具有該等第一噪聲值在該輸入訊號;複製(902)該輸入訊號的至少一區域至一來源平鋪緩衝器,該區域包括該來源頻譜區域;以該等獨立噪聲值取代(904)所識別的該等第一噪聲值;以及其中該映像器(602)係設來映像具有多個去相關噪聲值的該來源平鋪緩衝器至該目標區域。
  2. 如請求項1所述之裝置,其中該輸入訊號係一編碼訊號其包括多個噪聲填充參數供該輸入訊號的該來源頻譜區域,其中該噪聲填充器係設來使用該等噪聲填充參數而產生該等第一噪聲值以及在該等第一噪聲值上使用一能量資訊而產生該等第二噪聲值。
  3. 如請求項1所述之裝置,其中該噪聲填充器(604)係設來測量在該等去相關噪聲值(1102)上的一能量資訊及在該等第一噪聲值(1100)上的一能量資訊,以及使用一倍率值其衍生於在該等去相關噪聲值上的該能量資訊以及在該等第一噪聲值上的該能量資訊來縮放(906)該等去相關噪聲值。
  4. 如請求項1所述之裝置,其中該噪聲填充器(604)係設來產生隨該映像器(602)的一操作之後的該第二噪聲值或產生(604)隨該映像器(602)的一操作之後的該等第一及第二噪聲值。
  5. 如請求項1所述之裝置,其中該映像器(602)係設來映像該來源頻譜區域至該目標區域,以及其中該噪聲填充器(604)係設來藉由使用噪聲填充及傳送在該輸入訊號做為輔助資訊的噪聲填充參數產生該等第一噪聲值來進行噪聲填充於多個頻譜區域,以及藉由使用在該等第一噪聲值上的能量資訊來進行噪聲填充於該目標區域以產生該等第二頻譜值。
  6. 如請求項1所述之裝置,更包括:一包跡調節器,使用包含在該輸入訊號作為輔助資訊的頻譜包跡資訊來調節(1202)該等第二噪聲值於該增強頻譜區域。
  7. 如請求項1所述之裝置,其中該噪聲填充器(604)係設來僅使用該輸入訊號的輔助資訊以識別多個頻譜位置供噪聲填充,或其中該噪聲填充器(604)係設來分析該輸入訊號的一時間或頻譜特性其具有或不具有多個頻譜值於該噪聲填充區域以識別多個頻譜位置供噪聲填充。
  8. 如請求項1所述之裝置,其中該噪聲填充器(604)係設來使用一識別向量(706)其具有多個入口供僅在該來源頻譜區域中多個頻譜位置或具有多個入口供在該來源頻譜區域以及該目標頻譜區域中多個頻譜位置,而識別多個噪聲位置。
  9. 如請求項1所述之裝置,其中該等噪聲填充器(604)係設來在該複製操作(902)中複製該輸入訊號的一完整頻譜部分或一般該映像器可用在一噪聲填充邊緣頻率之上的該輸入訊號的一完整頻譜部分至該來源平鋪緩衝器,以及進行該取代操作(904)於該全來源平鋪緩衝器,或 其中該噪聲填充器(604)係設來在該複製操作(902)僅複製藉由一或多個特定來源識別子所識別供一來源區域供要被該映像器(602)使用供一識別目標區域的該輸入訊號的一頻譜區域,在其中一個別來源平鋪緩衝器係用來對各不同個別的映像操作。
  10. 如請求項1所述之裝置,其中該映像器(602)係設來進行一填隙操作供產生該目標頻譜區域,該裝置包括:一頻域音源解碼器(112),產生一第一組多個第一頻譜部分的一第一解碼表現,該解碼表現具有一第一頻譜解析度;一參數化解碼器(114),產生一第二組多個第二頻譜部分的一第二解碼表現,其具有的一第二頻譜解析度低於該第一頻譜解析度;一頻率再生器(116),使用一第一頻譜部分以及供該第二頻譜部分的頻譜包跡資訊而產生一再現的第二頻譜部分其具有該第一頻譜解析度;以及一頻時轉換器(118),轉換該第一解碼表現於該再現的頻譜部分至一時域表現,其中該映像器(602)以及該噪聲填充器(604)係至少部分地包括在該頻率再生器(116)。
  11. 如請求項10所述之裝置,其中該頻域音源解碼器係設來輸出一連串的多個頻譜值得多個解碼訊框,一解碼訊框係該第一解碼表現,其中該訊框包括多個頻譜值供該第一組多個頻譜部分以及多個零表現供該第二組多個第二頻譜部分,其中供解碼之該裝置更包括一結合器(208),其結合該頻率再生器供該第二組多個第二頻譜部分所產生的多個頻譜值以及在一再現頻段該第一組多個第一頻譜部分的多個頻譜值,以得到一再現頻譜訊框其包括多個頻譜值供該第一組該等第一頻譜部分以及該第二組該等第二頻譜部分;以及其中該頻時轉換器(118)係設來轉換該再現的頻譜訊框至該時域表現。
  12. 如請求項1所述之裝置,更包括:對各目標頻率範圍,一來源區域識別,以及其中該映像器(602)係設來使用該來源區域識別而選擇該來源區域,以及映像該選擇的來源區域至該目標區域。
  13. 一種方法,從一輸入訊號(600)產生一增強訊號,其中該增強訊號具有多個頻譜值供一增強頻譜區域,該等頻譜值供多個增強頻譜區域係沒有含在該輸入訊號(600)中,包括:映像(602)該輸入訊號的一來源頻譜區域至一目標區域於該增強頻譜區域,該來源頻譜區域包括一噪聲填充區域(302);以及產生(604)多個第一噪聲值供該噪聲填充區域(302)在該輸入訊號的該來源頻譜區域以及產生多個第二噪聲值供一噪聲區域於該目標區域,其中該等第二噪聲值係與該等第一噪聲值去相關或產生多個第二噪聲值供一噪聲區域在該目標區域,其中該等第二噪聲值係與該等第一噪聲值在該來源區域去相關,其中該產生(604)包括:識別該噪聲填充區域具有該等第一噪聲值在該輸入訊號;複製(902)該輸入訊號的至少一區域至一來源平鋪緩衝器,該區域包括該來源頻譜區域;以及以該等獨立噪聲值取代(904)所識別的該等第一噪聲值;以及其中該映像(602)包括映像具有多個去相關噪聲值的該來源平鋪緩衝器至該目標區域。
  14. 一種系統,處理一音源訊號,包括:一編碼器,產生一編碼訊號;以及如請求項1至12項任一項之該裝置,其中該編碼訊號係注到一處理(700)以產生該輸入訊號(600)至該裝置供產生該增強訊號。
  15. 一種方法,處理一音源訊號,包括:從一輸入訊號產生一編碼訊號;以及如請求項13所述之該方法,其中該編碼訊號係注到一預定義處理 (700)以產生該輸入訊號(600)至該裝置供產生該增強訊號。
  16. 一種電腦程式,當運行在一電腦,進行如請求項13或15之方法。
TW104123736A 2014-07-28 2015-07-22 從輸入訊號產生增強信號的裝置及方法 TWI575511B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP14178777.0A EP2980792A1 (en) 2014-07-28 2014-07-28 Apparatus and method for generating an enhanced signal using independent noise-filling

Publications (2)

Publication Number Publication Date
TW201618083A true TW201618083A (zh) 2016-05-16
TWI575511B TWI575511B (zh) 2017-03-21

Family

ID=51224865

Family Applications (2)

Application Number Title Priority Date Filing Date
TW104123736A TWI575511B (zh) 2014-07-28 2015-07-22 從輸入訊號產生增強信號的裝置及方法
TW104123737A TWI575515B (zh) 2014-07-28 2015-07-22 使用獨立噪聲填充產生增強信號的裝置及方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW104123737A TWI575515B (zh) 2014-07-28 2015-07-22 使用獨立噪聲填充產生增強信號的裝置及方法

Country Status (18)

Country Link
US (7) US10354663B2 (zh)
EP (5) EP2980792A1 (zh)
JP (6) JP6457625B2 (zh)
KR (2) KR101958359B1 (zh)
CN (4) CN106537499B (zh)
AR (2) AR101345A1 (zh)
AU (2) AU2015295549B2 (zh)
BR (2) BR112017001586B1 (zh)
CA (2) CA2947804C (zh)
ES (2) ES2718728T3 (zh)
MX (2) MX365086B (zh)
PL (2) PL3175449T3 (zh)
PT (2) PT3175449T (zh)
RU (2) RU2665913C2 (zh)
SG (2) SG11201700689VA (zh)
TR (2) TR201904282T4 (zh)
TW (2) TWI575511B (zh)
WO (2) WO2016016146A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980792A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
US10541772B2 (en) * 2017-04-28 2020-01-21 Qualcomm Incorporated Techniques for transmission of discovery reference signals in new radio shared spectrum
CN108871385B (zh) * 2017-05-12 2021-09-07 西门子公司 编码器、电机、编码器数据处理方法及存储介质
TWI702594B (zh) 2018-01-26 2020-08-21 瑞典商都比國際公司 用於音訊信號之高頻重建技術之回溯相容整合
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
TWI715139B (zh) * 2019-08-06 2021-01-01 原相科技股份有限公司 聲音播放裝置及其透過遮噪音訊遮蓋干擾音之方法
CN110610717B (zh) * 2019-08-30 2021-10-15 西南电子技术研究所(中国电子科技集团公司第十研究所) 复杂频谱环境混合信号的分离方法
CN113192517B (zh) * 2020-01-13 2024-04-26 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN113808596A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN113808597A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN111986659B (zh) * 2020-07-16 2024-08-06 百度在线网络技术(北京)有限公司 建立音频生成模型的方法以及装置

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6931370B1 (en) 1999-11-02 2005-08-16 Digital Theater Systems, Inc. System and method for providing interactive audio in a multi-channel audio environment
WO2002021510A1 (en) 2000-09-08 2002-03-14 Koninklijke Philips Electronics N.V. Speech recognition method with a replace command
EP1423847B1 (en) * 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
JP4227772B2 (ja) * 2002-07-19 2009-02-18 日本電気株式会社 オーディオ復号装置と復号方法およびプログラム
JP5129117B2 (ja) * 2005-04-01 2013-01-23 クゥアルコム・インコーポレイテッド 音声信号の高帯域部分を符号化及び復号する方法及び装置
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
JP4670483B2 (ja) * 2005-05-31 2011-04-13 日本電気株式会社 雑音抑圧の方法及び装置
KR101291672B1 (ko) * 2007-03-07 2013-08-01 삼성전자주식회사 노이즈 신호 부호화 및 복호화 장치 및 방법
ES2704286T3 (es) * 2007-08-27 2019-03-15 Ericsson Telefon Ab L M Método y dispositivo para la descodificación espectral perceptual de una señal de audio, que incluyen el llenado de huecos espectrales
DK2571024T3 (en) * 2007-08-27 2015-01-05 Ericsson Telefon Ab L M Adaptive transition frequency between the noise filling and bandwidth extension
US9177569B2 (en) * 2007-10-30 2015-11-03 Samsung Electronics Co., Ltd. Apparatus, medium and method to encode and decode high frequency signal
CN101868821B (zh) * 2007-11-21 2015-09-23 Lg电子株式会社 用于处理信号的方法和装置
CN101572092B (zh) * 2008-04-30 2012-11-21 华为技术有限公司 编解码端的固定码本激励的搜索方法及装置
CN101572088A (zh) * 2008-04-30 2009-11-04 北京工业大学 立体声编解码方法、编解码器及编解码系统
CN101281748B (zh) * 2008-05-14 2011-06-15 武汉大学 用编码索引实现的空缺子带填充方法及编码索引生成方法
EP4407610A1 (en) * 2008-07-11 2024-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
ES2796552T3 (es) * 2008-07-11 2020-11-27 Fraunhofer Ges Forschung Sintetizador de señales de audio y codificador de señales de audio
CA2836871C (en) * 2008-07-11 2017-07-18 Stefan Bayer Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
WO2010053287A2 (en) * 2008-11-04 2010-05-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
UA99878C2 (ru) * 2009-01-16 2012-10-10 Долби Интернешнл Аб Гармоническое преобразование, усовершенствованное перекрестным произведением
BRPI1007528B1 (pt) * 2009-01-28 2020-10-13 Dolby International Ab Sistema para gerar um sinal de áudio de saída a partir de um sinal de áudio de entrada usando um fator de transposição t, método para transpor um sinal de áudio de entrada por um fator de transposição t e meio de armazenamento
EP2555191A1 (en) * 2009-03-31 2013-02-06 Huawei Technologies Co., Ltd. Method and device for audio signal denoising
CA2777073C (en) * 2009-10-08 2015-11-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
CN102063905A (zh) * 2009-11-13 2011-05-18 数维科技(北京)有限公司 一种用于音频解码的盲噪声填充方法及其装置
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
CN102081926B (zh) * 2009-11-27 2013-06-05 中兴通讯股份有限公司 格型矢量量化音频编解码方法和系统
CN102194457B (zh) * 2010-03-02 2013-02-27 中兴通讯股份有限公司 音频编解码方法、系统及噪声水平估计方法
CN102136271B (zh) * 2011-02-09 2012-07-04 华为技术有限公司 舒适噪声生成器、方法及回声抵消装置
KR101551046B1 (ko) * 2011-02-14 2015-09-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법
ES2664090T3 (es) * 2011-03-10 2018-04-18 Telefonaktiebolaget Lm Ericsson (Publ) Relleno de subvectores no codificados en señales de audio codificadas por transformada
DK3067888T3 (en) * 2011-04-15 2017-07-10 ERICSSON TELEFON AB L M (publ) DECODES FOR DIMAGE OF SIGNAL AREAS RECONSTRUCTED WITH LOW ACCURACY
TWI606441B (zh) * 2011-05-13 2017-11-21 三星電子股份有限公司 解碼裝置
JP2013015598A (ja) * 2011-06-30 2013-01-24 Zte Corp オーディオ符号化/復号化方法、システム及びノイズレベルの推定方法
MX340386B (es) * 2011-06-30 2016-07-07 Samsung Electronics Co Ltd Aparato y metodo para generar señal extendida de ancho de banda.
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
US8527264B2 (en) * 2012-01-09 2013-09-03 Dolby Laboratories Licensing Corporation Method and system for encoding audio data with adaptive low frequency compensation
EP2830062B1 (en) * 2012-03-21 2019-11-20 Samsung Electronics Co., Ltd. Method and apparatus for high-frequency encoding/decoding for bandwidth extension
US9078653B2 (en) * 2012-03-26 2015-07-14 Ethicon Endo-Surgery, Inc. Surgical stapling device with lockout system for preventing actuation in the absence of an installed staple cartridge
ES2549953T3 (es) * 2012-08-27 2015-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
US9373337B2 (en) 2012-11-20 2016-06-21 Dts, Inc. Reconstruction of a high-frequency range in low-bitrate audio coding using predictive pattern analysis
CN105976824B (zh) * 2012-12-06 2021-06-08 华为技术有限公司 信号解码的方法和设备
ES2714289T3 (es) * 2013-01-29 2019-05-28 Fraunhofer Ges Forschung Llenado con ruido en la codificación de audio por transformada perceptual
CN103413553B (zh) * 2013-08-20 2016-03-09 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、编码端、解码端和系统
US8768005B1 (en) * 2013-12-05 2014-07-01 The Telos Alliance Extracting a watermark signal from an output signal of a watermarking encoder
EP2980792A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling

Also Published As

Publication number Publication date
MX365086B (es) 2019-05-22
AR101345A1 (es) 2016-12-14
JP2019194704A (ja) 2019-11-07
US10529348B2 (en) 2020-01-07
US10354663B2 (en) 2019-07-16
SG11201700689VA (en) 2017-02-27
KR101958359B1 (ko) 2019-03-15
CN106537499B (zh) 2020-02-21
EP3175449B1 (en) 2018-08-15
CN113160838A (zh) 2021-07-23
CN111261176A (zh) 2020-06-09
EP3186807A1 (en) 2017-07-05
US20220148606A1 (en) 2022-05-12
EP3471094B1 (en) 2024-10-09
MX2017001236A (es) 2017-07-07
KR101958360B1 (ko) 2019-03-15
WO2016016144A1 (en) 2016-02-04
JP2017526957A (ja) 2017-09-14
SG11201700631UA (en) 2017-02-27
US20210065726A1 (en) 2021-03-04
EP3175449A1 (en) 2017-06-07
CA2956024A1 (en) 2016-02-04
JP2017526004A (ja) 2017-09-07
US20190295561A1 (en) 2019-09-26
US11908484B2 (en) 2024-02-20
TWI575511B (zh) 2017-03-21
JP2022046504A (ja) 2022-03-23
JP6535730B2 (ja) 2019-06-26
TWI575515B (zh) 2017-03-21
AU2015295549A1 (en) 2017-03-16
EP4439559A2 (en) 2024-10-02
BR112017000852B1 (pt) 2022-11-22
CA2947804C (en) 2019-07-02
BR112017001586A2 (pt) 2018-01-30
CA2947804A1 (en) 2016-02-04
EP3471094A1 (en) 2019-04-17
MX363352B (es) 2019-03-20
RU2016146738A (ru) 2018-08-28
JP7354193B2 (ja) 2023-10-02
KR20170063534A (ko) 2017-06-08
JP6457625B2 (ja) 2019-01-23
US20200090668A1 (en) 2020-03-19
US20230386487A1 (en) 2023-11-30
US20170069332A1 (en) 2017-03-09
US11705145B2 (en) 2023-07-18
US10885924B2 (en) 2021-01-05
CA2956024C (en) 2019-05-07
RU2016146738A3 (zh) 2018-08-28
JP6943836B2 (ja) 2021-10-06
JP7391930B2 (ja) 2023-12-05
EP2980792A1 (en) 2016-02-03
ES2718728T3 (es) 2019-07-04
EP3186807B1 (en) 2019-01-02
CN106537499A (zh) 2017-03-22
RU2017105507A3 (zh) 2018-08-28
RU2017105507A (ru) 2018-08-28
TR201904282T4 (tr) 2019-05-21
JP6992024B2 (ja) 2022-01-13
MX2017001231A (es) 2017-07-07
AU2015295547A1 (en) 2017-01-12
KR20170024048A (ko) 2017-03-06
PL3175449T3 (pl) 2019-01-31
WO2016016146A1 (en) 2016-02-04
JP2022003397A (ja) 2022-01-11
CN106796798B (zh) 2021-03-05
AU2015295549B2 (en) 2018-11-01
US20170133024A1 (en) 2017-05-11
RU2667376C2 (ru) 2018-09-19
PT3186807T (pt) 2019-04-02
RU2665913C2 (ru) 2018-09-04
US11264042B2 (en) 2022-03-01
ES2693051T3 (es) 2018-12-07
CN106796798A (zh) 2017-05-31
PT3175449T (pt) 2018-11-23
AR101346A1 (es) 2016-12-14
CN113160838B (zh) 2024-05-10
BR112017000852A2 (pt) 2017-12-05
TW201608561A (zh) 2016-03-01
PL3186807T3 (pl) 2019-06-28
BR112017001586B1 (pt) 2022-11-22
AU2015295547B2 (en) 2018-07-19
CN111261176B (zh) 2024-04-05
TR201816634T4 (tr) 2018-11-21
JP2019074755A (ja) 2019-05-16

Similar Documents

Publication Publication Date Title
TWI575515B (zh) 使用獨立噪聲填充產生增強信號的裝置及方法