TW201610986A - 音頻編碼器及解碼器使用具全頻段間隙填充之頻域處理器及時域處理器之音頻編碼器及解碼器 - Google Patents

音頻編碼器及解碼器使用具全頻段間隙填充之頻域處理器及時域處理器之音頻編碼器及解碼器 Download PDF

Info

Publication number
TW201610986A
TW201610986A TW104123735A TW104123735A TW201610986A TW 201610986 A TW201610986 A TW 201610986A TW 104123735 A TW104123735 A TW 104123735A TW 104123735 A TW104123735 A TW 104123735A TW 201610986 A TW201610986 A TW 201610986A
Authority
TW
Taiwan
Prior art keywords
spectral
frequency
sound source
signal
processor
Prior art date
Application number
TW104123735A
Other languages
English (en)
Other versions
TWI570710B (zh
Inventor
薩斯洽 帝斯奇
馬汀 狄亞茲
馬庫斯 木翠斯
貴勞美 夫杰斯
艾曼紐 拉維里
曼薩斯 紐新傑
馬庫斯 斯奇乃爾
班傑明 史屈博特
鮑耐德 吉爾
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201610986A publication Critical patent/TW201610986A/zh
Application granted granted Critical
Publication of TWI570710B publication Critical patent/TWI570710B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一種音源編碼器供編碼一音源訊號,包括:一第一編碼處理器(600),在一頻域編碼一第一音源訊號部分,其中該第一編碼處理器(600)包括:一時頻轉換器(602),轉換該第一音源訊號部分至一頻域表現其係具有多個頻譜線高達該第一音源訊號部分的一最大頻率;一分析器(604),分析該頻域表現高達該最大頻率以決定將以一第一頻譜解析度編碼的多個第一頻譜部分以及將以一第二頻譜解析度編碼的多個第二頻譜部分,該第二頻譜解析度低於該第一頻譜解析度;一頻譜編碼器(606),以該第一頻譜解析度編碼該等第一頻譜部分以及以該第二頻譜解析度編碼該等第二頻譜部分;一第二編碼處理器(610),在該時域編碼一第二不同音源訊號部分;一控制器(620),設來分析該音源訊號以及決定該音源訊號的何部分是編碼在該頻域的該第一音源訊號部分以及該音源訊號的何部分是編碼在該時域的該第二音源訊號部分;以及一編碼訊號形成器(630),形成一編碼音源訊號其包括供該第一音源訊號部分的一第一編碼訊號部分以及供該第二音源訊號部分的一第二編碼訊號部分。

Description

音頻編碼器及解碼器使用具全頻段間隙填充之頻域處理器及時域處理器之音頻編碼器及解碼器
本發明關於音源訊號編碼及解碼,特別關於使用平行頻域及時域編碼器/解碼器處理器的音源訊號處理。
以資料削減供有效率的儲存或訊號傳輸為目的的音源訊號的感知編碼係廣泛地實際使用。特別是當最低位元率達成時,所用的編碼導至音源品質降低經常王要是因為在編碼器側要傳送的音源訊號帶寬的限制。於此,典型上音源訊號係經低通濾波使得沒有頻譜波形內容存留在一某個預先決定的截止頻率之上。
在當前編碼中,已知方法存在供經由音源訊號帶寬擴展(BWE)的解碼器側訊號復原例如操作在頻域的頻譜頻段複製(SBR)或俗稱為時域帶寬擴展(TD-BWE)操作在時域在語音編碼器的一後置處理器。
此外,數個結合時域/頻域編碼構想存在例如術語AMR-WB+或USAC構想。
全部這些結合時域/編碼構想具有共同點於頻域編碼器依靠帶寬擴展技術其係帶來一頻段限制到輸入音源訊號及部分在一交越頻率上,或邊緣頻率以一低解析度編碼構想來編碼並在解碼器側合成。因此,這種構想主要依靠在編碼器側的一預處理器技術及在解碼器側的一對應後處理功能。
典型上,時域編碼器係被選來供有用的訊號編碼在時域例如語音訊號,頻域編碼器係被選來供非語音訊號、音樂訊號等。然而,特別 是對非語音訊號具有明顯的諧波在高頻率頻段,習知頻域編碼器具有降低的準確度,因而有降低的音源品質,因為這種明顯的諧波僅能分別地參數化地編碼或在編碼/解碼過程中完全被消除。
再者,構想之中時域編碼/解碼分支還可依靠帶寬擴展其係也參數化地編碼一較高頻率範圍當一較低頻率範圍係典型上使用一ACELP或任何其他CELP相關編碼器來編碼,例如一語音編碼器。此帶寬擴展功能上增加了位元率效率,但另一方面導致更不彈性這是因為這二個編碼分支即頻域編碼分支及時域編碼分支係頻段受限於帶寬擴展程序或頻譜頻段複製程序操作在某一個交越頻率之上實質上低於包含在輸入音源訊號的最大頻率。
現有技術相關議題包括
- SBR為一後置處理器至波形解碼[1-3]
- MPEG-D USAC核心切換[4]
- MPEG-H 3D IGF[5]
以下文獻及專利所述之方法係與本案相關:
[1] M. Dietz, L. Liljeryd, K. Kjörling and O. Kunz, “Spectral Band Replication, a novel approach in audio coding,” in 112th AES Convention, Munich, Germany, 2002.
[2] S. Meltzer, R. Böhm and F. Henn, “SBR enhanced audio codecs for digital broadcasting such as “Digital Radio Mondiale” (DRM),” in 112th AES Convention, Munich, Germany, 2002.
[3] T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, “Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm,” in 112th AES Convention, Munich, Germany, 2002.
[4] MPEG-D USAC Standard.
[5] PCT/EP2014/065109.
在MPEG-D USAC,描述了一可切換核心編碼器。然而,在USAC,頻段限制核心係限制於總是傳送一低通濾波訊號。因此,某個含有明顯的高頻率內容例如全頻段掃描、三角聲等的音樂訊號就無法被如實的 重現。
本發明之一目的為提供音源編碼的一改進構想。
這目的可由請求項1的一音源編碼器、請求項11的一音源解碼器、請求項20的一音源編碼方法、請求項21的一音源解碼方法或請求項22的電腦程式來達成。
本發明係基於一時域編碼/解碼處理器能結合具有一填隙功能的一頻域編碼/解碼處理器,但此填頻譜洞的填隙功能係操作在音源訊號的全頻段或至少某一個填隙頻率以上。重要的是,頻域編碼/解碼處理器係特別進行準確的或波形或頻譜值編碼/解碼高達最大頻率且不僅只有直到一交越頻率。再者,以高解析度編碼的頻域編碼器的全頻段能力允許填隙功能整合至頻域編碼器。
因此,根據本發明使用全頻段頻譜編碼器/解碼器處理器,在一方面帶寬擴展的分隔及另一方面的核心編碼所相關的問題可以藉由在核心解碼器所操作的相同頻譜域中進行帶寬擴展來對付及克服。因此,提供一全滿率核心解碼器其係編碼及解碼全音源訊號範圍。這不需要在編碼器側的一降取樣器及在解碼器側的一升取樣器。取而代之的,整個處理係進行在全取樣率或全帶寬域。為得到一高編碼增益,音源訊號係被分析而尋得已以一高解析度編碼的一第一組第一頻譜部分,在一實施例中,其中這第一組第一頻譜部分可包含音源訊號的音調部分。另一方面,在音源訊號中構成一第二組第二頻譜部分的非音調或噪聲部分係參數化地以低頻譜解析度編碼。編碼音源訊號然後僅需要將第一組第一頻譜部分以一高頻譜解析度及一波形保存方式來編碼,此外,第二組第二頻譜部分以一低解析度使用源於第一組的頻率平鋪來參數化地編碼。在解碼器側,為一全頻段解碼器的核心解碼器,重現第一組第一頻譜部分於一波形保存方式即沒有任何消息關於有任何額外的頻率再生。然而,這樣產生的頻譜具有多個頻譜間隙。這些間隙隨後填有智慧型填隙(IGF)技術其係藉由使用在一方面 施有參數資料的一頻率再生以及使用一來源頻譜範圍即由全滿率音源解碼器在另一方面重現第一頻譜部分。
在其他實施例中,由噪聲填充而非僅由帶寬複製或頻率平鋪填充的頻譜部分構成一第三組第三頻譜部分。因為編碼構想操作在一方面於一單域核心編碼/解碼在另一方面頻率再生,IGF並未僅限制於藉由沒有頻率再生的噪聲填充或藉由在一不同頻率範圍使用一頻率平鋪的頻率再生而填滿一較高頻率範圍但也可填滿較低頻率範圍。
再者,在頻譜能量的一資訊、在個別能量的一資訊或一個別能量資訊、在一存留能量的一資訊或一存留能量資訊、在一平鋪能量的一資訊或一平鋪能量資訊、或在一遺漏能量的一資訊或一遺漏能量資訊可包括不僅一能量值還有一(例如絕對)振幅值、一位準值或任何其他可從一最終能量值導出之值。因此,在一能量之資訊可例如包括能量值本身、及/或一位準之一值及/或一振幅之一值及/或一絕對振幅之一值。
另一方面是基於相關情況不但對來源範圍很重要,他也對目標範圍也很重要。再者,本案認知到的情況是不同相關情況可發生在來源範圍及目標範圍。當考慮到例如具有高頻率噪聲的一語音訊號,這情況可以是當揚聲器放在中間時,低頻率頻段包括具小量泛音的語音訊號係高度相關在左聲道及右聲道。然而,高頻率部分可強烈的不相關因為可能有不同的一高頻率噪聲在左側相較於另一高頻率噪聲或沒有高頻率噪聲在右側。因此,當一直截的填隙操作進行忽略這情況,然後高頻率部分也將相關,這將產生嚴重的空間分隔假造在重現訊號中。為對付這議題,供一再現頻段或一般供必須使用一第一組第一頻譜部分重現的第二組第二頻譜部分的參數化資料係計算來確認一第一或一第二不同雙通道表現供第二頻譜部分或陳述不同地供再現頻段。在編碼器側,一雙通道確認係因而計算給第二頻譜部分,即能量資訊計算給再現頻段的部分。一頻率再生器在解碼器側然後依據第一組第一頻譜部分的一第一部分再產生一第二頻譜部分,即依據來源範圍及供第二部分的參數化資料例如頻譜包跡能量資訊或任何其他頻譜包跡資料,更依據第二部分的雙通道確認,即在再現之下的再現頻段。
雙通道確認係較佳傳送為各再現頻段的一旗標且這資料從一編碼器傳送至一解碼器,解碼器然後將由較佳計算出的供核心頻段的旗標所指的核心訊號解碼。然後,一實作,核心訊號係儲存在立體聲表現(例如左/右及中間/旁邊)以及IGF頻率平鋪充填此二者,來源平鋪表現係選來要符合智慧型填隙或再現頻段即目標範圍的雙通道確認旗標所指的目標平鋪表現。
這程序不僅適用於立體聲訊號即一左聲道及右聲道,也供多通道訊號操作。在多通道訊號情況下,數對不同通道可用這方式處理例如一左聲道及一右聲道作為一第一對、一左環繞通道及一右環繞通道作第二對、以及一中央通道及一LFE通道作為第三對。其他配對可決定給較高輸出通道格式例如7.1、11.1等等。
另一方面基於既然全頻譜係核心編碼器可存取,再現訊號的音源品質可經由IGF改善,使得例如感知重要音調部分在一高頻譜範圍仍可藉由核心編碼器來編碼而非參數化替換。此外,進行一填隙操作使用頻率平鋪從一第一組第一頻譜部分其例如是一組音調部分典型上從一較低頻率範圍但也可以從一較高頻率範圍如果可取得的化。然而,關於在解碼器側的頻譜包跡調整,從位於再現頻段的第一組頻譜部分的頻譜部分沒有進一步後處理例如頻譜包跡調整。僅於並非源於核心解碼器的再現頻段中的存留頻譜值係使用包跡資訊來包跡調整。較佳的,包跡資訊係一全頻段包跡資訊以佔於再現頻段的第一組第一頻譜部分的能量以及在相同再現頻段中第二組第二頻譜部分,其中在第二組第二頻譜部分中後者頻譜值係被指定為0且沒有被核心編碼器所編碼,但被以低解析度能量資訊來參數化地編碼。
絕對能量值就對應頻段的帶寬正規化或沒有正規化在解碼器側的一應用是有用的且很有效率的。這特別用於當增益因子必須基於在再現頻段的一殘餘能量、在再現頻段的遺漏能量以及在再現頻段的頻率平鋪資訊來計算。
再者,較佳為編碼位元流不僅涵蓋供再現頻段的能量資訊,也還有供倍率因子頻帶擴展高達最大頻率的倍率因子。這確保各再現頻段 的某一個音調部分即一第一頻譜部分係可取得的,此第一組第一頻譜部分實際上能以正確的振幅解碼。再者,除了各再現頻段的倍率因子,此再現頻段的一能量係產生於一編碼器並傳送至一解碼器。再者,較佳是再現頻段與倍率因子頻帶一致,或能量群集情況下至少一再現頻段的邊緣與倍率因子頻帶的邊緣一致。
另一方面基於在音源品質的某些損傷可藉由施用依訊號適應性頻率頻鋪填充機制來補救。在這端,在編碼器側的一分析係進行來發現最佳匹配來源區域候選供某一目標區域。供一目標區域的一匹配資訊確認某一來源區域連同選擇性的一些額外資訊係被產生且傳送為輔助資訊至解碼器。解碼器然後使用匹配資訊來施用一頻率平鋪填充操作。在這端,解碼器從傳送的資料串流或資料檔案讀取匹配資訊以及存取供某一再現頻段確認的來源區域,如果在匹配資訊中有指出,額外在進行一些此來源區域資料的處理來產生供再現頻段的原始頻譜資料。然後,頻率平鋪填充操作的結果即供再現頻段的原始頻譜資料係使用頻譜包跡資訊而塑形以最終得到包括第一頻譜部分及例如音調部分的一再現頻段。然而,這些音調部分並沒有藉由適應性平鋪填充機制來產生,但這些第一頻譜部分係藉由音源解碼器或核心解碼器直接輸出。
適應性頻譜平鋪選擇機制可以低粒度操作。在此實作中,一來源區域係典型地分割為重疊來源區域以及目標區域、或再現頻段是藉由非重疊頻率目標區域給定。然後,各來源區域以及各目標區域間的重複性係決定在編碼器側,一來源區域以及目標區域的最佳匹配對係藉由匹配資訊來確認,在解碼器側,在匹配資訊中所確認的來源區域係用來產生原始頻譜資料供再現頻段。
對於要得到較高粒度的目的,各來源區域係允許偏移來得到某一遲滯其中相似度係最大化。此遲滯可以係如一頻率箱甚至允許一來源區域以及目標區域間的一較佳匹配。
另外,除了僅確認一最佳匹配對之外,此相關遲滯也可以傳送在匹配資訊之內,額外的,甚至一符號也可以傳送。當符號被決定為在編碼器側是負的時,然後一對應符號旗標也傳送在匹配資訊之內,在解碼 器側,來源區域頻譜值係乘以「-1」或在複數表示下為「旋轉」180度。
本發明另一實作用於一平鋪白化操作。一頻譜的白化移除粗頻譜包跡資訊及加重頻譜良好結構其係最先關注評估平鋪相似度。因此,計算一跨相關量測之前,一方面一頻率平鋪及/或另一方面來源訊號係白化。當僅有平鋪被使用一預定程序而白化,一白化旗標係傳送向解碼器指出相同預定白化處理應當用於IGF內的頻率平鋪。
關於平鋪選擇,較佳是使用相關的滯後藉由一整數量的變換箱來頻譜地移動再產生的頻譜。依據底層變換,頻譜移動可能需求額外的更正。在奇滯後,平鋪還可藉由-1/1的交替時間序列經乘法來調變來補償MDCT中之每個其他頻段的頻率反轉表現。再者,當產生頻率平鋪時,相關結果的符號係應用。
再者,較佳為使用平鋪修剪及穩定以確認相同再現區域或目標區域的快速改變來源範圍所創出的假造可以避免。在這端,不同確認來源區域之中的一相似度分析係進行,當一來源平鋪相似於具在一門檻之上一相似度的其他來源平鋪時,然後既然他高度地相關於其他來源平鋪,此來源平鋪可從這組潛在的來源平鋪下跌。再者,如一種平鋪選擇穩定,較佳為保持從前訊框的平鋪順序如果在當下訊框沒有來源平鋪與在當下訊框的目標平鋪相關(優於一給定的門檻)。
再一方面是基於一改進的品質及降低位元率特別對於常常發生在音源訊號中包括瞬變部分的訊號係藉由以高頻率再現結合時間噪聲塑形(TNS)或時間平鋪塑形(TTS)技術而得到。在編碼器側藉由跨頻率預估實作的TNS/TTS處理係再現音源訊號的時間包跡。依據實作,即當時間噪聲塑形濾波器是決定在一頻率範圍之內不僅涵蓋來源頻率範圍也涵蓋要再現於一頻率再生解碼器的目標頻率範圍,時間包跡沒有僅施用於高達一填隙開始頻率的核心音源訊號,時間包跡也施用於再現的第二頻譜部分的頻譜範圍。因此,沒有時間平鋪塑形的前回聲或後回聲係減少或消除。這可藉由施用一跨頻率反向預估不僅在高達一某個填隙開始頻率的核心頻率範圍之內也在核心頻率範圍之上的一頻率範圍之內來完成。在此端,施用一跨頻率預估之前,頻率再生或頻率平鋪產生係在解碼器側進行。然而, 頻譜包跡塑形之前或之後跨頻率預估也可以施用依據能量資訊計算是否已經進行在濾波或(全)頻譜值之後包跡塑形之前的頻譜殘餘值而定。
TTS處理一或多個頻率平鋪還可建立一相關的連續於來源範圍及再現範圍之間或在二相鄰再現範圍或頻率平鋪之間。
在一實作中,較佳為使用複合TNS/TTS濾波。因此,一嚴重的取樣真實表現的(時間的)別名假造,像是MDCT,可以避免。一複合TNS濾波器可以在編碼器側藉由施用不僅一改進的離散餘弦變換也還有一改進的離散正弦變換來計算以得到一複合改進的變換。此外,僅改進的離散餘弦變換值,即複合變換的實部係傳送。然而,在解碼器側,有可能使用先前或隨後的訊框的MDCT頻譜來估算變換的虛部,使得在解碼器側,複合濾波器能再施用於反向跨頻率預估,特別是,預估跨來源範圍及再現範圍之間的邊緣也跨在再現範圍之內頻率相鄰頻率平鋪的邊緣。
音源編碼系統有效率的編碼任意音源訊號在一廣範圍的位元率。其中,對於高位元率,本發明系統聚合至清晰,對於低位元率,感知打擾係最小化。因此,可取得的位元率的主要共享係用在波形編碼僅感知地在編碼器中訊號的大多相關結構,結果的頻譜間隙係以大致近似原始頻譜的訊號內容在解碼器填入。一極有限位元預算係消耗來控制參數其係被驅使於藉由從編碼器傳送至解碼器的專用輔助資訊俗稱的頻譜智慧型填隙(IGF)。
在其他實施例中,時域編碼/解碼處理器依靠一較低取樣率及對應帶寬擴展功能。
在其他實施例中,一跨處理器係供以源於當下處理的頻域編碼器/解碼器訊號的初始化資料來初始化時域編碼器/解碼器。這允許當當下處理的音源訊號部分由頻域編碼器處理時,平行時域編碼器係初始化使得當從頻域編碼器切換至一時域編碼器發生時,既然關於先前訊號的全部初始化資料已經因跨處理器而在此,此時域編碼器可立即地開始處理。此跨處理器係較佳地施用在編碼器側也還可在解碼器側,較佳的使用一頻時變換其係還可藉由僅選擇域訊號的某一個低頻段部分隨某一個降低的變換規模而進行一很有效率的降取樣從較高輸出或輸入取樣率至較低時域核 心編碼器取樣率。因此,從高取樣率至低取樣率的一取樣率轉換係很有效率的進行,藉由以縮小的變換規模的變換而得到的訊號可然後用在初始化時域編碼器/解碼器,使得當此狀況藉由一控制器信號通知時,時域編碼器/解碼器準備好要立即進行時域編碼,立即進行的音源訊號部分係編碼在頻域。
因此,本發明較佳實施例允許包括頻譜填隙以及具有或不具有帶寬擴展的一時域編碼器的一感知音源編碼器的一無縫切換。
因此,本發明依靠方法其係不限於從音源訊號移除在頻域編碼器中一截止頻率之外的高頻率內容,而非訊號適應性地移除留下頻譜間隙在編碼器的頻譜帶通區域,隨後地再現這些頻譜間隙於解碼器。較佳的,一整合方案例如智慧型填隙係使用在有效率的結合全帶寬音源編碼及頻譜填隙特別在MDCT變換域。
因此,本發明提供一改進的構想供結合語音編碼以及一隨後的時域帶寬擴展其藉一全頻段波形解碼包括頻譜填隙至一可切換感知編碼器/解碼器。
因此,與既存方法相反,新構想使用在變換域編碼器的全頻段音源訊號波形編碼及相同時間允許一無縫切換至一語音編碼器較佳的接著藉由一時域帶寬擴展。
本發明其他實施例因一固定頻段限制而可避免前述說明的問題發生。此構想讓在頻域中配有一頻譜填隙的一全頻段波形編碼器以及一較低取樣率語音編碼器的可切換結合以及一時域帶寬擴展變為可能。這種編碼器能夠波形編碼前述有問題的訊號提供全音源帶寬高達音源輸入訊號的奈奎斯特頻率。此外,在具有跨處理器的實施例中特別確保這二個編碼策略間的無縫即刻切換。對此無縫切換,跨處理器代表一跨連接在編碼器以及解碼器二者於全頻段能夠全速率(輸入取樣率)頻域編碼器以及具一較低取樣率的低速率ACELP編碼器之間來適當的初始化ACELP參數以及緩衝區特別在適應性編碼簿、LPC濾波器或再取樣階段之中,當從例如是TCX的頻域編碼器切換至例如ACELP的時域編碼器。
99‧‧‧音源訊號、音源輸入訊號、訊號、時間域音源訊號、輸入音源訊號、編碼音源訊號
100‧‧‧時間頻譜轉換器
101‧‧‧頻譜表現、頻譜、頻譜分析器
102‧‧‧頻譜分析器
103‧‧‧第一組第一頻譜部分、核心頻帶以及音調成分
104‧‧‧參數計算器/參數化編碼器
105‧‧‧第二組第二頻譜部分
106‧‧‧頻譜域音源編碼器、頻譜域編碼器
107‧‧‧第一編碼表現
108‧‧‧位元流形成器、區塊、位元流多工器
109‧‧‧第二編碼表現、線
112‧‧‧頻譜域音源解碼器、區塊、頻譜域解碼器
114‧‧‧參數化解碼器、區塊
116‧‧‧頻率再生器
117‧‧‧線、再建的第二組頻譜部分
118‧‧‧頻譜時間轉換器
119‧‧‧時域表示
200‧‧‧解多工器/解碼器
202‧‧‧IGF區塊、IGF
203‧‧‧線
204‧‧‧聯合聲道解碼、聯合聲道解碼區塊
206‧‧‧音調遮罩、音調遮罩區塊
208‧‧‧組合器
209‧‧‧填隙開始頻率
210‧‧‧區塊、反向TNS
212‧‧‧合成濾波器組
220‧‧‧分析濾波器組、音源訊號
222‧‧‧TNS區塊、區塊、TNS、分析濾波器組
224‧‧‧IGF參數抽取編碼、區塊
226‧‧‧音調遮罩區塊、頻譜分析器/音調遮罩
228‧‧‧聯合聲道編碼、聯合聲道編碼區塊、核心編碼器、聯合聲道編碼器
230‧‧‧位元流多工器
232‧‧‧熵編碼器
302‧‧‧編碼音調部分
304、305、306‧‧‧高解析度頻譜成分、編碼音調部分、頻譜部分、第一頻譜部分
307‧‧‧高解析度頻譜成分、編碼音調部分、頻譜成分、消失的諧波、頻譜部分、第一頻譜部分、諧波
307a、307b‧‧‧頻譜部分
308‧‧‧噪聲填充資訊
309‧‧‧IGF開始頻率、智慧型填隙開始頻率、填隙開始頻率、填隙頻率、間隙填充頻率
309‧‧‧填隙開始頻率
390‧‧‧頻率、再建頻率
391‧‧‧頻率錯誤
400‧‧‧倍率因子計算器
401‧‧‧頻譜範圍
402‧‧‧心理聽覺模型
404‧‧‧量化處理器
410‧‧‧設零區塊、區塊、設零
412‧‧‧區塊、加權區塊、倍率因子加權
418‧‧‧區塊、設零區塊、設零
420‧‧‧量化器區塊、量化器
422‧‧‧設零區塊、區塊、設零
424‧‧‧頻譜分析器
502‧‧‧設窗器
504‧‧‧瞬變偵測器
506‧‧‧區塊轉換器、區塊
510‧‧‧訊框建立器/調整器區塊、訊框建立器/調整器、區塊
512‧‧‧區塊、反向區塊轉換/內插
514‧‧‧區塊、合成設窗
516‧‧‧區塊、對先前時間訊框執行重疊/相加
522‧‧‧區塊、頻率平鋪產生器
523‧‧‧原始第二部分
523‧‧‧頻譜成分
524‧‧‧訊框建立器
526‧‧‧調整器
527‧‧‧增益因子
528‧‧‧增益因子計算器
600‧‧‧TCX編碼器、具IGF的全頻段頻域、第一編碼處理器、頻域編碼器
601‧‧‧音源訊號輸入、第一音源訊號部分、第二音源訊號部分
602‧‧‧MDCT(輸入SR)、時頻轉換器、時頻轉換器區塊、區塊
604‧‧‧全頻段分析器
604a‧‧‧TNS/TTS分析、TNS/TTS分析區塊、時間噪聲塑形/時間平鋪塑形分析區塊
604b‧‧‧IGF編碼器
606‧‧‧高解析度編碼器、參數化編碼器、頻譜域音源編碼器、頻譜編碼器
606a‧‧‧區塊、噪聲塑形、噪聲塑形區塊
606b‧‧‧區塊、量化/編碼
610‧‧‧ACELP編碼器、時域編碼處理器、時域編碼器、第二編碼處理器(時域)
611‧‧‧LPC分析濾波、LPC分析濾波區塊、區塊
612‧‧‧區塊、適應性編碼簿、適應性編碼簿區塊、適應性編碼簿階段
613‧‧‧MMSE、編碼簿決定器
614‧‧‧創新編碼簿區塊、創新編碼簿階段
615‧‧‧ACELP增益/編碼、ACELP增益/編碼階段
616‧‧‧LPC合成濾波、LPC合成濾波區塊
617‧‧‧去加重、去加重區塊、去加重階段
618‧‧‧適應性BPF、適應性低音後置濾波器階段
620‧‧‧TCX/ACELP切換決定:切換於TCX及ACELP分支之間、控制器
621‧‧‧控制線、頻域編碼器模擬器
622‧‧‧時域編碼處理器模擬器、時域編碼器模擬器、控制線
623‧‧‧選擇器
630‧‧‧位元流多工器、區塊、編碼訊號形成器
632‧‧‧編碼音源訊號、編碼訊號形成器
700‧‧‧TCX解碼器、跨處理器、頻譜解碼器
701‧‧‧TCX解碼器、區塊、頻譜解碼器
702‧‧‧IMDCT(ACELP SR)、IMDCT區塊、反向改進的離散餘弦變換、區塊
703‧‧‧反向噪聲塑形、反向噪聲塑形區塊、噪聲塑形區塊
704‧‧‧IGF解碼器、LPC分析濾波區塊、選擇性填隙解碼器
705‧‧‧TNS/TTS合成、TNS/TTS合成區塊、區塊TNS/TTS合成
706‧‧‧LPC分析濾波
707‧‧‧延遲階段
708‧‧‧加權LPC分析濾波
708‧‧‧加權預估係數分析濾波階段
709‧‧‧預加重
709‧‧‧預加重階段
710‧‧‧大規模變換及折疊、折疊區塊、更延遲階段、區塊
712‧‧‧以大量係數的窗來合成設窗、區塊
714‧‧‧重疊相加大量的操作、重疊相加階段、區塊
720‧‧‧小規模變換及折疊、折疊區塊、區塊、特徵、項目
722‧‧‧以小量係數的窗來合成設窗、區塊、特徵
724‧‧‧重疊相加小量的操作、區塊、特徵
726‧‧‧區塊、項目、選擇器
900‧‧‧降取樣器、區塊
910‧‧‧時域低頻段編碼器
920‧‧‧時域帶寬擴展、時域帶寬擴展區塊、時域帶寬擴展編碼器
1000‧‧‧具LPC分析器的預處理器、預處理、預處理階段、預處理器、預處理操作、輸入訊號預處理
1002‧‧‧區塊
1002a‧‧‧LPC分析器、決定LPC係數
1002b‧‧‧LPC分析器、決定LPC係數
1004‧‧‧再取樣12.8kHz(ACELP SR)、再取樣器
1005‧‧‧區塊、預加重(進行在預處理)、預加重階段
1005a‧‧‧預加重、預加重階段
1005b‧‧‧預加重、預加重階段
1006‧‧‧TCX LTP參數萃取區塊、區塊
1007‧‧‧FFT/噪聲估測/VAD等、區塊、基週搜尋階段
1010‧‧‧LPC量化器、區塊、量化LPC係數
1020‧‧‧瞬變偵測、瞬變偵測器
1021‧‧‧再取樣12.8kHz、再取樣器
1022a‧‧‧加權LPC分析濾波、加權分析濾波階段
1022b‧‧‧加權LPC分析濾波、加權分析濾波階段
1024‧‧‧TCX LTP參數萃取、TCX LTP參數萃取階段、區塊
1100‧‧‧位元流解多工器、編碼訊號剖析器
1101‧‧‧編碼音源訊號
1112‧‧‧解碼器
1120‧‧‧TCX解碼器、全頻段頻域解碼器、在頻域具IGF的全頻段第一解碼處理器、第一解碼處理器、頻域全頻段解碼器
1122‧‧‧具IGF合成的頻譜解碼器、頻譜解碼器
1122a‧‧‧解碼器、區塊、第一解碼區塊、解碼頻譜係數/噪聲填充
1122b‧‧‧IGF處理、IGF處理器、區塊
1122c‧‧‧反向噪聲塑形、區塊
1124‧‧‧IMDCT(輸出SR)、IMDCT區塊、區塊、頻時轉換器
1140‧‧‧時域第二解碼處理器、時域解碼處理器、時域解碼器、區塊、第二解碼處理器
1141‧‧‧ACELP適應性編碼簿、ACELP適應性編碼簿階段、適應性編碼簿階段
1142‧‧‧ACELP後置處理階段、ACELP後置處理器
1143‧‧‧LPC合成濾波階段、LPC合成濾波器
1144‧‧‧去加重、去加重階段
1145‧‧‧量化LPC係數
1149‧‧‧ACELP適應性解碼器(增益、ICB)、ACELP適應性解碼器階段、創新編碼簿
1160‧‧‧第二開關、結合器、開關實施
1170‧‧‧跨處理器
1171‧‧‧IMDCT(ACELP SR)、IMDCT區塊、區塊、頻時轉換器
1172‧‧‧延遲階段
1173‧‧‧預加重、預加重濾波器
1174‧‧‧LPC分析濾波器
1175‧‧‧延遲階段、區塊
1200‧‧‧時域低頻段解碼器
1210‧‧‧升取樣器
1220‧‧‧時域帶寬擴展、時域帶寬擴展解碼器
1221‧‧‧時域升取樣器
1222‧‧‧非線性失真、非線性失真區塊、區塊
1223‧‧‧LPC合成濾波、LPC合成濾波區塊
1224‧‧‧帶通濾波器、濾波器
1230‧‧‧混頻器
1420‧‧‧LTP後置濾波器
1471‧‧‧QMF分析、QMF分析(ACELP SR)、QMF分析區塊、QMF分析階段、QMF分析濾波器組
1472‧‧‧帶通濾波
1473‧‧‧QMF合成(輸出SR)、QMF合成區塊、QMF合成輸出、合成濾波器組
1480‧‧‧第一開關、開關
1500‧‧‧ACELP解碼器
本發明隨後將根據圖示說明其中:圖1a出示編碼一音源訊號的一裝置。
圖1b出示一解碼器供解碼與圖1a編碼器匹配的一編碼音源訊號。
圖2a出示解碼器的一實作。
圖2b出示編碼器的一實作。
圖3a出示藉由圖1b的頻譜域解碼器所產生的一頻譜的一示意的表現。
圖3b出示一倍率因子頻帶之倍率因子以及用於噪聲填充頻帶之再建頻段與噪聲填充資訊的能量之間的關係的表格。
圖4a出示將頻譜部分的選擇用在第一及第二組頻譜部分的頻譜域編碼器的功能。
圖4b出示圖4a的功能的一實作。
圖5a出示一MDCT編碼器的一功能。
圖5b出示具一MDCT技術的解碼器的一功能。
圖5c出示一頻率再生器的一實作。
圖6出示一音源編碼器的一實作。
圖7a出示在音源編碼器中的一跨處理器。
圖7b出示在跨處理器中一反向或頻時變換還可提供一取樣率降低的一實作。
圖8出示圖6的控制器的一較佳實施例。
圖9出示具帶寬擴展功能的時域編碼器的一進一步實施例。
圖10出示一預處理器的一較佳使用。
圖11a出示音源解碼器的一示意實作。
圖11b出示在解碼器中提供初始化資料給時域解碼器的一跨處理器。
圖12出示圖11a的時域解碼處理器的一較佳實作。
圖13出示時域帶寬擴展的另一實作。
圖14a出示一音源編碼器的一較佳實作。
圖14b出示一音源解碼器的一較佳實作。
圖14c出示具取樣率轉換及帶寬擴展的一時域解碼器的一創新實作。
圖6出示編碼一音源訊號的一音源編碼器其包括一第一編碼處理器600以在一頻域編碼一第一音源訊號部分。第一編碼處理器600包括一時頻轉換器602以轉換第一輸入音源訊號部分至一頻域表現其係具頻譜線高達輸入訊號的一最大頻率。再者,第一編碼處理器600包括一分析器604供分析高達最大頻率的頻域表現來決定要以一第一頻譜表現編碼的第一頻譜區域以及決定要以低於第一頻譜解析度的一第二頻譜解析度編碼的第二頻譜區域。特別是,全頻段分析器604決定在時頻轉換器頻譜中何頻率線或頻譜值要為編碼逐頻譜線以及何其他頻譜部分要為以一參數化方式來編碼,這些後續頻譜值係然後以填隙程序再現於解碼器側。藉由將第一頻譜區域或具第一解析度的頻譜部分來編碼以及將第二頻譜區域或具第二頻譜解析度的部分來參數化地編碼的一頻譜編碼器606進行實際編碼操作。
圖6的音源編碼器還可包括一第二編碼處理器610以在一時域編碼音源訊號部分。此外,音源編碼器包括一控制器620配置為分析在一音源訊號輸入601的音源訊號以及決定音源訊號的何部分係編碼在頻域的第一音源訊號部分及音源訊號的何部分係為編碼在時域的第二音源訊號部分。再者,可以例如實作為一位元流多工器的一編碼訊號形成器630係配置為形成一編碼音源訊號其包括對第一音源訊號部分的一第一編碼訊號部分以及對第二音源訊號部分的一第二編碼訊號部分。重要的是,從一個且相同的音源訊號部分,編碼訊號僅有一頻域表現或一時域表現。
因此,控制器620確認一單一音源訊號部分僅一時域表現或一頻域表現在編碼訊號中。這可藉由控制器620以數種方式來達成。一種方式將是對於一個且相同音源訊號部分,這二個表現到達區塊630且控制器620控制編碼訊號形成器630僅引進其中一個表現至編碼訊號。然而,替代的,控制器620能控制至第一編碼處理器的一輸入以及至第二編碼處理器的一輸入,使得基於對應訊號部分的分析,僅區塊600、610二者其中 之一係被啟動來實際上進行全編碼操作,另一區塊被停用。
此停用可以是一停用、或如圖7a所示的例子僅一種「初始化」模式其中其他編碼處理器僅啟用來接收及處理初始化資料來初始化內部記憶體,但其他特定編碼操作皆沒有進行。此啟動能藉由某一個開關在未出示於圖6的輸入來做或較佳的藉由控制線621、622。因此,在本實施例中,第二編碼處理器610沒有輸出任何東西當控制器620已經決定當下音源訊號部分應該由第一編碼處理器編碼但然而第二編碼處理器被供有初始化資料來在將來啟用一即刻切換。另一方面,第一編碼處理器係配置為不需要過去的任何資料來更新任何內部記憶體,因此,當當下音源訊號部分要被第二編碼處理器610編碼時,控制器620能經由控制線621控制第一編碼處理器600為非啟用。這是說第一編碼處理器600沒有需要在一初始化狀態或等待狀態但可以在一完全停用狀態。特別較佳於行動裝置其中電力消耗及電池壽命是個議題。
在操作在時域的第二編碼處理器的更進一步的實作中,第二編碼處理器包括一降取樣器900或取樣率轉換器以轉換音源訊號部分至具有一較低取樣率的一表現,較低取樣率係低於在輸入至第一編碼處理器的一取樣率。這出示於圖9。特別是,當輸入音源訊號包括一低頻段及一高頻段,較佳是在區塊900的輸出的較低取樣率表現僅具有輸入的音源訊號部分的低頻段,此低頻段係然後藉由配置為將區塊900所提供的較低取樣率表現來時域編碼的一時域低頻段編碼器910來編碼。再者,一時域帶寬擴展編碼器920係供來參數化地編碼高頻段。在此端,時域帶寬擴展編碼器920接收至少輸入的音源訊號的高頻段、或輸入的音源訊號的低頻段及高頻段。
在本發明另一實施例,音源編碼器額外地包括雖然未出示於圖6但出示於圖10的一預處理器1000用以處理第一音源訊號部分以及音源訊號部分。在一實施例中,此預處理器包括一預估分析器以決定預估係數。此預估分析器可以實現為一LPC(線性預測編碼)分析器以決定LPC係數。然而,也可以用其他分析器來實現。再者,也出示於圖14a的預處理器包括一預估係數量化器1010,其中此裝置出示於圖14a從也出示在圖 14a的1002的預估分析器接收預估係數資料。
再者,預處理器還可包括一熵編碼器以產生量化預估係數的一編碼版本。值得一提的是,編碼訊號形成器630或特定實作即位元流多工器613確認量化預估係數的編碼版本係包含於編碼音源訊號632。較佳的,LPC係數沒有直接量化但轉換至一ISF例如任何其他更適合供量化的表。這個轉換較佳地藉由決定LPC係數區塊1002進行或在量化LPC係數的區塊1010內進行。
再者,預處理器包括一再取樣器以於一輸入取樣率再取樣一音源輸入訊號至對時域編碼器的一較低取樣率。當時域編碼器是具某一個ACELP取樣率的一ACELP編碼器,然後降取樣係進行較佳的在12.8kHz或16kHz。輸入取樣率可以是取樣率的任一特別數值例如32kHz或甚至一較高取樣率。另一方面,時域編碼器的取樣率將藉由某個限制來預定,再取樣器1004進行此再取樣並輸出輸入訊號的較低取樣率表現。因此,再取樣器1004能進行一類似功能並能甚至是與出示於圖9內容的降取樣器900相同的或一個元件。
再者,較佳是施行一預加重在圖14a中預加重區塊1005。預加重處理是已知的時域編碼,描述在AMR-WB+處理相關的文獻,預加重係特別配置為補償一頻譜平鋪,因此,允許LPC參數的一較佳計算在一給定的LPC順序。
再者,預處理器還可包括一TCX LTP參數萃取以控制一LTP後濾波器出示在圖14b的1420。此區塊出示於圖14a中的1006。再者,預處理器還可包括其他功能出示在1007且這些其他功能可包括一基週搜尋功能、一語音活性檢測(VAD)功能或任何其他時域或語音編碼領域中已知的。
如圖所示,區塊1006的結果係輸入至編碼訊號,即在圖14a的實施例中,輸入至位元流多工器630。再者,如果需要,從區塊1007的資料也可以引進到位元流多工器,或也可以是用於供在時域編碼器中時域編碼的目的。
因此,綜上所述,這二路徑的共通是一預處理操作1000其 進行一般使用的訊號處理操作。這些包括一再取樣至一ACELP取樣率(12.8 or 16kHz)以供一平行路徑以及總是進行這個再取樣。再者,一TCX LTP參數萃取出示在區塊1006係被進行,此外,一預加重以及一LPC係數的決定係進行。如描述,預加重補償了頻譜平鋪,因此讓LPC參數的計算在一給定的順序更有效率的。
然後,參考如圖8出示控制器620的一較佳實作。考慮到控制器在一輸入接收音源訊號部分。較佳的,如圖14a所示,控制器接收任何可在預處理器1000取得的訊號其係可以是在輸入取樣率的原始輸入訊號或在較低時域編碼器取樣率的一再取樣版本或在預加重處理後的區塊1005得到的一訊號。
基於此音源訊號部分,控制器620對付一頻域編碼器模擬器621及一時域編碼處理器模擬器622以對各編碼器可能性計算一估測信噪比。然後,選擇器623選擇已經提供較佳信噪比的編碼器,自然的考慮在一預定位元率之下。選擇器然後確認對應編碼器經由控制輸出。當決定為在考慮下音源訊號部分將使用頻域編碼器來編碼,時域編碼器係被設到一初始化狀態或其他實施例不需要在一完全停用狀態的一非常即刻切換。然而,當被決定為在考慮下音源訊號部分將藉由時域編碼器來編碼時,頻域編碼器被停用。
接著,控制器的一較佳實作出示於圖8。應當選擇ACELP或TCX路徑的決定係藉由模擬ACELP及TCX編碼器進行在切換決定,並切換至較佳進行的分支。從此,ACELP及TCX分支的SNR係基於一ACELP及TCX編碼器/解碼器模擬來估測。TCX編碼器/解碼器模擬進行時無需TNS/TTS分析、IGF編碼器、量化迴路/算術編碼器、或無須任何TCX解碼器,反而是,TCX SNR係使用在塑形MDCT域中量化扭曲的一估測來估測。ACELP編碼器/解碼器模擬係僅使用適應性編碼簿及創新編碼簿的一模擬來進行。ACELP SNR係簡單的藉由在加權訊號域(適應性編碼簿)中的一LTP濾波器計算扭曲引進來估測,藉由一常數因子(創新編碼簿)來縮放此扭曲。因此,相較於一TCX及ACELP編碼平行執行的方法,複雜度係大幅減少。具較高SNR的分支係選擇來隨後完整編碼運行。
在TCX分支被選擇的情況下,一TCX解碼器運行在各訊框其係輸出一訊號在ACELP取樣率。這用於更新使用在ACELP編碼路徑(LPC殘餘,Mem w0,記憶體去加重)的記憶體,使即刻切換從TCX至ACELP。記憶體更新係在各TCX路徑進行。
替換地,藉由合成處理的一全分析係能進行,即編碼器模擬器621、622二者實作實際編碼操作,且結果係藉由選擇器623來比較。再替換地,一完整前饋計算也能藉由進行一訊號分析來做。舉例來說,當其藉由一訊號分類器被決定為訊號是一語音訊號則時域編碼器被選擇,當其被決定為訊號是一音樂訊號然後頻域編碼器係被選擇。在考慮下基於音源訊號部分的一訊號分析為區別這二者編碼器的其他程序也可以施用。
較佳的,音源編碼器還可包括一跨處理器700出示於圖7a。當頻域編碼器600啟用時,跨處理器700提供初始化資料至時域編碼器610使得時域編碼器準備好一無縫切換在一將來訊號部分。換句話說,當當下訊號部分係被決定要使用頻域編碼器來編碼,且當其被控制器決定為立即接隨音源訊號部分係要藉由時域編碼器610來編碼,然後無需跨處理器這種立即無縫切換將不可能。然而,既然時域編碼器610具有一立即從在先前時問訊框的一輸入或編碼訊號的一當下訊框的一相依性,跨處理器提供一訊號其係從頻域編碼器600衍生至時域編碼器610供在時域編碼器中的初始化記憶體的目的。
因此,時域編碼器610係配置為藉由初始化資料而初始化而在一有效率的方式以編碼接隨在藉由頻域編碼器600所編碼的一較早音源訊號部分後的一音源訊號部分。
特別是,跨處理器包括一頻時轉換器以轉換一頻域表現至一時域表現其能直接或在一些進一步處理之後被轉至時域編碼器。這個轉換器係出示於圖14a為一IMDCT(反向改進的離散餘弦變換)區塊。然而,相較於圖14a區塊所指的時頻轉換器區塊602(改進的離散餘弦變換區塊),此區塊702具有一不同變換規模。如區塊602所指,時頻轉換器602操作在輸入取樣率,反向改進的離散餘弦變換702操作在較低ACELP取樣率。
時域編碼器取樣率或ACELP取樣率的比率以及頻域編碼器取樣率或輸入取樣率可以計算,並且為一降取樣因子DS出示於圖7b。區塊602具有一大變換規模且IMDCT區塊702具有一小變換規模。如圖7b所示,IMDCT區塊702然後包括一選擇器726以選擇一輸入至IMDCT區塊702的較低頻譜部分。全頻段頻譜的部分係由降取樣因子DS定義。舉例來說,當較低取樣率是16kHz且輸入取樣率是32kHz然後降取樣因子是0.5,因而選擇器726選擇全頻段頻譜的較低的一半。當頻譜具有例如1024條MDCT線,選擇器係選擇較低的512 MDCT線。
全頻段頻譜的此低頻部分係輸入至一小規模變換及折疊區塊720,如圖7b所示。變換規模係根據降取樣因子來選擇,且是在區塊602中的變換規模的50%。具一窗的一合成設窗係以一小量的係數進行。合成設窗的係數的數量等於降取樣因子的倒數乘以區塊602所用的分析窗的係數的數量。最後,每區塊以一小量的操作進行一重疊相加操作,每區塊中操作的數量是每區塊在一全滿率實作MDCT下操作的數量乘以降取樣因子。
因此,既然降取樣包含在IMDCT實作,一很有效率的降取樣操作可應用。在此內容,區塊702可藉由一IMDCT實作但也可以藉由任何其他能適合地規模在實際變換內核及其他變換相關操作的變換或濾波器組實作來實作。
在出示於圖14a的一實施例中,時頻轉換器除了分析器還包括額外的功能。圖6的分析器604可包括在圖14a的實施例中的一時間噪聲塑形/時間平鋪塑形分析區塊604a其係操作為說明在圖2b區塊222的內容供TNS/TTS分析區塊604a以及出示於關於圖2b供音調遮罩226其對應至圖14a的IGF編碼器604b。
再者,頻域編碼器較佳的包括一噪聲塑形區塊606a。噪聲塑形區塊606a係藉由區塊1010所產生的量化LPC係數來控制。用於噪聲塑形606a的量化LPC係數進行高解析度頻譜值的一頻譜塑形或頻譜線直接編碼(而非參數化地編碼),區塊606a的結果係相似於操作在時域的一LPC濾波階段例如將等下描述的一LPC分析濾波區塊704隨後的一訊號的頻 譜。再者,噪聲塑形區塊606a的結果係然後再量化及熵編碼如區塊606b所指。區塊606b的結果對應至編碼第一音源訊號部分或一頻域編碼音源訊號部分(連同其他輔助資訊)。
跨處理器700包括一頻譜解碼器以計算第一編碼訊號部分的一解碼版本。在圖14a的實施例中,頻譜解碼器701包括一反向噪聲塑形區塊703、一填隙解碼器704、一TNS/TTS合成區塊705以及IMDCT區塊702如前所述。這些區塊解開藉由區塊602至606b所進行的特定操作。特別是,一噪聲塑形區塊703基於量化LPC係數1010解開區塊606a所進行的噪聲塑形。IGF解碼器704操作如關於圖2A的討論,區塊202、206及TNS/TTS合成區塊705操作如討論在圖2A的區塊210的內容,頻譜解碼器還可包括IMDCT區塊702。再者,圖14a中跨處理器700還可或替代地包括一延遲階段707以將藉由頻譜解碼器701所得到解碼版本的一延遲版本饋入在第二編碼處理器的一去加重階段617供初始化去加重階段617的目的。
再者,跨處理器700可包括額外的或替代的一加權預估係數分析濾波階段708以濾波解碼版本及饋入一濾波解碼版本至第二編碼處理器的一編碼簿決定器613如圖14a所指的「MMSE」以初始化這個區塊。此外或替代的,跨處理器包括LPC分析濾波階段以濾波藉由頻譜解碼器700輸出至一適應性編碼簿階段712供區塊612初始化的第一編碼訊號部分的解碼版本。額外的或替代的,跨處理器也包括一預加重階段709以在LPC濾波前進行一預加重處理至藉由一頻譜解碼器701輸出的解碼版本。預加重階段輸出也可以饋入至一更延遲階段710以供初始化一LPC合成濾波區塊616於時域編碼器610的範圍內供初始化此LPC合成濾波區塊611。
時域編碼處理器610包括如圖14a所示的一預加重操作在較低ACELP取樣率。如圖所示,此預加重係在預處理階段1000進行的預加重並具有參考符號1005。預加重資料係輸入至一LPC分析濾波區塊611操作在時域,此濾波器係控制於藉由預處理階段1000所得到的量化LPC係數1010。從已知的AMR-WB+或USAC或其他CELP編碼器,區塊611所產生的殘餘訊號係提供到一適應性編碼簿612,再者,適應性編碼簿612係連 接至一創新編碼簿階段614,從適應性編碼簿612及從創新編碼簿的編碼簿資料係輸入至位元流多工器如圖所示。
再者,一ACELP增益/編碼階段615係提供在接連於創新編碼簿階段614,此區塊的結果係輸入至一編碼簿決定器613如圖14a中MMSE所指。此區塊和創新編碼簿區塊614共同操作。再者,時域編碼器還可包括一解碼器部分其具有一LPC合成濾波區塊616、一去加重區塊617以及一適應性低音後置濾波器階段618以計算用於解碼器側的一適應性低音後置濾波器的參數。沒有任何適應性低音後置濾波器在解碼器側的化,區塊616、617、618對於時域編碼器610將不必要。
如圖所示,時域解碼器的數個區塊依據先前訊號,這些區塊係適應性編碼簿區塊612、編碼簿決定器613、LPC合成濾波區塊616及去加重區塊617。這些區塊係供有從跨處理器出自頻域編碼處理器資料的資料藉以初始化這些區塊供從頻域編碼器至時域編碼器的一即刻切換的準備目的。可從圖14a得之,任何依存於先前資料對於頻域編碼器並非必要。因此,跨處理器700沒有從時域編碼器提供任何記憶初始化資料至頻域編碼器。然而,在頻域編碼器的其他實作中,如果從過去存在的依存及記憶初始化資料為需要時,跨處理器700係配置為操作在這二種方向。
音源編碼器的一較佳實施例因而包括以下部分: 較佳的音源解碼器描述如下:波形解碼器部分由具IGF操作在編解碼器的輸入取樣率的一全頻段TCX解碼器路徑所組成。平行的,一替代的ACELP解碼器路徑在較低取樣率存在加強進一步藉由一TD-BWE順流。
對於ACELP初始化當從TCX切換至ACELP,一跨路徑(由一共享TCX解碼器前端組成但還可提供輸出在較低取樣率及一些後處理)存在時進行創新ACELP初始化。於TCX及ACELP之間在LPCs共用相同取樣率及濾波器順序能讓一較容易且較有效率的ACELP初始化。
關於切換,二開關描繪於圖14b。當第二開關順流選擇於TCX/IGF或ACELP/TD-BWE輸出之間,第一開關也預更新於再取樣QMF階段的緩衝順ACELP路徑藉由跨路徑的輸出或簡單通過ACELP輸 出。
隨後地,根據本發明一觀點的音源解碼器實作將說明於圖11a至圖14c的內容。
一音源解碼器供解碼一編碼音源訊號1101包括一第一解碼處理器1120以在一頻域解碼一第一編碼音源訊號部分。第一解碼處理器1120包括一頻譜解碼器1122以一高頻譜解析度解碼第一頻譜區域並且使用第二頻譜區域及至少一解碼第一頻譜區域的一參數化表現來合成第二頻譜區域藉以得到一解碼頻譜表現。解碼頻譜表現係一全頻段解碼頻譜表現如圖6的內容所討論也如圖1a的內容所討論。一般來說,第一解碼處理器因而包括在頻域以一填隙程序的一全頻段實作。再者,第一解碼處理器1120包括一頻時轉換器1124以轉換解碼頻譜表現至一時域以得到一解碼第一音源訊號部分。
再者,音源解碼器包括一第二解碼處理器1140以在時域解碼第二編碼音源訊號部分以得到一解碼第二訊號部分。再者,音源解碼器包括一結合器1160以結合解碼第一訊號部分及解碼第二訊號部分以得到一解碼音源訊號。解碼訊號部分係依序結合其係也出示於圖14b藉由一開關實施1160表示圖11a的結合器1160的一實施例。
較佳的,第二解碼處理器1140係一時域帶寬擴展處理器1220以及包括如圖12所示的一時域低頻段解碼器1200以解碼一低頻段時域訊號。再者,這個實作包括一升取樣器1210以升取樣低頻段時域訊號。此外,一時域帶寬擴展解碼器1220係供以合成輸出音源訊號的一高頻段。再者,一混頻器1230係供以混合時域輸出訊號的一合成高頻段以及一升取樣低頻段時域訊號以得到時域編碼器輸出。因此,在圖11a的區塊1140可藉由在一較佳實施例中圖12的功能來實作。
圖13出示圖12的時域帶寬擴展解碼器1220的一較佳實施。較佳的,一時域升取樣器1221係供來從包含在區塊1140之內出示於圖12的1200及更出示於圖14b的內容的一時域低頻段解碼器接收作為一輸入的一LPC殘餘訊號。時域升取樣器1221產生LPC殘餘訊號的一升取樣版本。此版本然後輸入至一非線性失真區塊1222其係基於其輸入訊號產 生具較高頻率值的一輸出訊號。一非線性扭曲可以是一複製、一鏡像、一頻率移動或一非線性裝置例如一二極體或一電晶體操作在非線性區。區塊1222的輸出訊號係輸入至一LPC合成濾波區塊1223其係受控制於也用於低頻段解碼器LPC資料或例如在圖14a中編碼器側時域帶寬擴展區塊920所產生的特定包跡資料。LPC合成區塊的輸出係然後輸入至一帶通或高通濾波器1224以最後得到高頻段,其係然後輸入至混頻器1230如圖12所示。
隨後地,圖12的升取樣器1210的一較佳實施係討論於圖14b的內容。升取樣器較佳的包括一分析濾波器組操作在一第一時域低頻段解碼器取樣率。這種分析濾波器組的一特定實作係一QMF分析濾波器組1471如圖14b所示。再者,升取樣器包括一合成濾波器組1473其操作在高於第一時域低頻段取樣率的一第二輸出取樣率。因此,QMF合成濾波器組1473其係一般濾波器組的一較佳實作操作在輸出取樣率。當降取樣因子DS討論在如圖7b的內容為0.5,然後QMF分析濾波器組1471具有例如僅32濾波器組通道且QMF合成濾波器組1473具有例如64 QMF通道,但當較低的32濾波器組通道饋入有QMF分析濾波器組1471所提供的對應訊號,濾波器組通道的較高半部即上半32濾波器組通道係以多個0或噪聲饋入。然而,較佳的,一帶通濾波1472係在QMF濾波器組域內進行以確認QMF合成輸出1473是ACELP解碼器輸出的一升取樣版本,但沒有任何假造在ACELP解碼器的最大頻率之上。
額外的或替代於帶通濾波1472,進一步處理操作可進行在QMF域。若沒有處理進行,然後QMF分析以及QMF合成構成一有效率的升取樣器1210。
隨後地,圖14b中個別元件的建構將進一步討論。
全頻段頻域解碼器1120包括一第一解碼區塊1122a以解碼高解析度頻譜係數還可進行噪聲填充於低頻段部分例如從USAC技術。再者,全頻段解碼器包括一IGF處理器1122b以使用已經參數化地編碼且因而在編碼器側於一低解析度編碼的合成頻譜值來填頻譜洞。然後,在區塊1122c,一反向噪聲塑形係進行且結果係輸入至一TNS/TTS合成區塊705,其係提供作為一最終輸出的一輸入至一頻時轉換器1124其係較佳的 實作為一反向改進的離散餘弦變換操作在輸出,即高取樣率。
再者,一諧波或LTP後濾波器用在受控於在圖14a中TCX LTP參數萃取區塊1006所得到的資料。然後,這結果是在輸出取樣率可從圖14b而得的解碼第一音源訊號部分,此資料具有高取樣率,因此,任何更進一步的頻率增強並非必要這是因為解碼處理器係一頻域全頻段解碼器較佳的操作使用如圖1a至圖5c內容所述的智慧型填隙技術。
圖14b中數個元件係相當近似於圖14a的跨處理器700的對應區塊,特別是關於IGF解碼器704對應至IGF處理1122b、受控於量化LPC係數1145的反向噪聲塑形操作係對應至圖14a的反向噪聲塑形703、以及在圖14b中TNS/TTS合成區塊705對應至在圖14a中區塊TNS/TTS合成705。然而,當圖14a中IMDCT區塊702操作在一低取樣率,圖14b中IMDCT區塊1124係操作在高取樣率。因此,圖14b中區塊1124包括大規模變換及折疊區塊710、在區塊712的合成設窗以及重疊相加階段714其係具有對應大數量操作、大數量的窗係數以及一大變換規模相較於對應特徵720、722、724,其係操作在區塊701,也將描述於之後在圖14b中跨處理器1170的區塊1171。
時域解碼處理器1140較佳的包括ACELP或時域低頻段解碼器1200其包括一ACELP適應性解碼器階段1149以取得解碼增益及創新編碼簿資訊。此外,一ACELP適應性編碼簿階段1141係被提供,一隨後的ACELP後置處理階段1142以及一最終合成濾波器例如LPC合成濾波器1143,其係再受控於對應至在圖11a中編碼訊號剖析器1100的位元流解多工器1100所得到的量化LPC係數1145。LPC合成濾波器1143的輸出係輸入至一去加重階段1144供取消或解開圖14a的預處理器1000的預加重階段1005所引進的處理。結果是時域輸出訊號在一低取樣率及一低頻段,如果頻域輸出的情況需要,開關1480就在所指位置,去加重階段1144的輸出係引進到升取樣器1210且然後從時域帶寬擴展解碼器1220混合於高頻段。
根據本發明實施例,音源解碼器還可包括如圖11b及圖14b所示的跨處理器1170以從第一編碼音源訊號部分的解碼頻譜表現計算第二 解碼處理器的初始化資料使得第二解碼處理器係初始化來解碼在編碼音源訊號中時間上接隨在第一音源訊號部分後的編碼第二音源訊號部分,即使得時域解碼處理器1140準備好從一音源訊號部分至次一個的一即刻切換而沒有任何品質或效率的損失。
較佳的,跨處理器1170包括一額外的頻時轉換器1171其操作在比第一解碼處理器的頻時轉換器較低的取樣率以在時域得到一另外的解碼第一訊號部分將作為初始化訊號或供其任何初始化資料可衍生。較佳的,此IMDCT或低取樣率頻時轉換器係實現為如圖7b所示的項目726(選擇器)、項目720(小規模變換及折疊)、具小量的窗係數如722所指的合成設窗、以及具一小數量的操作如724所指的一重疊相加階段。因此,在頻域全頻段解碼器的IMDCT區塊1124係被實作為所指的區塊710、712、714,IMDCT區塊1171係實作為圖7b中所指的區塊726、720、722、724。再,降取樣因子是時域編碼器取樣率或低取樣率以及較高頻域取樣率或輸出取樣率之間的比率且此降取樣因子可以是任何大於0且低於1的數。
如圖14b所示,跨處理器1170更包括單獨或較其他元件增加的一延遲階段1172以延遲另一解碼第一訊號部分及饋入延遲解碼第一訊號部分至第二解碼處理器的一去加重階段1144供初始化。再者,跨處理器包括額外的或替代的一預加重濾波器1173及一延遲階段1175供濾波及延遲一另一解碼第一訊號部分及提供區塊1175的延遲輸出至ACELP解碼器的一LPC合成濾波階段1143供初始化目的。
再者,跨處理器可包括替代的或較其他所述元件增加的一LPC分析濾波器1174以從另一解碼第一訊號部分或一預加重另一解碼第一訊號部分而產生一預估殘餘訊號以及饋入資料至第二解碼處理器的一編碼簿合成器,且較佳的是至適應性編碼簿階段1141。再者,具低取樣率的頻時轉換器1171的輸出也是輸入至升取樣器1210的QMF分析階段1471供初始化目的,即當當下解碼音源訊號部分藉由頻域全頻段解碼器1120遞送。
較佳的音源解碼器描述如下:波形解碼器部分由具IGF操作在解編碼器二者的輸入取樣率的一全頻段TCX解碼器路徑所構成。平行的,一替代的ACELP解碼器路徑在較低取樣率存在加強進一步藉由一 TD-BWE順流。
對於ACELP初始化當從TCX切換至ACELP,一跨路徑(由一共享TCX解碼器前端組成但還可提供輸出在較低取樣率及一些後處理)存在時進行創新ACELP初始化。於TCX及ACELP之間在LPCs共用相同取樣率及濾波器順序能讓一較容易且較有效率的ACELP初始化。
關於切換,二開關描繪於圖14b。當第二開關順流選擇於TCX/IGF或ACELP/TD-BWE輸出之間,第一開關也預更新於再取樣QMF階段的緩衝順ACELP路徑藉由跨路徑的輸出或簡單通過ACELP輸出。
綜上所述,本發明較佳觀點其能夠單獨或結合至一ACELP以及TD-BWE編碼器的結合其具一能夠全頻段TCX/IGF技術較佳地相聯使用一跨訊號。
一更具體特徵是一跨訊號路徑供ACELP初始化來賦與無縫切換。
另一方面,一短IMDCT係饋入有高比率長MDCT係數的一較低部分以有效率的在跨路徑實作一取樣率轉換。
一進一步特徵是一有效率的實現跨路徑與一全頻段TCX/IGF部分地共享在解碼器。
一進一步特徵是跨訊號路徑供QMF初始化來賦與從TCX至ACELP的無縫切換。
一另外的特徵是當從ACELP切換至TCX時,至QMF的一跨訊號路徑允許補償ACELP再取樣輸出以及一濾波器組TCX/IGF輸出之間的延遲間隙。
另一方面是僅管TCX/IGF編碼器/解碼器能夠全頻段,一LPC係供TCX及ACELP編碼器二者在相同取樣率及濾波器順序。
隨後地,圖14係討論一時域解碼器的一較佳實施操作為一獨立的解碼器或結合於能夠全頻段的頻域解碼器。
一般來說,時域解碼器包括一ACELP解碼器、一隨後地連接再取樣器或升取樣器以及一時域帶寬擴展功能。特別是,ACELP解碼器 包括供回復增益的一ACELP解碼階段、創新編碼簿1149、一ACELP適應性編碼簿階段1141、一ACELP後置處理器1142、一LPC合成濾波器1143其受控於從一位元流解多工器或編碼訊號剖析器的量化LPC係數、以及隨後地連接去加重階段1144。較佳的,在一ACELP取樣率的時域殘餘訊號係輸入至一時域帶寬擴展解碼器1220,其係提供一高頻段在輸出。
為升取樣去加重1144輸出,包括QMF分析區塊1471以及QMF合成區塊1473的一升取樣器係提供。在區塊1471、1473所定義的濾波器組域之中,一帶通濾波器係較佳的施用。特別是,如前所述,相同功能也可以使用相同參考符號的相關討論。再者,時域帶寬擴展解碼器1220可實作如圖13所示,一般來說包括ACELP殘餘訊號或在ACELP取樣率的時域殘餘訊號的一升取樣最後至帶寬擴展訊號的一輸出取樣率。
隨後地,進一步關於能全頻段的頻域編碼器及解碼器的內容將參考圖1a至圖5c來說明。
圖1a繪示一編碼音源訊號99的裝置。音源訊號99係輸入至時間頻譜轉換器100用以將具有取樣率的音源訊號轉換成時間頻譜轉換器所輸出的頻譜表現101。頻譜101係輸入至頻譜分析器102以分析其頻譜表現101。頻譜分析器101係用於判斷第一組第一頻譜部分103,其待編碼成第一頻譜解析度,以及不同的第二組第二頻譜部分105,其待編碼成第二頻譜解析度。第二頻譜解析度係小於第一頻譜解析度。第二組第二頻譜部分105係輸入至參數計算器或是參數化編碼器104,用以計算具有第二頻譜解析度的頻譜包絡線資訊。此外,頻譜域音源編碼器106係用於產生具有第一頻譜解析度之第一組第一頻譜部分的第一編碼表現107。此外,參數計算器/參數化編碼器104係用於產生第二組第二頻譜部分之第二編碼表現109。第一編碼表現107以及第二編碼表現109係輸入至位元流多工器或是位元流形成器108(即區塊108),最後輸出編碼音源訊號以傳送,或是儲存在儲存裝置上。
通常,第一頻譜部分(例如圖3a之306)將由兩個第二頻譜部分(例如307a與307b)所環繞。此並非HE AAC的情況,在此核心編碼器頻率範圍係頻帶受限。
圖1b係繪示與圖1a之編碼器相匹配的解碼器。第一編碼表現107係輸入至頻譜域音源解碼器112用於產生第一組第一頻譜部分的第一解碼表現,此解碼表現具有第一頻譜解析度。此外,第二編碼表現109係輸入至參數化解碼器114用於產生第二組第二頻譜部分之第二解碼表現,此第二組第二頻譜部分具有低於第一頻譜解析度的第二頻譜解析度。
解碼器更包含頻率再生器116,用以使用第一頻譜部分再生一再建第二頻譜部分,其具有第一頻譜解析度。頻率再生器116係執行平鋪填充操作,即使用一平鋪或是第一組第一頻譜部分之一部分,並將第一組第一頻譜部分複製到重建範圍或具有第二頻譜部分的再建頻帶中。頻率再生器116係通常執行頻譜包絡線塑形或是由參數化解碼器114輸出的第二解碼表現所標示的另一操作,即使用第二組第二頻譜部分上的資訊。解碼的第一組第一頻譜部分以及再建的第二組頻譜部分,其標示在線117上之頻率再生器116之輸出,係輸入至頻譜時間轉換器118用於將第一解碼表現以及再建第二頻譜部分轉換成一時域表示119,其具有特定的高取樣率。
圖2b係繪示圖1a之編碼器的實現方式。音源輸入訊號99係輸入至對應於圖1a之時間頻譜轉換器100的分析濾波器組220。然後,TNS區塊222係執行時域雜訊塑形操作。因此,當沒有使用時域雜訊塑形/時域平鋪塑形操作,輸入至對應於圖2b之音調遮罩區塊226的圖1a之頻譜分析器102可以是全部頻譜值中的任一個;當使用如圖2b所繪示的區塊222之TNS操作時,該輸入可為頻譜剩餘數值。針對雙聲道訊號或是多聲道訊號,可另外執行聯合聲道編碼228,所以圖1a之頻譜域編碼器106可包含此聯合聲道編碼區塊228。此外,熵編碼器232係執行無損漏數據壓縮,且其亦為圖1a之頻譜域編碼器之一部分。
頻譜分析器/音調遮罩226係將TNS區塊222之輸出分離成核心頻帶以及對應於第一組第一頻譜部分103的音調成分,以及對應於圖1a之第二組第二頻譜部分105的剩餘成分。標示為IGF參數抽取編碼的區塊224係對應圖1a之參數化編碼器104,而位元流多工器230係對應圖1a之位元流多工器108。
較佳地,分析濾波器組222係以MDCT(修改型離散餘弦轉換濾波器組)來實現,而此MDCT係以修改型離散餘弦轉換作為頻率分析工具,將訊號99轉換成時間頻率域。
頻譜分析器226較佳地施用一音調遮罩。此音調遮罩估測階段係用來從訊號中的類噪聲部分而分開音調部分。這允許核心編碼器228以一心理聲學模組來編碼全部音調部分。音調遮罩估測階段可以用數種方式來實現且較佳地實現在其功能上相似於使用在正弦及噪聲模型中的正弦曲線軌估測階段供語音/音源編碼〔8、9〕或描述在〔10〕的一HILN模型基礎音源編碼器。較佳地,使用容易實現且不需要維持生滅軌道的一實作,但任何其他音調或噪聲偵測器也可以使用。
IGF模組計算存在於一來源區域以及一目標區域之間的相似度。目標區域將藉由從來源區域的頻譜來表示。來源以及目標區域之間相似度的測量係使用一跨相關方法來做。目標區域係切為非重疊頻率平鋪。對於在目標區域的每個平鋪,來源平鋪係從一固定開始頻率而創造。這些來源平鋪藉由介於0及1之間的因子而重疊,其中0指0%重疊,1指100%重疊。這些來源平鋪各自與目標平鋪相關在不同的遲滯來找出最匹配目標平鋪的來源平鋪。最佳匹配平鋪數係儲存在tileNum[idx_tar],其與目標最相關所在的遲滯係儲存在xcorr_lag[idx_tar][idx_src],相關的符號係儲存在xcorr_sign[idx_tar][idx_src]。在高負相關情況下,在解碼器平鋪填充處理之前,來源平鋪需要乘以-1。既然音調部分係使用音調遮罩而保留,IGF模組也注意不要複寫在頻譜中的音調部分。一逐頻段能量參數係用來儲存目標區域能量讓我們準確地重現頻譜。
此方法相較於經典SBR〔1]有某些優點在於多音調訊號的諧波格係藉由核心編碼器而保留當僅正弦曲線間的間隙填有從來源區域的最佳匹配「塑形噪聲」。相較於準確頻譜替換(ASR,Accurate頻譜Replacement)〔2-4〕此系統的其他優點是缺少在解碼器創造訊號的重要部分的一訊號合成階段。取而代之,此任務藉由核心編碼器來負責,讓頻譜重要部分能表現。所提出系統的其他優點是特徵提供的連續倍率性。對每一平鋪僅使用tileNum[idx_tar]以及xcorr_lag=0係稱為總粒度匹配並可用於 低位元率,當對每一平鋪使用可變xcorr_lag時能來比較好地匹配目標以及來源頻譜。
除此之外,一平鋪選擇穩定技術係提出來移除頻域假造例如顫音以及音樂噪聲。
在一對立體聲道之情形中,使用額外的聯合立體聲處理。此係必要的,因為對於特定的目的範圍,此訊號可為一相關性高的音源。在為特别區域選擇的來源區域非良好相關之情形中,雖然能量係匹配此目的區域,但此空間影像可能由於此非相關來源區域而受損。編碼器係分析每一個目的區域能量頻帶,通常執行頻譜值之一交叉相關性,且如果超過特定的門檻值,則為此能量頻帶設定聯合旗標。在此解碼器中,如果未設定聯合立體聲旗標,則個別地處理左聲道與右聲道能量頻帶。在設定聯合立體聲旗標之情形中,能量以及修補兩者係在聯合立體聲領域中執行。IGF區域的聯合立體聲資訊係訊號化,且與核心編碼之聯合立體聲資訊相似,如果預測之方向係從降混到剩餘,則此核心編碼含有指示預測之情形的旗標;亦可反向操作。
此能量可從L/R領域中所傳送的能量來計算。
midNrg[k]=leftNrg[k]+rightNrg[k];sideNrg[k]=leftNrg[k]-rightNrg[k];其中,k為轉換領域的頻率參數。
另一解決方案係在聯合立體聲領域中針對頻帶直接計算以及傳送能量,在此頻帶中聯合立體聲係活躍的,所以在解碼器側不需要額外的能量轉換。
此來源平鋪總是根據此中間/側矩陣來創建;midTile[k]=0.5.(leftTile[k]+rightTile[k])
sideTile[k]=0.5.(leftTile[k]-rightTile[k])
能量調整:midTile[k]=midTile[k].midNrg[k];sideTile[k]=sideTile[k].sideNrg[k]; 聯合立體聲->LR轉換:如果沒有編碼額外的預測參數:leftTile[k]=midTile[k]+sideTile[k]
rightTile[k]=midTile[k]-sideTile[k]
如果編碼額外的預測參數且如果訊號化方向係從中間往側邊:sideTile[k]=sideTile[k]-predictionCoeffmidTile[k]
leftTile[k]=midTile[k]+sideTile[k]
rightTile[k]=midTile[k]-sideTile[k]
如果訊號化方向係從側邊往中間:midTile1[k]=midTile[k]-predictionCoeff.sideTile[k]
leftTile[k]=midTile1[k]-sideTile[k]
rightTile[k]=midTile1[k]+sideTile[k]
此處理係確保用於再生的平鋪與目的區域以及經淘選的目的區域為高度相關,即使來源區域不相關,但此結果左聲道以及右聲道仍然代表具相關性且經淘選的音源,以維護此種區域的立體聲影像。
換句話說,在此位元流中,傳送聯合立體聲旗標以表示是否將使用L/R或是M/S作為一般聯合立體聲編碼之舉例。在解碼器中,首先,核心訊號係解碼,其由核心頻帶之聯合立體聲旗標來標示。第二,核心訊號係儲存在L/R以及M/S表現。為了IGF平鋪填充,選擇來源平鋪表現以配合此目標平鋪表現,其由IGF頻帶之聯合立體聲資訊來標示。
時域雜訊塑形(TNS)係為一標準技術,且為AAC[11-13]的一部分。TNS被認為是感知編碼器之基本機制的延伸,在濾波器組以及量化級之間插入一可選擇的處理步驟。TNS模組之主要任務係隱藏在瞬變(像是訊號)之時域遮蔽區域中所製造的量化噪聲,如此可導致更高效率的編碼機制。首先,TNS使用「向前預測」在轉換領域(例如MDCT)計算一組預測係數。然後,這些係數用於平坦化訊號之時域包絡線。當量化影響TNS所濾波的頻譜,量化噪聲亦暫時地平坦。在解碼器側上使用反向TNS濾波,根據TNS濾波器之時域包絡線塑形量化噪聲,因此量化噪聲短 暫的被遮蔽。
IGF係基於MDCT表現。為高效率的編碼,較佳地,必須使用大約20毫秒之長區塊。如果在此種長區內的訊號包含瞬變訊號,由於平鋪填充,在IGF頻譜帶中可聽見的預回音以及後回音。圖7c出示因IGF的瞬變開始之前的一典型前迴聲效應。在左側顯示了原始訊號的頻譜圖,在右側顯示了沒有TNS濾波的帶寬擴展訊號的頻譜圖。
在IGF的鄰近關係中使用TNS以降低預回音效果。在此,當解碼器中的頻譜再生在TNS剩餘訊號上執行時,TNS係作為一時域平鋪塑形(TTS)工具。通常,使用編碼器側上的全部頻譜來計算以及使用所需要的TTS預測係數。TNS/TTS開始頻率以及停止頻率不受IGF工具之IGF開始頻率f IGFstart 的影響。相比於傳統的TNS,TTS停止頻率係增加至IGF工具之停止頻率,其係高於f IGFstart 。在解碼器側上,TNS/TTS係數係再次應用於全部頻譜上,即核心頻譜加上再生頻譜加上來自音調遮罩的音調成分(參見第7e圖)。必須使用TTS以形成再生頻譜之時域包絡線,以再次匹配原始訊號之包絡線。因此出示的前迴聲係減少。除此之外,其仍塑形了量化噪聲在低於f IGFstart 的訊號如同一般以TNS。
在傳統的解碼器中,音源訊號上的頻譜修補造成修補邊界上的頻譜相關性惡化,從而引進分散影響音源訊號之時域包絡線。因此,在剩餘訊號上執行IGF平鋪填充的另一好處是,在使用塑形濾波器之後平鋪邊界係無縫相關,導致訊號有更忠實的時域再現。
在創新的編碼器中,除了音調成分之外,高於IGF開始頻率的訊號沒有經歷TNS/TTS濾波、音調遮罩處理以及IGF參數估算的頻譜。核心編碼器使用演算編碼以及預測編碼之原理來編碼此稀疏頻譜。這些編碼成分隨著訊號化位元而形成此音源之位元流。
圖2a繪示相對應的解碼器實現方式。在圖2a中的位元流對應於編碼音源訊號,且輸入至解多工器/解碼器,其係連接圖1b之區塊112與114。位元流解多工器係將輸入音源訊號分離成圖1b之第一編碼表現107以及圖1b之第二編碼表現109。具有第一組第一頻譜部分的第一編碼表現係輸入至對應於圖1b之頻譜域解碼器112的聯合聲道解碼區塊204。第二 編碼表現係輸入至參數化解碼器114(圖2a未繪示),然後輸入至對應於圖1b之頻率再生器116的IGF區塊202。頻率再生所需的第一組第一頻譜部分係經由線203輸入至IGF區塊202。此外,在聯合聲道解碼204之後,在音調遮罩區塊206使用特定的核心解碼,使得音調遮罩206之輸出能對應頻譜域解碼器112之輸出。然後,組合器208執行結合,即組合器208輸出之訊框架購現在具有全部範圍的頻譜,但是仍然在TNS/TTS濾波領域中。然後,在區塊210,使用線109提供之TNS/TTS濾波器資訊執行反向TNS/TTS操作,即TTS輔助資訊較佳地包含在頻譜域編碼器106(例如直接AAC或是USAC核心編碼器)所產生的第一編碼表現內;或是亦可包含在第二編碼表現內。在區塊210之輸出中,提供完整的到最高頻率的頻譜,其全部範圍頻率係由原始輸入訊號之取樣率所定義。然後,在合成濾波器組212中執行頻譜/時間轉換,以最後取得音源輸出訊號。
圖3a繪示此頻譜之示意表現。此頻譜係在倍率因數頻帶SCB細分,在圖3a之繪示範例中倍率因數頻帶SCB有七個倍率因數頻帶SCB1至SCB7。倍率因數頻帶可為AAC標準所定義的AAC倍率因數頻帶,以及有增加頻寬至上頻率,如圖3a所大略地繪示。較佳地,不從頻譜此開始處(即低頻處)執行智慧型填隙,但是在309所繪示的IGF開始頻率上開始IGF操作。因此,核心頻帶從最低頻率核心頻帶延伸至IGF開始頻率。高於IGF開始頻率,頻譜分析係用以區分高解析度頻譜成分304、305、306與307,以以及第二組第二頻譜部分所表現的低解析度成分。圖3a係繪示例示性地輸入至頻譜域編碼器106或聯合聲道編碼器228的頻譜,即核心編碼器運作在全部範圍,但是編碼大量的零頻譜值,即這些零頻譜值量化成零,或是在量化之前或之後設定為零。不管怎樣,核心編碼器運作在全部範圍,彷彿是所繪示的頻譜一樣,即此核心解碼器不知道具有低頻譜解析度之第二組第二頻譜部分之任何智慧型填隙或是編碼。
較佳地,當僅計算每一個比例因數帶的單一頻譜值而定義第二解析度或是低解析度,此高解析度係由頻譜線(例如MDCT線)之線狀編碼來定義。其中一個比例因數帶係覆蓋幾個頻率線。如此,相對於頻譜解析度,第二低解析度係低於線狀編碼所定義的第一解析度或是高解析度 許多。核心編碼器(例如AAC核心編碼器或是USAC核心編碼器)係通常使用線狀編碼。
圖3b係繪示關於倍率因數或是能量計算之狀況。由於編碼器為核心編碼器,但本發明不受限於此,以及由於每一個頻帶中的第一組頻譜部分之成分,此核心編碼器係為每一個頻帶計算倍率因數,不僅在低於IGF開始頻率309的核心範圍,也在高於IGF開始頻率直到最高頻率f IGFstop 。最高頻率f IGFstop 係小於或等於取樣頻率之一半,即fs/2。如此,圖3a之編碼音調部分302、304、305、306與307,以及此實施例中的倍率因數SCB1至SCB7係對應於高解析度頻譜數據。低解析度頻譜數據係從IGF開始頻率開始計算,且對應於能量資訊值E1、E2、E3與E4,其與倍率因數SF4至SF7一起傳送。
特別地,當核心編碼器係在低位元率之情況時,可額外使用核心頻帶中的額外噪聲填充操作,即比IGF開始頻率更低的頻率,即在倍率因數頻帶SCB1至SCB3。在噪聲填充,其存在幾個已經量化成零的相鄰近頻譜線。在解碼器側上,這些量化成零的頻譜值係再合成,且使用噪聲填充能量(例如圖3b之308所繪示的NF2)調整再合成頻譜值之振幅。噪聲填充能量,其可相對於USAC中的倍率因數而用絕對用語或是相對用語特別地給定,係對應於該組量化成零的頻譜值之能量。這些噪聲填充頻譜線亦可被認為是第三組第三頻譜部分,其係使用來自來源範圍以及能量資訊E1、E2、E3與E4的頻譜值,使用來自用於再建頻率平鋪的其他頻率的頻率平鋪而直截噪聲填充合成,沒有使用任何依賴頻率再生的IGF操作。
較佳地,用於能量資訊的此頻帶係與倍率因數頻帶相一致地計算在其他實施例中,使用能量資訊數值分群,例如倍率因數頻帶4以及5,使得僅傳送單一能量資訊數值,但是在此實施例中,分群再建頻帶之邊界係與倍率因數頻帶之邊界相一致。如果使用不同頻帶分隔,然後使用特定的再計算或是計算,此可依據特定的實現方式而能被理解。
較佳地,圖1a之頻譜域編碼器106係為心理聽覺驅動編碼器,如圖4a所繪示。通常,如MPEG2/4 AAC標準或是MPEG1/2所繪示,第3層標準,被轉換成頻譜範圍(圖4a中的401)之後,待編碼的音源訊 號係轉發至倍率因子計算器400。倍率因子計算器係由心理聽覺模型所控制,其另外接收此待量化的音源訊號或是接收(在MPEG 1/2第3層或是MPEG AAC標準)音源訊號之複值頻譜表現。心理聽覺模型係針對每一個比例因子帶計算代表心理聽覺門檻值的倍率因子。然後,由內部迭代以及外部迭代或是任何其他合適的編碼程序來調整倍率因子,以執行特定的位元率情況。然後,一方面待量化的頻譜值,以及另一方面所計算的倍率因子係輸入至量化處理器404。在直接音源編碼器操作中,待量化的頻譜值係由倍率因子加權,然後加權頻譜值係輸入至固定量化器(其通常具有壓縮功能)到上振幅範圍。然後,在量化處理器之輸出存在量化參數,其係轉發到熵編碼器,其通常對鄰近頻率值的一組零量化參數有特定且非常高效率的編碼,或是此技術領域中亦被稱為零數值之「執行(run)」。
然而,在圖1a之音源編碼器中,量化處理器通常從頻譜分析器接收第二頻譜部分上的資訊。如此,量化處理器404係確保,在量化處理器404之輸出,由頻譜分析器102識別出的第二頻譜部分係為零或是有由編碼器或是解碼器確認為零表示,其可為非常有效率的編碼,特別是當頻譜中存在零值的「執行」。
圖4b繪示此量化處理器之一實現方式。MDCT頻譜值可輸入至一設零區塊410。然後,在區塊412執行倍率因子加權之前第二頻譜部分已經設定為零。在額外的實現方式,不提供區塊410,但是在加權區塊412之後在區塊418執行設零運作。在另一實現方式,設零操作亦可在量化器區塊420地量化之後,於設零區塊422執行。在此實現方式,將不出現區塊410以及418。通常,依據特定的實現方式來提供區塊410、418與422中的至少一個。
然後,在區塊422之輸出,對應於圖3a中所繪示的取得量化頻譜。然後,量化頻譜係輸入至熵編碼器,例如圖2b中的232,其可為一Huffman編碼器或是一演算編碼器,如USAC標準中所定義的。
設零區塊410、418與422係彼此可選擇地提供,或由頻譜分析器424平行控制。較佳地,頻譜分析器包含熟知的音調偵測器之任何實現方式,或包含任何不同種類的偵測器,其操作用於將頻譜分隔成高解 析度之待編碼的成分以及低解析度之待編碼成分。在頻譜分析器中實現的其他演算法,可為聲音活動偵測器、噪聲偵測器、語音偵測器或是任何其他依據不同頻譜部分之解析度需求上頻譜資訊或是相關聯的元數據而決定的偵測器。
圖5a係繪示圖1a之時間頻譜轉換器100較佳實現方式,例如以AAC或是USAC實現。時間頻譜轉換器100包含由瞬變偵測器504控制的設窗器(windower)502。當瞬變偵測器504偵測到一瞬變,然後從長視窗到短視窗的切換係訊號化到設窗器502。然後,設窗器502針對重疊區塊計算設窗的訊框,其中每一個設窗的訊框通常具有兩個N數值,例如2048數值。然後,執行在區塊轉換器506之內的轉換,而區塊轉換器通常另外提供一抽取(decimation),以執行結合的抽取/轉換以取得具有N個數值的頻譜訊框,例如MDCT頻譜值。如此,為了長窗操作,在區塊506之輸入的訊框包含兩倍N個數值,例如2048個數值,而一頻譜訊框具有1024個數值。然而,當執行八個頻區塊且相比於長窗每一個短區塊具有1/8設窗時間域數值,且相比於長區塊每一個頻譜區塊具有1/8頻譜值時,對短區塊執行切換。如此,當抽取與設窗器之50%重疊操作相結合時,此頻譜為時間域音源訊號99之嚴格取樣版本。
後續,參考圖5b,其繪示圖1b之頻率再生器116以及頻譜時間轉換器118,或是圖2a之區塊208與212之結合操作之特定實現方式。在圖5b,考量特定的再建頻帶,例如圖3a之比例因子帶6。在再建頻帶中的第一頻譜部分,即圖3a之第一頻譜部分306係輸入至訊框建立器/調整器區塊510。此外,為了比例因子帶6而再建的第二頻譜部分係一起輸入至訊框建立器/調整器510。此外,用於比例因子帶6的能量資訊,例如圖3b之E3,亦輸入至區塊510。在再建頻帶中再建的第二頻譜部分已經由使用來源範圍的頻率平鋪填充產生,然後再建頻帶係對應目標範圍。現在,執行此訊框之能量調整,然後最終取得完整的具有N個數值的再建訊框,例如在圖2a之組合器208之輸出取得。然後,在區塊512,執行反向區塊轉換/內插以取得248時間域數值,例如在區塊512之輸入上的124個頻譜值。然後,在區塊514執行一合成設窗操作,其由在編碼音源訊號中傳送作為輔 助資訊之長窗/短窗指示再次控制。然後,在區塊516,對先前時間訊框執行重疊/相加操作。較佳地,MDCT係使用50%重疊,而為了每一個新的2N個數值的時間訊框,最後輸出N個時間域數值。由於在區塊516中重疊/相加操作,從一訊框到下一個訊框提供臨界取樣以及連續交越點,較佳的是50%重疊。
如圖3a中的301所繪示,不僅在低於IGF開始頻率下另外使用噪聲填充操作,但亦可高於IGF開始頻率,例如為考量再建頻帶與圖3a之比例因子帶6相一致。然後,噪聲填充頻譜值亦可輸入至訊框建立器/調整器510,而噪聲填充頻譜值之調整亦可在區塊內應用或是在輸入至訊框建立器/調整器510之前可使用噪聲填充能量調整噪聲填充頻譜值。
較佳地,可在此完整的頻譜中使用IGF操作,即使用來自其他部分的頻譜值的頻率平鋪填充操作。如此,頻譜平鋪填充操作不僅可應用在高於IGF開始頻率的高頻帶,但亦可應用在低頻帶。此外,没有頻率平鋪填充的噪聲填充亦可應用在低於IGF開始頻率,亦可高於IGF開始頻率。然而,其發現當噪聲填充操作受限於低於IGF開始頻率的頻率範圍,以及當此頻率平鋪填充操作係受限於高於IGF開始頻率的頻率範圍,可如圖3a所繪示,獲得高品質以及高效率音源編碼。
較佳地,目標平鋪(TT)(具有大於IGF開始頻率的頻率)係受制於全部比率編碼器之比例因子帶邊界。來源平鋪(ST),其從資訊取得,即低於IGF開始頻率的頻率不受限於比例因子帶邊界。ST的尺寸應對應於相關聯的TT的尺寸。此用以下例子來出示。TT〔0〕具有10 MDCT箱的長度。這確切的對應至二隨後的SCBs(例如4+6)的長度。然後,相關於TT[0]的全部可能的ST也具有10箱長度。相鄰於TT〔0〕的一第二目標平鋪TT〔1〕具有15箱1(SCB具有7+8的長度)的長度。然後,其ST具有15箱的長度而非10箱如同TT〔0〕。
若無法找出一TT供一ST以目標平鋪的長度(即當TT的長度大於可取得來源範圍),然後一相關係沒有計算,來源範圍係複製多個至此TT(複製係隨其他之後完成使得在頻率上供第二複本最低頻率的一頻率線立即跟隨供第一複本最高頻率的頻率線),直到目標平鋪TT完全地填 滿。
後續,參考圖5c其繪示圖1b實施例之頻率再生器116或是圖2a之IGF區塊202之較佳實施例。區塊522係為頻率平鋪產生器,其不僅接收目標頻帶ID,也另外接收來源頻帶ID。例示性地,其已經決定在編碼器側上圖3a之比例因子帶3係非常良好的適合再建比例因子帶7。如此,來源頻帶ID將是2,而目標頻帶ID將是7。基於此資訊,頻率平鋪產生器522係使用複製或是諧波平鋪填充操作或是任何其他平鋪填充操作,以產生頻譜成分之原始第二部分523。頻譜成分之原始第二部分具有頻率解析度,其與第一組第一頻譜部分中的頻率解析度相同。
然後,再建頻帶之第一頻譜部分,例如圖3a之307,係輸入至訊框建立器524,而原始第二部分523亦輸入至訊框建立器524。然後,再建訊框係由調整器526使用再建頻帶之增益因子調整,此增益因子係由增益因子計算器528所計算。然而,重要地,訊框中的第一頻譜部分並不受調整器526影響,但是僅再建訊框之原始第二部分受調整器526影響。在此,增益因子計算器528係分析來源頻帶或是原始第二部分523,並另外分析在再建頻帶中的第一頻譜部分,以最終發現正確的增益因子527,使得當考量比例因子帶7時,調整器526所輸出的調整訊框之能量具有能量E4。
在此內容中,非常重要的是評估相較於HE-AAC本發明的高頻率再現準確度。這將參考圖3a中倍率因子頻段7。假設一習知編碼器例如圖13a所示將偵測將以高解析度編碼的頻譜部分307為一「缺掉的諧波」。然後,此頻譜部分的能量將隨同一頻譜包跡資訊傳送供再現頻段例如倍率因子頻段7至解碼器。然後,解碼器將在創造缺掉的諧波。然而,藉由圖13b的習知解碼器所再現的缺掉的諧波307所在的頻譜值將是在再現頻率390所指的一頻率中頻段7的中間。因此,本發明避免藉由圖13d的習知解碼器所導入的一頻率錯誤391。
在一實作中,頻譜分析器也實現來計算第一頻譜部分及第二頻譜部分間的相似度,並基於計算出的相似度而對於在一再現範圍的一第二頻譜部分決定盡可能與第二頻譜部分匹配的一第一頻譜部分。然後,在此可變來源範圍/目的範圍實作,參數化編碼器將額外的導入至第二編碼 表現一匹配資訊指明各目的範圍一匹配來源範圍。在解碼器側,此資訊將然後藉由圖5c的一頻率平鋪產生器522,圖5c出示基於一來源頻段ID以及一目標頻段ID的一原始第二部分523的一產生。
此外,如圖3a所繪示,頻譜分析器係用以分析頻譜表現,直到最高分析頻率,其僅是低於取樣頻率之一半的小數量,而較佳的是取樣頻率的至少一四分之一或是通常更高。
如圖所繪示,編碼器之運作不須降取樣,而解碼器之運作不須升取樣。換句話說,頻譜域音源編碼器係用以產生具有Nyquist頻率的頻譜表現,此Nyquist頻率係由最初輸入音源訊號之取樣率所定義。
此外,如圖3a所繪示,頻譜分析器係用以分析從填隙開始頻率開始且結束於由最高頻率表現之最高頻率的頻譜表現。從最低頻率向上延伸到填隙開始頻率的頻譜部分係屬於第一組頻譜部分以及另一頻譜部分例如304、305、306與307,其具有高於填隙頻率的頻率值,另外係包含在第一組第一頻譜部分內。
如概述,頻譜域音源解碼器112係使得第一解碼表現中的頻譜數值的最高頻率表現等於包含在具有此取樣率的時域表示內的最高頻率,其中在第一組第一頻譜部分中的最高頻率的頻譜數值係為零或是不同於零。不管怎樣,對於第一組頻譜成分的最高頻率,存在比例因子帶之倍率因子,其不考慮是否此比例因子帶中的所有頻譜值係設為零而產生且傳送,如圖3a以及圖3b所討論的鄰近關係。
因此,相對於其他參數化技術係增加壓縮效率,例如噪聲替換以及噪聲填充(這些技術係專為像局部訊號內容的噪聲之高效率表現),本發明之優點在於讓音調成分之精確頻率再現。目前,沒有技術可以在低頻帶(LF)以及高頻帶(HF)中不須固定a-優先區段(a-priory division)的限制而解決任意的訊號內容之高效率參數表現。
本發明系統的實施例改善了現有技術方法因此提供高壓縮效率,沒有或僅有一小感知的打擾以及全音源帶寬甚至在低位元率下。
一般系統的組成為
‧全頻段核心編碼
‧智慧型間隙填充(平鋪填充或噪聲填充)
‧在核心的稀疏音調部分藉由音調遮罩來選擇
‧全頻段的聯合立體聲對編碼,包括平鋪填充
‧在平鋪的TNS
‧頻譜白化於IGF範圍
朝一較有效率系統的一第一步驟是移除將頻譜資料變換至不同於核心編碼器其中之一的一第二變換域的需求。如大多的音源編碼例如AAC使用MDCT作為基礎變換,在MDCT域進行BWE也是很有用的。供BWE系統的一第二要求將是保留音調grid的需求,其中甚至HF音調部分係被保留,編碼音源的品質仍優於現存系統。為注意以上所述二者供一BWE機制的要求,一提來的新系統稱為智慧間隙填充(Intelligent Gap Filling,IGF)。圖2b顯示在編碼器側所提出的系統的區塊圖,圖2a顯示在解碼器側的系統。
隨後地,可分別或一起實作的併有填隙操作的全頻段頻域第一編碼處理器以及全頻段頻域解碼處理器的進一步選擇性的特徵係討論與定義。
特別是,對應於區塊1122a的頻譜域解碼器112係配置為輸出一連串的頻譜值得解碼訊框,一解碼訊框是第一解碼表現,其中訊框包括第一組頻譜部分的頻譜值以及第二頻譜部分的多個0表示。再者,解碼裝置包括一結合器208。頻譜值係藉由供第二組第二頻譜部分的一頻率再生器所產生,其中結合器以及頻率再生器二者皆包含於區塊1122b之中。因此,藉由結合第二頻譜部分以及第一頻譜部分,可得到一再現頻譜訊框其包括第一組第一頻譜部分以及第二組頻譜部分的頻譜值,對應至圖14b中IMDCT區塊1124的頻譜時間轉換器118然後轉換了再現頻譜訊框至時域表示。
如描述,頻譜時間轉換器118或1124係配置為進行一反向改進的離散餘弦變換512、514且更包括一重疊相加階段516以重疊相加隨後的時域訊框。
特別的,頻譜域音源解碼器1122a係配置為產生第一解碼表現使得第一解碼表現具有一奈奎斯特頻率其定義一取樣率是等於頻時轉換器1124所產生的時域表示的一取樣率。
再者,解碼器1112、1122a係配置為產生第一解碼表現使得一第一頻譜部分306係針對頻率放置於第二頻譜部分307a、307b之間。
在一實施例,藉由在第一解碼表現中的最大頻率的一頻譜值所表現的一最大頻率係等於包含在由頻時轉換器所產生的時域表示的一最大頻率,其中在第一解碼表現中的最大頻率的頻譜值係為0或不同於0。
再者,如圖3所示,編碼第一音源訊號部分更包括一第三組要藉由噪聲填充而再現的第三頻譜部分的一編碼表現,第一解碼處理器1120還可包含一噪聲填充器其包含在區塊1122b以從第三組第三頻譜部分的一編碼表現來萃取噪聲填充資訊308以及施加一噪聲填充操作於第三組第三頻譜部分而沒有使用在一不同頻率範圍的一第一頻譜部分。
再者,頻譜域音源解碼器112係配置為產生第一解碼表現其具有第一頻譜部分頻率值大於藉由頻譜時間轉換器118或1124所輸出的時域表示所涵蓋的頻率範圍的中間的頻率。
再者,頻譜分析器或全頻段分析器604係配置為分析時頻轉換器602所產生的表現供決定將要以第一高頻譜解析度編碼的一第一組第一頻譜部分以及將要以低於第一頻譜解析度的一第二頻譜解析度編碼的不同的第二組第二頻譜部分,藉由頻譜分析器的裝置,一第一頻譜部分306係針對頻率被決定於二個第二頻譜部分如圖3的307a及307b。
特別的,頻譜分析器係配置為分析高達一最大分析頻率的頻譜表現,最大分析頻率係至少是音源訊號的一取樣頻率的四分之一。
特別的,頻譜域音源編碼器係配置為處理一連串的頻譜值得訊框供一量化及熵編碼,其中,在一訊框中,第二組第二部分的頻譜值係設為0,或其中,在訊框中,第一組第一頻譜部分以及第二組第二頻譜部分的頻譜值係展現,其中,在隨後的處理時,在第二組頻譜部分的頻譜值係設為0如示例的出示在410、418、422。
頻譜域音源編碼器係配置為產生一頻譜表現其具有一音源 輸入訊號或操作在頻域的第一編碼處理器所處理的音源訊號的第一部分的取樣率所定義的一奈奎斯特頻率。
再者,頻譜域音源編碼器606係配置為提供第一編碼表現使得使得,對於一取樣音源訊號的一訊框,編碼表現包括第一組第一頻譜部分以及第二組第二頻譜部分,其中在第二組頻譜部分的頻譜值係編碼為0或噪聲值。
全頻段分析器604或102係配置為分析頻譜表現以填隙開始頻率209開始並以一最大頻率fmax其藉由包含在頻譜表現以及從屬於第一組第一頻譜部分的一最小頻率直到填隙開始頻率309擴展的一頻譜部分之中的一最大頻率所表現而結束。
特別的,分析器係配置為施加一音調遮罩處理頻譜表現的至少一部分使得音調部分以及非音調部分彼此分開,其中第一組第一頻譜部分包括音調部分,其中第二組第二頻譜部分包括非音調部分。
雖然本發明已經描述區塊圖的內容其中區塊代表實際或邏輯硬體元件,本發明也可以藉由一電腦實作方法來實作。在之後的案例,區塊代表對應方法步驟其中這些方法代表對應邏輯或實體硬體區塊所進行的功能。
雖然一些方面已經描述在一裝置的內容,很清楚的是這些方面也代表對應方法的一描述,其中一區塊或裝置對應至一方法步驟或一方法步驟的特徵。類似的,描述在一方法步驟的內容的方面也代表一對應區塊或項目或一對應裝置的特徵的的一描述。方法步驟的一些或全部也可以藉由(或使用)一硬體裝置來執行,像是例如一微處理器、一可編程電腦或一電子電路。在一些實施例中,大多重要方法步驟的某一個或更多也可以執行在這種裝置上。
本發明傳送或編碼的訊號可以儲存在一數位儲存媒體或可傳送在一傳輸媒體例如一無線傳輸媒體或一有線傳輸媒體例如網際網路。
依據某個實作需求,本發明的實施例可實作在硬體或軟體。這實作可使用一數位儲存媒體來進行,例如一軟碟、一DVD、一藍光光碟、一CD、一ROM、一PROM、EPROM、一EEPROM或一快閃記憶體,其 中儲存具電子可讀取控制訊號,其係與一可編程電腦系統協同操作(或能夠協同操作)使得分別的方法係進行。因此,數位儲存媒體可以是電腦可讀取的。
根據本發明的一些實施例包括一資料載體其具有電子可讀取控制訊號,其能夠與一可編程電腦系統協同運作,使得所述方法之一能夠進行。
一般來說,本發明實施例可實作為具程式碼的一電腦程式產品,當電腦程式產品執行在一電腦時,程式碼可運作來進行其中一種方法。程式碼可例如儲存在一機器可讀取載體。
其他實施例包括進行前述其中之一方法的電腦程式,儲存在一機器可讀取載體。
換句話說,本發明方法的一實施例因而是一電腦程式其具有一程式碼供進行所述方法之一當電腦程式運行在一電腦時。
本發明方法的再一實施例因而是一資料載體(或一非暫態儲存媒體例如一數位儲存媒體、或一電腦可讀取媒體)其包括記錄於其的電腦程式供進行所述方法之一。此資料載體、數位儲存媒體、或電腦可讀取媒體典型上是有形的及/或非暫態。
本發明方法的再一實施例因而是一資料串流或一連串的訊號其表現電腦程式供進行所述方法之一。此資料串流或一連串的訊號可以例如配置為經由一資料通訊連線例如網際網路來傳輸。
再一實施例包括一處理裝置,例如,一電腦或一可編程邏輯裝置,配置為或適宜進行所述方法之一。
再一實施例包括一電腦具安裝在其的電腦程式供進行所述方法之一。
根據本發明再一實施例包括一裝置或一系統配置為傳送(例如,電子地或光學地)供進行所述方法之一的一電腦程式至一接收器。接收器可以例如是一電腦、一行動裝置、一記憶裝置或類似物等。此裝置或系統可以例如包括一檔案伺服器供傳輸電腦程式至接收器。
在一些實施例中,一可編程邏輯裝置(例如,一現場可編程 邏輯閘陣列)可以使用來進行所述方法的一些或全部功能。在一些實施例中,一現場可編程邏輯閘陣列可與一微處理器協同操作以進行所述方法之一。一般來說,這些方法較佳地藉由硬體裝置來進行。
在較佳實施例之詳細說明中所提出之具體實施例僅用以方便說明本發明之技術內容,而非將本發明狹義地限制於上述實施例,在不超出本發明之精神及以下申請專利範圍之情況,所做之種種變化實施,皆屬於本發明之範圍。
600‧‧‧第一編碼處理器
601‧‧‧第一音源訊號部分、第二音源訊號部分
602‧‧‧時頻轉換器
604‧‧‧全頻段分析器
606‧‧‧高解析度編碼器、參數化編碼器
610‧‧‧第二編碼處理器(時域)
620‧‧‧控制器
621‧‧‧控制線
622‧‧‧控制線
630‧‧‧編碼訊號形成器
632‧‧‧編碼訊號

Claims (22)

  1. 一種音源編碼器,供編碼一音源訊號,包括:一第一編碼處理器(600),在一頻域編碼一第一音源訊號部分,其中該第一編碼處理器(600)包括:一時頻轉換器(602),轉換該第一音源訊號部分至一頻域表現其係具有多個頻譜線高達該第一音源訊號部分的一最大頻率;一分析器(604),分析該頻域表現高達該最大頻率以決定將以一第一頻譜解析度編碼的多個第一頻譜部分以及將以一第二頻譜解析度編碼的多個第二頻譜部分,該第二頻譜解析度低於該第一頻譜解析度,其中該分析器(604)係設定來從該等第一頻譜部分決定一第一頻譜部分(306),該第一頻譜部分係針對頻率放置於從該等第二頻譜部分的二第二頻譜部分(307a,307b)之間;一頻譜編碼器(606),以該第一頻譜解析度編碼該等第一頻譜部分以及以該第二頻譜解析度編碼該等第二頻譜部分,其中該頻譜編碼器包括一參數化編碼器以計算頻譜包跡資訊其具有從該等第二頻譜部分的該第二頻譜解析度;一第二編碼處理器(610),在該時域編碼一第二不同音源訊號部分;一控制器(620),設來分析該音源訊號以及決定該音源訊號的何部分是編碼在該頻域的該第一音源訊號部分以及該音源訊號的何部分是編碼在該時域的該第二音源訊號部分;以及一編碼訊號形成器(630),形成一編碼音源訊號其包括供該第一音源訊號部分的一第一編碼訊號部分以及供該第二音源訊號部分的一第二編碼訊號部分。
  2. 如請求項1之音源編碼器,其中該輸入訊號具有一高頻段以及一低頻段,其中該第二編碼處理器(610)包括一取樣率轉換器(900)以轉換該第二音源訊號部分至一較低取樣率表現,該較低取樣率係低於該音源訊號的一取樣率,其中該較低取樣率表現不包含該輸入訊號的該高頻 段;一時域低頻段編碼器(910),時域編碼該較低取樣率表現;以及一時域帶寬擴展編碼器(920),參數化地編碼該高頻段。
  3. 如請求項1之音源編碼器,更包括:一預處理器(1000),設來預處理該第一音源訊號部分以及該第二音源訊號部分,其中該預處理器包括:一預估分析器(1002),決定多個預估係數;以及其中該第二編碼處理器包括:一預估係數量化器(1010),產生該等預估係數的一量化版本;以及一熵編碼器,產生該等量化預估係數的一編碼版本,其中該編碼訊號形成器(630)係設來導入該編碼版本至該編碼音源訊號。
  4. 如請求項1之音源編碼器,其中一預處理器(1000)包括一再取樣器(1004)以再取樣該音源訊號至該第二編碼處理器的一取樣率;以及其中一預估分析器係配置為使用一再取樣音源訊號來決定該等預估係數,或其中該預處理器(1000)更包括一長期預估分析階段(1006)以決定一或多個對該第一音源訊號部分的長期預估參數。
  5. 如請求項1之音源編碼器,更包括一跨處理器(700)以從該第一音源訊號部分的該編碼頻譜表現計算該第二編碼處理器(610)的初始化資料,使得該第二編碼處理(610)係初始化來編碼時間上在該音源訊號中緊隨該第一音源訊號部分的該第二音源訊號部分。
  6. 如請求項1之音源編碼器,其中該跨處理器(700)包括:一頻譜解碼器(701),計算該第一編碼訊號部分的一解碼版本;一延遲階段(707),饋入該解碼版本的一延遲版本至該第二編碼處理器 的一去加重階段(617)供初始化;一加權預估係數分析濾波區塊(708),饋入一濾波器輸出至該第二編碼處理器(610)的一編碼簿決定器(613)供初始化;一分析濾波階段(706),濾波該解碼版本或一預加重版本以及饋入一濾波器殘餘至該第二編碼處理器的一適應性編碼簿決定器(612)供初始化;或一預加重濾波器(709),濾波該解碼版本及饋入一延遲或預加重版本至該第二編碼處理器(610)的一合成濾波階段(616)供供初始化。
  7. 如請求項1之音源編碼器,其中該分析器(604)係設來進行一時間平鋪塑形或時間噪聲塑形分析或一操作將多個頻譜值設為零在該等第二頻譜部分,其中該第一編碼處理器(600)係設來使用源於該第一音源訊號部分的多個預估係數(1010)來進行該等第一頻譜部分的頻譜值的一塑形(606a),其中該第一編碼處理器(600)更設來進行該等第一頻譜部分的多個塑形頻譜值的一量化及熵編碼操作(606b),以及其中該等第二頻譜部分的多個頻譜值係設為0。
  8. 如請求項7之音源編碼器,更包括一跨處理器(700),其中該跨處理器(700)包括:一噪聲塑形器(703),使用LPC係數(1010)源於該第一音源訊號部分以塑形該等第一頻譜部分的多個量化頻譜值;一頻譜解碼器(704,705),以一高頻譜解析度解碼該第一頻譜部分的該等頻譜地塑形頻譜部分以及使用該等第二頻譜部分的一參數化表現以及至少一解碼第一頻譜部分來合成多個第二頻譜部分以得到一解碼頻譜表現;一頻時轉換器(702),轉換該頻譜表現至一時域以得到一解碼第一音源訊號部分,其中與該解碼第一音源訊號部分相關的一取樣率係不同於該音源訊號的一取樣率,與該頻時轉換器(702)的一輸出訊號相關的一取樣率係不同於輸入至該頻時轉換器(602)的該音源訊號的一 取樣率。
  9. 如請求項1之音源編碼器,其中該第二編碼處理器包括該接隨區塊組的至少一區塊:一預估分析濾波器(611);一適應性編碼簿階段(612);一創新編碼簿階段(614);一估測器(613),估測一創新編碼簿入口;一ACELP/增益編碼階段(615);一預估合成濾波階段(616);一去加重階段(617);以及一低音後置濾波器分析階段(618)。
  10. 如請求項1之音源編碼器,其中該時域編碼處理器具有一相關的第二取樣率,其中該頻域編碼處理器具有與其相關的一第一取樣率其係高於該第二取樣率,其中該音源編碼器更包括一跨處理器(700)以從該第一音源訊號部分的該編碼頻譜表現計算該第二編碼處理器的初始化資料,其中該跨處理器包括一頻時轉換器(702)以在該第二取樣率產生一時域訊號,其中該頻率時間轉換器(702)包括:一選擇器(726),根據該第一取樣率以及該第二取樣率的一比率以選擇輸入至該頻率時間轉換器的頻譜的一低部分,該比率小於1,一變換處理器(720),具有一變換長度其係小於該時頻轉換器(602)的一變換長度;以及一合成設窗器(712),相較於該時頻轉換器(602)所使用的一窗,其使用具有一小數量的多個係數的一窗來設窗。
  11. 一種音源解碼器,解碼一編碼音源訊號,包括:一第一解碼處理器(1120),解碼在一頻域的一第一編碼音源訊號部 分,該第一解碼處理器(1120)包括:一頻譜解碼器(1122),以一高頻譜解析度解碼該等第一頻譜部分,以及使用該等第二頻譜部分的一參數化表現以及至少一解碼第一頻譜部分來合成多個第二頻譜部分以得到一解碼頻譜表現,其中該頻譜解碼器(1122)係設來產生該第一解碼表現使得一第一頻譜部分(306)係針對頻率放置於二第二頻譜部分(307a、307b)之間;以及一頻時轉換器(1120),轉換該解碼頻譜表現至一時域以得到一解碼第一音源訊號部分;一第二解碼處理器(1140),在該時域解碼一第二編碼音源訊號部分以得到一解碼第二音源訊號部分;以及一結合器(1160),結合該解碼第一頻譜部分以及該解碼第二頻譜部分以得到一解碼音源訊號。
  12. 如請求項11之音源解碼器,其中該第二解碼處理器包括:一時域低頻段解碼器(1200),解碼一低頻段時域訊號;一升取樣器(1210),升取樣該低頻段時域訊號;一時域帶寬擴展解碼器(1220),合成一時域輸出訊號的一高頻段;以及一混頻器(1230),混合該時域訊號的一合成高頻段以及一升取樣的低頻段時域訊號。
  13. 如請求項12之音源解碼器,其中該升取樣器(1210)包括一分析濾波器組(1471)操作在一第一時域低頻段解碼器取樣率以及一合成濾波器組(1473)操作在高於該第一時域低頻段取樣率的一第二輸出取樣率。
  14. 如請求項12之音源解碼器,其中該時域低頻段解碼器(1200)包括一殘餘訊號,一解碼器(1149、1141、1142)以及一合成濾波器(1143)以使用多個合成濾波器係數(1145)濾波一殘餘訊號, 其中該時域帶寬擴展解碼器(1220)係設來升取樣該殘餘訊號(1221)並使用一非線性操作來處理(1222)一升取樣殘餘訊號以得到一高頻段殘餘訊號,頻譜地塑形(1223)該高頻段殘餘訊號以得到該合成高頻段。
  15. 如請求項11之音源解碼器,其中該第一解碼處理器(1120)包括一適應性長期預估後置濾波器(1420)以後濾波該第一解碼第一訊號部分,其中該濾波器(1420)係受控於包括在該編碼音源訊號內的一或多個長期預測參數。
  16. 如請求項11之音源解碼器,更包括:一跨處理器(1170),從該第一編碼音源訊號部分的該解碼頻譜表現計算該第二解碼處理器(1140)的初始化資料,使得該第二解碼處理器(1140)係初始化來解碼時間上在該編碼音源訊號中跟隨該第一音源訊號部分的該編碼第二音源訊號部分。
  17. 如請求項16之音源解碼器,其中該跨處理器更包括:一頻時轉換器(1170),操作在較該第一解碼處理器(1120)的該頻時轉換器(1124)還低的一取樣率以在該時域得到一另一解碼第一訊號部分,其中該頻時轉換器(1171)所輸出的該訊號具有一第二取樣率其係低於與該第二解碼處理器的該頻時轉換器(1124)的輸出相關的該第一取樣率,其中該額外的頻時轉換器(1171)包括一選擇器(726)以根據該第一取樣率以及該第二取樣率的一比率選擇輸入至該額外的頻時轉換器(1171)的一頻譜的一低部分,該比率小於1;一變換處理器(720)具有一變換長度其係小於該時頻轉換器(1124)的一變換長度(710);以及一合成設窗器(722),相較於該頻時轉換器(1124)所使用的一窗,其使用具有一小數量的多個係數的一窗。
  18. 如請求項16之音源解碼器,其中該跨處理器(1170)包括:一延遲階段(1172),延遲該另一解碼第一訊號部分以及饋入該解碼第一訊號部分的一延遲版本至該第二解碼處理器的一去加重階段(1144)供初始化;一預加重濾波器(1173)以及一延遲階段(1175),濾波以及延遲該另一解碼第一訊號部分,饋入一延遲階段輸出至該第二解碼處理器的一預估合成濾波器(1143)供初始化;一預估分析濾波器(1174),從該另一解碼第一頻譜部分產生一預估殘餘訊號或一預加重(1173)另一解碼第一訊號部分,以及饋入一預佔殘餘訊號至該第二解碼處理器(1200)的一編碼簿合成器(1141);或一開關(1480),饋入該另一解碼第一訊號部分至該第二解碼處理器的一再取樣器(1210)一分析階段(1471)供初始化。
  19. 如請求項11之音源解碼器,其中該第二解碼處理器(1200)包括該組區塊的至少一區塊,包括:一ACELP供解碼增益以及一創新編碼簿;一適應性編碼簿合成階段(1141);一ACELP後置處理器(1142);一預估合成濾波器(1143);以及一去加重階段(1144)。
  20. 一種編碼一音源訊號的方法,包括:在一頻域第一地編碼(600)一第一音源訊號部分,其中該第一編碼(600)包括:轉換(602)該第一音源訊號部分至一頻域表現其具有多個頻譜線直到該第一音源訊號部分的一最大頻率;分析(604)該頻域表現直到該最大頻率以決定將以一第一頻譜解析度編碼的多個第一頻譜部分以及將以一第二頻譜解析度編碼的多 個第二頻譜部分,該第二頻譜解析度低於該第一頻譜解析度,其中該分析(604)從該等第一頻譜部分決定一第一頻譜部分(306),該第一頻譜部分針對頻率放置於從該等第二頻譜部分的二第二頻譜部分(307a,307b)之間;以該第一頻譜解析度編碼(606)該等第一頻譜部分以及以該第二頻譜解析度編碼該等第二頻譜部分,其中該編碼該第二頻譜部分包括從該等第二頻譜部分計算具有該第二頻譜解析度的頻譜包跡資訊;在該時域第二地編碼(610)一第二不同音源訊號部分;分析(620)該音源訊號並決定該音源訊號的何部分是編碼在該頻域的該第一音源訊號部分以及該音源訊號的何部分是編碼在該時域的該第二音源訊號部分;以及形成(630)一編碼音源訊號其包括供該第一音源訊號部分的一第一編碼訊號部分以及供該第二音源訊號部分的一第二編碼訊號部分。
  21. 一種解碼一編碼音源訊號的方法,包括:在一頻域第一地解碼(1120)一第一編碼音源訊號部分,該第一解碼(1120)包括:以一高頻譜解析度解碼(1122)多個第一頻譜部分並使用該等第二頻譜部分的一參數化表現以及至少一解碼第一頻譜部分來合成多個第二頻譜部分以得到一解碼頻譜表現,其中解碼(1122)包括產生該第一解碼表現使得一第一頻譜部分(306)係針對頻率放置於二第二頻譜部分(307a,307b)之間;以及轉換(1120)該解碼頻譜表現至一時域以得到一解碼第一音源訊號部分;在該時域第二地解碼(1140)一第二編碼音源訊號部分以得到一解碼第二音源訊號部分;以及結合(1160)該解碼第一頻譜部分以及該解碼第二頻譜部分以得到一解碼音源訊號。
  22. 一種電腦程式,當運行在一電腦或一處理器時,進行如請求項20或21之方法。
TW104123735A 2014-07-28 2015-07-22 音源編碼器、音源解碼器、編碼音源訊號的方法、解碼編碼音源訊號的方法及其電腦程式 TWI570710B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP14178817.4A EP2980794A1 (en) 2014-07-28 2014-07-28 Audio encoder and decoder using a frequency domain processor and a time domain processor

Publications (2)

Publication Number Publication Date
TW201610986A true TW201610986A (zh) 2016-03-16
TWI570710B TWI570710B (zh) 2017-02-11

Family

ID=51224876

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104123735A TWI570710B (zh) 2014-07-28 2015-07-22 音源編碼器、音源解碼器、編碼音源訊號的方法、解碼編碼音源訊號的方法及其電腦程式

Country Status (19)

Country Link
US (5) US10332535B2 (zh)
EP (4) EP2980794A1 (zh)
JP (4) JP6549217B2 (zh)
KR (1) KR102009210B1 (zh)
CN (6) CN113963706A (zh)
AR (1) AR101344A1 (zh)
AU (1) AU2015295605B2 (zh)
BR (5) BR122022012616B1 (zh)
CA (1) CA2955095C (zh)
ES (2) ES2972128T3 (zh)
MX (1) MX362424B (zh)
MY (1) MY187280A (zh)
PL (2) PL3186809T3 (zh)
PT (1) PT3186809T (zh)
RU (1) RU2671997C2 (zh)
SG (1) SG11201700685XA (zh)
TR (1) TR201908602T4 (zh)
TW (1) TWI570710B (zh)
WO (1) WO2016016123A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109863556A (zh) * 2016-08-23 2019-06-07 弗劳恩霍夫应用研究促进协会 用于使用补偿值来对音频信号进行编码的装置和方法
US10902858B2 (en) 2016-06-27 2021-01-26 Qualcomm Incorporated Audio decoding using intermediate sampling rate
TWI752682B (zh) * 2020-10-21 2022-01-11 國立陽明交通大學 雲端更新語音辨識系統的方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP4134953A1 (en) * 2016-04-12 2023-02-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band
JP6976277B2 (ja) 2016-06-22 2021-12-08 ドルビー・インターナショナル・アーベー 第一の周波数領域から第二の周波数領域にデジタル・オーディオ信号を変換するためのオーディオ・デコーダおよび方法
TWI807562B (zh) * 2017-03-23 2023-07-01 瑞典商都比國際公司 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合
EP3382704A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
AU2018308668A1 (en) * 2017-07-28 2020-02-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for encoding or decoding an encoded multichannel signal using a filling signal generated by a broad band filter
JP7214726B2 (ja) * 2017-10-27 2023-01-30 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム
AU2019298307A1 (en) * 2018-07-04 2021-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multisignal audio coding using signal whitening as preprocessing
US10911013B2 (en) 2018-07-05 2021-02-02 Comcast Cable Communications, Llc Dynamic audio normalization process
CN109215670B (zh) * 2018-09-21 2021-01-29 西安蜂语信息科技有限公司 音频数据的传输方法、装置、计算机设备和存储介质
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
TWI703559B (zh) * 2019-07-08 2020-09-01 瑞昱半導體股份有限公司 音效編碼解碼電路及音頻資料的處理方法
CN110794273A (zh) * 2019-11-19 2020-02-14 哈尔滨理工大学 含有高压驱动保护电极的电位时域谱测试系统
KR20220123109A (ko) 2020-01-13 2022-09-05 후아웨이 테크놀러지 컴퍼니 리미티드 오디오 인코딩 및 디코딩 방법 및 오디오 인코딩 및 디코딩 장치
KR20220046324A (ko) 2020-10-07 2022-04-14 삼성전자주식회사 인공 신경망을 이용한 추론을 위한 트레이닝 방법, 인공 신경망을 이용한 추론 방법, 및 추론 장치
CN113035205B (zh) * 2020-12-28 2022-06-07 阿里巴巴(中国)有限公司 音频丢包补偿处理方法、装置及电子设备
EP4120253A1 (en) * 2021-07-14 2023-01-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Integral band-wise parametric coder

Family Cites Families (128)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3465697B2 (ja) 1993-05-31 2003-11-10 ソニー株式会社 信号記録媒体
EP0653846B1 (en) * 1993-05-31 2001-12-19 Sony Corporation Apparatus and method for coding or decoding signals, and recording medium
DE69620967T2 (de) 1995-09-19 2002-11-07 At & T Corp Synthese von Sprachsignalen in Abwesenheit kodierter Parameter
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP3364825B2 (ja) 1996-05-29 2003-01-08 三菱電機株式会社 音声符号化装置および音声符号化復号化装置
US6134518A (en) 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6968564B1 (en) 2000-04-06 2005-11-22 Nielsen Media Research, Inc. Multi-band spectral audio encoding
US6996198B2 (en) * 2000-10-27 2006-02-07 At&T Corp. Nonuniform oversampled filter banks for audio signal processing
DE10102155C2 (de) * 2001-01-18 2003-01-09 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen eines skalierbaren Datenstroms und Verfahren und Vorrichtung zum Decodieren eines skalierbaren Datenstroms
FI110729B (fi) 2001-04-11 2003-03-14 Nokia Corp Menetelmä pakatun audiosignaalin purkamiseksi
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
JP3876781B2 (ja) * 2002-07-16 2007-02-07 ソニー株式会社 受信装置および受信方法、記録媒体、並びにプログラム
KR100547113B1 (ko) * 2003-02-15 2006-01-26 삼성전자주식회사 오디오 데이터 인코딩 장치 및 방법
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
KR100940531B1 (ko) * 2003-07-16 2010-02-10 삼성전자주식회사 광대역 음성 신호 압축 및 복원 장치와 그 방법
EP1659696B1 (en) * 2003-08-28 2012-03-21 Sony Corporation Trellis decoding of run-length limited codes having a code table of variable input length
JP4679049B2 (ja) 2003-09-30 2011-04-27 パナソニック株式会社 スケーラブル復号化装置
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
KR100561869B1 (ko) * 2004-03-10 2006-03-17 삼성전자주식회사 무손실 오디오 부호화/복호화 방법 및 장치
CA2566368A1 (en) 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
US7739120B2 (en) 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
US7596486B2 (en) 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
CN101076985A (zh) 2004-12-14 2007-11-21 皇家飞利浦电子股份有限公司 可编程信号处理电路和解调方法
US8170221B2 (en) * 2005-03-21 2012-05-01 Harman Becker Automotive Systems Gmbh Audio enhancement system and method
KR100707186B1 (ko) * 2005-03-24 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
KR100956877B1 (ko) 2005-04-01 2010-05-11 콸콤 인코포레이티드 스펙트럼 엔벨로프 표현의 벡터 양자화를 위한 방법 및장치
WO2006108543A1 (en) 2005-04-15 2006-10-19 Coding Technologies Ab Temporal envelope shaping of decorrelated signal
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
EP1901432B1 (en) * 2005-07-07 2011-11-09 Nippon Telegraph And Telephone Corporation Signal encoder, signal decoder, signal encoding method, signal decoding method, program, recording medium and signal codec method
US7974713B2 (en) 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
JP4876574B2 (ja) 2005-12-26 2012-02-15 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
EP1994531B1 (fr) 2006-02-22 2011-08-10 France Telecom Codage ou decodage perfectionnes d'un signal audionumerique, en technique celp
CA2646961C (en) 2006-03-28 2013-09-03 Sascha Disch Enhanced method for signal shaping in multi-channel audio reconstruction
JP2008033269A (ja) * 2006-06-26 2008-02-14 Sony Corp デジタル信号処理装置、デジタル信号処理方法およびデジタル信号の再生装置
JP5205373B2 (ja) 2006-06-30 2013-06-05 フラウンホーファーゲゼルシャフト・ツア・フェルデルング・デア・アンゲバンテン・フォルシュング・エー・ファウ 動的可変ワーピング特性を有するオーディオエンコーダ、オーディオデコーダ及びオーディオプロセッサ
ATE408217T1 (de) 2006-06-30 2008-09-15 Fraunhofer Ges Forschung Audiokodierer, audiodekodierer und audioprozessor mit einer dynamisch variablen warp-charakteristik
US7873511B2 (en) 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
ATE509347T1 (de) * 2006-10-20 2011-05-15 Dolby Sweden Ab Vorrichtung und verfahren zum codieren eines informationssignals
CN101617362B (zh) 2007-03-02 2012-07-18 松下电器产业株式会社 语音解码装置和语音解码方法
KR101261524B1 (ko) 2007-03-14 2013-05-06 삼성전자주식회사 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
KR101411900B1 (ko) 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
PL2165328T3 (pl) 2007-06-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie sygnału audio zawierającego część impulsową i część stacjonarną
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
ES2403410T3 (es) * 2007-08-27 2013-05-17 Telefonaktiebolaget L M Ericsson (Publ) Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
CN101221766B (zh) * 2008-01-23 2011-01-05 清华大学 音频编码器切换的方法
JP2011518345A (ja) * 2008-03-14 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
MX2011000370A (es) * 2008-07-11 2011-03-15 Fraunhofer Ges Forschung Un aparato y un metodo para decodificar una señal de audio codificada.
ES2654433T3 (es) * 2008-07-11 2018-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de señal de audio, método para codificar una señal de audio y programa informático
EP2144171B1 (en) 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
AU2013200679B2 (en) 2008-07-11 2015-03-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder and decoder for encoding and decoding audio samples
MX2011000369A (es) 2008-07-11 2011-07-29 Ten Forschung Ev Fraunhofer Codificador y decodificador de audio para codificar marcos de señales de audio muestreadas.
PL2346030T3 (pl) 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
PL3002750T3 (pl) 2008-07-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder i dekoder audio do kodowania i dekodowania próbek audio
KR20100007738A (ko) 2008-07-14 2010-01-22 한국전자통신연구원 음성/오디오 통합 신호의 부호화/복호화 장치
ES2592416T3 (es) * 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
JP5236006B2 (ja) 2008-10-17 2013-07-17 シャープ株式会社 音声信号調整装置及び音声信号調整方法
WO2010053287A2 (en) * 2008-11-04 2010-05-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
GB2466666B (en) * 2009-01-06 2013-01-23 Skype Speech coding
EP2380172B1 (en) * 2009-01-16 2013-07-24 Dolby International AB Cross product enhanced harmonic transposition
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
TWI559680B (zh) * 2009-02-18 2016-11-21 杜比國際公司 低延遲調變濾波器組及用以設計該低延遲調變濾波器組之方法
JP4977157B2 (ja) 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
EP2234103B1 (en) 2009-03-26 2011-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Device and method for manipulating an audio signal
RU2452044C1 (ru) 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
KR20100136890A (ko) * 2009-06-19 2010-12-29 삼성전자주식회사 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법
ES2400661T3 (es) * 2009-06-29 2013-04-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de extensión de ancho de banda
KR101410312B1 (ko) * 2009-07-27 2014-06-27 연세대학교 산학협력단 오디오 신호 처리 방법 및 장치
GB2473267A (en) * 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
GB2473266A (en) * 2009-09-07 2011-03-09 Nokia Corp An improved filter bank
ES2441069T3 (es) 2009-10-08 2014-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, procedimiento y programa de computación que usan un modelado de ruido en base a linealidad-predicción-codificación
KR101137652B1 (ko) * 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
CA2862715C (en) * 2009-10-20 2017-10-17 Ralf Geiger Multi-mode audio codec and celp coding adapted therefore
MX2012004648A (es) * 2009-10-20 2012-05-29 Fraunhofer Ges Forschung Codificacion de señal de audio, decodificador de señal de audio, metodo para codificar o decodificar una señal de audio utilizando una cancelacion del tipo aliasing.
US8484020B2 (en) * 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
CA2792452C (en) * 2010-03-09 2018-01-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an input audio signal using cascaded filterbanks
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
PL3779979T3 (pl) * 2010-04-13 2024-01-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób dekodowania audio do przetwarzania sygnałów audio stereo z wykorzystaniem zmiennego kierunku predykcji
US8886523B2 (en) * 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
CN101964189B (zh) 2010-04-28 2012-08-08 华为技术有限公司 语音频信号切换方法及装置
WO2011156905A2 (en) * 2010-06-17 2011-12-22 Voiceage Corporation Multi-rate algebraic vector quantization with supplemental coding of missing spectrum sub-bands
EP4372742A2 (en) * 2010-07-08 2024-05-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coder using forward aliasing cancellation
US8560330B2 (en) * 2010-07-19 2013-10-15 Futurewei Technologies, Inc. Energy envelope perceptual correction for high band coding
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
US9117459B2 (en) * 2010-07-19 2015-08-25 Dolby International Ab Processing of audio signals during high frequency reconstruction
JP5749462B2 (ja) * 2010-08-13 2015-07-15 株式会社Nttドコモ オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
JP6100164B2 (ja) * 2010-10-06 2017-03-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号を処理し、音声音響統合符号化方式(usac)のためにより高い時間粒度を供給するための装置および方法
CN103282958B (zh) * 2010-10-15 2016-03-30 华为技术有限公司 信号分析器、信号分析方法、信号合成器、信号合成方法、变换器和反向变换器
WO2012076689A1 (en) 2010-12-09 2012-06-14 Dolby International Ab Psychoacoustic filter design for rational resamplers
FR2969805A1 (fr) * 2010-12-23 2012-06-29 France Telecom Codage bas retard alternant codage predictif et codage par transformee
ES2564504T3 (es) * 2010-12-29 2016-03-23 Samsung Electronics Co., Ltd Aparato de codificación y aparato de descodificación con una ampliación de ancho de banda
JP2012242785A (ja) 2011-05-24 2012-12-10 Sony Corp 信号処理装置、信号処理方法、およびプログラム
US8731949B2 (en) * 2011-06-30 2014-05-20 Zte Corporation Method and system for audio encoding and decoding and method for estimating noise level
US9037456B2 (en) * 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
US9043201B2 (en) * 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
CN103428819A (zh) 2012-05-24 2013-12-04 富士通株式会社 一种载波频点搜索方法和装置
WO2013186343A2 (en) * 2012-06-14 2013-12-19 Dolby International Ab Smooth configuration switching for multichannel audio
US9589570B2 (en) 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
ES2834929T3 (es) * 2013-01-29 2021-06-21 Fraunhofer Ges Forschung Llenado con ruido en la codificación de audio por transformada perceptual
US9741350B2 (en) 2013-02-08 2017-08-22 Qualcomm Incorporated Systems and methods of performing gain control
CN105378835B (zh) 2013-02-20 2019-10-01 弗劳恩霍夫应用研究促进协会 使用依赖瞬态位置的重叠对音频信号编码或译码的设备及方法
CN105408957B (zh) * 2013-06-11 2020-02-21 弗朗霍弗应用研究促进协会 进行语音信号的频带扩展的装置及方法
EP2830061A1 (en) * 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
KR101940740B1 (ko) * 2013-10-31 2019-01-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
US20150149157A1 (en) 2013-11-22 2015-05-28 Qualcomm Incorporated Frequency domain gain shape estimation
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
CN103905834B (zh) 2014-03-13 2017-08-15 深圳创维-Rgb电子有限公司 音频数据编码格式转换的方法及装置
EP3117432B1 (en) * 2014-03-14 2019-05-08 Telefonaktiebolaget LM Ericsson (publ) Audio coding method and apparatus
US9626983B2 (en) * 2014-06-26 2017-04-18 Qualcomm Incorporated Temporal gain adjustment based on high-band signal characteristic
FR3023036A1 (fr) * 2014-06-27 2016-01-01 Orange Re-echantillonnage par interpolation d'un signal audio pour un codage / decodage a bas retard
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10902858B2 (en) 2016-06-27 2021-01-26 Qualcomm Incorporated Audio decoding using intermediate sampling rate
TWI725202B (zh) * 2016-06-27 2021-04-21 美商高通公司 使用中間取樣率之音訊解碼
CN109863556A (zh) * 2016-08-23 2019-06-07 弗劳恩霍夫应用研究促进协会 用于使用补偿值来对音频信号进行编码的装置和方法
CN109863556B (zh) * 2016-08-23 2023-09-26 弗劳恩霍夫应用研究促进协会 用于使用补偿值来对音频信号进行编码的装置和方法
US11935549B2 (en) 2016-08-23 2024-03-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding an audio signal using an output interface for outputting a parameter calculated from a compensation value
TWI752682B (zh) * 2020-10-21 2022-01-11 國立陽明交通大學 雲端更新語音辨識系統的方法

Also Published As

Publication number Publication date
BR122022012700B1 (pt) 2023-12-19
CN113936675A (zh) 2022-01-14
EP2980794A1 (en) 2016-02-03
US20170256267A1 (en) 2017-09-07
EP3511936B1 (en) 2023-09-06
SG11201700685XA (en) 2017-02-27
AU2015295605A1 (en) 2017-02-16
US20210287689A1 (en) 2021-09-16
ES2972128T3 (es) 2024-06-11
CA2955095A1 (en) 2016-02-04
MY187280A (en) 2021-09-18
BR112017001297A2 (pt) 2017-11-14
WO2016016123A1 (en) 2016-02-04
JP2019194721A (ja) 2019-11-07
CN107077858A (zh) 2017-08-18
RU2017105448A3 (zh) 2018-08-30
TWI570710B (zh) 2017-02-11
US20230402046A1 (en) 2023-12-14
EP4239634A1 (en) 2023-09-06
CN113948100A (zh) 2022-01-18
EP3186809A1 (en) 2017-07-05
RU2017105448A (ru) 2018-08-30
JP2017523473A (ja) 2017-08-17
BR122022012616B1 (pt) 2023-10-31
MX362424B (es) 2019-01-17
AR101344A1 (es) 2016-12-14
US20230154476A1 (en) 2023-05-18
AU2015295605B2 (en) 2018-09-06
MX2017001235A (es) 2017-07-07
US20190189143A1 (en) 2019-06-20
JP6941643B2 (ja) 2021-09-29
BR122022012517B1 (pt) 2023-12-19
CN107077858B (zh) 2021-10-26
BR122022012519B1 (pt) 2023-12-19
CN113963705A (zh) 2022-01-21
ES2733207T3 (es) 2019-11-28
PT3186809T (pt) 2019-07-30
JP2021099507A (ja) 2021-07-01
KR102009210B1 (ko) 2019-10-21
EP3511936C0 (en) 2023-09-06
CN113963706A (zh) 2022-01-21
RU2671997C2 (ru) 2018-11-08
EP3186809B1 (en) 2019-04-24
PL3186809T3 (pl) 2019-10-31
US11929084B2 (en) 2024-03-12
EP3511936A1 (en) 2019-07-17
CA2955095C (en) 2020-03-24
TR201908602T4 (tr) 2019-07-22
US10332535B2 (en) 2019-06-25
CN113963704A (zh) 2022-01-21
JP2023053255A (ja) 2023-04-12
JP6549217B2 (ja) 2019-07-24
PL3511936T3 (pl) 2024-03-04
KR20170039245A (ko) 2017-04-10
US11049508B2 (en) 2021-06-29
JP7228607B2 (ja) 2023-02-24

Similar Documents

Publication Publication Date Title
TWI570710B (zh) 音源編碼器、音源解碼器、編碼音源訊號的方法、解碼編碼音源訊號的方法及其電腦程式
TWI581251B (zh) 使用頻域處理器、時域處理器及供不斷初始化的跨處理器之音頻編碼器及解碼器