TW201729181A - 產生高頻雜訊的方法 - Google Patents

產生高頻雜訊的方法 Download PDF

Info

Publication number
TW201729181A
TW201729181A TW106118001A TW106118001A TW201729181A TW 201729181 A TW201729181 A TW 201729181A TW 106118001 A TW106118001 A TW 106118001A TW 106118001 A TW106118001 A TW 106118001A TW 201729181 A TW201729181 A TW 201729181A
Authority
TW
Taiwan
Prior art keywords
unit
signal
encoding
decoding
frequency
Prior art date
Application number
TW106118001A
Other languages
English (en)
Other versions
TWI626645B (zh
Inventor
朱基峴
Original Assignee
三星電子股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三星電子股份有限公司 filed Critical 三星電子股份有限公司
Publication of TW201729181A publication Critical patent/TW201729181A/zh
Application granted granted Critical
Publication of TWI626645B publication Critical patent/TWI626645B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本發明揭露一種用於頻寬延伸的高頻編碼及解碼的方法與裝置。此方法包含:估計權重;以及藉由在隨機雜訊與經解碼的低頻頻譜之間應用所述權重而產生高頻激勵(excitation)信號。

Description

產生高頻雜訊的方法
本發明的例示性實施例是關於音訊編碼及解碼,且更特別是一種是關於用於頻寬延伸的高頻編碼及解碼的方法與裝置。
G.719中的編碼方案是出於電話會議的目的而開發以及標準化,且藉由執行修改型離散餘弦變換(modified discrete cosine transform,MDCT)以直接對用於固定訊框的MDCT頻譜進行編碼且改變用於非固定訊框的時域頻疊(time domain aliasing)次序以便考慮時間特性而執行頻域變換。藉由執行交錯(interleaving)來用與固定訊框相同的架構建構編解碼器,針對非固定訊框而獲得的頻譜可按照類似於固定訊框的形式建構。所建構的頻譜的能量得以獲得、正規化(normalize)以及量化(quantized)。一般而言,能量被表示為均方根(root mean square,RMS)值,且自經正規化的頻譜,每一頻帶所需的位元的數目經由基於能量的位元分配而計算,且位元串流基於關於針對每一頻帶的位元分配的資訊經由量化及無損編碼而產生。
根據G.719中的解碼方案,作為編碼方案的逆處理程序,經正規化的經反量化的頻譜是藉由以下操作而產生:對來自位元串流的能量進行反量化、基於經反量化的能量來產生位元分配資訊以及對頻譜進行反量化。當位元不足時,經反量化的頻譜可能不存在於特定頻帶中。為針對特定頻帶產生雜訊,應用用於藉由基於低頻的經反量化的頻譜來產生雜訊碼簿(codebook)而根據所傳輸的雜訊位準來產生雜訊的雜訊填充方法。針對特定頻率或較高頻率的頻帶,應用用於藉由折疊(fold)低頻信號而產生高頻信號的頻寬延伸方案。
本發明的例示性實施例提供用於頻寬延伸的高頻編碼及解碼的方法與裝置,以及使用所述方法與裝置的多媒體裝置。
根據本發明的例示性實施例的態樣,提供一種產生高頻雜訊的方法,所述方法包含:估計權重;以及藉由在隨機雜訊與經解碼的低頻頻譜之間應用所述權重而產生高頻激勵信號。
根據本發明的例示性實施例,在不提高複雜性的情況下,可改良經復原的聲音的品質。
本發明概念可允許進行各種種類的改變或修改以及各種形式改變,且特定例示性實施例將說明於圖示並詳細描述於本說明書中。然而,應理解的是,特定例示性實施例並不將本發明概念限於特定揭露形式,而是包含在本發明概念的精神以及技術範疇內的每一經修改的、等效的或經替換的形式。在以下描述中,不會詳細描述熟知的功能或構造,此是因為此類功能或構造將會以不必要的細節混淆本發明。
雖然可使用諸如「第一」以及「第二」的術語來描述各種部件,但此類部件不會受此類術語限制。此類術語可用以區分某一部件與另一部件。
本申請案中所使用的術語僅用以描述特定例示性實施例,而不意欲限制本發明概念。雖然考慮到本發明概念中的功能而將當前盡可能廣泛使用的一般術語選擇為本發明概念中所使用的術語,但此類術語可根據本領域具有通常知識者的意圖、司法先例(judicial precedents)或新技術的出現而變化。此外,在特定狀況下,可使用申請人故意選擇的術語,且在此狀況下,將在本發明概念的對應描述中揭露所述術語的含義。因此,本發明概念中所使用的術語不應根據術語的簡單名稱來定義,而是根據術語的含義以及本發明概念的內容來定義。
單數形式的表達包含複數形式的表達,除非兩種表達在上下文中明顯彼此不同。在本申請案中,應理解的是,諸如「包含」以及「具有」的術語用以表示所實施的特徵、數目、步驟、操作、部件、部分或其組合的存在,而不預先排除一或多個其他特徵、數目、步驟、操作、部件、部分或其組合的存在或添加的可能性。
現將參照附圖來詳細描述本發明的例示性實施例。圖示中的相似參考數字表示相似部件,且因此其重複描述將加以省略。
圖1說明根據本發明的例示性實施例的所建構的針對低頻信號的頻帶以及針對高頻信號的頻帶的示意圖。根據例示性實施例,取樣率為32千赫,且640個離散餘弦變換(modified discrete cosine transform,MDCT)頻譜係數可由22個頻帶(詳細而言,針對低頻信號的17個頻帶以及針對高頻信號的5個頻帶)形成。高頻信號的開始頻率為第241個頻譜係數,且第0至第240個頻譜係數可定義為R0,作為待在低頻編碼方案中編碼的區域。此外,第241至第639個頻譜係數可定義為R1,作為頻寬延伸(bandwidth extension,BWE)得以執行的區域。在區域R1中,亦可存在待在低頻編碼方案中編碼的頻帶。
圖2A至圖2C說明根據本發明的例示性實施例的對應於所選擇的編碼方案而分別將區域R0及區域R1分類為R4及R5與R2及R3的示意圖。作為BWE區域的區域R1可分類為R2及R3,且作為低頻編碼區域的區域R0可分類為R4及R5。R2表示含有待在低頻編碼方案(例如,頻域編碼方案)中量化及無損編碼的信號的頻帶,且R3表示不存在待在低頻編碼方案中編碼的信號的頻帶。然而,即使R2經定義以便針對在低頻編碼方案中編碼而分配位元,頻帶R2因缺乏位元而仍可按照與頻帶R3相同的方式產生。R5表示以所分配的位元在低頻編碼方案中執行編碼的頻帶,且R4表示因無邊緣(less allocated)位元甚至針對低頻信號仍無法執行編碼或因較少的所分配的位元而應添加雜訊的頻帶。因此,可藉由判定是否添加了雜訊而識別R4及R5,其中此判定可藉由經低頻編碼的頻帶中的頻譜的數目的百分比來執行,或可在階乘脈衝編碼(factorial pulse coding,FPC)得以使用時基於頻帶內脈衝分配資訊來執行。由於頻帶R4及R5可在解碼處理程序中在被添加雜訊時得以識別,因此頻帶R4及R5可能不會在編碼處理程序中被清楚地識別。頻帶R2至R5可具有相互不同的待編碼的資訊,且不同的解碼方案亦可應用於頻帶R2至R5。
在圖2A所示的說明中,低頻編碼區域R0中含有第170至第240個頻譜係數的兩個頻帶為被添加雜訊的R4,且BWE區域R1中含有第241至第350個頻譜係數的兩個頻帶以及含有第427至第639個頻譜係數的兩個頻帶為待在低頻編碼方案中編碼的R2。在圖2B所示的說明中,低頻編碼區域R0中含有第202至第240個頻譜係數的一個頻帶為被添加雜訊的R4,且BWE區域R1中含有第241至第639個頻譜係數的所有五個頻帶為待在低頻編碼方案中編碼的R2。在圖2C所示的說明中,低頻編碼區域R0中含有第144至第240個頻譜係數的三個頻帶為被添加雜訊的R4,且R2不存在於BWE區域R1中。一般而言,R4可散佈於低頻編碼區域R0的高頻頻帶中,且可能不限於BWE區域R1的特定頻帶。
圖3為根據本發明的例示性實施例的音訊編碼裝置的方塊圖。
圖3所示的音訊編碼裝置可包含瞬態(transient)偵測單元310、變換單元320、能量提取單元330、能量編碼單元340、調性(tonality)計算單元350、編碼頻帶選擇單元360、頻譜編碼單元370、BWE參數編碼單元380以及多工單元390。此類組件可整合於至少一個模組中且由至少一個處理器(未繪示)實施。在圖3中,輸入信號可表示音樂、語音或音樂與語音的混合信號,且可主要劃分為語音信號以及另一通用信號。下文中,為便於描述,輸入信號被稱為音訊信號。
請參照圖3,瞬態偵測單元310可偵測瞬態信號或起音信號(attack signal)是否存在於時域中的音訊信號中。為此,可應用各種熟知的方法,例如,可使用時域中的音訊信號中的能量改變。若自當前訊框偵測到瞬態信號或起音信號,則當前訊框可定義為瞬態訊框,且若並未自當前訊框偵測到瞬態信號或起音信號,則當前訊框可定義為非瞬態訊框,例如,固定訊框。
變換單元320可基於由瞬態偵測單元310進行的偵測的結果而將時域中的音訊信號變換為頻域中的頻譜。MDCT可作為變換方案的實例而應用,但例示性實施例不限於此。此外,針對瞬態訊框以及固定訊框的變換處理程序以及交錯處理程序可按照與G.719中相同的方式執行,但例示性實施例不限於此。
能量提取單元330可提取由變換單元320提供的頻域中的頻譜的能量。頻域中的頻譜可以頻帶為單位而形成,且頻帶的長度可為均勻或非均勻的。能量可表示每一頻帶的平均能量、平均功率、包絡(envelope)或範數(norm)。針對每一頻帶而提取的能量可提供至能量編碼單元340以及頻譜編碼單元370。
能量編碼單元340可對由能量提取單元330提供的每一頻帶的能量進行量化及無損編碼。可使用各種方案來執行能量量化,諸如,均勻純量量化器、非均勻純量量化器、向量量化器及其類似者。可使用各種方案來執行能量無損編碼,諸如,算術編碼、霍夫曼編碼(Huffman coding)及其類似者。
調性計算單元350可針對由變換單元320提供的頻域中的頻譜計算調性。藉由計算每一頻帶的調性,可判定當前頻帶具有類音調(tone-like)特性抑或類雜訊(noise-like)特性。可基於頻譜平坦性量測(spectral flatness measurement,SFM)而計算調性,或可藉由如方程式1中的峰值對平均振幅的比率來定義調性。(1)
在方程式1中,T(b)表示頻帶b的調性,N表示頻帶b的長度,且S(k)表示頻帶b中的頻譜係數。可藉由改變為dB值而使用T(b)。
可藉由先前訊框中的對應頻帶的調性以及當前訊框中的對應頻帶的調性的加權總和來計算調性。在此狀況下,頻帶b的調性T(b)可由方程式2定義。(2)
在方程式2中,T(b,n)表示訊框n中的頻帶b的調性,且a0表示權重且可經由實驗或模擬預先設定為最佳值。
可針對構成高頻信號的頻帶(例如,圖1中的區域R1中的頻帶)而計算調性。然而,根據情況,亦可針對構成低頻信號的頻帶(例如,圖1中的區域R0中的頻帶)而計算調性。當頻帶中的頻譜長度過長時,由於在調性的計算中可能出現誤差,因此可藉由將頻帶分段而計算調性,且可將所計算的調性的平均值或最大值設定為表示頻帶的調性。
編碼頻帶選擇單元360可基於每一頻帶的調性而選擇編碼頻帶。根據例示性實施例,可針對圖1中的BWE區域R1而判定R2及R3。此外,可藉由考慮容許位元而判定圖1中的低頻編碼區域R0中的R4及R5。
詳細而言,現將描述在低頻編碼區域R0中選擇編碼頻帶的處理程序。
可藉由在頻域編碼方案中將位元分配至R5而對R5進行編碼。根據例示性實施例,針對在頻域編碼方案中編碼,可應用FPC方案,其中基於根據關於每一頻帶的位元分配資訊而分配的位元而對脈衝進行編碼。能量可用於位元分配資訊,且大量的位元可經設計以分配給具有高能量的頻帶,而小量的位元分配給具有低能量的頻帶。容許位元可根據目標位元速率而受限制,且由於位元是在受限制的條件下分配,因此當目標位元速率低時,在R4與R5之間的頻帶區別可較有意義。然而,對於瞬態訊框來說,位元可在除針對固定訊框的方法以外的方法中分配。根據本例示性實施例,對於瞬態訊框來說,位元可設定為不會強制地分配給高頻信號的頻帶。亦即,藉由不將位元分配給在瞬態訊框中的特定頻率之後的頻帶以良好地表達低頻信號,聲音品質可按照低的目標位元速率改良。無位元可分配給在固定訊框中的特定頻率之後的頻帶。此外,位元可分配給固定訊框中的高頻信號的頻帶中具有超過預定臨限值的能量的頻帶。位元分配是基於能量及頻率資訊而執行,且由於同一方案應用於編碼單元以及解碼單元中,因此額外資訊無需包含於位元串流中。根據本例示性實施例,可藉由使用被量化且接著被反量化的能量來執行位元分配。
圖4為說明根據本發明的例示性實施例的在BWE區域R1中判定R2及R3的方法的流程圖。在參照圖4所述的方法中,R2表示含有在頻域編碼方案中編碼的信號的頻帶,且R3表示不含有在頻域編碼方案中編碼的信號的頻帶。當在BWE區域R1中選擇對應於R2的所有頻帶時,殘餘頻帶對應於R3。由於R2表示具有類音調特性的頻帶,因此R2具有較大值的調性。相比而言,除調性以外,R2具有較小值的雜訊度(noiseness)。
請參照圖4,在操作410中針對每一頻帶b而計算調性T(b),且在操作420中比較所計算的調性T(b)與預定臨限值Tth0。
在操作430中,將作為操作420中的比較的結果的所計算的調性T(b)大於預定臨限值Tth0的頻帶b分配為R2,且將f_flag(b)設定為1。
在操作440中,將作為操作420中的比較的結果的所計算的調性T(b)不大於預定臨限值Tth0的頻帶b分配為R3,且將f_flag(b)設定為0。
針對BWE區域R1中所含有的每一頻帶b而設定的f_flag(b)可定義為編碼頻帶選擇資訊且包含於位元串流中。編碼頻帶選擇資訊可能不包含於位元串流中。
請返回參照圖3,針對低頻信號的頻帶以及f_flag(b)基於由編碼頻帶選擇單元360產生的編碼頻帶選擇資訊而設定為1的頻帶R2,頻譜編碼單元370可對頻譜係數執行頻域編碼。頻域編碼可包含量化及無損編碼,且根據本例示性實施例,FPC方案可加以使用。FPC方案將經編碼的頻譜係數的位置、量值以及正負號資訊表示為脈衝。
頻譜編碼單元370可基於由能量提取單元330提供的針對每一頻帶的能量而產生位元分配資訊,基於分配給每一頻帶的位元針對FPC計算脈衝的數目,且對脈衝的數目進行編碼。此時,當低頻信號的一些頻帶未被編碼或因缺乏位元而以過小量的位元編碼時,可存在於解碼端處需要添加雜訊的頻帶。低頻信號的此類頻帶可定義為R4。針對以足夠量的位元執行編碼的頻帶,無需在解碼端處添加雜訊,且低頻信號的此類頻帶可定義為R5。由於編碼端處針對低頻信號在R4與R5之間的區別為無意義的,因此無需產生單獨的編碼頻帶選擇資訊。可僅基於所有位元中的分配給每一頻帶的位元而計算脈衝的數目,且可對脈衝的數目進行編碼。
BWE參數編碼單元380可藉由包含資訊lf_att_flag而產生高頻頻寬延伸所需的BWE參數,所述資訊lf_att_flag表示低頻信號的頻帶當中的頻帶R4為需要被添加雜訊的頻帶。可藉由適當地對低頻信號以及隨機雜訊進行加權而在解碼端處產生高頻頻寬延伸所需的BWE參數。根據另一例示性實施例,可藉由適當地對藉由對低頻信號進行白化(whitening)而獲得的信號以及隨機雜訊進行加權而產生高頻頻寬延伸所需的BWE參數。
BWE參數可包含:資訊all_noise,表示應較多地添加隨機雜訊以用於當前訊框的整個高頻信號的產生;以及資訊all_lf,表示應較多地強調低頻信號。資訊lf_att_flag、資訊all_noise以及資訊all_lf可針對每一訊框而傳輸一次,且一個位元可分配給資訊lf_att_flag、資訊all_noise以及資訊all_lf中的每一者且加以傳輸。根據情況,資訊lf_att_flag、資訊all_noise以及資訊all_lf可針對每一頻帶而進行分離及傳輸。
圖5為說明根據本發明的例示性實施例的判定BWE參數的方法的流程圖。在圖5中,在圖2的說明中含有第241至第290個頻譜係數的頻帶以及含有第521至第639個頻譜係數的頻帶(亦即,BWE區域R1中的第一頻帶以及最後頻帶)可分別定義為Pb以及Eb。
請參照圖5,在操作510中計算BWE區域R1中的平均調性Ta0,且在操作520中比較平均調性Ta0與臨限值Tth1。
在操作525中,若作為操作520中的比較的結果,平均調性Ta0小於臨限值Tth1,則將all_noise設定為1,且將all_lf與lf_att_flag兩者設定為0且不加以傳輸。
在操作530中,若作為操作520中的比較的結果,平均調性Ta0大於或等於臨限值Tth1,則將all_noise設定為0,且如下文所述設定all_lf與lf_att_flag且加以傳輸。
在操作540中,比較平均調性Ta0與臨限值Tth2。臨限值Tth2較佳小於臨限值Tth1。
在操作545中,若作為操作540中的比較的結果,平均調性Ta0大於臨限值Tth2,則將all_lf設定為1,且將lf_att_flag設定為0且不加以傳輸。
在操作550中,若作為操作540中的比較的結果,平均調性Ta0小於或等於臨限值Tth2,則將all_lf設定為0,且如下文所述設定lf_att_flag且加以傳輸。
在操作560中,計算在Pb之前的頻帶的平均調性Ta1。根據本例示性實施例,可考慮一個或五個先前頻帶。
在操作570中,比較平均調性Ta1與臨限值Tth3而不管先前訊框,或在考慮先前訊框的lf_aff_flag(亦即,p_lf_att_flag)時比較平均調性Ta1與臨限值Tth4。
在操作580中,若作為操作570中的比較的結果,平均調性Ta1大於臨限值Tth3,則將lf_att_flag設定為1。在操作590中,若作為操作570中的比較的結果,平均調性Ta1小於或等於臨限值Tth3,則將lf_att_flag設定為0。
當p_lf_att_flag設定為1時,在操作580中,若平均調性Ta1大於臨限值Tth4,則將lf_att_flag設定為1。此時,若先前訊框為瞬態訊框,則p_lf_att_flag設定為0。當p_lf_att_flag設定為1時,在操作590中,若平均調性Ta1小於或等於臨限值Tth4,則將lf_att_flag設定為0。臨限值Tth3最好大於臨限值Tth4。
當flag(b)設定為1的至少一個頻帶存在於高頻信號的頻帶中時,all_noise設定為0,此是因為flag(b)設定為1表示具有類音調特性的頻帶存在於高頻信號中,且因此all_noise不可設定為1。在此狀況下,將all_noise作為0傳輸,且藉由執行操作540至590而產生關於all_lf以及lf_att_flag的資訊。
下文的表1展示藉由圖5的方法而產生的BWE參數的傳輸關係。在表1中,每一數目表示傳輸對應BWE參數所需的位元的數目,且X表示對應BWE參數未被傳輸。BWE參數(亦即,all_noise、all_lf以及lf_att_flag)可具有與f_flag(b)的相關性,f_flag(b)為由編碼頻帶選擇單元360產生的編碼頻帶選擇資訊。舉例而言,當all_noise設定為1時,如表1所示,f_flag、all_lf以及lf_att_flag無需被傳輸。當all_noise設定為0時,f_flag(b)應被傳輸,且對應於BWE區域R1中的頻帶的數目的資訊應被傳輸。
當all_lf設定為0時,lf_att_flag設定為0且不被傳輸。當all_lf設定為1時,lf_att_flag需要被傳輸。傳輸可取決於上文所述的相關性,且在無用於編解碼器結構的簡化的相依相關性的情況下,傳輸亦可為可能的。結果,藉由使用由排除待用於BWE參數的位元而剩餘的殘餘位元以及從所有容許位元傳輸的編碼頻帶選擇資訊,頻譜編碼單元370針對每一頻帶而執行位元分配及編碼。 表1
返回參照圖3,多工單元390可產生包含由能量編碼單元340提供的針對每一頻帶的能量、由編碼頻帶選擇單元360提供的BWE區域R1的編碼頻帶選擇資訊、由頻譜編碼單元370提供的低頻編碼區域R0以及BWE區域R1中的頻帶R2的頻域編碼結果以及由BWE參數編碼單元380提供的BWE參數的位元串流,且可將位元串流儲存於預定儲存媒體中或將位元串流傳輸至解碼端。
圖6為根據本發明的另一例示性實施例的音訊編碼裝置的方塊圖。
圖6所示的音訊編碼裝置可包含瞬態偵測單元610、變換單元620、能量提取單元630、能量編碼單元640、頻譜編碼單元650、調性計算單元660、BWE參數編碼單元670以及多工單元680。此類組件可整合於至少一個模組中且由至少一個處理器(未繪示)實施。在圖6中,與圖3的音訊編碼裝置中相同的組件的不再重複描述。
請參照圖6,調性計算單元660可以訊框為單位而計算BWE區域R1的調性。
BWE參數編碼單元670可藉由使用由調性計算單元660提供的BWE區域R1的調性而產生及編碼BWE激勵類型資訊。可針對每一訊框而傳輸BWE激勵類型資訊。舉例而言,當BWE激勵類型資訊是以兩個位元形成時,BWE激勵類型資訊可具有值0、1、2或3。BWE激勵類型資訊可經分配以使得隨著BWE激勵類型資訊接近0,待添加至隨機雜訊的權重增大,且隨著BWE激勵類型資訊接近3,待添加至隨機雜訊的權重減小。根據本例示性實施例,隨著調性增大,BWE激勵類型資訊可設定為接近3的值,且隨著調性減小,BWE激勵類型資訊可設定為接近0的值。
圖7為根據本發明的例示性實施例的BWE參數編碼單元的方塊圖。圖7所示的BWE參數編碼單元可包含信號分類單元710以及激勵類型判定單元730。
頻域中的BWE方案可藉由與時域編碼部分組合來應用。碼激勵線性預測(code excited linear prediction,CELP)方案可主要用於時域編碼,且BWE參數編碼單元可經實施以便在CELP方案中對低頻頻帶進行編碼,且與除頻域中的BWE方案以外的時域中的BWE方案組合。在此狀況下,編碼方案可基於在時域編碼與頻域編碼之間的適應性編碼方案判定而選擇性地應用於整體編碼。為選擇適當的編碼方案,需要信號分類,且根據本例示性實施例,可藉由另外使用信號分類的結果而將權重分配給每一頻帶。
請參照圖7,信號分類單元710可藉由以訊框為單位來分析輸入信號的特性而分類當前訊框是否為語音信號。可使用各種熟知的方法來處理信號分類,例如,短期特性及/或長期特性。在當前訊框主要分類為時域編碼為適當編碼方案的語音信號時,添加固定型權重的方法與基於高頻信號的特性的方法相比較有助於聲音品質的改良。待在下文描述的在圖14及圖15中通常用於切換結構的音訊編碼裝置的信號分類單元1410及1510可藉由組合多個先前訊框的結果與當前訊框的結果而對當前訊框的信號進行分類。因此,藉由僅使用當前訊框的信號分類結果作為中間結果,雖然最終應用頻域編碼,但當輸出時域編碼為針對當前訊框的適當編碼方案時,可設定固定權重以執行編碼。舉例而言,如上所述,在當前訊框分類為時域編碼適用的語音信號時,BWE激勵類型可設定為,例如是2。
當作為信號分類單元710的分類的結果,當前訊框並未分類為語音信號時,可使用多個臨限值來判定BWE激勵類型。
激勵類型判定單元730可藉由以三個所設定的臨限值來對四個平均調性區域進行分段而產生並未分類為語音信號的當前訊框的四個BWE激勵類型。例示性實施例不限於四個BWE激勵類型,且三個或兩個BWE激勵類型可根據情況來使用,其中待使用的臨限值的數目及值亦可對應於BWE激勵類型的數目而調整。可對應於BWE激勵類型資訊而分配針對每一訊框的權重。根據另一例示性實施例,當可針對每一訊框而將較多位元分配給權重時,可提取及傳輸每頻帶權重資訊。
圖8為根據本發明的例示性實施例的音訊解碼裝置的方塊圖。
圖8所示的音訊解碼裝置可包含解多工單元810、能量解碼單元820、BWE參數解碼單元830、頻譜解碼單元840、第一逆正規化單元850、雜訊添加單元860、激勵信號產生單元870、第二逆正規化單元880以及逆變換單元890。此類組件可整合於至少一個模組中且由至少一個處理器(未繪示)實施。
請參照圖8,解多工單元810可藉由剖析(parsing)位元串流而提取針對每一頻帶的經編碼的能量、低頻編碼區域R0以及BWE區域R1中的頻帶R2的頻域編碼結果,以及BWE參數。此時,根據在編碼頻帶選擇資訊與BWE參數之間的相關性,編碼頻帶選擇資訊可由解多工單元810或BWE參數解碼單元830剖析。
能量解碼單元820可藉由對由解多工單元810提供的針對每一頻帶的經編碼的能量進行解碼而針對每一頻帶產生經反量化的能量。針對每一頻帶的經反量化的能量可提供至第一逆正規化單元850以及第二逆正規化單元880。此外,類似於編碼端,針對每一頻帶的經反量化的能量可提供至頻譜解碼單元840以用於位元分配。
BWE參數解碼單元830可對由解多工單元810提供的BWE參數進行解碼。此時,當作為編碼頻帶選擇資訊的f_flag(b)具有與BWE參數(例如,all_noise)的相關性時,BWE參數解碼單元830可將編碼頻帶選擇資訊與BWE參數一起解碼。根據本例示性實施例,當資訊all_noise、資訊f_flag、資訊all_lf以及資訊lf_att_flag具有如表1所示的相關性時,可依序執行解碼。可按照另一方式改變相關性,且在改變的狀況下,可在適用於改變的狀況的方案中依序執行解碼。作為表1的實例,首先剖析all_noise以檢查all_noise為1抑或0。若all_noise為1,則資訊f_flag、資訊all_lf以及資訊lf_att_flag設定為0。若all_noise為0,則剖析資訊f_flag與BWE區域R1中的頻帶的數目一樣多的次數,且接著剖析資訊all_lf。若all_lf為0,則lf_att_flag設定為0,且若all_lf為1,則剖析lf_att_flag。
當作為編碼頻帶選擇資訊的f_flag(b)不具有與BWE參數的相關性時,編碼頻帶選擇資訊可由解多工單元810剖析為位元串流,且與低頻編碼區域R0以及BWE區域R1中的頻帶R2的頻域編碼結果一起提供至頻譜解碼單元840。
對應於編碼頻帶選擇資訊,頻譜解碼單元840可對低頻編碼區域R0的頻域編碼結果進行解碼且可對BWE區域R1中的頻帶R2的頻域編碼結果進行解碼。為此,頻譜解碼單元840可使用由能量解碼單元820提供的針對每一頻帶的經反量化的能量,且藉由使用殘餘位元而將位元分配給每一頻帶,此類殘餘位元是藉由自所有容許位元排除用於經剖析的BWE參數以及編碼頻帶選擇資訊的位元而剩餘。針對頻譜解碼,可執行無損解碼及反量化,且根據例示性實施例,可使用FPC。亦即,可藉由使用與用於編碼端處的頻譜編碼相同的方案來執行頻譜解碼。
由於f_flag(b)設定為1而被分配位元的且因此被分配實際脈衝的BWE區域R1中的頻帶分類為頻帶R2,且由於f_flag(b)設定為0而未被分配位元的BWE區域R1中的頻帶分類為頻帶R3。然而,頻帶可存在於BWE區域R1中,以使得在FPC方案中編碼的脈衝的數目為0,此是因為即使由於f_flag(b)設定為1而應針對所述頻帶執行頻譜解碼,位元仍不可分配給所述頻帶。即使頻帶為經設定以執行頻域編碼的頻帶R2仍不可執行編碼的此頻帶可分類為頻帶R3而非頻帶R2,且以與f_flag(b)設定為0的狀況相同的方式處理。
第一逆正規化單元850可藉由使用由能量解碼單元820提供的針對每一頻帶的經反量化的能量而對由頻譜解碼單元840提供的頻域編碼結果進行逆正規化。逆正規化可對應於匹配經解碼的頻譜能量與針對每一頻帶的能量的處理程序。根據本例示性實施例,可針對低頻編碼區域R0以及BWE區域R1中的頻帶R2而執行逆正規化。
雜訊添加單元860可檢查低頻編碼區域R0中的經解碼的頻譜的每一頻帶,且將頻帶分為頻帶R4及R5中的一者。此時,雜訊可能不添加至分為R5的頻帶,且雜訊可添加至分為R4的頻帶。根據本例示性實施例,可基於存在於頻帶中的脈衝的密度來判定待在添加雜訊時使用的雜訊位準。亦即,可基於經編碼的脈衝能量來判定雜訊位準,且可使用雜訊位準來產生隨機能量。根據另一例示性實施例,可自編碼端傳輸雜訊位準。可基於資訊lf_att_flag來調整雜訊位準。根據例示性實施例,若如下文所述滿足預定條件,則可按照Att_factor更新雜訊位準Nl。 if (all_noise==0 && all_lf==1 && lf_att_flag==1)        {          ni_gain = ni_coef * Nl * Att_factor;        }          else        {          ni_gain = ni_coef * Ni;        }
其中ni_gain表示待應用於最終雜訊的增益,ni_coef表示隨機種子,且Att_factor表示調整常數。
對應於關於BWE區域R1中的每一頻帶的編碼頻帶選擇資訊,激勵信號產生單元870可藉由使用由雜訊添加單元860提供的經解碼的低頻頻譜而產生高頻激勵信號。
第二逆正規化單元880可藉由使用由能量解碼單元820提供的針對每一頻帶的經反量化的能量而對由激勵信號產生單元870提供的高頻激勵信號進行逆正規化,以產生高頻頻譜。逆正規化可對應於匹配BWE區域R1中的能量與針對每一頻帶的能量的處理程序。
逆變換單元890可藉由逆變換由第二逆正規化單元880提供的高頻頻譜而在時域中產生經解碼的信號。
圖9為根據本發明的例示性實施例的激勵信號產生單元的方塊圖,其中激勵信號產生單元可針對BWE區域R1中的頻帶R3(亦即,未被分配位元的頻帶)而產生激勵信號。
圖9所示的激勵信號產生單元可包含權重分配單元910、雜訊信號產生單元930以及計算單元950。此類組件可整合於至少一個模組中且由至少一個處理器(未繪示)實施。
請參照圖9,權重分配單元910可針對每一頻帶而分配權重。權重表示高頻(high frequency,HF)雜訊信號(其基於經解碼的低頻信號以及隨機雜訊而產生)對隨機雜訊的混合比率。詳細而言,HF激勵信號He(f,k)可由方程式3表示。 He(f,k) = (1-Ws(f,k)) * Hn(f,k) + Ws(f,k) * Rn(f,k)                    (3)
在方程式3中,Ws(f,k)表示權重,f表示頻率索引,k表示頻帶索引,Hn表示HF雜訊信號,且Rn表示隨機雜訊。
儘管權重Ws(f,k)在一個頻帶中具有相同的值,但權重Ws(f,k)可經處理以根據頻帶邊界處的鄰近頻帶的權重而平滑化。
權重分配單元910可藉由使用BWE參數以及編碼頻帶選擇資訊(例如,資訊all_noise、資訊all_lf、資訊lf_att_flag以及資訊f_flag)針對每一頻帶而分配權重。詳細而言,當all_noise=1時,權重按照Ws(k) = w0而分配(針對所有k)。當all_noise=0時,權重針對頻帶R2按照Ws(k) = w4而分配。此外,針對頻帶R3,當all_noise=0、all_lf=1且lf_att_flag=1時,權重按照Ws(k) = w3而分配,當all_noise=0、all_lf=1以及lf_att_flag=0時,權重按照Ws(k) = w2而分配,且在其他狀況下,權重按照Ws(k) = w1而分配。根據例示性實施例,可分配w0=1、w1=0.65、w2=0.55、w3=0.4、w4=0。權重可較佳設定為自w0逐漸減小至w4。
權重分配單元910可藉由考慮鄰近頻帶的權重Ws(k-1)以及Ws(k+1)而針對每一頻帶使所分配的權重Ws(k)平滑化。由於平滑化,頻帶k的權重Ws(f,k)可根據頻率f而具有不同值。
圖12為用於描述使頻帶邊界處的權重平滑化的曲線圖。請參照圖12,由於第(K+2)個頻帶的權重以及第(K+1)個頻帶的權重彼此不同,因此平滑化在頻帶邊界處為必要的。在圖12的實例中,並不針對第(K+1)個頻帶而執行平滑化且僅針對第(K+2)個頻帶而執行平滑化,此是因為第(K+1)個頻帶的權重Ws(K+1)為0,且當針對第(K+1)個頻帶而執行平滑化時,第(K+1)個頻帶的權重Ws(K+1)並非零,且在此狀況下,亦應考慮第(K+1)個頻帶中的隨機雜訊。亦即,權重0表示:在產生HF激勵信號時,並不在對應頻帶中考慮隨機雜訊。權重0對應於極端音調信號,且隨機雜訊並未被考慮以防止雜訊聲音藉由因隨機雜訊而插入至諧波信號的波谷持續時間中的雜訊產生。
由權重分配單元910判定的權重Ws(f,k)可提供至計算單元950,且可應用於HF雜訊信號Hn以及隨機雜訊Rn。
雜訊信號產生單元930可產生HF雜訊信號,且可包含白化單元931以及HF雜訊產生單元933。
白化單元931可執行經反量化的低頻頻譜的白化。各種熟知的方法可應用於白化。舉例而言,方法如下:將經反量化的低頻頻譜分段為多個均勻區塊,針對每一區塊而獲得頻譜係數的絕對值的平均值,以及將每一區塊中的頻譜係數除以平均值。
HF雜訊產生單元933可藉由以下操作而產生HF雜訊信號:將由白化單元931提供的低頻頻譜複製至高頻頻帶(亦即,BWE區域R1),以及將位準與隨機雜訊匹配。至高頻頻帶的複製處理程序可藉由在編碼端以及解碼端的預先設定規則下修補、折疊或複製來執行,且可根據位元速率可變地應用。位準匹配表示將隨機雜訊的平均值與藉由針對BWE區域R1中的所有頻帶將經白化處理的信號複製至高頻頻帶中而獲得的信號的平均值匹配。根據本例示性實施例,藉由將經白化處理的信號複製至高頻頻帶所獲得的信號的平均值可設定為稍大於隨機雜訊的平均值,此是因為可考慮到隨機雜訊由於隨機雜訊為隨機信號而具有平坦特性,且由於低頻(low frequency,LF)信號可具有相對寬的動態範圍,因此雖然量值的平均值得以匹配,但可產生小的能量。
計算單元950可藉由將權重應用於隨機雜訊以及HF雜訊信號而針對每一頻帶產生HF激勵信號。計算單元950可包含第一乘法器951及第二乘法器953,以及加法器955。可在各種熟知的方法(例如,使用隨機種子)中產生隨機雜訊。
第一乘法器951將隨機雜訊乘以第一權重Ws(k),第二乘法器953將HF雜訊信號乘以第二權重1-Ws(k),且加法器955將第一乘法器951的乘法結果與第二乘法器953的乘法結果相加以針對每一頻帶而產生HF激勵信號。
圖10為根據本發明的另一例示性實施例的激勵信號產生單元的方塊圖,其中激勵信號產生單元可針對BWE區域R1中的頻帶R2(亦即,被分配位元的頻帶)而產生激勵信號。
圖10所示的激勵信號產生單元可包含調整參數計算單元1010、雜訊信號產生單元1030、位準調整單元1050以及計算單元1060。此類組件可整合於至少一個模組中且由至少一個處理器(未繪示)實施。
請參照圖10,由於頻帶R2具有藉由FPC而編碼的脈衝,因此位準調整可使用權重而進一步添加至HF激勵信號而產生。隨機雜訊並未添加至已執行頻域編碼的頻帶R2。圖10說明權重Ws(k)為0的狀況,且當權重Ws(k)並非零時,HF雜訊信號按照與圖9的雜訊信號產生單元930中相同的方式產生,且所產生的HF雜訊信號作為圖10的雜訊信號產生單元1030的輸出映射。亦即,圖10的雜訊信號產生單元1030的輸出與圖9的雜訊信號產生單元930的輸出相同。
調整參數計算單元1010計算待用於位準調整的參數。當用於頻帶R2的經反量化的FPC信號定義為C(k)時,絕對值的最大值選自C(k),所選擇的值定義為Ap,且作為FPC的結果的非零值的位置定義為CPs。信號N(k)的能量(雜訊信號產生單元1030的輸出)是在除CPs以外的位置處獲得且定義為En。調整參數γ可基於En、Ap以及用以在編碼中設定f_flag(b)的Tth0使用方程式4而獲得。(4)
在方程式4中,att_factor表示調整常數。
計算單元1060可藉由將調整參數γ乘以由雜訊信號產生單元1030提供的雜訊信號N(k)而產生HF激勵信號。
圖11為根據本發明的另一例示性實施例的激勵信號產生單元的方塊圖,其中激勵信號產生單元可針對BWE區域R1中的所有頻帶而產生激勵信號。
圖11所示的激勵信號產生單元可包含權重分配單元1110、雜訊信號產生單元1130以及計算單元1150。此類組件可整合於至少一個模組中且由至少一個處理器(未繪示)實施。由於雜訊信號產生單元1130以及計算單元1150與圖9的雜訊信號產生單元930以及計算單元950相同,因此不會重複其描述。
請參照圖11,權重分配單元1110可針對每一訊框而分配權重。權重表示HF雜訊信號(其基於經解碼的LF信號以及隨機雜訊而產生)對隨機雜訊的混合比率。
權重分配單元1110接收自位元串流剖析的BWE激勵類型資訊。權重分配單元1110在BWE激勵類型為0時設定Ws(k)=w00(針對所有k),在BWE激勵類型為1時設定Ws(k)=w01(針對所有k),在BWE激勵類型為2時設定Ws(k)=w02(針對所有k),且在BWE激勵類型為3時設定Ws(k)=w03(針對所有k)。根據本發明的實施例,可分配w00=0.8、w01=0.5、w02=0.25以及w03=0.05。權重可設定為自w00逐漸減小至w03。同樣地,可針對所分配的權重執行平滑化。
預先設定的相同權重可應用於在BWE區域R1中的特定頻率之後的頻帶,而不管BWE激勵類型資訊。根據本例示性實施例,可始終將同一權重用於包含在BWE區域R1中的特定頻率之後的最後頻帶的多個頻帶,且可基於BWE激勵類型資訊針對在特定頻率之前的頻帶而產生權重。舉例而言,針對12千赫或12千赫以上的頻率所屬的頻帶,可將w02分配給Ws(k)的所有值。結果,由於獲得調性的平均值以判定編碼端處的BWE激勵類型的頻帶的區域甚至在BWE區域R1中仍可限於特定頻率或特定頻率以下,因此可降低計算的複雜性。此外,由於以訊框為單位僅傳輸一段激勵類別資訊,因此在用於估計激勵類別資訊的區域窄時,準確性可提高多達窄的區域,藉此改良經復原的聲音品質。針對BWE區域R1中的高頻頻帶,即使應用同一激勵類別,聲音品質降級的可能性仍然小。此外,當針對每一頻帶而傳輸BWE激勵類型資訊時,可減少待用以表示BWE激勵類型資訊的位元。
當將除低頻的能量傳輸方案以外的方案(例如,向量量化(vector quantization,VQ)方案)應用於高頻的能量時,可在純量量化之後使用無損編碼來傳輸低頻的能量,且可在另一方案中在量化之後傳輸高頻的能量。在此狀況下,低頻編碼區域R0中的最後頻帶以及BWE區域R1中的第一頻帶可彼此重疊。此外,可在另一方案中組態BWE區域R1中的頻帶,以具有相對密集的頻帶分配結構。
舉例而言,可組態為低頻編碼區域R0中的最後頻帶結束於8.2千赫,且BWE區域R1中的第一頻帶開始於8千赫。在此狀況下,重疊區域存在於低頻編碼區域R0與BWE區域R1之間。結果,可在重疊區域中產生兩個經解碼的頻譜。一者為藉由針對低頻應用解碼方案而產生的頻譜,且另一者為藉由針對高頻應用解碼方案而產生的頻譜。重疊及相加方案可經應用以使得在兩個頻譜(亦即,低頻的經解碼的頻譜與高頻的經解碼的頻譜)之間的過渡較平滑化。亦即,可藉由同時使用兩個頻譜而重組態重疊區域,其中在低頻方案中產生的頻譜的貢獻針對重疊區域中接近低頻的頻譜而增大,且在高頻方案中產生的頻譜的貢獻針對重疊區域中接近高頻的頻譜而增大。
舉例而言,當低頻編碼區域R0中的最後頻帶結束於8.2千赫且BWE區域R1中的第一頻帶開始於8千赫時,若在取樣率32千赫下建構640個經取樣的頻譜,則八個頻譜(亦即,第320至第327個頻譜)重疊,且此八個頻譜可使用方程式5而產生。              i.(5)
其中L0≤k≤L1。在方程式5中,表示在低頻方案中解碼的頻譜,表示在高頻方案中解碼的頻譜,L0表示高頻的開始頻譜的位置,L0~L1表示重疊區域,且表示貢獻。
圖13為用於描述根據本發明的例示性實施例的待用以在解碼端處的BWE處理之後產生存在於重疊區域中的頻譜的貢獻的曲線圖。
請參照圖13,以及可選擇性地應用於,其中表示相同權重應用於LF及HF解碼方案,且表示較大的權重應用於HF解碼方案。針對的選擇準則為是否已在低頻的重疊頻帶中選擇使用FPC的脈衝。當已對低頻的重疊頻帶中的脈衝進行選擇且編碼時,用以使低頻下所產生的頻譜的貢獻有效而高達L1附近,且高頻的貢獻減小。基本上,在實際編碼方案中產生的頻譜與藉由BWE而產生的信號的頻譜相比可具有對原始信號的較高接近性。藉此,在重疊頻帶中,可應用用於提高較接近原始信號的頻譜的貢獻的方案,也因此,可預期聲音品質的平滑化效應及改良。
圖14為根據本發明的例示性實施例的切換結構的音訊編碼裝置的方塊圖。
圖14所示的音訊編碼裝置可包含信號分類單元1410、時域(time domain,TD)編碼單元1420、TD延伸編碼單元1430、頻域(frequency domain,FD)編碼單元1440以及FD延伸編碼單元1450。
信號分類單元1410可藉由參考輸入信號的特性而判定輸入信號的編碼模式。信號分類單元1410可藉由考慮輸入信號的TD特性以及FD特性而判定輸入信號的編碼模式。此外,信號分類單元1410可判定在輸入信號的特性對應於語音信號時執行輸入信號的TD編碼,且在輸入信號的特性對應於除語音信號以外的音訊信號時執行輸入信號的FD編碼。
輸入至信號分類單元1410的輸入信號可為由降頻取樣單元(未繪示)降頻取樣的信號。根據例示性實施例,輸入信號可為具有取樣率12.8千赫或16千赫的信號,所述信號是藉由對具有取樣率32千赫或48千赫的信號再取樣而獲得。在此狀況下,具有取樣率32千赫的信號可為超寬頻(super wideband,SWB)信號,所述超寬頻(SWB)信號可為全頻帶(full band,FB)信號。此外,具有取樣率16千赫的信號可為寬頻(wideband,WB)信號。
因此,信號分類單元1410可藉由參考存在於輸入信號的LF區域中的LF信號的特性而將所述LF信號的編碼模式判定為TD模式以及FD模式中的任一者。
當輸入信號的編碼模式被判定為TD模式時,TD編碼單元1420可對輸入信號執行CELP編碼。TD編碼單元1420可自輸入信號提取激勵信號,且藉由考慮對應於間距資訊的適應性碼簿貢獻以及固定碼簿貢獻而對所提取的激勵信號進行量化。
根據另一例示性實施例,TD編碼單元1420可更包含自輸入信號提取線性預測係數(linear prediction coefficient,LPC),對所提取的LPC進行量化,以及藉由使用經量化的LPC而提取激勵信號。
此外,TD編碼單元1420可根據輸入信號的特性而在各種編碼模式下執行CELP編碼。舉例而言,TD編碼單元1420可在有語音編碼模式、無語音編碼模式、過渡模式以及通用編碼模式中的任一者中對輸入信號執行CELP編碼。
當對輸入信號中的LF信號執行CELP編碼時,TD延伸編碼單元1430可對輸入信號中的HF信號執行延伸編碼。舉例而言,TD延伸編碼單元1430可對對應於輸入信號的HF區域的HF信號的LPC進行量化。此時,TD延伸編碼單元1430可提取輸入信號中的HF信號的LPC,且對所提取的LPC進行量化。根據本例示性實施例,TD延伸編碼單元1430可藉由使用輸入信號中的LF信號的激勵信號而產生輸入信號中的HF信號的LPC。
當輸入信號的編碼模式被判定為FD模式時,FD編碼單元1440可對輸入信號執行FD編碼。為此,FD編碼單元1440可藉由使用MDCT或其類似者而將輸入信號變換為頻域中的頻譜,且對經變換的頻譜進行量化及無損編碼。根據例示性實施例,FPC可應用於所述頻譜。
FD延伸編碼單元1450可對輸入信號中的HF信號執行延伸編碼。根據例示性實施例,FD延伸編碼單元1450可藉由使用LF頻譜而執行FD延伸。
圖15為根據本發明的另一例示性實施例的切換結構的音訊編碼裝置的方塊圖。
圖15所示的音訊編碼裝置可包含信號分類單元1510、LPC編碼單元1520、TD編碼單元1530、TD延伸編碼單元1540、音訊編碼單元1550以及FD延伸編碼單元1560。
請參照圖15,信號分類單元1510可藉由參考輸入信號的特性而判定輸入信號的編碼模式。信號分類單元1510可藉由考慮輸入信號的TD特性以及FD特性而判定輸入信號的編碼模式。信號分類單元1510可判定在輸入信號的特性對應於語音信號時執行輸入信號的TD編碼,且在輸入信號的特性對應於除語音信號以外的音訊信號時執行輸入信號的音訊編碼。
LPC編碼單元1520可自輸入信號提取LPC,且對所提取的LPC進行量化。根據例示性實施例,LPC編碼單元1520可藉由使用網格編碼量化(trellis coded quantization,TCQ)方案、多級向量量化(multi-stage vector quantization,MSVQ)方案、晶格向量量化(lattice vector quantization,LVQ)方案或其類似者而對LPC進行量化,但不限於此。
詳細而言,LPC編碼單元1520可藉由對具有取樣率32千赫或48千赫的輸入信號進行再取樣而自具有取樣率12.8千赫或16千赫的輸入信號中的LF信號提取LPC。LPC編碼單元1520可更包含藉由使用經量化的LPC而提取LPC激勵信號。
當輸入信號的編碼模式判定為TD模式時,TD編碼單元1530可對使用LPC而提取的LPC激勵信號執行CELP編碼。舉例而言,TD編碼單元1530可藉由考慮對應於間距資訊的適應性碼簿貢獻以及固定碼簿貢獻而對LPC激勵信號進行量化。LPC激勵信號可由LPC編碼單元1520以及TD編碼單元1530中的至少一者產生。
當對輸入信號中的LF信號的LPC激勵信號執行CELP編碼時,TD延伸編碼單元1540可對輸入信號中的HF信號執行延伸編碼。舉例而言,TD延伸編碼單元1540可對輸入信號中的HF信號的LPC進行量化。根據本發明的實施例,TD延伸編碼單元1540可藉由使用輸入信號中的LF信號的LPC激勵信號而提取輸入信號中的HF信號的LPC。
當輸入信號的編碼模式被判定為音訊模式時,音訊編碼單元1550可對使用LPC而提取的LPC激勵信號執行音訊編碼。舉例而言,音訊編碼單元1550可將使用LPC而提取的LPC激勵信號變換為頻域中的LPC激勵頻譜,且對經變換的LPC激勵頻譜進行量化。音訊編碼單元1550可在FPC方案或LVQ方案中對已在頻域中變換的LPC激勵頻譜進行量化。
此外,當在LPC激勵頻譜的量化中存在邊緣位元時,音訊編碼單元1550可藉由進一步考慮TD編碼資訊(諸如,適應性碼簿貢獻以及固定碼簿貢獻)而對LPC激勵頻譜進行量化。
當對輸入信號中的LF信號的LPC激勵信號執行音訊編碼時,FD延伸編碼單元1560可對輸入信號中的HF信號執行延伸編碼。亦即,FD延伸編碼單元1560可藉由使用LF頻譜而執行HF延伸編碼。
FD延伸編碼單元1450及1560可由圖3或圖6的音訊編碼裝置實施。
圖16為根據本發明的例示性實施例的切換結構的音訊解碼裝置的方塊圖。
請參照圖16,音訊解碼裝置可包含模式資訊檢查單元1610、TD解碼單元1620、TD延伸解碼單元1630、FD解碼單元1640以及FD延伸解碼單元1650。
模式資訊檢查單元1610可檢查包含於位元串流中的訊框中的每一者的模式資訊。模式資訊檢查單元1610可自位元串流剖析模式資訊,且自剖析結果根據當前訊框的編碼模式而切換至TD解碼模式以及FD解碼模式中的任一者。
詳細而言,針對包含於位元串流中的訊框中的每一者,模式資訊檢查單元1610可切換以對在TD模式下編碼的訊框執行CELP解碼且對在FD模式下編碼的訊框執行FD解碼。
TD解碼單元1620可根據檢查結果而對CELP編碼的訊框執行CELP解碼。舉例而言,TD解碼單元1620可藉由以下操作而產生作為低頻的解碼信號的LF信號:對包含於位元串流中的LPC進行解碼,對適應性碼簿貢獻以及固定碼簿貢獻進行解碼,以及合成解碼結果。
TD延伸解碼單元1630可藉由使用CELP解碼的結果以及LF信號的激勵信號中的至少一者而產生高頻的解碼信號。LF信號的激勵信號可包含於位元串流中。此外,TD延伸解碼單元1630可使用關於HF信號的LPC資訊(其包含於位元串流中),來產生作為高頻的解碼信號的HF信號。
根據例示性實施例,TD延伸解碼單元1630可藉由合成所產生的HF信號與由TD解碼單元1620產生的LF信號而產生經解碼的信號。此時,TD延伸解碼單元1630可更包含將LF信號以及HF信號的取樣率轉換為相同的,以產生經解碼的信號。
FD解碼單元1640可根據檢查結果對FD編碼的訊框執行FD解碼。根據例示性實施例,FD解碼單元1640可藉由參考包含於位元串流中的先前訊框的模式資訊而執行無損解碼以及反量化。此時,可應用FPC解碼,且可由於FPC解碼而將雜訊添加至預定頻帶。
FD延伸解碼單元1650可藉由使用FD解碼單元1640中的FPC解碼及/或雜訊填充的結果而執行HF延伸解碼。FD延伸解碼單元1650可藉由以下操作而產生經解碼的HF信號:針對LF頻帶而對經解碼的頻譜的能量進行反量化,藉由根據各種HF BWE模式中的任一者使用LF信號而產生HF信號的激勵信號,以及應用增益以使得所產生的激勵信號的能量與經反量化的能量對稱。舉例而言,HF BWE模式可為正常模式、諧波模式以及雜訊模式中的任一者。
圖17為根據本發明的另一例示性實施例的切換結構的音訊解碼裝置的方塊圖。
請參照圖17,音訊解碼裝置可包含模式資訊檢查單元1710、LPC解碼單元1720、TD解碼單元1730、TD延伸解碼單元1740、音訊解碼單元1750以及FD延伸解碼單元1760。
模式資訊檢查單元1710可檢查包含於位元串流中的訊框中的每一者的模式資訊。舉例而言,模式資訊檢查單元1710可自經編碼的位元串流剖析模式資訊,且自剖析結果根據當前訊框的編碼模式而切換至TD解碼模式以及音訊解碼模式中的任一者。
詳細而言,針對包含於位元串流中的訊框中的每一者,模式資訊檢查單元1710可切換以對在TD模式下編碼的訊框執行CELP解碼且對在音訊模式下編碼的訊框執行音訊解碼。
LPC解碼單元1720可對包含於位元串流中的訊框進行LPC解碼。
TD解碼單元1730可根據檢查結果而對CELP編碼的訊框執行CELP解碼。舉例而言,TD解碼單元1730可藉由以下操作而產生作為低頻的解碼信號的LF信號:對適應性碼簿貢獻以及固定碼簿貢獻進行解碼,以及合成解碼結果。
TD延伸解碼單元1740可藉由使用CELP解碼的結果以及LF信號的激勵信號中的至少一者而產生高頻的解碼信號。LF信號的激勵信號可包含於位元串流中。此外,TD延伸解碼單元1740可使用由LPC解碼單元1720解碼的LPC資訊,來產生作為高頻的解碼信號的HF信號。
根據本例示性實施例,TD延伸解碼單元1740可藉由合成所產生的HF信號與由TD解碼單元1730產生的LF信號而產生經解碼的信號。此時,TD延伸解碼單元1740可更包含將LF信號以及HF信號的取樣率轉換為相同的,以產生經解碼的信號。
音訊解碼單元1750可根據檢查結果對音訊編碼的訊框執行音訊解碼。舉例而言,音訊解碼單元1750可藉由在存在TD貢獻時考慮TD貢獻以及FD貢獻且藉由在不存在TD貢獻時考慮FD貢獻而執行解碼。
此外,音訊解碼單元1750可藉由以下操作而產生經解碼的LF信號:將在FPC或LVQ方案中量化的信號變換至時域以產生經解碼的LF激勵信號,以及將所產生的激勵信號合成至經反量化的LPC係數。
FD延伸解碼單元1760可藉由使用音訊解碼結果的結果而執行延伸解碼。舉例而言,FD延伸解碼單元1760可將經解碼的LF信號的取樣率轉換為適用於HF延伸解碼的取樣率,且藉由使用MDCT或其類似者而執行經轉換的信號的頻率變換。FD延伸解碼單元1760可藉由以下操作而產生經解碼的HF信號:對經變換的LF頻譜的能量進行反量化,藉由根據各種HF BWE模式中的任一者使用LF信號而產生HF信號的激勵信號,以及應用增益以使得所產生的激勵信號的能量與經反量化的能量對稱。舉例而言,HF BWE模式可為正常模式、瞬態模式、諧波模式以及雜訊模式中的任一者。
此外,FD延伸解碼單元1760可藉由使用逆MDCT而將經解碼的HF信號變換為時域中的信號,執行轉換以將變換至時域的信號的取樣率與由音訊解碼單元1750產生的LF信號的取樣率匹配,以及合成LF信號與經轉換的信號。
圖16及圖17所示的FD延伸解碼單元1650及1760可由圖8的音訊解碼裝置實施。
圖18為根據本發明的例示性實施例的包含編碼模組的多媒體元件的方塊圖。
請參照圖18,多媒體裝置1800可包含通信單元1810以及編碼模組1830。此外,多媒體裝置1800可更包含儲存單元1850,儲存單元1850用於根據作為編碼的結果而獲得的音訊位元串流的用途儲存所述音訊位元串流。此外,多媒體裝置1800可更包含麥克風1870。亦即,儲存單元1850以及麥克風1870可為視情況而包含的。多媒體裝置1800可更包含任意解碼模組(未繪示),例如,用於執行一般解碼功能的解碼模組或根據例示性實施例的解碼模組。編碼模組1830可藉由與包含於多媒體裝置1800中的其他組件(未繪示)整合為一個主體而由至少一個處理器(例如,中央處理單元(未繪示)實施。
通信單元1810可接收自外部提供的音訊信號或經編碼的位元串流中的至少一者,或傳輸作為由編碼模組1830進行的編碼的結果而獲得的經復原的音訊信號或經編碼的位元串流中的至少一者。
通信單元1810經組態以經由無線網絡(諸如,無線網際網路、無線企業內部網路、無線電話網路、無線區域網路(Local Area Network,LAN)、Wi-Fi、Wi-Fi直連(Wi-Fi Direct,WFD)、第三代(third generation,3G)、第四代(fourth generation,4G)、藍芽、紅外線資料協會(infrared data association,IrDA)、射頻識別(radio frequency identification,RFID)、超寬頻(ultra wideband,UWB)、Zigbee或近場通信(near field communication,NFC)或有線網路(諸如,有線電話網路或有線網際網路)而將資料傳輸至外部多媒體裝置以及自外部多媒體裝置接收資料。
根據本例示性實施例,編碼模組1830可藉由使用圖14或圖15的編碼裝置而對時域中的音訊信號進行編碼,所述音訊信號是經由通信單元1810或麥克風1870而提供。此外,FD延伸編碼可由使用圖3或圖6的編碼裝置執行。
儲存單元1850可儲存由編碼模組1830產生的經編碼的位元串流。此外,儲存單元1850可儲存操作多媒體裝置1800所需的各種程式。
麥克風1870可將音訊信號自使用者或外部提供至編碼模組1830。
圖19為根據本發明的例示性實施例的包含解碼模組的多媒體裝置的方塊圖。
圖19的多媒體裝置1900可包含通信單元1910以及解碼模組1930。此外,根據作為解碼結果而獲得的經復原的音訊信號的使用,圖19的多媒體裝置1900可更包含用於儲存經復原的音訊信號的儲存單元1950。此外,圖19的多媒體裝置1900可更包含揚聲器1970。亦即,儲存單元1950以及揚聲器1970為可選的。圖19的多媒體裝置1900可更包含編碼模組(未繪示),例如,用於執行一般編碼功能的編碼模組或根據例示性實施例的編碼模組。解碼模組1930可與包含於多媒體裝置1900中的其他組件(未繪示)整合,且由至少一個處理器(例如,中央處理單元(central processing unit,CPU))實施。
請參照圖19,通信單元1910可接收自外部提供的音訊信號或經編碼的位元串流中的至少一者,或可傳輸作為解碼模組1930的解碼的結果而獲得的經復原的音訊信號或作為編碼的結果而獲得的音訊位元串流中的至少一者。通信單元1910可實質上且類似於圖18的通信單元1810而實施。
根據本例示性實施例,解碼模組1930可接收經由通信單元1910而提供的位元串流,且藉由使用圖16或圖17的解碼裝置而對位元串流進行解碼。此外,可藉由使用圖8的解碼裝置,且詳細而言,圖9至圖11的激勵信號產生單元而執行FD延伸解碼。
儲存單元1950可儲存由解碼模組1930產生的經復原的音訊信號。此外,儲存單元1950可儲存操作多媒體裝置1900所需的各種程式。
揚聲器1970可將由解碼模組1930產生的經復原的音訊信號輸出至外部。
圖20為根據本發明的例示性實施例的包含編碼模組以及解碼模組的多媒體裝置的方塊圖。
圖20所示的多媒體裝置2000可包含通信單元2010、編碼模組2020以及解碼模組2030。此外,多媒體裝置2000可更包含儲存單元2040,儲存單元2040用於根據作為編碼的結果所獲得的音訊位元串流或作為解碼的結果所獲得的經復原的音訊信號的用途儲存所述音訊位元串流或所述經復原的音訊信號。此外,多媒體裝置2000可更包含麥克風2050及/或揚聲器2060。編碼模組2020以及解碼模組2030可藉由與包含於多媒體裝置2000中的其他組件(未繪示)整合為一個主體而由至少一個處理器(例如,中央處理單元(CPU)(未繪示))實施。
由於圖20所示的多媒體裝置2000的組件對應於圖18所示的多媒體裝置1800的組件或圖19所示的多媒體裝置1900的組件,因此省略其詳細描述。
圖18、圖19及圖20所示的多媒體裝置1800、1900及2000中的每一者可包含僅語音通信終端機(諸如,電話或行動電話)、僅廣播或音樂元件(諸如,TV或MP3播放器),或僅語音通信終端機與僅廣播或音樂元件的混合終端機元件,但不限於此。此外,多媒體裝置1800、1900及2000中的每一者可用作用戶端、伺服器或在用戶端與伺服器之間移位的換能器(transducer)。
當多媒體裝置1800、1900或2000為(例如)行動電話時,雖然未繪示,但多媒體裝置1800、1900或2000可更包含諸如小鍵盤的使用者輸入單元、用於顯示由使用者介面或行動電話處理的資訊的顯示單元,以及用於控制行動電話的功能的處理器。此外,行動電話可更包含具有影像攝取功能的相機單元,以及用於執行行動電話所需的功能的至少一個組件。
當多媒體裝置1800、1900或2000為(例如)TV時,雖然未繪示,但多媒體裝置1800、1900或2000可更包含諸如小鍵盤的使用者輸入單元、用於顯示所接收的廣播資訊的顯示單元,以及用於控制TV的所有功能的處理器。此外,TV可更包含用於執行TV的功能的至少一個組件。
根據本實施例的方法可寫為電腦可執行程式,且可實施於藉由使用非暫時性(non-transitory)電腦可讀記錄媒體而執行程式的通用數位電腦中。此外,可用於實施例中的資料結構、程式指令或資料檔案可按各種方式記錄於非暫時性電腦可讀記錄媒體上。非暫時性電腦可讀記錄媒體為可儲存可之後由電腦系統讀取的資料的任何資料儲存元件。非暫時性電腦可讀記錄媒體的實例包含經特別組態以儲存並執行程式指令的磁性儲存媒體(諸如,硬碟、軟碟以及磁帶)、光學記錄媒體(諸如,CD-ROM以及DVD)、磁光媒體(諸如,光碟)以及硬體元件(諸如,ROM,RAM以及快閃記憶體)。此外,非暫時性電腦可讀記錄媒體可為用於傳輸表示程式指令、資料結構或其類似者的信號的傳輸媒體。程式指令的實例可不僅包含由編譯器產生的機械語言碼,而且包含可由電腦使用解譯器或其類似者執行的高階語言碼。
儘管已特定地展示且描述了例示性實施例,但本領域具有通常知識者將理解,在不脫離如由所附申請專利範圍界定的本發明概念的精神以及範疇的情況下,可對例示性實施例進行形式以及細節上的各種改變。
310‧‧‧瞬態偵測單元
320‧‧‧變換單元
330‧‧‧能量提取單元
340‧‧‧能量編碼單元
350‧‧‧調性計算單元
360‧‧‧編碼頻帶選擇單元
370‧‧‧頻譜編碼單元
380‧‧‧BWE參數編碼單元
390‧‧‧多工單元
410~440、510~590‧‧‧操作
610‧‧‧瞬態偵測單元
620‧‧‧變換單元
630‧‧‧能量提取單元
640‧‧‧能量編碼單元
650‧‧‧頻譜編碼單元
660‧‧‧調性計算單元
670‧‧‧BWE參數編碼單元
680‧‧‧多工單元
710‧‧‧信號分類單元
730‧‧‧激勵類型判定單元
810‧‧‧解多工單元
820‧‧‧能量解碼單元
830‧‧‧BWE參數解碼單元
840‧‧‧頻譜解碼單元
850‧‧‧第一逆正規化單元
860‧‧‧雜訊添加單元
870‧‧‧激勵信號產生單元
880‧‧‧第二逆正規化單元
890‧‧‧逆變換單元
910‧‧‧權重分配單元
930‧‧‧雜訊信號產生單元
931‧‧‧白化單元
933‧‧‧HF雜訊產生單元
950‧‧‧計算單元
951‧‧‧第一乘法器
953‧‧‧第二乘法器
955‧‧‧加法器
1010‧‧‧調整參數計算單元
1030‧‧‧雜訊信號產生單元
1031‧‧‧白化單元
1033‧‧‧HF雜訊產生單元
1050‧‧‧位準調整單元
1060‧‧‧計算單元
1110‧‧‧權重分配單元
1130‧‧‧雜訊信號產生單元
1131‧‧‧白化單元
1133‧‧‧HF雜訊產生單元
1150‧‧‧計算單元
1410‧‧‧信號分類單元
1420‧‧‧時域(TD)編碼單元
1430‧‧‧TD延伸編碼單元
1440‧‧‧頻域(FD)編碼單元
1450‧‧‧FD延伸編碼單元
1510‧‧‧信號分類單元
1520‧‧‧LPC編碼單元
1530‧‧‧TD編碼單元
1540‧‧‧TD延伸編碼單元
1550‧‧‧音訊編碼單元
1560‧‧‧FD延伸編碼單元
1610‧‧‧模式資訊檢查單元
1620‧‧‧TD解碼單元
1630‧‧‧TD延伸解碼單元
1640‧‧‧FD解碼單元
1650‧‧‧FD延伸解碼單元
1710‧‧‧模式資訊檢查單元
1720‧‧‧LPC解碼單元
1730‧‧‧TD解碼單元
1740‧‧‧TD延伸解碼單元
1750‧‧‧音訊解碼單元
1760‧‧‧FD延伸解碼單元
1800‧‧‧多媒體裝置
1810‧‧‧通信單元
1830‧‧‧編碼模組
1850‧‧‧儲存單元
1870‧‧‧麥克風
1900‧‧‧多媒體裝置
1910‧‧‧通信單元
1930‧‧‧解碼模組
1950‧‧‧儲存單元
1970‧‧‧揚聲器
2000‧‧‧多媒體裝置
2010‧‧‧通信單元
2020‧‧‧編碼模組
2030‧‧‧解碼模組
2040‧‧‧儲存單元
2050‧‧‧麥克風
2060‧‧‧揚聲器
藉由參照附圖詳細描述本發明的例示性實施例,以上及其他特徵及優點將變得更顯而易見。 圖1說明根據本發明的例示性實施例的所建構的針對低頻信號的頻帶以及針對高頻信號的頻帶的示意圖。 圖2A至圖2C說明根據本發明的例示性實施例的對應於所選擇的編碼方案而分別將區域R0及區域R1分類為R4及R5以及R2及R3的示意圖。 圖3為根據本發明的例示性實施例的音訊編碼裝置的方塊圖。 圖4為說明根據本發明的例示性實施例的在頻寬延伸(bandwidth extension,BWE)區域R1中判定R2及R3的方法的流程圖。 圖5為說明根據本發明的例示性實施例的判定BWE參數的方法的流程圖。 圖6為根據本發明的另一例示性實施例的音訊編碼裝置的方塊圖。 圖7為根據本發明的例示性實施例的BWE參數編碼單元的方塊圖。 圖8為根據本發明的例示性實施例的音訊解碼裝置的方塊圖。 圖9為根據本發明的例示性實施例的激勵(excitation)信號產生單元的方塊圖。 圖10為根據本發明的另一例示性實施例的激勵信號產生單元的方塊圖。 圖11為根據本發明的另一例示性實施例的激勵信號產生單元的方塊圖。 圖12為本發明用於描述使頻帶邊緣處的權重平滑化的曲線圖。 圖13為本發明用於描述根據例示性實施例的作為待用以重建構存在於重疊區域中的頻譜的貢獻(contribution)的權重的曲線圖。 圖14為根據本發明的例示性實施例的切換結構的音訊編碼裝置的方塊圖。 圖15為根據本發明的另一例示性實施例的切換結構的音訊編碼裝置的方塊圖。 圖16為根據本發明的例示性實施例的切換結構的音訊解碼裝置的方塊圖。 圖17為根據本發明的另一例示性實施例的切換結構的音訊解碼裝置的方塊圖。 圖18為根據本發明的例示性實施例的包含編碼模組的多媒體元件的方塊圖。 圖19為根據本發明的例示性實施例的包含解碼模組的多媒體元件的方塊圖。 圖20為根據本發明的例示性實施例的包含編碼模組以及解碼模組的多媒體元件的方塊圖。
510~590‧‧‧操作

Claims (2)

  1. 一種產生激勵類型的裝置,所述裝置包括: 至少一處理器,經配置以: 基於信號分類的結果,決定音訊信號的當前訊框是否對應至語音信號; 反應於所述當前訊框對應至所述語音信號,產生對於所述當前訊框的第一激勵類型資訊; 當所述音訊信號的所述當前訊框沒有對應至所述語音信號時,則取得所述當前訊框的調性特色;以及 藉由比較所述調性特色與臨界值以產生對於所述當前訊框的第二激勵類型資訊;以及 產生包括所述第一激勵類型資訊或所述第二激勵類型資訊的位元串流, 其中所述第一激勵類型資訊指出所述當前訊框的分類為語音類型, 其中所述第二激勵類型資訊指出所述當前訊框的分類是否為第一非語音類型或第二非語音類型。
  2. 如申請專利範圍第1項之裝置,其中所述處理器經配置以當所述語音信號的所述當前訊框沒有對應至所述語音信號時,則比較所述調性特色與所述臨界值,基於所述當前訊框是否對應至雜訊信號或調性信號以決定對於所述當前訊框的所述第二激勵類型資訊。
TW106118001A 2012-03-21 2013-03-21 編碼音訊信號的裝置 TWI626645B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201261613610P 2012-03-21 2012-03-21
US61/613,610 2012-03-21
US201261719799P 2012-10-29 2012-10-29
US61/719,799 2012-10-29

Publications (2)

Publication Number Publication Date
TW201729181A true TW201729181A (zh) 2017-08-16
TWI626645B TWI626645B (zh) 2018-06-11

Family

ID=49223006

Family Applications (2)

Application Number Title Priority Date Filing Date
TW106118001A TWI626645B (zh) 2012-03-21 2013-03-21 編碼音訊信號的裝置
TW102110397A TWI591620B (zh) 2012-03-21 2013-03-21 產生高頻雜訊的方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW102110397A TWI591620B (zh) 2012-03-21 2013-03-21 產生高頻雜訊的方法

Country Status (8)

Country Link
US (3) US9378746B2 (zh)
EP (2) EP3611728A1 (zh)
JP (2) JP6306565B2 (zh)
KR (3) KR102070432B1 (zh)
CN (2) CN104321815B (zh)
ES (1) ES2762325T3 (zh)
TW (2) TWI626645B (zh)
WO (1) WO2013141638A1 (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102245916B1 (ko) * 2013-04-05 2021-04-30 돌비 인터네셔널 에이비 오디오 인코더 및 디코더
US8982976B2 (en) * 2013-07-22 2015-03-17 Futurewei Technologies, Inc. Systems and methods for trellis coded quantization based channel feedback
EP3614381A1 (en) 2013-09-16 2020-02-26 Samsung Electronics Co., Ltd. Signal encoding method and device and signal decoding method and device
US10388293B2 (en) * 2013-09-16 2019-08-20 Samsung Electronics Co., Ltd. Signal encoding method and device and signal decoding method and device
KR102023138B1 (ko) * 2013-12-02 2019-09-19 후아웨이 테크놀러지 컴퍼니 리미티드 인코딩 방법 및 장치
FR3017484A1 (fr) 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
CN106233112B (zh) * 2014-02-17 2019-06-28 三星电子株式会社 信号编码方法和设备以及信号解码方法和设备
US10395663B2 (en) 2014-02-17 2019-08-27 Samsung Electronics Co., Ltd. Signal encoding method and apparatus, and signal decoding method and apparatus
KR102185478B1 (ko) * 2014-02-28 2020-12-02 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 복호 장치, 부호화 장치, 복호 방법, 및 부호화 방법
US10410645B2 (en) 2014-03-03 2019-09-10 Samsung Electronics Co., Ltd. Method and apparatus for high frequency decoding for bandwidth extension
WO2015133795A1 (ko) * 2014-03-03 2015-09-11 삼성전자 주식회사 대역폭 확장을 위한 고주파 복호화 방법 및 장치
WO2015136078A1 (en) 2014-03-14 2015-09-17 Telefonaktiebolaget L M Ericsson (Publ) Audio coding method and apparatus
CN106409300B (zh) 2014-03-19 2019-12-24 华为技术有限公司 用于信号处理的方法和装置
WO2015162500A2 (ko) * 2014-03-24 2015-10-29 삼성전자 주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
KR20170037970A (ko) * 2014-07-28 2017-04-05 삼성전자주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
EP2980792A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
JP2016038435A (ja) 2014-08-06 2016-03-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US10304474B2 (en) 2014-08-15 2019-05-28 Samsung Electronics Co., Ltd. Sound quality improving method and device, sound decoding method and device, and multimedia device employing same
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
CN108630212B (zh) * 2018-04-03 2021-05-07 湖南商学院 非盲带宽扩展中高频激励信号的感知重建方法与装置
US11133891B2 (en) 2018-06-29 2021-09-28 Khalifa University of Science and Technology Systems and methods for self-synchronized communications
US10951596B2 (en) * 2018-07-27 2021-03-16 Khalifa University of Science and Technology Method for secure device-to-device communication using multilayered cyphers
WO2020157888A1 (ja) * 2019-01-31 2020-08-06 三菱電機株式会社 周波数帯域拡張装置、周波数帯域拡張方法、及び周波数帯域拡張プログラム
EP3751567B1 (en) * 2019-06-10 2022-01-26 Axis AB A method, a computer program, an encoder and a monitoring device
CN113539281A (zh) * 2020-04-21 2021-10-22 华为技术有限公司 音频信号编码方法和装置
CN113808597A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN113808596A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN113963703A (zh) * 2020-07-03 2022-01-21 华为技术有限公司 一种音频编码的方法和编解码设备
CN113270105B (zh) * 2021-05-20 2022-05-10 东南大学 一种基于混合调制的类语音数据传输方法

Family Cites Families (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US524323A (en) * 1894-08-14 Benfabriken
GB1218015A (en) * 1967-03-13 1971-01-06 Nat Res Dev Improvements in or relating to systems for transmitting television signals
US4890328A (en) * 1985-08-28 1989-12-26 American Telephone And Telegraph Company Voice synthesis utilizing multi-level filter excitation
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
KR940004026Y1 (ko) 1991-05-13 1994-06-17 금성일렉트론 주식회사 바이어스의 스타트업회로
SG70558A1 (en) * 1991-06-11 2000-02-22 Qualcomm Inc Variable rate vocoder
US5721788A (en) 1992-07-31 1998-02-24 Corbis Corporation Method and system for digital image signatures
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
US6983051B1 (en) * 1993-11-18 2006-01-03 Digimarc Corporation Methods for audio watermarking and decoding
US6614914B1 (en) * 1995-05-08 2003-09-02 Digimarc Corporation Watermark embedder and reader
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
CA2188369C (en) * 1995-10-19 2005-01-11 Joachim Stegmann Method and an arrangement for classifying speech signals
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US7024355B2 (en) * 1997-01-27 2006-04-04 Nec Corporation Speech coder/decoder
US6819863B2 (en) 1998-01-13 2004-11-16 Koninklijke Philips Electronics N.V. System and method for locating program boundaries and commercial boundaries using audio categories
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6311154B1 (en) * 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6298322B1 (en) * 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
JP4438127B2 (ja) * 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
JP4792613B2 (ja) 1999-09-29 2011-10-12 ソニー株式会社 情報処理装置および方法、並びに記録媒体
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
US6694293B2 (en) * 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
DE10134471C2 (de) * 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7092877B2 (en) * 2001-07-31 2006-08-15 Turk & Turk Electric Gmbh Method for suppressing noise as well as a method for recognizing voice signals
US7158931B2 (en) * 2002-01-28 2007-01-02 Phonak Ag Method for identifying a momentary acoustic scene, use of the method and hearing device
JP3900000B2 (ja) * 2002-05-07 2007-03-28 ソニー株式会社 符号化方法及び装置、復号方法及び装置、並びにプログラム
KR100503415B1 (ko) * 2002-12-09 2005-07-22 한국전자통신연구원 대역폭 확장을 이용한 celp 방식 코덱간의 상호부호화 장치 및 그 방법
US8243093B2 (en) 2003-08-22 2012-08-14 Sharp Laboratories Of America, Inc. Systems and methods for dither structure creation and application for reducing the visibility of contouring artifacts in still and video images
KR100571831B1 (ko) * 2004-02-10 2006-04-17 삼성전자주식회사 음성 식별 장치 및 방법
FI118834B (fi) 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
GB0408856D0 (en) * 2004-04-21 2004-05-26 Nokia Corp Signal encoding
RU2006137841A (ru) * 2004-04-27 2008-05-10 Мацусита Электрик Индастриал Ко., Лтд. (Jp) Устройство масштабируемого кодирования, устройство масштабируемого декодирования и способ для этого
US7457747B2 (en) * 2004-08-23 2008-11-25 Nokia Corporation Noise detection for audio encoding by mean and variance energy ratio
US7895035B2 (en) * 2004-09-06 2011-02-22 Panasonic Corporation Scalable decoding apparatus and method for concealing lost spectral parameters
KR20070085982A (ko) * 2004-12-10 2007-08-27 마츠시타 덴끼 산교 가부시키가이샤 광대역 부호화 장치, 광대역 lsp 예측 장치, 대역스케일러블 부호화 장치 및 광대역 부호화 방법
JP4793539B2 (ja) * 2005-03-29 2011-10-12 日本電気株式会社 符号変換方法及び装置とプログラム並びにその記憶媒体
NZ562183A (en) * 2005-04-01 2010-09-30 Qualcomm Inc Systems, methods, and apparatus for highband excitation generation
CA2558595C (en) * 2005-09-02 2015-05-26 Nortel Networks Limited Method and apparatus for extending the bandwidth of a speech signal
US20090281812A1 (en) * 2006-01-18 2009-11-12 Lg Electronics Inc. Apparatus and Method for Encoding and Decoding Signal
EP1979901B1 (de) * 2006-01-31 2015-10-14 Unify GmbH & Co. KG Verfahren und anordnungen zur audiosignalkodierung
DE102006008298B4 (de) * 2006-02-22 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Notensignals
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
CN101089951B (zh) * 2006-06-16 2011-08-31 北京天籁传音数字技术有限公司 频带扩展编码方法及装置和解码方法及装置
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
CN101145345B (zh) * 2006-09-13 2011-02-09 华为技术有限公司 音频分类方法
US8639500B2 (en) * 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
KR101375582B1 (ko) * 2006-11-17 2014-03-20 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
CA2690433C (en) * 2007-06-22 2016-01-19 Voiceage Corporation Method and device for sound activity detection and sound signal classification
CN101393741A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种宽带音频编解码器中的音频信号分类装置及分类方法
KR101441896B1 (ko) * 2008-01-29 2014-09-23 삼성전자주식회사 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치
CN101515454B (zh) * 2008-02-22 2011-05-25 杨夙 用于语音、音乐、噪音自动分类的信号特征提取方法
EP2259253B1 (en) 2008-03-03 2017-11-15 LG Electronics Inc. Method and apparatus for processing audio signal
CN101751926B (zh) * 2008-12-10 2012-07-04 华为技术有限公司 信号编码、解码方法及装置、编解码系统
CN101751920A (zh) * 2008-12-19 2010-06-23 数维科技(北京)有限公司 基于再次分类的音频分类装置及其实现方法
DK2211339T3 (en) * 2009-01-23 2017-08-28 Oticon As listening System
CN101847412B (zh) 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
EP2273493B1 (en) * 2009-06-29 2012-12-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Bandwidth extension encoding and decoding
DK2328363T3 (en) * 2009-09-11 2016-08-22 Starkey Labs Inc SOUND CLASSIFICATION SYSTEM FOR HEARING DEVICES
US8447617B2 (en) * 2009-12-21 2013-05-21 Mindspeed Technologies, Inc. Method and system for speech bandwidth extension
CN102237085B (zh) * 2010-04-26 2013-08-14 华为技术有限公司 音频信号的分类方法及装置
CN102985966B (zh) * 2010-07-16 2016-07-06 瑞典爱立信有限公司 音频编码器和解码器及用于音频信号的编码和解码的方法
KR102304093B1 (ko) * 2010-07-19 2021-09-23 돌비 인터네셔널 에이비 고주파 복원 동안 오디오 신호들의 프로세싱
JP5749462B2 (ja) 2010-08-13 2015-07-15 株式会社Nttドコモ オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム
US8729374B2 (en) * 2011-07-22 2014-05-20 Howling Technology Method and apparatus for converting a spoken voice to a singing voice sung in the manner of a target singer
CN103035248B (zh) * 2011-10-08 2015-01-21 华为技术有限公司 音频信号编码方法和装置
CN104254886B (zh) * 2011-12-21 2018-08-14 华为技术有限公司 自适应编码浊音语音的基音周期
US9082398B2 (en) * 2012-02-28 2015-07-14 Huawei Technologies Co., Ltd. System and method for post excitation enhancement for low bit rate speech coding

Also Published As

Publication number Publication date
KR20200144086A (ko) 2020-12-28
CN104321815A (zh) 2015-01-28
JP6673957B2 (ja) 2020-04-01
US20160240207A1 (en) 2016-08-18
US10339948B2 (en) 2019-07-02
KR102194559B1 (ko) 2020-12-23
EP2830062B1 (en) 2019-11-20
JP2018116297A (ja) 2018-07-26
US9761238B2 (en) 2017-09-12
KR20130107257A (ko) 2013-10-01
WO2013141638A1 (ko) 2013-09-26
KR102070432B1 (ko) 2020-03-02
TWI626645B (zh) 2018-06-11
TW201401267A (zh) 2014-01-01
EP3611728A1 (en) 2020-02-19
TWI591620B (zh) 2017-07-11
CN104321815B (zh) 2018-10-16
ES2762325T3 (es) 2020-05-22
EP2830062A1 (en) 2015-01-28
JP6306565B2 (ja) 2018-04-04
KR102248252B1 (ko) 2021-05-04
EP2830062A4 (en) 2015-10-14
JP2015512528A (ja) 2015-04-27
CN108831501B (zh) 2023-01-10
US9378746B2 (en) 2016-06-28
US20170372718A1 (en) 2017-12-28
KR20200010540A (ko) 2020-01-30
US20130290003A1 (en) 2013-10-31
CN108831501A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
TWI591620B (zh) 產生高頻雜訊的方法
JP6763849B2 (ja) スペクトル符号化方法
CN111105806B (zh) 高频带编码方法和装置,以及高频带解码方法和装置
US11676614B2 (en) Method and apparatus for high frequency decoding for bandwidth extension
KR20220051317A (ko) 대역폭 확장을 위한 고주파 복호화 방법 및 장치