TW202103146A - 語音編碼方法與電子裝置 - Google Patents
語音編碼方法與電子裝置 Download PDFInfo
- Publication number
- TW202103146A TW202103146A TW108124114A TW108124114A TW202103146A TW 202103146 A TW202103146 A TW 202103146A TW 108124114 A TW108124114 A TW 108124114A TW 108124114 A TW108124114 A TW 108124114A TW 202103146 A TW202103146 A TW 202103146A
- Authority
- TW
- Taiwan
- Prior art keywords
- signal
- sub
- frequency
- voice
- interpolated
- Prior art date
Links
Images
Abstract
語音編碼方法與電子裝置。所述方法包括:接收語音訊號;獲得語音訊號的音框的語音基頻頻率與人聲判斷結果;對語音訊號執行線性預測編碼以對音框取樣並獲得取樣訊號,對取樣訊號執行內插,並根據內插後的取樣訊號獲得增益以及線頻譜頻率;以及編碼語音基頻頻率、人聲判斷結果、增益值以及線頻譜頻率以產生編碼後訊號,並輸出編碼後訊號。
Description
本發明是有關於一種改良多頻帶激勵(Multi-Band Excitation,MBE) 語音編碼系統的語音編碼方法與電子裝置。
近年來,由於物聯網(Internet of Things,IoT)趨勢的快速發展,其帶起了一波低功率(low power)與低資料率(low data-rate)的應用。因此,市場上針對可攜式和物聯網(IoT) 裝置的單晶片錄音/播放編解碼器的需求也大量地增加。
多頻帶激勵(Multi-Band Excitation,MBE) 語音編碼系統為一套語音編解碼系統,廣泛應用於數位廣播、無線通訊及網路系統中。隨著需求的增加,無論是在位元率的降低或是合成語音品質的提升上都面臨需再改進的問題。MBE語音編碼系統的特點在於可以以低位元率(low bit rate)重建高品質的合成語音,且抗雜訊效果佳,非常符合成本效益。
圖1是習知MBE語音編碼的運作架構的示意圖。
請參照圖1,MBE語音編碼主要分成三個語音參數判斷:音高估測(Pitch estimation)100、聲音/非聲音判斷(Voice/Unvoiced Decision)120以及頻譜振幅估測(Spectral Amplitude Estimation)130。
假設欲進行MBE語音編碼的是語音訊號S(n)。首先,語音訊號S(n)可以經過高通濾波器(High-pass Filter,HPF)10與低通濾波器(Low-pass Filter,LPF)12來濾除語音訊號S(n)中部分高頻與部分低頻的訊號。之後,可以將濾波後的訊號再經過視窗函式w(n)與w(m)擷取出特定頻率區間的訊號。音高估測100包括初始音高估測(Initial Pitch Estimation)14以及音高精細化(Pitch Refinement)16。經過視窗函式w(n)處理的訊號會經由初始音高估測14處理後再輸入至音高精細化(Pitch Refinement)16。而經過視窗函式w(m)處理的訊號會被輸入至音高精細化16、聲音/非聲音判斷120以及頻譜振幅估測130。
音高精細化16可以根據初始音高估測14的結果以及經過視窗函式w(m)處理的訊號,計算並輸出語音基頻頻率w。例如,音高估測100例如是以8KHz為取樣頻率(Sample frequency),每個音框(frame)長度為20ms,且160個語音取樣(speech sample)點做計算。音高估測100可以根據語音訊號S(n-1), S(n), S(n+1)的音框音高關聯(frame pitch correlation)進行正規化(normalization)並計算出語音基頻頻率w。
聲音/非聲音判斷120可以根據經過視窗函式w(m)處理的訊號中的音框輸出聲音判斷結果V,此判斷結果例如是判斷音框為聲音(例如,人聲)或非聲音(例如,非人聲)。例如,聲音/非聲音判斷120可以在頻域上以三個諧波(Harmonic)組成一個子頻帶(Sub-band),再分別對每一個子頻帶判別其為聲音子頻帶或非聲音子頻帶以產生聲音判斷結果V。
頻譜振幅估測130可以根據經過視窗函式w(m)處理的訊號中的音框輸出增益(Gain)G以及線頻譜頻率(Line Spectral frequencies,LSF)LSF。例如,在頻率域上,利用傅立葉轉換(Fast Fourier Transform,FFT)計算出週期性訊號的頻譜能量,並帶入相關函式以獲得增益(Gain)G以及線頻譜頻率(Line Spectral frequencies,LSF)LSF。
之後,可以將前述的語音基頻頻率w、聲音判斷結果V、增益G以及線頻譜頻率LSF輸入至一編碼器140以產生編碼後訊號。
隨著物聯網裝置的發展,上述的MBE語音編碼也常被使用於物聯網裝置中。然而,如何再降低編碼後訊號的位元率且維持重建後的語音訊號的品質,仍是本領域技術人員所欲解決的問題之一。
本發明提供一種本發明的語音編碼方法與電子裝置,可以降低編碼的位元率,並且透過內插的方式增加頻譜資料提升語音的品質。
本發明提出一種語音編碼方法,用於一電子裝置,所述方法包括:接收一語音訊號;獲得所述語音訊號的一音框的一語音基頻頻率;獲得所述語音訊號的所述音框的一人聲判斷結果;對所述語音訊號執行一線性預測編碼(Linear Predict Coding,LPC)以對所述音框取樣並獲得一取樣訊號,對所述取樣訊號執行內插(Interpolation),並根據內插後的所述取樣訊號獲得一增益(Gain)以及線頻譜頻率(Line Spectral frequencies,LSF);以及編碼所述語音基頻頻率、所述人聲判斷結果、所述增益值以及所述線頻譜頻率以產生一編碼後訊號,並輸出所述編碼後訊號。
在本發明的一實施例中,對所述取樣訊號執行內插的步驟包括:獲得對應於所述取樣訊號的一功率/頻率關係圖,其中所述功率/頻率關係圖包括對應於所述取樣訊號的多個子訊號;以及根據所述多個子訊號中的一第一個子訊號的一第一功率以及所述多個子訊號中的一第二個子訊號的一第二功率決定所述功率/頻率關係圖中頻率為零時的一初始功率。
在本發明的一實施例中,決定所述功率/頻率關係圖中頻率為零時的所述初始功率的步驟包括:根據所述第一功率以及所述第二功率所形成的斜率決定所述初始功率。
在本發明的一實施例中,對所述取樣訊號執行內插的步驟包括:根據所述多個子訊號中每兩個相鄰的子訊號所形成的斜率執行內插以獲得所述多個子訊號中每兩個相鄰的子訊號之間的至少一內插子訊號。
在本發明的一實施例中,對所述取樣訊號執行內插的步驟包括:根據所述多個子訊號中倒數第一個子訊號的一第三功率以及所述多個子訊號中倒數第二個子訊號的一第四功率所形成的斜率決定頻率高於所述倒數第一個子訊號的至少一內插子訊號。
在本發明的一實施例中,頻率高於所述倒數第一個子訊號的所述內插子訊號包括一第一內插子訊號,所述方法還包括:當所述第一內插子訊號的頻率小於一取樣頻率的一半時,保留所述第一內插子訊號;以及當所述第一內插子訊號的頻率非小於所述取樣頻率的一半時,捨棄所述第一內插子訊號。
在本發明的一實施例中,頻率高於所述倒數第一個子訊號的所述內插子訊號包括一第二內插子訊號以及一第三內插子訊號,所述第二內插子訊號的頻率小於所述第三內插子訊號的頻率,所述方法還包括:當所述第二內插子訊號的頻率與所述第三內插子訊號的頻率皆小於一取樣頻率的一半時,保留所述第二內插子訊號與所述第三內插子訊號;當所述第二內插子訊號的頻率小於所述取樣頻率的一半且所述第三內插子訊號的頻率非小於所述取樣頻率的一半時,保留所述第二內插子訊號並捨棄所述第三內插子訊號;以及當所述第二內插子訊號的頻率與所述第三內插子訊號的頻率皆非小於所述取樣頻率的一半時,捨棄所述第二內插子訊號與所述第三內插子訊號。
在本發明的一實施例中,獲得所述語音訊號的所述音框的所述語音基頻頻率的步驟包括:對所述語音訊號執行一音高估測(Pitch Estimation)以獲得所述音框的所述語音基頻頻率。其中獲得所述語音訊號的所述音框的所述人聲判斷結果的步驟包括:對所述語音訊號執行一聲音/非聲音判斷(Voice/Unvoiced Decision)以獲得所述音框的所述聲音判斷結果。
在本發明的一實施例中,根據內插後的所述取樣訊號獲得所述增益以及線頻譜頻率的步驟包括:根據內插後的所述取樣訊號執行一線頻譜對(Line Spectral Pairs,LSP)轉換以獲得所述增益以及線頻譜頻率。
本發明提出一種電子裝置,所述電子裝置包括:輸入電路、輸出電路以及處理器。處理器耦接所述輸入電路與所述輸出電路。所述輸入電路接收一語音訊號。所述處理器獲得所述語音訊號的一音框的一語音基頻頻率。所述處理器獲得所述語音訊號的所述音框的一人聲判斷結果。所述處理器對所述語音訊號執行一線性預測編碼(Linear Predict Coding,LPC)以對所述音框取樣並獲得一取樣訊號,對所述取樣訊號執行內插(Interpolation),並根據內插後的所述取樣訊號獲得一增益(Gain)以及線頻譜頻率(Line Spectral frequencies,LSF)。所述處理器編碼所述語音基頻頻率、所述人聲判斷結果、所述增益值以及所述線頻譜頻率以產生一編碼後訊號,並透過所述輸出電路輸出所述編碼後訊號。
基於上述,本發明的語音編碼方法與電子裝置可以降低編碼的位元率,並且透過內插的方式增加頻譜資料,藉此提升語音的品質。特別是,本發明的語音編碼方法適用於低資料率傳輸產品的相關語音應用及開發。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
現將詳細參考本發明之示範性實施例,在附圖中說明所述示範性實施例之實例。另外,凡可能之處,在圖式及實施方式中使用相同標號的元件/構件代表相同或類似部分。
圖2是依據本發明一實施例所繪示的電子裝置的示意圖。
請參照圖2,電子裝置200包括輸入電路20、輸出電路22以及處理器24。其中,輸入電路20以及輸出電路22分別耦接至處理器24。電子裝置200例如是手機、平板電腦、筆記型電腦等電子行動裝置,在此不設限。
輸入電路20可以是用於取得語音訊號(例如,聲音)的裝置或元件,例如麥克風。或者,輸入電路20可以是用以從其他裝置(例如,儲存媒體)獲得語音訊號的介面,在此不設限。
輸出電路22例如是可以發送訊號的通訊元件、將語音訊號進行播放的揚聲器或用以連接其他裝置(例如,儲存媒體)的介面,在此不設限。
處理器24可以是中央處理器(Central Processing Unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuit,ASIC)或其他類似元件或上述元件的組合。
電子裝置200可以具有儲存電路(未繪示),其可以是任何型態的固定或可移動隨機存取記憶體(random access memory,RAM)、唯讀記憶體(read-only memory,ROM)、快閃記憶體(flash memory)或類似元件或上述元件的組合。
在本範例實施例中,電子裝置200的儲存電路中儲存有多個程式碼片段,在上述程式碼片段被安裝後,會由處理器24來執行。例如,儲存電路中包括多個模組,藉由這些模組來分別執行電子裝置200中的各個運作,其中各模組是由一或多個程式碼片段所組成。然而本發明不限於此,電子裝置200的各個運作也可以是使用其他硬體形式的方式來實現。
圖3是依據本發明一實施例所繪示的語音編碼方法的架構的示意圖。
請參照圖3,本發明的語音編碼方法是將習知的MBE語音編碼進行改良。在本實施例中,圖3的語音編碼方法包括高通濾波器30、低通濾波器32、音高估測300、聲音/非聲音判斷320與編碼器340,其分別類似於前述圖1中的高通濾波器10、低通濾波器12、音高估測100、聲音/非聲音判斷120與編碼器340。此外,圖3的音高估測300包括初始音高估測34以及音高精細化36,其分別類似於圖1中的初始音高估測14以及音高精細化16。
假設欲進行編碼的是語音訊號S(n)。首先,語音訊號S(n)可以經過高通濾波器30與低通濾波器32來濾除語音訊號S(n)中部分高頻與部分低頻的訊號。之後,可以將濾波後的訊號再經過視窗函式w(n)與w(m)擷取出特定頻率區間的訊號。音高估測300用以根據經過視窗函式w(n)處理的訊號與經過視窗函式w(m)處理的訊號中的一長度為20ms的音框計算並輸出語音基頻頻率w,其運作可以類似於前述音高估測100。
聲音/非聲音判斷320可以根據經過視窗函式w(m)處理的訊號中的音框輸出聲音判斷結果V,其運作可以類似於前述聲音/非聲音判斷120。
不同的是,本發明使用一線性預測編碼(Linear Predict Coding,LPC)估測330來取代MBE語音編碼中的音高估測130。在本實施例中,線性預測編碼估測330是用以根據經過視窗函式w(m)處理的訊號輸出增益G以及線頻譜頻率LSF。最後,編碼器340會編碼圖3中的語音基頻頻率w、聲音判斷結果V、增益G以及線頻譜頻率LSF以產生編碼後訊號。
在此需說明的是,輸入至音高估測300、聲音/非聲音判斷320、線性預測編碼估測330的訊號是對原始的語音訊號S(n)經過處理(例如,經過高通濾波器30、低通濾波器32、視窗函式w(n)與視窗函式w(m)處理)的語音訊號。然而,在其他實施例中,輸入至音高估測300、聲音/非聲音判斷320、線性預測編碼估測330的訊號也可以是原始的語音訊號S(n),在此不設限。
以下以更詳細的實施例來說明本發明的線性預測編碼估測330的運作方式。
在本實施例中,線性預測編碼估測330會對輸入至線性預測編碼估測330的語音訊號執行線性預測編碼(Linear Predict Coding,LPC)以對語音訊號中長度為20ms的音框取樣並獲得一取樣訊號。之後,線性預測編碼估測330會對前述的取樣訊號執行內插,根據內插後的取樣訊號獲得增益G以及線頻譜頻率LSF,並將增益G以及線頻譜頻率LSF輸出至編碼器340。
舉例來說,圖4是依據本發明一實施例所繪示的對語音訊號執行線性預測編碼以獲得取樣訊號的示意圖。
請參照圖4,在對語音訊號執行線性預測編碼以獲得取樣訊號後,線性預測編碼估測330還會獲得對應於取樣訊號的一功率/頻率關係圖。如圖4所示,圖4的功率/頻率關係圖的橫軸為頻率,縱軸為功率(單位為分貝dB)。在圖4的功率/頻率關係圖中,可以包括將取樣訊號轉換後的多個子訊號,此些子訊號的頻率分別為頻率f0~f4。
在本實施例中,線性預測編碼估測330還會根據子訊號來決定出頻率為零時的功率(亦稱為,初始功率)。詳細來說,在圖4的範例中,線性預測編碼估測330會根據頻率f0~f4的子訊號中的第一個子訊號(即,頻率f0的子訊號)的功率(亦稱為,第一功率)以及第二個子訊號(即,頻率f1的子訊號)的功率(亦稱為,第二功率)決定功率/頻率關係圖中頻率為零時的一初始功率IV。更詳細來說,線性預測編碼估測330是根據前述第一功率以及前述第二功率所形成的斜率決定頻率為零時的初始功率。需注意的是,藉由前述初始功率的決定方式,可以避免直接以零作為初始功率所造成的問題(例如,失真)。
此外,在本實施例中,線性預測編碼估測330還會根據頻率f0~f4的子訊號中每兩個相鄰的子訊號所形成的斜率執行內插以獲得每兩個相鄰的子訊號之間的至少一內插子訊號。舉例來說,圖5是依據本發明一實施例所繪示的產生內插子訊號的示意圖。
請參照圖5,在圖5的實施例中,線性預測編碼估測330還會根據頻率f0~f4的子訊號中每兩個相鄰的子訊號所形成的斜率執行內插以獲得每兩個相鄰的子訊號之間的一個內插子訊號。例如,可以執行內插以獲得頻率s1~s4的內插子訊號。頻率s1是位於頻率f0~f1之間且頻率s1的內插子訊號的功率是位在頻率f0~f1的子訊號的功率所形成的斜率上。類似的,頻率s2是位於頻率f1~f2之間且頻率s2的內插子訊號的功率是位在頻率f1~f2的子訊號的功率所形成的斜率上。頻率s3~s4的內插子訊號的產生方式可以是類似於前述頻率s1~s2的內插子訊號的產生方式,故在此不再贅述。特別是,在本實施例中,線性預測編碼估測330還會根據前述所決定出的初始功率IV以及第一個子訊號(即,頻率f0的子訊號)的功率所形成的斜率,決定出位在頻率零至頻率f0之間的內插子訊號(即,圖5中頻率s0的內插子訊號)。
需注意的是,本發明並不用於限定每兩個相鄰的子訊號之間可以產生的內插子訊號的數量。在其他實施例中,每兩個相鄰的子訊號之間可以產生不只一個內插子訊號。舉例來說,圖6是依據本發明另一實施例所繪示的產生內插子訊號的示意圖。以每兩個相鄰的子訊號之間產生兩個內插子訊號為例,線性預測編碼估測330可以執行內插以獲得頻率t2~t9的內插子訊號。頻率t2~t3是位於頻率f0~f1之間且頻率t2~t3的內插子訊號的功率是位在頻率f0~f1的子訊號的功率所形成的斜率上。類似的,頻率t4~t5是位於頻率f1~f2之間且頻率t4~t5的內插子訊號的功率是位在頻率f1~f2的子訊號的功率所形成的斜率上。頻率t6~t7與頻率t8~t9的內插子訊號的產生方式可以是類似於前述頻率t2~t3與頻率t4~t5的內插子訊號的產生方式,故在此不再贅述。特別是,在本實施例中,線性預測編碼估測330還會根據前述所決定出的初始功率IV以及第一個子訊號(即,頻率f0的子訊號)的功率所形成的斜率,決定出位在頻率零至頻率f0之間的內插子訊號(即,圖6中頻率t0~t1的內插子訊號)。
此外,在本發明的實施例中,線性預測編碼估測330還會內插以產生高頻訊號。例如,線性預測編碼估測330會內插以產生頻率大於頻率f4的內插子訊號。舉例來說,圖7是依據本發明一實施例所繪示的產生頻率大於頻率f4的內插子訊號的示意圖。
請參照圖7,圖7是延續圖5的範例。在圖7的實施例中,假設各個子訊號與內插子訊號彼此之間所間隔的頻率皆為一第一數值。線性預測編碼估測330例如會根據第一數值與頻率f4來獲得頻率ws。其中頻率ws大於頻率f4且頻率ws與頻率f4相差前述第一數值。此外,線性預測編碼估測330還會根據頻率f0~f4的子訊號中倒數第一個子訊號(即,頻率f4的子訊號)的功率(亦稱為,第三功率)以及倒數第二個子訊號(即,頻率f3的子訊號)的功率(亦稱為,第四功率)所形成的斜率決定頻率ws的內插子訊號(亦稱為,第一內插子訊號)的功率。特別是,在本實施例中,當頻率ws小於取樣頻率的一半時,線性預測編碼估測330會保留前述的第一內插子訊號。然而,當頻率ws非小於取樣頻率的一半時,線性預測編碼估測330會捨棄前述的第一內插子訊號。
需注意的是,本發明並不用於限定內插後所產生的頻率大於頻率f4的內插子訊號的數量。在其他實施例中,內插後所產生的頻率大於頻率f4的內插子訊號的數量可以不只一個。
以內插後產生兩個頻率大於頻率f4的內插子訊號為例,圖8是依據本發明另一實施例所繪示的產生頻率大於頻率f4的內插子訊號的示意圖。
請參照圖8,圖8是延續圖6的範例。在圖8的實施例中,假設各個子訊號與內插子訊號彼此之間所間隔的頻率皆為一第二數值。線性預測編碼估測330例如會根據第二數值與頻率f4來獲得頻率ws1~ws2。其中頻率ws1~ws2皆大於頻率f4,頻率ws1與頻率f4相差前述第二數值,頻率ws2與頻率ws1相差前述第二數值。此外,線性預測編碼估測330還會根據頻率f0~f4的子訊號中倒數第一個子訊號(即,頻率f4的子訊號)的功率(亦稱為,第三功率)以及倒數第二個子訊號(即,頻率f3的子訊號)的功率(亦稱為,第四功率)所形成的斜率決定頻率ws1的內插子訊號(亦稱為,第二內插子訊號)的功率以及頻率ws2的內插子訊號(亦稱為,第三內插子訊號)的功率。特別是,在本實施例中,當頻率ws1與頻率ws2皆小於取樣頻率的一半時,線性預測編碼估測330會保留前述的第二內插子訊號與前述的第三內插子訊號。當頻率ws1小於取樣頻率的一半且頻率ws2非小於取樣頻率的一半時,線性預測編碼估測330會保留前述的第二內插子訊號並捨棄前述的第三內插子訊號。當頻率ws1與頻率ws2皆非小於取樣頻率的一半時,線性預測編碼估測330會捨棄前述的第二內插子訊號與前述的第三內插子訊號。
特別是,本發明可以根據取樣訊號中原始的子訊號的數量來決定兩個相鄰的子訊號之間需產生的內插子訊號的數量。請參考以下表1:
表1
原始的子訊號的數量 | 9~14 | 15~18 | 19~28 | 29~56 |
兩個相鄰的子訊號之間需產生的內插子訊號的數量 | 3 | 2 | 1 | 0 |
內插後原始的子訊號與內插子訊號的數量總和 | 36~56 | 45~54 | 38~56 | 29~56 |
如表1所示,當取樣訊號中原始的子訊號的數量為9~14時,可以決定兩個相鄰的子訊號之間需產生三個內插子訊號以使得內插後原始的子訊號與內插子訊號的數量總和為介於36~56之間。當取樣訊號中原始的子訊號的數量為15~18時,可以決定兩個相鄰的子訊號之間需產生兩個內插子訊號以使得內插後原始的子訊號與內插子訊號的數量總和為介於45~54之間。當取樣訊號中原始的子訊號的數量為19~28時,可以決定兩個相鄰的子訊號之間需產生一個內插子訊號以使得內插後原始的子訊號與內插子訊號的數量總和為介於38~56之間。當取樣訊號中原始的子訊號的數量為29~56時,可以決定兩個相鄰的子訊號之間不需產生內插子訊號。
最後,在產生內插子訊號後,線性預測編碼估測330會根據內插後的取樣訊號執行線頻譜對(Line Spectral Pairs,LSP)轉換以獲得圖3的增益G以及線頻譜頻率LSF。編碼器340會編碼語音基頻頻率w、人聲判斷結果V、增益值G以及線頻譜頻率LSF以產生一編碼後訊號,並透過輸出電路22輸出此編碼後訊號。而如何將內插後的取樣訊號執行線頻譜對(Line Spectral Pairs,LSP)轉換以獲得增益G以及線頻譜頻率LSF可以藉由習知技術而的知,在此不再贅述。
此外,表2是傳統MBE語音編碼系統與本發明的語音編碼方法兩者編碼後訊號的位元數的比較。
表2
MBE語音編碼系統 | 本發明的語音編碼方法 | ||
參數 | 位元數 | 參數 | 位元數 |
語音基頻頻率 | 8 | 語音基頻頻率 | 8 |
人聲判斷結果 | K (K=1~12) | 人聲判斷結果 | K (K=1~12) |
頻譜功率 (Spectral Amplitudes) | 79-K | {ak }, k=1~n | 24 |
合成(Synchronization) | 1 | LSP的增益 | 6 |
合成Synchronization | 1 | ||
總位元數 | 88 | 總位元數 | 40~51 |
如表2所示,在MBE語音編碼系統中,語音基頻頻率、人聲判斷結果、頻譜功率、與合成等多個參數可以用於計算對一個音框進行編碼時MBE語音編碼系統所需的總位元數。而如何以上述參數計算MBE語音編碼系統所需的總位元數可以由習知技術得知,在此不再贅述。而在本發明的語音編碼方法中,語音基頻頻率、人聲判斷結果、{ak
}、LSP的增益與合成等多個參數也可以用於計算對一個音框進行編碼時所需的總位元數。不同的是,參數{ak
}與LSP的增益等參數是屬於LSP的參數。而如何根據語音基頻頻率、人聲判斷結果、{ak
}、LSP的增益與合成等多個參數計算對一個音框進行編碼時所需的總位元數也可以由習知技術得知,在此不再贅述。由上述的表2可知,在對一個音框進行編碼時,MBE語音編碼系統所需的總位元數為88個位元,而本發明的語音編碼方法僅需40~55個位元,其可以有效的降低編碼的位元數(或位元率)。
圖9是依據本發明一實施例所繪示的語音編碼方法的流程圖。
請參照圖9,在步驟S901中,輸入電路20接收語音訊號。在步驟S903中,處理器24獲得語音訊號的音框的語音基頻頻率。在步驟S905中,處理器24獲得語音訊號的音框的人聲判斷結果。在步驟S907中,處理器24對語音訊號執行線性預測編碼以對音框取樣並獲得取樣訊號,對取樣訊號執行內插,並根據內插後的取樣訊號獲得增益以及線頻譜頻率。最後在步驟S909中,處理器24編碼語音基頻頻率、人聲判斷結果、增益值以及線頻譜頻率以產生編碼後訊號,並輸出編碼後訊號。
綜上所述,本發明的語音編碼方法與電子裝置可以降低編碼的位元率,並且透過內插的方式增加頻譜資料提升語音的品質。特別是,本發明的語音編碼方法適用於低資料率傳輸產品的相關語音應用及開發。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
10、30:高通濾波器
12、32:低通濾波器
14、34:初始音高估測
16、36:音高精細化
w(n)、w(m):視窗函式
100、300:音高估測
120、320:聲音/非聲音判斷
130:頻譜振幅估測
330:線性預測編碼估測
140、340:編碼器
w:語音基頻頻率
V:聲音判斷結果
G:增益
LSF:線頻譜頻率
200:電子裝置
20:輸入電路
22:輸出電路
24:處理器
IV:初始功率
f0~f4、s0~s4、t0~t9、ws、ws1、ws2:頻率
S901:接收語音訊號的步驟
S903:獲得語音訊號的音框的語音基頻頻率的步驟
S905:獲得語音訊號的音框的人聲判斷結果的步驟
S907:對語音訊號執行線性預測編碼以對音框取樣並獲得取樣訊號,對取樣訊號執行內插,並根據內插後的取樣訊號獲得增益以及線頻譜頻率的步驟
S909:編碼語音基頻頻率、人聲判斷結果、增益值以及線頻譜頻率以產生編碼後訊號,並輸出編碼後訊號的步驟
圖1是習知MBE語音編碼的運作架構的示意圖。
圖2是依據本發明一實施例所繪示的電子裝置的示意圖。
圖3是依據本發明一實施例所繪示的語音編碼方法的架構的示意圖。
圖4是依據本發明一實施例所繪示的對語音訊號執行線性預測編碼以獲得取樣訊號的示意圖。
圖5是依據本發明一實施例所繪示的產生內插子訊號的示意圖。
圖6是依據本發明另一實施例所繪示的產生內插子訊號的示意圖。
圖7是依據本發明一實施例所繪示的產生頻率大於頻率f4的內插子訊號的示意圖。
圖8是依據本發明另一實施例所繪示的產生頻率大於頻率f4的內插子訊號的示意圖。
圖9是依據本發明一實施例所繪示的語音編碼方法的流程圖。
S901:接收語音訊號的步驟
S903:獲得語音訊號的音框的語音基頻頻率的步驟
S905:獲得語音訊號的音框的人聲判斷結果的步驟
S907:對語音訊號執行線性預測編碼以對音框取樣並獲得取樣訊號,對取樣訊號執行內插,並根據內插後的取樣訊號獲得增益以及線頻譜頻率的步驟
S909:編碼語音基頻頻率、人聲判斷結果、增益值以及線頻譜頻率以產生編碼後訊號,並輸出編碼後訊號的步驟
Claims (10)
- 一種語音編碼方法,用於一電子裝置,所述方法包括: 接收一語音訊號; 獲得所述語音訊號的一音框的一語音基頻頻率; 獲得所述語音訊號的所述音框的一人聲判斷結果; 對所述語音訊號執行一線性預測編碼(Linear Predict Coding,LPC)以對所述音框取樣並獲得一取樣訊號,對所述取樣訊號執行內插(Interpolation),並根據內插後的所述取樣訊號獲得一增益(Gain)以及線頻譜頻率(Line Spectral frequencies,LSF);以及 編碼所述語音基頻頻率、所述人聲判斷結果、所述增益值以及所述線頻譜頻率以產生一編碼後訊號,並輸出所述編碼後訊號。
- 如申請專利範圍第1項所述的語音編碼方法,其中對所述取樣訊號執行內插的步驟包括: 獲得對應於所述取樣訊號的一功率/頻率關係圖,其中所述功率/頻率關係圖包括對應於所述取樣訊號的多個子訊號;以及 根據所述多個子訊號中的一第一個子訊號的一第一功率以及所述多個子訊號中的一第二個子訊號的一第二功率決定所述功率/頻率關係圖中頻率為零時的一初始功率。
- 如申請專利範圍第2項所述的語音編碼方法,其中決定所述功率/頻率關係圖中頻率為零時的所述初始功率的步驟包括: 根據所述第一功率以及所述第二功率所形成的斜率決定所述初始功率。
- 如申請專利範圍第2項所述的語音編碼方法,其中對所述取樣訊號執行內插的步驟包括: 根據所述多個子訊號中每兩個相鄰的子訊號所形成的斜率執行內插以獲得所述多個子訊號中每兩個相鄰的子訊號之間的至少一內插子訊號。
- 如申請專利範圍第2項所述的語音編碼方法,其中對所述取樣訊號執行內插的步驟包括: 根據所述多個子訊號中倒數第一個子訊號的一第三功率以及所述多個子訊號中倒數第二個子訊號的一第四功率所形成的斜率決定頻率高於所述倒數第一個子訊號的至少一內插子訊號。
- 如申請專利範圍第5項所述的語音編碼方法,其中頻率高於所述倒數第一個子訊號的所述內插子訊號包括一第一內插子訊號,所述方法還包括: 當所述第一內插子訊號的頻率小於一取樣頻率的一半時,保留所述第一內插子訊號;以及 當所述第一內插子訊號的頻率非小於所述取樣頻率的一半時,捨棄所述第一內插子訊號。
- 如申請專利範圍第5項所述的語音編碼方法,其中頻率高於所述倒數第一個子訊號的所述內插子訊號包括一第二內插子訊號以及一第三內插子訊號,所述第二內插子訊號的頻率小於所述第三內插子訊號的頻率,所述方法還包括: 當所述第二內插子訊號的頻率與所述第三內插子訊號的頻率皆小於一取樣頻率的一半時,保留所述第二內插子訊號與所述第三內插子訊號; 當所述第二內插子訊號的頻率小於所述取樣頻率的一半且所述第三內插子訊號的頻率非小於所述取樣頻率的一半時,保留所述第二內插子訊號並捨棄所述第三內插子訊號;以及 當所述第二內插子訊號的頻率與所述第三內插子訊號的頻率皆非小於所述取樣頻率的一半時,捨棄所述第二內插子訊號與所述第三內插子訊號。
- 如申請專利範圍第1項所述的語音編碼方法,其中獲得所述語音訊號的所述音框的所述語音基頻頻率的步驟包括: 對所述語音訊號執行一音高估測(Pitch Estimation)以獲得所述音框的所述語音基頻頻率, 其中獲得所述語音訊號的所述音框的所述人聲判斷結果的步驟包括: 對所述語音訊號執行一聲音/非聲音判斷(Voice/Unvoiced Decision)以獲得所述音框的所述聲音判斷結果。
- 如申請專利範圍第1項所述的語音編碼方法,其中根據內插後的所述取樣訊號獲得所述增益以及線頻譜頻率的步驟包括: 根據內插後的所述取樣訊號執行一線頻譜對(Line Spectral Pairs,LSP)轉換以獲得所述增益以及線頻譜頻率。
- 一種電子裝置,包括: 一輸入電路; 一輸出電路;以及 一處理器,耦接所述輸入電路與所述輸出電路,其中 所述輸入電路接收一語音訊號, 所述處理器獲得所述語音訊號的一音框的一語音基頻頻率, 所述處理器獲得所述語音訊號的所述音框的一人聲判斷結果, 所述處理器對所述語音訊號執行一線性預測編碼(Linear Predict Coding,LPC)以對所述音框取樣並獲得一取樣訊號,對所述取樣訊號執行內插(Interpolation),並根據內插後的所述取樣訊號獲得一增益(Gain)以及線頻譜頻率(Line Spectral frequencies,LSF), 所述處理器編碼所述語音基頻頻率、所述人聲判斷結果、所述增益值以及所述線頻譜頻率以產生一編碼後訊號,並透過所述輸出電路輸出所述編碼後訊號。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108124114A TW202103146A (zh) | 2019-07-09 | 2019-07-09 | 語音編碼方法與電子裝置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108124114A TW202103146A (zh) | 2019-07-09 | 2019-07-09 | 語音編碼方法與電子裝置 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202103146A true TW202103146A (zh) | 2021-01-16 |
Family
ID=75234762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108124114A TW202103146A (zh) | 2019-07-09 | 2019-07-09 | 語音編碼方法與電子裝置 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TW202103146A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI768674B (zh) * | 2021-01-22 | 2022-06-21 | 宏碁股份有限公司 | 諧振峰強化的語音編碼裝置及語音編碼方法 |
-
2019
- 2019-07-09 TW TW108124114A patent/TW202103146A/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI768674B (zh) * | 2021-01-22 | 2022-06-21 | 宏碁股份有限公司 | 諧振峰強化的語音編碼裝置及語音編碼方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2381571C2 (ru) | Синтезирование монофонического звукового сигнала на основе кодированного многоканального звукового сигнала | |
JP3861770B2 (ja) | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 | |
JP6334808B2 (ja) | 時間ドメイン符号化と周波数ドメイン符号化の間の分類の改善 | |
JP6929868B2 (ja) | オーディオ信号復号 | |
TWI559298B (zh) | 用於音訊信號之諧波頻寬延展之方法、裝置及電腦可讀儲存器件 | |
JP2016535873A (ja) | 適合的帯域幅拡張およびそのための装置 | |
WO2021052287A1 (zh) | 频带扩展方法、装置、电子设备及计算机可读存储介质 | |
US9280978B2 (en) | Packet loss concealment for bandwidth extension of speech signals | |
JP2009530685A (ja) | Mdct係数を使用する音声後処理 | |
JP2015172778A (ja) | オーディオ信号符号化方法および装置 | |
KR20070085532A (ko) | 스테레오 부호화 장치, 스테레오 복호 장치 및 그 방법 | |
JP2011059714A (ja) | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 | |
CN104981870B (zh) | 声音增强装置 | |
JP5519230B2 (ja) | オーディオエンコーダ及び音信号処理システム | |
US20100121632A1 (en) | Stereo audio encoding device, stereo audio decoding device, and their method | |
CN110556121A (zh) | 频带扩展方法、装置、电子设备及计算机可读存储介质 | |
WO2012131438A1 (en) | A low band bandwidth extender | |
JP2013084002A (ja) | 音声コーデックの品質向上装置およびその方法 | |
JPWO2015151451A1 (ja) | 符号化装置、復号装置、符号化方法、復号方法、およびプログラム | |
TW202103146A (zh) | 語音編碼方法與電子裝置 | |
KR20230129581A (ko) | 음성 정보를 갖는 개선된 프레임 손실 보정 | |
EP2663978A1 (en) | An audio encoder/decoder apparatus | |
JP3894722B2 (ja) | ステレオオーディオ信号高能率符号化装置 | |
JP2013073230A (ja) | オーディオ符号化装置 | |
JP2022517232A (ja) | ハイレゾリューションオーディオ符号化 |