TWI788905B - 用於梅爾頻率倒譜係數的實現的優化方法 - Google Patents

用於梅爾頻率倒譜係數的實現的優化方法 Download PDF

Info

Publication number
TWI788905B
TWI788905B TW110124718A TW110124718A TWI788905B TW I788905 B TWI788905 B TW I788905B TW 110124718 A TW110124718 A TW 110124718A TW 110124718 A TW110124718 A TW 110124718A TW I788905 B TWI788905 B TW I788905B
Authority
TW
Taiwan
Prior art keywords
mel
frames
optimization method
sound signal
formula
Prior art date
Application number
TW110124718A
Other languages
English (en)
Other versions
TW202248999A (zh
Inventor
談力立
王志林
曹曉峰
李曉煥
Original Assignee
瑞昱半導體股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 瑞昱半導體股份有限公司 filed Critical 瑞昱半導體股份有限公司
Publication of TW202248999A publication Critical patent/TW202248999A/zh
Application granted granted Critical
Publication of TWI788905B publication Critical patent/TWI788905B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Discrete Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Oscillators With Electromechanical Resonators (AREA)
  • Cephalosporin Compounds (AREA)
  • Transmitters (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Steroid Compounds (AREA)

Abstract

本發明公開一種用於梅爾頻率倒譜係數的實現的優化方法,包括如下步驟。在分框的步驟中,用400×16的靜態隨機存取記憶體來對聲音信號的多個採樣點完成有交疊的暫存,並且將聲音信號分解為多個訊框。每一訊框為400個採樣點,相鄰兩訊框之間則具有重疊區域,且重疊區域包含了240個採樣點。接著,在加窗的步驟中,用位元層級設計來讓每一訊框乘以窗函數,並且在快速傅立葉轉換的步驟中,對已進行分框及加窗後的訊框信號做512點快速傅立葉轉換,以得到相對應的頻譜。

Description

用於梅爾頻率倒譜係數的實現的優化方法
本發明涉及梅爾頻率倒譜係數的實現,特別涉及一種用於梅爾頻率倒譜係數的實現的優化方法。
在聲音處理領域中,梅爾頻率倒譜是基於對數能量頻譜在非線性梅爾刻度上的線性轉換,且梅爾頻率倒譜係數(Mel-Frequency Cepstral Coefficients,MFCC)就是組成梅爾頻率倒譜的係數。MFCC已廣泛用於語言識別領域,且MFCC的實現主要包括如下步驟。
1.分框(Framing):將聲音信號分解為多個訊框,且每一訊框為聲音信號的400個採樣點。
2.加窗(Windowing):將每一訊框乘以窗函數,例如漢明(Hamming)窗,以增加訊框左端與右端的連續性。
3.快速傅立葉轉換(Fast Fourier Transform,FFT):對已進行分框及加窗後的訊框信號做FFT,以得到相對應的頻譜。
4.梅爾濾波(Mel Filtering):將訊框信號獲得的頻譜通過梅爾濾波器來得到梅爾刻度。
5.非線性轉換(Non-linear Transformation):對梅爾濾波器得到的梅爾刻度取對數。
6.離散餘弦轉換(Discrete Cosine Transform,DCT):對取得的對數能量做DCT,以轉換為倒頻譜域並得到MFCC。
然而,上述各步驟都還有可改善空間,因此如何提供出一種用於MFCC的實現的優化方法則成為本領域的一項重要課題。
有鑑於此,本發明實施例提供一種用於MFCC的實現的優化方法,包括如下步驟。在分框的步驟中,用400×16的靜態隨機存取記憶體(Static Random Access Memory,SRAM)來對聲音信號的多個採樣點完成有交疊的暫存,並且將聲音信號分解為多個訊框。每一訊框為400個採樣點,相鄰兩訊框之間則具有重疊區域,且重疊區域包含了240個採樣點。接著,在加窗的步驟中,用位元層級(Bit Level)設計來讓每一訊框乘以窗函數,並且在快速傅立葉轉換的步驟中,對已進行分框及加窗後的訊框信號做512點快速傅立葉轉換,以得到相對應的頻譜。
優選地,在快速傅立葉轉換的步驟中,更使用座標旋轉數位計算器(Coordinate Rotational Digital Computer,CORDIC)來完成快速傅立葉轉換的所有乘法運算。
優選地,優化方法更包括在梅爾濾波的步驟中,將訊框信號獲得的頻譜通過階數不同的26個濾波器來獲得梅爾刻度,並且更可採用兩個乘法器和兩個加法器來實現梅爾濾波的所有運算。
優選地,優化方法更包括在非線性轉換的步驟中,把對梅爾刻度取對數用的ln公式改成log 2公式,以減少一個乘法器,同時使用移位加插值的方式來實現該log 2公式,以得到對數能量。
優選地,優化方法更包括在DCT的步驟中,用13個乘法器和13個累加器來完成對得到的對數能量做DCT,以得到13個MFCC。
為使能更進一步瞭解本發明的特徵及技術內容,請參閱以下有關本發明的詳細說明與圖式,然而所提供的圖式僅用於提供參考與說明,並非用來對本發明加以限制。
以下是通過特定的具體實施例來說明本發明的實施方式,本領域技術人員可由本說明書所提供的內容瞭解本發明的優點與效果。本發明可通過其他不同的具體實施例加以施行或應用,本說明書中的各項細節也可基於不同觀點與應用,在不悖離本發明的構思下進行各種修改與變更。另外,本發明的附圖僅為簡單示意說明,並非依實際尺寸的描繪,事先聲明。以下的實施方式將進一步詳細說明本發明的相關技術內容,但所提供的內容並非用以限制本發明的保護範圍。
應當理解的是,雖然本文中可能會使用到“第一”、“第二”、“第三”等術語來描述各種元件或者信號,但這些元件或者信號不應受這些術語的限制。這些術語主要是用以區分一元件與另一元件,或者一信號與另一信號。另外,本文中所使用的術語“或”,應視實際情況可能包含相關聯的列出項目中的任一個或者多個的組合。
請參閱圖1,圖1是本發明實施例所提供用於MFCC的實現的優化方法的步驟流程圖。如圖1所示,在分框的步驟S130中,本實施例會用400×16的靜態隨機存取記憶體來對聲音信號的多個採樣點完成有交疊的暫存,並且將聲音信號分解為多個訊框。
每一訊框為400個採樣點,且為了避免相鄰兩訊框的變化過大,因此本實施例會讓相鄰兩訊框之間具有重疊區域,且重疊區域包含了240個採樣點,也就是說訊框彼此間隔160個採樣點。接著,在加窗的步驟S140中,本實施例會用位元層級設計來讓每一訊框乘以窗函數。窗函數可為漢明窗,且每一訊框乘以漢明窗的公式為:
Figure 02_image001
Figure 02_image003
為窗長度,也就是說在本實施例中,
Figure 02_image003
為訊框內的採樣點個數,即400。另外,
Figure 02_image005
為訊框中的第
Figure 02_image007
個採樣點,且
Figure 02_image009
則為訊框乘以漢明窗後的第
Figure 02_image007
個採樣點。
然後,在快速傅立葉轉換的步驟S150中,本實施例會對已進行分框及加窗後的訊框信號,即
Figure 02_image011
Figure 02_image013
做512點快速傅立葉轉換,以得到相對應的頻譜。需說明的是,在快速傅立葉轉換的步驟S150中,本實施例更可使用座標旋轉數位計算器來完成快速傅立葉轉換的所有乘法運算。
由此可見,相較於現有技術,本發明已提出了用於MFCC的實現的優化方法。另外,在梅爾濾波的步驟S160中,本實施例會將訊框信號獲得的頻譜通過階數不同的26個濾波器來獲得梅爾刻度。
然而,如果要獨立計算,最後一個濾波器就需要45個乘法運算,因此在梅爾濾波的步驟S160中,根據所有奇數級的濾波器或所有偶數級的濾波器會有首尾相連的特性,本實施例更可採用兩個乘法器和兩個加法器來實現梅爾濾波的所有運算。
另外,在非線性轉換的步驟S170中,本實施例會把對梅爾刻度取對數用的ln公式改成log 2公式,以減少一個乘法器,同時使用移位加插值的方式來實現該log 2公式,以得到對數能量。該ln公式為:
Figure 02_image015
Figure 02_image017
為對數能量,
Figure 02_image019
為頻譜,且
Figure 02_image021
為濾波器。另外,這裡的
Figure 02_image023
Figure 02_image003
分別為濾波器個數和快速傅立葉轉換長度,即26和512,且該log 2公式為:
Figure 02_image025
最後,因為26×13矩陣的特殊性不能採用現有實現方法中係數對稱的特性,所以在DCT的步驟S180中,本實施例會直接使用13個乘法器和13個累加器來完成對得到的對數能量做DCT,以得到13個MFCC,即其公式為:
Figure 02_image027
Figure 02_image029
Figure 02_image031
是指MFCC的係數階數,本領域技術人員可依據實際需求來決定取哪13個,且
Figure 02_image033
為22。
另一方面,在分框的步驟之前,MFCC的實現更可包括直流偏移補償(DC Offset Compensation)的步驟以及預加重(Pre-emphasis)的步驟,且直流偏移補償的現有公式為:
Figure 02_image035
Figure 02_image037
為聲音信號的第
Figure 02_image039
個採樣點,且
Figure 02_image041
為聲音信號已進行直流偏移補償後的第
Figure 02_image039
個採樣點。另外,預加重的現有公式為:
Figure 02_image043
Figure 02_image045
為聲音信號已進行預加重後的第
Figure 02_image039
個採樣點。然而,因為0.999可相當於
Figure 02_image047
,所以本實施例可把直流偏移補償的現有公式中的乘法改成一次減法,也就是說把直流偏移補償的現有公式修改為:
Figure 02_image049
類似地,因為0.97可相當於
Figure 02_image051
,所以本實施例也可把預加重的現有公式修改為:
Figure 02_image053
換句話說,圖1的優化方法更可包括在直流偏移補償的步驟S110中,利用公式:
Figure 02_image055
來對聲音信號的每一採樣點進行直流偏移補償,並且在預加重的步驟S120中,利用公式:
Figure 02_image057
來對聲音信號已進行直流偏移補償後的每一採樣點進行預加重。相對地,分框的步驟S130所指的多個採樣點就是聲音信號已進行預加重後的多個採樣點。
綜上所陳,相較於現有技術,本實施例的直流偏移補償與預加重的公式就不會因有乘法而變得複雜,並且應當理解的是,本實施例的優化方法可讓MFCC的實現做到面積和功耗更省。
以上所提供的內容僅為本發明的優選可行實施例,並非因此侷限本發明的申請專利範圍,所以凡是運用本發明說明書及圖式內容所做的等效技術變化,均包含於本發明的申請專利範圍內。
S110~S180:流程步驟
圖1是本發明實施例所提供用於MFCC的實現的優化方法的步驟流程圖。
S110~S180:流程步驟

Claims (6)

  1. 一種用於梅爾頻率倒譜係數的實現的優化方法,其中該梅爾頻率倒譜係數的實現包括分框的步驟、加窗的步驟、快速傅立葉轉換的步驟、梅爾濾波的步驟、非線性轉換的步驟以及離散餘弦轉換的步驟,且該優化方法包括:在該分框的步驟中,用400×16的靜態隨機存取記憶體來對一聲音信號的多個採樣點完成有交疊的暫存,並且將該聲音信號分解為多個訊框,其中每一該些訊框為該些採樣點的400個,該些訊框的相鄰兩個之間則具有一重疊區域,且該重疊區域包含了該些採樣點的240個;在該加窗的步驟中,用位元層級設計來讓每一該些訊框乘以一窗函數,並且在該快速傅立葉轉換的步驟中,對已進行該分框及該加窗後的訊框信號做512點快速傅立葉轉換,以得到相對應的頻譜;在該梅爾濾波的步驟中,將該訊框信號獲得的該頻譜通過階數不同的26個濾波器來獲得梅爾刻度;在該非線性轉換的步驟中,把對該梅爾刻度取對數用的ln公式改成log2公式,以減少一個乘法器,同時使用移位加插值的方式來實現該log2公式,以得到對數能量;以及在該離散餘弦轉換的步驟中,用13個乘法器和13個累加器來完成對得到的該對數能量做該離散餘弦轉換,以得到13個梅爾頻率倒譜係數;其中該窗函數為一漢明窗,且每一該些訊框乘以該漢明窗的公式為:
    Figure 110124718-A0305-02-0009-3
    ,1
    Figure 110124718-A0305-02-0009-4
    n
    Figure 110124718-A0305-02-0009-5
    N; 其中N為400,S w (n)為每一該些訊框中的第n個採樣點,且S w '(n)則為每一該些訊框乘以該漢明窗後的第n個採樣點。
  2. 如請求項1所述的優化方法,其中在該快速傅立葉轉換的步驟中,更使用座標旋轉數位計算器來完成該快速傅立葉轉換的所有乘法運算。
  3. 如請求項1所述的優化方法,其中在該梅爾濾波的步驟中,更採用兩個乘法器和兩個加法器來實現該梅爾濾波的所有運算。
  4. 如請求項1所述的優化方法,其中在該分框的步驟之前,該梅爾頻率倒譜係數的實現更包括直流偏移補償的步驟以及預加重的步驟。
  5. 如請求項4所述的優化方法,更包括:在該直流偏移補償的步驟中,利用公式:S of (i)=S in (i)-S in (i-1)+S of (i-1)-2-10S of (i-1)來對該聲音信號的每一該些採樣點進行該直流偏移補償,其中S in (i)為該聲音信號的第i個採樣點,且S of (i)為該聲音信號已進行該直流偏移補償後的第i個採樣點。
  6. 如請求項5所述的優化方法,更包括:在該預加重的步驟中,利用公式:S pe (i)=S of (i)-S of (i-1)+2-5S of (i-1)來對該聲音信號已進行該直流偏移補償後的每一該些採樣點進行該預加重,其中S pe (i)為該聲音信號已進行該預加重後的第i個採樣點。
TW110124718A 2021-06-11 2021-07-06 用於梅爾頻率倒譜係數的實現的優化方法 TWI788905B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110652181.6A CN115472177A (zh) 2021-06-11 2021-06-11 用于梅尔频率倒谱系数的实现的优化方法
CN202110652181.6 2021-06-11

Publications (2)

Publication Number Publication Date
TW202248999A TW202248999A (zh) 2022-12-16
TWI788905B true TWI788905B (zh) 2023-01-01

Family

ID=84365059

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110124718A TWI788905B (zh) 2021-06-11 2021-07-06 用於梅爾頻率倒譜係數的實現的優化方法

Country Status (3)

Country Link
US (1) US11804238B2 (zh)
CN (1) CN115472177A (zh)
TW (1) TWI788905B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198706A1 (en) * 2001-05-07 2002-12-26 Yu-Hung Kao Implementing a high accuracy continuous speech recognizer on a fixed-point processor
US20170133022A1 (en) * 2012-10-15 2017-05-11 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
CN110377786A (zh) * 2019-07-24 2019-10-25 中国传媒大学 音乐情感分类方法
TW202001874A (zh) * 2018-06-28 2020-01-01 新唐科技股份有限公司 語音活動偵測系統

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE527833T1 (de) * 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
CN113378108B (zh) * 2020-02-25 2023-04-18 珠海市煊扬科技有限公司 音频处理装置的快速傅立叶变换电路

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198706A1 (en) * 2001-05-07 2002-12-26 Yu-Hung Kao Implementing a high accuracy continuous speech recognizer on a fixed-point processor
US20170133022A1 (en) * 2012-10-15 2017-05-11 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
TW202001874A (zh) * 2018-06-28 2020-01-01 新唐科技股份有限公司 語音活動偵測系統
CN110377786A (zh) * 2019-07-24 2019-10-25 中国传媒大学 音乐情感分类方法

Also Published As

Publication number Publication date
CN115472177A (zh) 2022-12-13
US20220399031A1 (en) 2022-12-15
TW202248999A (zh) 2022-12-16
US11804238B2 (en) 2023-10-31

Similar Documents

Publication Publication Date Title
Parhi et al. Low-complexity Welch power spectral density computation
Søndergaard et al. The linear time frequency analysis toolbox
Chang et al. On the fixed-point accuracy analysis of FFT algorithms
EP2290938B1 (en) Signal processing method, data processing method and data processing apparatus
US9431987B2 (en) Sound synthesis with fixed partition size convolution of audio signals
US20230015161A1 (en) Hybrid noise suppression for communication systems
US20040162866A1 (en) System and method for producing fast modulated complex lapped transforms
Oo et al. Phase and reverberation aware DNN for distant-talking speech enhancement
Bank et al. Efficient design of a parallel graphic equalizer
Tohyama Waveform Analysis of Sound
TWI788905B (zh) 用於梅爾頻率倒譜係數的實現的優化方法
JP5774191B2 (ja) オーディオ信号において卓越周波数を減衰させるための方法および装置
CN111739555B (zh) 基于端到端深度神经网络的音频信号处理方法及装置
CN112397086A (zh) 语音关键词检测方法、装置、终端设备和存储介质
WO2021007902A1 (zh) 语音滤波方法、装置、介质和电子设备
JP7461020B2 (ja) 音声信号処理装置、音声信号処理システム、音声信号処理方法、およびプログラム
CN110807169B (zh) 一种用于音频信号的快速处理方法
US6343304B1 (en) Apparatus with selective fixed-coefficient filter for performing recursive discrete cosine transforms
WO2020162188A1 (ja) 潜在変数最適化装置、フィルタ係数最適化装置、潜在変数最適化方法、フィルタ係数最適化方法、プログラム
US7925213B2 (en) Method and system for audio signal processing for Bluetooth wireless headsets using a hardware accelerator
Li et al. Dual-stream speech dereverberation network using long-term and short-term cues
CN114900730B (zh) 延时估计稳态值的获取方法、装置、电子设备和存储介质
Shekarchi et al. Compression of head-related transfer function using autoregressive-moving-average models and Legendre polynomials
KR100790534B1 (ko) 컨벌루션 중첩-보류 기법이 적용되는 신호처리 장치 및방법
Lan et al. Research on improved DNN and MultiResU_Net network speech enhancement effect