TWI788905B

TWI788905B - 用於梅爾頻率倒譜係數的實現的優化方法

Info

Publication number: TWI788905B
Application number: TW110124718A
Authority: TW
Inventors: 談力立; 王志林; 曹曉峰; 李曉煥
Original assignee: 瑞昱半導體股份有限公司
Priority date: 2021-06-11
Filing date: 2021-07-06
Publication date: 2023-01-01
Also published as: CN115472177A; US20220399031A1; TW202248999A; US11804238B2

Abstract

本發明公開一種用於梅爾頻率倒譜係數的實現的優化方法，包括如下步驟。在分框的步驟中，用400×16的靜態隨機存取記憶體來對聲音信號的多個採樣點完成有交疊的暫存，並且將聲音信號分解為多個訊框。每一訊框為400個採樣點，相鄰兩訊框之間則具有重疊區域，且重疊區域包含了240個採樣點。接著，在加窗的步驟中，用位元層級設計來讓每一訊框乘以窗函數，並且在快速傅立葉轉換的步驟中，對已進行分框及加窗後的訊框信號做512點快速傅立葉轉換，以得到相對應的頻譜。

Description

用於梅爾頻率倒譜係數的實現的優化方法

本發明涉及梅爾頻率倒譜係數的實現，特別涉及一種用於梅爾頻率倒譜係數的實現的優化方法。

在聲音處理領域中，梅爾頻率倒譜是基於對數能量頻譜在非線性梅爾刻度上的線性轉換，且梅爾頻率倒譜係數（Mel-Frequency Cepstral Coefficients，MFCC）就是組成梅爾頻率倒譜的係數。MFCC已廣泛用於語言識別領域，且MFCC的實現主要包括如下步驟。

1.分框（Framing）：將聲音信號分解為多個訊框，且每一訊框為聲音信號的400個採樣點。

2.加窗（Windowing）：將每一訊框乘以窗函數，例如漢明（Hamming）窗，以增加訊框左端與右端的連續性。

3.快速傅立葉轉換（Fast Fourier Transform，FFT）：對已進行分框及加窗後的訊框信號做FFT，以得到相對應的頻譜。

4.梅爾濾波（Mel Filtering）：將訊框信號獲得的頻譜通過梅爾濾波器來得到梅爾刻度。

5.非線性轉換（Non-linear Transformation）：對梅爾濾波器得到的梅爾刻度取對數。

6.離散餘弦轉換（Discrete Cosine Transform，DCT）：對取得的對數能量做DCT，以轉換為倒頻譜域並得到MFCC。

然而，上述各步驟都還有可改善空間，因此如何提供出一種用於MFCC的實現的優化方法則成為本領域的一項重要課題。

有鑑於此，本發明實施例提供一種用於MFCC的實現的優化方法，包括如下步驟。在分框的步驟中，用400×16的靜態隨機存取記憶體（Static Random Access Memory，SRAM）來對聲音信號的多個採樣點完成有交疊的暫存，並且將聲音信號分解為多個訊框。每一訊框為400個採樣點，相鄰兩訊框之間則具有重疊區域，且重疊區域包含了240個採樣點。接著，在加窗的步驟中，用位元層級（Bit Level）設計來讓每一訊框乘以窗函數，並且在快速傅立葉轉換的步驟中，對已進行分框及加窗後的訊框信號做512點快速傅立葉轉換，以得到相對應的頻譜。

優選地，在快速傅立葉轉換的步驟中，更使用座標旋轉數位計算器（Coordinate Rotational Digital Computer，CORDIC）來完成快速傅立葉轉換的所有乘法運算。

優選地，優化方法更包括在梅爾濾波的步驟中，將訊框信號獲得的頻譜通過階數不同的26個濾波器來獲得梅爾刻度，並且更可採用兩個乘法器和兩個加法器來實現梅爾濾波的所有運算。

優選地，優化方法更包括在非線性轉換的步驟中，把對梅爾刻度取對數用的ln公式改成log ₂公式，以減少一個乘法器，同時使用移位加插值的方式來實現該log ₂公式，以得到對數能量。

優選地，優化方法更包括在DCT的步驟中，用13個乘法器和13個累加器來完成對得到的對數能量做DCT，以得到13個MFCC。

為使能更進一步瞭解本發明的特徵及技術內容，請參閱以下有關本發明的詳細說明與圖式，然而所提供的圖式僅用於提供參考與說明，並非用來對本發明加以限制。

以下是通過特定的具體實施例來說明本發明的實施方式，本領域技術人員可由本說明書所提供的內容瞭解本發明的優點與效果。本發明可通過其他不同的具體實施例加以施行或應用，本說明書中的各項細節也可基於不同觀點與應用，在不悖離本發明的構思下進行各種修改與變更。另外，本發明的附圖僅為簡單示意說明，並非依實際尺寸的描繪，事先聲明。以下的實施方式將進一步詳細說明本發明的相關技術內容，但所提供的內容並非用以限制本發明的保護範圍。

應當理解的是，雖然本文中可能會使用到“第一”、“第二”、“第三”等術語來描述各種元件或者信號，但這些元件或者信號不應受這些術語的限制。這些術語主要是用以區分一元件與另一元件，或者一信號與另一信號。另外，本文中所使用的術語“或”，應視實際情況可能包含相關聯的列出項目中的任一個或者多個的組合。

請參閱圖1，圖1是本發明實施例所提供用於MFCC的實現的優化方法的步驟流程圖。如圖1所示，在分框的步驟S130中，本實施例會用400×16的靜態隨機存取記憶體來對聲音信號的多個採樣點完成有交疊的暫存，並且將聲音信號分解為多個訊框。

每一訊框為400個採樣點，且為了避免相鄰兩訊框的變化過大，因此本實施例會讓相鄰兩訊框之間具有重疊區域，且重疊區域包含了240個採樣點，也就是說訊框彼此間隔160個採樣點。接著，在加窗的步驟S140中，本實施例會用位元層級設計來讓每一訊框乘以窗函數。窗函數可為漢明窗，且每一訊框乘以漢明窗的公式為：

為窗長度，也就是說在本實施例中，

為訊框內的採樣點個數，即400。另外，

為訊框中的第

個採樣點，且

則為訊框乘以漢明窗後的第

個採樣點。

然後，在快速傅立葉轉換的步驟S150中，本實施例會對已進行分框及加窗後的訊框信號，即

到

做512點快速傅立葉轉換，以得到相對應的頻譜。需說明的是，在快速傅立葉轉換的步驟S150中，本實施例更可使用座標旋轉數位計算器來完成快速傅立葉轉換的所有乘法運算。

由此可見，相較於現有技術，本發明已提出了用於MFCC的實現的優化方法。另外，在梅爾濾波的步驟S160中，本實施例會將訊框信號獲得的頻譜通過階數不同的26個濾波器來獲得梅爾刻度。

然而，如果要獨立計算，最後一個濾波器就需要45個乘法運算，因此在梅爾濾波的步驟S160中，根據所有奇數級的濾波器或所有偶數級的濾波器會有首尾相連的特性，本實施例更可採用兩個乘法器和兩個加法器來實現梅爾濾波的所有運算。

另外，在非線性轉換的步驟S170中，本實施例會把對梅爾刻度取對數用的ln公式改成log ₂公式，以減少一個乘法器，同時使用移位加插值的方式來實現該log ₂公式，以得到對數能量。該ln公式為：

為對數能量，

為頻譜，且

為濾波器。另外，這裡的

和

分別為濾波器個數和快速傅立葉轉換長度，即26和512，且該log ₂公式為：

最後，因為26×13矩陣的特殊性不能採用現有實現方法中係數對稱的特性，所以在DCT的步驟S180中，本實施例會直接使用13個乘法器和13個累加器來完成對得到的對數能量做DCT，以得到13個MFCC，即其公式為：

是指MFCC的係數階數，本領域技術人員可依據實際需求來決定取哪13個，且

為22。

另一方面，在分框的步驟之前，MFCC的實現更可包括直流偏移補償（DC Offset Compensation）的步驟以及預加重（Pre-emphasis）的步驟，且直流偏移補償的現有公式為：

為聲音信號的第

個採樣點，且

為聲音信號已進行直流偏移補償後的第

個採樣點。另外，預加重的現有公式為：

為聲音信號已進行預加重後的第

個採樣點。然而，因為0.999可相當於

，所以本實施例可把直流偏移補償的現有公式中的乘法改成一次減法，也就是說把直流偏移補償的現有公式修改為：

類似地，因為0.97可相當於

，所以本實施例也可把預加重的現有公式修改為：

換句話說，圖1的優化方法更可包括在直流偏移補償的步驟S110中，利用公式：

來對聲音信號的每一採樣點進行直流偏移補償，並且在預加重的步驟S120中，利用公式：

來對聲音信號已進行直流偏移補償後的每一採樣點進行預加重。相對地，分框的步驟S130所指的多個採樣點就是聲音信號已進行預加重後的多個採樣點。

綜上所陳，相較於現有技術，本實施例的直流偏移補償與預加重的公式就不會因有乘法而變得複雜，並且應當理解的是，本實施例的優化方法可讓MFCC的實現做到面積和功耗更省。

以上所提供的內容僅為本發明的優選可行實施例，並非因此侷限本發明的申請專利範圍，所以凡是運用本發明說明書及圖式內容所做的等效技術變化，均包含於本發明的申請專利範圍內。

S110~S180:流程步驟

圖1是本發明實施例所提供用於MFCC的實現的優化方法的步驟流程圖。

S110~S180:流程步驟

Claims

一種用於梅爾頻率倒譜係數的實現的優化方法，其中該梅爾頻率倒譜係數的實現包括分框的步驟、加窗的步驟、快速傅立葉轉換的步驟、梅爾濾波的步驟、非線性轉換的步驟以及離散餘弦轉換的步驟，且該優化方法包括：在該分框的步驟中，用400×16的靜態隨機存取記憶體來對一聲音信號的多個採樣點完成有交疊的暫存，並且將該聲音信號分解為多個訊框，其中每一該些訊框為該些採樣點的400個，該些訊框的相鄰兩個之間則具有一重疊區域，且該重疊區域包含了該些採樣點的240個；在該加窗的步驟中，用位元層級設計來讓每一該些訊框乘以一窗函數，並且在該快速傅立葉轉換的步驟中，對已進行該分框及該加窗後的訊框信號做512點快速傅立葉轉換，以得到相對應的頻譜；在該梅爾濾波的步驟中，將該訊框信號獲得的該頻譜通過階數不同的26個濾波器來獲得梅爾刻度；在該非線性轉換的步驟中，把對該梅爾刻度取對數用的ln公式改成log₂公式，以減少一個乘法器，同時使用移位加插值的方式來實現該log₂公式，以得到對數能量；以及在該離散餘弦轉換的步驟中，用13個乘法器和13個累加器來完成對得到的該對數能量做該離散餘弦轉換，以得到13個梅爾頻率倒譜係數；其中該窗函數為一漢明窗，且每一該些訊框乘以該漢明窗的公式為：
，1
n
N；其中N為400，S _w(n)為每一該些訊框中的第n個採樣點，且S _w '(n)則為每一該些訊框乘以該漢明窗後的第n個採樣點。
如請求項1所述的優化方法，其中在該快速傅立葉轉換的步驟中，更使用座標旋轉數位計算器來完成該快速傅立葉轉換的所有乘法運算。
如請求項1所述的優化方法，其中在該梅爾濾波的步驟中，更採用兩個乘法器和兩個加法器來實現該梅爾濾波的所有運算。
如請求項1所述的優化方法，其中在該分框的步驟之前，該梅爾頻率倒譜係數的實現更包括直流偏移補償的步驟以及預加重的步驟。
如請求項4所述的優化方法，更包括：在該直流偏移補償的步驟中，利用公式：S_of(i)=S_in(i)-S_in(i-1)+S_of(i-1)-2^-10S_of(i-1)來對該聲音信號的每一該些採樣點進行該直流偏移補償，其中S_in(i)為該聲音信號的第i個採樣點，且S_of(i)為該聲音信號已進行該直流偏移補償後的第i個採樣點。
如請求項5所述的優化方法，更包括：在該預加重的步驟中，利用公式：S_pe(i)=S_of(i)-S_of(i-1)+2^-5S_of(i-1)來對該聲音信號已進行該直流偏移補償後的每一該些採樣點進行該預加重，其中S_pe(i)為該聲音信號已進行該預加重後的第i個採樣點。