TWI788905B - 用於梅爾頻率倒譜係數的實現的優化方法 - Google Patents
用於梅爾頻率倒譜係數的實現的優化方法 Download PDFInfo
- Publication number
- TWI788905B TWI788905B TW110124718A TW110124718A TWI788905B TW I788905 B TWI788905 B TW I788905B TW 110124718 A TW110124718 A TW 110124718A TW 110124718 A TW110124718 A TW 110124718A TW I788905 B TWI788905 B TW I788905B
- Authority
- TW
- Taiwan
- Prior art keywords
- mel
- frames
- optimization method
- sound signal
- formula
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000005457 optimization Methods 0.000 title claims abstract description 21
- 238000005070 sampling Methods 0.000 claims abstract description 27
- 230000005236 sound signal Effects 0.000 claims abstract description 21
- 238000001228 spectrum Methods 0.000 claims abstract description 10
- 238000009432 framing Methods 0.000 claims abstract description 8
- 230000003068 static effect Effects 0.000 claims abstract description 5
- 238000001914 filtration Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/147—Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Algebra (AREA)
- Discrete Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Oscillators With Electromechanical Resonators (AREA)
- Cephalosporin Compounds (AREA)
- Transmitters (AREA)
- Electrophonic Musical Instruments (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
- Steroid Compounds (AREA)
Abstract
本發明公開一種用於梅爾頻率倒譜係數的實現的優化方法,包括如下步驟。在分框的步驟中,用400×16的靜態隨機存取記憶體來對聲音信號的多個採樣點完成有交疊的暫存,並且將聲音信號分解為多個訊框。每一訊框為400個採樣點,相鄰兩訊框之間則具有重疊區域,且重疊區域包含了240個採樣點。接著,在加窗的步驟中,用位元層級設計來讓每一訊框乘以窗函數,並且在快速傅立葉轉換的步驟中,對已進行分框及加窗後的訊框信號做512點快速傅立葉轉換,以得到相對應的頻譜。
Description
本發明涉及梅爾頻率倒譜係數的實現,特別涉及一種用於梅爾頻率倒譜係數的實現的優化方法。
在聲音處理領域中,梅爾頻率倒譜是基於對數能量頻譜在非線性梅爾刻度上的線性轉換,且梅爾頻率倒譜係數(Mel-Frequency Cepstral Coefficients,MFCC)就是組成梅爾頻率倒譜的係數。MFCC已廣泛用於語言識別領域,且MFCC的實現主要包括如下步驟。
1.分框(Framing):將聲音信號分解為多個訊框,且每一訊框為聲音信號的400個採樣點。
2.加窗(Windowing):將每一訊框乘以窗函數,例如漢明(Hamming)窗,以增加訊框左端與右端的連續性。
3.快速傅立葉轉換(Fast Fourier Transform,FFT):對已進行分框及加窗後的訊框信號做FFT,以得到相對應的頻譜。
4.梅爾濾波(Mel Filtering):將訊框信號獲得的頻譜通過梅爾濾波器來得到梅爾刻度。
5.非線性轉換(Non-linear Transformation):對梅爾濾波器得到的梅爾刻度取對數。
6.離散餘弦轉換(Discrete Cosine Transform,DCT):對取得的對數能量做DCT,以轉換為倒頻譜域並得到MFCC。
然而,上述各步驟都還有可改善空間,因此如何提供出一種用於MFCC的實現的優化方法則成為本領域的一項重要課題。
有鑑於此,本發明實施例提供一種用於MFCC的實現的優化方法,包括如下步驟。在分框的步驟中,用400×16的靜態隨機存取記憶體(Static Random Access Memory,SRAM)來對聲音信號的多個採樣點完成有交疊的暫存,並且將聲音信號分解為多個訊框。每一訊框為400個採樣點,相鄰兩訊框之間則具有重疊區域,且重疊區域包含了240個採樣點。接著,在加窗的步驟中,用位元層級(Bit Level)設計來讓每一訊框乘以窗函數,並且在快速傅立葉轉換的步驟中,對已進行分框及加窗後的訊框信號做512點快速傅立葉轉換,以得到相對應的頻譜。
優選地,在快速傅立葉轉換的步驟中,更使用座標旋轉數位計算器(Coordinate Rotational Digital Computer,CORDIC)來完成快速傅立葉轉換的所有乘法運算。
優選地,優化方法更包括在梅爾濾波的步驟中,將訊框信號獲得的頻譜通過階數不同的26個濾波器來獲得梅爾刻度,並且更可採用兩個乘法器和兩個加法器來實現梅爾濾波的所有運算。
優選地,優化方法更包括在非線性轉換的步驟中,把對梅爾刻度取對數用的ln公式改成log
2公式,以減少一個乘法器,同時使用移位加插值的方式來實現該log
2公式,以得到對數能量。
優選地,優化方法更包括在DCT的步驟中,用13個乘法器和13個累加器來完成對得到的對數能量做DCT,以得到13個MFCC。
為使能更進一步瞭解本發明的特徵及技術內容,請參閱以下有關本發明的詳細說明與圖式,然而所提供的圖式僅用於提供參考與說明,並非用來對本發明加以限制。
以下是通過特定的具體實施例來說明本發明的實施方式,本領域技術人員可由本說明書所提供的內容瞭解本發明的優點與效果。本發明可通過其他不同的具體實施例加以施行或應用,本說明書中的各項細節也可基於不同觀點與應用,在不悖離本發明的構思下進行各種修改與變更。另外,本發明的附圖僅為簡單示意說明,並非依實際尺寸的描繪,事先聲明。以下的實施方式將進一步詳細說明本發明的相關技術內容,但所提供的內容並非用以限制本發明的保護範圍。
應當理解的是,雖然本文中可能會使用到“第一”、“第二”、“第三”等術語來描述各種元件或者信號,但這些元件或者信號不應受這些術語的限制。這些術語主要是用以區分一元件與另一元件,或者一信號與另一信號。另外,本文中所使用的術語“或”,應視實際情況可能包含相關聯的列出項目中的任一個或者多個的組合。
請參閱圖1,圖1是本發明實施例所提供用於MFCC的實現的優化方法的步驟流程圖。如圖1所示,在分框的步驟S130中,本實施例會用400×16的靜態隨機存取記憶體來對聲音信號的多個採樣點完成有交疊的暫存,並且將聲音信號分解為多個訊框。
每一訊框為400個採樣點,且為了避免相鄰兩訊框的變化過大,因此本實施例會讓相鄰兩訊框之間具有重疊區域,且重疊區域包含了240個採樣點,也就是說訊框彼此間隔160個採樣點。接著,在加窗的步驟S140中,本實施例會用位元層級設計來讓每一訊框乘以窗函數。窗函數可為漢明窗,且每一訊框乘以漢明窗的公式為:
然後,在快速傅立葉轉換的步驟S150中,本實施例會對已進行分框及加窗後的訊框信號,即
到
做512點快速傅立葉轉換,以得到相對應的頻譜。需說明的是,在快速傅立葉轉換的步驟S150中,本實施例更可使用座標旋轉數位計算器來完成快速傅立葉轉換的所有乘法運算。
由此可見,相較於現有技術,本發明已提出了用於MFCC的實現的優化方法。另外,在梅爾濾波的步驟S160中,本實施例會將訊框信號獲得的頻譜通過階數不同的26個濾波器來獲得梅爾刻度。
然而,如果要獨立計算,最後一個濾波器就需要45個乘法運算,因此在梅爾濾波的步驟S160中,根據所有奇數級的濾波器或所有偶數級的濾波器會有首尾相連的特性,本實施例更可採用兩個乘法器和兩個加法器來實現梅爾濾波的所有運算。
最後,因為26×13矩陣的特殊性不能採用現有實現方法中係數對稱的特性,所以在DCT的步驟S180中,本實施例會直接使用13個乘法器和13個累加器來完成對得到的對數能量做DCT,以得到13個MFCC,即其公式為:
換句話說,圖1的優化方法更可包括在直流偏移補償的步驟S110中,利用公式:
來對聲音信號的每一採樣點進行直流偏移補償,並且在預加重的步驟S120中,利用公式:
來對聲音信號已進行直流偏移補償後的每一採樣點進行預加重。相對地,分框的步驟S130所指的多個採樣點就是聲音信號已進行預加重後的多個採樣點。
綜上所陳,相較於現有技術,本實施例的直流偏移補償與預加重的公式就不會因有乘法而變得複雜,並且應當理解的是,本實施例的優化方法可讓MFCC的實現做到面積和功耗更省。
以上所提供的內容僅為本發明的優選可行實施例,並非因此侷限本發明的申請專利範圍,所以凡是運用本發明說明書及圖式內容所做的等效技術變化,均包含於本發明的申請專利範圍內。
S110~S180:流程步驟
圖1是本發明實施例所提供用於MFCC的實現的優化方法的步驟流程圖。
S110~S180:流程步驟
Claims (6)
- 一種用於梅爾頻率倒譜係數的實現的優化方法,其中該梅爾頻率倒譜係數的實現包括分框的步驟、加窗的步驟、快速傅立葉轉換的步驟、梅爾濾波的步驟、非線性轉換的步驟以及離散餘弦轉換的步驟,且該優化方法包括:在該分框的步驟中,用400×16的靜態隨機存取記憶體來對一聲音信號的多個採樣點完成有交疊的暫存,並且將該聲音信號分解為多個訊框,其中每一該些訊框為該些採樣點的400個,該些訊框的相鄰兩個之間則具有一重疊區域,且該重疊區域包含了該些採樣點的240個;在該加窗的步驟中,用位元層級設計來讓每一該些訊框乘以一窗函數,並且在該快速傅立葉轉換的步驟中,對已進行該分框及該加窗後的訊框信號做512點快速傅立葉轉換,以得到相對應的頻譜;在該梅爾濾波的步驟中,將該訊框信號獲得的該頻譜通過階數不同的26個濾波器來獲得梅爾刻度;在該非線性轉換的步驟中,把對該梅爾刻度取對數用的ln公式改成log2公式,以減少一個乘法器,同時使用移位加插值的方式來實現該log2公式,以得到對數能量;以及在該離散餘弦轉換的步驟中,用13個乘法器和13個累加器來完成對得到的該對數能量做該離散餘弦轉換,以得到13個梅爾頻率倒譜係數;其中該窗函數為一漢明窗,且每一該些訊框乘以該漢明窗的公式為: ,1 n N; 其中N為400,S w (n)為每一該些訊框中的第n個採樣點,且S w '(n)則為每一該些訊框乘以該漢明窗後的第n個採樣點。
- 如請求項1所述的優化方法,其中在該快速傅立葉轉換的步驟中,更使用座標旋轉數位計算器來完成該快速傅立葉轉換的所有乘法運算。
- 如請求項1所述的優化方法,其中在該梅爾濾波的步驟中,更採用兩個乘法器和兩個加法器來實現該梅爾濾波的所有運算。
- 如請求項1所述的優化方法,其中在該分框的步驟之前,該梅爾頻率倒譜係數的實現更包括直流偏移補償的步驟以及預加重的步驟。
- 如請求項4所述的優化方法,更包括:在該直流偏移補償的步驟中,利用公式:S of (i)=S in (i)-S in (i-1)+S of (i-1)-2-10S of (i-1)來對該聲音信號的每一該些採樣點進行該直流偏移補償,其中S in (i)為該聲音信號的第i個採樣點,且S of (i)為該聲音信號已進行該直流偏移補償後的第i個採樣點。
- 如請求項5所述的優化方法,更包括:在該預加重的步驟中,利用公式:S pe (i)=S of (i)-S of (i-1)+2-5S of (i-1)來對該聲音信號已進行該直流偏移補償後的每一該些採樣點進行該預加重,其中S pe (i)為該聲音信號已進行該預加重後的第i個採樣點。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110652181.6A CN115472177A (zh) | 2021-06-11 | 2021-06-11 | 用于梅尔频率倒谱系数的实现的优化方法 |
CN202110652181.6 | 2021-06-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202248999A TW202248999A (zh) | 2022-12-16 |
TWI788905B true TWI788905B (zh) | 2023-01-01 |
Family
ID=84365059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110124718A TWI788905B (zh) | 2021-06-11 | 2021-07-06 | 用於梅爾頻率倒譜係數的實現的優化方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11804238B2 (zh) |
CN (1) | CN115472177A (zh) |
TW (1) | TWI788905B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020198706A1 (en) * | 2001-05-07 | 2002-12-26 | Yu-Hung Kao | Implementing a high accuracy continuous speech recognizer on a fixed-point processor |
US20170133022A1 (en) * | 2012-10-15 | 2017-05-11 | Digimarc Corporation | Multi-mode audio recognition and auxiliary data encoding and decoding |
CN110377786A (zh) * | 2019-07-24 | 2019-10-25 | 中国传媒大学 | 音乐情感分类方法 |
TW202001874A (zh) * | 2018-06-28 | 2020-01-01 | 新唐科技股份有限公司 | 語音活動偵測系統 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE527833T1 (de) * | 2006-05-04 | 2011-10-15 | Lg Electronics Inc | Verbesserung von stereo-audiosignalen mittels neuabmischung |
CN113378108B (zh) * | 2020-02-25 | 2023-04-18 | 珠海市煊扬科技有限公司 | 音频处理装置的快速傅立叶变换电路 |
-
2021
- 2021-06-11 CN CN202110652181.6A patent/CN115472177A/zh active Pending
- 2021-07-06 TW TW110124718A patent/TWI788905B/zh active
- 2021-10-29 US US17/514,251 patent/US11804238B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020198706A1 (en) * | 2001-05-07 | 2002-12-26 | Yu-Hung Kao | Implementing a high accuracy continuous speech recognizer on a fixed-point processor |
US20170133022A1 (en) * | 2012-10-15 | 2017-05-11 | Digimarc Corporation | Multi-mode audio recognition and auxiliary data encoding and decoding |
TW202001874A (zh) * | 2018-06-28 | 2020-01-01 | 新唐科技股份有限公司 | 語音活動偵測系統 |
CN110377786A (zh) * | 2019-07-24 | 2019-10-25 | 中国传媒大学 | 音乐情感分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115472177A (zh) | 2022-12-13 |
US20220399031A1 (en) | 2022-12-15 |
TW202248999A (zh) | 2022-12-16 |
US11804238B2 (en) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Parhi et al. | Low-complexity Welch power spectral density computation | |
Søndergaard et al. | The linear time frequency analysis toolbox | |
Chang et al. | On the fixed-point accuracy analysis of FFT algorithms | |
EP2290938B1 (en) | Signal processing method, data processing method and data processing apparatus | |
US9431987B2 (en) | Sound synthesis with fixed partition size convolution of audio signals | |
US20230015161A1 (en) | Hybrid noise suppression for communication systems | |
US20040162866A1 (en) | System and method for producing fast modulated complex lapped transforms | |
Oo et al. | Phase and reverberation aware DNN for distant-talking speech enhancement | |
Bank et al. | Efficient design of a parallel graphic equalizer | |
Tohyama | Waveform Analysis of Sound | |
TWI788905B (zh) | 用於梅爾頻率倒譜係數的實現的優化方法 | |
JP5774191B2 (ja) | オーディオ信号において卓越周波数を減衰させるための方法および装置 | |
CN111739555B (zh) | 基于端到端深度神经网络的音频信号处理方法及装置 | |
CN112397086A (zh) | 语音关键词检测方法、装置、终端设备和存储介质 | |
WO2021007902A1 (zh) | 语音滤波方法、装置、介质和电子设备 | |
JP7461020B2 (ja) | 音声信号処理装置、音声信号処理システム、音声信号処理方法、およびプログラム | |
CN110807169B (zh) | 一种用于音频信号的快速处理方法 | |
US6343304B1 (en) | Apparatus with selective fixed-coefficient filter for performing recursive discrete cosine transforms | |
WO2020162188A1 (ja) | 潜在変数最適化装置、フィルタ係数最適化装置、潜在変数最適化方法、フィルタ係数最適化方法、プログラム | |
US7925213B2 (en) | Method and system for audio signal processing for Bluetooth wireless headsets using a hardware accelerator | |
Li et al. | Dual-stream speech dereverberation network using long-term and short-term cues | |
CN114900730B (zh) | 延时估计稳态值的获取方法、装置、电子设备和存储介质 | |
Shekarchi et al. | Compression of head-related transfer function using autoregressive-moving-average models and Legendre polynomials | |
KR100790534B1 (ko) | 컨벌루션 중첩-보류 기법이 적용되는 신호처리 장치 및방법 | |
Lan et al. | Research on improved DNN and MultiResU_Net network speech enhancement effect |