TW201342362A - 低功率語音檢測 - Google Patents

低功率語音檢測 Download PDF

Info

Publication number
TW201342362A
TW201342362A TW101144776A TW101144776A TW201342362A TW 201342362 A TW201342362 A TW 201342362A TW 101144776 A TW101144776 A TW 101144776A TW 101144776 A TW101144776 A TW 101144776A TW 201342362 A TW201342362 A TW 201342362A
Authority
TW
Taiwan
Prior art keywords
audio signal
voltage
clock frequency
module
fft
Prior art date
Application number
TW101144776A
Other languages
English (en)
Other versions
TWI489448B (zh
Inventor
Arijit Raychowdhury
Willem Beltman
James W Tschanz
Carlos Tokunaga
Michael E Deisher
Thomas E Walsh
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of TW201342362A publication Critical patent/TW201342362A/zh
Application granted granted Critical
Publication of TWI489448B publication Critical patent/TWI489448B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Mathematical Optimization (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本發明揭示能夠以最低功率消耗進行語音處理的方法,包括於一第一時脈頻率與一第一電壓記錄時域音頻訊號,以及於一第二時脈頻率對該時域音頻訊號執行快速傅立葉轉換(TFT)運算以產生一頻域音頻訊號。該頻域音頻訊號可經由一或多個濾波和增強技術而被增強以獲得較佳的訊號雜訊比。增強音頻訊號可被用來產生總訊號能量並估計背景雜訊能量。決定邏輯可從該訊號能量與該背景雜訊決定人聲存在與否。該第一時脈頻率可能不同於該第二時脈頻率。

Description

低功率語音檢測
本發明的實施例一般係與音訊處理相關。更特別地,實施例係與語音辨識相關。
語音命令和持續的語音辨識對於鍵盤功能有限的行動運算裝置來說很重要。然而,持續收聽環境中可能的語音可能會造成耗費相當大的功率,因此,大多數的系統都需要使用者在開始聽之前輸入命令。此種方式可能會帶來不便,同時也限制了許多潛在應用的可行性。
本發明的實施例所提到的設備係包括邏輯,其將時域音頻訊號儲存在被設置以根據一第一時脈頻率與一第一電壓而運算的記憶體中,並根據一第二時脈頻率與一第二電壓,對該時域音頻訊號,執行快速傅立葉轉換(Fast Fourier Transform,FFT)運算以產生頻域音頻訊號。
本發明的實施例所提到的電腦實施方法包括記錄於第一時脈頻率與第一電壓之時域音頻訊號。對於第二時脈頻率之該時域音頻訊號執行快速傅立葉轉換(FFT)運算以產生頻域音頻訊號,其中該第一時脈頻率快於該第二時脈頻率。
本發明的實施例可包括一種具有一組指令的電腦可讀 取的儲存媒體,如果被處理器執行,使得一電腦記錄於第一時脈頻率與第一電壓之時域音頻訊號;以及對於第二時脈頻率之該時域音頻訊號,執行快速傅立葉轉換(FFT)運算,以產生一頻域音頻訊號,其中該第一時脈頻率快於該第二時脈頻率。
接著請參考第1圖,所示為一語音辨識系統(speech recognition system)100的實施例的方塊圖範例。系統可包括一預處理模組(pre-processing module)101,被組態用以擷取音頻訊號,一前端處理模組(frontend processing module)102,被組態用以處理音頻訊號並檢測任何在音頻訊號內的人聲資訊,以及一後端處理模組(backend processing module)103,被組態用以分析人聲資訊與執行和人聲資訊相關的運算。要注意的是音頻訊號可包括背景雜訊與人聲資訊。
預處理模組101可包括一用來擷取音頻訊號如脈衝密度調變(Pulse Density Modulation,PDM)資訊流的錄音機(recorder)105(例如麥克風)。PDM資訊流可包括數位格式的時域音頻訊號。預處理模組101可包括脈衝密度調變(PDM)至脈碼調變(Pulse-code modulation,PCM)轉換器110,被組態用以接收PDM資訊流與產生PCM資訊流。PCM資訊流可被視為PDM資訊流的數位表示。PCM資訊流包括未編碼或原始資訊。在一些實施例中可直接接收PCM資訊流。舉例來說,錄音機105可包括產生PCM資訊流的整合功能。
前端處理模組102(也稱為語音活動檢測(voice activity detection,VAD)模組)可包括一分框與分窗模組(framing and windowing module)115,被組態用以將來自PDM-PCM轉換器110的資訊流分框與分窗。分框與分窗模組115可根據取樣率(sampling rate)與訊框大小(frame size)將資訊流分框與分窗為多個訊框(如第2圖所示)。舉例來說,取樣率可設為16 kHz,而訊框大小可設為32 ms(毫秒)。視實施方式,可使用不同的取樣率和不同的訊框大小。對一些實施例來說,訊框可能會互相重疊,但是有非重疊的窗口。舉例來說,2個連續各具有32ms大小的訊框可有22 ms重疊,而10 ms為非重疊的窗口。以16 kHz取樣率和32 ms訊框大小作為範例,每個訊框的取樣數可為16×32=512。
快速傅立葉轉換模組(FFT模組)120可被組態用以接收PCM資訊流的訊框,並執行將這些訊框由時域表示轉換為頻域表示的轉換。音頻訊號的頻域表示可顯示在一頻率範圍中的每一給定頻帶的能量或訊號等級(如第2圖所示)。在FFT模組120執行過轉換運算後,雜訊估計與抑制模組(noise estimation and suppression module)125可分析於頻域表示的音頻訊號,並濾掉任何沒有和人聲資訊同一頻帶的雜訊資訊。對一些實施例來說,雜訊估計與抑制模組125可為可程式化帶通濾波器(programmable band-pass filter)。一般來說,人聲的頻帶大約在20 Hz與7 KHz(在此稱為人聲頻帶)之間。雜訊估計與抑制模 組125可被組態用以檢測任何在人聲頻帶之外的能量或訊號等級,並當作頻外能量(out-of-band energy)加以抑制。
人聲和背景雜訊之間的數值性質可能會不同。對一些實施例來說,雜訊估計與抑制模組125可假定人聲通常的形式是短暫猝發(short burst)然後接著是暫停,通常可表示為高幅能量的短暫猝發,接著是低幅能量,藉此來分辨人聲與背景雜訊。人聲的能量類型和背景雜訊的不同,後者的能量平均振幅會維持差不多,或者是從一段時間到另一段時間緩慢改變。因此,就可以追蹤和估計一段時間內的背景雜訊。
人聲檢測模組(human voice detection module)130可被組態用以使用背景雜訊估計以決定在人聲頻帶中是否有人聲的存在。對一些實施例來說,人聲檢測模組130可決定在以頻域表示的訊框內的總能量,將其與估計的雜訊能量比較,並決定在該訊框內是否有人聲存在。舉例來說,當總能量大於背景雜訊能量乘上一臨限(threshold),則可能有人聲資訊135。當總能量約小於或等於背景雜訊能量,人聲資訊135可能不存在。當人聲資訊135不存在,前端處理模組102的運算可繼續由雜訊估計與抑制模組125進行下個訊框的雜訊估計與抑制。
後端處理模組103可包括語音處理模組(voice processing module)140,被組態用以接收來自前端處理模組102的人聲資訊135,並決定人聲資訊135中可能包 括的命令或指令。語音處理模組140可根據所決定的命令或指令而運算。
接下來請參考第2圖,圖表200係用來表示與音頻訊號相關的能量與訊框範例。圖表200包括由錄音機105(如第1圖所示)擷取一段時間的音頻訊號的能量。圖表200的縱軸(vertical axis)205可代表能量的振幅,而橫軸(horizontal axis)210可代表時間。對一些實施例來說,音頻訊號可被分割為數個重疊的訊框,舉例來說,訊框215、220與225。在此例中,每一個訊框215、220與225有一32 ms的長度,彼此間相差一個10 ms的非重疊窗口(non-overlapping window)230。第1圖的FFT模組120可先處理涵蓋0 ms至31 ms的窗口的訊框215。而在10ms後,FFT模組120可處理涵蓋10 ms至41 ms的窗口的訊框220。接著,在10ms後,FFT模組120可處理涵蓋20 ms至51 ms的窗口的訊框225。
若採用16 kHz的取樣率,每一個訊框215、220與225可包括512個樣本。視所選擇的取樣率和訊框大小而定,可有不同的樣本數,但通常為2的乘羃。對一些實施例來說,FFT模組120(第1圖)應該可以在一類似非重疊窗口的時間內完成每一個訊框的轉換運算(從時域表示轉換至頻域表示),例如10 ms。在其他的實施例中,FFT模組應該可以在非重疊窗口的一小段時間完成轉換運算。舉例來說,FFT模組可能只需要10 ms的10%(或1 ms)來完成處理。FFT模組的運算可以下列的方程式表 示:X(k)=FFT(X(t)) 方程式1
其中X(k)為音頻訊號的頻域表示,X(t)為音頻訊號的時域表示,k的數值從1到頻帶總數不等(例如512),而t表示時間。方程式1的結果可能是512點的FFT(根據512個樣本的範例)。FFT運算的結果接著會被雜訊估計與抑制模組125(第1圖)濾波,以移除任何頻外雜訊。雜訊估計與抑制模組125的濾波運算可以下列的方程式表示:Y(k)=H(k)*X(k) 方程式2
其中Y(k)為濾波運算的結果,H(k)為濾波函數,X(k)為音頻訊號的頻域表示,k的數值從1到頻帶總數不等(例如512)。濾波運算是將音頻訊號的頻域表示X(k)通過濾波器以移除任何頻外雜訊。
參考第3圖,其為表示雜訊抑制的示範實施例的方塊圖。一旦完成運算後,可應用一或多個雜訊抑制運算以移除或抑制任何非人聲的雜訊。對一些實施例來說,每一個雜訊抑制運算可能是與一個不同的雜訊抑制技術相關。多個不同的技術可結合以執行雜訊抑制運算。參考第3圖,過濾的資訊(filtered information)305會被傳送到第一雜訊抑制模組(first noise suppression module)310。應可了解的是,一串具有相同大小的訊框可用來將過濾的資訊305傳送給第一雜訊抑制模組310,第一雜訊抑制模組310所產生的結果資訊可被傳送至第二雜訊抑制模組 315,以此類推,直到第N個雜訊抑制模組320產生增強音頻訊號(在此稱為增強音頻資訊)325。舉例來說,第一雜訊抑制模組310可採用具固定係數的延遲與加法波束形成器(delay and sum beam former),而第二雜訊抑制模組315可採用頻譜追蹤(spectral tracking)與次頻帶域文納濾波(sub-band domain Wiener filtering)的技術。在利用第3圖的雜訊抑制運算處理過後,增強音頻訊號325可具有比接收到的音頻訊號要高的訊號雜訊比(signal to noise ratio)。
增強音頻訊號325可包括一串具有相同大小的訊框。在第1圖內的人聲檢測模組130可處理增強音頻訊號325以檢測人聲的存在。視實施方式而定,處理增強音頻訊號325的方式可有不同。以下是人聲檢測模組130在處理增強音頻訊號325時可用的第一演算法的虛擬碼(pseudo code)的範例:
任務1:針對增強音頻訊號325的每一訊框,決定總能量L(n)為:L(n)=(abs(FFT Output)* H)2其中“abs”為絕對值函數(absolute function),“FFT Output”是FFT模組120的運算結果,而H為濾波函數。
任務2:針對增強音頻訊號325的每一訊框,估計背景雜訊(或雜訊最低能量)Lmin(n)為: If (L(n) > Lmin(n-1)) Lmin(n)=(1-A) * Lmin(n-1)+A * L(n); Else Lmin(n)=(1-B) * Lmin(n-1)+B * L(n); End其中A與B為具有定值的參數,Lmin(n)為現行訊框的背景雜訊能量,而Lmin(n-1)為先前訊框的背景雜訊能量。
任務3:針對增強音頻訊號325的每一訊框,決定有人聲V(n)的存在。在有人聲時,設定V(n)=1,當沒有人聲時,設定V(n)=0。藉由比較第一演算法的任務1的總能量L(n)和第一演算法的任務2的背景雜訊Lmin(n)的最低能量,可做出決定。 If (L(n) < Lmin(n) * Tdown) V(n)=0; Elseif (L(n) > Lmin(n) * Tup OR silentframe < 4) V(n)=1; Else V(n)=V(n-1); If (L(n) < Lmin(n) * Tdown) silentframe++; speechframe=0; Elseif (L(n) > Lmin(n) * Tup) silentframe=0; speechframe++;其中Tup與Tdown為具有定值的參數。
以下是人聲檢測模組130可用來處理增強音頻訊號 325的第二演算法的虛擬碼範例。第二演算法與第一演算法類似,只是加上了濾波和輪廓追蹤運算的額外函數。
任務1:針對增強音頻訊號325的每一訊框,決定總能量L(n)為:L(n)=(abs(FFT Output)* H)2其中“abs”為絕對值函數(absolute function),“FFT Output”是FFT模組120的頻域表示結果,而H為濾波函數。
任務2:針對增強音頻訊號325的每一訊框,應用中值濾波函數(median filtering function)H(n)以移除任何高頻雜訊,以輪廓追蹤函數(contour tracking function)CT(n)移除任何猝發的雜訊並決定每一訊框的平均能量。H(n)=medianfilter(L(n-S):L(n)) CT(n)=mean(H(n-4):H(n))
任務3:針對增強音頻訊號325的每一訊框,決定有人聲V(n)的存在。在有人聲時,設定V(n)=1,當沒有人聲時,設定V(n)=0。藉由比較第二演算法的任務1的總能量L(n)和第二演算法的任務2的輪廓追蹤運算CT(n)的結果,可做出決定。 If (L(n) < CT(n) * DB) V(n)=0; Elseif (L(n) > CT(n) * DB OR silentframe < 4) V(n)=1; If (L(n) < Lmin(n) * Tdown)silentframe++; speechframe=0; Elseif (L(n) > Lmin(n) * Tup) Silentframe=0; speechframe++;其中Tup與Tdown為具有定值的參數,而Tup與Tdown的數值會依實施方式而有不同。
要注意的是第一與第二演算法的效率可能視背景雜訊的情形而定。第一演算法在有均勻的背景雜訊的情形下表現較好。第二演算法在背景雜訊有包括非人聲的假性高頻雜訊的情形下表現較好。
以下參考第4圖,其為示範與人聲檢測運算相關的錯誤接受率(false acceptance)與錯誤拒絕率(false rejection rate)的圖表400。在處理增強音頻訊號325以決定是否有人聲時,有二種可能的錯誤類型。第一種錯誤類型(稱為假拒絕錯誤)是拒絕了可能包括人聲的音頻訊號。第二種錯誤類型(稱為假接受錯誤)是把雜訊當作人聲而接收,而雜訊中可能沒有包括人聲。對一些實施例來說,可用一或更多個臨限參數(threshold parameter)來控制錯誤拒絕率與錯誤接受率。舉例來說,當臨限參數被設為低數值,所有的雜訊可能都會被當成人聲,當臨限參數被設為高數值,所有不包括人聲的雜訊可能會都被拒 絕。藉由程式化一或更多個臨限參數,可達到不同的操作點。參考上述的第一與第二演算法範例,臨限參數可包括“A”、“B”、“DB”、“Tup”,以及“Tdown”。
示範圖表400包括代表增強音頻訊號325的一訊框之錯誤接受率的縱軸(vertical axis)405和代表錯誤拒絕率的橫軸(horizontal axis)410。曲線(curve)420可代表與上述第一演算法相關的操作點,而曲線425可代表與上述第一演算法相關的操作點。在曲線420與425上的每一點可代表一操作點。在此範例中,背景雜訊可為5dB。要注意的是曲線425的錯誤接受率和錯誤拒絕率通常要比第一演算法要低,這可能是因為採用額外的中值濾波與輪廓追蹤函數的緣故。
第5圖所示為一語音活動檢測模組(voice activity detection module)的硬體架構實施範例。圖示500可包括一些前端處理模組102(如第1圖所示)所包括的元件。對一些實施例來說,第1圖的分框與分窗模組115可以軟體方式實施,因此並不包括在圖示500內。在圖示500內所可能出現的前端處理模組102的元件包括FFT模組120、雜訊估計與抑制模組125,以及人聲檢測模組130。
要注意的是在圖示500內有2個區段。第一區段包括在虛線區塊505內的元件。第二區段包括在虛線區塊505外的元件。對一些實施例來說,在虛線區塊505內的元件可被組態用以在低電壓(低Vcc)下操作,而它們可被組態用以在低時脈頻率(在此稱為時脈1)下操作。虛線區 塊505外的元件可被組態用以在高電壓(高Vcc)下操作,而它們可被組態用以在高時脈頻率(在此稱為時脈16,因為是16倍)下操作。虛線區塊505內的元件可包括FFT模組525與乘法與濾波模組(multiplication and filtering module)520,以及語音活動檢測模組(voice activity detection module)550與555。FFT模組525可對應第1圖的FFT模組120,乘法與濾波模組520可對應第1圖的雜訊估計與抑制模組125,而語音活動檢測模組550、555可對應第1圖的人聲檢測模組130。
與時域表示音頻訊號相關的資訊可儲存在記憶體模組(memory module)510與515內。在此範例中,每一個記憶體模組510、515可包括512條48位元的線。因此,總記憶體大小為2×512×48位元。在讀取記憶體模組510與515的資訊時,資訊可經由多工器(multiplexer)511、516被傳送至訊框緩衝器(frame buffer)540,接著到訊框緩衝器545。要注意的是訊框緩衝器540係位於虛線區塊505外,而訊框緩衝器545係位於虛線區塊505內。因此,訊框緩衝器540相較於訊框緩衝器545,前者可在較高的電壓與時脈頻率(例如時脈16)下操作。
FFT模組525可被組態為一個32點FFT或16點FFT模組,其中FFT模組525的組態可由控制模組(control module)560控制。FFT模組525可將來自記憶體模組510、515的資訊從時域表示轉換為頻域表示。乘法與濾波模組520可接收來自FFT模組525的結果,並執行雜訊濾 波與雜訊抑制運算,以產生增強音頻訊號325(如第3圖所示)。增強音頻訊號325接著可被儲存在訊框緩衝器535,其中增強音頻訊號325可由語音活動檢測模組550或555處理。視實施方式而定,可能會有多個語音活動模組平行操作。每一個語音活動檢測模組550與555可採用不同的演算法(例如上述的第一或第二演算法)。如前述,位於虛線區塊505內的元件可被組態於低頻率(或時脈1)以及低電壓(或低Vcc)下操作。位於虛線區塊505外的元件可被組態於高頻率(或時脈16)以及高電壓(或高Vcc)下操作。這麼做的明顯優勢是位於虛線區塊505內的元件消耗較少功率。
以下參考第6圖,其為512點快速傅立葉轉換的示範方塊圖。圖示600包括4個平面。X平面610、Y平面620、Z平面630,以及W平面640。X平面610可具有16列和32行,總共16×32=512個資訊點。X平面610的資訊點可對應第5圖的FFT模組525從記憶體模組510、515所接收到的資訊。
對一些實施例來說,X平面610的512個資訊點可利用32點FFT運算轉換。由於X平面610內有16列,32點FFT運算轉換會執行16次。對X平面610的每一列的資訊點所進行的每一個32點FFT運算的結果顯示在Y平面620的對應列。舉例來說,X平面610的第一列的資訊點(X(0),X(16),...,X(495))的32點FFT運算的結果係反映在Y平面620的第一列(Y(0),Y(16),...,Y(495))。
FFT運算係以複數為主,每一個複數具有一個實數和虛數部分。X平面610的資訊點可包括實數資訊而沒有任何虛數資訊,因為它們代表的是實際的音訊輸入訊號。X平面610可為實數平面。然而,在Y平面620內的資訊點就可能包括實數和虛數部分。Y平面620可被稱為複數平面。Y平面620的資訊點接著可乘上一組虛數轉換因數(imaginary twiddle factor)625。此一轉換因數625可對應第5圖的乘法與濾波模組520所執行的乘法運算。對一些實施例來說,轉換因數625可包括4個平行運算的複數乘法器(complex multiplier)。由於Y平面620有512個資訊點,因此會有128個乘法週期,以算出Z平面630所用的512個資訊點。Z平面630可被稱為複數平面。
對一些實施例來說,Z平面630的資訊點可採用16點FFT運算加以轉換。此一運算是對Z平面630的每一列的資訊點(例如Z(0),Z(1),...,Z(15))做16-點FFT運算。由於在Z平面630有32列,16點FFT運算需進行32次。對Z平面630的每一列的資訊點所進行的每一個16點FFT運算的結果會反映在W平面640的對應列。舉例來說,Z平面630的第一列的資訊點(Z(0),Z(1),...,Z(15))的16點FFT運算的結果係反映在W平面640的第一列(W(0),W(32),...,W(480))。
第7圖所示為根據一實施例的快速傅立葉轉換模組的硬體實施範例之方塊圖。FFT模組700可稱為混合FFT模組,因為它可用來執行32點FFT和16點FFT運算。FFT 模組700可對應第5圖的FFT模組525。第5圖中的512個資訊點的分解方式適用於音訊、語音,或談話處理。因為這些應用適合串列執行的運算。舉例來說,512個資訊點的分解可包括使用32點的FFT運算(16次),接著是512次複數乘法與最後的16點FFT運算(32次)。這麼做可能會比對X平面610的所有資訊點平行執行512點FFT運算要慢一些。
為了要能夠於低頻率(例如4 MHz)下以低功率操作,可能需要盡可能地縮減硬體架構。應注意的是,在如此低頻率下大多數的功率都是漏功率,所以採用相同硬體串列執行運算,可以在動作和漏功率(active and leakage power)之間取得平衡。對一些實施例來說,與其使用2個不同的FFT模組,一個作為32點FFT運算,一個用於16點FFT運算,FFT模組700可同時用來執行32點和16點FFT操作。FFT模組700可包括2個16點FFT 710、720。16點FFT 710、720被組態用以平行操作。
第一個16點FFT 710可連結16點FFT輸入705與其訊號Y(0)至Y(15),或者其可連結32點FFT輸入715的16個第一輸入訊號X(0)至X(15)。第二個16點FFT 720可連接32點FFT輸入715的下16個輸入訊號X(16)至X(31)。
在FFT模組700內的16點FFT 710、720的其中之一可連接一控制訊號(control signal)725。控制訊號725可與多工器(multiplexer)730耦接。當控制訊號725是 在第一設定(例如0)下,其可能讓多工器730接受輸入訊號705,並接著讓FFT模組700以16點FFT模組方式運作。當控制訊號725是在第二設定(例如1)下,其可能讓多工器730接受輸入訊號715,並接著讓FFT模組700以32點FFT模組方式運作。
藉由使用FFT模組700來取代獨立的32點FFT模組與16點FFT模組,加法器的總數可以從大約9500降至約8300,而乘法器的總數可以從大約312降至約56。如此可顯著地省下功率和面積,只是可能會有在接受度範圍內的潛時。
第8圖所示為一乘法與濾波模組的硬體實施範例圖。乘法與濾波模組800可被組態用以執行複數乘法運算與濾波運算。對一些實施例來說,第8圖的複數乘法運算可作為第6圖所示的轉換因數的一部分。對一些實施例來說,第8圖的濾波運算可在FFT運算之後執行。乘法與濾波模組800可對應第5圖所示的乘法與濾波模組520。
乘法與濾波模組800可被組態用以執行2個複數(a+jb)與(c+jd)的相乘。一般來說,這2個複數的相乘係如下如示:X=a+jb
Y=c+jd
Z=X * Y=(ac+bd)+j(ad+bc)
其中X與Y為輸入訊號,而Z為輸出訊號。為了執 行上述乘法,傳統方法需要用到4個乘法器與2個加法器。複數乘法可利用4個平行運算的複數乘法器來實施。以下是在使用傳統技術以實施上述操作時所需要的硬體相關資訊的一些範例:邏輯位準(Logic level)=52
分支細胞格(Leaf cell)=3264
對一些實施例來說,經過修正,相同2個複數相乘可如下所示:X=a+jb
Y=c+jd
(ac-bd)=a(c+d)-a(d+b) (在此“ad”項彼此抵銷)
(ad+bc)=a(c+d)-a(c-b) (在此“ac”項彼此抵銷)
Z=X * Y=(ac+bd)+j(ad+bc).
為了要執行上述乘法,需要3個乘法器與5個加法器。要注意的是,與傳統技術相較下,在修正過後的做法中所需的乘法器數目較少,但是加法器比較多。這是可以接受的,因為乘法器不論是功率或是面積所耗費的都比加法器多。以下是在使用修正技術以實施上述操作時所需要的硬體相關資訊的一些範例:邏輯位準(Logic level)=53
分支細胞格(Leaf cell)=2848(在此細胞格的數目要比傳統技術少)
參考第8圖,3個乘法器包括乘法器810、820與850。5個加法器包括860、865、870,以及在輸入端用於 “c-b”與“b+d”的2個。乘法與濾波模組800的輸入訊號可傳送至一組多工器802、804、806,與808。當這些多工器被設定至一個數值(例如0),乘法與濾波模組800可被組態用以執行複數乘法運算。舉例來說,在第一個多工器802,訊號“c-b”可被傳輸至多工器810。在第二個多工器804,訊號“a”可被傳輸至多工器810,讓多工器810產生“a(c-b)”的結果。在第三個多工器806,訊號“b+d”可被傳輸至多工器820。在第四個多工器808,訊號“a”可被傳輸至多工器820,讓多工器820產生“a(b+d)”的結果。多工器810與820的結果可用於加法器860、865與870,以產生Z的結果,也就是X*Y=(ac+bd)+j(ad+bc)。
乘法與濾波模組800可在多工器802、804、806,與808被設定至一個數值(例如1)時,被設定以執行濾波運算。在此情形下,乘法與濾波模組800可被組態用以過濾FFT運算的表示式“Coff*abs(xR+jxI)*abs(xR+jxI))”之絕對值平方,其中“xR+jxI”為複數,“abs”是絕對值函數,而“Coff”為一係數。該表示式的相等數學式為“Coff(xR2+xI2)”。此一表示式係顯示在第8圖的右側。輸入xR與xI為多工器802、804、806,與808的輸入。第一多工器810接著可產生“xR2”的結果,而第二多工器820可產生“xI2”的結果。這些結果接著通過係數848、多工器840,以及多工器850以產生表示式“Coff(xR2+xI2)”的數值。
第9圖所示為處理音頻訊號以檢測人音頻訊號的示範 方法之流程圖。本方法可對應第5圖所示的硬體架構。本方法可以用一組被儲存在機器或電腦可讀取媒體,像是RAM、ROM、PROM,以及快閃記憶體等內的邏輯指令實施,以可組態邏輯如PLA、FPGA,與CPLD實施,以ASIC、CMOS或TTL技術所製成的固定功能邏輯硬體實施,或上述的組合實施。舉例來說,用以實施本發明的運算之電腦程式碼可以寫在一或更多個程式化語言的任何組合內,包括物件導向程式化語言像是C++或其類似者,或傳統的程序型程式化語言,像是"C"程式語言或類似的程式語言。
區塊905將音頻訊號儲存於記憶體內。如前述,音頻訊號可包括人聲和其他雜訊,像是背景雜訊。音頻訊號可由錄音機錄下並儲存於時域。記憶體可被組態於第一時脈頻率(例如高頻率)下操作。記憶體可被組態於第一電壓(例如高Vcc)下操作。
區塊910是用以對音頻訊號執行FFT運算,以便從時域轉換為頻域。FFT運算可根據音頻訊號的訊框來進行。如前述,訊框可利用分框與分窗運算決定。FFT運算可採用可組態的FFT模組,其可被組態為不同類型的FFT模組(例如32點的FFT模組或16點的FFT模組)。可組態的FFT模組可於第二時脈頻率(例如低頻率)下操作。可組態的FFT模組也可於第二電壓(例如低Vcc)下操作。
區塊915是在區塊910的FFT運算後,以其所得的頻 域結果進行雜訊抑制與濾波運算,並以第二電壓為主。濾波運算可以採用第8圖所示之可組態的乘法與濾波硬體。雜訊抑制運算可利用第3圖所示的一或更多個雜訊抑制技術。區塊915的雜訊抑制與濾波運算可於第二時脈頻率(例如低頻率)下操作。雜訊抑制與濾波運算也可於第二電壓(例如低Vcc)下操作。
區塊920是在區塊915的雜訊抑制與濾波運算完成後進行語音檢測。如第5圖所示,可採用一或更多個語音檢測演算法。在一訊框中的總能量和背景雜訊可用來決定人聲的存在。區塊920的語音檢測運算可於第二時脈頻率(例如低頻率)下進行。語音檢測運算也可於第二電壓(例如低電壓)下進行。
本發明的實施例係適用於各種類型的半導體積體電路(IC)晶片。IC晶片的範例包括但不限於處理器、控制器、晶片組元件、可程式邏輯陣列(programmable logic array,PLA)、記憶體晶片、網路晶片、系統晶片(systems on chip,SoC)、SSD/NAND控制器ASIC,以及其類似者。此外,在某些圖示中,訊號傳導線是以線段表示。有些可能以不同方式表示,以顯示更多構成訊號路徑,具有標號,以顯示一數目的構成訊號路徑,以及/或者在一或更多個端點具有箭頭,以顯示主要的訊息流方向。然而,上述並非用以限制本發明。更確切地說,所增加的細節可用於一或更多個示範實施例,以方便了解電路的作用。任何圖中繪示的訊號線,不管是否具有額外的資 訊,都可實際上包含一或更多個能夠多方向傳送的訊號,並可利用任何適用的訊號類型實施,例如以差動對實施的數位或類比線路、光纖線路,以及/或者單端線路。
本說明書中有提出示範的尺寸/模型/數值/範圍,不過本發明的實施例並不在此限。由於製造技術(例如微影蝕刻技術)不斷進步,因此裝置尺寸會越來越小。此外,已知的IC晶片功率/接地連結和其他元件可能沒有顯示在圖中,用以簡化圖示與討論,不應用以混淆本發明的特定實施例。此外,配置是以方塊圖的型式顯示,以避免混淆本發明的實施例,同時要注意的是此種方塊圖配置與實施的平台高度相關,也就是說,熟悉此技藝者應可充分了解本發明的特定細節。由於本說明書已提出諸多細節以敘述本發明的示範實施例,熟悉此技藝者應可了解,本發明的實施例不一定需要這些特定細節才能實施。在此所提出的範例係用以舉例而非限制本發明。
「耦接(coupled)」一詞在此可用於所討論的元件間的任何類型,不管是直接或間接的關係,並可以應用於電氣、機械、流體、光學、電磁、電機械,或其他連結上。此外,「第一(first)」、「第二(second)」只是方便討論,並且不代表任何特定的時間或時間先後的意義,除非另外有標示。
熟悉此技藝者應可了解本發明的實施例於先前所述的廣泛技術可以各種不同的形式實施。因此,儘管本發明的實施例已經透過上述特定範例加以說明,不過其實際範疇 不應受限於此,而熟悉此技藝者在閱讀過上述圖表、實施例說明以及後續的申請專利範圍後,應可了解其他修改方式。
100‧‧‧語音辨識系統
101‧‧‧預處理模組
102‧‧‧前端處理模組
103‧‧‧後端處理模組
105‧‧‧錄音機
110‧‧‧脈衝密度調變至脈碼調變轉換器
115‧‧‧分框與分窗模組
120‧‧‧快速傅立葉轉換模組
125‧‧‧雜訊預估與抑制模組
130‧‧‧人聲檢測模組
135‧‧‧人聲資訊
140‧‧‧語音處理模組
200‧‧‧圖表
205‧‧‧縱軸
210‧‧‧橫軸
215‧‧‧訊框
220‧‧‧訊框
225‧‧‧訊框
230‧‧‧非重疊窗口
305‧‧‧過濾的資訊
310‧‧‧第一雜訊抑制模組
315‧‧‧第二雜訊抑制模組
320‧‧‧第N個雜訊抑制模組
325‧‧‧增強音頻訊號
400‧‧‧圖表
405‧‧‧縱軸
410‧‧‧橫軸
420‧‧‧曲線
425‧‧‧曲線
500‧‧‧圖示
505‧‧‧虛線區塊
510‧‧‧記憶體模組
511‧‧‧多工器
515‧‧‧記憶體模組
516‧‧‧多工器
520‧‧‧乘法與濾波模組
525‧‧‧FFT模組
535‧‧‧訊框緩衝器
540‧‧‧訊框緩衝器
545‧‧‧訊框緩衝器
550‧‧‧語音活動檢測模組
555‧‧‧語音活動檢測模組
560‧‧‧控制模組
600‧‧‧圖示
610‧‧‧X平面
620‧‧‧Y平面
625‧‧‧虛數轉換因數
630‧‧‧Z平面
700‧‧‧FFT模組
705‧‧‧16點FFT輸入
710‧‧‧16點FFT
715‧‧‧FFT輸入
720‧‧‧16點FFT
725‧‧‧控制訊號
730‧‧‧多工器
800‧‧‧乘法與濾波模組
802‧‧‧多工器
804‧‧‧多工器
806‧‧‧多工器
808‧‧‧多工器
810‧‧‧乘法器
820‧‧‧乘法器
848‧‧‧係數
850‧‧‧乘法器
860‧‧‧加法器
865‧‧‧加法器
870‧‧‧加法器
熟悉此技藝者將可透過以下的說明書與附屬的專利範例,並配合圖表說明,更為理解本發明的各種優點,其中:第1圖所示為一語音辨識系統的實施例的方塊圖範例;第2圖所示的圖表為根據一實施例的音頻訊號的相關能量與訊框範例;第3圖所示為雜訊抑制的示範實施例的方塊圖;第4圖所示為與人聲檢測運算相關的錯誤接受率與錯誤拒絕率的示範圖表;第5圖所示為一語音活動檢測模組的硬體架構實施範例;第6圖所示為根據一實施例的512點快速傅立葉轉換的示範方塊圖;第7圖所示為根據一實施例的快速傅立葉轉換模組的硬體實施範例之方塊圖;第8圖所示為根據一實施例的乘法與濾波模組的硬體實施範例圖;以及第9圖所示為處理音頻訊號以檢測音頻訊號的示範方 法之流程圖。
100‧‧‧語音辨識系統
101‧‧‧預處理模組
102‧‧‧前端處理模組
103‧‧‧後端處理模組
105‧‧‧錄音機
110‧‧‧脈衝密度調變至脈碼調變轉換器
115‧‧‧分框與分窗模組
120‧‧‧快速傅立葉轉換模組
125‧‧‧雜訊預估與抑制模組
130‧‧‧人聲檢測模組
135‧‧‧人聲資訊
140‧‧‧語音處理模組

Claims (25)

  1. 一種設備,包含:邏輯,用以將時域音頻訊號儲存在被設置以根據一第一時脈頻率與一第一電壓而運算的記憶體中,以及根據一第二時脈頻率與一第二電壓,對該時域音頻訊號,執行快速傅立葉轉換(Fast Fourier Transform,FFT)運算以產生一頻域音頻訊號。
  2. 如申請專利範圍第1項所述之設備,其中該邏輯係用以:執行一第一組FFT運算;執行複數乘積運算;以及串聯該第一組FFT運算以執行一第二組FFT運算。
  3. 如申請專利範圍第2項所述之設備,其中該第二時脈頻率慢於該第一時脈頻率,以及其中該第二電壓低於該第一電壓。
  4. 如申請專利範圍第3項所述之設備,其中該邏輯係用以:執行雜訊抑制運算;根據該第二時脈頻率與該第二電壓,對該頻域音頻訊號執行濾波運算,以產生一增強音頻訊號。
  5. 如申請專利範圍第4項所述之設備,其中該等複數乘積運算與濾波運算係以一相同硬體組件實施。
  6. 如申請專利範圍第4項所述之設備,其中該邏輯 係用以根據該第二時脈頻率與該第二電壓,對該增強音頻訊號執行人聲偵測運算。
  7. 如申請專利範圍第6項所述之設備,其中該邏輯係用以決定該增強音頻訊號的一訊框內的總能量,以及決定在該增強音頻訊號的該訊框內的背景雜訊。
  8. 如申請專利範圍第7項所述之設備,其中該邏輯係用以執行中值濾波運算,以及執行輪廓追蹤運算。
  9. 如申請專利範圍第7項所述之設備,其中該邏輯係用以根據該第一時脈頻率與該第一電壓,執行與該被偵測人聲相關的命令。
  10. 一種電腦實施方法,包含:記錄於第一時脈頻率與第一電壓之時域音頻訊號;以及對於第二時脈頻率之該時域音頻訊號執行快速傅立葉轉換(FFT)運算以產生頻域音頻訊號,其中該第一時脈頻率快於該第二時脈訊號。
  11. 如申請專利範圍第10項所述之方法,其中該等FFT運算係以低於該第一電壓之第二電壓執行。
  12. 如申請專利範圍第11項所述之方法,更包含:對於該第二時脈頻率與該第二電壓之該頻域音頻訊號,執行雜訊抑制運算以產生一增強音頻訊號。
  13. 如申請專利範圍第12項所述之方法,更包含:對於該第二時脈頻率與該第二電壓之該增強音頻訊號,執行人聲偵測運算以偵測人聲。
  14. 如申請專利範圍第13項所述之方法,其中執行該等人聲偵測運算的步驟包括:決定該增強音頻訊號的訊框內的總能量;決定與該增強音頻訊號的該訊框內的背景雜訊相關之能量;以及藉由將該增強音頻訊號的該訊框內的總能量減去與背景雜訊相關的能量,以偵測該人聲。
  15. 如申請專利範圍第13項所述之方法,更包括:於該第一時脈頻率與該第一電壓執行一與該人聲相關的命令。
  16. 如申請專利範圍第15項所述之方法,其中該時域音頻訊號係於該第一時脈頻率與該第一電壓被連續記錄並從脈衝密度調變(PDM)被轉換為脈碼調變(PCM)。
  17. 如申請專利範圍第16項所述之方法,其中該等FFT運算係串聯地執行。
  18. 一種包含一組指令的電腦可讀取的儲存媒體,如果被處理器執行,使得一電腦:記錄於第一時脈頻率與第一電壓之時域音頻訊號;以及對於第二時脈頻率之該時域音頻訊號,執行快速傅立葉轉換(FFT)運算,以產生一頻域音頻訊號,其中該第一時脈頻率快於該第二時脈訊號。
  19. 如申請專利範圍第18項所述之媒體,其中該等FFT運算係以低於該第一電壓之第二電壓執行。
  20. 如申請專利範圍第19項所述之媒體,更包含一組指令,如果被該處理器執行,使得該電腦:於該第二時脈頻率與該第二電壓對該頻域音頻訊號執行雜訊抑制運算,以產生增強音頻訊號;於該第二時脈頻率與該第二電壓對該增強音頻訊號執行人聲偵測運算以偵測人聲;以及於該第一時脈頻率與該第一電壓執行一與該人聲相關的命令。
  21. 如申請專利範圍第20項所述之媒體,其中該等人聲偵測運算係藉由:決定該增強音頻訊號的一訊框內的總能量;決定與該增強音頻訊號的該訊框內的背景雜訊相關之能量;以及藉由將該增強音頻訊號的該訊框內的總能量減去與背景雜訊相關的能量以偵測該人聲。
  22. 如申請專利範圍第21項所述之媒體,其中該時域音頻訊號係於該第一時脈頻率與該第一電壓被連續記錄。
  23. 一種系統,包含:預處理模組,被組態用以根據第一時脈頻率與第一電壓擷取音頻訊號為脈衝密度調變(PDM)資訊流,並且用以將該等PDM資訊流轉換為脈碼調變(PCM)資訊流;前端處理模組,耦接至該預處理模組,並被組態用以將該等PCM資訊流框架與區間為多重訊框;以及快速傅立葉轉換(FFT)模組,耦接至該前端處理模組,被組態用以根據第二時脈頻率與第二電壓,接收該等 PCM資訊流的訊框並執行將該些訊框從該時域表示至頻域表示的轉換,其中該第二時脈頻率不同於該第一時脈頻率,而該第二電壓不同於該第一電壓。
  24. 申請專利範圍第23項所述之系統,其中該第一時脈頻率快於該第二時脈頻率,以及其中該第二電壓低於該第一電壓。
  25. 申請專利範圍第24項所述之系統,更包含:雜訊估計與抑制模組,耦接至該FFT模組,被組態用以分析在該頻域表示內的該等訊框並用以濾掉不在與人聲的一相同頻帶內的雜訊資訊;人聲偵測模組,耦接至該雜訊估計與抑制模組,被組態用以根據一人聲頻帶與使用一背景雜訊估計以決定是否在該等訊框內有人聲的存在;以及語音處理模組,耦接至該人聲偵測模組,被組態用以決定一與該人聲相關的命令並用以執行與該命令相關的運算。
TW101144776A 2011-12-06 2012-11-29 低功率語音檢測的設備與系統及電腦實施方法,及其電腦可讀取儲存媒體 TWI489448B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2011/063622 WO2013085499A1 (en) 2011-12-06 2011-12-06 Low power voice detection

Publications (2)

Publication Number Publication Date
TW201342362A true TW201342362A (zh) 2013-10-16
TWI489448B TWI489448B (zh) 2015-06-21

Family

ID=48574714

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101144776A TWI489448B (zh) 2011-12-06 2012-11-29 低功率語音檢測的設備與系統及電腦實施方法,及其電腦可讀取儲存媒體

Country Status (5)

Country Link
US (1) US9633654B2 (zh)
EP (1) EP2788979A4 (zh)
CN (1) CN103959376B (zh)
TW (1) TWI489448B (zh)
WO (1) WO2013085499A1 (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI419280B (zh) * 2009-01-16 2013-12-11 Univ Nat Taiwan 防止金屬遷移的電子封裝件
WO2013085499A1 (en) 2011-12-06 2013-06-13 Intel Corporation Low power voice detection
US9626963B2 (en) * 2013-04-30 2017-04-18 Paypal, Inc. System and method of improving speech recognition using context
US9711166B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc Decimation synchronization in a microphone
US10020008B2 (en) 2013-05-23 2018-07-10 Knowles Electronics, Llc Microphone and corresponding digital interface
CN105379308B (zh) 2013-05-23 2019-06-25 美商楼氏电子有限公司 麦克风、麦克风系统及操作麦克风的方法
US9502028B2 (en) 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US9147397B2 (en) 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
US9406313B2 (en) 2014-03-21 2016-08-02 Intel Corporation Adaptive microphone sampling rate techniques
WO2016007528A1 (en) 2014-07-10 2016-01-14 Analog Devices Global Low-complexity voice activity detection
WO2016118480A1 (en) 2015-01-21 2016-07-28 Knowles Electronics, Llc Low power voice trigger for acoustic apparatus and method
US9653079B2 (en) * 2015-02-12 2017-05-16 Apple Inc. Clock switching in always-on component
US10121472B2 (en) 2015-02-13 2018-11-06 Knowles Electronics, Llc Audio buffer catch-up apparatus and method with two microphones
US9478234B1 (en) 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
US10048936B2 (en) * 2015-08-31 2018-08-14 Roku, Inc. Audio command interface for a multimedia device
KR20170051856A (ko) * 2015-11-02 2017-05-12 주식회사 아이티매직 사운드 신호에서 진단 신호를 추출하는 방법 및 진단 장치
CN107786931B (zh) * 2016-08-24 2021-03-23 中国电信股份有限公司 音频检测方法及装置
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
US20180224923A1 (en) * 2017-02-08 2018-08-09 Intel Corporation Low power key phrase detection
US10121494B1 (en) * 2017-03-30 2018-11-06 Amazon Technologies, Inc. User presence detection
EP3721429A2 (en) * 2017-12-07 2020-10-14 HED Technologies Sarl Voice aware audio system and method
AU2019244700B2 (en) * 2018-03-29 2021-07-22 3M Innovative Properties Company Voice-activated sound encoding for headsets using frequency domain representations of microphone signals
JP6948609B2 (ja) * 2018-03-30 2021-10-13 パナソニックIpマネジメント株式会社 騒音低減装置
CN110580919B (zh) * 2019-08-19 2021-09-28 东南大学 多噪声场景下语音特征提取方法及可重构语音特征提取装置
CN110556128B (zh) * 2019-10-15 2021-02-09 出门问问信息科技有限公司 一种语音活动性检测方法、设备及计算机可读存储介质
CN111093302B (zh) * 2019-11-26 2023-05-12 深圳市奋达科技股份有限公司 音箱灯光控制方法和音箱
KR20210122348A (ko) * 2020-03-30 2021-10-12 삼성전자주식회사 음성 인식을 위한 디지털 마이크로폰 인터페이스 회로 및 이를 포함하는 전자 장치
CN111508516A (zh) * 2020-03-31 2020-08-07 上海交通大学 基于信道关联时频掩膜的语音波束形成方法
US11646009B1 (en) * 2020-06-16 2023-05-09 Amazon Technologies, Inc. Autonomously motile device with noise suppression

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69228980T2 (de) * 1991-12-06 1999-12-02 Nat Semiconductor Corp Integriertes Datenverarbeitungssystem mit CPU-Kern und unabhängigem parallelen, digitalen Signalprozessormodul
US7992067B1 (en) * 2001-11-09 2011-08-02 Identita Technologies International SRL Method of improving successful recognition of genuine acoustic authentication devices
TWI225640B (en) * 2002-06-28 2004-12-21 Samsung Electronics Co Ltd Voice recognition device, observation probability calculating device, complex fast fourier transform calculation device and method, cache device, and method of controlling the cache device
US7356466B2 (en) * 2002-06-28 2008-04-08 Samsung Electronics Co., Ltd. Method and apparatus for performing observation probability calculations
CN101223490A (zh) 2005-07-14 2008-07-16 Nxp股份有限公司 使用历史负载简档来动态调整手持多媒体设备处理器内核的工作频率及可用功率
KR101315070B1 (ko) * 2005-09-13 2013-10-08 코닌클리케 필립스 일렉트로닉스 엔.브이. 3d 사운드를 발생하기 위한 방법 및 디바이스
JP4542978B2 (ja) * 2005-10-27 2010-09-15 パナソニック株式会社 電源電圧制御装置
US9097783B2 (en) * 2006-04-28 2015-08-04 Telecommunication Systems, Inc. System and method for positioning using hybrid spectral compression and cross correlation signal processing
JP4808108B2 (ja) 2006-08-29 2011-11-02 パナソニック株式会社 プロセッサシステム
JP4757158B2 (ja) 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
JP5228468B2 (ja) * 2007-12-17 2013-07-03 富士通セミコンダクター株式会社 システム装置およびシステム装置の動作方法
MX2011000361A (es) 2008-07-11 2011-02-25 Ten Forschung Ev Fraunhofer Un aparato y un metodo para generar datos de salida por ampliacion de ancho de banda.
US7619551B1 (en) 2008-07-29 2009-11-17 Fortemedia, Inc. Audio codec, digital device and voice processing method
KR101539268B1 (ko) * 2008-12-22 2015-07-24 삼성전자주식회사 수신기의 잡음 제거 장치 및 방법
TWI413111B (zh) 2010-09-06 2013-10-21 Byd Co Ltd Method and apparatus for eliminating noise background noise (2)
TWI413112B (zh) 2010-09-06 2013-10-21 Byd Co Ltd Method and apparatus for eliminating noise background noise (1)
US8806245B2 (en) * 2010-11-04 2014-08-12 Apple Inc. Memory read timing margin adjustment for a plurality of memory arrays according to predefined delay tables
WO2013085499A1 (en) 2011-12-06 2013-06-13 Intel Corporation Low power voice detection
JP6050721B2 (ja) * 2012-05-25 2016-12-21 株式会社半導体エネルギー研究所 半導体装置

Also Published As

Publication number Publication date
CN103959376B (zh) 2019-04-23
US9633654B2 (en) 2017-04-25
US20140236582A1 (en) 2014-08-21
EP2788979A4 (en) 2015-07-22
WO2013085499A1 (en) 2013-06-13
CN103959376A (zh) 2014-07-30
EP2788979A1 (en) 2014-10-15
TWI489448B (zh) 2015-06-21

Similar Documents

Publication Publication Date Title
TWI489448B (zh) 低功率語音檢測的設備與系統及電腦實施方法,及其電腦可讀取儲存媒體
CN102388416B (zh) 信号处理装置及信号处理方法
Lin et al. Speech enhancement using multi-stage self-attentive temporal convolutional networks
US20070025564A1 (en) Sound source separation apparatus and sound source separation method
WO2019133153A1 (en) Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
Zhang et al. Multi-channel multi-frame ADL-MVDR for target speech separation
CN105118522A (zh) 噪声检测方法及装置
JPH0312319B2 (zh)
CN111667834B (zh) 一种助听设备及助听方法
Kim et al. Efficient implementation of the room simulator for training deep neural network acoustic models
JP6966750B2 (ja) ブラインド信号分離のための方法、装置及び電子デバイス
Chao et al. Cross-domain single-channel speech enhancement model with bi-projection fusion module for noise-robust ASR
Labied et al. An overview of automatic speech recognition preprocessing techniques
Hou et al. Multi-task learning for end-to-end noise-robust bandwidth extension
Lin et al. Speaker-aware speech enhancement with self-attention
Chi et al. Spectro-temporal modulation energy based mask for robust speaker identification
US11765522B2 (en) Speech-tracking listening device
Zhang et al. A speech separation algorithm based on the comb-filter effect
Kasim et al. Real-time architecture and FPGA implementation of adaptive general spectral substraction method
CN114302286A (zh) 一种通话语音降噪方法、装置、设备及存储介质
Naresh et al. PSoC based isolated speech recognition system
Li et al. Dynamic attention based generative adversarial network with phase post-processing for speech enhancement
CN111933111A (zh) 语音唤醒方法、装置、电子设备和存储介质
Jung et al. A voice activity detection system based on fpga
JP2020012928A (ja) 耐雑音音声認識装置及び方法、並びにコンピュータプログラム

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees