TWI557728B - 語音辨識裝置及語音辨識方法 - Google Patents

語音辨識裝置及語音辨識方法 Download PDF

Info

Publication number
TWI557728B
TWI557728B TW104102541A TW104102541A TWI557728B TW I557728 B TWI557728 B TW I557728B TW 104102541 A TW104102541 A TW 104102541A TW 104102541 A TW104102541 A TW 104102541A TW I557728 B TWI557728 B TW I557728B
Authority
TW
Taiwan
Prior art keywords
signal
energy
sub
ratio
audio segment
Prior art date
Application number
TW104102541A
Other languages
English (en)
Other versions
TW201627985A (zh
Inventor
杜博仁
張嘉仁
曾凱盟
Original Assignee
宏碁股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 宏碁股份有限公司 filed Critical 宏碁股份有限公司
Priority to TW104102541A priority Critical patent/TWI557728B/zh
Priority to US14/660,886 priority patent/US9589577B2/en
Publication of TW201627985A publication Critical patent/TW201627985A/zh
Application granted granted Critical
Publication of TWI557728B publication Critical patent/TWI557728B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephonic Communication Services (AREA)
  • Spectroscopy & Molecular Physics (AREA)

Description

語音辨識裝置及語音辨識方法
本發明是有關於一種辨識裝置,且特別是有關於一種語音辨識裝置及語音辨識方法。
一般對於聽障人士來說,其往往無法清楚地接收較高頻的語音信號,例如子音信號,但對於低頻的語音信號卻可以清楚地聽到。習知的子音信號判斷方式為在頻域中進行信號處理,判斷方式主要有兩種,非及時子音信號判斷和即時子音判斷。非及時子音信號判斷,主要透過能量和過零率來判斷。即時的子音信號判斷,主要是依據高頻信號與總能量的比例是否大於一固定的值以及低頻信號和總能量的比例是否小於固定的值來決定語音信號是否為子音信號。習知的子音信號判斷方式雖可區別子音信號與雜訊,然其準確度仍無法滿足實際的需求。
本發明提供一種語音辨識裝置及語音辨識方法,可提高 子音信號的辨識準確度。
本發明的語音辨識裝置包括濾波單元以及處理單元。濾波單元對語音信號進行低通濾波、第一子音頻段以及第二子音頻段的帶通濾波,以分別產生低通濾波信號、第一帶通濾波信號以及第二帶通濾波信號。處理單元耦接濾波單元,將語音信號、低通濾波信號、第一帶通濾波信號以及第二帶通濾波信號分為多個音框,其中各個音框包括N個取樣信號,N為正整數,計算目標音框中取樣信號的能量,以獲得原始語音取樣信號能量、低通取樣信號能量、第一子音頻段信號能量以及第二子音頻段信號能量,依據第二子音頻段信號能量、原始語音取樣信號能量與低通取樣信號能量的比值計算得到第二子音頻段信號能量比例值,依據低通取樣信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量比例值至少其一判斷對應目標音框的原始語音取樣信號是否為子音信號。
在本發明的一實施例中,上述處理單元更依據第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值判斷對應目標音框的原始語音取樣信號是否為雜訊。
在本發明的一實施例中,上述處理單元更判斷第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能 量與原始語音取樣信號能量的比值是否分別落於對應的預設比值範圍,若第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值分別落於對應的預設比值範圍,則目標音框的原始語音取樣信號為雜訊信號。
在本發明的一實施例中,上述處理單元更計算原始語音取樣信號能量減去低通取樣信號能量的一能量差值,並計算第二子音頻段信號能量與能量差值的比值,以得到第二子音頻段信號能量比例值。
在本發明的一實施例中,上述處理單元更依據低通取樣信號能量與原始語音取樣信號能量的比值是否小於第一預設比值,以及低通取樣信號能量與原始語音取樣信號能量的比值是否位於預設能量比值範圍內且第二子音頻段信號能量比例值是否大於第二預設比值,來判斷對應目標音框的原始語音取樣信號是否為子音信號。
在本發明的一實施例中,其中若低通取樣信號能量與原始語音取樣信號能量的比值小於第一預設比值,或低通取樣信號能量與原始語音取樣信號能量的比值位於預設能量比值範圍內且第二子音頻段信號能量比例值大於第二預設比值,處理單元更計算多個之前被判斷為雜訊信號的原始語音取樣信號的能量加權平均值,以得到雜訊信號能量加權平均值,並依據目標音框所對應 的原始語音取樣信號能量是否大於雜訊信號能量加權平均值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。
在本發明的一實施例中,上述對應各個被判斷為雜訊信號的原始語音取樣信號的音框的加權值隨對應各個被判斷為雜訊信號的原始語音取樣信號的音框與目標音框的間隔長短不同而改變。
在本發明的一實施例中,上述處理單元更計算目標音框與在目標音框之前的多個音框對應的低通取樣信號能量與原始語音取樣信號能量的比值的平均值,以得到低通取樣信號能量比例平均值,並依據低通取樣信號能量比例平均值是否小於預設平均值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。
在本發明的一實施例中,上述處理單元更計算多個之前被判斷為雜訊信號的原始語音取樣信號的音框所對應的第一子音頻段信號能量與第二子音頻段信號能量的和的加權平均值,以得到子音能量總和子音頻段能量總和加權平均值,並依據目標音框所對應的原始語音取樣信號能量減去低通取樣信號能量所得的差值是否大於子音能量總和子音頻段能量總和加權平均值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。
在本發明的一實施例中,上述對應各個被判斷為雜訊信號的原始語音取樣信號的音框所對應的第一子音頻段信號能量與第二子音頻段信號能量的和的加權值隨對應各個被判斷為雜訊信號的原始語音取樣信號與目標音框之間的間隔長短不同而改變。
在本發明的一實施例中,上述處理單元更依據原始語音取樣信號能量是否大於等於下限值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。
在本發明的一實施例中,上述處理單元更計算原始語音取樣信號的第一過零率、第二過零率以及第三過零率,並計算目標音框與目標音框之前的多個音框的原始語音取樣信號的平均過零率,以得到第一平均過零率、第二平均過零率以及第三平均過零率,並依據第一平均過零率、第二平均過零率以及第三平均過零率是否分別大於等於其對應的預設平均過零率來判斷目標音框所對應的原始語音取樣信號是否為子音信號,第一過零率、第二過零率以及第三過零率分別為在目標音框中原始語音取樣信號通過第一預設值、第二預設值以及第三預設值的次數,第二預設值小於第一預設值且大於第三預設值。
在本發明的一實施例中,上述處理單元更依據第二過零率是否大於等於預設過零率來判斷目標音框所對應的原始語音取樣信號是否為子音信號。
本發明的語音辨識方法包括下列步驟。對語音信號進行低通濾波、第一子音頻段以及第二子音頻段的帶通濾波,以分別產生低通濾波信號、第一帶通濾波信號以及第二帶通濾波信號。將語音信號、低通濾波信號、第一帶通濾波信號與第二帶通濾波信號分為多個音框,其中各個音框包括N個取樣信號,N為正整數。計算目標音框中取樣信號的能量,以獲得原始語音取樣信號 能量、低通取樣信號能量、第一子音頻段信號能量以及第二子音頻段信號能量。依據第二子音頻段信號能量、原始語音取樣信號能量與低通取樣信號能量的比值計算得到第二子音頻段信號能量比例值。依據低通取樣信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量比例值至少其一判斷對應目標音框的原始語音取樣信號是否為子音信號。
在本發明的一實施例中,上述語音辨識方法更包括,依據第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值判斷對應目標音框的原始語音取樣信號是否為雜訊。
在本發明的一實施例中,上述語音辨識方法更包括下列步驟。判斷第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值是否分別落於對應的預設比值範圍。若第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值分別落於對應的預設比值範圍,則目標音框的原始語音取樣信號為雜訊信號。
在本發明的一實施例中,上述語音辨識方法,更包括下列步驟。計算原始語音取樣信號能量減去低通取樣信號能量的能 量差值。計算第二子音頻段信號能量與能量差值的比值,以得到第二子音頻段信號能量比例值。
在本發明的一實施例中,上述語音辨識方法更包括,依據低通取樣信號能量與原始語音取樣信號能量的比值是否小於第一預設比值以及低通取樣信號能量與原始語音取樣信號能量的比值是否位於預設能量比值範圍內且第二子音頻段信號能量比例值是否大於第二預設比值,來判斷對應目標音框的原始語音取樣信號是否為子音信號。
在本發明的一實施例中,其中若低通取樣信號能量與原始語音取樣信號能量的比值小於第一預設比值,或低通取樣信號能量與原始語音取樣信號能量的比值位於預設能量比值範圍內且第二子音頻段信號能量比例值大於第二預設比值,語音辨識方法更包括下列步驟。計算多個之前被判斷為雜訊信號的原始語音取樣信號的能量加權平均值,以得到雜訊信號能量加權平均值。依據目標音框所對應的原始語音取樣信號能量是否大於雜訊信號能量加權平均值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。
在本發明的一實施例中,上述對應各個被判斷為雜訊信號的原始語音取樣信號的音框的加權值隨對應各個被判斷為雜訊信號的原始語音取樣信號的音框與目標音框之間的間隔長短不同而改變。
在本發明的一實施例中,上述語音辨識方法更包括下列 步驟。計算目標音框與在目標音框之前的多個音框對應的低通取樣信號能量與原始語音取樣信號能量的比值的平均值,以得到低通取樣信號能量比例平均值。依據低通取樣信號能量比例平均值是否小於預設平均值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。
在本發明的一實施例中,上述語音辨識方法更包括下列步驟。計算多個之前被判斷為雜訊信號的原始語音取樣信號的音框所對應的第一子音頻段信號能量與第二子音頻段信號能量的和的加權平均值,以得到子音頻段能量總和加權平均值。依據目標音框所對應的原始語音取樣信號能量減去低通取樣信號能量所得的差值是否大於子音頻段能量總和加權平均值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。
在本發明的一實施例中,上述對應各個被判斷為雜訊信號的原始語音取樣信號的音框所對應的第一子音頻段信號能量與第二子音頻段信號能量的和的加權值隨對應各個被判斷為雜訊信號的原始語音取樣信號與目標音框之間的間隔長短不同而改變。
在本發明的一實施例中,上述語音辨識方法更包括,依據原始語音取樣信號能量是否大於下限值等於來判斷目標音框所對應的原始語音取樣信號是否為子音信號。
在本發明的一實施例中,上述語音辨識方法更包括下列步驟。計算原始語音取樣信號的第一過零率、第二過零率以及第三過零率,並計算目標音框與在目標音框之前的多個音框的原始 語音取樣信號的平均過零率,以得到第一平均過零率、第二平均過零率以及第三平均過零率,第一過零率、第二過零率以及第三過零率分別為在目標音框中原始語音取樣信號通過第一預設值、第二預設值以及第三預設值的次數,第二預設值小於第一預設值且大於第三預設值。依據第一平均過零率、第二平均過零率以及第三平均過零率是否分別大於等於其對應的預設平均過零率來判斷目標音框所對應的原始語音取樣信號是否為子音信號。
在本發明的一實施例中,上述語音辨識方法更包括,依據第二過零率是否大於等於預設過零率來判斷目標音框所對應的原始語音取樣信號是否為子音信號。
基於上述,本發明的實施例依據低通取樣信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量比例值至少其一判斷對應目標音框的原始語音取樣信號是否為子音信號,以減低將原始語音取樣信號誤判為子音信號的情形發生,進而提高子音信號的辨識準確度。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
102‧‧‧濾波單元
104‧‧‧處理單元
S1‧‧‧語音信號
S2‧‧‧第一帶通濾波信號
S3‧‧‧第二帶通濾波信號
S4‧‧‧低通濾波信號
S202~S238‧‧‧語音辨識方法的流程步驟
圖1繪示為本發明一實施例之語音辨識裝置的示意圖。
圖2A~2C繪示本發明一實施例之語音辨識方法的流程示意 圖。
圖1繪示為本發明一實施例之語音辨識裝置的示意圖,請參照圖1。語音辨識裝置包括濾波單元102以及處理單元104,濾波單元102耦接處理單元104。濾波單元102可對語音信號S1進行低通濾波、第一子音頻段以及第二子音頻段的帶通濾波,以分別產生低通濾波信號S4、第一帶通濾波信號S2以及第二帶通濾波信號S3,濾波單元102可例如包括低通濾波器與帶通濾波器,而處理單元104可例如以中央處理單元來實施。在本實施例中,低通濾波的切斷頻率為0~2kHz,而第一子音頻段以及第二子音頻段分別為2kHz~4kHz以及4kHz~10kHz,然不以此為限。處理單元104可對語音信號S1、低通濾波信號S4、第一帶通濾波信號S2以及第二帶通濾波信號S3進行取樣,並將語音信號S1、低通濾波信號S4、第一帶通濾波信號S2以及第二帶通濾波信號S3分個為多個音框,其中各個音框可包括N個語音信號S1的取樣信號、N個低通濾波信號S4的取樣信號、N個第一帶通濾波信號S2的取樣信號以及N個第二帶通濾波信號S3的取樣信號。處理單元104還可計算各個音框中取樣信號的能量,以獲得原始語音取樣信號能量、低通取樣信號能量、第一子音頻段信號能量以及第二子音頻段信號能量,其中原始語音取樣信號能量、低通取樣信號能量、第一子音頻段信號能量以及第二子音頻段信號能量 分別對應音框中語音信號S1的取樣信號、低通濾波信號S4的取樣信號、第一帶通濾波信號S2的取樣信號以及第二帶通濾波信號S3的取樣信號的能量。在獲得原始語音取樣信號能量、低通取樣信號能量、第一子音頻段信號能量以及第二子音頻段信號能量後,處理單元104便可依據第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值判斷對應各個音框的原始語音取樣信號是否為雜訊。
詳細來說,處理單元104可判斷第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值是否分別落於其對應的預設比值範圍,若第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值分別落於其對應的預設比值範圍,則目標音框的原始語音取樣信號為雜訊信號。
舉例來說,處理單元104判斷對應一目標音框(例如第m個音框,m為正整數)的原始語音取樣信號是否為雜訊的方式,可以下列式子來判斷:
其中EB1 m 為第一子音頻段信號能量、EB2 m 為第二子音頻段信號能量,而E m 為原始語音取樣信號能量,當式(1)、(2)、(3)皆滿足時,處理單元104判斷第m個音框的原始語音取樣信號為雜訊信號。
在判斷出目標音框的原始語音取樣信號為雜訊信號後,處理單元104還計算在目標音框之前被判斷為雜訊信號的原始語音取樣信號的多個音框的能量加權平均值,以得到雜訊信號能量加權平均值,並依據目標音框所對應的原始語音取樣信號能量是否大於雜訊信號能量加權平均值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。
舉例來說,雜訊信號能量加權平均值可為計算在目標音框之前被判斷為雜訊信號的原始語音取樣信號的3個音框的能量加權平均值而得到,假設在第m個音框之前,最近被判斷為雜訊的三個音框分別為第m-10個音框、第m-12個音框以及第m-20個音框,則對應第m個音框的雜訊信號能量加權平均值AK m 可如下式子所示:
其中E m-10E m-12E m-20分別為第m-10個音框、第m-12個音框以及第m-20個音框的原始語音取樣信號能量,而a0、a1、a2分別為第m-10個音框、第m-12個音框以及第m-20個對應的加權 值。其中加權值a0、a1、a2可為固定值亦或是變動值。舉例來說,對應各個被判斷為雜訊信號的原始語音取樣信號的音框的加權值可隨對應各個被判斷為雜訊信號的原始語音取樣信號的音框與目標音框之間的間隔長短不同而改變。如在本實施例中,加權值a0、a1、a2可隨音框與第m個音框之間的間隔長短不同而改變。當雜訊信號能量加權平均值AK m 滿足下列式子時,可判斷對應第m個音框的原始語音取樣信號為子音信號:E m >AK m (5)
另外,處理單元可計算多個之前被判斷為雜訊信號的原始語音取樣信號的音框所對應的第一子音頻段信號能量與第二子音頻段信號能量的和的加權平均值,以得到子音頻段能量總和加權平均值,並依據目標音框所對應的原始語音取樣信號能量減去低通取樣信號能量所得的差值是否大於子音頻段能量總和加權平均值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。舉例來說,子音頻段能量總和加權平均值可為計算在目標音框之前被判斷為雜訊信號的原始語音取樣信號的3個音框的第一子音頻段信號能量與第二子音頻段信號能量的和的加權平均值而得到,假設在第m個音框之前,最近被判斷為雜訊的三個音框分別為第m-10個音框、第m-12個音框以及第m-20個音框,則對應第m個音框的子音頻段能量總和加權平均值AS m 可如下式子所示:
其中EB1 m-10EB1 m-12EB1 m-20分別為第m-10個音框、第m-12 個音框以及第m-20個音框的第一子音頻段信號能量、EB2 m-10EB2 m-12EB2 m-20分別為第m-10個音框、第m-12個音框以及第m-20個音框的第二子音頻段信號能量,而c0、c1、c2分別為第m-10個音框、第m-12個音框以及第m-20個對應的加權值。其中加權值c0、c1、c2可為固定值亦或是變動值。舉例來說,對應各個被判斷為雜訊信號的原始語音取樣信號的音框所對應的第一子音頻段信號能量與第二子音頻段信號能量的和的加權值隨對應各個被判斷為雜訊信號的原始語音取樣信號與目標音框之間的間隔長短不同而改變。如在本實施例中,加權值c0、c1、c2可隨音框與第m個音框之間的間隔長短不同而改變。當第一子音能量比例加權平均值AS m 滿足下列式子時,可判斷對應第m個音框的原始語音取樣信號為子音信號:E m -EL m >AS m (7)
其中EL m 為對應第m個音框的低通取樣信號能量。
此外,處理單元104還可計算目標音框與目標音框之前多個音框對應的低通取樣信號能量與原始語音取樣信號能量的比值的平均值,以得到低通取樣信號能量比例平均值,例如,對第m個音框而言,低通取樣信號能量比例平均值AU m 下列式子表示:
其中EL m EL m-1為對應第m個音框、第m-1個音框的低通取樣信號能量,E m E m-1分別為第m-個音框、第m-1個音框的原 始語音取樣信號能量。處理單元104可依據低通取樣信號能量比例平均值是否小於預設平均值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。例如,對第m個音框而言,上述判斷方式可以下列式子表示:AU m <0.6 (9)
在本實施例中,預設平均值為0.6,然並不以此為限,預設和值亦可依實際情形調整為其他值。此外,進行低通取樣信號能量比例平均值AU m 之計算的音框個數亦不以本實施例此為限。
又,處理單元104亦可依據第二子音頻段信號能量、原始語音取樣信號能量與低通取樣信號能量的比值計算得到第二子音頻段信號能量比例值,依據低通取樣信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量比例值至少其一判斷對應目標音框的原始語音取樣信號是否為子音信號。例如,處理單元104可計算原始語音取樣信號能量減去低通取樣信號能量的能量差值,並計算第二子音頻段信號能量與能量差值的比值,以得到第二子音頻段信號能量比例值。計算出第二子音頻段信號能量比例值後,處理單元104可依據低通取樣信號能量與原始語音取樣信號能量的比值是否小於第一預設比值,以及低通取樣信號能量與原始語音取樣信號能量的比值是否位於預設能量比值範圍內且第二子音頻段信號能量比例值是否大於第二預設比值,來判斷對應目標音框的原始語音取樣信號是否為子音信號。
舉例來說,對第m個音框而言,上述判斷方式可以下列 式子表示:
在本實施例中,第一預設比值為0.5、第二預設比值為1.3、預設能量比值範圍為0.5~0.6,然不以此為限,在部分實施例中第一預設比值、第二預設比值以及預設能量比值範圍亦可依實際情形調整為其他值。
另外,處理單元104還可依據原始語音取樣信號能量是否大於等於下限值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。例如,對第m個音框而言,上述判斷方式可以下列式子表示:
在本實施例中,下限值為50,然不以此為限,在部分實施例中下限值亦可依實際情形進行調整。
由於子音訊號可能會有能量大小不同的情形出現,在能量比較小的部分會可能會被視為雜訊,為避免此情形,除了上述依據能量來判斷原始語音取樣信號是否為子音信號外,處理單元104亦可依據過零率來判斷原始語音取樣信號是否為子音信號。處理單元104可計算原始語音取樣信號的第一過零率、第二過零率以及第三過零 率,並計算目標音框與目標音框之前多個音框的原始語音取樣信號的平均過零率,以得到第一平均過零率、第二平均過零率以及第三平均過零率,並依據第一平均過零率、第二平均過零率以及第三平均過零率是否分別大於等於其對應的預設平均過零率來判斷目標音框所對應的原始語音取樣信號是否為子音信號。其中第一過零率、第二過零率以及第三過零率分別為在目標音框中原始語音取樣信號通過第一預設值、第二預設值以及第三預設值的次數,其中第二預設值小於第一預設值且大於第三預設值。
對第m個音框而言,原始過零率可如下式所示:
其中N為正整數,其代表在第m個音框內之取樣信號的個數,mL為幅度門檻值,而為在第m個音框內的原始語音取樣信號。處理單元104可依據是否大於等於一預設過零率來判斷原始語音取樣信號是否為子音信號,例如可依據下式來判斷:
其中預設過零率並不以22為限,在部分實施例中其值亦可依實際情形進行調整。此外,處理單元104可另外依據原始語音取樣信號包含能量條件的過零率來判斷原始語音取樣信號是否為子音信號,過零率可如下式所示:
其中可以下式表示:
在本實施例中,α x 之值為0.5,然不以此為限,在部分實施例中其值亦可依實際情形進行調整。如此藉由調整計算過零率的基準,可更精確地判斷原始語音取樣信號是否為子音信號。處理單元104更可依據多個音框的平均過零率來判斷原始語音取樣信號是否為子音信號,舉例來說,對第m個音框而言,可依據其與最近兩個音框(亦即第m-1、m-2個音框)的過零率的平均值來判斷原始語音取樣信號是否為子音信號,其判斷式可如下所示:
如上實施例所述,處理單元104可依據能量或過零率至少之其一來判斷原始語音取樣信號是否為子音信號,亦即處理單元104可綜合上述式子的條件至少其一來判斷對應目標音框的原始語音取樣信號是否為子音信號。舉例來說,處理單元104可判斷式(5)、(7)、(9)、(10)、(13)、(15)、(20)、(21)、(22)是否同時滿足,若同時滿足才判斷對應目標音框的原始語音取樣信號為子音信號。又例如,處理單元104亦可判斷式(5)、(7)、(9)、(11)、 (12)、(13)、(15)、(20)、(21)、(22)是否同時滿足,若同時滿足才判斷對應目標音框的原始語音取樣信號為子音信號。
圖2A~2C繪示本發明一實施例之語音辨識方法的流程示意圖,請參照圖2A~2C。由上述實施例可知,語音辨識裝置的語音辨識方法可包括下列步驟。首先,對語音信號進行低通濾波、第一子音頻段以及第二子音頻段的帶通濾波,以分別產生低通濾波信號、第一帶通濾波信號以及第二帶通濾波信號(步驟S202)。接著,將語音信號、低通濾波信號、第一帶通濾波信號與第二帶通濾波信號分為多個音框(步驟S204),其中各音框包括N個取樣信號,N為正整數。然後,計算目標音框中取樣信號的能量,以獲得一原始語音取樣信號能量、低通取樣信號能量、第一子音頻段信號能量以及第二子音頻段信號能量(步驟S206)。之後,依據第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值判斷對應目標音框的原始語音取樣信號是否為雜訊(步驟S208)。例如,可判斷第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值是否分別落於對應的預設比值範圍,若第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值分別落於 對應的預設比值範圍,則目標音框的原始語音取樣信號為雜訊信號。
之後,再依據第二子音頻段信號能量、原始語音取樣信號能量與低通取樣信號能量的比值計算得到第二子音頻段信號能量比例值,並依據低通取樣信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量比例值至少其一判斷對應目標音框的原始語音取樣信號是否為子音信號。如圖2A~2C所示,可先計算原始語音取樣信號能量減去低通取樣信號能量的能量差值(步驟S210),然後再計算第二子音頻段信號能量與能量差值的比值,以得到第二子音頻段信號能量比例值(步驟S212)。之後再判斷低通取樣信號能量與原始語音取樣信號能量的比值是否小於第一預設比值,以及低通取樣信號能量與原始語音取樣信號能量的比值是否位於預設能量比值範圍內且第二子音頻段信號能量比例值是否大於第二預設比值(步驟S214)。若低通取樣信號能量與原始語音取樣信號能量的比值未小於第一預設比值,或低通取樣信號能量與原始語音取樣信號能量的比值未位於預設能量比值範圍內,或第二子音頻段信號能量比例值未大於第二預設比值,則判斷目標音框所對應的原始語音取樣信號非子音信號(步驟S216)。
相反地,若低通取樣信號能量與原始語音取樣信號能量的比值小於第一預設比值,或低通取樣信號能量與原始語音取樣信號能量的比值位於預設能量比值範圍內且第二子音頻段信號能量比例值大於第二預設比值,則計算多個之前被判斷為雜訊信號 的原始語音取樣信號的音框的能量加權平均值,以得到雜訊信號能量加權平均值(步驟S218)。然後判斷目標音框所對應的原始語音取樣信號能量是否大於雜訊信號能量加權平均值(步驟S220),其中對應各個被判斷為雜訊信號的原始語音取樣信號的音框的加權值可隨對應各個被判斷為雜訊信號的原始語音取樣信號的音框與目標音框之間的間隔長短不同而改變。若目標音框所對應的原始語音取樣信號能量未大於雜訊信號能量加權平均值,則判斷目標音框所對應的原始語音取樣信號非子音信號(步驟S216)。
相反地,若目標音框所對應的原始語音取樣信號能量大於雜訊信號能量加權平均值,則計算目標音框與目標音框之前多個音框對應的低通取樣信號能量與原始語音取樣信號能量的比值的平均值,以得到低通取樣信號能量比例平均值(步驟S222)。然後再判斷低通取樣信號能量比例平均值是否小於預設平均值(步驟S224)。若低通取樣信號能量比例平均值未小於預設平均值,則目標音框所對應的原始語音取樣信號非子音信號(步驟S216)。相反地,若低通取樣信號能量比例平均值小於預設平均值,則接著計算多個之前被判斷為雜訊信號的原始語音取樣信號的音框所對應的第一子音頻段信號能量與第二子音頻段信號能量的和的加權平均值,以得到子音頻段能量總和加權平均值(步驟S226),其中對應各個被判斷為雜訊信號的原始語音取樣信號的音框所對應的第一子音頻段信號能量與第二子音頻段信號能量的和的加權值隨對應各個被判斷為雜訊信號的原始語音取樣信號與目標音框之間 的間隔長短不同而改變。然後再判斷目標音框所對應的原始語音取樣信號能量減去低通取樣信號能量所得的差值是否大於子音頻段能量總和加權平均值(步驟S228),若目標音框所對應的原始語音取樣信號能量減去低通取樣信號能量所得的差值未大於子音頻段能量總和加權平均值,則目標音框所對應的原始語音取樣信號非子音信號(步驟S216)。
相反地,若目標音框所對應的原始語音取樣信號能量減去低通取樣信號能量所得的差值大於子音頻段能量總和加權平均值,則判斷原始語音取樣信號能量是否大於等於下限值(步驟S230)。若原始語音取樣信號能量未大於等於下限值,則目標音框所對應的原始語音取樣信號非子音信號(步驟S216)。相反地,若原始語音取樣信號能量大於等於下限值,則接著計算原始語音取樣信號的第一過零率、第二過零率以及第三過零率,並計算目標音框與目標音框之前多個音框的原始語音取樣信號的平均過零率,以得到一第一平均過零率、一第二平均過零率以及一第三平均過零率(步驟S232)。其中第一過零率、第二過零率以及第三過零率分別為在目標音框中原始語音取樣信號通過第一預設值、第二預設值以及第三預設值的次數,其中第二預設值小於第一預設值且大於第三預設值。然後再判斷第一平均過零率、第二平均過零率以及第三平均過零率是否分別大於等於其對應的預設平均過零率(步驟S234)。若第一平均過零率、第二平均過零率以及第三平均過零率未皆大於等於其對應的預設平均過零率,則目標音框 所對應的原始語音取樣信號非子音信號(步驟S216)。
相反地,若第一平均過零率、第二平均過零率以及第三平均過零率大於等於其對應的預設平均過零率,則接著判斷第二過零率是否大於等於預設過零率(步驟S236)。若第二過零率未大於等於預設過零率,則目標音框所對應的原始語音取樣信號非子音信號(步驟S216)。相反地,若第二過零率大於等於預設過零率,則目標音框所對應的原始語音取樣信號為子音信號(步驟S238)。
綜上所述,本發明可綜合上述式子的條件至少其一來判斷對應目標音框的原始語音取樣信號是否為子音信號,以提高子音信號的辨識準確度。例如可依據低通取樣信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量比例值至少其一判斷對應目標音框的原始語音取樣信號是否為子音信號,以減低將原始語音取樣信號誤判為子音信號的情形發生,進而提高子音信號的辨識準確度。
102‧‧‧濾波單元
104‧‧‧處理單元
S1‧‧‧語音信號
S2‧‧‧第一帶通濾波信號
S3‧‧‧第二帶通濾波信號
S4‧‧‧低通濾波信號

Claims (24)

  1. 一種語音辨識裝置,包括:一濾波單元,對一語音信號進行低通濾波、一第一子音頻段以及一第二子音頻段的帶通濾波,以分別產生一低通濾波信號、一第一帶通濾波信號以及一第二帶通濾波信號;以及一處理單元,耦接該濾波單元,將該語音信號、該低通濾波信號、該第一帶通濾波信號以及該第二帶通濾波信號分為多個音框,其中各該音框包括N個取樣信號,N為正整數,計算目標音框中取樣信號的能量,以獲得一原始語音取樣信號能量、一低通取樣信號能量、一第一子音頻段信號能量以及一第二子音頻段信號能量,依據該第二子音頻段信號能量、該原始語音取樣信號能量與該低通取樣信號能量的比值計算得到一第二子音頻段信號能量比例值,依據該低通取樣信號能量與該原始語音取樣信號能量的比值以及該第二子音頻段信號能量比例值至少其一判斷對應該目標音框的原始語音取樣信號是否為子音信號,其中該處理單元計算該原始語音取樣信號能量減去該低通取樣信號能量的一能量差值,並計算該第二子音頻段信號能量與該能量差值的比值,以得到該第二子音頻段信號能量比例值。
  2. 如申請專利範圍第1項所述的語音辨識裝置,其中該處理單元更依據該第一子音頻段信號能量與該第二子音頻段信號能量的比值、該第一子音頻段信號能量與該原始語音取樣信號能量的比值以及該第二子音頻段信號能量與該原始語音取樣信號能量的 比值判斷對應該目標音框的原始語音取樣信號是否為雜訊。
  3. 如申請專利範圍第2項所述的語音辨識裝置,其中該處理單元更判斷該第一子音頻段信號能量與該第二子音頻段信號能量的比值、該第一子音頻段信號能量與該原始語音取樣信號能量的比值以及該第二子音頻段信號能量與該原始語音取樣信號能量的比值是否分別落於對應的預設比值範圍,若該第一子音頻段信號能量與該第二子音頻段信號能量的比值、該第一子音頻段信號能量與該原始語音取樣信號能量的比值以及該第二子音頻段信號能量與該原始語音取樣信號能量的比值分別落於對應的預設比值範圍,則該目標音框的原始語音取樣信號為雜訊信號。
  4. 如申請專利範圍第1項所述的語音辨識裝置,其中該處理單元更依據該低通取樣信號能量與該原始語音取樣信號能量的比值是否小於一第一預設比值,以及該低通取樣信號能量與該原始語音取樣信號能量的比值是否位於一預設能量比值範圍內且該第二子音頻段信號能量比例值是否大於一第二預設比值,來判斷對應該目標音框的原始語音取樣信號是否為子音信號。
  5. 如申請專利範圍第4項所述的語音辨識裝置,其中若該低通取樣信號能量與該原始語音取樣信號能量的比值小於該第一預設比值,或該低通取樣信號能量與該原始語音取樣信號能量的比值位於該預設能量比值範圍內且該第二子音頻段信號能量比例值大於該第二預設比值,該處理單元更計算多個之前被判斷為雜訊信號的原始語音取樣信號的能量加權平均值,以得到一雜訊信號 能量加權平均值,並依據該目標音框所對應的原始語音取樣信號能量是否大於該雜訊信號能量加權平均值來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
  6. 如申請專利範圍第5項所述的語音辨識裝置,其中對應各該被判斷為雜訊信號的原始語音取樣信號的音框的加權值隨對應各該被判斷為雜訊信號的原始語音取樣信號的音框與該目標音框的間隔長短不同而改變。
  7. 如申請專利範圍第5項所述的語音辨識裝置,其中該處理單元更計算該目標音框與在該目標音框之前的多個音框對應的低通取樣信號能量與原始語音取樣信號能量的比值的平均值,以得到一低通取樣信號能量比例平均值,並依據該低通取樣信號能量比例平均值是否小於一預設平均值來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
  8. 如申請專利範圍第7項所述的語音辨識裝置,其中該處理單元更計算多個之前被判斷為雜訊信號的原始語音取樣信號的音框所對應的該第一子音頻段信號能量與該第二子音頻段信號能量的和的加權平均值,以得到一子音能量總和子音頻段能量總和加權平均值,並依據該目標音框所對應的該原始語音取樣信號能量減去該低通取樣信號能量所得的差值是否大於該子音能量總和子音頻段能量總和加權平均值來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
  9. 如申請專利範圍第8項所述的語音辨識裝置,其中對應各 該被判斷為雜訊信號的原始語音取樣信號的音框所對應的該第一子音頻段信號能量與該第二子音頻段信號能量的和的加權值隨對應各該被判斷為雜訊信號的原始語音取樣信號與該目標音框之間的間隔長短不同而改變。
  10. 如申請專利範圍第8項所述的語音辨識裝置,其中該處理單元更依據該原始語音取樣信號能量是否大於等於一下限值來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
  11. 如申請專利範圍第10項所述的語音辨識裝置,其中該處理單元更計算該原始語音取樣信號的第一過零率、第二過零率以及第三過零率,並計算該目標音框與該目標音框之前的多個音框的原始語音取樣信號的平均過零率,以得到一第一平均過零率、一第二平均過零率以及一第三平均過零率,並依據該第一平均過零率、該第二平均過零率以及該第三平均過零率是否分別大於等於其對應的預設平均過零率來判斷該目標音框所對應的原始語音取樣信號是否為子音信號,該第一過零率、該第二過零率以及該第三過零率分別為在該目標音框中該原始語音取樣信號通過一第一預設值、一第二預設值以及一第三預設值的次數,該第二預設值小於該第一預設值且大於該第三預設值。
  12. 如申請專利範圍第11項所述的語音辨識裝置,其中該處理單元更依據該第二過零率是否大於等於一預設過零率來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
  13. 一種語音辨識方法,包括: 對一語音信號進行低通濾波、一第一子音頻段以及一第二子音頻段的帶通濾波,以分別產生一低通濾波信號、一第一帶通濾波信號以及一第二帶通濾波信號;將該語音信號、該低通濾波信號、該第一帶通濾波信號與該第二帶通濾波信號分為多個音框,其中各該音框包括N個取樣信號,N為正整數;計算目標音框中取樣信號的能量,以獲得一原始語音取樣信號能量、一低通取樣信號能量、一第一子音頻段信號能量以及一第二子音頻段信號能量;計算該原始語音取樣信號能量減去該低通取樣信號能量的一能量差值;計算該第二子音頻段信號能量與該能量差值的比值,以得到一第二子音頻段信號能量比例值;以及依據該低通取樣信號能量與該原始語音取樣信號能量的比值以及該第二子音頻段信號能量比例值至少其一判斷對應該目標音框的原始語音取樣信號是否為子音信號。
  14. 如申請專利範圍第13項所述的語音辨識方法,更包括:依據該第一子音頻段信號能量與該第二子音頻段信號能量的比值、該第一子音頻段信號能量與該原始語音取樣信號能量的比值以及該第二子音頻段信號能量與該原始語音取樣信號能量的比值判斷對應該目標音框的原始語音取樣信號是否為雜訊。
  15. 如申請專利範圍第14項所述的語音辨識方法,更包括: 判斷該第一子音頻段信號能量與該第二子音頻段信號能量的比值、該第一子音頻段信號能量與該原始語音取樣信號能量的比值以及該第二子音頻段信號能量與該原始語音取樣信號能量的比值是否分別落於對應的預設比值範圍;以及若該第一子音頻段信號能量與該第二子音頻段信號能量的比值、該第一子音頻段信號能量與該原始語音取樣信號能量的比值以及該第二子音頻段信號能量與該原始語音取樣信號能量的比值分別落於對應的預設比值範圍,則該目標音框的原始語音取樣信號為雜訊信號。
  16. 如申請專利範圍第13項所述的語音辨識方法,更包括:依據該低通取樣信號能量與該原始語音取樣信號能量的比值是否小於一第一預設比值以及該低通取樣信號能量與該原始語音取樣信號能量的比值是否位於一預設能量比值範圍內且該第二子音頻段信號能量比例值是否大於一第二預設比值,來判斷對應該目標音框的原始語音取樣信號是否為子音信號。
  17. 如申請專利範圍16項所述的語音辨識方法,若該低通取樣信號能量與該原始語音取樣信號能量的比值小於該第一預設比值,或該低通取樣信號能量與該原始語音取樣信號能量的比值位於該預設能量比值範圍內且該第二子音頻段信號能量比例值大於該第二預設比值,該語音辨識方法更包括:計算多個之前被判斷為雜訊信號的原始語音取樣信號的能量加權平均值,以得到一雜訊信號能量加權平均值;以及 依據該目標音框所對應的原始語音取樣信號能量是否大於該雜訊信號能量加權平均值來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
  18. 如申請專利範圍第17項所述的語音辨識方法,其中對應各該被判斷為雜訊信號的原始語音取樣信號的音框的加權值隨對應各該被判斷為雜訊信號的原始語音取樣信號的音框與該目標音框之間的間隔長短不同而改變。
  19. 如申請專利範圍第17項所述的語音辨識方法,更包括:計算該目標音框與在該目標音框之前的多個音框對應的低通取樣信號能量與原始語音取樣信號能量的比值的平均值,以得到一低通取樣信號能量比例平均值;以及依據該低通取樣信號能量比例平均值是否小於一預設平均值來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
  20. 如申請專利範圍第19項所述的語音辨識方法,更包括:計算多個之前被判斷為雜訊信號的原始語音取樣信號的音框所對應的該第一子音頻段信號能量與該第二子音頻段信號能量的和的加權平均值,以得到一子音頻段能量總和加權平均值;以及依據該目標音框所對應的該原始語音取樣信號能量減去該低通取樣信號能量所得的差值是否大於該子音頻段能量總和加權平均值來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
  21. 如申請專利範圍第20項所述的語音辨識方法,其中對應 各該被判斷為雜訊信號的原始語音取樣信號的音框所對應的該第一子音頻段信號能量與該第二子音頻段信號能量的和的加權值隨對應各該被判斷為雜訊信號的原始語音取樣信號與該目標音框之間的間隔長短不同而改變。
  22. 如申請專利範圍第20項所述的語音辨識方法,更包括:依據該原始語音取樣信號能量是否大於一下限值等於來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
  23. 如申請專利範圍第22項所述的語音辨識方法,更包括:計算該原始語音取樣信號的第一過零率、第二過零率以及第三過零率,並計算該目標音框與該目標音框之前的多個音框的原始語音取樣信號的平均過零率,以得到一第一平均過零率、一第二平均過零率以及一第三平均過零率,該第一過零率、該第二過零率以及該第三過零率分別為在該目標音框中該原始語音取樣信號通過一第一預設值、一第二預設值以及一第三預設值的次數,該第二預設值小於該第一預設值且大於該第三預設值;以及依據該第一平均過零率、該第二平均過零率以及該第三平均過零率是否分別大於等於其對應的預設平均過零率來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
  24. 如申請專利範圍第23項所述的語音辨識方法,更包括:依據該第二過零率是否大於等於一預設過零率來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
TW104102541A 2015-01-26 2015-01-26 語音辨識裝置及語音辨識方法 TWI557728B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW104102541A TWI557728B (zh) 2015-01-26 2015-01-26 語音辨識裝置及語音辨識方法
US14/660,886 US9589577B2 (en) 2015-01-26 2015-03-17 Speech recognition apparatus and speech recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW104102541A TWI557728B (zh) 2015-01-26 2015-01-26 語音辨識裝置及語音辨識方法

Publications (2)

Publication Number Publication Date
TW201627985A TW201627985A (zh) 2016-08-01
TWI557728B true TWI557728B (zh) 2016-11-11

Family

ID=56434170

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104102541A TWI557728B (zh) 2015-01-26 2015-01-26 語音辨識裝置及語音辨識方法

Country Status (2)

Country Link
US (1) US9589577B2 (zh)
TW (1) TWI557728B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10297268B2 (en) 2017-02-08 2019-05-21 Acer Incorporated Voice signal processing apparatus and voice signal processing method

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108461090B (zh) * 2017-02-21 2021-07-06 宏碁股份有限公司 语音信号处理装置及语音信号处理方法
CN108733746B (zh) * 2018-04-03 2023-05-02 平安科技(深圳)有限公司 电子装置、提取宏观指数特征的方法及存储介质
CN109741762B (zh) * 2019-02-15 2020-12-22 嘉楠明芯(北京)科技有限公司 声音活动检测方法及装置和计算机可读存储介质
KR102588212B1 (ko) * 2020-11-10 2023-10-13 한국전자통신연구원 Zero UI 기반 자동 통역 시스템 및 방법
US11977855B2 (en) * 2020-11-10 2024-05-07 Electronics And Telecommunications Research Institute System and method for automatic speech translation based on zero user interface

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040175010A1 (en) * 2003-03-06 2004-09-09 Silvia Allegro Method for frequency transposition in a hearing device and a hearing device
TW200832359A (en) * 2007-01-23 2008-08-01 Ind Tech Res Inst Method of a voice signal processing
TW201015538A (en) * 2008-10-15 2010-04-16 Mao-Lin Chen Intelligent speech recognition control device
US8280087B1 (en) * 2008-04-30 2012-10-02 Arizona Board Of Regents For And On Behalf Of Arizona State University Delivering fundamental frequency and amplitude envelope cues to enhance speech understanding
TW201248618A (en) * 2011-05-24 2012-12-01 Qualcomm Inc Noise-robust speech coding mode classification
TW201406169A (zh) * 2012-07-20 2014-02-01 Kuo-Ping Yang 增加聽障者聽到聲音正確性之方法及助聽器

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US8032370B2 (en) * 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
US8321213B2 (en) * 2007-05-25 2012-11-27 Aliphcom, Inc. Acoustic voice activity detection (AVAD) for electronic systems
US8244528B2 (en) * 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8606572B2 (en) * 2010-10-04 2013-12-10 LI Creative Technologies, Inc. Noise cancellation device for communications in high noise environments
US9286907B2 (en) * 2011-11-23 2016-03-15 Creative Technology Ltd Smart rejecter for keyboard click noise
US9437213B2 (en) * 2012-03-05 2016-09-06 Malaspina Labs (Barbados) Inc. Voice signal enhancement
DK2891151T3 (en) * 2012-08-31 2016-12-12 ERICSSON TELEFON AB L M (publ) Method and device for detection of voice activity
CN104871436B (zh) * 2012-12-18 2018-03-16 摩托罗拉解决方案公司 用于减轻在数字无线电接收器中的反馈的方法和设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040175010A1 (en) * 2003-03-06 2004-09-09 Silvia Allegro Method for frequency transposition in a hearing device and a hearing device
TW200832359A (en) * 2007-01-23 2008-08-01 Ind Tech Res Inst Method of a voice signal processing
US8280087B1 (en) * 2008-04-30 2012-10-02 Arizona Board Of Regents For And On Behalf Of Arizona State University Delivering fundamental frequency and amplitude envelope cues to enhance speech understanding
TW201015538A (en) * 2008-10-15 2010-04-16 Mao-Lin Chen Intelligent speech recognition control device
TW201248618A (en) * 2011-05-24 2012-12-01 Qualcomm Inc Noise-robust speech coding mode classification
TW201406169A (zh) * 2012-07-20 2014-02-01 Kuo-Ping Yang 增加聽障者聽到聲音正確性之方法及助聽器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10297268B2 (en) 2017-02-08 2019-05-21 Acer Incorporated Voice signal processing apparatus and voice signal processing method

Also Published As

Publication number Publication date
US20160217787A1 (en) 2016-07-28
TW201627985A (zh) 2016-08-01
US9589577B2 (en) 2017-03-07

Similar Documents

Publication Publication Date Title
TWI557728B (zh) 語音辨識裝置及語音辨識方法
TWI566242B (zh) 語音辨識裝置及語音辨識方法
US9613640B1 (en) Speech/music discrimination
Kim et al. Robust signal-to-noise ratio estimation based on waveform amplitude distribution analysis.
KR101269296B1 (ko) 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
US9959886B2 (en) Spectral comb voice activity detection
CN109643552A (zh) 用于可变噪声状况中语音增强的鲁棒噪声估计
US9454976B2 (en) Efficient discrimination of voiced and unvoiced sounds
US20140309992A1 (en) Method for detecting, identifying, and enhancing formant frequencies in voiced speech
JP2007041593A (ja) 音声信号のハーモニック成分を用いた有声音/無声音分離情報を抽出する方法及び装置
CN104269180B (zh) 一种用于语音质量客观评价的准干净语音构造方法
WO2016004757A1 (zh) 杂音检测方法和装置
CN105989834B (zh) 语音辨识装置及语音辨识方法
US9437213B2 (en) Voice signal enhancement
CN105916090A (zh) 一种基于智能化语音识别技术的助听器系统
US7818168B1 (en) Method of measuring degree of enhancement to voice signal
KR20050080649A (ko) 유성음 및 무성음 검출방법 및 장치
CN105989835B (zh) 语音辨识装置及语音辨识方法
TWI622978B (zh) 語音信號處理裝置及語音信號處理方法
TW200811833A (en) Detection method for voice activity endpoint
JPH0449952B2 (zh)
CN110610724A (zh) 基于非均匀子带分离方差的语音端点检测方法及装置
Wibowo et al. Voice activity detection G729B improvement technique using K-Nearest Neighbor method
Kacur et al. ZCPA features for speech recognition