TWI566242B

TWI566242B - 語音辨識裝置及語音辨識方法

Info

Publication number: TWI566242B
Application number: TW104102540A
Authority: TW
Inventors: 杜博仁; 張嘉仁; 曾凱盟
Original assignee: 宏碁股份有限公司
Priority date: 2015-01-26
Filing date: 2015-01-26
Publication date: 2017-01-11
Also published as: TW201627989A; US9495973B2; US20160217808A1

Description

語音辨識裝置及語音辨識方法

本發明是有關於一種辨識裝置，且特別是有關於一種語音辨識裝置及語音辨識方法。

一般對於聽障人士來說，其往往無法清楚地接收較高頻的語音信號，例如子音信號，但對於低頻的語音信號卻可以清楚地聽到。習知的子音信號判斷方式為在頻域中進行信號處理，判斷方式主要有兩種，非及時子音信號判斷和即時子音判斷。非及時子音信號判斷，主要透過能量和過零率來判斷。即時的子音信號判斷，主要是依據高頻信號與總能量的比例是否大於一固定的值以及低頻信號和總能量的比例是否小於固定的值來決定語音信號是否為子音信號。習知的子音信號判斷方式雖可區別子音信號與雜訊，然其準確度仍無法滿足實際的需求。

本發明提供一種語音辨識裝置及語音辨識方法，可有效地判斷對應目標音框的原始語音取樣信號是否為雜訊，以提高子音信號的辨識準確度，進而有效地辨識出語音信號是否為子音信號。

本發明的語音辨識裝置，包括帶通濾波單元以及處理單元。其中帶通濾波單元對語音信號進行第一子音頻段以及第二子音頻段的帶通濾波，以分別產生第一帶通濾波信號以及第二帶通濾波信號。處理單元耦接帶通濾波單元，將語音信號、第一帶通濾波信號以及第二帶通濾波信號分割為多個音框，其中各音框包括N個取樣信號，N為正整數，處理單元更計算目標音框中取樣信號的能量，以獲得原始語音取樣信號能量、第一子音頻段信號能量以及第二子音頻段信號能量，依據第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值判斷對應目標音框的原始語音取樣信號是否為雜訊。

在本發明的一實施例中，上述處理單元判斷第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值是否分別落於對應的預設比值範圍，若第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值分別落於對應的預設比值範圍，則目標音框的原始語音取樣信號為雜訊信號。

在本發明的一實施例中，上述處理單元更計算多個之前被判斷為雜訊信號的原始語音取樣信號的音框的能量加權平均值，以得到雜訊信號能量加權平均值，並依據目標音框所對應的原始語音取樣信號能量是否大於該雜訊信號能量加權平均值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。

在本發明的一實施例中，上述對應各個判斷為雜訊信號的原始語音取樣信號的音框的加權值隨對應各個被判斷為雜訊信號的原始語音取樣信號的音框與目標音框之間的間隔長短不同而改變。

在本發明的一實施例中，上述處理單元更依據第二子音頻段信號能量與原始語音取樣信號能量的比值以及第一子音頻段信號能量與原始語音取樣信號能量的比值之和是否大於等於預設和值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。

在本發明的一實施例中，上述處理單元更計算多個之前被判斷為雜訊信號的原始語音取樣信號的音框所對應的第一子音頻段信號能量與原始語音取樣信號能量的比值的加權平均值，以得到第一子音能量比例加權平均值，並依據目標音框所對應的第一子音頻段信號能量與原始語音取樣信號能量的比值是否小於第一子音能量比例加權平均值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。

在本發明的一實施例中，上述對應各個被判斷為雜訊信號的原始語音取樣信號的音框所對應的第一子音頻段信號能量與原始語音取樣信號能量的比值的加權值隨對應各個被判斷為雜訊信號的原始語音取樣信號的音框與目標音框之間的間隔長短不同而改變。

在本發明的一實施例中，上述處理單元更依據第二子音頻段信號能量與原始語音取樣信號能量的比值是否大於等於預設比值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。

在本發明的一實施例中，上述處理單元更依據原始語音取樣信號能量是否大於等於下限值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。

在本發明的一實施例中，上述處理單元更計算原始語音取樣信號的第一過零率、第二過零率以及第三過零率，並計算目標音框與目標音框之前的多個音框的原始語音取樣信號的平均過零率，以得到第一平均過零率、第二平均過零率以及第三平均過零率，並依據第一平均過零率、第二平均過零率以及第三平均過零率是否分別大於等於其對應的預設平均過零率來判斷目標音框所對應的原始語音取樣信號是否為子音信號，其中第一過零率、第二過零率以及第三過零率分別為在目標音框中原始語音取樣信號通過第一預設值、第二預設值以及第三預設值的次數，第二預設值小於第一預設值且大於第三預設值。

在本發明的一實施例中，上述處理單元更依據第二過零率是否大於等於預設過零率來判斷目標音框所對應的原始語音取樣信號是否為子音信號。

本發明的語音辨識方法包括下列步驟。對語音信號進行第一子音頻段以及第二子音頻段的帶通濾波，以分別產生第一帶通濾波信號與第二帶通濾波信號。將語音信號、第一帶通濾波信號與第二帶通濾波信號分為多個音框，其中各音框包括N個取樣信號，N為正整數。計算目標音框中取樣信號的能量，以獲得原始語音取樣信號能量、第一子音頻段信號能量以及第二子音頻段信號能量。依據第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值判斷對應目標音框的原始語音取樣信號是否為雜訊。

在本發明的一實施例中，上述語音辨識方法更包括下列步驟。判斷第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值是否分別落於對應的預設比值範圍。若第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值分別落於對應的預設比值範圍，則目標音框的原始語音取樣信號為雜訊信號。

在本發明的一實施例中，上述語音辨識方法更包括下列步驟。計算多個之前被判斷為雜訊信號的原始語音取樣信號的音框的能量加權平均值，以得到雜訊信號能量加權平均值。依據目標音框所對應的原始語音取樣信號能量是否大於雜訊信號能量加權平均值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。

在本發明的一實施例中，上述對應各個被判斷為雜訊信號的原始語音取樣信號的音框的加權值隨對應各個被判斷為雜訊信號的原始語音取樣信號的音框與目標音框之間的間隔長短不同而改變。

在本發明的一實施例中，上述語音辨識方法更包括，依據第二子音頻段信號能量與原始語音取樣信號能量的比值以及第一子音頻段信號能量與原始語音取樣信號能量的比值之和是否大於等於預設和值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。

在本發明的一實施例中，上述語音辨識方法更包括下列步驟。計算多個之前被判斷為雜訊信號的原始語音取樣信號的音框所對應的第一子音頻段信號能量與原始語音取樣信號能量的比值的加權平均值，以得到第一子音能量比例加權平均值。依據目標音框所對應的第一子音頻段信號能量與原始語音取樣信號能量的比值是否小於第一子音能量比例加權平均值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。

在本發明的一實施例中，上述對應各個被判斷為雜訊信號的原始語音取樣信號所對應的第一子音頻段信號能量與原始語音取樣信號能量的比值的加權值隨對應各個被判斷為雜訊信號的原始語音取樣信號的音框與目標音框之間的間隔長短不同而改變。

在本發明的一實施例中，上述語音辨識方法更包括，依據第二子音頻段信號能量與原始語音取樣信號能量的比值是否大於等於預設比值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。

在本發明的一實施例中，上述語音辨識方法更包括，依據原始語音取樣信號能量是否大於等於下限值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。

在本發明的一實施例中，上述語音辨識方法更包括下列步驟。計算原始語音取樣信號的第一過零率、第二過零率以及第三過零率，並計算目標音框與目標音框之前多N個音框的原始語音取樣信號的平均過零率，以得到第一平均過零率、第二平均過零率以及第三平均過零率，其中N為正整數，其中第一過零率、第二過零率以及第三過零率分別為在目標音框中原始語音取樣信號通過第一預設值、第二預設值以及第三預設值的次數，第二預設值小於第一預設值且大於第三預設值。依據第一平均過零率、第二平均過零率以及第三平均過零率是否分別大於等於其對應的預設平均過零率來判斷目標音框所對應的原始語音取樣信號是否為子音信號。

在本發明的一實施例中，上述語音辨識方法更包括，依據第二過零率是否大於等於預設過零率來判斷目標音框所對應的原始語音取樣信號是否為子音信號。

基於上述，本發明的實施例依據第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值判斷對應目標音框的原始語音取樣信號是否為雜訊，以減低將原始語音取樣信號誤判為子音信號的情形發生，進而提高子音信號的辨識準確度。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

102‧‧‧帶通濾波單元

104‧‧‧處理單元

S1‧‧‧語音信號

S2‧‧‧第一帶通濾波信號

S3‧‧‧第二帶通濾波信號

S202~S230、S302‧‧‧語音辨識方法的流程步驟

圖1繪示為本發明一實施例之語音辨識裝置的示意圖。

圖2A~2B繪示本發明一實施例之語音辨識方法的流程示意圖。

圖3A~3B繪示本發明另一實施例之語音辨識方法的流程示意圖。

圖1繪示為本發明一實施例之語音辨識裝置的示意圖，請參照圖1。語音辨識裝置包括帶通濾波單元102以及處理單元104，帶通濾波單元102耦接處理單元104，帶通濾波單元102可例如以帶通濾波器來實施，而處理單元104可例如以中央處理單元來實施，然不以此為限。帶通濾波單元102可對語音信號S1進行第一子音頻段以及第二子音頻段的帶通濾波，以分別產生第一帶通濾波信號S2以及第二帶通濾波信號S3，在本實施例中第一子音頻段以及第二子音頻段分別為2kHz~4kHz以及4kHz~10kHz，然不以此為限。

處理單元104可對語音信號S1、第一帶通濾波信號S2以及第二帶通濾波信號S3進行取樣，並將語音信號S1、第一帶通濾波信號S2以及第二帶通濾波信號S3分個為多個音框，其中各個音框可包括N個語音信號S1的取樣信號、N個第一帶通濾波信號S2的取樣信號以及N個第二帶通濾波信號S3的取樣信號。處理單元104還可計算各個音框中取樣信號的能量，以獲得原始語音取樣信號能量、第一子音頻段信號能量以及第二子音頻段信號能量，其中原始語音取樣信號能量、第一子音頻段信號能量以及第二子音頻段信號能量分別對應音框中語音信號S1的取樣信號、第一帶通濾波信號S2的取樣信號以及第二帶通濾波信號S3的取樣信號的能量。在獲得原始語音取樣信號能量、第一子音頻段信號能量以及第二子音頻段信號能量後，處理單元104便可依據第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值判斷對應各個音框的原始語音取樣信號是否為雜訊。

詳細來說，處理單元104可判斷第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值是否分別落於其對應的預設比值範圍，若第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值分別落於其對應的預設比值範圍，則目標音框的原始語音取樣信號為雜訊信號。

舉例來說，處理單元104判斷對應一目標音框(例如第m個音框，m為正整數)的原始語音取樣信號是否為雜訊的方式，可以下列式子來判斷：

其中EB1_m為第一子音頻段信號能量、EB2_m為第二子音頻段信號能量，而E _m為原始語音取樣信號能量，當式(1)、(2)、(3)皆滿足時，處理單元104判斷第m個音框的原始語音取樣信號為雜訊信號。

在判斷出目標音框的原始語音取樣信號為雜訊信號後，處理單元104還計算在目標音框之前被判斷為雜訊信號的原始語音取樣信號的多個音框的能量加權平均值，以得到雜訊信號能量加權平均值，並依據目標音框所對應的原始語音取樣信號能量是否大於雜訊信號能量加權平均值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。

舉例來說，雜訊信號能量加權平均值可為計算在目標音框之前被判斷為雜訊信號的原始語音取樣信號的3個音框的能量加權平均值而得到，假設在第m個音框之前，最近被判斷為雜訊的三個音框分別為第m-10個音框、第m-12個音框以及第m-20個音框，則對應第m個音框的雜訊信號能量加權平均值AK _m可如下式子所示：

其中E _m-10、E _m-12、E _m-20分別為第m-10個音框、第m-12個音框以及第m-20個音框的原始語音取樣信號能量，而a0、a1、a2分別為第m-10個音框、第m-12個音框以及第m-20個音框對應的加權值。其中加權值a0、a1、a2可為固定值亦或是變動值。舉例來說，對應各個被判斷為雜訊信號的原始語音取樣信號的音框的加權值可隨對應各個被判斷為雜訊信號的原始語音取樣信號的音框與目標音框之間的間隔長短不同而改變。如在本實施例中，加權值a0、a1、a2可隨音框與第m個音框之間的間隔長短不同而改變。當雜訊信號能量加權平均值AK _m滿足下列式子時，可判斷對應第m個音框的原始語音取樣信號為子音信號：E _m>AK _m (5)

另外，處理單元可計算多個之前被判斷為雜訊信號的原始語音取樣信號的音框所對應的第一子音頻段信號能量與原始語音取樣信號能量的比值的加權平均值，以得到第一子音能量比例加權平均值，並依據目標音框所對應的第一子音頻段信號能量與原始語音取樣信號能量的比值是否小於第一子音能量比例加權平均值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。舉例來說，第一子音能量比例加權平均值可為計算在目標音框之前被判斷為雜訊信號的原始語音取樣信號的3個音框的第一子音頻段信號能量與原始語音取樣信號能量的比值的加權平均值而得到，假設在第m個音框之前，最近被判斷為雜訊的三個音框分別為第m-10個音框、第m-12個音框以及第m-20個音框，則對應第m個音框的第一子音能量比例加權平均值AF _m可如下式子所示：

其中EB1_m-10、EB1_m-12、EB1_m-20分別為第m-10個音框、第m-12個音框以及第m-20個音框的第一子音頻段信號能量、E _m-10、E _m-12、E _m-20分別為第m-10個音框、第m-12個音框以及第m-20個音框的原始語音取樣信號能量，而c0、c1、c2分別為第m-10個音框、第m-12個音框以及第m-20個音框對應的加權值。其中加權值c0、c1、c2可為固定值亦或是變動值。舉例來說，對應各個被判斷為雜訊信號的原始語音取樣信號的音框所對應的第一子音頻段信號能量與原始語音取樣信號能量的比值的加權值可隨對應各個被判斷為雜訊信號的原始語音取樣信號的音框與目標音框之間的間隔長短不同而改變。如在本實施例中，加權值c0、c1、c2可隨音框與第m個音框之間的間隔長短不同而改變。當第一子音能量比例加權平均值AF _m滿足下列式子時，可判斷對應第m個音框的原始語音取樣信號為子音信號：

此外，處理單元104可依據第二子音頻段信號能量與原始語音取樣信號能量的比值與第一子音頻段信號能量與原始語音取樣信號能量的比值之和是否大於等於預設和值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。例如，對第m個音框而言，上述判斷方式可以下列式子表示：

在本實施例中，預設和值為1，然並不以此為限，預設和值亦可依實際情形調整為其他值。

又，處理單元104亦可依據第二子音頻段信號能量與原始語音取樣信號能量的比值是否大於等於預設比值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。例如，對第m個音框而言，上述判斷方式可以下列式子表示：

在本實施例中，預設比值為0.8，然不以此為限，在部分實施例中預設比值亦可為其他值，如下式所示：

在式(10)中，預設比值為0.35。

另外，處理單元104還可依據原始語音取樣信號能量是否大於等於下限值來判斷目標音框所對應的原始語音取樣信號是否為子音信號。例如，對第m個音框而言，上述判斷方式可以下列式子表示：

在本實施例中，下限值為50，然不以此為限，在部分實施例中下限值亦可依實際情形進行調整。

由於子音訊號可能會有能量大小不同的情形出現，在能量比較小的部分會可能會被視為雜訊，為避免此情形，除了上述依據能量來判斷原始語音取樣信號是否為子音信號外，處理單元104亦可依據過零率來判斷原始語音取樣信號是否為子音信號。處理單元104可計算原始語音取樣信號的第一過零率、第二過零率以及第三過零率，並計算目標音框與目標音框之前的多個音框的原始語音取樣信號的平均過零率，以得到第一平均過零率、第二平均過零率以及第三平均過零率，並依據第一平均過零率、第二平均過零率以及第三平均過零率是否分別大於等於其對應的預設平均過零率來判斷目標音框所對應的原始語音取樣信號是否為子音信號。其中第一過零率、第二過零率以及第三過零率分別為在目標音框中原始語音取樣信號通過第一預設值、第二預設值以及第三預設值的次數，其中第二預設值小於第一預設值且大於第三預設值。

對第m個音框而言，原始過零率可如下式所示：

其中N為正整數，其代表在第m個音框內之取樣信號的個數，mL為幅度門檻值，而為在第m個音框內的原始語音取樣信號。處理單元104可依據是否大於等於一預設過零率來判斷原始語音取樣信號是否為子音信號，例如可依據下式來判斷：

其中預設過零率並不以22為限，在部分實施例中其值亦可依實際情形進行調整。此外，處理單元104可另外依據原始語音取樣信號包含能量條件的過零率、來判斷原始語音取樣信號是否為子音信號，過零率、可如下式所示：

其中、可以下式表示：

在本實施例中，α _x之值為0.5，然不以此為限，在部分實施例中其值亦可依實際情形進行調整。如此藉由調整計算過零率的基準，可更精確地判斷原始語音取樣信號是否為子音信號。處理單元104更可依據多個音框的平均過零率來判斷原始語音取樣信號是否為子音信號，舉例來說，對第m個音框而言，可依據其與最近兩個音框(亦即第m-1、m-2個音框)的過零率的平均值來判斷原始語音取樣信號是否為子音信號，其判斷式可如下所示：

如上實施例所述，處理單元104可依據能量或過零率至少之其一來判斷原始語音取樣信號是否為子音信號，亦即處理單元104可綜合上述式子的條件至少其一來判斷對應目標音框的原始語音取樣信號是否為子音信號。舉例來說，處理單元104可判斷式(5)、(7)、(9)、(11)、(13)、(18)、(19)、(20)是否同時滿足，若同時滿足才判斷對應目標音框的原始語音取樣信號為子音信號。又例如，處理單元104亦可判斷式(5)、(8)、(10)、(11)、(13)、(18)、(19)、(20)是否同時滿足，若同時滿足才判斷對應目標音框的原始語音取樣信號為子音信號。

圖2A~2B繪示本發明一實施例之語音辨識方法的流程示意圖，請參照圖2A~2B。由上述實施例可知，語音辨識裝置的語音辨識方法可包括下列步驟。首先，對語音信號進行第一子音頻段以及第二子音頻段的帶通濾波，以分別產生第一帶通濾波信號與第二帶通濾波信號(步驟S202)。接著，將語音信號、第一帶通濾波信號與第二帶通濾波信號分為多個音框(步驟S204)，其中各音框包括N個取樣信號，N為正整數。然後，計算目標音框中取樣信號的能量，以獲得一原始語音取樣信號能量、一第一子音頻段信號能量以及一第二子音頻段信號能量(步驟S206)。之後，依據第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值判斷對應目標音框的原始語音取樣信號是否為雜訊(步驟S208)。例如，可判斷第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值是否分別落於對應的預設比值範圍，若第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值分別落於對應的預設比值範圍，則目標音框的原始語音取樣信號為雜訊信號。

之後，計算多個之前被判斷為雜訊信號的原始語音取樣信號的音框的能量加權平均值，以得到雜訊信號能量加權平均值 (步驟S210)。然後判斷目標音框所對應的原始語音取樣信號能量是否大於雜訊信號能量加權平均值(步驟S212)，其中對應各個被判斷為雜訊信號的原始語音取樣信號的音框的加權值可隨對應各個被判斷為雜訊信號的原始語音取樣信號的音框與目標音框之間的間隔長短不同而改變。若目標音框所對應的原始語音取樣信號能量未大於雜訊信號能量加權平均值，則判斷目標音框所對應的原始語音取樣信號非子音信號(步驟S214)。相反地，若目標音框所對應的原始語音取樣信號能量大於雜訊信號能量加權平均值，則計算多個之前被判斷為雜訊信號的原始語音取樣信號所對應的第一子音頻段信號能量與原始語音取樣信號能量的比值的加權平均值，以得到第一子音能量比例加權平均值(步驟S216)。然後再判斷目標音框所對應的第一子音頻段信號能量與原始語音取樣信號能量的比值是否小於第一子音能量比例加權平均值(步驟S218)，其中對應各個被判斷為雜訊信號的原始語音取樣信號所對應的第一子音頻段信號能量與原始語音取樣信號能量的比值的加權值隨對應各個被判斷為雜訊信號的原始語音取樣信號的音框與目標音框之間的間隔長短不同而改變。

若目標音框所對應的第一子音頻段信號能量與原始語音取樣信號能量的比值未小於第一子音能量比例加權平均值，則目標音框所對應的原始語音取樣信號非子音信號(步驟S214)。相反地，若目標音框所對應的第一子音頻段信號能量與原始語音取樣信號能量的比值小於第一子音能量比例加權平均值，則接著判斷第二子音頻段信號能量與原始語音取樣信號能量的比值是否大於等於預設比值(步驟S220)。若第二子音頻段信號能量與原始語音取樣信號能量的比值未大於等於預設比值，則目標音框所對應的原始語音取樣信號非子音信號(步驟S214)。相反地，若第二子音頻段信號能量與原始語音取樣信號能量的比值大於等於預設比值，則判斷原始語音取樣信號能量是否大於等於下限值(步驟S222)。若原始語音取樣信號能量未大於等於下限值，則目標音框所對應的原始語音取樣信號非子音信號(步驟S214)。

相反地，若原始語音取樣信號能量大於等於下限值，則接著計算原始語音取樣信號的第一過零率、第二過零率以及第三過零率，並計算目標音框與目標音框之前的多個音框的原始語音取樣信號的平均過零率，以得到一第一平均過零率、一第二平均過零率以及一第三平均過零率(步驟S224)。其中第一過零率、第二過零率以及第三過零率分別為在目標音框中原始語音取樣信號通過第一預設值、第二預設值以及第三預設值的次數，其中第二預設值小於第一預設值且大於第三預設值。然後再判斷第一平均過零率、第二平均過零率以及第三平均過零率是否分別大於等於其對應的預設平均過零率(步驟S226)。若第一平均過零率、第二平均過零率以及第三平均過零率未皆大於等於其對應的預設平均過零率，則目標音框所對應的原始語音取樣信號非子音信號(步驟S214)。相反地，若第一平均過零率、第二平均過零率以及第三平均過零率大於等於其對應的預設平均過零率，則接著判斷第二過零率是否大於等於預設過零率(步驟S228)。若第二過零率未大於等於預設過零率，則目標音框所對應的原始語音取樣信號非子音信號(步驟S214)。相反地，若第二過零率大於等於預設過零率，則目標音框所對應的原始語音取樣信號為子音信號(步驟S230)。

圖3A~3B繪示本發明一實施例之語音辨識方法的流程示意圖，請參照圖3A~3B。本實施例與圖2A~2B實施例的不同之處在於，本實施例在步驟S212判斷出目標音框所對應的原始語音取樣信號能量大於雜訊信號能量加權平均值後，接著判斷第二子音頻段信號能量與原始語音取樣信號能量的比值以及第一子音頻段信號能量與原始語音取樣信號能量的比值之和是否大於等於預設和值(步驟S302)，若第二子音頻段信號能量與原始語音取樣信號能量的比值與第一子音頻段信號能量與原始語音取樣信號能量的比值之和未大於等於預設和值，則目標音框所對應的原始語音取樣信號非子音信號(步驟S214)。相反地，若第二子音頻段信號能量與原始語音取樣信號能量的比值與第一子音頻段信號能量與原始語音取樣信號能量的比值之和大於等於預設和值，則直接進入步驟S220，判斷第二子音頻段信號能量與原始語音取樣信號能量的比值是否大於等於預設比值，並如圖2A~2B實施例繼續執行後面語音辨識方法的步驟。

綜上所述，本發明的實施例可綜合上述式子的條件至少其一來判斷對應目標音框的原始語音取樣信號是否為子音信號，以提高子音信號的辨識準確度。例如可依據第一子音頻段信號能量與第二子音頻段信號能量的比值、第一子音頻段信號能量與原始語音取樣信號能量的比值以及第二子音頻段信號能量與原始語音取樣信號能量的比值判斷對應目標音框的原始語音取樣信號是否為雜訊，以減低將原始語音取樣信號誤判為子音信號的情形發生，進而提高子音信號的辨識準確度。

102‧‧‧帶通濾波單元

104‧‧‧處理單元

S1‧‧‧語音信號

S2‧‧‧第一帶通濾波信號

S3‧‧‧第二帶通濾波信號

Claims

一種語音辨識裝置，包括：一帶通濾波單元，對一語音信號進行一第一子音頻段以及一第二子音頻段的帶通濾波，以分別產生一第一帶通濾波信號以及一第二帶通濾波信號；以及一處理單元，耦接該帶通濾波單元，將該語音信號、該第一帶通濾波信號以及該第二帶通濾波信號分割為多個音框，其中各該音框包括N個取樣信號，N為正整數，計算目標音框中取樣信號的能量，以獲得一原始語音取樣信號能量、一第一子音頻段信號能量以及一第二子音頻段信號能量，依據該第一子音頻段信號能量與該第二子音頻段信號能量的比值、該第一子音頻段信號能量與該原始語音取樣信號能量的比值以及該第二子音頻段信號能量與該原始語音取樣信號能量的比值判斷對應該目標音框的原始語音取樣信號是否為雜訊，其中該處理單元判斷該第一子音頻段信號能量與該第二子音頻段信號能量的比值、該第一子音頻段信號能量與該原始語音取樣信號能量的比值以及該第二子音頻段信號能量與該原始語音取樣信號能量的比值是否分別落於對應的預設比值範圍，若該第一子音頻段信號能量與該第二子音頻段信號能量的比值、該第一子音頻段信號能量與該原始語音取樣信號能量的比值以及該第二子音頻段信號能量與該原始語音取樣信號能量的比值分別落於對應的預設比值範圍，則該目標音框的原始語音取樣信號為雜訊信號。
如申請專利範圍第1項所述的語音辨識裝置，其中該處理單元更計算多個之前被判斷為雜訊信號的原始語音取樣信號的音框的能量加權平均值，以得到一雜訊信號能量加權平均值，並依據該目標音框所對應的原始語音取樣信號能量是否大於該雜訊信號能量加權平均值來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
如申請專利範圍第2項所述的語音辨識裝置，其中對應各該被判斷為雜訊信號的原始語音取樣信號的音框的加權值隨對應各該被判斷為雜訊信號的原始語音取樣信號的音框與該目標音框之間的間隔長短不同而改變。
如申請專利範圍第2項所述的語音辨識裝置，其中該處理單元更依據該第二子音頻段信號能量與該原始語音取樣信號能量的比值與該第一子音頻段信號能量與該原始語音取樣信號能量的比值之和是否大於等於一預設和值來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
如申請專利範圍第4項所述的語音辨識裝置，其中該處理單元更計算多個之前被判斷為雜訊信號的原始語音取樣信號的音框所對應的該第一子音頻段信號能量與該原始語音取樣信號能量的比值的加權平均值，以得到一第一子音能量比例加權平均值，並依據該目標音框所對應的該第一子音頻段信號能量與該原始語音取樣信號能量的比值是否小於該第一子音能量比例加權平均值來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
如申請專利範圍第5項所述的語音辨識裝置，其中對應各該被判斷為雜訊信號的原始語音取樣信號的音框所對應的該第一子音頻段信號能量與該原始語音取樣信號能量的比值的加權值隨對應各該被判斷為雜訊信號的原始語音取樣信號的音框與該目標音框之間的間隔長短不同而改變。
如申請專利範圍第5項所述的語音辨識裝置，其中該處理單元更依據該第二子音頻段信號能量與該原始語音取樣信號能量的比值是否大於等於一預設比值來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
如申請專利範圍第7項所述的語音辨識裝置，其中該處理單元更依據該原始語音取樣信號能量是否大於等於一下限值來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
如申請專利範圍第8項所述的語音辨識裝置，其中該處理單元更計算該原始語音取樣信號的第一過零率、第二過零率以及第三過零率，並計算該目標音框與該目標音框之前的多個音框的原始語音取樣信號的平均過零率，以得到一第一平均過零率、一第二平均過零率以及一第三平均過零率，並依據該第一平均過零率、該第二平均過零率以及該第三平均過零率是否分別大於等於其對應的預設平均過零率來判斷該目標音框所對應的原始語音取樣信號是否為子音信號，該第一過零率、該第二過零率以及該第三過零率分別為在該目標音框中該原始語音取樣信號通過一第一預設值、一第二預設值以及一第三預設值的次數，該第二預設值小於該第一預設值且大於該第三預設值。
如申請專利範圍第9項所述的語音辨識裝置，其中該處理單元更依據該第二過零率是否大於等於一預設過零率來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
一種語音辨識方法，包括：對一語音信號進行一第一子音頻段以及一第二子音頻段的帶通濾波，以分別產生一第一帶通濾波信號與一第二帶通濾波信號；將該語音信號、該第一帶通濾波信號與該第二帶通濾波信號分為多個音框，其中各該音框包括N個取樣信號，N為正整數；計算目標音框中取樣信號的能量，以獲得一原始語音取樣信號能量、一第一子音頻段信號能量以及一第二子音頻段信號能量；判斷該第一子音頻段信號能量與該第二子音頻段信號能量的比值、該第一子音頻段信號能量與該原始語音取樣信號能量的比值以及該第二子音頻段信號能量與該原始語音取樣信號能量的比值是否分別落於對應的預設比值範圍，以判斷對應該目標音框的原始語音取樣信號是否為雜訊；以及若該第一子音頻段信號能量與該第二子音頻段信號能量的比值、該第一子音頻段信號能量與該原始語音取樣信號能量的比值以及該第二子音頻段信號能量與該原始語音取樣信號能量的比值分別落於對應的預設比值範圍，則該目標音框的原始語音取樣信號為雜訊信號。
如申請專利範圍第11項所述的語音辨識方法，更包括：計算多個之前被判斷為雜訊信號的原始語音取樣信號的音框的能量加權平均值，以得到一雜訊信號能量加權平均值；以及依據該目標音框所對應的原始語音取樣信號能量是否大於該雜訊信號能量加權平均值來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
如申請專利範圍第12項所述的語音辨識方法，其中對應各該被判斷為雜訊信號的原始語音取樣信號的音框的加權值隨對應各該被判斷為雜訊信號的原始語音取樣信號的音框與該目標音框之間的間隔長短不同而改變。
如申請專利範圍第12項所述的語音辨識方法，更包括：依據該第二子音頻段信號能量與該原始語音取樣信號能量的比值與該第一子音頻段信號能量與該原始語音取樣信號能量的比值之和是否大於等於一預設和值來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
如申請專利範圍第14項所述的語音辨識方法，更包括：計算多個之前被判斷為雜訊信號的原始語音取樣信號的音框所對應的該第一子音頻段信號能量與該原始語音取樣信號能量的比值的加權平均值，以得到一第一子音能量比例加權平均值；以及依據該目標音框所對應的該第一子音頻段信號能量與該原始語音取樣信號能量的比值是否小於該第一子音能量比例加權平均值來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
如申請專利範圍第15項所述的語音辨識方法，其中對應各該被判斷為雜訊信號的原始語音取樣信號所對應的該第一子音頻段信號能量與該原始語音取樣信號能量的比值的加權值隨對應各該被判斷為雜訊信號的原始語音取樣信號的音框與該目標音框之間的間隔長短不同而改變。
如申請專利範圍第15項所述的語音辨識方法，更包括：依據該第二子音頻段信號能量與該原始語音取樣信號能量的比值是否大於等於一預設比值來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
如申請專利範圍第17項所述的語音辨識方法，更包括：依據該原始語音取樣信號能量是否大於等於一下限值來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
如申請專利範圍第18項所述的語音辨識方法，更包括：計算該原始語音取樣信號的第一過零率、第二過零率以及第三過零率，並計算該目標音框與該目標音框之前多N個音框的原始語音取樣信號的平均過零率，以得到一第一平均過零率、一第二平均過零率以及一第三平均過零率，其中N為正整數，該第一過零率、該第二過零率以及該第三過零率分別為在該目標音框中該原始語音取樣信號通過一第一預設值、一第二預設值以及一第三預設值的次數，該第二預設值小於該第一預設值且大於該第三預設值；以及依據該第一平均過零率、該第二平均過零率以及該第三平均過零率是否分別大於等於其對應的預設平均過零率來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。
如申請專利範圍第19項所述的語音辨識方法，更包括：依據該第二過零率是否大於等於一預設過零率來判斷該目標音框所對應的原始語音取樣信號是否為子音信號。