TWI659409B

TWI659409B - 一種語音端點檢測方法及語音辨識方法

Info

Publication number: TWI659409B
Application number: TW107104564A
Authority: TW
Inventors: 范利春
Original assignee: 大陸商芋頭科技(杭州)有限公司
Priority date: 2017-02-13
Filing date: 2018-02-08
Publication date: 2019-05-11
Also published as: WO2018145584A1; TW201830377A; CN108428448A

Abstract

本發明公開了一種語音端點檢測方法及語音辨識方法，屬於語音辨識技術領域；方法包括：提取語音數據的語音特徵並輸入至靜音模型中；靜音模型根據語音特徵輸出標籤用於表示語音數據是否為靜音幀；根據連續幀的多個語音數據的多個標籤確認該段語音的語音端點：在非啟動狀態，若多個語音數據中連續出現的多個非靜音幀的長度大於一預設的第一閾值，則判斷該連續出現的多個非靜音幀語音數據中的第一幀為該段語音的起始端點；在啟動狀態，若多個語音數據中連續出現的多個靜音幀的長度大於一預設的第二閾值，則判斷該連續出現的多個靜音幀語音數據中的第一幀為該段語音的結束端點。上述技術方案的有益效果是：解決現有技術中語音端點檢測不準確以及對於檢測環境要求過高的問題。

Description

一種語音端點檢測方法及語音辨識方法

本發明涉及語音辨識技術領域，尤其涉及一種語音端點檢測方法及語音辨識方法。

隨著語音辨識技術的發展，語音辨識在人們生活中的應用越來越廣泛。當使用者使用手持設備中的語音辨識技術時，通常會配合語音辨識按鍵來控制需要識別的語音段落的開始和結束的時間，但是當使用者處於智慧家居環境中使用語音辨識技術時，會因為距離拾音設備較遠而無法採用按鍵配合的方式手動決定語音段落的開始端點和結束端點，這時就需要另外一種方式來對語音開始和結束的時間進行自動判斷，也即語音端點檢測技術(Voice Active Detection，VAD)。

傳統的端點檢測方法主要基於次頻帶能量進行，即計算每幀語音數據在某一頻段的能量，並與預先設定的能量閾值進行比較來判斷語音的開始端點和結束端點。這種端點檢測方法對檢測環境的要求較高，其必須在安靜的環境中進行語音辨識才能保證檢測到的語音端點的準確性。而在相對嘈雜的雜訊環境中，不同種類的雜訊會對不同的次頻帶能量產生影響，從而對上述端點檢測方法帶來較大的干擾，尤其是低訊噪比和非平穩的雜訊環境中，對次頻帶能量的計算會造成很大干擾，從而使得最終的檢測結果不準確。而只有保證語音端點檢測的準確性才能保證語音正確被採集，進而正確被識別。端點檢測的結果不準確有可能會使語音被截斷或者錄入更多的雜訊，會導致語音辨識不能對整句話解碼，從而帶來漏報或者誤報等問題，甚至會造成整句話的解碼全部錯誤，降低語音辨識結果的準確性。

根據現有技術中存在的上述問題，現提供一種語音端點檢測方法及語音辨識方法的技術方案，旨在解決現有技術中語音端點檢測不準確以及對於檢測環境要求過高的問題。上述技術方案具體包括：一種語音端點檢測方法，其中，預先訓練形成一用於判斷語音數據是否為靜音幀的靜音模型，隨後獲取外部輸入的包括連續幀的多個語音數據的一段語音，並執行下述步驟：步驟S1，提取每一幀語音數據的語音特徵，並將語音特徵輸入至靜音模型中；步驟S2，靜音模型根據語音特徵輸出關聯於每一幀語音數據的標籤，標籤用於表示語音數據是否為靜音幀；步驟S3，根據連續幀的多個語音數據的多個標籤確認該段語音的語音端點：當採集語音的拾音設備處於非啟動狀態時，若多個語音數據中連續出現的多個非靜音幀的長度大於一預設的第一閾值，則判斷該連續出現的多個非靜音幀語音數據中的第一幀為該段語音的起始端點；當採集語音的拾音設備處於啟動狀態時，若多個語音數據中連續出現的多個靜音幀的長度大於一預設的第二閾值，則判斷該連續出現的多個靜音幀語音數據中的第一幀為該段語音的結束端點。

優選的，該語音端點檢測方法，其中，透過下述方法預先訓練形成靜音模型：步驟A1，輸入預設的多個訓練用語音數據，並提取每個訓練用語音數據的語音特徵；步驟A2，根據對應的語音特徵，針對每幀訓練用語音數據進行自動標注操作，獲得對應每幀語音數據的一標籤；標籤用於表示對應的一幀語音數據為靜音幀或者非靜音幀；步驟A3，根據訓練用語音數據以及對應的標籤訓練得到靜音模型；靜音模型的輸出層上設置有第一節點和第二節點；第一節點用於表示對應靜音幀的標籤；第二節點用於表示對應非靜音幀的標籤。

優選的，該語音端點檢測方法，其中，對應外部輸入的每個訓練用語音數據均預先設置一標注文本，以標注訓練用語音數據對應的文本內容；則步驟A2具體包括：步驟A21，獲取語音特徵和對應的標注文本；步驟A22，利用預先訓練形成的聲學模型對語音特徵和對應的標注文本進行強制對齊，以得到每幀語音特徵對應到音素的輸出標籤；步驟A23，對經過強制對齊的訓練用語音數據進行後處理，以將靜音音素的輸出標籤映射到表示靜音幀的標籤上，以及將非靜音音素的輸出標籤映射到表示非靜音幀的標籤上。

優選的，該語音端點檢測方法，其中，步驟A22中，預先訓練形成的聲學模型為高斯混合模型-隱藏式馬可夫模型，或者為深度神經網路-隱藏式馬可夫模型。

優選的，該語音端點檢測方法，其中，靜音模型為包括多層神經網路的深度神經網路模型。

優選的，該語音端點檢測方法，其中，靜音模型的每兩層神經網路之間包括至少一個非線性變換。

優選的，該語音端點檢測方法，其中，靜音模型的每層神經網路為全連接的神經網路，或者卷積神經網路，或者遞迴神經網路。

優選的，該語音端點檢測方法，其中，靜音模型為包括多層神經網路的深度神經網路模型；靜音模型的輸出層上設置有第一節點和第二節點；第一節點用於表示對應靜音幀的標籤；第二節點用於表示對應非靜音幀的標籤；則步驟S2具體包括：步驟S21，語音特徵輸入靜音模型後，通過多層神經網路的前向計算分別得到輸出層中關聯於第一節點的第一取值以及關聯於第二節點的第二取值；步驟S22，將第一取值與第二取值進行比較：若第一取值大於第二取值，則將第一節點作為語音數據的標籤並輸出；若第一取值小於第二取值，則將第二節點作為語音數據的標籤並輸出。

一種語音辨識方法，其中，採用上述的語音端點檢測方法檢測得到需要識別的一段語音的起始端點和結束端點。

上述技術方案的有益效果是：提供一種語音端點檢測方法，能夠解決現有技術中語音端點檢測不準確以及對於檢測環境要求過高的問題，因此提升語音端點檢測的準確性，擴展端點檢測方法的泛用性，從而改進整個語音辨識過程。

S1‧‧‧步驟S1

S2‧‧‧步驟S2

S3‧‧‧步驟S3

A1‧‧‧步驟A1

A2‧‧‧步驟A2

A3‧‧‧步驟A3

A21‧‧‧步驟A21

A22‧‧‧步驟A22

A23‧‧‧步驟A23

41‧‧‧多層神經網路

42‧‧‧輸出層

421‧‧‧第一節點

422‧‧‧第二節點

S21‧‧‧步驟S21

S22‧‧‧步驟S22

圖1是本發明的較佳的實施例中，一種語音端點檢測方法的總體流程示意圖；圖2是本發明的較佳的實施例中，訓練形成靜音模型的流程示意圖；圖3是本發明的較佳的實施例中，於圖2的基礎上，對訓練用語音數據進行自動標注的流程示意圖；圖4是本發明的較佳的實施例中，包括多層神經網路的靜音模型的結構示意圖；圖5是本發明的較佳的實施例中，於圖1的基礎上，處理並輸出關聯於語音數據的標籤的流程示意圖。

下面將結合本發明實施例中的附圖，對本發明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發明一部分實施例，而不是全部的實施例。基於本發明中的實施例，本領域普通技術人員在沒有作出創造性勞動的前提下所獲得的所有其他實施例，都屬於本發明保護的範圍。

需要說明的是，在不衝突的情況下，本發明中的實施例及實施例中的特徵可以相互組合。

下面結合附圖和具體實施例對本發明作進一步說明，但不作為本發明的限定。

根據現有技術中存在的上述問題，現提供一種語音端點檢測方法，該方法中，預先訓練形成一用於判斷語音數據是否為靜音幀的靜音模型，隨後獲取外部輸入的包括連續幀的多個語音數據的一段語音，並執行如圖1中所示的下述步驟：步驟S1，提取每一幀語音數據的語音特徵，並將語音特徵輸入至靜音模型中；步驟S2，靜音模型根據語音特徵輸出關聯於每一幀語音數據的標籤，標籤用於表示語音數據是否為靜音幀；步驟S3，根據連續幀的多個語音數據的多個標籤確認該段語音的語音端點：當採集語音的拾音設備處於非啟動狀態時，若多個語音數據中連續出現的多個非靜音幀的長度大於一預設的第一閾值，則判斷該連續出現的多個非靜音幀語音數據中的第一幀為該段語音的起始端點；當採集語音的拾音設備處於啟動狀態時，若多個語音數據中連續出現的多個靜音幀的長度大於一預設的第二閾值，則判斷該連續出現的多個靜音幀語音數據中的第一幀為該段語音的結束端點。

具體地，本實施例中，首先形成一靜音模型，該靜音模型可以用於判斷一段語音中的每幀語音數據是否為靜音幀。所謂靜音幀，是指不包含需要進行語音辨識的有效語音的語音數據；所謂非靜音幀，是指包含需要進行語音辨識的有效語音的語音數據。

隨後，本實施例中，訓練形成靜音模型後，提取外部輸入的一段語音中每一幀語音數據的語音特徵，並將提取到的語音特徵輸入到靜音模型中，以輸出關聯於該幀語音數據的標籤。本實施例中，一共存在兩個標籤，分別用於表示該幀語音數據為靜音幀/非靜音幀。

本實施例中，在得到了每一幀語音數據的靜音和非靜音分類後，再判斷語音端點。然而並非出現一幀非靜音幀就能認為一段語音開始，也不能出現一幀靜音幀就認為一段語音結束，而是需要根據連續靜音幀/非靜音幀的幀數來判斷一段語音的起始端點和結束端點。具體為：當採集語音的拾音設備處於非啟動狀態時，若多個語音數據中連續出現的多個非靜音幀的長度大於一預設的第一閾值，則判斷該連續出現的多個非靜音幀語音數據中的第一幀為該段語音的起始端點；當採集語音的拾音設備處於啟動狀態時，若多個語音數據中連續出現的多個靜音幀的長度大於一預設的第二閾值，則判斷該連續出現的多個靜音幀語音數據中的第一幀為該段語音的結束端點。

本發明的一個較佳的實施例中，上述第一閾值可以取值30，上述第二閾值可以取值50。即：當採集語音的拾音設備處於非啟動狀態時，若連續出現非靜音幀的長度大於30(出現連續30幀非靜音幀)，則判斷第一幀非靜音幀為該段語音的起始端點。

當採集語音的拾音設備處於啟動狀態時，若連續出現靜音幀的長度大於50(出現連續50幀靜音幀)，則判斷第一幀靜音幀為該段語音的結束端點。

本發明的另一個較佳的實施例中，上述第一閾值同樣可以取值70，上述第二閾值可以取值50。

本發明的其他實施例中，可以根據實際情況自由設定第一閾值和第二閾值的取值，以滿足不同環境下語音端點檢測的需求。

本發明的較佳的實施例中，可以通過如圖2中所示的下述方法預先訓練形成靜音模型：步驟A1，輸入預設的多個訓練用語音數據，並提取每個訓練用語音數據的語音特徵；步驟A2，根據對應的語音特徵，針對每幀訓練用語音數據進行自動標注操作，獲得對應每幀語音數據的一標籤；標籤用於表示對應的一幀語音數據為靜音幀或者非靜音幀；步驟A3，根據對應的語音特徵，針對每幀訓練用語音數據進行自動標注操作，獲得對應每幀語音數據的一標籤；標籤用於表示對應的一幀語音數據為靜音幀或者非靜音幀；靜音模型的輸出層上設置有第一節點和第二節點；第一節點用於表示對應靜音幀的標籤；第二節點用於表示對應非靜音幀的標籤。

具體地，本實施例中，首先輸入預設的多個訓練用語音數據。所謂訓練用語音數據，是指預先知道其文本內容的語音數據。該訓練用語音數據可以根據事先已經訓練好中文的語音辨識系統的中文語音數據集提取得到，並且擁有對應訓練用語音數據的標注文本。即上述步驟A1中輸入的訓練用語音數據與訓練後續語音辨識的聲學模型時應用的語音數據是相同的。

本實施例中，在輸入訓練用語音數據後，針對每個訓練用語音數據分別提取其語音特徵。語音特徵的提取同樣可以使用訓練語音辨識的聲學模型時提取的語音特徵。常見的語音特徵可以包括梅爾頻率倒譜系數(Mel Frequency Cepstrum Coefficient,MFCC)、感知線性預測(Perceptual Linear Predictive，PLP)或者濾波器組(Filter-Bank，FBANK)特徵。同樣地，在本發明的其他實施例中，可以採用其他類似的語音特徵來完成靜音模型的訓練。

本實施例中，上述步驟A2中，在作為靜音模型的訓練輸入參數之前，首先需要對上述訓練用語音數據進行自動標注操作，以使每幀語音數據幀對齊。上述自動標注操作中，每一幀語音數據都會獲得一個標籤，上述自動標注的處理方法在下文中會詳述，在經過自動標注操作後，就可以訓練靜音模型了。

本發明的較佳的實施例中，對應外部輸入的每個訓練用語音數據均預先設置一標注文本，以標注訓練用語音數據對應的文本內容；則上述步驟A2具體如圖3所示，可以包括：步驟A21，獲取語音特徵和對應的標注文本；步驟A22，利用預先訓練形成的聲學模型對語音特徵和對應的標注文本進行強制對齊，以得到每幀語音特徵對應到音素的輸出標籤；步驟A23，對經過強制對齊的訓練用語音數據進行後處理，以將靜音音素的輸出標籤映射到表示靜音幀的標籤上，以及將非靜音音素的輸出標籤映射到表示非靜音幀的標籤上。

具體地，本實施例中，若採用手工對訓練用語音數據進行自動標注操作，則需要耗費大量的人工成本，並且對於雜訊的標注在不同的標注人員的標注結果中也會出現不一致的情況，從而影響後續訓練模型的過程。因此本發明技術方案中提供一種高效可行的自動標注方法。

上述方法中，首先獲取每一幀訓練用語音數據的語音特徵以及對應的標注文本，隨後對語音特徵和標注文本進行強制對齊。

本實施例中，可以利用後續語音辨識的聲學模型(即預先訓練形成的聲學模型)對語音特徵和標注文本進行強制對齊。本發明中的語音辨識的聲學模型可以是高斯混合模型-隱藏式馬可夫模型(Gaussian Mixture Model-Hidden Markov Model，GMM-HMM)，也可以是深度神經網路--隱藏式馬可夫模型(Deep Neural Network-Hidden Markov Model，DNN-HMM)，或者其他適宜的模型。上述聲學模型中的建模單元是音素(phone)級別的，例如上下文獨立的音素(Context Independent Phone，ci-phone)或者上下文相關的音素(Context Dependent Phone，cd-phone)。採用上述聲學模型進行強制對齊操作可以將對訓練用語音數據幀對齊到音素級別。

本實施例中，上述步驟A23中，對經過強制對齊的訓練用語音數據進行後處理之後，即可得到幀對應到靜音標簽的語音數據。上述後處理操作中，通常將部分音素看作是靜音音素，將其他音素看作是非靜音音素，經過上述映射之後，每一幀語音數據都可以跟靜音/非靜音的標籤對應起來。

本發明的較佳的實施例中，隨後利用上文中得到的語音特徵和幀對齊的標籤就能夠訓練靜音模型了。上述靜音模型可以為包括多層神經網路的深度神經網路模型。上述靜音模型的每層可以是全連接的神經網路、卷積神經網路、遞迴神經網路等，每兩層神經網路之間可以包含一個或多個非線性變換，例如signoid非線性變換、tanh非線性變換、maxpool非線性變換、RELU非線性變換或者softmax非線性變換。

本發明的較佳的實施例中，如圖4所示，該靜音模型中包括多層神經網路41，以及包括一輸出層42。在該靜音模型的輸出層42中設置第一節點421和第二節點422。上述第一節點421用於表示對應靜音幀的標籤，第二節點422用於表示對應非靜音幀的標籤。在輸出層42的第一節點421和第二節點422上可以進行softmax非線性變換或者其他非線性變換操作，也可以不使用非線性變換操作。

則本發明的較佳的實施例中，上述步驟S2具體如圖5所示，包括：步驟S21，語音特徵輸入靜音模型後，通過多層神經網路的前向計算分別得到輸出層中關聯於第一節點的第一取值以及關聯於第二節點的第二取值；步驟S22，將第一取值與第二取值進行比較：若第一取值大於第二取值，則將第一節點作為語音數據的標籤並輸出；若第一取值小於第二取值，則將第二節點作為語音數據的標籤並輸出。

具體地，本實施例中，將語音特徵輸入到訓練好的靜音模型中，多層神經網路進行前向計算，並最終得到輸出層中的兩個輸出節點(第一節點和第二節點)的取值，即第一取值和第二取值。隨後比較第一取值和第二取值的大小：若第一取值較大，則選擇第一節點作為語音數據的標籤並輸出，即此時語音數據為靜音幀；相應地，若第二取值較大，則選擇第二節點作為語音數據的標籤並輸出，即此時語音數據為非靜音幀。

本發明的一個較佳的實施例中，上述語音端點檢測方法的一個完整流程如下文中：首先準備一事先訓練好的中文語音辨識系統，這裡選擇的語音辨識系統具有中文語音數據集，並且擁有語音數據的標注文本。

上述語音辨識系統的聲學模型採用的訓練用語音特徵為FBANK特徵，因此訓練靜音模型時依然採用FBANK特徵。

將訓練用語音數據提取語音特徵，並同對應的標注文本輸入語音辨識系統中進行強制對齊，將每一幀語音特徵對應到音素級別標籤，然後將對齊結果中非靜音音素映射到非靜音的標籤上，將靜音音素映射到靜音的標籤上，以完成靜音模型的訓練資料標籤準備。

隨後，利用上述訓練用語音數據以及對應的標籤訓練形成靜音模型

在利用上述訓練形成的靜音模型進行語音端點的檢測時，將一段語音中的每一幀語音數據提取語音特徵後送入訓練好的靜音模型中，經過多層神經網路的前向計算後輸出第一節點的第一取值和第二節點的第二取值，再比較兩個取值的大小，輸出取值較大的對應的節點的標籤作為該幀語音數據的標籤，以表示該幀語音數據為靜音幀/非靜音幀。

最後，判斷是否存在連續幀的靜音幀/非靜音幀：當採集語音的拾音設備處於非啟動狀態時，若存在連續30幀非靜音幀，則將該連續30幀非靜音幀中的第一幀語音數據作為整段待識別的語音的起始端點；當採集語音的拾音設備處於啟動狀態時，若存在連續50幀靜音幀，則將該連續50幀靜音幀中的第一幀語音數據作為整段待識別的語音的結束端點。

本發明的較佳的實施例中，還提供一種語音辨識方法，其中採用上述語音端點檢測方法檢測得到需要識別的一段語音的起始端點和結束端點，以確定需要識別的語音的範圍，隨後再採用現有的語音辨識技術對該段語音進行識別。

以上僅為本發明較佳的實施例，並非因此限制本發明的實施方式及保護範圍，對於本領域技術人員而言，應當能夠意識到凡運用本發明說明書及圖示內容所作出的等同替換和顯而易見的變化所得到的方案，均應當包含在本發明的保護範圍內。

Claims

一種語音端點檢測方法，其中，預先訓練形成一用於判斷語音數據是否為靜音幀的靜音模型，隨後獲取外部輸入的包括連續幀的多個語音數據的一段語音，並執行下述步驟：步驟S1，提取每一幀語音數據的語音特徵，並將該語音特徵輸入至該靜音模型中；步驟S2，該靜音模型根據該語音特徵輸出關聯於每一幀語音數據的標籤，該標籤用於表示該語音數據是否為靜音幀；步驟S3，根據連續幀的多個語音數據的多個標籤確認該段語音的語音端點：當採集該語音的拾音設備處於非啟動狀態時，若多個語音數據中連續出現的多個非靜音幀的長度大於一預設的第一閾值，則判斷連續出現的多個非靜音幀語音數據中的第一幀為該段語音的起始端點；當採集該語音的拾音設備處於啟動狀態時，若多個語音數據中連續出現的多個靜音幀的長度大於一預設的第二閾值，則判斷連續出現的多個靜音幀語音數據中的第一幀為該段語音的結束端點。
如請求項第1項所述之語音端點檢測方法，其中，通過下述方法預先訓練形成該靜音模型：步驟A1，輸入預設的多個訓練用語音數據，並提取每個該訓練用語音數據的語音特徵；步驟A2，根據對應的該語音特徵，針對每幀該訓練用語音數據進行自動標注操作，獲得對應每幀該語音數據的一標籤；該標籤用於表示對應的一幀該語音數據為靜音幀或者非靜音幀；步驟A3，根據該訓練用語音數據以及對應的該標籤訓練得到該靜音模型；該靜音模型的輸出層上設置有第一節點和第二節點；該第一節點用於表示對應該靜音幀的該標籤；該第二節點用於表示對應該非靜音幀的該標籤。
如請求項第2項所述之語音端點檢測方法，其中，對應外部輸入的每個該訓練用語音數據均預先設置一標注文本，以標注該訓練用語音數據對應的文本內容；則該步驟A2具體包括：步驟A21，獲取該語音特徵和對應的該標注文本；步驟A22，利用預先訓練形成的聲學模型對該語音特徵和對應的該標注文本進行強制對齊，以得到每幀該語音特徵對應到音素的輸出標籤；步驟A23，對經過該強制對齊的該訓練用語音數據進行後處理，以將靜音音素的該輸出標籤映射到表示該靜音幀的該標籤上，以及將非靜音音素的該輸出標籤映射到表示該非靜音幀的該標籤上。
如請求項第3項所述之語音端點檢測方法，其中，該步驟A22中，預先訓練形成的該聲學模型為高斯混合模型-隱藏式馬可夫模型，或者為深度神經網路-隱藏式馬可夫模型。
如請求項第1項所述之語音端點檢測方法，其中，該靜音模型為包括多層神經網路的深度神經網路模型。
如請求項第5項所述之語音端點檢測方法，其中，該靜音模型的每兩層該神經網路之間包括至少一個非線性變換。
如請求項第5項所述之語音端點檢測方法，其中，該靜音模型的每層該神經網路為全連接的神經網路，或者卷積神經網路，或者遞迴神經網路。
如請求項第2項所述之語音端點檢測方法，其中，該靜音模型為包括多層神經網路的深度神經網路模型；該靜音模型的輸出層上設置有第一節點和第二節點；該第一節點用於表示對應該靜音幀的該標籤；該第二節點用於表示對應非靜音幀的該標籤；則該步驟S2具體包括：步驟S21，該語音特徵輸入該靜音模型後，通過多層該神經網路的前向計算分別得到該輸出層中關聯於該第一節點的第一取值以及關聯於該第二節點的第二取值；步驟S22，將該第一取值與該第二取值進行比較：若該第一取值大於該第二取值，則將該第一節點作為該語音數據的該標籤並輸出；若該第一取值小於該第二取值，則將該第二節點作為該語音數據的該標籤並輸出。
一種語音辨識方法，其中，採用如請求項第1-8項所述之語音端點檢測方法檢測得到需要識別的一段語音的起始端點和結束端點。