TW201814689A - 一種語音激活檢測方法及裝置 - Google Patents

一種語音激活檢測方法及裝置 Download PDF

Info

Publication number
TW201814689A
TW201814689A TW106133943A TW106133943A TW201814689A TW 201814689 A TW201814689 A TW 201814689A TW 106133943 A TW106133943 A TW 106133943A TW 106133943 A TW106133943 A TW 106133943A TW 201814689 A TW201814689 A TW 201814689A
Authority
TW
Taiwan
Prior art keywords
voice
speech
activation
neural network
module
Prior art date
Application number
TW106133943A
Other languages
English (en)
Other versions
TWI659412B (zh
Inventor
范利春
朱磊
Original Assignee
中國商芋頭科技(杭州)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中國商芋頭科技(杭州)有限公司 filed Critical 中國商芋頭科技(杭州)有限公司
Publication of TW201814689A publication Critical patent/TW201814689A/zh
Application granted granted Critical
Publication of TWI659412B publication Critical patent/TWI659412B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本發明涉及語音辨識技術領域,尤其涉及一種語音激活檢測方法及裝置,通過採用兩次激活檢測的方法,將第一次激活判斷中取到的語音片段輸入BLSTM循環神經網路,通過對整條語音的所有幀進行處理,最終判定是否激活語音辨識設備。在兩次激活確認中,第一次激活的閾值可以設置適當寬鬆,以保證較高的檢出率;第二次激活確認由於已知起始點,相對更加準確,兩次激活檢測能夠同時降低誤激活和漏激活,即有效降低激活的等錯誤率,從而更加有效的保證激活的性能。

Description

一種語音激活檢測方法及裝置
本發明涉及語音辨識領域,尤其涉及一種利用雙向循環神經網路進行二次確認的語音激活檢測方法及裝置。
很多語音辨識設備需要語音激活之後才能夠拾音進而進行識別。語音辨識設備激活之後才進行拾音一來是為了降低設備功耗,二來是為了減少不需要進行識別的語音進入語音辨識流程,進而帶來不必要的回應。近場語音辨識環境中,比如手機端的語音辨識,可以採用觸摸或按鍵等方式進入拾音狀態。在遠場識別中,或是近場識別但不方便用手操作的時候,利用語音對設備進行激活使設備進入拾音狀態就變得不可或缺。語音激活通常是先設定激活詞,然後對設備說出激活詞,設備被喚醒之後進入拾音狀態。
語音激活最簡單直觀的方法是利用語音辨識的方法,把激活的語音送入語音辨識器進行識別,如果識別結果是激活詞或者包含激活詞,那麼設備激活。實際上,只需要對激活語音進行聲學打分,計算在設定激活詞上的聲學得分即可,同時還可以根據得分設定接受和拒絕的閾值;然而閾值是非常難控制的,這是因為閾值設定太低會帶來很多的錯誤激活,閾值設定太高則使得語音辨識設備難以被激活。這種現象對於較短的激活詞尤其嚴重。
如何找到一種同時降低錯誤激活和遺漏激活(即降低激活的 等錯誤率)的方法成為本領域技術人員致力於研究的方向。
針對上述存在的問題,本發明公開一種語音激活檢測方法,其中,應用於對設置有激活詞的語音辨識設備進行激活時的語音檢測,包括以下步驟:步驟S1,對待測語音數據進行端點檢測,以獲取包含語音信號的語音數據;步驟S2,利用預先訓練形成的語音辨識聲學模型處理得到關聯於該包含語音信號的語音數據的三音子後驗概率;步驟S3,對該三音子後驗概率進行流式動態規劃,以處理得到該包含語音信號的語音數據在該激活詞上的路徑得分;步驟S4,將該路徑得分與預先設定的第一閾值進行比較:若該路徑得分小於該第一閾值,則判斷該包含語音信號的語音數據為非激活語音,隨後退出;步驟S5,進行回溯,找到該包含語音信號的語音數據的起始位置,並根據該起始位置獲取語音片段;步驟S6,利用預先訓練形成的雙向循環神經網路對該語音片段進行前向處理,並根據處理結果判斷是否激活該語音辨識設備。
上述的語音激活檢測方法,其中,該步驟S6中,根據處理結果判斷是否激活該語音辨識設備的判斷步驟具體包括:將該處理結果與預先設定的第二閾值進行比較,並在該處理結果大於該第二閾值時激活該設備。
上述的語音激活檢測方法,其中,該端點檢測為基於短時能量、音高或神經網路的端點檢測。
上述的語音激活檢測方法,其中,該語音辨識聲學模型為基於GMM-HMM的聲學模型或基於DNN-HMM框架的聲學模型。
上述的語音激活檢測方法,其中,關聯於該包含語音信號的語音數據的三音子後驗概率為一聲學得分矩陣,該聲學得分矩陣包括該包含語音信號的語音數據的每一幀語音在該激活詞所包含的三音子上的得分。
上述的語音激活檢測方法,其中,該語音片段為只包括該激活詞的語音片段。
上述的語音激活檢測方法,其中,該雙向循環神經網路為BLSTM循環神經網路。
上述的語音激活檢測方法,其中,該步驟S6中,預先訓練形成該雙向循環神經網路的訓練步驟包括:步驟S61,對包含激活詞的語音進行處理以獲取只包含激活詞的語音片段;步驟S62,利用該只包含激活詞的語音片段對該雙向循環神經網路進行訓練。
本發明還公開了一種語音激活檢測裝置,應用於設置有激活詞的語音辨識設備上,以在對該語音辨識設備進行激活時進行語音檢測,包括:端點檢測模組,對待測語音數據進行端點檢測,以獲取包含語音信號的語音數據;聲學打分模組,與該端點檢測模組連接,以利用預先訓練形成的語音辨識聲學模型處理得到關聯於該包含語音信號的語音數據的三音子後驗概率;動態規劃模組,與該聲學打分模組連接,對該三音子後驗概率進行流 式動態規劃,以處理得到該包含語音信號的語音數據在該激活詞上的路徑得分;比較模組,與該動態規劃模組連接,且該比較模組中預先設定有第一閾值,該比較模組將該路徑得分與預先設定的第一閾值進行比較,並根據比較結果判斷該包含語音信號的語音數據是否為激活語音;回溯模組,與該比較模組連接,以在該比較結果判斷該包含語音信號的語音數據為激活語音時進行回溯,找到該包含語音信號的語音數據的起始位置,並根據該起始位置獲取語音片段;處理比較模組,與該回溯模組連接,並包括預先訓練形成的雙向循環神經網路,以利用預先訓練形成的雙向循環神經網路對該語音片段進行前向處理,並根據處理結果判斷是否激活該語音辨識設備。
上述的語音激活檢測裝置,其中,該處理比較模組包括處理單元和比較單元;該處理單元利用預先訓練形成的雙向循環神經網路對該語音片段進行前向處理;該比較單元將該處理結果與預先設定的第二閾值進行比較,並在該處理結果大於該第二閾值時激活該設備。
上述的語音激活檢測裝置,其中,該端點檢測模組為基於短時能量、音高或神經網路的端點檢測模組。
上述的語音激活檢測裝置,其中,該語音辨識聲學模型為基於GMM-HMM的聲學模型或基於DNN-HMM框架的聲學模型。
上述的語音激活檢測裝置,其中,關聯於該包含語音信號的語音數據的三音子後驗概率為一聲學得分矩陣,該聲學得分矩陣包括該包含語音信號的語音數據的每一幀語音在該激活詞所包含的三音子上的得分。
上述的語音激活檢測裝置,其中,該語音片段為只包括該激活詞的語音片段。
上述的語音激活檢測裝置,其中,該雙向循環神經網路為BLSTM循環神經網路。
上述發明具有如下優點或者有益效果:本發明公開一種語音激活檢測方法及裝置,採用兩次激活檢測的方法,並在第一次激活確認中,僅使用聲學打分,然後利用動態規劃的方法,並依據路徑得分和閾值的比較來判斷包含語音信號的語音數據是否有可能激活,然後將有可能激活的語音片段送入到第二次使用BLSTM循環神經網路進行語音激活確認的流程中,通過對整條語音的所有幀進行計算,最終判定是否激活語音辨識設備;在兩次激活確認中,第一次激活的閾值可以設置得適當寬鬆,以保證較高的檢出率;第二次激活確認由於已知起始點,相對更加準確,兩次激活檢測能夠同時降低錯誤激活和遺漏激活,即有效降低激活的等錯誤率,從而更加有效的保證激活的性能。
S1‧‧‧步驟
S2‧‧‧步驟
S3‧‧‧步驟
S4‧‧‧步驟
S5‧‧‧步驟
S6‧‧‧步驟
通過閱讀參照以下附圖對非限制性的實施例所作的詳細描述,本發明及其特徵、外形和優點將會變得更加明顯。在全部附圖中相同的標記表示相同的部分。並可以未按照比例繪製附圖,重點在於表示出本發明的主旨。
圖1是本發明實施例中語音激活檢測方法的流程圖;圖2是本發明實施例中語音激活檢測裝置的結構示意圖。
以下結合附圖和具體的實施例對本發明作進一步的說明,但是不作為本發明的限定。
如圖1所示,本實施例涉及一種語音激活檢測方法,應用於對設置有激活詞的語音辨識設備進行激活時的語音檢測,該方法主要由包括以下步驟:步驟S1,對待測語音數據進行端點檢測,以獲取包含語音信號的語音數據。
之所以將端點檢測的步驟放在方法流程的第一位,是由於如果持續對待測語音數據(連續語音信號)進行聲學計算,會浪費較大的資源,而進行端點檢測後,後續的聲學計算只針對包含語音信號的語音數據進行,這樣能夠節省計算資源。端點檢測的方法有很多,例如使用短時能量的方法,使用音高(pitch)的方法以及使用神經網路的方法等(即端點檢測可以為基於短時能量、音高或神經網路的端點檢測等)。
在本發明的一個優選的實施例中,採用神經網路的方法對待測語音數據進行端點檢測,以獲取包含語音信號的語音數據;具體的,神經網路的輸入是每一幀語音特徵,神經網路的輸出有2個節點,分別對應語音和非語音。在判斷持續的幀時,設定連續出現一定數量的語音幀則認為是起始端點,連續出現一定數量的非語音幀則認為是結束端點。
步驟S2,利用預先訓練形成的語音辨識聲學模型處理得到關聯於包含語音信號的語音數據的三音子後驗概率。
在本發明一個優選的實施例中,關聯於包含語音信號的語音數據的三音子後驗概率為一聲學得分矩陣,聲學得分矩陣包括包含語音信號的語音數據的每一幀語音在激活詞所包含的三音子上的得分,(即得分計算需要得到每一幀語音在激活詞所包含的三音子上的得分,最終得到一個聲學得分矩陣)。
在本發明一個優選的實施例中,上述語音辨識聲學模型為基於GMM-HMM的聲學模型或基於DNN(深度神經網路)-HMM框架的聲學 模型。
步驟S3,對三音子後驗概率進行流式動態規劃,以處理得到包含語音信號的語音數據在激活詞上的路徑得分。
在第一次激活確認的流式動態規劃中,為了限制搜索空間的大小,需要設定激活詞的最短以及最長時間片段。同時這樣做也保證了激活詞片段的時長,從而增加了可靠性。更具體的講,是設定了激活詞中每個音子的最短以及最長時間片段。
在聲學打分矩陣上使用動態規劃演算法計算出各語音片段的匹配得分,若該語音中有語音片段的匹配得分高於閾值,則包含有喚醒詞。具體如下:對於一個關鍵字,如“數位”,其包含有2個字,4個聲韻母,相當於4個tri-phone,即12個狀態,假設其狀態號依次為1-12。那麼對於一段測試語音,從每一幀的聲學打分模型的輸出中提取出這12個狀態下的概率,作為該幀在“數位”關鍵字下的聲學打分。那麼對於一段T幀的語音,則該語音可以轉換為12*T的矩陣。
對於該幀長為T的語音,借助於其對應的12*T矩陣,可計算出任一語音片段的匹配得分,計算細節如下:一般來說,每一個狀態的長度為2-10幀,那麼“數位”關鍵字的長度為24-120幀。對於語音流中的任意第t幀,將其作為該語音片段的終止幀,向前取24到120幀,即分別將t-120、t-119、…、t-24作為該語音片段的初始幀,從而構成了96種待判別的情況,分別對這96種情況下的矩陣做動態規劃,將得到的結果除以幀長得到平均得分,取這96種情況下的最高平均得分作為第t幀的匹配得分。
步驟S4,將路徑得分與預先設定的第一閾值進行比較:若路徑得分小於第一閾值,則判斷包含語音信號的語音數據為非激活語音,隨後退出。
經過第一次語音激活判斷(第一次語音激活判斷包括步驟S3和步驟S4)之後,可以獲取到動態規劃的路徑得分。將這個路徑得分與預先設定的第一閾值進行對比,小於此第一閾值的則認為是非激活語音,隨後退出;而超過閾值的認為通過了第一次激活檢測,繼續進行步驟S5。
步驟S5,進行回溯,找到包含語音信號的語音數據的起始位置,並根據起始位置獲取語音片段。
具體的,通過第一次激活檢測的語音使用過動態規劃的回溯演算法找到起始點,從而獲取到一段可能包含激活詞的語音片段。這段語音片段的選擇對於後面使用雙向循環神經網路進行激活的二次確認有較大的影響,最好是恰好包含激活詞的語音片段,這樣才能獲得最好的效果。
步驟S6,利用預先訓練形成的BLSTM(Bidirectional Long Short Term Memory,雙向長短時記憶)循環神經網路對語音片段進行前向處理,並根據處理結果判斷是否激活語音辨識設備。
BLSTM循環神經網路,其中。雙向長短時記憶是神經網路學習模型,“雙向”表示輸入被前向和後向提供給兩個單獨的回歸網路,這兩個回歸網路均連接至相同的輸出層,並且“長短時記憶”表示能夠學習長期依賴性的替選的神經架構。
在此,值得一提的是,神經網路,尤其是循環神經網路,由於強大的建模能力而被語音辨識領域廣泛採用。而雙向循環神經網路擁有比單向循環神經網路更加強大的建模能力。但是,需要知道起始點和結束點才能進行準確計算的要求,使得雙向循環神經網路在語音領域難以應用;本發明實施例通過第一次激活檢測的語音使用動態規劃的回溯演算法找到起始點,從而獲取到一段可能包含激活詞的語音片段,進而可以使得雙向循環神經網路在語音激活檢測中得以應用。
在步驟S6中,BLSTM循環神經網路需要預先進行訓練,它 包含幾個隱藏層,輸入為語音片段的特徵,輸出節點為2,分別代表非激活節點和激活節點。訓練資料同樣需要進行處理,將包含激活詞的語音進行前面的四個處理步驟,得到只包含激活詞的語音片段來進行訓練。反樣本是錯誤激活資料,發音類似激活詞,同樣經過處理之後得到語音片段來進行訓練。訓練中,包含真正激活詞的語音片段每一幀的標籤都設置為1,反之則將每一幀的標籤都設置為0。
進行激活詞二次確認的時候,將整個語音片段送入BLSTM循環神經網路中進行計算,每一幀語音都會得到一個輸出結果,最後根據所有幀的加權得分。
將語音片段素有幀的BLSTM循環神經網路的輸出計算均值,針對標籤1的節點設定閾值,輸出值大於閾值的,認定語音片段確實是激活詞,設備激活;輸出值小於閾值的,認定語言片段並非激活詞,設備不激活。
如圖2所示,本實施例涉及一種語音激活檢測裝置,應用於設置有激活詞的語音辨識設備上,以在對語音辨識設備進行激活時進行語音檢測,具體的,該語音激活檢測裝置包括對待測語音數據進行端點檢測,以獲取包含語音信號的語音數據的端點檢測模組、與端點檢測模組連接,以利用預先訓練形成的語音辨識聲學模型處理得到關聯於包含語音信號的語音數據的三音子後驗概率的聲學打分模組、與聲學打分模組連接,對三音子後驗概率進行流式動態規劃,以處理得到包含語音信號的語音數據在激活詞上的路徑得分放入動態規劃模組、與動態規劃模組連接的比較模組、與比較模組連接的回溯模組以及與回溯模組連接的計算比較模組;其中,比較模組中預先設定有第一閾值,該比較模組將路徑得分與預先設定的第一閾值進行比較,並根據比較結果判斷包含語音信號的語音數據是否為激活語音;回溯模組以在比較結果判斷包含語音信號的語音數據為激活 語音時進行回溯,找到包含語音信號的語音數據的起始位置,並根據起始位置獲取語音片段;處理比較模組包括預先訓練形成的雙向循環神經網路,以利用預先訓練形成的雙向循環神經網路對語音片段進行前向處理,並根據處理結果判斷是否激活語音辨識設備。
在本發明一個優選的實施例中,上述處理比較模組包括利用預先訓練形成的雙向循環神經網路對語音片段進行前向處理的處理單元和將處理結果與預先設定的第二閾值進行比較,並在處理結果大於第二閾值時激活設備的比較單元。
在本發明一個優選的實施例中,上述端點檢測模組為基於短時能量、音高或神經網路的端點檢測模組。
在本發明一個優選的實施例中,上述語音辨識聲學模型為基於GMM-HMM的聲學模型或基於DNN-HMM框架的聲學模型。
在本發明一個優選的實施例中,上述關聯於包含語音信號的語音數據的三音子後驗概率為一聲學得分矩陣,聲學得分矩陣包括包含語音信號的語音數據的每一幀語音在激活詞所包含的三音子上的得分。
在本發明一個優選的實施例中,上述語音片段為只包括激活詞的語音片段。
在本發明一個優選的實施例中,上述雙向循環神經網路為BLSTM雙向循環神經網路。
不難發現,本實施例為與上述語音激活檢測方法的實施例相對應的結構實施例,本實施例可與上述語音激活檢測方法的實施例互相配合實施。上述語音激活檢測方法的實施例中提到的相關技術細節在本實施例中依然有效,為了減少重複,這裡不再贅述。相應地,本實施方式中提到的相關技術細節也可應用在上述語音激活檢測方法的實施例中。
本領域技術人員應該理解,本領域技術人員在結合現有技術 以及上述實施例可以實現變化例,在此不做贅述。這樣的變化例並不影響本發明的實質內容,在此不予贅述。
以上對本發明的較佳實施例進行了描述。需要理解的是,本發明並不局限於上述特定實施方式,其中未盡詳細描述的設備和結構應該理解為用本領域中的普通方式予以實施;任何熟悉本領域的技術人員,在不脫離本發明技術方案範圍情況下,都可利用上述揭示的方法和技術內容對本發明技術方案作出許多可能的變動和修飾,或修改為等同變化的等效實施例,這並不影響本發明的實質內容。因此,凡是未脫離本發明技術方案的內容,依據本發明的技術實質對以上實施例所做的任何簡單修改、等同變化及修飾,均仍屬於本發明技術方案保護的範圍內。

Claims (15)

  1. 一種語音激活檢測方法,應用於對設置有激活詞的語音辨識設備進行激活時的語音檢測,包括以下步驟:步驟S1,對待測語音數據進行端點檢測,以獲取包含語音信號的語音數據;步驟S2,利用預先訓練形成的語音辨識聲學模型處理得到關聯於該包含語音信號的語音數據的三音子後驗概率;步驟S3,對該三音子後驗概率進行流式動態規劃,以處理得到該包含語音信號的語音數據在該激活詞上的路徑得分;步驟S4,將該路徑得分與預先設定的第一閾值進行比較:若該路徑得分小於該第一閾值,則判斷該包含語音信號的語音數據為非激活語音,隨後退出;步驟S5,進行回溯,找到該包含語音信號的語音數據的起始位置,並根據該起始位置獲取語音片段;及步驟S6,利用預先訓練形成的雙向循環神經網路對該語音片段進行前向處理,並根據處理結果判斷是否激活該語音辨識設備。
  2. 如申請專利範圍第1項所述之語音激活檢測方法,其中,該步驟S6中,根據處理結果判斷是否激活該語音辨識設備的判斷步驟具體包括:將該處理結果與預先設定的第二閾值進行比較,並在該處理結果大於該第二閾值時激活所述設備。
  3. 如申請專利範圍第1項所述之語音激活檢測方法,其中,該端點檢測為基於短時能量、音高或神經網路的端點檢測。
  4. 如申請專利範圍第1項所述之語音激活檢測方法,其中,該語音辨識聲學模型為基於GMM-HMM的聲學模型或基於DNN-HMM框架的聲學模 型。
  5. 如申請專利範圍第1項所述之語音激活檢測方法,其中,關聯於該包含語音信號的語音數據的三音子後驗概率為一聲學得分矩陣,該聲學得分矩陣包括該包含語音信號的語音數據的每一幀語音在該激活詞所包含的三音子上的得分。
  6. 如申請專利範圍第1項所述之語音激活檢測方法,其中,該語音片段為只包括該激活詞的語音片段。
  7. 如申請專利範圍第1項所述之語音激活檢測方法,其中,該雙向循環神經網路為BLSTM循環神經網路。
  8. 如申請專利範圍第1項所述之語音激活檢測方法,其中,該步驟S6中,預先訓練形成該雙向循環神經網路的訓練步驟包括:步驟S61,對包含激活詞的語音進行處理以獲取只包含激活詞的語音片段;及步驟S62,利用該只包含激活詞的語音片段對該雙向循環神經網路進行訓練。
  9. 一種語音激活檢測裝置,其中,應用於設置有激活詞的語音辨識設備上,以在對該語音辨識設備進行激活時進行語音檢測,係包括:端點檢測模組,對待測語音數據進行端點檢測,以獲取包含語音信號的語音數據;聲學打分模組,與該端點檢測模組連接,以利用預先訓練形成的語音辨識聲學模型處理得到關聯於該包含語音信號的語音數據的三音子後驗概率;動態規劃模組,與該聲學打分模組連接,對該三音子後驗概率進行流式動態規劃,以處理得到該包含語音信號的語音數據在該激活詞上的路徑得分; 比較模組,與該動態規劃模組連接,且該比較模組中預先設定有第一閾值,該比較模組將該路徑得分與預先設定的第一閾值進行比較,並根據比較結果判斷該包含語音信號的語音數據是否為激活語音;回溯模組,與該比較模組連接,以在該比較結果判斷該包含語音信號的語音數據為激活語音時進行回溯,找到該包含語音信號的語音數據的起始位置,並根據該起始位置獲取語音片段;及處理比較模組,與該回溯模組連接,並包括預先訓練形成的雙向循環神經網路,以利用預先訓練形成的雙向循環神經網路對該語音片段進行前向處理,並根據處理結果判斷是否激活該語音辨識設備。
  10. 如申請專利範圍第9項所述之語音激活檢測裝置,其中,該處理比較模組包括處理單元和比較單元;該處理單元利用預先訓練形成的雙向循環神經網路對該語音片段進行前向處理;該比較單元將該處理結果與預先設定的第二閾值進行比較,並在該處理結果大於該第二閾值時激活該設備。
  11. 如申請專利範圍第9項所述之語音激活檢測裝置,其中,該端點檢測模組為基於短時能量、音高或神經網路的端點檢測模組。
  12. 如申請專利範圍第9項所述之語音激活檢測裝置,其中,該語音辨識聲學模型為基於GMM-HMM的聲學模型或基於DNN-HMM框架的聲學模型。
  13. 如申請專利範圍第9項所述之語音激活檢測裝置,其中,關聯於該包含語音信號的語音數據的三音子後驗概率為一聲學得分矩陣,該聲學得分矩陣包括該包含語音信號的語音數據的每一幀語音在該激活詞所包含的三音子上的得分。
  14. 如申請專利範圍第9項所述之語音激活檢測裝置,其中,該語音片段為只包括該激活詞的語音片段。
  15. 如申請專利範圍第9項所述之語音激活檢測裝置,其中,該雙向循環神經網路為BLSTM循環神經網路。
TW106133943A 2016-10-11 2017-09-30 一種語音激活檢測方法及裝置 TWI659412B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610886934.9A CN107919116B (zh) 2016-10-11 2016-10-11 一种语音激活检测方法及装置
??201610886934.9 2016-10-11

Publications (2)

Publication Number Publication Date
TW201814689A true TW201814689A (zh) 2018-04-16
TWI659412B TWI659412B (zh) 2019-05-11

Family

ID=61892655

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106133943A TWI659412B (zh) 2016-10-11 2017-09-30 一種語音激活檢測方法及裝置

Country Status (3)

Country Link
CN (1) CN107919116B (zh)
TW (1) TWI659412B (zh)
WO (1) WO2018068649A1 (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN108665889B (zh) * 2018-04-20 2021-09-28 百度在线网络技术(北京)有限公司 语音信号端点检测方法、装置、设备及存储介质
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) * 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
CN109360585A (zh) 2018-12-19 2019-02-19 晶晨半导体(上海)股份有限公司 一种语音激活检测方法
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
CN113192499A (zh) * 2020-01-10 2021-07-30 青岛海信移动通信技术股份有限公司 一种语音唤醒方法及终端
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN113593539A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 流式端到端语音识别方法、装置及电子设备
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN112652296B (zh) * 2020-12-23 2023-07-04 北京华宇信息技术有限公司 流式语音端点检测方法、装置及设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020120446A1 (en) * 2001-02-23 2002-08-29 Motorola, Inc. Detection of inconsistent training data in a voice recognition system
US20030033143A1 (en) * 2001-08-13 2003-02-13 Hagai Aronowitz Decreasing noise sensitivity in speech processing under adverse conditions
CN101281745B (zh) * 2008-05-23 2011-08-10 深圳市北科瑞声科技有限公司 一种车载语音交互系统
CN102194452B (zh) * 2011-04-14 2013-10-23 西安烽火电子科技有限责任公司 复杂背景噪声中的语音激活检测方法
CN102436816A (zh) * 2011-09-20 2012-05-02 安徽科大讯飞信息科技股份有限公司 一种语音数据解码方法和装置
US8543397B1 (en) * 2012-10-11 2013-09-24 Google Inc. Mobile device voice activation
CN103839544B (zh) * 2012-11-27 2016-09-07 展讯通信(上海)有限公司 语音激活检测方法和装置
CN103077708B (zh) * 2012-12-27 2015-04-01 安徽科大讯飞信息科技股份有限公司 一种语音识别系统中拒识能力提升方法
CN103325370B (zh) * 2013-07-01 2015-11-25 百度在线网络技术(北京)有限公司 语音识别方法和语音识别系统
CN104143326B (zh) * 2013-12-03 2016-11-02 腾讯科技(深圳)有限公司 一种语音命令识别方法和装置
CN103646649B (zh) * 2013-12-30 2016-04-13 中国科学院自动化研究所 一种高效的语音检测方法
CN203882609U (zh) * 2014-05-08 2014-10-15 钰太芯微电子科技(上海)有限公司 基于语音激活检测的唤醒装置
CN105374352B (zh) * 2014-08-22 2019-06-18 中国科学院声学研究所 一种语音激活方法及系统

Also Published As

Publication number Publication date
TWI659412B (zh) 2019-05-11
CN107919116B (zh) 2019-09-13
WO2018068649A1 (zh) 2018-04-19
CN107919116A (zh) 2018-04-17

Similar Documents

Publication Publication Date Title
TW201814689A (zh) 一種語音激活檢測方法及裝置
US11503155B2 (en) Interactive voice-control method and apparatus, device and medium
CN107767863B (zh) 语音唤醒方法、系统及智能终端
TWI659409B (zh) 一種語音端點檢測方法及語音辨識方法
Zhang et al. Attention based fully convolutional network for speech emotion recognition
US10510340B1 (en) Dynamic wakeword detection
US11158305B2 (en) Online verification of custom wake word
US20190392859A1 (en) Method and apparatus for voice activity detection
JP7263492B2 (ja) エンドツーエンドストリーミングキーワードスポッティング
WO2019179285A1 (zh) 语音识别方法、装置、设备及存储介质
BR102018070673A2 (pt) Gerar diálogo baseado em pontuações de verificação
US20220343895A1 (en) User-defined keyword spotting
US20230089285A1 (en) Natural language understanding
US10872599B1 (en) Wakeword training
JP6732703B2 (ja) 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム
CN109119070A (zh) 一种语音端点检测方法、装置、设备及存储介质
CN108536668B (zh) 唤醒词评估方法及装置、存储介质、电子设备
US11398226B1 (en) Complex natural language processing
US11810593B2 (en) Low power mode for speech capture devices
US11990122B2 (en) User-system dialog expansion
Wang et al. Speaker recognition using convolutional neural network with minimal training data for smart home solutions
Kumar et al. Building a robust word-level wakeword verification network
US11227592B1 (en) Contextual content for voice user interfaces
US11138858B1 (en) Event-detection confirmation by voice user interface
US20190348037A1 (en) Intelligent Software Agent