TWI576825B

TWI576825B - 一種機器人系統的聲音識別系統及方法

Info

Publication number: TWI576825B
Application number: TW104144159A
Authority: TW
Inventors: 蔡鵬; 高鵬; 江濤; 程一堂; 向文傑
Original assignee: 芋頭科技(杭州)有限公司
Priority date: 2015-01-12
Filing date: 2015-12-29
Publication date: 2017-04-01
Also published as: US20160343376A1; JP2018507434A; TW201626363A; CN105845135A; EP3246915A4; CA2973512A1; HK1222254A1; KR20170103925A; NZ734339A; ZA201705424B; JP6572314B2; EP3246915A1; WO2016112634A1; SG11201705705SA

Description

一種機器人系統的聲音識別系統及方法

本發明涉及智慧型語音領域，具體涉及一種機器人系統的聲音識別系統及方法。

機器人系統的聲音識別系統主要涉及兩大主要技術：語音識別技術及自然語言處理技術。

語音識別技術，也被稱為自動語音識別(Automatic Speech Recognition，ASR)，其目標是將人類的語音中的詞彙內容轉換為電腦可讀的輸入，例如按鍵、二進位編碼或者字元序列。

自然語言處理技術(Natural Language Processing，簡稱NLP)，是人工智慧和語言學的分支科學，它的主要目的是為了實現人與電腦之間用自然語言進行有效通訊。

現有主流機器人系統的聲音識別系統都運用了這兩大技術。

機器人系統的聲音識別過程可分為四個階段：接收語音、語音識別、自然語言處理和動作執行。

有機器人系統對語音的接收方式不一，主要可概括為以下三種：1.非即時輸入：機器人只有在額外觸發動作執行，確認觸發之後再開始接收語音輸入。2.即時輸入：機器人一直接收外界的語音輸入，對所有判斷為人聲輸入的。3.即時輸入：機器人一直接收外界的語音輸入，每次語音輸入需要使用固定語句來進行觸發。

無論用哪種語音接收方式，當機器人接收到語音訊號之後，首先通過語音識別技術將語音轉換成電腦可讀輸入，通常為字元序列，即文字；然後通過自然語言處理技術將語音識別的結果進行自然語言分析及處理，以得到語音訊號的真正意思；最後根據自然語言處理的結果做出相應的反應，執行命令及動作。

現有機器人系統的聲音識別系統主要有以下三個問題：

1.需要額外觸發動作觸發才能開始進行語音交流：在最自然的對話模式中增加了多餘的互動，降低了用戶體驗。

2.並非真正的可以讓人使用自然語言與機器人進行交談，多為固定的語句或句型，涉及的使用範圍非常有限，當一個人不知道這些固定的語句或句型的時候，他將不知道如何去與機器人交流。

3.不能做到即時反饋，或是能耗太高並且有大量的誤觸發，使得人與機器人之間的互動不流暢，與機器人的交流會變得小心翼翼。

針對習知技術中存在的問題，本發明提供了一種機器人系統的聲音識別系統，包括：麥克風，以即時接收外部的語音訊號；本地語音檢測器，對語音訊號進行檢測，並判斷當前的語音訊號是否包含人聲，若包含人聲則進行輸出；本地語音識別模組，接收語音檢測器輸出的人聲語音訊號並進行辨識，以判斷當前的人聲語音訊號是否包含喚醒指令，若包含喚醒指令則進行輸出；本地語音編碼模組，用於對人聲語音訊號進行編碼後輸出；遠端語音解碼模組，遠端語音解碼模組用於接收本地語音編碼模組輸出的編碼過的語音訊號進行解碼後輸出；遠端語音識別模組和遠端語言處理模組，遠端語音識別模組接收遠端語音解碼模組輸出的經解碼過的人聲語音訊號，在進行轉換後輸出到遠端語言處理模組，遠端語言處理模組根據轉換後的人聲語音訊號生成相應的操作指令；以及執行模組，用於執行遠端語言處理模組的操作指令。

上述的聲音識別系統，其中麥克風位於始終開啟的狀態，以不間斷的即時接收外部語音訊號。

上述的聲音識別系統，其中聲音識別系統還包括多媒體模組，通過多媒體模組來執行操作指令。

上述的聲音識別系統，其本地語音識別模組通過資料流程的方式將人聲語音訊號輸出到遠端語音識別模組。

上述的聲音識別系統，其中聲音識別系統還包括喚醒指令編輯模組，以對喚醒指令進行編輯。

上述的聲音識別系統，其中本地語音檢測器為基於神經網路演算法的語音檢測器。

上述的聲音識別系統，其中遠端語言處理模組根據轉換後的人聲語音訊號生成相應的操作指令的處理時間在10~20ms之間。

同時本發明還公開了一種採用上述識別系統的識別方法，其中，包括如下步驟：利用麥克風即時接收外部的語音訊號；利用本地語音檢測器來判斷當前的語音訊號是否包含人聲，若包含人聲則輸出至本地語音識別模組；利用本地語音識別模組對人聲語音訊號進行判別，以判斷當前的人聲語音訊號是否包含喚醒指令，若包含喚醒指令則將人聲語音訊號進一步進行輸出至本地語音編碼模組；本地語音編碼模組對人聲語音訊號進行編碼後傳輸到遠端語音編碼模組；遠端語音解碼模組對收到的人聲語音訊號進行解碼後傳輸到遠端語音識別模組；利用遠端語音識別模組對遠端語音解碼模組輸出的人聲語音訊號進行轉換，並輸出到遠端語言處理模組；遠端語言處理模組根據轉換後的人聲語音訊號生成相應的操作指令；以及執行模組通過控制多媒體模組來執行操作指令。

上述的方法，其中，在本地語音識別模組辨識到當前的人聲語音訊號包含有喚醒指令時，本地語音識別模組關閉，人聲語音訊號經過本地語音編碼模組的編碼之後，直接傳輸到遠端語音解碼模組進行解碼後傳輸到利用遠端語音識別模組。

通過閱讀參照以下附圖對非限制性實施例所作的詳細描述，本發明及其特徵、外形和優點將會變得更明顯。在全部附圖中相同的標記指示相同的部分。並未刻意按照比例繪製附圖，重點在於示出本發明的主旨。

圖1為本發明聲音識別系統結構和執行示意圖。

在下文的描述中，給出了大量具體的細節以便提供對本發明更為徹底的理解。然而，對於本領域技術人員而言顯而易見的是，本發明可以無需一個或多個這些細節而得以實施。在其他的例子中，為了避免與本發明發生混淆，對於本領域眾所皆知的一些技術特徵未進行描述。

為了徹底理解本發明，將在下列的描述中提出詳細的步驟以及詳細的結構，以便闡釋本發明的技術方案。本發明的較佳實施例詳細描述如下，然而除了這些詳細描述外，本發明還可以具有其他實施方式。

本發明作為機器人系統的耳朵，是機器人理解人的語言以及最自然的人機互動體驗的重要部分，因此需要解決以下三個方面的問題：1.完全使用語音來進行交流，不需要任何額外的觸發動作。2.可以讓人真正的使用自然語言與機器人進行交流，不需要固定的語句或句型就可以在工作、生活的各個領域進行交流。3.在做到即時反饋、極少誤觸發的情況下保持可觀的能耗。

為了解決上述技術問題，本發明提供了一種機器人系統的聲音識別系統，包括：

1.麥克風，以即時接收外部的語音訊號。在本發明可選擇但非限制的實施例中，麥克風位於始終開啟的狀態，以不間斷的即時接收外部語音訊號。其作用是收集外界的語音資料，作為機器人系統的耳朵。

2.本地語音檢測器，對語音訊號進行檢測，並判斷當前的語音訊號是否包含人聲，若包含人聲則進行輸出。由於本發明中的機器人系統麥克風始終處於開啟狀態，但環境中會有各種各樣的聲音，其中較多的部分是噪音，對機器人系統的聲音識別是無意義的，為了避免無意義的性能損耗及大量的誤觸發，機器人系統需要對收集到的聲音進行分析和判斷，只有認為收集到的聲音主要來自人聲(即人說話的聲音)才會將該聲音資料傳到識別系統。

在本發明可選擇但非限制的實施例中，本地語音檢測器為基於神經網路演算法的語音檢測器，能夠準確、快速地對輸入的語音資料進行人聲判斷，這是避免環境噪音造成誤觸發，降低網路及服務請求開銷的關鍵部分。

3.本地語音識別模組，接收語音檢測器輸出的人聲語音訊號並進行辨識，以判斷當前的人聲語音訊號是否包含喚醒指令，若包含喚醒指令則進行輸出。在本發明的機器人系統中，即使由語音檢測器判斷出收集到的聲音是來自人聲，這段人聲也未必是有意義的。一般來說，即這段話並非是對機器人而講，如果將這段語音也上傳到伺服器端進行分析，則會浪費大量的時間和性能。因此，就需要首先在本地快速判斷這段聲音是否是對機器人而講，就像人與人說話一樣，人會先判斷是否在對自己說話，然後才做出回應。

在本發明中，採用特殊最佳化的本地語音識別模組可以快速的識別出所輸入的自然語言是否是說給機器人聽的，並且可以隨時地任意地更新、修改啟動的詞彙或短語(在本發明的機器人系統中定義為機器人的名字，就如同一個人或一隻寵物的名字)，其判斷準確率可達90%。在本發明可選擇但非限制的實施例中，假設機器人的名字即喚醒指令，那麼可以通過喚醒指令編輯模組，以對喚醒指令進行編輯，人們可根據自己的喜好任意的設定機器人的名稱，方便快捷。

4.遠端語音解碼模組，遠端語音解碼模組用於接收本地語音編碼模組輸出的編碼過的語音訊號進行解碼後輸出。

5，遠端語音識別模組和遠端語言處理模組，遠端語音識別模組接收遠端語音解碼模組輸出的經解碼過的人聲語音訊號，在進行轉換後輸出到遠端語言處理模組，遠端語言處理模組根據轉換後的人聲語音訊號生成相應的操作指令。

其中，遠端語音識別模組擁有更完整的語言模型和聲學模型，能夠覆蓋日常生活中的90%以上的常用語言，能夠支援多種語言，如英文，中文及日文等；並可以支援中文的多種方言，如廣東話，四川話，河南話等。對本發明中的機器人系統所涉及的特定領域亦有更強優化，其語音識別的準確率可達95%以上。另外，在本發明可選擇但非限制的實施例中，本發明中的本地語音識別模組是通過資料流程的方式將人聲語音訊號輸出到遠端語音識別模組，語音識別模組從收到的第一幀資料開始就已經開始進行即時識別了，因此當語音結束後，整句話的識別結果已經產生，真正做到了即時性，從語音資料發送結束到最終識別結果的形成不超過100ms。遠端自然語言處理服務可覆蓋日常生活中80%的使用場景，能夠快速的命中所輸入的自然語言涉及到的所有領域，處理時間通常在10-20ms之間。因此，在網路穩定的情況下，本發明中的整個聲音識別過程不會超過500ms。

6、執行模組，用於執行遠端語言處理模組操作指令。在本發明一可選但非限制的實施例中，該執行模組通過控制多媒體模組來執行遠端語言處理模組下發的操作指令，例如打開音樂、導航、發簡訊、控制燈光等等操作。

用戶體驗：只需要使用最符合人的對話模式語音、自然語言。以上模組共同保證了本發明中機器人系統真正能夠完全使用自然語言來進行即時輸入和即時反饋，並保證了系統的性能功耗的平衡及整個系統的穩定。

同時本發明還提供了一種上述識別系統的識別方法，包括如下步驟：步驟S1：利用麥克風即時接收外部的語音訊號；步驟S2：利用本地語音檢測器來判斷當前的語音訊號是否包含人聲，若包含人聲則輸出至本地語音識別模組；步驟S3：利用本地語音識別模組對人聲語音訊號進行辨識，以判斷當前的人聲語音訊號是否包含喚醒指令，若包含喚醒指令則將人聲語音訊號進一步進行輸出至本地語音編碼模組；步驟S4：本地語音編碼模組對人聲語音訊號進行編碼後傳輸到遠端語音解碼模組；步驟S5：遠端語音解碼模組對經編碼過的人聲語音訊號進行解碼後傳輸到遠端語音識別模組；步驟S6：利用遠端語音識別模組對遠端語音解碼模組輸出的人聲語音訊號進行轉換，並輸出到遠端語言處理模組；步驟S7：遠端語言處理模組根據轉換後的人聲語音訊號生成相應的操作指令；以及步驟S8：執行模組，通過控制多媒體模組來執行操作指令。

可選擇但非限制，在本地語音識別模組辨識到當前的人聲語音訊號包含有喚醒指令時，本地語音識別模組關閉，人聲語音訊號經過本地語音編碼模組的編碼之後，直接傳輸到遠端語音解碼模組進行解碼後傳輸到利用遠端語音識別模組.

請參照圖1所示，假設機器人叫做“R2”，主人對機器人說：“R2，我現在心情不好，來點音樂吧”，這時處於一直收聽狀態的麥克風收到的資料經過本地語音檢測器，本地語音檢測器檢測到這時候已經不是環境噪音了，而是有人在說話了，但機器人需要知道是不是在跟自己說話，於是這段語音就會被送到本地語音檢測器進行識別，這時候本地語音識別伺服器發現是在叫自己(因為叫了它的名字“R2”)，所以後面的話都是跟自己說的，為了明白這句話的意思，這段語音先通過本地語音編碼模組的編碼後，之後再通過網路發送到遠端語音解碼模組進行解碼後輸出到遠端語音識別伺服器進行識別，進而進行自然語言的分析，經過分析，發現這句話要表達的意思是主人“心情不好，需要點音樂”，於是將這個結果發給機器人行為決策系統(相當於思考怎麼回應)，經過一番思考，機器人決定為主人放一些“療癒系的音樂”，並將這個決策發回到本地系統，最後本地系統會根據這個結果找到一些“療癒系的音樂”並開始播放。

綜上所述，由於本發明採用了如上技術方案，可以完全使用語音來進行交流，不需要任何額外的觸發動作；同時可以讓人真正的使用自然語言與機器人進行交流，不需要固定的語句或句型就可以在工作、生活的各個領域進行交流；在做到即時反饋、極少誤觸發的情況下保持可觀的能耗。

以上對本發明的較佳實施例進行了描述。需要理解的是，本發明並不局限於上述特定實施方式，其中未盡詳細描述的裝置和結構應該理解為用本領域中的普通方式予以實施；任何熟悉本領域的技術人員，在不脫離本發明技術方案範圍情況下，都可利用上述揭示的方法和技術內容對本發明技術方案做出許多可能的變動和修飾，或修改為等同變化的等效實施例，這並不影響本發明的實質內容。因此，凡是未脫離本發明技術方案的內容，依據本發明的技術實質對以上實施例所做的任何簡單修改、等同變化及修飾，均仍屬於本發明技術方案保護的範圍內。

Claims

一種機器人系統的聲音識別系統，包括：一本地語音檢測器，對該語音訊號進行檢測，並判斷當前的該語音訊號是否包含一人聲，若包含該人聲則進行輸出；一本地語音識別模組，接收該語音檢測器輸出的一人聲語音訊號並進行辨識，以判斷當前的該人聲語音訊號是否包含一喚醒指令，若包含該喚醒指令則進行輸出；一本地語音編碼模組，用於對該人聲語音訊號進行編碼後輸出；一遠端語音解碼模組，該遠端語音解碼模組用於接收該本地語音編碼模組輸出的編碼過的一語音訊號進行解碼後輸出；一遠端語音識別模組和一遠端語言處理模組，該遠端語音識別模組接收該遠端語音解碼模組輸出的經解碼過的該人聲語音訊號，在進行轉換後輸出到該遠端語言處理模組，該遠端語言處理模組根據轉換後的該人聲語音訊號生成相應的一操作指令，其中該遠端語言處理模組根據轉換後的該人聲語音訊號生成相應的該操作指令的處理時間在10~20ms之間；以及一執行模組，用於執行該遠端語言處理模組的該操作指令。
如申請專利範圍第1項所述的聲音識別系統，其中麥克風位於始終開啟的狀態，以不間斷的即時接收一外部語音訊號。
如申請專利範圍第1項所述的聲音識別系統，其中該聲音識別系統還包括一多媒體模組，通過該多媒體模組來執行該操作指令。
如申請專利範圍第1項所述的聲音識別系統，其中該本地語音識別模組通過資料流程的方式將該人聲語音訊號輸出到該遠端語音識別模組。
如申請專利範圍第1項所述的聲音識別系統，其中該聲音識別系統還包括一喚醒指令編輯模組，以對該喚醒指令進行編輯。
如申請專利範圍第1項所述的聲音識別系統，其中該本地語音檢測器為基於一神經網路演算法的一語音檢測器。
一種採用申請專利範圍第1-6項任意一項所述識別系統的識別方法，包括如下步驟：利用該麥克風實時接收該外部語音訊號；利用該本地語音檢測器來判斷當前的該外部語音訊號是否包含一人聲，若包含該人聲則輸出至該本地語音識別模組；利用該本地語音識別模組對一人聲語音訊號進行辨識，以判斷當前的該人聲語音訊號是否包含一喚醒指令，若包含該喚醒指令則將該人聲語音訊號進一步進行輸出至該本地語音編碼模組；該本地語音編碼模組對該人聲語音訊號進行編碼後傳輸到該遠端語音編碼模組；該遠端語音解碼模組對收到的該人聲語音訊號進行解碼後傳輸到該遠端語音識別模組；利用該遠端語音識別模組對該遠端語音解碼模組輸出的該人聲語音訊號進行轉換，並輸出到該遠端語言處理模組；該遠端語言處理模組根據轉換後的該人聲語音訊號形成相應的該操作指令，其中該遠端語言處理模組根據轉換後的該人聲語音訊號生成相應的該操作指令的處理時間在10~20ms之間；以及該執行模組通過控制該多媒體模組來執行該操作指令。
如申請專利範圍第7項所述的識別方法，其中在該本地語音識別模組辨識到當前的該人聲語音訊號包含有該喚醒指令時，該本地語音識別模組關閉，該人聲語音訊號經過該本地語音編碼模組的編碼之後，直接傳輸到該遠端語音解碼模組進行解碼後傳輸到利用該遠端語音識別模組。