TWI722715B

TWI722715B - 智能語音助理之模組化系統及其運作方法

Info

Publication number: TWI722715B
Application number: TW108145761A
Authority: TW
Inventors: 黃柏誠; 林昌松
Original assignee: 中華電信股份有限公司
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2021-03-21
Also published as: TW202123217A

Abstract

本發明揭露一種智能語音助理之模組化系統及其運作方法，可藉由不同用途之模組，根據輸出與輸入串接後，操作VoIP相關行為，例如語音控制撥號、語音轉SIP文字訊息、人名辨識查找用戶以及音訊語意分析等流程，本發明所述之系統不須透過其他程式介面形式操作上述流程，或執行多段程式手續以完成特定目標，僅需要透過設計不同模組，再透過模組化串接即可完成上述之流程邏輯，提供串接不同子功能之效用，提升系統應用擴充之彈性。

Description

智能語音助理之模組化系統及其運作方法

本發明有關於系統模組化之技術，詳而言之，係關於一種智能語音助理之模組化系統及其運作方法。

隨著人工智慧發展普及，語音辨識控制之類的聲控應用需求也日漸增加，現有聲控話機之應用可分為以下幾種：第一種為客服中心應用，即透過錄製過去客戶與客服對話之音訊紀錄，進行資料訓練分類，待下次客戶進線時，透過語音辨識分類出大項類別，再提供交互式語音應答(Interactive Voice Response，IVR)方式與用戶進行互動，若無法解決問題再轉至特定類別人工客服，降低人工回應的比例；第二種為汽車上之應用，即透過連結車載系統與一般行動通訊設備，並透過行動通訊裝置內通訊錄建立語音資料庫，當用戶透過車用系統輸入音訊時，透過比對程式分析音訊及語音資料庫中吻合程度，找出最適合之通訊號碼並撥出；第三種為撥號流程增進之應用，可透過事先建立之音訊模型，對用戶之音訊進行分析轉換比對，再透過通訊錄文字資料，進行吻合度之分析特徵相似性，藉此找出最佳比對結果，以進行後續話機撥打。

前述第一種應用中，必須先收集非常大量資料，以利進行後續語意分析與分類，其次是透過音訊轉換之語音辨識，需要與語意分析之匹配過程，找到最相關之對應，過程中會需要大量之運算，再透過IVR與用戶進行互動取得更新之資訊節點以及後續對應之流程，然此方法會需要大量資料，訓練過程中也需大量資源之運算，對於系統本身是一個負擔，其次是訓練完的模型，對於新的請求服務只會有相同回應結果，意即不夠匹配模型，後續的回應與邏輯都會有所失準的情況發生；再者，前述第二種應用中，沒有其他中介的分析引擎介入，直接利用車載系統分析的結果，一來會有反應速度之問題，二來是搭配的通訊錄語音資料庫的更新頻率，若長期採用固定之資料庫或是資料來源，在沒有更高權限更新的情況下，可能錯誤率會提高；另外，前述第三種應用中，透過音訊模型對用戶音訊進行比對，為一個相當簡易之方式，比對完畢之結果再與通訊錄比對文字相符程度，透過相似程度決定最後的結果通訊名稱，進而獲取相對應之電話號碼，惟此方法基於語音模型的基模來操作，透過分析分群的方式取得，音頻於模型之向量，再轉成文字，此方法可大致分類語音句類型，然後可能沒有辦法完全符合之後的文字轉換比對，若通訊錄中有非常大量的資料，甚至是近似資料，此種分類方式會無法細分相似資料間之差異，且大量資料處理也會降低處理之效能。

由此可見，前述習用方式仍存有諸多增進之處，亟待加以改良，若能找出一種系統開發和整合技術，特別是針對能減少系統負荷、提高辨識正確率、降低人工介入比率以及提供彈性串接模組應用，此將成為本技術領域人員急欲追求解決方案之目標。

本發明之目的係提出一種系統模組化整合技術，即無須透過其他程式介面形式之操作，僅需要透過模組之設計以及模組化串接，即可達成不同需求目標以及擴充系統功能之效果。

為達到上述目的與其他目的，本發明提出一種智能語音助理之模組化系統，包括：會談啟始協議(SIP)錄音模組，用於接收聲音訊息以對該聲音訊息進行擷取及編碼，俾藉之產生音訊檔案；語音意辨識器，用於接收來自該會談啟始協議錄音模組之音訊檔案，且該語音意辨識器具有多種語音辨識處理機制，以依據不同需求對該音訊檔案進行辨識與分析，俾將該音訊檔案轉換成為文字或語音格式的回傳值；以及中介邏輯處理模組，用於整合對話流程之程序以及確認資料流動的次序正確性，且該中介邏輯處理模組分析該回傳值以決定後續流程，俾依據該後續流程執行對應的進階對話功能。

於上述系統中，該語音意辨識器復包括：語音轉文字模組，係用於將該音訊檔案透過轉換引擎轉換成文字；文字轉語音模組，係用於將文字透過轉換引擎轉換成該音訊檔案；自然語言處理模組，係用於透過詞庫、意圖及向量分析，將輸入之自然語言切割成多向量，以將該多向量中相近的向量歸為相似之詞向量；以及自然語言回覆模組，係用於透過類神經網路計算，將該自然語言處理模組分析之詞向量線性轉換成為回應的序列詞向量，以供自然語言回覆之回饋。

於上述系統中，該執行對應的進階對話功能之方式係包括：透過會談啟始協議(SIP)撥號模組，提供系統決策撥打電話之時間，以及透過會談啟始協議(SIP)訊息傳遞模組，依據SIP協定規範傳送文字訊息。

於一實施例中，上述系統係依據用戶需求整合出一語音控制撥號流程，包括由該會談啟始協議錄音模組接收並判斷語音呼叫，該語音轉文字模組根據該呼叫內容辨識號碼結果，以呼叫該會談啟始協議撥號模組進行撥號。

於一實施例中，上述系統係依據用戶需求整合出一語音轉SIP文字訊息流程，包括由該會談啟始協議錄音模組接收並判斷語音呼叫以及目標號碼，該語音轉文字模組根據該呼叫內容轉換訊息，以呼叫該會談啟始協議訊息傳遞模組傳遞文字訊息。

於上述系統中，復包括：中繼資料抓取模組，其連結該語音意辨識器，用於抓取及分析資料庫之資料成為輔助資料，俾供該語音意辨識器執行呼叫時攜帶該輔助資料，以提高該語音意辨識器之回應正確率；模糊比對交互式語音應答(IVR)模組，其連結該語音意辨識器，用於根據該語音意辨識器回傳之信心指數以及搭配該輔助資料，判斷是否需進一步進行互動以及獲取更進一步的請求資訊；以及自然語言記憶模組，其連結該中介邏輯處理模組，用於將多次對話之詞向量透過特定編碼儲存，以於下次對話時提取已儲存之詞向量並解碼，並將解碼後資訊輸入至該自然語言處理模組，以使多次對話具有記憶性及連貫性。

於一實施例中，上述系統係依據用戶需求整合出一人名辨識查找用戶流程，包括由該會談啟始協議錄音模組接收並判斷語音呼叫，該語音轉文字模組或該文字轉語音模組根據該呼叫內容轉換訊息，透過該中繼資料抓取模組以及該模糊比對交互式語音應答模組的資料庫資訊之比對，找出正確用戶或協助用戶選擇正確用戶，以呼叫該會談啟始協議撥號模組進行撥號。

於一實施例中，上述系統係依據用戶需求整合出一音訊語意分析流程，包括由該會談啟始協議錄音模組接收並判斷語音呼叫，該語音轉文字模組或該文字轉語音模組根據該呼叫內容轉換訊息，透過該自然語言處理模組找出正確詞向量、關鍵詞及節點，搭配該自然語言記憶模組所存取之對話節點，以供該自然語言回覆模組進行對話。

於另一實施例中，該會談啟始協議錄音模組、該中介邏輯處理模組、該語音轉文字模組、該文字轉語音模組、該自然語言處理模組、該自然語言記憶模組、該自然語言回覆模組、該會談啟始協議撥號模組、該會談啟始協議訊息傳遞模組、該中繼資料抓取模組以及該模糊比對交互式語音應答模組之任一模組係包括：輸入單元解析器，用於將所接收之資料進行正規化；外部呼叫處理器，用於呼叫其他相關資源庫或是程式功能；回傳資料解析器，用於分析與重組外部呼叫處理器之回傳資料；以及輸出單元解析器，用於輸出最後結果至模組外。

另外，該外部呼叫處理器所呼叫其他相關資源庫或是程式功能包括系統撥號規則、系統閘道程式、程式腳本或資料庫。

本發明提出一種智能語音助理之模組化系統的運作方法，包括：令會談啟始協議錄音模組接收聲音訊息且對該聲音訊息進行擷取及編碼，以產生音訊檔案；令具有多種語音辨識處理機制之語音意辨識器依據不同需求對該音訊檔案進行辨識與分析，以將該音訊檔案轉換成為文字或語音格式的回傳值；以及令中介邏輯處理模組分析該回傳值，以整合對話流程之程序以及確認資料流動的次序正確性而決定後續流程，俾依據該後續流程執行對應的進階對話功能。

綜上可知，本發明所述之智能語音助理之模組化系統及其運作方法，即提供一種應用於企業通訊智能語音助理的模組化系統，透過彈性整合不同模組串接流程，藉以改善人工語音智慧之應用方法，本發明開發不同基本模組並將其進行不同組合分配，接著，載入至中介邏輯處理模組中以便能串接出不同的流程，亦即只須模組串接，用戶透過話機即可達成語音控制撥號、語音轉SIP文字訊息、人名辨識查找用戶以及音訊語意分析等流程。因此，本發明利用模組化方式可達到彈性之串接用途，對於不同需求能夠有即時更換特性，以及使用上的便利性，提供開發者或是企業通訊交換機管理者擁有更多的操作彈性。

1‧‧‧智能語音助理之模組化系統

11‧‧‧會談啟始協議錄音模組

12‧‧‧語音意辨識器

121‧‧‧語音轉文字模組

122‧‧‧文字轉語音模組

123‧‧‧自然語言處理模組

124‧‧‧自然語言回覆模組

13‧‧‧中介邏輯處理模組

14‧‧‧中繼資料抓取模組

15‧‧‧模糊比對交互式語音應答模組

16‧‧‧會談啟始協議撥號模組

17‧‧‧會談啟始協議訊息傳遞模組

18‧‧‧自然語言記憶模組

9‧‧‧基本模組

91‧‧‧輸入單元解析器

92‧‧‧外部呼叫處理器

93‧‧‧回傳資料解析器

94‧‧‧輸出單元解析器

401~406‧‧‧流程

501~506‧‧‧流程

601~607‧‧‧流程

701~708‧‧‧流程

S31~S33‧‧‧步驟

請參閱有關本發明之詳細說明及其附圖，將可進一步瞭解本發明之技術內容及其目的功效。

第1圖為本發明之智能語音助理之模組化系統的系統架構圖。

第2圖為本發明之智能語音助理之模組化系統於一實施例的架構及應用示意圖。

第3圖為本發明之智能語音助理之模組化系統的運作方法的步驟圖。

第4圖為本發明之智能語音助理之模組化系統執行語音控制撥號運作流程之示意圖。

第5圖為本發明之智能語音助理之模組化系統執行語音轉SIP文字訊息運作流程之示意圖。

第6圖為本發明之智能語音助理之模組化系統執行人名辨識查找用戶運作流程之示意圖。

第7圖為本發明之智能語音助理之模組化系統執行音訊語意分析運作流程之示意圖。

第8圖為本發明之智能語音助理之模組化系統進行模組置換串接之示意圖。

第9圖為本發明之智能語音助理之模組化系統中各模組內部基礎架構圖。

以下藉由特定的具體實施形態說明本發明之技術內容，熟悉此技藝之人士可由本說明書所揭示之內容輕易地瞭解本發明之優點與功效。然本發明亦可藉由其他不同的具體實施形態加以施行或應用。為利審查委員了解本發明之技術特徵、內容與優點及其所能達到之功效，茲將本發明配合圖式，並以實施例之表達形式詳細說明如下，而其中所使用之圖式，其主旨僅為示意及輔助說明書之用，未必為本發明實施後之真實比例與精準配置，故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的權利範圍，合先敘明。

第1圖為本發明之智能語音助理之模組化系統的系統架構圖。如圖所示，智能語音助理之模組化系統1包括會談啟始協議錄音模組11、語音意辨識器12以及中介邏輯處理模組13。

會談啟始協議(SIP)錄音模組11用於接收來自用戶之聲音訊息且對該聲音訊息進行擷取及編碼，以產生音訊檔案。具體來說，會談啟始協議錄音模組11於通話過程中，對聲音進行輸出且不干擾對話進行之模組，將暫時性音訊儲存於記憶體中，以利後續應用。

語音意辨識器12用於接收來自會談啟始協議錄音模組11之音訊檔案，語音意辨識器12具有多種語音辨識處理機制，以依據不同需求對音訊檔案進行辨識與分析，並將該音訊檔案轉換成為文字或語音格式的回傳值。語音意辨識器12用以分析語音意相關之解析邏輯，簡言之，語音意辨識器12能夠透過獨立的單元程式，對用戶的文字語音訊息進行轉換處理、語意分析以及回應問句，將輸入與輸出規格定制後，可透過應用程式介面呼叫，達到獨立處理複雜流程之效果。

中介邏輯處理模組13用於整合對話流程之程序以及確認資料流動的次序正確性，該中介邏輯處理模組13分析該回傳值以決定後續流程，俾依據該後續流程執行對應的進階對話功能。該中介邏輯處理模組13主要是用於管理所有資料流程以及處理邏輯，達到控制時序以及資料正確性與規格定制之需求。

由上可知，用戶可透過電話發出聲音訊息，會談啟始協議錄音模組11對該聲音訊息進行擷取及編碼而生成音訊檔案，該音訊檔案被送至語音意辨識器12，語音意辨識器12內具有多種語音辨識處理機制，更具體來說，可透過多個模組分別執行不同語音辨識處理，因而語音意辨識器12可依據不同需求對音訊檔案進行辨識與分析，並且將音訊檔案轉換成為文字或語音格式的回傳值，該回傳值被送至中介邏輯處理模組13，藉以整合對話流程之程序以及確認資料流動的次序正確性，亦即中介邏輯處理模組13依據該回傳值決定後續流程，並執行對應的進階對話功能，舉例來說，進階對話功能可例如語音控制撥號、語音轉SIP文字訊息、人名辨識查找用戶以及音訊語意分析等流程，後面將透過實例進行說明。

第2圖為本發明之智能語音助理之模組化系統於一實施例的架構及應用示意圖。如圖所示，會談啟始協議錄音模組11、語音意辨識器12以及中介邏輯處理模組13與第一圖所述相同，如前所述，語音意辨識器12包括多種語音辨識處理機制，故語音意辨識器12復包括語音轉文字模組121、文字轉語音模組122、自然語言處理模組123以及自然語言回覆模組124。

語音轉文字模組121用於將該音訊檔案透過轉換引擎轉換成文字。具體來說，語音轉文字模組121能夠將記憶體中音訊檔案透過轉換引擎，轉換成文字資訊並回傳信心指數，所謂的信心指數是指資料命中信心程度，於本發明中，單筆資料命中之信心程度為0-100%，本發明採用80%為判斷指標。

文字轉語音模組122用於將文字透過轉換引擎轉換成該音訊檔案。文字轉語音模組122能夠將記憶體中文字資訊透過轉換引擎，轉換成音訊檔案並回傳信心指數，信心指數的含意如同前述。

自然語言處理模組123用於透過詞庫、意圖及向量分析，將輸入之自然語言切割成多向量，且將該多向量中相近的向量歸為相似之詞向量。具體來說，自然語言處理模組123可透過詞庫、意圖及向量分析，將輸入自然語言切割成多向量，並透過多向量分類器以及高次元距離對應，找到相近的向量並歸為相似之詞向量。因此，自然語言處理模組123主要用於自然語言的處理和歸類，以供後續尋找需求之候選名單時可使用。

自然語言回覆模組124用於透過類神經網路計算，將該自然語言處理模組分析之詞向量線性轉換成為回應的序列詞向量，以供回饋至該用戶之自然語言回覆。具體來說，自然語言回覆模組124可根據自然語言處理模組123分析之詞向量，加上訓練集資料，透過類神經網路計算出多個詞向量經過線性轉換後回應的序列詞向量，也就是回饋至用戶之自然語言回覆。

由上可知，語音意辨識器12內包含四個不同語音辨識處理機制的模組，因而無論用戶的聲音訊息經會談啟始協議錄音模組11擷取後，會由語音意辨識器12依據用戶需求執行對應處理，並交由中介邏輯處理模組13進行後續的對應需求的進階對話功能。因此，語音意辨識器12內具有多個模組，故本發明之系統具備模組化功效，可依據需求改變或執行不同應用。

如前所述，故本發明之系統具備模組化功效，除了語音意辨識器12內具有多個模組外，中介邏輯處理模組13也能依需求執行進階對話功能，因而語音意辨識器12和中介邏輯處理模組13也會與多個模組連結，因而本發明之智能語音助理之模組化系統1復包括中繼資料抓取模組14、模糊比對交互式語音應答(IVR)模組15、會談啟始協議(SIP)撥號模組16、會談啟始協議(SIP)訊息傳遞模組17以及自然語言記憶模組18。

中繼資料抓取模組14連結語音意辨識器12，用於抓取及分析資料庫之資料成為輔助資料，以供語音意辨識器12執行呼叫時攜帶該輔助資料，藉此提高語音意辨識器12之回應正確率。簡言之，中繼資料抓取模組14可透過程式抓取資料庫資料，例如通訊錄，在進行任何的語音意辨識器12呼叫之前，能夠解析所抓取的資料，並讓呼叫能夠攜帶此輔助資料，以助於提高語音意辨識器12回應正確率。

模糊比對交互式語音應答模組15連結語音意辨識器12，用於根據語音意辨識器12回傳之信心指數以及搭配輔助資料，判斷是否需進一步與該用戶互動以及獲取更進一步的請求資訊。簡言之，模糊比對交互式語音應答模組15根據語音意辨識器回傳的信心指數並搭配中繼資料(即輔助資料)，判斷是否需要進一步與用戶互動，以獲取更進一步的請求資訊，並透過交互式語音應答(IVR)的方式提供用戶選擇後續可能結果。

會談啟始協議撥號模組16用於提供系統決策撥打電話之時間。具體來說，會談啟始協議撥號模組16可提供系統決策撥打電話的時間，可在語音意辨識器12回應後之邏輯判斷完成，根據正確的時機點彈性撥出電話。

會談啟始協議訊息傳遞模組17用於依據SIP協定規範傳送文字訊息。具體而言，會談啟始協議訊息傳遞模組17能夠隨時透過會談啟始協議(SIP)協定中的規範，對任何對象傳送文字訊息，僅需要接受端能夠支援接受或是發送機制，便可進行即時通訊。

自然語言記憶模組18其連結中介邏輯處理模組13，用於將多次對話之詞向量透過特定編碼儲存，以於下次對話時提取已儲存之詞向量並解碼，並將解碼後資訊輸入至該自然語言處理模組，以使多次對話具有記憶性及連貫性。簡言之，自然語言記憶模組18可將多次對話之詞向量透過特定編碼儲存，待下次對話時，提取過去詞向量解碼並找出對話節點，再重新將資訊輸入至自然語言處理模組123，便能夠使對話具有記憶性以及連貫性，能使對話流程不會因時間或是多次來回而中斷。

由上可知，本發明所述之模組化系統於實際應用時，會先定義特定功能碼，讓用戶透過特定撥號規則進入流程。進入流程之後，由會談啟始協議錄音模組11將聲音訊息進行擷取並編碼之，存入音訊檔案後進入下一流程，根據應用情境呼叫語音意辨識器12，再將回傳值輸入中介邏輯處理模組13，該中介邏輯處理模組13可依照應用情境與模組數量進行彈性擴充與增進流程，於中介邏輯處理模組13收到該回傳值後，將依據該回傳值以及流程決定與用戶進行IVR互動，可能是直接呼叫會談啟始協議(SIP)撥號模組16、會談啟始協議(SIP)訊息傳遞模組17或使用自然語言記憶模組18提供進階對話功能，流程的結束取決於模組之內容以及流程的順序。

本發明綜合上述模組，透過中介邏輯處理模組13提供管理者或開發者將各模組透過自定義之邏輯組合，並透過本系統中的撥號規則與閘道程式介面將模組組合嵌入系統中，藉以達到彈性化客製效益。

第3圖為本發明之智能語音助理之模組化系統的運作方法的步驟圖。於步驟S31中，令會談啟始協議錄音模組接收來自用戶之聲音訊息且對該聲音訊息進行擷取及編碼，以產生音訊檔案。

於步驟S32中，令具有多種語音辨識處理機制之語音意辨識器依據不同需求對該音訊檔案進行辨識與分析，以將該音訊檔案轉換成為文字或語音格式的回傳值。

於步驟S33中，令中介邏輯處理模組分析該回傳值，以整合對話流程之程序以及確認資料流動的次序正確性而決定後續流程，俾依據該後續流程執行對應的進階對話功能。

如前所述，本發明將不同功能和作用的程式分別模組化，故能透過不同模組的組合來提供用戶對應的服務，模組化的優點在於無須更動整個系統即可透過功能或參數改變來滿足需求，因而可減少開發麻煩與成本。本發明所述系統之運作方法中，各模組細節如第1和2圖所示，下面舉例說明本發明系統所執行之各種流程。

第4圖為本發明之智能語音助理之模組化系統執行語音控制撥號運作流程之示意圖。如圖中流程401-406所示，在對話過程中，透過會談啟始協議錄音模組11將用戶之聲音訊號轉換儲存為音訊檔案，此流程目的是為了能向後續模組傳遞資料，接著，透過前述之音訊檔案，呼叫語音轉文字模組121將聲音資訊轉換成文字資訊，此時不暫停通話之流程，於背景運行後將回傳值傳送至中介邏輯處理模組13，中介邏輯處理模組13依據回傳值進行資料格式轉換，若轉換格式錯誤，則透過IVR流程，提醒用戶重新操作，反之，則前項結果透過中介邏輯處理模組13使用會談啟始協議(SIP)撥號模組16，將用戶導到正確之路由並撥號。

由上可知，本發明之智能語音助理之模組化系統執行語音控制撥號流程中，當用戶呼叫功能碼後，根據系統提示念出電話號碼，透過會談啟始協議錄音模組11轉換聲音訊號至音訊檔案，再透過語音意辨識器12之語音轉文字模組121轉換用戶之音訊檔案，中介邏輯處理模組13根據回傳值的正確性進行後續流程判斷，倘若轉換格式錯誤則透過IVR流程，提醒用戶重新操作，若轉換格式正確後，則透過會談啟始協議(SIP)撥號模組16撥出電話。

第5圖為本發明之智能語音助理之模組化系統執行語音轉SIP文字訊息運作流程之示意圖。如圖中流程501-506所示，在對話過程中，透過會談啟始協議錄音模組11，將用戶之聲音訊號轉換儲存為音訊檔案，接著，透過前述之音訊檔案，呼叫語音轉文字模組121將聲音資訊轉換成文字資訊，最後，由中介邏輯處理模組13將文字資訊解析過後，合成完整的SIP封包訊息，透過會談啟始協議(SIP)訊息傳遞模組17將封包回送，再轉送訊息至目標話機。

由上可知，本發明之智能語音助理之模組化系統執行語音轉SIP文字訊息流程中，當用戶呼叫功能碼後，根據系統提示念出電話號碼以及欲傳送訊息之內容，透過會談啟始協議錄音模組11轉換聲音訊號至音訊檔案，再透過語音意辨識器12之語音轉文字模組121轉換用戶之音訊檔案，中介邏輯處理模組13檢測內容後與用戶進行IVR核對確認，正確無誤後，透過會談啟始協議(SIP)訊息傳遞模組17將訊息傳出至目標對象。

第6圖為本發明之智能語音助理之模組化系統執行人名辨識查找用戶運作流程之示意圖。如圖中流程601-607所示，在對話過程中，透過會談啟始協議錄音模組11，將用戶之聲音訊號轉換儲存為音訊檔案，接著，透過前述之音訊檔案，呼叫語音轉文字模組121將聲音資訊轉換成文字資訊，因為辨識可能會有落差，造成找不到或是辨識不出正確人名，因此透過語音意辨識器12回傳之正確率判斷，將超過門檻值之信心指數資料加入候選名單，接著，透過中介邏輯處理模組13將候選名單，透過模糊比對交互式語音應答(IVR)模組15比對資料庫中人名，排除完全不在系統內之無關資料，再將最後名單透過交互式語音應答(IVR)之型式與用戶互動，加上更多相關資料，提供用戶從候選清單中選擇最接近的人名，透過按鍵輸入選擇候選人，系統便能獲取最後人名之決策。

由上可知，本發明之智能語音助理之模組化系統執行人名辨識查找用戶流程中，當用戶選擇人名辨識功能碼後，根據系統提示念出欲查找之人名或電話號碼，透過會談啟始協議錄音模組11轉換聲音訊號至音訊檔案，中繼資料抓取模組14預先抓取資料庫彙整人名字庫至檔案，再將字庫以及用戶之音訊檔案一併透過語音意辨識器12呼叫語音轉文字模組121，中介邏輯處理模組13收到回傳值後，透過信心指數以及比對與中繼資料吻合之正確性，判斷是否需要進一步與用戶互動確認資料，若不需要確認則直接撥出該人名關聯之電話號碼，若需要進一步確認，則透過IVR型式與用戶確認最終結果後，再撥出指定之人名與電話。

第7圖為本發明之智能語音助理之模組化系統執行音訊語意分析運作流程之示意圖。如圖中流程701-708所示，在對話過程中，透過會談啟始協議錄音模組11，將用戶聲音訊號轉換儲存為音訊檔案，接著，透過前述之音訊檔案，呼叫語音轉文字模組121將聲音資訊轉換成文字資訊，並透過前述文字資訊呼叫自然語言處理模組123進行語意分析，找出語句意圖以及事先定義之關鍵詞回傳，中介邏輯處理模組13便能根據語句意圖進行分類，再根據關鍵詞進行檢索，將傳遞之文字資訊進行歸檔儲存詞向量，達到分析與分類用戶之問句種類效果，接著，根據自然語言處理模組123之結果，將詞向量以及分析分類結果，透過呼叫自然語言回覆模組124後，取相近之詞向量以及回應語庫，透過中介邏輯處理模組13處理回應格式，以及挑選最高信心指數之對應回應語庫，透過會談啟始協議(SIP)訊息傳遞模組17將回應傳至用戶。

於上述流程中，為了避免多次自然語言處理之間出現不連貫之溝通，需要使系統能夠記憶對話邏輯，因此需要自然語言記憶模組18，將同一用戶不同次對話詞向量以及對話節點紀錄，存於記憶體中，待用戶再次進行對話時，便可獲取前次對話節點紀錄，根據先前詞向量與最新分析之詞向量，一併透過自然語言回覆模組124處理，再選取最佳回應語庫回應用戶。

由上可知，本發明之智能語音助理之模組化系統執行音訊語意分析流程運作流程中，當用戶選擇音訊語意分析功能碼後，根據系統提示開始進行音訊對話，透過會談啟始協議錄音模組11將聲音訊號轉換至音訊檔案後，透過語音轉文字模組121轉換為文字，再彙整音訊檔案與相關記憶詞向量(若存在)，一併將中介資料彙整後，透過語音意辨識器12呼叫自然語言處理模組123，接著，將詞向量再輸入至自然語言回覆模組124以輸出詞向量、關鍵詞以及對話節點，再將上述資料由中介邏輯處理模組13處理，將需要記憶之結果存於自然語言記憶模組18，最後再透過回應結果呼叫文字轉語音模組122，將文字轉回音訊後，與用戶進行連續性之互動。

第8圖為本發明之智能語音助理之模組化系統進行模組置換串接之示意圖。如圖所示，承襲前一實施例，將最後之文字轉語音模組122改為會談啟始協議(SIP)撥號模組16，也就是從原本用戶接取語音訊息，轉換成SIP訊息之格式。具體來說，本發明所提及之流程與模組間之互動為可調式模組，模組之間的溝通格式具有正規性，若格式輸出入吻合，系統管理員可以任意組合與調整模組之訊息，達到客製化彈性的效益。舉例而言，音訊語意分析流程中，可將文字轉語音模組122改為會談啟始協議(SIP)撥號模組16，如此一來便可以文字訊息型式回饋至用戶。

第9圖為本發明之智能語音助理之模組化系統中各模組內部基礎架構圖。如前述提及之串接方式，為了讓每一個模組可順利串接，故每一個模組都具備基本模組9的型態，而基本模組9之間資料具有正規性，可以透過更換模組內元件或是修改輸出與輸入之資料規範，即可輕易產生出新的模組，使更多的模組組合產生。因此，前述之會談啟始協議錄音模組、中介邏輯處理模組、語音轉文字模組、文字轉語音模組、自然語言處理模組、自然語言記憶模組、自然語言回覆模組、會談啟始協議撥號模組、會談啟始協議訊息傳遞模組、中繼資料抓取模組以及模糊比對交互式語音應答模組的每一者，除自身特定功能外，皆具備有基礎型態，也就是具備基本模組9所擁有功能。

每一個基本模組9都包括輸入單元解析器91、外部呼叫處理器92、回傳資料解析器93和輸出單元解析器94，其中，輸入單元解析器91用於將所接收之資料進行正規化，外部呼叫處理器92用於呼叫其他相關資源庫或是程式功能，回傳資料解析器93用於分析與重組外部呼叫處理器之回傳資料，輸出單元解析器94用於輸出最後結果至模組外，其中，每一個模組串接連結時，輸入單元解析器91接收前一個模組的資料，並將處理後的輸出資料由輸出單元解析器94送給下一個模組，藉此達到串接目的。於一實施例中，該外部呼叫處理器92所呼叫其他相關資源庫或是程式功能包括系統撥號規則、系統閘道程式、程式腳本或資料庫。

綜上所述，本發明所提出之一種智能語音助理之模組化系統及其運作方法，與其他習用技術相互比較時，更具備下列優點：第一、本發明將辨識與及其他需要耗費大量資源之處理，透過分離系統之處理，從呼叫語音意辨識器取得資料，如此可降低系統本身的負荷，亦不會佔用系統原本服務的效能，且此語音意辨識器之更新以及再利用程度皆能帶來使用上的彈性與延伸性；第二、本發明能動態抓取資料庫資料，進行辨識時透過攜帶額外之中介資料，提高辨識之正確率，因直接抓取資料庫，不需要另外手動更新資料，即可達成資料即時正確性；第三、本發明中自然語言處理部分具有自然語言記憶模組，與傳統上一來一往之對話解析有相當大差異，若是單一回合制之對話，每一次的資料都需要重新解析意圖以及關鍵詞等，若用戶無法連續對話都掌握要點時，對話將會非常容易失真，甚至是答非所問，因此，透過自然語言記憶模組，可使多次對話之間具有相依性，達成對話一致性與連貫性，降低真人介入比例；第四、本發明將許多重複性操作特化為模組，模組之間具有溝通性，能夠將需求透過串接吻合模組與調整順序達成，便可快速且彈性的與企業通訊交換機結合出新功能。

上列詳細說明乃針對本發明之一可行實施例進行具體說明，惟該實施例並非用以限制本發明之專利範圍，凡未脫離本發明技藝精神所為之等效實施或變更，均應包含於本發明之專利範圍中。

1‧‧‧智能語音助理之模組化系統

11‧‧‧會談啟始協議錄音模組

12‧‧‧語音意辨識器

13‧‧‧中介邏輯處理模組

Claims

一種智能語音助理之模組化系統，包括：會談啟始協議錄音模組，用於接收聲音訊息以對該聲音訊息進行擷取及編碼，俾藉之產生音訊檔案；語音意辨識器，用於接收來自該會談啟始協議錄音模組之音訊檔案，且該語音意辨識器具有多種語音辨識處理機制，以依據不同需求對該音訊檔案進行辨識與分析，俾將該音訊檔案轉換成為文字或語音格式的回傳值；中介邏輯處理模組，用於整合對話流程之程序以及確認資料流動的次序正確性，且該中介邏輯處理模組分析該回傳值以決定與用戶進行交互式語音應答互動、呼叫會談啟始協議撥號模組、呼叫會談啟始協議訊息傳遞模組或使用自然語言記憶模組提供進階對話功能，執行該進階對話功能之方式係包括：透過該會談啟始協議撥號模組，提供系統決策撥打電話之時間，以及透過該會談啟始協議訊息傳遞模組，依據SIP協定規範傳送文字訊息；以及中繼資料抓取模組，其連結該語音意辨識器，用於抓取及分析資料庫之資料成為輔助資料，俾供該語音意辨識器執行呼叫時攜帶該輔助資料，以提高該語音意辨識器之回應正確率，該中繼資料抓取模組係包括：輸入單元解析器，用於將所接收之資料進行正規化；外部呼叫處理器，用於呼叫其他相關資源庫或是程式功能；回傳資料解析器，用於分析與重組外部呼叫處理器之回傳資料；以及輸出單元解析器，用於輸出最後結果至模組外。
如申請專利範圍第1項所述之智能語音助理之模組化系統，其中，該語音意辨識器復包括：語音轉文字模組，係用於將該音訊檔案透過轉換引擎轉換成文字；文字轉語音模組，係用於將文字透過轉換引擎轉換成該音訊檔案；自然語言處理模組，係用於透過詞庫、意圖及向量分析，將輸入之自然語言切割成多向量，以將該多向量中相近的向量歸為相似之詞向量；以及自然語言回覆模組，係用於透過類神經網路計算，將該自然語言處理模組分析之詞向量線性轉換成為回應的序列詞向量，以供自然語言回覆之回饋。
如申請專利範圍第2項所述之智能語音助理之模組化系統，其中，依據用戶需求整合出一語音控制撥號流程，包括由該會談啟始協議錄音模組接收並判斷語音呼叫，該語音轉文字模組根據該呼叫內容辨識號碼結果，以呼叫該會談啟始協議撥號模組進行撥號。
如申請專利範圍第2項所述之智能語音助理之模組化系統，其中，依據用戶需求整合出一語音轉SIP文字訊息流程，包括由該會談啟始協議錄音模組接收並判斷語音呼叫以及目標號碼，該語音轉文字模組根據該呼叫內容轉換訊息，以呼叫該會談啟始協議訊息傳遞模組傳遞文字訊息。
如申請專利範圍第2項所述之智能語音助理之模組化系統，復包括：模糊比對交互式語音應答模組，其連結該語音意辨識器，用於根據該語音意辨識器回傳之信心指數以及搭配該輔助資料，判斷是否需進一步進行互動以及獲取更進一步的請求資訊；以及該自然語言記憶模組，其連結該中介邏輯處理模組，用於將多次對話之詞向量透過特定編碼儲存，以於下次對話時提取已儲存之詞向量並解碼，並將解碼後資訊輸入至該自然語言處理模組，以使多次對話具有記憶性及連貫性。
如申請專利範圍第5項所述之智能語音助理之模組化系統，其中，依據用戶需求整合出一人名辨識查找用戶流程，包括由該會談啟始協議錄音模組接收並判斷語音呼叫，該語音轉文字模組或該文字轉語音模組根據該呼叫內容轉換訊息，透過該中繼資料抓取模組以及該模糊比對交互式語音應答模組的資料庫資訊之比對，找出正確用戶或協助用戶選擇正確用戶，以呼叫該會談啟始協議撥號模組進行撥號。
如申請專利範圍第5項所述之智能語音助理之模組化系統，其中，依據用戶需求整合出一音訊語意分析流程，包括由該會談啟始協議錄音模組接收並判斷語音呼叫，該語音轉文字模組或該文字轉語音模組根據該呼叫內容轉換訊息，透過該自然語言處理模組找出正確詞向量、關鍵詞及節點，搭配該自然語言記憶模組所存取之對話節點，以供該自然語言回覆模組進行對話。
如申請專利範圍第5項所述之智能語音助理之模組化系統，其中，該會談啟始協議錄音模組、該中介邏輯處理模組、該語音轉文字模組、該文字轉語音模組、該自然語言處理模組、該自然語言記憶模組、該自然語言回覆模組、該會談啟始協議撥號模組、該會談啟始協議訊息傳遞模組以及該模糊比對交互式語音應答模組之任一模組亦包括：輸入單元解析器，用於將所接收之資料進行正規化；外部呼叫處理器，用於呼叫其他相關資源庫或是程式功能；回傳資料解析器，用於分析與重組外部呼叫處理器之回傳資料；以及輸出單元解析器，用於輸出最後結果至模組外。
一種智能語音助理之模組化系統的運作方法，包括：令會談啟始協議錄音模組接收聲音訊息且對該聲音訊息進行擷取及編碼，以產生音訊檔案；令具有多種語音辨識處理機制之語音意辨識器依據不同需求對該音訊檔案進行辨識與分析，以將該音訊檔案轉換成為文字或語音格式的回傳值；令中繼資料抓取模組抓取及分析資料庫之資料成為輔助資料，俾供該語音意辨識器執行呼叫時攜帶該輔助資料，以提高該語音意辨識器之回應正確率，該中繼資料抓取模組係包括：輸入單元解析器，用於將所接收之資料進行正規化；外部呼叫處理器，用於呼叫其他相關資源庫或是程式功能；回傳資料解析器，用於分析與重組外部呼叫處理器之回傳資料；以及輸出單元解析器，用於輸出最後結果至模組外；以及令中介邏輯處理模組分析該回傳值，以整合對話流程之程序以及確認資料流動的次序正確性而決定與用戶進行交互式語音應答互動、呼叫會談啟始協議撥號模組、呼叫會談啟始協議訊息傳遞模組或使用自然語言記憶模組提供進階對話功能，執行該進階對話功能之方式係包括：透過該會談啟始協議撥號模組，提供系統決策撥打電話之時間，以及透過該會談啟始協議訊息傳遞模組，依據SIP協定規範傳送文字訊息。