TWI769653B

TWI769653B - 可重組語音片段的跨通路人工智慧對話式平台及其運作方法

Info

Publication number: TWI769653B
Application number: TW110100435A
Authority: TW
Inventors: 江哲宇
Original assignee: 華南商業銀行股份有限公司
Priority date: 2019-02-13
Filing date: 2019-02-13
Publication date: 2022-07-01
Also published as: TW202117582A

Abstract

跨通路人工智慧對話式平台包括三個內部伺服器。第一內部伺服器的語音輸入介面接收第一語音訊號。第二內部伺服器的個資隱藏模組將第一語音訊號中的個人資料刪除以產生第二語音訊號。第一內部伺服器的語音轉文字介面及語意辨識介面分別轉換第二語音訊號為第一文字訊號及根據第一文字訊號獲得意圖訊號。第三內部伺服器的對話模組及應用模組分別根據意圖訊號產生回覆訊號及控制指令。第一內部伺服器的文字轉語音介面將回覆訊號轉換為第三語音訊號。輸出介面輸出第三語音訊號及控制指令。

Description

可重組語音片段的跨通路人工智慧對話式平台及其運作方法

本發明係關於一種對話式平台及對話式平台的運作方法，特別是一種跨通路人工智慧對話式平台及其運作方法。

隨著各種數位行銷通路的普及，民眾遇到任何交易上面的問題，往往希望第一時間獲得回覆。

然而，對於提供客服的金融機構而言，提高客服人員數量將不可避免地導致人力成本大幅提高。此外，訓練一名優秀的客服人員需要一定時間，在突如其來的大量客戶湧入時，可從容應付各種客戶問題的客服人員經常應接不暇，到職不久的客服人員又未必能滿足客戶各式各樣的問題。因此，對於無法提供良好服務的金融機構，民眾的評價將顯著下降，連帶影響民眾對於該金融機構在其他項目的信任度與參與意願。

有鑑於此，本發明提出一種跨通路人工智慧（Artificial Intelligence ，AI）對話式平台。所述的通路包括：數位通路、客服中心及營業單位等。透過導入語音辨識系統，人工智慧對話式系統與人工智慧對話式後台，結合新一代對話式人工智慧技術，包括：自然語言處理（Natural Language Processing，NLP）、動態學習機制、多輪情境對話設計及動態資訊收集機制等建立客戶對話分析後台，藉此提升數位通路之使用者體驗及市場影響力。

依據本發明一實施例的一種跨通路人工智慧對話式平台，包括：一第一內部伺服器，包括：一語音輸入介面、一語音轉文字介面、一語意辨識介面、一文字轉語音介面及一輸出介面，其中該語音輸入介面用於接收一第一語音訊號；一第二內部伺服器，通訊連接該第一內部伺服器，包括：一客戶音訊資料庫，用以儲存複數個音訊檔，該些音訊檔之內容分別對應至複數個個人資料；及一個資隱藏模組，電性連接該客戶音訊資料庫，該個資隱藏模組用以將該第一語音訊號分割為複數個語音片段，且當該個資隱藏模組判斷該些語音片段中之任一者符合該些音訊檔中之任一者時，該個資隱藏模組從該第一語音訊號刪除該語音片段對應之音頻資訊，並將被刪除該語音片段之音訊資料的第一語音訊號作為一第二語音訊號回傳至該第一內部伺服器；其中該第一內部伺服器之該語音轉文字介面用以根據該第二語音訊號產生一第一文字訊號；該語意辨識介面用以根據該第一文字訊號產生一意圖訊號；以及一第三內部伺服器，通訊連接該第一內部伺服器，包括：一對話模組，用以選擇性地根據該意圖訊號產生一回覆訊號；及一應用模組，用以產生對應於該意圖分析訊號的一控制指令；其中該第一內部伺服器之該文字轉語音介面用以根據該回覆訊號產生一第三語音訊號；該第一內部伺服器之該輸出介面用以輸出該第三語音訊號及該控制指令。

依據本發明一實施例的一種跨通路人工智慧對話式平台的運作方法，包括：以一第一內部伺服器之一語音輸入介面接收一第一語音訊號；以一第二內部伺服器之一客戶音訊資料庫儲存複數個音訊檔，該些音訊檔之內容分別對應至複數個個人資料，其中該第二內部伺服器通訊連接該第一內部伺服器；以該第二內部伺服器之一個資隱藏模組將該第一語音訊號分割為複數個語音片段，其中，該個資隱藏模組電性連接該客戶音訊資料庫，且當該個資隱藏模組判斷該些語音片段中之任一者符合該些音訊檔中之任一者時，以該個資隱藏模組從該第一語音訊號刪除該語音片段對應之音頻資訊；以該個資隱藏模組回傳一第二語音訊號至該第一內部伺服器之一語音轉文字介面，其中該第二語音訊號係刪除該語音片段之音訊資料的第一語音訊號；以該語音轉文字介面根據該第二語音訊號產生一第一文字訊號；以該第一內部伺服器之一語意辨識介面根據該第一文字訊號產生一意圖訊號；以一第三內部伺服器之一對話模組根據該意圖訊號產生一回覆訊號，其中該第三內部伺服器通訊連接該第一內部伺服器；以該第一內部伺服器之一文字轉語音介面根據該回覆訊號產生一第三語音訊號；以該第三內部伺服器之一應用模組根據該意圖訊號產生一控制指令；以及以該第一內部伺服器之一輸出介面輸出該第三語音訊號及該控制指令。

以上之關於本揭露內容之說明及以下之實施方式之說明係用以示範與解釋本發明之精神與原理，並且提供本發明之專利申請範圍更進一步之解釋。

以下在實施方式中詳細敘述本發明之詳細特徵以及優點，其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施，且根據本說明書所揭露之內容、申請專利範圍及圖式，任何熟習相關技藝者可輕易地理解本發明相關之目的及優點。以下之實施例係進一步詳細說明本發明之觀點，但非以任何觀點限制本發明之範疇。

請參考圖1，其係繪示本發明之一實施例的跨通路人工智慧對話式平台的架構圖100。所述的跨通路人工智慧對話式平台100，包括第一內部伺服器2、第二內部伺服器4及第三內部伺服器6。如圖1所示，第二內部伺服器4及第三內部伺服器6分別通訊連接至第一內部伺服器2。另外，第一內部伺服器2中的元件各自與客戶端裝置91、第一外部伺服器93、第二外部伺服器95及第三外部伺服器97通訊連接。

實務上，第一內部伺服器2、第二內部伺服器4及第三內部伺服器6例如係金融機構機房內配置的刀鋒伺服器(Blade Servers)、機架伺服器(Rack Servers)或直立式伺服器(Pedestal Servers)，本發明對於第一、第二及第三內部伺服器2、4及6的硬體類型不予限制。

第一內部伺服器2、第二內部伺服器4及第三內部伺服器6各自具有記憶體以實現後文述及的各項功能。上述記憶體可以是例如隨機存取記憶體、唯讀記憶體或是快閃記憶體等。在一實施例中，第一內部伺服器2、第二內部伺服器4及第三內部伺服器6中更包括支援有線網路、無線網路、行動網路及/或無線通訊的通訊裝置。在一實施例中，第一內部伺服器2、第二內部伺服器4及第三內部伺服器6各自包括一處理電路，可執行後文述及的功能。處理電路例如係微控制器(microcontroller)、微處理器(microprocessor)、處理器(processor)、中央處理器(central processing unit，CPU)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit，ASIC)、數位邏輯電路、現場可程式邏輯閘陣列(field programmable gate array，FPGA) 及/或其它具有運算處理功能的硬體元件，本發明對於處理電路之硬體類型不予限制。

請繼續參考圖1。第一內部伺服器2包括語音輸入介面21、語音轉文字介面23、語意辨識介面25、文字轉語音介面27及一輸出介面29。語音輸入介面21通訊連接至客戶端裝置91。所述的客戶端裝置91例如是使用者安裝有行動銀行App（應用程式）的智慧型手機、平板電腦，亦可以是智慧分行櫃台的智能音箱或是智能機器人等，對於使用者而言，其係與客戶端裝置91進行交談。實務上，使用者所發出的聲音將由客戶端裝置91的收音器（例如麥克風）據以產生第一語音訊號，再由客戶端裝置91的通訊元件發送此第一語音訊號至第一內部伺服器2的語音輸入介面21。簡言之，當使用者需要進行金融相關操作時，可直接對客戶端裝置91說話，產生第一語音訊號，然後此第一語音訊號將被送至語音輸入介面21進行處理。

請先參考圖1的第二內部伺服器4，其包括彼此電性連接的客戶音訊資料庫41及個資隱藏模組43。客戶音訊資料庫41儲存複數個音訊檔，該些音訊檔之內容分別對應至複數個個人資料。實務上，第二內部伺服器可更包括一動態資訊學習模組，該動態資訊學習模組例如預先以金融機構的人工客服錄音記錄作為訓練資料，並以機器學習的方式，從客服錄音記錄中自動辨別出屬於客戶個資的音訊片段，然後儲存這些音訊片段至客戶音訊資料庫41中。動態資訊學習模組更可以根據每次由語音輸入介面21獲得的第一語音訊號更新客戶音訊資料庫中的記錄，本發明對此不予限制。

請繼續參考圖1的第二內部伺服器4。個資隱藏模組43電性連接客戶音訊資料庫41且通訊連接至第一內部伺服器2的語音轉文字介面23。個資隱藏模組43用以將第一語音訊號分割為複數個語音片段，且當個資隱藏模組43判斷這些語音片段中之任一者符合客戶資訊資料庫41中儲存的複數個音訊檔中之任一者時，個資隱藏模組43從第一語音訊號刪除該語音片段對應之音頻資訊，並將被刪除的語音片段之音訊資料的第一語音訊號作為第二語音訊號回傳至第一內部伺服器2的語音轉文字介面23。在個資隱藏模組43進行比對時，例如可採用模糊比對演算法。另外，當比對到的使用者個資被分割到多個語音片段時，個資隱藏模組43將這些帶有使用者個資的語音片段重組以擷取出屬於使用者個資的完整的音訊資料。透過上述個資隱藏模組43的處理機制，可以將屬於使用者個人的隱私資料限制在金融機構的機房所設置的第一內部伺服器2及第二內部伺服器4中，而在後續的語音辨識時，不致於將使用者的個資外洩到網路上。

請參考圖1。第一內部伺服器2的語音轉文字介面23分別通訊連接第二內部伺服器4的個資隱藏模組43以及第一外部伺服器93，語意辨識介面25通訊連接至第二外部伺服器95。語音轉文字介面23根據第二語音訊號產生第一文字訊號，語意辨識介面25根據第一文字訊號產生一意圖訊號。換言之，語音轉文字介面23將包含使用者個資的聲音資料轉換為文字，語意辨識介面25在從文字中解讀出使用者的意圖。舉例來說，當第一文字訊號為：「我要轉帳一仟元」時，語意辨識模組25可從中獲知「使用者欲進行轉帳」，且「轉帳金額為一仟元」的這兩個意圖。實務上，語音轉文字介面23及語意辨識介面25例如係應用程式介面（Application Programming Interface，API），第一外部伺服器93例如係Google Cloud語音轉文字（speech-to-text，STT）外部伺服器。第二外部伺服器95例如係IBM華生（Watson）外部伺服器，可提供各項Watson認知運算服務，包括用以判斷客戶意圖的自然語言處理（NLP）的服務，可透過句型式（Pattern）機器學習機制，提高語意理解準確度。

請參考圖1。第三內部伺服器6包括通訊連接至語意辨識介面25的對話模組61及應用模組63。對話模組61選擇性地根據意圖訊號產生回覆訊號。應用模組63可產生對應於意圖分析訊號的控制指令。實務上，第三內部伺服器6的對話模組61可透過機器學習模型，提供動態學習機制，因此可大幅提升維護效率。對話模組61更具有多輪情境對話設計。實務上，例如透過將待分析的人工客服記錄預先以Watson平臺訓練出對話分析模型，再將訓練出的對話分析模型儲存於對話模組61的資料庫中，藉此使對話模組61可提供互動情境式對話設計，並具備前後文（Context）連貫的功效。舉例來說，當使用者說出：「我要轉帳一仟元」時，對話模組61除了從語意辨識介面25獲得包含「使用者欲進行轉帳」且「轉帳金額為一仟元」這兩個意圖的意圖訊號之外，更能夠向使用者提出：『詢問使用者要轉帳對象的帳號』以及『詢問使用者要用來轉帳號的帳號』之類的回覆訊號，以便於在客戶端裝置91上運行的行動銀行App能收集足夠的資訊以完成後續的轉帳操作。此外，對話模組61更具有動態資訊收集機制，可以快速設定參數以快速部署，提高使用者體驗。當對話模組61無法辨識使用者的意圖訊號的時候，對話模組61可轉接至人工客服系統，由線上的客服人員回應使用者的問題。

請繼續參考圖1。第一內部伺服器2之文字轉語音介面27分別通訊連接第三內部伺服器6的對話模組61以及第三外部伺服器97。文字轉語音介面27用以根據回覆訊號產生第三語音訊號；換言之，將對話模組61產生的回覆轉換為使用者可以理解的電腦語音，然後再由第一內部伺服器2的輸出介面29輸出此第三語音訊號到客戶端裝置91，以便於客戶端裝置91的揚聲器或喇叭播放此第三語音訊號供使用者聆聽。實務上，第三外部伺服器97例如係工研院文字轉語音Web服務外部伺服器，可提供文字轉語音（Text To Speech，TTS）的網路服務（web service），伺服器提供 SOAP（Simple Object Access Protocol）協議的網路服務，將所輸入的文字轉換為語音進行輸出。須注意的是，雖本發明的第一、第二及第三外部伺服器93、95及97在上述實施例中係第一內部伺服器2透過網際網路連線到各家的雲端服務，然而在另一實施例中，上述的外部伺服器亦可由金融機構自行購置具有文字語音互轉功能以及語意理解功能的伺服器並設立於本地端的機房，本發明並不限制第一至第三外部伺服器93~97必須連線至雲端方可達到上述的功能。

請繼續參考圖1。第一內部伺服器2之輸出介面29通訊連接至第三內部伺服器6的應用模組63以及客戶端裝置91。輸出介面29除用以輸出第三語音訊號外，更輸出由應用模組63產生的控制指令。所述的控制指令例如係控制行動銀行App完成轉帳操作的指令。

根據上述的跨通路人工智慧對話式平台100的內容，實務上可根據需要，將跨通路人工智慧對話式平台100通訊連接至使用者的智慧型手機或是智慧分行櫃台的智能音箱。藉此，使用者得以透過和客戶端裝置91對話的方式完成所欲進行的金融交易操作項目。

請一併參考圖1及圖2。圖2係繪示本發明一實施例的跨通路人工智慧對話式平台的運作方法，適用於前述的跨通路人工智慧對話式平台100。請參考步驟S11，語音輸入介面21接收第一語音訊號。詳言之，客戶端裝置91以有線或無線通訊方式傳送使用者的語音，再由第一內部伺服器2的語音輸入介面21接收。請參考步驟S21，第二內部伺服器4的個資隱藏模組43將第一語音訊號分割為複數個語音片段。請參考步驟S23，個資隱藏模組43比對語音片段與客戶音訊資料庫41中的音訊檔。請參考步驟S25，個資隱藏模組43判斷任一語音片段是否符合任一音訊檔。如果符合，則繼續執行步驟S27。否則回到步驟S23。請參考步驟S27，個資隱藏模組43回傳第二語音訊號S27，所述的第二語音訊號係係刪除該語音片段之音訊資料（例如代表使用者個資的音訊的波形訊號）的第一語音訊號。請參考步驟S13，第一內部伺服器2的語音轉文字介面23根據第二語音訊號產生第一文字訊號，具體而言係將不包含使用者個人資料的音訊資料轉換為文字資料。請參考步驟S15，第一內部伺服器2的語意辨識介面25根據第一文字訊號產生意圖訊號S15，例如將文字訊號透過提供雲端服務的語意理解伺服器分析以得到使用者的意圖。請參考步驟S31，第三內部伺服器6的對話模組61根據該意圖訊號產生回覆訊號，換言之，對話模組61可從回覆訊號中辨別出使用者的意圖以給予個人化的服務或是回應。實務上，若是客戶的問題不在對話模組61的回應範圍，對話模組61可轉接到人工客服系統進行後續的客戶服務。請參考步驟S17，第一內部伺服器2的文字轉語音介面27根據回覆訊號產生第三語音訊號S17，其係將系統給予使用者的回覆轉換為使用者可聽到的電腦語音。請參考步驟S33，應用模組63根據意圖訊號產生控制指令S33。該控制指令用以在客戶端裝置上進行對應於使用者語音的操作。請參考步驟S35，輸出介面29輸出第三語音訊號及控制指令至客戶端裝置91，例如將系統回覆播放給使用者聆聽，實現與使用者的對話互動以取得使用者想要執行的操作所需要的其他參數，或是執行控制指令以完成使用者想要的金融交易操作項目。

綜合以上所述，本發明所揭露的跨通路人工智慧對話式平台藉由提供與使用者對話來完成金融交易操作的服務，使客戶感受到最佳的體驗與服務，並且可防止使用者的個人隱私資訊外洩到雲端，保護使用者個資安全。另外，藉由跨通路人工智慧對話式平台串接到行動銀行App、智慧分行櫃檯或是智慧個人理財服務，更可以減少金融機構額外聘雇與訓練可提供上述金融服務的人員所需耗費的人力與時間成本。

雖然本發明以前述之實施例揭露如上，然其並非用以限定本發明。在不脫離本發明之精神和範圍內，所為之更動與潤飾，均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。

100:跨通路人工智慧對話式平台 2:第一內部伺服器 21:語音輸入介面 23:語音轉文字介面 25:語意辨識介面 27:文字轉語音介面 29:輸出介面 4:第二內部伺服器 41:客戶音訊資料庫 43:個資隱藏模組 6:第三內部伺服器 61:對話模組 63:應用模組 91:客戶端裝置 93:第一外部伺服器 95:第二外部伺服器 97:第三外部伺服器 S11~S35:步驟

圖1係依據本發明一實施例的跨通路人工智慧對話式平台所繪示的架構圖。圖2係依據本發明一實施例的跨通路人工智慧對話式平台的運作方法所繪示的流程圖。

100:跨通路人工智慧對話式平台

2:第一內部伺服器

21:語音輸入介面

23:語音轉文字介面

25:語意辨識介面

27:文字轉語音介面

29:輸出介面

4:第二內部伺服器

41:客戶音訊資料庫

43:個資隱藏模組

6:第三內部伺服器

61:對話模組

63:應用模組

91:客戶端裝置

93:第一外部伺服器

95:第二外部伺服器

97:第三外部伺服器

Claims

一種可重組語音片段的跨通路人工智慧對話式平台，包括：一第一內部伺服器，包括：一語音輸入介面、一語音轉文字介面、一語意辨識介面、一文字轉語音介面及一輸出介面，其中該語音輸入介面用於接收一第一語音訊號；一第二內部伺服器，通訊連接該第一內部伺服器，包括：一客戶音訊資料庫，用以儲存複數個音訊檔，該些音訊檔之內容分別對應至複數個個人資料；及一個資隱藏模組，電性連接該客戶音訊資料庫，該個資隱藏模組用以將該第一語音訊號分割為複數個語音片段，且當該個資隱藏模組判斷該些語音片段中之任一者符合該些音訊檔中之任一者時，該個資隱藏模組從該第一語音訊號刪除該語音片段對應之音頻資訊，並將被刪除該語音片段之音訊資料的第一語音訊號作為一第二語音訊號回傳至該第一內部伺服器；其中該第一內部伺服器之該語音轉文字介面用以根據該第二語音訊號產生一第一文字訊號；該語意辨識介面用以根據該第一文字訊號產生一意圖訊號；以及一第三內部伺服器，通訊連接該第一內部伺服器，包括：一對話模組，用以選擇性地根據該意圖訊號產生一回覆訊號；及一應用模組，用以產生對應於該意圖分析訊號的一控制指令；其中該第一內部伺服器之該文字轉語音介面用以根據該回覆訊號產生一第三語音訊號；該第一內部伺服器之該輸出介面用以輸出該第三語音訊號及該控制指令；其中該第一內部伺服器、該第二內部伺服器及該第三內部伺服器係內部伺服器係刀鋒伺服器、機架伺服器或直立式伺服器；該語音轉文字介面係通訊連接至Google Cloud語音轉文字外部伺服器，該語意辨識介面係通訊連接至IBM華生外部伺服器，且該文字轉語音介面係通訊連接至工研院文字轉語音Web服務外部伺服器；當該個資隱藏模組判斷該第一語音訊號的該些語音片段分別符合該客戶音訊資料庫中的該些音訊檔時，該個資隱藏模組更用以重組該些語音片段以擷取該些個人資料中的一完整個人資料。
如請求項1所述的可重組語音片段的跨通路人工智慧對話式平台，其中該對話模組更通訊連接至一線上客服系統，當該對話模組無法辨別該意圖訊號時，該對話模組將該意圖訊號轉發至該線上客服系統。
一種可重組語音片段的跨通路人工智慧對話式平台的運作方法，包括：以一第一內部伺服器之一語音輸入介面接收一第一語音訊號；以該第二內部伺服器之一個資隱藏模組將該第一語音訊號分割為複數個語音片段，其中，該個資隱藏模組電性連接該客戶音訊資料庫，且當該個資隱藏模組判斷該些語音片段中之任一者符合該第二內部伺服器之一客戶音訊資料庫所儲存之複數個音訊檔中之任一者時，以該個資隱藏模組從該第一語音訊號刪除該語音片段對應之音頻資訊，其中該第二內部伺服器通訊連接該第一內部伺服器；以該個資隱藏模組回傳一第二語音訊號至該第一內部伺服器之一語音轉文字介面，其中該第二語音訊號係刪除該語音片段之音訊資料的第一語音訊號；以該語音轉文字介面根據該第二語音訊號產生一第一文字訊號；以該第一內部伺服器之一語意辨識介面根據該第一文字訊號產生一意圖訊號；以一第三內部伺服器之一對話模組根據該意圖訊號產生一回覆訊號，其中該第三內部伺服器通訊連接該第一內部伺服器；以該第一內部伺服器之一文字轉語音介面根據該回覆訊號產生一第三語音訊號；以該第三內部伺服器之一應用模組根據該意圖訊號產生一控制指令；以及以該第一內部伺服器之一輸出介面輸出該第三語音訊號及該控制指令；其中該第一內部伺服器、該第二內部伺服器及該第三內部伺服器係內部伺服器係刀鋒伺服器、機架伺服器或直立式伺服器；該語音轉文字介面係通訊連接至Google Cloud語音轉文字外部伺服器，該語意辨識介面係通訊連接至IBM華生外部伺服器，且該文字轉語音介面係通訊連接至工研院文字轉語音Web服務外部伺服器；當該個資隱藏模組判斷該第一語音訊號中具有複數個語音片段分別符合該客戶音訊資料庫中的該些音訊檔時，該個資隱藏模組更用以重組該些語音片段以擷取多個個人資料中的一完整個人資料，其中該些音訊檔之內容分別對應至該些個人資料。
如請求項3所述的可重組語音片段的跨通路人工智慧對話式平台的運作方法，其中在接收該第一語音訊號之前，更包括：以該第二內部伺服器之一動態資訊學習模組以機器學習方式從一客服錄音記錄中取得關聯於該些個人資料的該些音訊檔；以及以該動態資訊學習模組儲存這些音訊檔至該客戶音訊資料庫。