TWI712975B - 一種基於智慧語音人機互動設備之金融服務系統 - Google Patents

一種基於智慧語音人機互動設備之金融服務系統 Download PDF

Info

Publication number
TWI712975B
TWI712975B TW106121831A TW106121831A TWI712975B TW I712975 B TWI712975 B TW I712975B TW 106121831 A TW106121831 A TW 106121831A TW 106121831 A TW106121831 A TW 106121831A TW I712975 B TWI712975 B TW I712975B
Authority
TW
Taiwan
Prior art keywords
voice
financial
output
unit
management unit
Prior art date
Application number
TW106121831A
Other languages
English (en)
Other versions
TW201905806A (zh
Inventor
邱仁鈿
江威娜
Original Assignee
永豐商業銀行股份有限公司
碩網資訊股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 永豐商業銀行股份有限公司, 碩網資訊股份有限公司 filed Critical 永豐商業銀行股份有限公司
Priority to TW106121831A priority Critical patent/TWI712975B/zh
Publication of TW201905806A publication Critical patent/TW201905806A/zh
Application granted granted Critical
Publication of TWI712975B publication Critical patent/TWI712975B/zh

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本發明為一種基於智慧語音人機互動設備之金融服務系統,包含:智慧裝置,包括語音輸出/輸入裝置,以提供用戶輸入語音,和輸出語音;雲端網路,以和該智慧裝置以有線或無線之方式耦接,並傳輸輸入語音、輸出語音等資料;伺服器,耦接於該雲端網路,以接收該智慧裝置的該輸入語音,並轉換為對該金融服務系統所對應金融服務之金融服務輸入命令,和將該金融服務系統所完成之該金融服務輸入命令轉換為對該智慧裝置回應的該輸出語音;資料儲存裝置,以儲存例如刷卡紀錄與帳戶資料等複數筆金融資料,並耦接於該雲端網路。

Description

一種基於智慧語音人機互動設備之金融服務系統
本發明涉及一種透過語音輸入以進行金融管理的系統及方法,特別是指透過語音輸入裝置進行語音輸入,以與智能裝置進行人機互動,以管理所需金融服務的系統與方法。
人工智慧(Artificial Intelligence,AI),係指人工製造出來的系統所表現出來的智慧。通常人工智慧是指藉由普通電腦或超級電腦實現,針對某種情況具有邏輯或步驟判斷的智慧。人工智慧的研究可以分為幾個技術問題,其分支領域主要集中在解決具體問題,其中之一是,如何使用各種不同的演算法分析問題以完成特定目標。
例如阿爾法圍棋(AlphaGo)是由英國倫敦Google DeepMind開發的人工智慧圍棋程式。2015年10月,它成為第一個無需讓子,即可在19路棋盤上擊敗圍棋職業棋士的電腦圍棋程式。2016年3月,在一場五番棋比賽中,AlphaGo於前三局以及最後一局均擊敗頂尖職業棋士李世乭,成為第一個不藉助讓子而擊敗圍棋職業九段棋士的電腦圍棋程式。這證明了人工智慧在邏輯判斷與自動化作業的潛力,使得在未來應用上有無限的可能性,像是洛克希德.馬丁公司於F-35A/B/C戰機上搭載的Alis,微軟公司的智慧型個人助理Cortana,或是亞馬遜公司出品的Echo智慧音箱內建的Alexa等等。
語音識別(Speech recognition)技術,也被稱為自動語音識別(Automatic Speech Recognition,ASR)或是語音轉文字(Speech To Text,STT),其目標是以電腦自動將人類的語音內容轉換為相應的文字。而與之相反的,是 文字轉語音(Text to Speech,TTS)的技術,該技術的目標則是將任意文字輸入轉成語音輸出,用戶不需要針對特定文字內容預錄語音,只要將文字內容輸入電腦,電腦即會自動處理包括日期、時間、電話、金額、項次等數字之正確讀法。語音識別技術的應用包括語音撥號、語音文檔檢索、簡單的聽寫數據輸入等,而語音輸出的應用則針對視力不佳的對象或眼睛不便,如工作中或開車中的駕駛等等。
語音識別的技術,最重大的突破是隱馬可夫模型(Hidden Markov Model)的應用,從Baum提出相關數學推理,經過Rabiner等人的研究,卡內基梅隆大學的李開復最終實現了第一個基於隱馬可夫模型的大詞彙量語音識別系統Sphinx。此後嚴格來說語音識別技術並沒有脫離隱馬可夫模型的框架。以美國專利US8315871 B2來舉例,該提案提出了以前述之隱馬可夫模型進行文字轉語音的一種翻滾(Rope-Jumping)演算法,該提案演算法進行的方式為,透過事先設下的限制條件,將無序的聲學參數,修改以產生穩定的聲線頻譜,以產生自然的語音。
但是,若要透過語音作為人與電腦或智慧裝置溝通的主要手段,實現如同科幻片像是星艦迷航記,人類自然的以本身的語音命令電腦或智慧裝置之後,電腦自動且精準地以語音回復或是進行某個功能,而非僅僅只是將人類的語音轉成文字紀錄下來,則需要進一步的將前述語音轉文字識別後,以各種演算法分析人類的語音命令,並轉換為可供電腦判讀的命令,始能繼續執行該命令的後續流程。
目前自然語言處理演算法為用作前述分析語音轉文字提升辨識率的技術之一,該演算法結合了達麥留-萊文斯坦距離(Damerau-Levenshtein distance)、動態規劃(Dynamic programming)、多序列比對(Multiple sequence alignment)等等的演算法。其中以達麥留-萊文斯坦距離來舉例,該演算法主要之目的,為將一長串的命令語句,轉換為最為精簡,且能對應至預先建構於資料庫的命令語句,以執行所需求的動作。
其作法為,計算一個長串命令裡任兩個文字a,b的距離,以在一個有限元素序列中計算出一個命令所需最簡短,最能表達出用戶意思的語句,而該計算的過程中,包含了下面四個根據所計算的距離所進一步的動作,分別為插入、刪除、置換一個同義的詞,與兩個文字位置的調換(如:我和你,你和我;紙與筆,筆與紙。上述兩組例子把字的順序調換不影響文義。)。除此之外,該演算法也能做到超過80%拼字錯誤的訂正。透過結合前述語音識別和自然語言處理,最終能夠實現以語音進行人機互動的目的。
然而,儘管市面上已出現許多以語音進行人機互動的數位助理產品,依舊還是會有很高的機率將命令語句誤解為另外一種命令語句的情況發生,若想以數位助理以語音為人機互動的主要手段,以對目前的金融商品,如股票、權證、期貨、選擇權等進行操作,出錯的風險依然太大,尤其金融商品所涉及的法律問題層面牽連甚廣,乃至於其金錢數目動輒數十甚至數百萬起跳,實在無法容許操作的過程中有任何錯誤,也因此現在各大銀行或金融機構所推出的語音操作服務,也僅僅是在電話中或操作終端機前,以一段預錄的語音,提示用戶該如何操作。例如用戶以電話打入銀行,使用的語音服務,該用戶將聽到電話中的語音為:「股票下單請按1,權證下單請按2,期貨下單請按3......總機服務請按9」的內容。
雖然上述以預錄語音提示操作確實一定程度能夠使金融服務自動化,但是此種方式的缺點為其使用上甚為制式無彈性,若用戶在操作過程中有疑問,也無法以該制式的方式獲得該操作的詳細資訊,因此,仍然需要一種能夠對於語音命令有高度的正確判讀性,並且必要時能夠過語音問答自動判別用戶需求以提供必要資訊的數位助理,而欲達成此目標,則需要一種系統,能就目前的數位助理技術加以改進。
有鑑於前述習知技術的缺點,本發明提出一種基於智慧語音人機互動設備之金融服務系統,將語音辨識技術之辨識結果加以優化,以期能夠達到自然的以語音和用戶對話,並從對話中能達到對用戶的命令或要求能夠精準 的理解,達到更好的效果,並能提供用戶相關資訊的目標。
為了達到上揭的目的,根據本發明所提出之第一實施例,其包含:智慧裝置,包括一語音輸出/輸入裝置,以提供用戶輸入一輸入語音和輸出金融服務系統一輸出語音;雲端網路,以和前述智慧裝置以有線或無線之方式耦接,並傳輸上述的輸入語音、輸出語音等資料;伺服器,耦接於該雲端網路,以接收智慧裝置輸入語音,並轉換為對該金融服務系統所對應的金融服務之金融服務命令,和將該金融服務系統所完成之至金融服務命令轉換為對該智慧裝置回應的至少一輸出語音;資料儲存裝置,以儲存帳戶資料、刷卡紀錄、投資損益、市場動態、研究報告和商品報價等金融資料,並耦接於上述雲端網路,將上述資料依照需求傳輸予伺服器。
根據本發明所提出的第二實施例,伺服器更包含語音文字處理模組,其中該處理模組包括用戶介面管理單元,以管理上述語音文字處理模組中的運作流程、用戶聲紋的識別,與輸入語音和輸出語音的連接介面;語音轉文字單元,耦接於用戶介面管理單元,以將輸入語音轉換為輸入文字字串;文字轉語音單元,耦接於用戶介面管理單元,將金融服務系統所完成之金融服務命令後,所產生的輸出文字字串,轉換為輸出語音;以及語音/文字轉換語料庫單元,以儲存語音資料,與該語音資料所對應的文字資料,並耦接於語音轉文字單元和文字轉語音單元。
根據本發明所提出的第二實施例,伺服器更包含用戶對話管理單元,以管理金融服務系統中伺服器的運作流程,耦接於用戶介面管理單元,以輸入/輸出「輸入文字字串」或「輸出文字字串」。
根據本發明所提出的第二實施例,伺服器中更包含金融相關對話語意處理模組,該模組含有金融專業語料庫單元,以儲存各種金融專業之詞彙與術語,並耦接於用戶對話管理單元。
根據本發明的第二實施例之一態樣,金融相關對話語意處理模組 更包含自然語言處理單元,耦接於用戶對話管理單元和金融專業語料庫單元,當該用戶對話管理單元計算出輸入文字字串長度大於一預設值時,則以該自然語言處理單元根據結合達麥留-萊文斯坦距離、動態規劃與多序列比對等各種演算法,比對金融專業語料庫單元中所儲存的各種金融專業詞彙與術語,將輸入字串轉換為金融服務輸入命令。
根據本發明第二實施例之另一態樣,金融專業語料庫單元耦接於用戶對話管理單元,當該用戶對話管理單元計算出輸入文字字串長度小於一預設值時,則以金融專業語料庫單元中所儲存的各種金融專業詞彙與術語,將輸入字串轉換為金融服務輸入命令。
根據本發明所提出的第二實施例之金融相關對話語意處理模組更包含金融資訊服務單元,耦接於用戶對話管理單元和資料儲存裝置,以根據前述的金融服務輸入命令,結合資料儲存裝置中所儲存的金融資料,以進行用戶所需的金融服務。
上述的金融服務可包含金融商品交易、帳戶狀態查詢、交易紀錄查詢、市場資訊查詢或金融商品報價等等,其可應用的金融服務以上僅為舉例,並不限於上述金融服務的應用。
根據本發明之一態樣,金融資訊服務單元於完成上述金融服務後,即產生金融服務輸出報告,並將其傳輸予用戶對話管理單元,當該用戶對話管理單元計算出金融服務輸出報告所含之報告文字字串長度大於一預設值時,則以前述自然語言處理單元根據結合達麥留-萊文斯坦距離、動態規劃與多序列比對等各種演算法,比對金融專業語料庫單元中所儲存的各種金融專業詞彙與術語,將報告文字字串轉換為輸出文字字串,傳輸予用戶對話管理單元,用戶對話管理單元再將上述輸出文字字串,傳輸予用戶介面管理單元。
根據本發明之另一態樣,金融資訊服務單元於完成上述金融服務後,即產生金融服務輸出報告,並將其傳輸予用戶對話管理單元,當該用戶對 話管理單元計算出金融服務輸出報告所含之報告文字字串長度小於一預設值時,則以金融專業語料庫單元中所儲存的各種金融專業詞彙與術語,將報告文字字串轉換為輸出文字字串,傳輸予用戶對話管理單元,用戶對話管理單元再將上述輸出文字字串,傳輸予用戶介面管理單元。
以上所述係用以說明本發明之目的、技術手段以及其可達成之功效,相關領域內熟悉此技術之人可以經由以下實施例之示範與伴隨之圖式說明及申請專利範圍更清楚明瞭本發明。
100:系統架構
101A:用戶A
101B:用戶B
102A:智慧裝置A
102B:智慧裝置B
103:雲端網路
104:伺服器
105:資料儲存裝置
200:系統細部架構
201:用戶
202:智慧裝置
203:語音輸出/輸入裝置
204:伺服器
205:語音文字處理模組
206:語音/文字轉換與料庫單元
207:語音轉文字單元
208:文字轉語音單元
209:用戶介面管理單元
210:金融相關對話語意處理模組
211:金融專業語料庫單元
212:自然語言處理單元
213:用戶對話管理單元
214:金融資訊服務單元
215:資料儲存裝置
300:應用情境流程:一般金融問答(不涉及帳戶資料)
301‧‧‧用戶
302‧‧‧智慧裝置
303‧‧‧伺服器
S1-S12‧‧‧應用情境流程步驟
400‧‧‧應用情境流程:個人化服務(涉及帳戶資料)
401‧‧‧用戶
402‧‧‧智慧裝置
403‧‧‧伺服器
S13-S38‧‧‧應用情境流程步驟
第一圖係顯示本發明之系統架構;第二圖係顯示本發明之系統細部架構;第三圖係顯示本發明之應用情境流程:一般金融問答(不涉及帳戶資料);第四圖係顯示本發明之應用情境流程:個人化服務(涉及帳戶資料)。
本發明將以較佳之實施例及觀點加以詳細敘述。下列描述提供本發明特定的施行細節,俾使閱者徹底瞭解這些實施例之實行方式。然該領域之熟習技藝者須瞭解本發明亦可在不具備這些細節之條件下實行。此外,本發明亦可藉由其他具體實施例加以運用及實施,本說明書所闡述之各項細節亦可基於不同需求而應用,且在不悖離本發明之精神下進行各種不同的修飾或變更。本發明將以較佳實施例及觀點加以敘述,此類敘述係解釋本發明之結構,僅用以說明而非用以限制本發明之申請專利範圍。
根據本發明之第一實施例,本發明之系統架構(100),如第一圖所示,其包含:至少一智慧裝置(102A、102B),以提供至少一用戶(101A、101B)輸入至少一輸入語音,和輸出金融服務系統至少一輸出語音;雲端網路(103),以和前述智慧裝置(102A、102B)以有線或無線之方式耦接,並傳輸上述的輸入語音、輸出語音等資料;伺服器(104),耦接於上述雲端網路(103),以處理智慧裝置(102A、102B)的輸入語音並轉換為對金融服務系統(100)所對應金融服務之金融服務命令,和將金融服務系統所完成之金融服務輸入命令轉換為對智慧裝置(102A、102B)回應的輸出語音;資料儲存裝置(105),以儲存帳戶資料、刷卡紀錄、投資損益、市場動態、研究報告和商品報價等金融資料,並耦接於上述雲端網路(103),將上述資料依照需求傳輸予伺服器(104)。
根據本發明所提出的第二實施例,如第二圖所示:伺服器(204)更包含語音文字處理模組(205),其中該處理模組包括用戶介面管理單元(209),以管理上述語音文字處理模組(205)中的運作流程、用戶聲紋的識別,與輸入語音和輸出語音的連接介面;語音轉文字單元(207),耦接於用戶介面管理單元(209),以將輸入語音轉換為輸入文字字串;文字轉語音單元(208),耦接於用戶介面管理單元(209),將金融服務系統所完成之金融服務命令後,所產生的輸出文字字串,轉換為輸出語音;以及語音/文字轉換語料庫單元(206),以儲存語音資料,與該語音資料所對應的文字資料,並耦接於語音轉文字單元(207)和文字轉語音單元(208)。
根據本發明所提出的第二實施例,如第二圖所示:伺服器(204)更包含用戶對話管理單元(213),以管理金融服務系統中伺服器(204)的運作流程,耦接於用戶介面管理單元(209),以輸入/輸出「輸入文字字串」或「輸出文字字串」。
根據本發明所提出的第二實施例,如第二圖所示:伺服器(204)中更包含金融相關對話語意處理模組(210),該模組含有金融專業語料庫單元(211),以儲存各種金融專業之詞彙與術語,並耦接於用戶對話管理單元(213)。
根據本發明的第二實施例之一態樣,如第二圖所示:金融相關對話語意處理模組(210)更包含自然語言處理單元(212),耦接於用戶對話管理單元(213)和金融專業語料庫單元(211),以處理輸入文字字串,與產生輸出文字字串,當該用戶對話管理單元(213)計算出輸入文字字串長度大於一預設值時,則以該自然語言處理單元(212)根據結合達麥留-萊文斯坦距離、動態規劃與多序列比對等各種演算法,比對金融專業語料庫單元(211)中所儲存的各種金融專業詞彙與術語,將輸入字串轉換為金融服務輸入命令。
根據本發明第二實施例之另一態樣,如第二圖所示:金融專業語料庫單元(211)耦接於用戶對話管理單元(213),當該用戶對話管理單元(213)計算出輸入文字字串長度小於一預設值時,則以金融專業語料庫單元(211)中所儲存的各種金融專業詞彙與術語,將輸入字串轉換為金融服務輸入命令。
根據本發明所提出的第二實施例,如第二圖所示之金融相關對話語意處理模組(210)更包含金融資訊服務單元(214),耦接於用戶對話管理單元(213)和資料儲存裝置(215),以根據前述的金融服務輸入命令,結合資料儲存裝置(215)中所儲存的金融資料,以進行用戶所需的金融服務,其可包含金融商品交易、帳戶狀態查詢、交易紀錄查詢、市場資訊查詢或金融商品報價等等,可應用的金融服務以上僅為舉例,並不限於上述金融服務的應用。
根據本發明第二實施例之一態樣,如第二圖所示:金融資訊服務單元(214)於完成上述金融服務後,即產生金融服務輸出報告,並將其傳輸予用戶對話管理單元(213),當該用戶對話管理單元(213)計算出金融服務輸出報告所含之報告文字字串長度大於一預設值時,則以前述自然語言處理單元(212)根據結合達麥留-萊文斯坦距離、動態規劃和多序列比對等各種演算法,比對金融專業語料庫單元(211)中所儲存的各種金融專業詞彙與術語,將報告文字字串轉換為輸出文字字串,傳輸予用戶對話管理單元(213),用戶對話管理單元(213)再將上述輸出文字字串,傳輸予用戶介面管理單元(209)。
根據本發明第二實施例之另一態樣,如第二圖所示:金融資訊服 務單元(214)於完成上述金融服務後,即產生金融服務輸出報告,並將其傳輸予用戶對話管理單元(213),當該用戶對話管理單元(213)計算出金融服務輸出報告所含之報告文字字串長度小於一預設值時,則以金融專業語料庫單元(211)中所儲存的各種金融專業詞彙與術語,將報告文字字串轉換為輸出文字字串,傳輸予用戶對話管理單元(213),用戶對話管理單元(213)再將上述輸出文字字串,傳輸予用戶介面管理單元(209)。
根據本發明第二實施例,如第二圖所示:用戶介面管理單元(209)接收到輸出文字字串後,即以語音轉文字單元(207),依據語音/文字轉換與料庫單元(206)中所儲存之輸出文字字串所對應的語音資料,將輸出文字字串轉換為輸出語音,透過雲端網路(103)將輸出語音傳輸至智慧裝置(202),接著藉由語音輸出/輸入裝置(203),播放予用戶(201)。
根據本發明第三實施例,如第三圖所示,其揭露了本發明所提出的金融服務系統的其中一種應用之態樣:「應用情境流程:一般金融問答(不涉及帳戶資料)」(300)。該應用情境所適用的情況為,用戶(301)為了查詢某種金融資訊,如市場動態、研究報告或商品報價,但並不涉及本身帳戶資料。
第三實施例的應用情境流程為用戶(301)透過智慧裝置(302)於S1步驟中以語音之方式輸入一輸入語音,該輸入語音於S2步驟中被語音輸出/輸入裝置(203)所接受以後,透過雲端網路(103)被傳輸予用戶介面管理單元(209)進行S3步驟中的語音識別,其中語音轉文字單元(207)以及語音/文字轉換語料庫單元(206),耦接於用戶介面管理單元(209),利用隱馬可夫模型或其它之演算法,以於S4步驟中將輸入語音轉換為輸入文字字串。
輸入文字接著被傳輸至用戶對話管理單元(213)中,以進行S5步驟中的文意判讀/確認對話意圖的步驟。於S5的步驟中進行文意判斷與確認對話意圖,其具體進行的方法根據本發明之一態樣,為當該用戶對話管理單元(213)計算出輸入文字字串長度大於一預設值時,則以自然語言處理單元(212)根據結合達麥留-萊文斯坦距離、動態規劃和多序列比對等各種演算法,比對S6 步驟中金融專業語料庫單元(211)中所儲存的各種金融專業詞彙與術語,以及資料儲存裝置(215)中所儲存的市場動態、研究報告或商品報價等資料,將輸入字串轉換為金融服務輸入命令。
S5步驟中的文意判讀/確認對話意圖的步驟,其具體進行的方法根據本發明之另一態樣,當該用戶對話管理單元(213)計算出輸入文字字串長度小於一預設值時,則以金融專業語料庫單元(211)中所儲存的各種金融專業詞彙與術語,以及資料儲存裝置(215)中所儲存的市場動態、研究報告或商品報價等資料,將輸入字串轉換為金融服務輸入命令,接著將金融服務輸入命令傳輸予金融資訊服務單元(214),以進行步驟S7,金融資訊服務單元(214)根據金融服務輸入命令以進行相對應的金融服務。
步驟S8中金融資訊服務單元(214)根據金融服務輸入命令的內容,於完成上述金融服務後產生相對應的金融服務輸出報告,於步驟S9中,根據本發明之一態樣,將其傳輸予用戶對話管理單元(213),當該用戶對話管理單元(213)計算出金融服務輸出報告所含之報告文字字串長度大於一預設值時,則以前述自然語言處理單元(212)根據結合達麥留-萊文斯坦距離、動態規劃和多序列比對等各種演算法,比對金融專業語料庫單元(211)中所儲存的各種金融專業詞彙與術語,將報告文字字串轉換為輸出文字字串,傳輸予用戶對話管理單元(213),用戶對話管理單元(213)再將上述輸出文字字串,傳輸予用戶介面管理單元(209)。
於步驟S9中,根據本發明之另一態樣,金融資訊服務單元(214)於完成上述金融服務後,即產生金融服務輸出報告,並將其傳輸予用戶對話管理單元(213),當該用戶對話管理單元(213)計算出金融服務輸出報告所含之報告文字字串長度小於一預設值時,則以金融專業語料庫單元(211)中所儲存的各種金融專業詞彙與術語,將報告文字字串轉換為輸出文字字串,傳輸予用戶對話管理單元(213),用戶對話管理單元(213)再將上述輸出文字字串,傳輸予用戶介面管理單元(209),進行步驟S10。
於步驟S10中,用戶介面管理單元(209)接收到輸出文字字串後,即以語音轉文字單元(207),依據語音/文字轉換與料庫單元(206)中所儲存之輸出文字字串所對應的語音資料,將輸出文字字串轉換為輸出語音,透過雲端網路(103)傳輸至智慧裝置(202),接著藉由語音輸出/輸入裝置(203),播放予用戶(201)。
根據本發明第四實施例,如第四圖所示,其揭露了本發明所提出的金融服務系統的其中一種應用之態樣:「應用情境流程:個人化(涉及帳戶資料)」(400)。該應用情境所適用的情況為,用戶(401)為了進行某種金融交易或金融操作,帳戶資料查詢、刷卡紀錄查詢,金融商品下單等等涉及本身帳戶資料的操作行為。
第四實施例的應用情境流程為用戶(401)透過智慧裝置(302)於S13步驟中以語音之方式輸入一第一輸入語音,該第一輸入語音於S14步驟中被語音輸出/輸入裝置(203)所接受以後,透過雲端網路(103)被傳輸予用戶介面管理單元(209)進行S15步驟中用戶(401)的聲紋識別,於聲紋識別通過以後,於S16步驟中比對用戶(401)的個人資料,並於S17中於用戶介面管理單元(209)產生預設之至少一用戶核身問題之核身問題字串(如:你的生日為何日,亦可彈性設定較私密的問題,以提高安全性。),傳輸至用戶介面管理單元(209),接著進行步驟S18,用戶介面管理單元(209)接收到核身問題字串後,即以語音轉文字單元(207),依據語音/文字轉換與料庫單元(206)中所儲存之輸出文字字串所對應的語音資料,將核身問題字串轉換為第一輸出語音,透過雲端網路(103)傳輸至智慧裝置(202),然後由步驟S19藉由語音輸出/輸入裝置(203),將第一輸出語音播放予用戶(401)。
此時用戶(401)於步驟S20中聽取第一輸出語音,並根據第一輸出語音的核身問題內容進行回答,回答的內容如步驟S21中所示輸入第二輸入語音,該第二輸入語音於S22步驟中被語音輸出/輸入裝置(203)所接受以後,透過雲端網路(103)被傳輸予用戶介面管理單元(209)進行S23步驟中的語音識別,其中語音轉文字單元(207)以及語音/文字轉換語料庫單元(206),耦接於用戶介面管理單元(209),利用隱馬可夫模型或其它之演算法,以於S24步驟中將第二輸入語音轉換為第一輸入文字字串,並於步驟S25中確認核身資料是否正確,若核身資料確認無誤,則進行步驟S26,金融資訊服務單元(214)此時產生至少一所需服務的一詢問字串。
其中於步驟S26中,該所需服務之詢問可為一預先設定好的問題,或是金融資訊服務單元根據資料儲存裝置(215)中用戶(401)的個人帳戶資料、刷卡紀錄等資料所客製化之問題,該詢問字串被傳輸至用戶對話管理單元(213)。
根據本發明之一態樣,當該用戶對話管理單元(213)計算該詢問字串長度大於一預設值時,則以前述自然語言處理單元(212)根據結合達麥留-萊文斯坦距離、動態規劃和多序列比對等各種演算法,比對金融專業語料庫單元(211)中所儲存的各種金融專業詞彙與術語,將詢問字串轉換為詢問文字輸出字串,傳輸至用戶介面管理單元(209)。
根據本發明之另一態樣,當該用戶對話管理單元(213)計算出詢問字串長度小於一預設值時,則以金融專業語料庫單元(211)中所儲存的各種金融專業詞彙與術語,將詢問字串轉換為詢問文字輸出字串,傳輸至用戶介面管理單元(209)。
於步驟S27中,用戶介面管理單元(209)接收到詢問文字輸出字串後,即以語音轉文字單元(207),依據語音/文字轉換與料庫單元(206)中所儲存之詢問文字輸出字串所對應的語音資料,將詢問文字輸出字串轉換為第二輸出語音,透過雲端網路(103)傳輸至智慧裝置(202),然後由步驟S27藉由語音輸出/輸入裝置(203),將第二輸出語音播放予用戶(401)。
當用戶(401)於步驟S28聽到第二輸出語音以後,在步驟S29中,即以口頭回應其所欲進行的服務,以輸入第三輸入語音。該第三輸入語音於S30步驟中被語音輸出/輸入裝置(203)所接受以後,透過雲端網路(103)被傳輸予用戶介面管理單元(209)進行S31步驟中的語音識別,其中語音轉文字單元(207)以及語音/文字轉換語料庫單元(206),耦接於用戶介面管理單元(209),利用隱馬可夫模型或其它之演算法,以於S32步驟中將輸入語音轉換為第二輸入文字字串。
第二輸入文字字串接著被傳輸至用戶對話管理單元(213)中,以進行S33步驟中的文意判讀/確認對話意圖的步驟,根據本發明之一態樣,為當該用戶對話管理單元(213)計算出第二輸入文字字串長度大於一預設值時,則以自然語言處理單元(212)根據結合達麥留-萊文斯坦距離、動態規劃和多序列比對等各種演算法,比對金融專業語料庫單元(211)中所儲存的各種金融專業詞彙與術語,將第二輸入文字字串轉換為金融服務輸入命令,接著將金融服務輸入命令傳輸予金融資訊服務單元(214)。
根據本發明之另一態樣,當該用戶對話管理單元(213)計算出第二輸入文字字串長度小於一預設值時,則以金融專業語料庫單元(211)中所儲存的各種金融專業詞彙與術語,將第二輸入文字字串轉換為金融服務輸入命令,接著將金融服務輸入命令傳輸予金融資訊服務單元(214)。
接著,執行步驟S34,金融資訊服務單元(214)根據金融服務輸入命令,連接資料儲存裝置中,用戶(401)的帳戶資料,於步驟S35,進行相對應個人化的金融服務。
接著,於完成上述金融服務後,在步驟S36中,產生相對應的金融服務輸出報告,將其傳輸予用戶對話管理單元(213),根據本發明之一態樣,當該用戶對話管理單元(213)計算出金融服務輸出報告所含之報告文字字串長度大於一預設值時,則以前述自然語言處理單元(212)根據結合達麥留-萊文斯坦距離、動態規劃和多序列比對等各種演算法,比對金融專業語料庫單元(211)中所儲存的各種金融專業詞彙與術語,將報告文字字串轉換為第三輸出文字字串,傳輸予用戶對話管理單元(213),用戶對話管理單元(213)再將上述第三輸出文字字串,傳輸予用戶介面管理單元(209)。
於步驟S36中,根據本發明之另一態樣,金融資訊服務單元(214)於完成上述金融服務後,即產生金融服務輸出報告,並將其傳輸予用戶對話管理單元(213),當該用戶對話管理單元(213)計算出金融服務輸出報告所含之報告文字字串長度小於一預設值時,則以金融專業語料庫單元(211)中所儲存的各種金融專業詞彙與術語,將報告文字字串轉換為第三輸出文字字串,傳輸予用戶對話管理單元(213),用戶對話管理單元(213)再將上述第三輸出文字字串,傳輸予用戶介面管理單元(209),以進行步驟S37的語音答覆。
於步驟S37中,用戶介面管理單元(209)接收到第三輸出文字字串後,即以語音轉文字單元(207),依據語音/文字轉換與料庫單元(206)中所儲存之第三輸出文字字串所對應的語音資料,將第三輸出文字字串轉換為第三輸出語音,透過雲端網路(103)傳輸至智慧裝置(202),接著藉由語音輸出/輸入裝置(203),執行步驟S38,播放予用戶(401)。
200‧‧‧系統細部架構
201‧‧‧用戶
202‧‧‧智慧裝置
203‧‧‧語音輸出/輸入裝置
204‧‧‧伺服器
205‧‧‧語音文字處理模組
206‧‧‧語音/文字轉換與料庫單元
207‧‧‧語音轉文字單元
208‧‧‧文字轉語音單元
209‧‧‧用戶介面管理單元
210‧‧‧金融相關對話語意處理模組
211‧‧‧金融專業語料庫單元
212‧‧‧自然語言處理單元
213‧‧‧用戶對話管理單元
214‧‧‧金融資訊服務單元
215‧‧‧資料儲存裝置

Claims (8)

  1. 一種基於智慧語音人機互動設備之金融服務系統,其包含:一伺服器,耦接於一雲端網路,其中該雲端網路可與外部一智慧裝置耦接,其中該智慧裝置包括一語音輸出/輸入裝置,以提供用戶輸入一輸入語音至該伺服器;其中該伺服器可接收該智慧裝置的該輸入語音,並轉換為對該金融服務系統所對應一金融服務之一金融服務輸入命令,並可將該金融服務系統所完成之該金融服務輸入命令轉換為對該智慧裝置回應的一輸出語音,其中,該輸入語音與該輸出語音的處理,可為達麥留-萊文斯坦距離、動態規劃和多序列比對,或上述演算法之組合;其中,該伺服器更包含:一用戶介面管理單元,管理用戶聲紋的識別、該輸入語音,與該輸出語音的連接介面,並藉此識別用戶的身份:一語音/文字轉換語料庫單元,以儲存複數筆語音資料,與該複數筆語音資料對應的複數筆文字資料,並耦接一語音轉文字單元和一文字轉語音單元;一金融資訊服務單元,根據該輸入語音,進行包含金融商品下單的該金融服務;以及,一資料儲存裝置,以儲存帳戶資料、刷卡紀錄、投資損益、市場動態、研究報告和商品報價等複數筆金融資料,並耦接於該雲端網路,將上述資料依照需求傳輸予該伺服器。
  2. 如請求項1所述之基於智慧語音人機互動設備之金融服務系統,其中該伺服器更包含:一語音文字處理模組,其中該語音文字處理模組更包括:該用戶介面管理單元,以管理該語音文字處理模組中的運作流程;一語音轉文字單元,耦接於該用戶介面管理單元,以將該輸入語音轉換為一 輸入文字字串;以及,一文字轉語音單元,耦接該用戶介面管理單元,於該金融服務系統完成該金融服務輸入命令後,所產生的一輸出文字字串,轉換為一輸出語音。
  3. 如請求項1所述之基於智慧語音人機互動設備之金融服務系統,其中該伺服器更包含:一用戶對話管理單元,以管理該金融服務系統中該伺服器的運作流程,耦接於該用戶介面管理單元,以輸入該輸入文字字串,或輸出該輸出文字字串。
  4. 如請求項3所述之基於智慧語音人機互動設備之金融服務系統,其中該用戶介面管理單元接收到該輸出文字字串後,即以該語音轉文字單元,依據該語音/文字轉換與料庫單元中所儲存之該輸出文字字串所對應的複數筆語音資料,將該輸出文字字串轉換為該輸出語音,透過該雲端網路將該輸出語音傳輸至該智慧裝置,接著藉由該語音輸出/輸入裝置,以進行播放。
  5. 如請求項1所述之基於智慧語音人機互動設備之金融服務系統,其中該伺服器更包含:一金融相關對話語意處理模組,其中該金融相關對話語意處理模組更包括:一金融專業語料庫單元,以儲存複數筆金融專業之詞彙與術語,並耦接於一用戶對話管理單元;以及一自然語言處理單元,耦接於該金融專業語料庫單元,和該用戶對話管理單元,結合該金融專業語料庫單元中所儲存的該複數筆金融專業詞彙與術語,以處理該輸入文字字串,與產生該輸出文字字串。
  6. 如請求項5所述之基於智慧語音人機互動設備之金融服務系統,其中該金融相關對話語意處理模組,更包含該金融資訊服務單元,耦接於該用戶對話管理單元和該資料儲存裝置,以根據該金融服務輸入命令,結合該資料儲存裝置中所儲存的複數筆金融資料,以進行用戶所需之該金融服務。
  7. 如請求項6所述之基於智慧語音人機互動設備之金融服務系統,其中當該金融資訊服務單元完成該金融服務後,即產生一金融服務輸出報告,並將其傳輸予該用戶對話管理單元,當該用戶對話管理單元計算出該金融服務輸出報告所含之該金融服務輸出報告,所含之一報告文字字串長度大於一預設值時,則以該自然語言處理單元,結合該金融專業語料庫單元中所儲存的複數筆金融專業詞彙與術語,將該報告文字字串轉換為該輸出文字字串,傳輸予該用戶對話管理單元,該用戶對話管理單元再將該輸出文字字串,傳輸予該用戶介面管理單元。
  8. 如請求項5所述之基於智慧語音人機互動設備之金融服務系統,其中當該金融資訊服務單元完成該金融服務後,即產生一金融服務輸出報告,並將其傳輸予該用戶對話管理單元,當該用戶對話管理單元計算出該金融服務輸出報告所含之該金融服務輸出報告,所含之一報告文字字串長度小於一預設值時,則以該金融專業語料庫單元中所儲存的複數筆金融專業詞彙與術語,將該報告文字字串轉換為該輸出文字字串,傳輸予該用戶對話管理單元,該用戶對話管理單元再將該輸出文字字串,傳輸予該用戶介面管理單元。
TW106121831A 2017-06-29 2017-06-29 一種基於智慧語音人機互動設備之金融服務系統 TWI712975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW106121831A TWI712975B (zh) 2017-06-29 2017-06-29 一種基於智慧語音人機互動設備之金融服務系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW106121831A TWI712975B (zh) 2017-06-29 2017-06-29 一種基於智慧語音人機互動設備之金融服務系統

Publications (2)

Publication Number Publication Date
TW201905806A TW201905806A (zh) 2019-02-01
TWI712975B true TWI712975B (zh) 2020-12-11

Family

ID=66213246

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106121831A TWI712975B (zh) 2017-06-29 2017-06-29 一種基於智慧語音人機互動設備之金融服務系統

Country Status (1)

Country Link
TW (1) TWI712975B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI800196B (zh) * 2021-12-30 2023-04-21 大同大學 具有自動運算提供決策判斷建議的多向溝通協作系統
TWI843056B (zh) * 2022-02-11 2024-05-21 臺灣中小企業銀行股份有限公司 具語意學習能力之線上語音服務系統及其方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI787755B (zh) * 2021-03-11 2022-12-21 碩網資訊股份有限公司 一種基於深度學習的跨設備、跨語言問答匹配方法
TWI802165B (zh) * 2021-12-22 2023-05-11 中華電信股份有限公司 用於語音核證之語音辨識系統、方法及其電腦可讀媒介

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2309487A1 (en) * 2009-09-11 2011-04-13 Honda Research Institute Europe GmbH Automatic speech recognition system integrating multiple sequence alignment for model bootstrapping
US20120221502A1 (en) * 2010-01-25 2012-08-30 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US20120260263A1 (en) * 2011-04-11 2012-10-11 Analytics Intelligence Limited Method, system and program for data delivering using chatbot
CN103593340A (zh) * 2013-10-28 2014-02-19 茵鲁维夫有限公司 自然表达信息处理方法、处理及回应方法、设备及系统
US20140297268A1 (en) * 2011-09-19 2014-10-02 Personetics Technologies Ltd. Advanced System and Method for Automated-Context-Aware-Dialog with Human Users
US20160217125A1 (en) * 2015-01-27 2016-07-28 Microsoft Technology Licensing, Llc Transcription correction using multi-token structures
US9473637B1 (en) * 2015-07-28 2016-10-18 Xerox Corporation Learning generation templates from dialog transcripts
CN106357942A (zh) * 2016-10-26 2017-01-25 广州佰聆数据股份有限公司 基于上下文对话语义识别的智能应答方法及系统
CN106557971A (zh) * 2016-11-18 2017-04-05 畅捷通信息技术股份有限公司 基于语音识别技术的财务数据处理方法、系统及终端
US20170168506A1 (en) * 2009-10-22 2017-06-15 General Electric Company System and method for vehicle communication, vehicle control, and/or route inspection

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2309487A1 (en) * 2009-09-11 2011-04-13 Honda Research Institute Europe GmbH Automatic speech recognition system integrating multiple sequence alignment for model bootstrapping
US20170168506A1 (en) * 2009-10-22 2017-06-15 General Electric Company System and method for vehicle communication, vehicle control, and/or route inspection
US20120221502A1 (en) * 2010-01-25 2012-08-30 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US20120260263A1 (en) * 2011-04-11 2012-10-11 Analytics Intelligence Limited Method, system and program for data delivering using chatbot
US20140297268A1 (en) * 2011-09-19 2014-10-02 Personetics Technologies Ltd. Advanced System and Method for Automated-Context-Aware-Dialog with Human Users
CN103593340A (zh) * 2013-10-28 2014-02-19 茵鲁维夫有限公司 自然表达信息处理方法、处理及回应方法、设备及系统
US20160217125A1 (en) * 2015-01-27 2016-07-28 Microsoft Technology Licensing, Llc Transcription correction using multi-token structures
US9473637B1 (en) * 2015-07-28 2016-10-18 Xerox Corporation Learning generation templates from dialog transcripts
CN106357942A (zh) * 2016-10-26 2017-01-25 广州佰聆数据股份有限公司 基于上下文对话语义识别的智能应答方法及系统
CN106557971A (zh) * 2016-11-18 2017-04-05 畅捷通信息技术股份有限公司 基于语音识别技术的财务数据处理方法、系统及终端

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
Asanka Wasala, etc., "Data-driven spell checking: The synergy of two algorithms for spelling error detection and correction", International Conference on Advances in ICT for Emerging Regions (ICTer2012), 12-15 Dec. 2012
Asanka Wasala, etc., "Data-driven spell checking: The synergy of two algorithms for spelling error detection and correction", International Conference on Advances in ICT for Emerging Regions (ICTer2012), 12-15 Dec. 2012 Wael H. Gomaa, etc., "A Survey of Text Similarity Approaches", International Journal of Computer Applications, April 2013 Hemakumar G., etc., "Speech Recognition Technology: A Survey on Indian Languages", International Journal of Information Science and Intelligent System, Vol. 2, No.4, 2013 M.K.Vijaymeena, etc., "A SURVEY ON SIMILARITY MEASURES IN TEXT MINING", Machine Learning and Applications: An International Journal, March 2016 張皓翔, "使用階層式韻律模型於豐富中文語音辨認", 碩士論文, 2010 劉銘傑, "以韻律輔助之中文語音辨認系統之實現", 碩士論文, 2011 Wikipedia, "Natural language processing", 2017/06/24, https://web.archive.org/web/20170624070249/https://en.wikipedia.org/wiki/Natural_language_processing Wikipedia, "Damerau–Levenshtein distance", 2016/11/24 , https://web.archive.org/web/20161124085047/https://en.wik *
Hemakumar G., etc., "Speech Recognition Technology: A Survey on Indian Languages", International Journal of Information Science and Intelligent System, Vol. 2, No.4, 2013
M.K.Vijaymeena, etc., "A SURVEY ON SIMILARITY MEASURES IN TEXT MINING", Machine Learning and Applications: An International Journal, March 2016
Wael H. Gomaa, etc., "A Survey of Text Similarity Approaches", International Journal of Computer Applications, April 2013
Wikipedia, "Damerau–Levenshtein distance", 2016/11/24 , https://web.archive.org/web/20161124085047/https://en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance
Wikipedia, "Dynamic porgramming", 2017/06/15, https://web.archive.org/web/20170612154750/https://en.wikipedia.org/wiki/Dynamic_programming 1/
Wikipedia, "Natural language processing", 2017/06/24, https://web.archive.org/web/20170624070249/https://en.wikipedia.org/wiki/Natural_language_processing
張皓翔, "使用階層式韻律模型於豐富中文語音辨認", 碩士論文, 2010
劉銘傑, "以韻律輔助之中文語音辨認系統之實現", 碩士論文, 2011

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI800196B (zh) * 2021-12-30 2023-04-21 大同大學 具有自動運算提供決策判斷建議的多向溝通協作系統
TWI843056B (zh) * 2022-02-11 2024-05-21 臺灣中小企業銀行股份有限公司 具語意學習能力之線上語音服務系統及其方法

Also Published As

Publication number Publication date
TW201905806A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
US10950219B2 (en) Systems and methods for providing a virtual assistant
US10878808B1 (en) Speech processing dialog management
TWI712975B (zh) 一種基於智慧語音人機互動設備之金融服務系統
US11823678B2 (en) Proactive command framework
US9753914B2 (en) Natural expression processing method, processing and response method, device, and system
US11705118B2 (en) Universal and user-specific command processing
WO2022095380A1 (zh) 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质
US20220076674A1 (en) Cross-device voiceprint recognition
CN110019688A (zh) 对机器人进行训练的方法
CN114830139A (zh) 使用模型提供的候选动作训练模型
CN110059166A (zh) 自然智能的自然表达处理方法、回应方法、设备及系统
CN110059168A (zh) 对基于自然智能的人机交互系统进行训练的方法
CN110046232A (zh) 自然智能的自然表达处理方法、回应方法、设备及系统
US20240176957A1 (en) Systems and methods for inserting dialogue into a query response
Maskeliunas et al. Voice-based human-machine interaction modeling for automated information services
CN110008317A (zh) 自然智能的自然表达处理方法、回应方法、设备及系统
KR102583434B1 (ko) 음성 상담의 품질 평가 방법 및 시스템
Sen et al. AI-Based DBMS Controlled Speech Recognition Model for Some Common Computing Commands
CN109213877A (zh) 一种基于智能语音人机互动设备的金融服务系统
US20240339041A1 (en) Conversational teaching method and system and server thereof
CN111444308B (zh) 一种模拟用户发言的方法和系统
KR102392992B1 (ko) 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법
Lerjebo et al. Intelligent chatbot assistant: A study of Natural Language Processing and Artificial Intelligence
KR20240073991A (ko) 음성 합성 서비스 제공 방법 및 그 시스템
CN115116442A (zh) 语音交互方法和电子设备