TW201034004A - Systems and methods for interactively accessing hosted services using voice communications - Google Patents
Systems and methods for interactively accessing hosted services using voice communications Download PDFInfo
- Publication number
- TW201034004A TW201034004A TW099102886A TW99102886A TW201034004A TW 201034004 A TW201034004 A TW 201034004A TW 099102886 A TW099102886 A TW 099102886A TW 99102886 A TW99102886 A TW 99102886A TW 201034004 A TW201034004 A TW 201034004A
- Authority
- TW
- Taiwan
- Prior art keywords
- conversation
- service
- concept
- voice
- information
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000004891 communication Methods 0.000 title description 25
- 238000007726 management method Methods 0.000 claims description 32
- 238000013499 data model Methods 0.000 claims description 14
- 239000000463 material Substances 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 claims 1
- 230000002452 interceptive effect Effects 0.000 description 14
- 230000004044 response Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/39—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech synthesis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Description
201034004 六、發明說明: 【發明所屬之技術領域】 在此所揭露之實施例係大致關於互動語音回覆系統,尤其 是關於可允許托管服務(例如購物、租車、飯店等)透過電話 存取語音通訊之系統及方法。 【先前技掏·】 基於成本或效率的考量,現今的公司經常採取透過網路及 電話的方式提供客戶服務。目前,使用者可經由存取裝置所提 供的視覺表達能力獲得網路服務,例如可使用具有網路瀏覽器 之個人電腦(PC),其可要求並接收由網路伺服器(Web server) 所產生的超文件標記語言(HyperText Markup Language,簡稱 HTML)文件。對於電子商務之應用,網路伺服器可提供存取服 務邏輯(service logic)以及交易祠服介面。交易伺服介面可處理 使用者之輸入,服務邏輯可使用任意的通用網路編碼工具來進 行編碼。 使用者可透過存取裝置獲得電話服務,存取裝置可具有語 音互動能力,例如,電話或是網路電話(voice over Internet protocol,簡稱VOIP)裝置,又稱互動語音回覆(interactive voice response,簡稱IVR)平台,其具有音訊輸入、輸出、電話功能、 以及自己的服務邏輯及存取服務介面。互動語音回覆系統可自 動地允許電話使用者,透過字母命令存取在系統上鏈結的伺服 器。此服務邏輯通常係以通用的軟體語言並使用平台的應用程 式介面(application-programming interface,簡稱 API),或是 201034004 平台專用編石馬語言來進行編碼。 由於語音辨識科技的進步,傳統亙動語音回覆系統的互動 模式已可包含選單、直接對話、混合主動式對話。選單類型的 互動模式通常使用預錄的聲音,即時地要求使用者在電話鍵盤 上輸入一個數字或是唸出簡單的回答,例如「是」或「不是」, 或是簡單的數字,從多個選擇中選取項目。對於直接對話,藉 由詢問各別的問題,以要求各別的答案,系統可引導使用者完 •成資料的選擇。例如,各別的對話系統將先要求使用者回答居 住的州再回答居住的城市,以得到使用者的住址混合主動式 對話系統職❹者在單—次語音巾輸人多筆資料並提供部 份的訊息。 項以 話 雖然已有以上所述之科技,傳統的互動語音回覆系統仍然 =以下缺點.速度慢、非人性化、且僅能提供笨拙的平台協 4用者與纟H的互動。要透過電話巾迷宮般的選單 ^進行操絲序通常是非常料的,且直接及混合主動式對
在立、Μα的3碭直接反應之語音命令。總之,現有的互動 ^月^系統並無法允許真正地由㈣者透過互動式的方式 【發明内容】 系統揭露一種使用語音通訊以互動式存取托管服務之 在方面,本發明係揭露一種在包含一語音辨認模級、— 201034004 時間管理模組以及一語音產生模組之一系統内,用於提供一服 務給一使用者之一方法其包含經由語音辨識模組接收一談 話;使用屬於一資料模型之詞典,將談話轉換為至少一結構; 使用結構辨認談話内之概念;若所提供之談話包含足夠的資 訊,依據概念選取一服務;依據選取的服務產生一文字訊息; 且使用語音產生器將文字訊息轉換為一語音訊息。 在另一方面,本發明係揭露一種用於提供一服務給一使用 者之系統,其包含一語音辨識模組,其組態為接收一談話並將 談話轉換為字稿;至少一個使用屬於一資料模型之詞典的結 構;一時間管理模組,其耦接語音辨認模組並組態為使用屬於 一資料模型之詞典產生關於字稿之一結構、使用結構辨認談話 内之概念、若談話包含足夠的資訊,則依據概念選擇一服務、 依據選擇的服務產生一回覆文字訊息;以及一語音產生模組, 其與時間管理模組耦接並組態為將回覆文字訊息轉換為一語 音訊息。 其它的目的,技術特徵,及本發明之優點,如同由申請專 利範圍所定義,且由以下非限制性的實施方式揭露。 、 【實施方式】 在此係描述使用語音通訊以互動式地存取托管服務之系 統及方法。然而,應了解在此所述之系統及方法可不需某些或 全部的細節資訊即可執行。在其它情況下,為使本說明書更加 簡潔,習知的操作程序並未詳細地描述。 如同在此所示,電話通訊為廣用之儀器,例如路線電話、 3 201034004 行動電話、網路通訊裝置等等’其用於提供長距離的語音通 訊。電話通訊包含傳統的類比電語系統,其透過類比訊號(即 時間及強度為連續)來傳遞語音通話,或是近來發展的數位電 話系統’其透過數位訊號(即不連續的二元訊號)傳遞語音通 話。網路電話(Voice over Internet Protocol,簡稱 VoIP )為 數位類型電話中較新發展的型式,其使用傳輸控制協定/網路協 定(Transmission Control Protocol/Internet Protocol,簡稱 φ TCP/IP )以及其它的網路傳輸格式以透過網路傳遞數位化的語 音資料。 網路或全球資訊網(World Wide Web,簡稱WWW)為廣 域網路(wide area network,簡稱WAN),其由許多鏈結在一 起的伺服器組成’並可允許資料透過網路資料傳輸協定,例如 TCP/IP、可#性使用者資料庫協定( Reiiabie User Datagram Protoco卜簡稱RUDP)或其它等同協定,由一伺服器傳遞到另 一伺服器。通常’網路可將分佈於廣大地理範圍的多個伺服器 參鏈結在一起。相反地’局部區域網(local area networks,簡稱 LAN)為較小的伺服器網路,這些伺服器涵蓋較小的地區,例 如住家、辦公室或是學校。 如前所述’應了解互動語音回覆系統可受益於在此所述之 系統及方法,可不需要透過選單驅動或事先錄好的對話,即可 互動式地使用語音通訊來決定顧客所要求的服務,並將這些服 務傳遞給顧客。 第1圖係依據本發明某一實施例描述互動語音回覆 (interactive voice resp0nse,簡稱IVR)系統的功能方塊圖示, 4 201034004 此系統可允許使用者使用語音通訊互動地存取托管服務 (hosted services)。如同此圖所示,此系統服務操作電話裝置 102的使用者1〇1,電話裝置1〇2係組態為和人類智慧系統 (Human Understanding System) 103 通訊,人類智慧系統 103 包含各種托管服務108。為了可透過人類智慧系統1〇3被存 取’各個服務108必需先在此系統内被定義。 因此,系統100可組態為透過人類智慧系統1〇3處理複數 ❿個服務丨〇8,並將其提供給使用者。在範例的註冊程序中, 需對各種服務提供以下的元素:可獲得服務的地理區域、以自 然的浯§所提供之服務的詳細述敘、必須由使用者1〇1提供之 ^料列表以提供服務給使用者101,以及對話的文稿。 在某一實施例中,各個註冊的托管服務係關於一個或多個 服務提供者的群組,例如商店、租車處、旅館。應了解,只要 14些服務可由使用者1〇1透過電話裝置1〇2命令,人類生活的 許多面向皆可由適當的托管服務提供服務。 參 在某一實施例中,電話裝置102可透過類比的路線和人類 智慧系、統103 it訊鏈結,例如透過類比的實體電線連結,其組 態為傳輸使用類比訊號的語音資料。在另-實施例中,電話t 置1〇2可透過數位路線和人類智慧系統103通訊鏈結,例如透 ^位光纖連結’其組態為傳輸使用不連續數位二元訊號的語 在又一實施例中, 話,可透過無線通訊鏈 通訊鏈結組態為使用射 電話裝置102,例如行動電話或衛星電 結和人類智慧系統1〇3通訊鏈結,無線 頻(radio frequency,簡稱 RF)或是微 5 201034004 波訊號將語音資料傳輸至人類智慧系統103。此傳輸格式可為 數位或類比,無線通訊鏈結可為和人類智慧系統1〇3連接的直 接鏈結,或是透過和人類智慧系統1〇3經由路線或是其它無線 鏈結連接的基地台。在再一實施例中,電話裝置1〇2,即網路 通訊裝置,其可透過路線、無線連結其中之一或二者與人類智 慧系統103通訊鏈結,其係藉由網路連接的方式,其組態為使 用網路電話(v〇ice over Internet pr〇t〇c〇1,簡稱 v〇Ip)或類同 ❹的協定,傳輸語音資料。此網路連接可被分佈為地域網路例如 本地£域網路’或廣域網路例如網路(the internet)。 在某一實施例中,此系統可組態為經由使用者1〇1操作, 其中使用者101可操作行動電話(即,電話裝置1〇2)以將通 話置入人類智慧系統103中以存取一服務,其係由人類智慧系 統103所提供。行動電話1〇2係藉由射頻鏈結和行動電話提供 者’即手機網路提供者通訊,手機網路提供者自已係鏈結至公 共父換電話網(Public Switched Telephone Network,簡稱 φ PSTN) ’即路線,以和人類智慧系統103通訊。人類智慧系統 103可接耆藉由網路或LAN與多個區域系統(domain systems ) 通訊鏈結。在其它的情況,使用者101可操作一 VOIP啟能電 腦(VOIP-enable(j computer),即電話裝置 102,以將 VOIP 通 話置入鏈結至網路的人類智慧系統i〇3。此V0Ip啟能電腦藉 由廣頻網路鍵結通訊,廣頻網路鏈結係透過網路鏈結,例如網 際網路、LAN等,與人類智慧系統103通訊鏈結。 應了解上述的情況係僅用以作為描述之用而非作為限制 系統100可用的通訊組態。目前已有多種可想到的方法可用於 6 201034004 設定使用者1〇1及人類智慧系統103之間的通訊;僅受限於所 造之系統將語音資料傳輸至人類智慧系統1〇3的能力,是否足 夠清楚,尤其是要可允許人類智慧系统1〇3處理並了解此 資料。 接續第1圖,人類智慧系、统103包含:語音辨認模組1〇4、 音訊產生模組106、以及時間管理模組(⑽加⑽挪 module) U)5。語音辨認模組1()4可%態為透過電話裝置ι〇2 參自使用者ΗΠ接收談話,電話裝置1〇2可例如使用上述任一種 電話通訊組態’通訊鍵結至人類智慧系統1〇3。在某些實施例 中’這些談話包含關於使用者101 #資訊,例如身份資訊認 證資訊以及關於應使用者101所要求存取而提供的服務。語音 辨認模組可組態為將自使用者叫接收的語音資料轉換為 文字資料並將此資料傳輸至時間管理模組1〇5。 應了解人類智慧系統1〇3彳包含需要執行在此所述之功能 的軟體或硬體元件。更應了解人類智慧系統⑽可包含其它的 φ元件及功旎,且某些的功能可被相同或不同元件執行。因此, 第1圖不應被視作將在此所述之系統及方法限縮為某些結構或 是組態。更是,第1圖係被提供作為範例之用。 在一實施例中’語音辨認模組104係組態為辨認30種世 上最常使用的語言。語音辨認模組1〇4可以辨認的語言可以 是:英語、中文、印度語、西班牙語、孟加拉語、葡萄牙語、 俄語、德語、日語及法語。在其它的實施例中,語音辨認模組 104係組態為僅辨識由人類智慧系統103所處理之服務所指定 的語言。然而應了解,語音辨認模組丨〇4係可由系統管理者組 7 201034004 態為辨識任何的語言,只需所選語言其語言特徵有助於使此語 言可經由電腦處理轉換。語音辨認模組104更可組態為將使用 者101的語音,其係經由裝置102所提供,轉換為字稿。 時間管理模組105可組態為操作在二個狀態下:(一)「選 擇服務狀態」,在此狀態下時間管理模組105係組態為選取服 務108 ;以及(二)「對話文稿狀態」,在此狀態下時間管理模 組105係組態為執行適用於所選取之服務1〇6的對話文稿2〇3。 時間管理模組105係裝置有用於特定自然語言的字典組,
其連接至資料模型(ontology)。此可允許其將自然談話的字稿 轉換為特殊的結構’其包含文法及資料模型的資訊。資料模型 的資訊可被用於決定被要求的服務1〇6,並用於「對話猄 態」,例如詢問是否使用者i i事實上是使用某些概诵 當時間管理模組105操作在「選擇服務狀態 ^ 為執行以下的程序:選擇特定的服務剛,其所定義之;:態 型的概念為最接近客戶談話中所 ^資枓拉 排除特定的服務1〇8,1所定貝·㈣概念,同時 *… 義之資料模型的概念與客戶㈣ 話衝犬^貝讯不足讓時間管理模組ι〇5決定,戶的談 108的身伤,時間管理模組1〇5 永之服務 問使用者1G卜以取得要做出卜^為產生適•的字稿以詢 組105接著送出字稿至音訊產生:斤必需的資訊。時間管理模 換為談話,而談話可由音^且1G6 ’其組態為將字稿轉 以讓使用*⑼聽取。K產生編旦106傳輸給電話较置^ 在某一實施例中,此来皮 情況下重覆執行,直到時門^時間f理模組叱在 1時間“里模組!05接收到足夠的資^ 8 201034004 決定使用者101呈現之話音資料内所求服務108之身份。在另 一實施例中,系統管理者可藉由適當的談話文稿203啟能或執 行特定的服務,例如,服務對選擇服務,其中談話文稿203可 詢問顧客更多的資訊並選擇特定的服務108。在某些的實施例 中,對話文稿203可呼叫其它的服務。例如’對於租車應用中, 依據州、城市、車型等等,可呼叫一特殊的服務,其組態為選 擇適當租車公司的以完成此服務。 應了解,以上所述之各種的實施例係組態為實現使用者 101與人類智慧系統103之間的高度互動對話。此目的係為近 可能相似地模仿使用者101和所處理的服務1〇8之間的通訊環 境,包含嘗試決定正被使用者101所要求的服務108或其它的 資訊。與傳統的系統相反,其必需選取一系列的選單或必需回 應一系列的資訊要求,其中,選擇及回應要求係依照固定的才^ 對線性程序,並經由事先決定的判斷樹。這些傳統的互動和二 個人之間自然的對話並不相似。 〜
二I二賴二任何的語言,只需所選达 6其::=:,此1 言可經由電腦處理被轉換, 旦時間管理模組1〇5已成功地辨識 時間管理模組105將開始執行此服 第2圖係依據一實施例為時間管理 哉使用者所要求的服務 務所定義的對話文稿。 理模組1〇5 内部元件的詳 201034004 互動及&些7^件如何和人類智慧系統1G3内其它的模組 庫綱、,務資:管=之對話文稿203、服務資料 適告的詞模組1G5亦包含文件至結構模組212,其可使用 业;10 :矛、次4〇將人類談話的文字轉換為特殊的結構。這些詞 〇 210係和資料模型2U赫 結構模組212,^制^在—起。此關連性可允許文件至 人類語古的類語言’皆可將任一已定義之 、昧^ ’轉換為包含文法及資料模型資訊的結構。 了解特組105亦可包含特殊概念探測模組230。為了 it此概人/米測模組23G’必f要解釋這些特殊概念為何。 ==不Ϊ被了解的概念,例如名字、顏色、地址。然而, +中疋可和此概念關連的數值或級數。在所有自然語 ::二,具有一些形式,其可允許人類使用它們。因此, 特殊概:的=====產生的讲 ;芒二=來念自使用者101產生資訊,一弄清 求,殊話文稿203内對特殊概念的要 值。在缺乏f模23G以取得與此概念關連的數 1〇1。在接收笈空/Γ ί音訊產生模組106被送至顧客 客拒絕提供答V,'文稿:二2 :見是否必要而重覆執行。若顧 柄丨單02將寫下此事件使文稿可作出反 201034004 應。特洙概念及其使用將在以下說明詳加描述。 特洙的指令可被嵌入至對話文稿203以詢問適當的 庫。其它的指令可被嵌入至和服務108相關的對話文稿貝料 中’以允許結果可被顯示給顧客,使顧客可選擇特定的H〇3 更有其它的指令可被用於更新資料庫204合適的資料。 ° 對話文稿2 0 3中條件式的指令可允許其對已預測的人類反 應1出回應。這些條件式的指令可包含例如若、切換、當等等 φ θ々’其可允許系統103或更明域地使對話文稿2〇3虛裡々 種的幡<理各 与况,例如在使用者101拒絕提供某些資訊或回答時應如 何動作。 ’Μ 你田鮮話文稿203可組態為操作於訊息數字,其可取決於顧客 的語言被轉換為自然語言的訊息。 序,=3圖為一流程圖,其依據一實施例詳細描述一範例的程 熊)/认中系統100係用於選取並提供服務108 (「選擇服務狀 =使用者10卜在步驟302中,語音辨認模組104可自使 上所述!經,裝置ι〇2以及相關的通訊設備接收語音談話。如 證資^,此"炎居可包含身份資訊,即姓名、數字、地址等;認 即銷售/1社會安全號碼、確認數字等;關於所需服務的資訊, 包含於“戶服務、保留等;僅列出此類資訊的範例,其可被 =自使用者ι〇1所接收之談話内。 步驟3 04中,兮五立抛 為字稿 . σ9辨識桓組可組態為翻譯或轉換此談話 i牛ii在步驟306中被送至時間管理模組奶。 鏈結之字典將此字稿組Γ可接著使用和資料模型 得供為、,告構。在步驟310中,時間管理模 201034004 組105可使用此結構以辨認此談話所包含的楙念’即包含在此 談話内資料模型的概念。此概念可接著在步驟312内被用來辨 斷正被要求的服務108。在系統103内之概念及其辨認係在以 下有更加詳細之描述。 當談話内未包含足夠的資訊以充份辨認一服務時’時 間管理模組105可被組態為在步驟314中產生文字訊息,其設 計為誘導更多資訊以允許服務108之辨認。在步驟316中,此 φ 文字訊息可使用對話文稿203被產生而被送至音訊產生模組 106,其可被組態為將文字訊息轉換為對話,其中對話將經由 裝置102被傳輸給使用者1(Π。 此流程將重覆地被執行直到足夠的訊息出現,以在步驟 318中選取服務。在步驟320中,一旦服務被選取後,適當的 對話文稿20$可被啟動,以產生可在步驟322中被送至語音產 生模組106的文字訊息,以和使用者1〇1通訊。 第4圖係為一流程圖,其依據一實施例更加詳細地描述由 鲁時間管理105所執行選取服務的流程圖。在步驟402中,文稿 引擎202自語音辨識模組104接收字稿資訊並將此字稿送至文 字至結構引擎212 ’其可被組態為在步驟4〇4中使用適當的詞 典210以及相關的資料模型211將字稿轉換為結構。此結構可 接著在步驟406中被服務選擇模組220使用來自服務資料庫 204選取一服務。 在步驟408中’選取的服務可接著使用對話文稿203,其 需用來提供適當的資訊給或索取資訊自使用者1〇丨,讓文稿引 擎202產生適當的文字訊息。換言之,文稿引擎2〇2係和對話 12 201034004 文稿203配合以允許系統103在由所選之服務述敘時用自然的 方式和使用者溝通。 服務資料管理者205可組態為將關於各種服務的資料儲存 在服務資料庫204内。另外,服務資料庫204可組態為儲存自 使用者101,以及例如特殊概念處理模組230接收的資訊。因 此,當訊息在步驟408中被產生時,新的資訊係被接收以在步 驟410中作出回應。在步驟412中,關於在步驟41〇中所接收 ^ 的資訊或數值可被儲存於服務資料庫412。 第5圖係依據一實施例為描述用於形成結構及將其鏈結至 概念之範例。第5圖描述用於以下談話之程序:「我希望為我 太太和她的醫生預約(“I would like to make an appointment for my wife with her doctor )」以及用波蘭語所述之 “ Chciaibym um0wi0 m〇h έοης z jej lekarzem.”。各個談話 5〇2 (英文)及 514 (波蘭文)包含複數個字彙’如同於相關的詞典對該語言 所定義。通常,各種語言的詞典210内各個字彙係直接或經由 φ字根連接。因為在自然語言溝通中,有許多的同義字及表達相 同概心的溝通方式’各個概念508係連接至各個詞典21 〇内複 數個字彙。 繼續參考第5圖,談話502及514可被轉換為單元5〇4或 512。各個單元504及512可對應談話内一個或多個字彙。例 =,單元504可對應至單一的字彙,或可具有多個次單元,使 得,可對應至多個字彙,例如在第5圖範例中談話5〇2内的字 群「希望」(would like to)。各個單元5〇4或次單元可接著依 據相關的資料模型21丨經由鏈結5〇6及51〇鏈結至一個或多個 13 201034004 概念508。 單元504及512分別與鏈結506及510的組合,形成與各 種概念508相關的結構505及515。應了解,不管在指向或引 導所辨認之概念的輸出談話,其内包含的詞典為何,各個概念 508將具有獨特的結構。換言之,即使談話502有些微的不同, 例如「我希望為我太太和她的醫生預約(“ I would like to make an appointment for my wife with her doctor)」或「我想知道我 φ 太太的醫生是否有空(“I would like to see if my wife’ s doctor is available”)」,仍應產生相似的結構505及515以引導相同 概念508的認識。 因此’在系統103内定義的各個服務1〇8可具有與其相關 之一組的概念508。在許多實施例中,僅有包含重要的概念以 避免不必要的關連性。同時,在另一實施例中,僅溝通文法的 詞典亦可被忽略。在某些狀況下,各個服務亦有排除及要求的 狀況。例如,對於某些要選取的服務,某些資訊必需被示出, ❹而對於某些要選取的服務,則不能包含某些其它的資訊。 概念508可接著與服務1〇8產生關連性。換言之,各個服 務將具有與其產生關連性的某些概念。時間管理模組1〇5可接 著決定架構’例如架構5〇5,其與一談話產生關連性,例如談 后502 ’以决疋何種服務1〇8是和談話5〇2最相關,即,依據 結構505和談話502最相關的服務。對於某些實施例,時間管 理模組H)5亦可組態為決定各個服務1〇8是否已符合任一要求 的f月况及排除的f月況’以決定何種服務1〇8係和談話最為 相關。 201034004 一旦服務108被選取後,接著下一步驟可對服務使用談話 文稿收集資料。如上所述,其可包含特殊的概念。又,特殊的 概念係為概念系統103未嘗試了解,但又是系統103嘗試產生 相關數值階級的概念。在第5圖的範例中,此概念可以是:人 物’將拜訪醫生的人物;時間,為預約所指定的時間;以及醫 生,所指定的醫生。 首先,談話,例如談話502可被評估以決定其是否包含必 φ 需的資料。此數值或位階為所提供之資料與此資訊對應強度的 指標。決定是否被包含並提供數值或位階的資料可落入特殊概 念處理模組230。若顯示此談話502不包含必需的資料,文稿 引擎202,在所選服務1〇8的控制下,可選取設計用來誘導資 sfl的對話文稿。在上述的範例中,因僅剩預約的時間尚未被指 定’顧客將被問及此資訊(以談話文稿)。 一旦產生的數值指示所有必需的資訊都已出現,則此資料 可被儲存並用於執行預約。對話文稿2〇4可接著被用於產生確 φ 認預約的訊息,其可向使用者敘述。 又,對話文稿203可使用語言以自然的方式產生及回應所 接收的談話。因此,當可以馬上被提供所需的資訊時,使用者 101可覺得自已是進行一般的對話。 在此所述之系統及方法所有的部份亦可以電腦可讀取編 碼的方式實施於一電腦可讀媒體上。此電腦可讀媒體可為任何 可儲存資料的資料儲存裝置,且此資料可接著被一電腦系統讀 取。電腦可讀媒體的範例可包含硬碟、附網存儲設備(netw〇rk attached storage ’簡稱NAS)、唯讀記憶體、隨機存取記憶體、 201034004 CD-ROMs、CD-Rs、CD-RWs、磁帶以及其它 匕的光學及非光璺 的資料儲存裝置。此電腦可讀媒體亦可分佈於和電腦系矣&予 的網路’使得電腦可讀編碼可被分散地儲存並執行。、’、耗接 ❹
雖然在此已描述許多的實施例’本領域具有通常知識者 應了解在此所述之系統及方法亦可以其它特定形式實施 此’在此提供之範例及實施例應視為示範而非限縮之用,且Z 此所述之系統及方法不應限於在此所提供之細節,而可在以下 所述之申請專利範圍内進行調整及使用。 【圖式簡單說明】 第1圖係依據本發明某一實施例描述互動語音回覆系統的 功能方塊圖示,此系統可允許使用者使用語音通訊互動地存取 托管服務。 第2圖係依據一實施例為時間管理模組内部元件的詳細描 述’以及這些元件如何和人類智慧系統内其它的模組互動的情 形。 第3圖為一流程圖,其依據一實施例詳細描述一範例的程 序’其中系統係用於選取並提供服務(「選擇服務狀態」)給使 用者。 第4圖係為一流程圖,其依據一實施例更加詳細地描述由 時間管理模組執行選取服務的流程圖。 第5圖係依據一實施例為描述用於形成結構及將其鏈結至 概念之範例。 16 201034004 【主要元件符號說明】 101 :使用者 102 :電話裝置 103 :人類智慧系統 104 :語音辨認模組 105 ··時間管理模組 106 :音訊產生模組 ❹ 108 :服務 202 :文稿引擎 203 :對話文稿 204 :服務資料庫 205 :服務資料管理者 210 :語文詞典 211 :資料模型 212 :文件至結構 參 230 :特殊概念探測模組 302 :接收談話 304 :將談話轉換為字稿 306 :送出字稿 308 :將字稿轉換為結構 310 :辨認概念 312 :辨認服務 314 :產生訊息 17 201034004 316 :送出訊息 318 :選擇服務 320 :啟動文稿 322 :收集資料 402 :接收字稿 404 :將字稿轉換為結構 406 :選擇一服務 408 :產生文字訊息 410 :接收回應 412 :儲存資訊 508 :概念
Claims (1)
- 201034004 七、申請專利範圍: 1. 一種在包含一語音辨認模組、一時間管理模組以及一語 音產生模組之一系統内,用於提供一服務給一使用者的方 法,其包含: 經由該語音辨識模組接收一談話; 使用屬於一資料模型之詞典,將該談話轉換為至少一 ▲ 結構; 使用該結構辨認該談話内之概念; 若所提供之該談話包含足夠的資訊,依據該概念選取 一服務; 依據該選取的服務產生一文字訊息;且 使用該語音產生模組將該文字訊息轉換為一語音訊 息。 2. 如申請專利範圍第1項所述之方法,更包含將該談話轉 換為字稿,並接著將該字稿轉換為該至少一結構。 3. 如申請專利範圍第1項所述之方法,更包含當該談話未 包含足夠資訊時,產生設計為誘導更多資訊之一文字訊 息,使用該語音產生模組將該文字訊息轉換為一語音訊 息,並將該語音訊息傳輸給該使用者。 4. 如申請專利範圍第1項所述之方法,更包含將該語音訊 19 201034004 息傳輪給該使用者。 5.如申請專利範圍第】項所述之方法,更包含: 回應傳輸給該使用者之該語音訊息 模組接收更多談話; 使用屬於―資料模型之詞典將該談話轉換為至少一 "JLi結構,使用該結構辨認該談話内之概念; 依據該辨認的概念,獲得資訊以提供給該使用者; 依據至少一該獲得之資訊或該辨認的概念,產生 文字訊息; .使用該語音產生模組將該文字訊息轉換為一語音訊 息;且 將該文字訊息傳輸給該使用者。 6一 =睛專利範圍第丨項所述之方法,其中所述使用屬於 ^料模型之詞典’將該談話轉換為至少—結構之步驟更 匕S將該談話與至少—個單元產生性,其鏈結至複數 固概念,其則會因此與複數個服務相關。 3=利範!第6項所述之方法,其中使用該結構辨 •話内之概念的步驟包含決定和該單元鏈結之概念。 8.如申請專利範圍第7項所述之方法,更包含依據該概念 20 201034004 服務,包含依據經由該單元將每一該複數個服務與 = <話鍵結之相關概念的數目’決定和該談話最相關之服 9$1口1研專利範圍第1項所述之方法,更包含辨認和該所 k 務相關的特殊概S,並依據該談話内所包含的資 訊,指派一數值給該辨認的特殊概念。 申Μ專利範gj第9項所述之方法,更包含決定是否 二若斤不選曰服務相關之所有的特殊概念皆在該談話中出 見1不疋,職著產生—文字訊息,其設計用來 之特殊概念相_資訊,並制該語音產生模电 將该文字訊息轉換為—語音訊息。 度生模、、且 1的1特項所述之方法’更包含當所有 服務。 現且被彳日派—數值時,接著執行或完成該 申請專利範圍第11項所述之方法,其中執行談服 匕3儲存κ話㈣包含及㈣特殊概如目關的資訊。 13.二^於提供―服務給一使用者之线,其包含: 換為字稿;辨顺組’其,_為接收—談話並將該談話轉 21 201034004 -結構使用屬於—資料模型之詞典產生與該字稿相關之 使用該結構辨認該談話内之概念;服務;#錢話包含足夠的資訊,則依據該概念選擇一 一該選擇的服務產生一回覆文字訊息;以及 料η ^產域組’其與該時間管理馳純並組態為 將_覆文字訊息轉換為—語音訊息。 h 14.如申請專利範圍第13項所述之系統,其中該時間管 二模組更組態為,當該談話未包含足夠的資訊時,產生設 冲為,導更多資訊的—文字訊息’且其中該語音產生模組 更組態為將該文字訊息轉換為一語音訊息,且將該語音訊 息傳輪給該使用者。 β 15. 如申請專利範圍第13項所述之系統,其中該時間管 模、、且更組想為,藉由將該談話與至少一單元產生關連 性,其鏈結至複數個概念,其則會因此與複數個服 而產生與該字稿相關之一結構。 相關 16. 如申請專利範圍第15項所述之系統,其中該時間管 22 201034004 理模組更組態為,藉由決定和該單元鏈結之概念,使用該 結構辨斷該談話内之概念。 P·如申請專利範圍第16項所述之系統,該時間管理模 組更組態為依據該概念選擇一服務,其係藉由依據經由該 單元將每一該複數個服務與該談話鏈結之相關概念的數 目’決定和該談話最相關之服務。 8.如申叫專利範圍第13項所述之系統,其中該時間管 理模組更組態為決定和該選擇之服務相關的特殊概念,且 依據該談話所包含的資訊,指派一數值給該辨認的特殊概 19.如申請專利範圍第18項所述之系統,其中該時間管 理模組更組態為決定是否所有和該選擇的服務相關的特 ❹ 殊概念皆出現在該談話内,若無,則接著產生一文字訊 息’其設計用來誘導和^壬何遺漏的特殊概念相目的資訊*, 且其中該語音產生模組更組態為使用該語音組 該文字訊息轉換為一語音訊息。 镔',且將 20p如申請專利範圍第19項所述之系統,其中該時間管 =更:態為,當所有的特殊概念皆出現且被指派—個 數值時,執行或完成該服務。 23 201034004 21.如申請專利範圍第20項所述之系統,其中該時間管 理更組態為執行該服務,藉由儲存該談話内所包含及與該 特殊概念相關之該資訊。24
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/364,927 US8417523B2 (en) | 2009-02-03 | 2009-02-03 | Systems and methods for interactively accessing hosted services using voice communications |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201034004A true TW201034004A (en) | 2010-09-16 |
Family
ID=42244676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW099102886A TW201034004A (en) | 2009-02-03 | 2010-02-01 | Systems and methods for interactively accessing hosted services using voice communications |
Country Status (10)
Country | Link |
---|---|
US (3) | US8417523B2 (zh) |
EP (1) | EP2394267A1 (zh) |
JP (1) | JP2012517174A (zh) |
KR (1) | KR20110127180A (zh) |
CN (1) | CN102369568A (zh) |
IL (1) | IL214424A0 (zh) |
RU (1) | RU2011136720A (zh) |
SG (1) | SG173511A1 (zh) |
TW (1) | TW201034004A (zh) |
WO (1) | WO2010089645A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007132467A1 (en) * | 2006-05-15 | 2007-11-22 | E-Glue Software Technologies Ltd. | Call center analytical system having real time capabilities |
US9021565B2 (en) | 2011-10-13 | 2015-04-28 | At&T Intellectual Property I, L.P. | Authentication techniques utilizing a computing device |
US20130130648A1 (en) * | 2011-11-22 | 2013-05-23 | Kamran J. Tadjeran | Providing support to a user |
US9858039B2 (en) * | 2014-01-28 | 2018-01-02 | Oracle International Corporation | Voice recognition of commands extracted from user interface screen devices |
CN104836925A (zh) * | 2014-02-11 | 2015-08-12 | 携程计算机技术(上海)有限公司 | 咨询系统及方法 |
US10514677B2 (en) * | 2014-04-11 | 2019-12-24 | Honeywell International Inc. | Frameworks and methodologies configured to assist configuring devices supported by a building management system |
DE102014213350A1 (de) | 2014-07-09 | 2016-01-14 | Volkswagen Aktiengesellschaft | Verfahren und Vorrichtung zur Ermittlung von Informationen über Mobilitäts-situationen |
CN105338204A (zh) * | 2014-08-15 | 2016-02-17 | 中兴通讯股份有限公司 | 一种交互式语音应答方法及装置 |
CN105827877A (zh) * | 2015-01-06 | 2016-08-03 | 中国移动通信集团上海有限公司 | 一种基于ivr平台的业务处理方法及ivr平台 |
JP6849964B2 (ja) * | 2016-09-05 | 2021-03-31 | 株式会社Nextremer | 対話制御装置、対話エンジン、管理端末、対話装置、対話制御方法、対話方法、およびプログラム |
CN108182943B (zh) * | 2017-12-29 | 2021-03-26 | 北京奇艺世纪科技有限公司 | 一种智能设备控制方法、装置及智能设备 |
WO2019193378A1 (en) * | 2018-04-06 | 2019-10-10 | Flex Ltd. | Device and system for accessing multiple virtual assistant services |
CN110459211B (zh) | 2018-05-07 | 2023-06-23 | 阿里巴巴集团控股有限公司 | 人机对话方法、客户端、电子设备及存储介质 |
CN109327629A (zh) * | 2018-11-01 | 2019-02-12 | 深圳市号互联科技有限公司 | 一种人工智能语音导航数据处理方法 |
CN112399019A (zh) * | 2020-09-16 | 2021-02-23 | 中国农业银行股份有限公司河北省分行 | 智能外呼方法、终端设备及可读存储介质 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7006881B1 (en) * | 1991-12-23 | 2006-02-28 | Steven Hoffberg | Media recording device with remote graphic user interface |
US20020035474A1 (en) * | 2000-07-18 | 2002-03-21 | Ahmet Alpdemir | Voice-interactive marketplace providing time and money saving benefits and real-time promotion publishing and feedback |
US7027974B1 (en) * | 2000-10-27 | 2006-04-11 | Science Applications International Corporation | Ontology-based parser for natural language processing |
IL140322A0 (en) | 2000-12-14 | 2002-05-23 | Poly Information Ltd | Method and interface for inteligent user machine interaction |
IL140673A0 (en) * | 2001-01-01 | 2002-02-10 | Poly Information Ltd | A method and system for improved speech recognition |
US7249018B2 (en) * | 2001-01-12 | 2007-07-24 | International Business Machines Corporation | System and method for relating syntax and semantics for a conversational speech application |
US6950793B2 (en) * | 2001-01-12 | 2005-09-27 | International Business Machines Corporation | System and method for deriving natural language representation of formal belief structures |
US7127402B2 (en) * | 2001-01-12 | 2006-10-24 | International Business Machines Corporation | Method and apparatus for converting utterance representations into actions in a conversational system |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
US7302383B2 (en) * | 2002-09-12 | 2007-11-27 | Luis Calixto Valles | Apparatus and methods for developing conversational applications |
US20040162724A1 (en) | 2003-02-11 | 2004-08-19 | Jeffrey Hill | Management of conversations |
JP4441782B2 (ja) * | 2003-05-14 | 2010-03-31 | 日本電信電話株式会社 | 情報提示方法及び情報提示装置 |
CN1219266C (zh) * | 2003-05-23 | 2005-09-14 | 郑方 | 一种实现多路对话的人-机汉语口语对话系统的方法 |
US7539619B1 (en) * | 2003-09-05 | 2009-05-26 | Spoken Translation Ind. | Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy |
JP2006317876A (ja) * | 2005-05-16 | 2006-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声読み上げ装置およびプログラム |
US7949529B2 (en) * | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
JP4584166B2 (ja) * | 2006-03-14 | 2010-11-17 | Necパーソナルプロダクツ株式会社 | Webページ文章自動検出装置 |
US20080095327A1 (en) | 2006-10-18 | 2008-04-24 | Prokom Investments S.A. | Systems, apparatuses, and methods for interactively accessing networked services using voice communications |
US8032383B1 (en) * | 2007-05-04 | 2011-10-04 | Foneweb, Inc. | Speech controlled services and devices using internet |
-
2009
- 2009-02-03 US US12/364,927 patent/US8417523B2/en not_active Expired - Fee Related
-
2010
- 2010-01-19 KR KR1020117020568A patent/KR20110127180A/ko not_active Application Discontinuation
- 2010-01-19 WO PCT/IB2010/000186 patent/WO2010089645A1/en active Application Filing
- 2010-01-19 RU RU2011136720/08A patent/RU2011136720A/ru unknown
- 2010-01-19 EP EP10713502A patent/EP2394267A1/en not_active Withdrawn
- 2010-01-19 JP JP2011548797A patent/JP2012517174A/ja active Pending
- 2010-01-19 SG SG2011055753A patent/SG173511A1/en unknown
- 2010-01-19 CN CN2010800147504A patent/CN102369568A/zh active Pending
- 2010-02-01 TW TW099102886A patent/TW201034004A/zh unknown
-
2011
- 2011-08-03 IL IL214424A patent/IL214424A0/en not_active IP Right Cessation
-
2013
- 2013-04-08 US US13/858,888 patent/US20130226579A1/en not_active Abandoned
- 2013-04-08 US US13/858,905 patent/US20130226575A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
IL214424A0 (en) | 2011-09-27 |
SG173511A1 (en) | 2011-09-29 |
WO2010089645A1 (en) | 2010-08-12 |
KR20110127180A (ko) | 2011-11-24 |
CN102369568A (zh) | 2012-03-07 |
RU2011136720A (ru) | 2013-03-10 |
JP2012517174A (ja) | 2012-07-26 |
US20130226579A1 (en) | 2013-08-29 |
US20100198595A1 (en) | 2010-08-05 |
EP2394267A1 (en) | 2011-12-14 |
US20130226575A1 (en) | 2013-08-29 |
US8417523B2 (en) | 2013-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201034004A (en) | Systems and methods for interactively accessing hosted services using voice communications | |
US11276400B2 (en) | User-programmable automated assistant | |
US9214154B2 (en) | Personalized text-to-speech services | |
CN101207656B (zh) | 用于动态切换模态的方法和用于提供文本交换服务的系统 | |
CA2293780C (en) | Method of using a natural language interface to retrieve information from one or more data resources | |
KR101980173B1 (ko) | 서드 파티 테스크 공급자들의 서비스 제공을 대행하는 협력적 퍼스널 어시스턴트 시스템 및 그에 따른 방법 | |
CN101341482A (zh) | 声音启动的网络操作 | |
US20210056970A1 (en) | Method and system for context association and personalization using a wake-word in virtual personal assistants | |
CN102017513A (zh) | 基于开放体系结构的依赖于域的实时多语种通信服务 | |
CA3158088A1 (en) | Systems and methods for dialog management | |
US20080095331A1 (en) | Systems and methods for interactively accessing networked services using voice communications | |
JP2020003772A (ja) | 顧客要求サービスのための音声対話方法及び装置 | |
CN109189502A (zh) | 一种基于即时通讯公众平台的消息处理方法和相关设备 | |
US20230325442A1 (en) | Free-form, automatically-generated conversational graphical user interfaces | |
WO2020086107A1 (en) | Methods, systems, and computer program product for detecting automated conversation | |
US20140067401A1 (en) | Provide services using unified communication content | |
JP2024520659A (ja) | 対話型通信システムを動的にナビゲートするための方法、装置、及びシステム | |
US20080095327A1 (en) | Systems, apparatuses, and methods for interactively accessing networked services using voice communications | |
Oaks et al. | Guided interaction: A mechanism to enable ad hoc service interaction | |
JP7205962B1 (ja) | 自動対話のためのシステム | |
WO2022270603A1 (en) | A system and method for delivering domain or use-case switch suggestion for an ongoing conversation | |
JP7229043B2 (ja) | 帰宅通知サービスの提供方法、サーバシステム及びプログラム | |
JP4813798B2 (ja) | ネットワークのオーディオデータを処理する方法およびその方法を実行する装置 | |
Artola et al. | A Modular Architecture for Multi-Purpose Conversational System Development | |
Demesticha et al. | Aspects of design and implementation of a multi-channel and multi-modal information system |