TWI353585B

TWI353585B - Computer-implemented method,apparatus, and compute

Info

Publication number: TWI353585B
Application number: TW094131515A
Authority: TW
Inventors: Soonthorn Ativanichayaphong; Charles W Cross Jr; Gerald M Mccobb
Original assignee: Nuance Communications Inc
Priority date: 2004-09-20
Filing date: 2005-09-13
Publication date: 2011-12-01
Also published as: CN1752975A; US7953597B2; TW200630957A; US20060074652A1; US7739117B2; CN1752975B; US20060064302A1

Description

1353585 九、發明說明：【發明所屬之技術領域】本發明係關於多模式瀏覽器及聲音伺服器，且更特定言之，係關於用於多模式瀏覽器及聲音伺服器之聲致多模式應用程式。【先前技術】許多以資料描述可延伸性標記語言（XML)為基礎之新近發展已開發出新的基於網路之應用程式，其包含多模式介面或瀏覽器。多模式瀏覽器允許使用者存取多模式内容，該内容可為圖形的及音訊的兩者。傳統上，使用者利用自鍵盤之圖形輸入或手動導向之螢幕指標入口來存取網路内容。之後，使用者亦能夠利用語音輸入。更近地，使用者已能夠經由允許使用圖形輸入及語音輸入兩者之多模式介面來存取網路内容。可延伸性超文字標記語言（XHTML或XML)+聲音可延伸性標記語言（VXML)，亦更簡明地表示為X+V標記語言，提供一種類型之多模式瀏覽器。X+V標記語言擴展傳統圖形瀏覽器，使其包含話語互動。X+V標記語言整合 XHTML·及XML·事件技術與被發展為全球資訊網協會（W3C) 語音介面構架之部分的XML字彙。該整合包含支持語音合成、語音對話、命令及控制應用程式，及語音文法之多個聲音模組。聲音處理程序可附著於XHTML元素且回應視覺瀏覽器之多個特定文件'物件模式（DOM)事件。儘管有該等發展，但是在以習知方式實施之多模式介面 104804.doc 丄353585 中並不存在許多使用者所要之性能，諸如基於語音發言而填入表袼欄位之使用者友好性能。要求使用者輸入之表格已邊彳于普遍。舉例而言，通常使用者在被授予進入安全網站之存取特權之前必須完成一表格。輸入表格資訊可為單調乏味、耗時甚至令人煩擾的。對於自各種網站反覆存取内容之使用者而言尤其如此，每一該等網站在允許存取之 • 前均要求基於表格輸入使用者資料。此外，使用者可能正 • 使用一裝置來存取具有有限或不便之輸入選項之網路内谷舉例而έ，電話、行動電話、個人數位助理（pDa)或相似之裝置通常僅包含一有限陣列之鍵、一極小之鍵區或只有一聲音輸入機構。因此，希望擴展多模式瀏覽器以提供聲致表格欄位之自動填入之有效方式。【發明内容】本發明提供-用來回應語音發言而自動填人—表格攔位之電腦實施方法。該方法可包含產生至少一對應於該表格 Φ 棚位之文法之步驟。該文法可基於一使用者資料楷且可包含一語義解譯串。_方法可進一步包含創建一事件之步驟。該事件可基於該i少一文法且可回應該語音發言。該事件可促使用對應於該使用者資料標之資料來填入表格搁位。根據另-實施例，本發明提供一用來回應—語音發言而自動填入一表格欄位之電腦系統。該系統可包含一產生至少一對應於該表格欄位之文法之文法產生模組。該文法可基於-使用者資料稽且可包括—語義解譯串。該電腦系統 104804.doc 1353585 . 亦可包含一創建一基於該至少一文法且回應於該語音發言之事件之事件模組。該事件可促使用對應於該使用者資料檔之資料填入該表格欄位。【實施方式】圖1係說明多模式通信環境1〇〇之示意圖，根據本發明之用於回應語音發言而自動填入表格欄位之系統2〇〇可用於其中。如所說明’多模式通信環境ι〇0可包含諸如自動語 Φ 音辨識（ASR)引擎14〇及本文至語音（TTS)引擎I45之多個語音處理資源，每一該等語音處理資源可經由一通信網路 150與系統200電通信。通信網路15〇可包含（但不限於）區域網路、廣域網路、公用交換電話網路、無線或行動通信網路或網際網路。例示性地，系統200亦能夠經由另一或同一通信網路150與電腦系統155及電話16〇電通信。自以下描述將易瞭解’所說明之多模式通信環境1〇〇僅係系統200有利地用於其中之多模式通信環境之一類型。馨舉例而σ，替代性多模式通信環境可包含例示性展示之不同組件之各種子集。另外參看圖2 ’系統200例示性地包含一應用程式205及一應用程式介面（ΑΡΙ)210，該應用程式經由該應用程式介面鏈接至一解譯器211。在解譯器211中，系統2〇〇亦例示性地包含一文法產生模組215及一經由ΑΡΙ 21〇連接至應用程式205之事件模組220。文法產生模組21 5及事件模組22〇可在與應用程式205相同之位址空間内運行。該系統亦包含一連接至語音瀏覽器之語、音服務介面221。更一般地， 104804.doc 1353585 語音服務介面221可連接至諸如音訊子系統之各種音訊資源（未圖示）及諸如自動語音辨識（ASR)引擎及本文至語音 (tts)引擎之語音處理資源中之任—者。因此，系統2⑽可充當伺服器，其用作諸如聲音瀏覽器、互動聲音回應系統、聲音伺服器或其它類型之應用程式之一或多個應用程式之主機。舉例而言，應用程式205亦可充當待聲音致能 • 或語音致能之視覺瀏覽器。 φ 系統200另外包含一剖析模組217 ,其剖析一以

VcnceXML寫入之文件且判定該文件在使用者資料檔域中疋否含有一同步聲音攔位。本文中所用之術語同步聲音攔位表示#1由使語音輸入與圖形輸入同步而填入之表格搁位。如下文描述’該同步導致回應於語音輸人而用形輸入填入該表格欄位。在本文中使用術語使用者資料標域來表示待用對應於使用者資料標之資料填入之多個表格搁位，該使用者資料檔表示，例如，對應於使用者之個人資料。 φ 此個人資訊可包含使用者之姓名、地址及電話號碼。其它類型之資料可替代性地包含於使用者資料權中且可為相應牮致自動填入之主體而不會改變如本文中所描述之本發明。在本文中，使用者資料檔例示性地包含關鍵字、標 ««己短及值如表丨中之代表性使用者資料檔方案所展示0 104804.doc 1353585 關鍵字標記短語值 "名" "我的名" "Gerald" •，姓" "我的姓" "McCobb" "地址" ”我的地址” "8051國會大道" 表1 API 210提供—實施諸如x+v<Sync>元素之同步元素之

VoiceXML攔位文法。由voiceXML攔位文法實施之同步元素使諸如XHTML輸入控制之圖形輸入控制之值性質與同步聲音欄位同步。如上所述，在本文中，同步聲音攔位界定將由系統200自動填入或已由系統2〇〇自動填入之表格欄位。文法產生模組215可包括VoiceXML解譯器。如圖3中說明，文法產生模組215自使用者資料檔獲得標記短語及將被自動填入已識別表格欄位之特定一者中之對應值。文法產生模組215產生一表示為自動填入文法之額外文法，其基於標記短語且具有包含對應於標記短語之值之語義解譯 ⑽串或標記（tag) „該文法產生模組對由剖析模組217識別為使用者資料檔域中之同步聲音攔位之每一表格攔位執行此操作。因此，文法產生模組215產生—對應於每一表格欄位之同步聲音攔位之自動填人文法，該文法基於使用者資料檔且包含SI串或標記。當表格解譯演算法（FIA)存取該等經如此識別之表格棚位之一時’文法產生模組215致能自動填人文法以及由絕 210提供之V〇iceXML攔位文法。當自動填入文法及 104804.doc 1353585 wceXviL攔位文法得以致能時，事件模組22〇創建一基於言玄令·:冬 . *之自動填入事件。該事件係經組態以回應語音發言。自動填入事件回應語音發言而促使執行SI串或標記，以使得執行之結果係對應於標記短語之值。自動填入事件使该結果得以傳播，且由voicexML攔位文法實施之同步元素用SI串或標記執行之結果填入網頁之表格欄位中。因此，該事件回應語音發言而促使用包含於語義解譯串中之值填入表格欄位。圖4係根據本發明之另一實施例之用於回應語音發言而自動填入表格攔位之系統300的示意圖。該系統包含一應用程式305及一解譯器312，該應用程式與該解譯器經由一 API 310連接。該系統亦包含一文法產生模組3 15及一事件模組325。如所說明的，該文法產生模組3 15與該事件模組 325為該解譯器312之部分。應用程式305可產生VoiceXML片段330並將其傳送至解譯器312。VoiceXML片段330可指定一可用來處理已接收之語音發言之文法。在多模式互動致能多個裝置之情況下，視需要可包含一組態襠案320以指定諸如電話、行動電话、家庭安全系統、儀錶.板音訊/通信系統、電腦系統、攜帶型電腦系統之一或多個不同裝置。在組轉樓案 320内，可為每一裝置指派唯一地識別該裝置之識別符。在一實施例中，於使用解譯器312暫存VoiceXML片段33〇之前，應用程式305可存取組態檔案320，以獲得正被使用 104804.doc 1353585 之裝置之識別碼。系統300利用命令、控制及内容導航標記語言（C3N)，其中應用程式305以該語言使用解譯器312暫存基於諸如

VoiceXML<link>之C3N文法之VoiceXML·鏈接。藉由使該鏈接中之文法匹配所產生之多個事件（如圖所示）被傳播回至應用程式305。藉由指定基於C3N文法且由C3N鏈接文法表示之一或多個鏈接元素，可使至應用程式3〇5之語音輸入匹配。意即，解譯器312可用C3N鏈接文法來使自應用程式3 0 5接收之語音輸入匹配。當偵測到匹配時，解譯器 312可產生一或多個事件，其被傳送回至應用程式3〇5。更確切地說’如圖5中說明的，當需要自動填入時，文法產生模組315產生C3N鏈接文法。C3N鏈接文法係基於使用者資料檔。應用程式305隨後指示解譯器312添加鏈接文法。C3N键接文法促使事件模組325創建自動填入事件。當回應语音發言而勢行該事件時，該事件促使來自使用者資料檔之圖形輸入填入表格攔位。’ 舉例而言，假設如上所述之相同使用者資料檔，以下基於VoiceXML之應用程式使用要素、標記短語元素及值元素來產生根據本實施例之文法： 104804.doc •12· 1353585

<vxml :link eventexpH-"application.lastresuIt$.interpretation.c3n> 〈grammar〉 <![CDATA[ #JSGFVl.t) grammar user_profile; public <user_profile> + Browser fill [my] ( fi^st name {$.c3n = "command.autofill.firstnaine":} I last naihe {$.έ3η 亡"command.aut.ofilUastiiame";} I street address. {$.c3n = "command.aut6filladress";} • " . ]]> </grammar> 使用包含於對應SI串或標記之一部分中之標記短語及對應關鍵字來建立該文法。該文法例示性地經構建以便匹配諸如”填入我的街道地址"之短語。VoiceXML鏈接回應語音發言而促使一事件得以傳播。系統300藉由搜尋使用者資料檔以獲得該地址之值而回應該事件，其被解譯為自動填入命令。回應之結果為用值"8051國會大道"自動填入表格欄位。圖6提供說明根據本發明之又一實施例之方法400的流程圖。該方法400在步驟410處開始，在該步驟410中剖析一文件以判定X+V文件在使用者資料檔域中是否含有同步聲音攔位。在步驟412處為每一攔位產生一 VoiceXML欄位文法。在步驟414處，產生一基於使用者資料檔之標記短語及 104804.doc •13- 叫585 對應值之自動填入文法，該值包含在一51串或標記中。在步驟416處’致能VoiceXML欄位文法及自動填入文法。回應語音發言’在步驟418處執行SI串以使得結果為包含於 SI串或標記中之值。在步驟420處，用該結果自動填入一視覺欄值。

圖7提供說明根據本發明之又一不同實施例之方法5〇〇的流程圖。在步驟5〇2中，創建一具有對應於使用者資料檔之攔位之鏈接文法。在步驟5〇4處，一解譯器添加該鏈接文法。該鏈接在步驟506處回應語音發言且當網頁中一攔位受到關注時產生一事件。

本發明可在硬體、軟體或硬體與軟體之組合中實現。本發明可在電腦系統中以集中樣式實現，或以分散樣式實現，其中不同元件遍佈於若干互相連接之電腦系統。任何 —種電腦系統或其它經調適以執行本文中描述之方法之裝置係適宜的。硬體與軟體之典型組合可為具有電腦程式: 通用電知系統，當載人並執行該電腦程式時，其控制電糸統以使電腦系統執行本文中描述之方法。本發明亦可體現於電腦程式 ^ ^ 〇 ^ 能本文中描述之方法之實所有致時能夠執行該等方法。電m统 , 式在本文中意謂一組指令之任何表達（以任何語言、 7之 . J辱或記數法表達），該組指令

思欲使具有資訊處理能相V 丁本_ 之系統直接執行特定功能哎在以

下步驟之任一者或兩者後此次在U t m… 後執仃特定功能、)轉換至另-达。私式碼或讀法：如Μ㈣形式複^ - 104804.doc 1353585 本發明可體現於其它形式中而不會背離其精神或本質屬性。因此，當指示本發明之範疇時，需參考以下申請專利範圍而不是前述之說明書。【圖式簡單說明】圖1係說明一多模式通信環境之示意圖’根據本發明之一實施例之系統可用於其中。

圖2係根據本發明之一實施例之系統的示意圖。圖3係由圖2之系統執行之操作之示意圖。圖4係根據本發明之另一實施例之系統的示意圖。圖5係由圖4之系統執行之操作之示意圖。實施例之方法的流程圖。圖6係說明根據本發明之_ 實施例之方法的流程圖圖7係說明根據本發明之另— 【主要元件符號說明】 100 多模式通信環境 140 自動語音辨識引擎 145 本文至語音引擎 150 通信網路 155 電腦系統 160 電話 200 聲致自動填入系統 205 應用程式

210 API 211 解譯器 215 文法產生模組 104804.doc -15* 1353585 217 剖析模組 220 事件模組 221 語音服務介面 300 聲致自動填入系統 305 應用程式

310 API 312 解譯器 315 文法產生模組 320 組態檔案 325 事件模組 330 VXML 片段

-16· 104804.doc

Claims

1353585 第094131515號專利申請案 --- 中文申請專利範圍替換本(1〇〇年5月） I⑽年Γ护Ο日修正本十、申請專利範圍： --：一一 1. 一種在一多模式通信環境中用來回應一語音發言而自動填入表格攔位之電腦實施之方法，該多模式通信環境具有一實施一 XHTML+VXML(X+V)標記語言之網頁瀏覽器’該方法包括： /析一 X+V文件以決定一使用者資料檔域中的同步聲音欄位’其中—时聲音攔位參照—表格攔位，該表格欄位㈣語音及圖形輸人之同步來填人該表格欄位，且 • 一使用者資料檔域參照，將被填入對應-使用者資料標之資料的表格欄位；對於每個被決定之同步聲音攔位，在運作時動態地產生至少一對應於該表格欄位之文法，該至少一文法係基於一使用者資料檔，且包括一語義解譯及創建—基於該至少一文法且回應於該語音發言之自動填入事件，該自動填入事件促使以對應於該使用者資料 Φ 檔之資料填入該表格攔位並包含至少一部分不在該語音發言之資料。月长項1之方法，其中填入該表格欄位之該資料係擷取自-特定針對該使用者資料檔之表之一記錄該記錄在該資料與該語音發言之間建立一關聯。求項1之方法，其中填入該表格攔位之該資料包含除包含於該語音發言之—語音至本文轉換内之資訊以外之資訊。 (如請求们之方法，其中該產生至少一文法包括產生至 104804-1000520.doc 少 _ 古、法’該至少一文法界定一對應於該同步聲音表格櫚位之表格爛位文法。。月求項4之方法’該產生至少一文法包括另外產生一土於&§己短語及一包含於該語義解譯串中之值的自動填入文法。立月长項5之方法，其中該自動填入事件促使回應該語 θ發言’以包含於該語義解譯串中之值填入該表格欄仇。如叫求項1之方法，該產生至少一文法包括產生一聲音 8命7及控制文法以及一内容導航文法中之至少一者。如4求項1之方法，其中該表格欄位係一聲音標記語言文件之一表格欄位，且其中該產生步驟包括產生至少一文法忒至少—文法界定一對應於該表格欄位之鏈接文法。 9.—種在H切信環境巾用細應-語音發言以自動 :入-表格欄位之裝置，該多模式通信環境具有一實施 HTML+VXML(X+V)標記語言之網頁潘j覽器，該裝置包括一硬體及軟體之組合來實施〜-用來剖析_x+v標記語言文件之剖析模組，用來決疋该x+v標記語言文件是否包含—參照-表格棚位之同步聲音攔位，該表格欄位利用語音及圖形輸入之同步來填入該表格欄位’且__使用者資料檀域參照將被填入對應一使用者資料檔之資料的表格欄位；在運作時用來動態地產生至少一個對應於每個決定 I04804-I000520.doc •2· 1353585 之同步聲音攔位之文法之文法產生模組，該至少一文法係基於—使用者資料檔且包括一語義解譯串；及用來創建一基於該至少一文法且回應於該語音發言之自動填入事件之自動填入事件模組，該自動填入事件促使以對應於該使用者資料擋之資料填入該表格欄位並包3至少一部分不在該語音發言之資料。 I .如吻求項9之裝置，其中該文法產生模組包括一用來產生至少一文法之聲音標記語言解譯器，該至少一文法界定一對應於該同步聲音表格攔位之表格攔位文法。 II _如叫求項1 〇之裝置，其中該聲音標記語言解譯器另外產生一基於一標記短語及一包含於該語義解譯串中之值的自動填入文法。 12. 如請求仙之裝置中自動填人事件促使回應該語音發言，以包含於該語義解譯串中之該值填入該表格攔位。 13. 如請求項9之裝置，其中該文法產生模組包括一經組態以產生一聲音標記s吾言鍵接文法之谬j覽器。 14. 如請求項13之裝置’其中該自動填入事件係—回應於該鏈接文法之聲音標記語言自動填入事件，且該自動填入事件促使該瀏覽器以將對應於該使用者資料檔之資料填入該表格糊位。 15. —種用於一資料通信網路中之電腦可讀儲存媒體，該電月®可讀儲存媒體包括多個電腦指令以供：剖析一X+V文件來決定一使用♦資料_中的同步聲 104804.1000520.doc 1353585 曰糊位’其中-同步聲音欄位參照—表格爛位該表格攔位利用βσ a及圖形輪人之同步來填人該表格棚位且吏用者資料播域參照將被填入對應一使用者資料播之資料的表格攔位；對於每個被決定之同步聲音欄位，在運作時動態地產生至少-對應於該表格欄位之文法，該至少—文法係基於一使用者資料檔’且包括-語義解譯_ ;且創建-基於該至少一文法且回應於該語音發言之自動填入事件，該自動填人事件促使以對應於該使用者資料檔之資料填入該表格欄位並包含至少_部分不在該語音發言之資料。曰 16. 17. 如請求们5之電腦可讀儲存媒體，其中填人該表格搁位之该貧料係操取卜特定針對該使用者資料稽之表之一記錄’該記錄在該資料與該語音發言<間建p關聯， ^其中填人該表格欄位之該f料包含除包含於該語音發 s之一浯音至本文轉換内之資訊以外之資訊。如請求項15之電腦可讀儲存媒體，其中該產生至少— 法包括-用來產生至少一文法之電腦指令，該至二：文法界定一對應於該同步聲音表格糊位之表格搁位:法文 104804-1000520.doc • 4 -