TW200809769A - Sharing voice application processing via markup - Google Patents
Sharing voice application processing via markup Download PDFInfo
- Publication number
- TW200809769A TW200809769A TW095144896A TW95144896A TW200809769A TW 200809769 A TW200809769 A TW 200809769A TW 095144896 A TW095144896 A TW 095144896A TW 95144896 A TW95144896 A TW 95144896A TW 200809769 A TW200809769 A TW 200809769A
- Authority
- TW
- Taiwan
- Prior art keywords
- client
- server
- client device
- user
- voice
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000008569 process Effects 0.000 claims abstract description 8
- 230000004044 response Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000036541 health Effects 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 2
- 238000013515 script Methods 0.000 abstract 4
- 238000004891 communication Methods 0.000 description 10
- 230000011218 segmentation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000009304 pastoral farming Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
Description
200809769 九、發明說明: 【發明所屬之技術領域】 本發明係關於在一主從式環境中處理語音應用 【先前技術】 如在網際網路之普遍使用中所證明,近年來以電子方 可用之資訊及服務已有巨大發展。通常,使用者藉由⑽ 如)使用鍵盤或觸控螢幕鍵入資訊且在視訊顯^上 結果而與系統互動。然而,允許使用者口頭輸入資訊之交 談式糸統愈加可用。可將系統輸出聽覺提供至使用者。該 等交談式“允許制者❹在活動㈣時獲得資訊及^ 務,從而使使用者雙手空閒以進行其他任務。 交談式系統要求話音辨識以理解使用者且要求話音 從而以類似於人類之語音來再現資訊。通常,該等II在 電話基礎架構中執行4中用戶端裝置為諸如行動: 電話器具。最初,該等交談式系統與㈣戶端裝置―同工 作且因此所有話音處理(辨識及合成)皆在與唯用戶端通信 =服器中執行。然而’掌上型用戶端之處理能力的提高 使仔話音處理(辨識以及合成)在用戶端侧處變得可行。 在-些交談式系統中,話音辨識之部分在用戶端裝置上 ^里°山術語"分散式話音辨識”用來指代允許應隸式組合 土戶端裝置上的本端話音處理與對基於網路之話音服務之 =存取的系統。舉例而言,諸如雜訊減少之信號處理可 ==端裝置上執行,該用戶端裝置接著發送所處理之資 枓至基於網路之話音服務。x,話音服務處理所接收之信 116441.doc 200809769 號以判定使用者之諳、戈 # /使用語音輸出來回應使用者。 一用用戶、之處理能力的另一已知技術為篏 文子轉語音(eCTTS),其中話立八赤 ,,月31 行。將話音片段伴持為斤缩 77在用戶端處進 話音。Χ保持為屋縮特徵向量,其可重新建構回為 ^另-已知方法中’交談式系統可完全常駐 =話音辨識處理在本端執行。由於用 = 限之處理能力,因此僅非常 [、有有 上執行。 又火式系統可在該等裝置 不管現有技術如何,仍存在對用於處理語 更有效且通用之系統的不斷需求。 -知式之 【發明内容】 對靈活機制,其中基於用戶端之計算能力使--“方塊㈣之計算得以在用戶端料 ” 一標記層處執行分散且該方法致能可由用戶端 指令碼。 尸鲕哀置執订之 中=:之第一態樣’提供了一種在主從式計算系統 十算^上處理語音應用程式之方法。接收指示用戶端 使㈣料。基於該所接收之資料,選擇規定在- 戶端ϋπ統之間的一基於語音之對話方塊中待由用 = 務的一組指令。將該組指令提供至用戶端以 中=!Γ另一態樣’提供了一種在主從式計算系統 ;用戶^置上處理語音應用程式之方法。自飼服器接 116441.doc 200809769 收一指令碼,該指令碼係視指示用戶端裝置之計算能力的 資料而定而加以選擇的。剖析指令碼以判定在使用者與主 從式計算系統之間的一基於語音之對話方塊中待由用戶端 裝置執行的一組指令。在用戶端裝置上執行該等指令。 根據本發明之另一態樣,提供了一用於在主從式計算系 統中處理語音應用程式之伺服器。該伺服器首先包含用於 接收指示該用戶端之計算能力之資料的構件。該伺服器亦 具有用於基於所接收之資料選擇規定在一使用者與計算系 統之間的-基於語音之對話方塊中待由用戶端執行之任務 的一組指令之構件。該伺服器亦具有用於將該組指令提供 至用戶端以供執行之構件。 統中處理語音應用程式之用戶端裝置 。該用戶端裝置包含
之構件及用於在用戶端裝置上執行指令之構件。 根據本發明之另一態樣,提供了一用於在主從式計算系 根據本發明之另一態樣,提供了一 一包含記錄於機器可讀
根據本發明之另一態樣,提供了 包含記錄於機器可讀 116441.doc 200809769 取記錄媒體上之機器可讀取程式碼的電腦 於控制程式碼執行於其上 “產’其用 八上Μ執仃在一主從式計 理語音應用程式之方法的用…处 上文所述之步驟。 ^置之知作。該方法包含 =發明:又一態樣’提供了一用於處理語音應用程 端n广、統包含一用戶端裝置’其具有指示該用戶 衣置之计舁能力的相關聯資料。該系統進—步包含資料 Γ子器,其儲存規定在—❹者與㈣統之間的-基於語 曰之料方塊中待執行之_的複數個指令碼。另外存在 伺服盗’其基於該相關聯之資料而選擇一用於用戶端裝 之適當指令碼。-解譯器層處理所選指令碼從而為對話 方塊判定待執行於用户端裝置上之第-組指令及待執行於 伺服器上之第-細於人 ^ , 、 之弟一,、“曰令。一同步層使第一組指令及第二組 指令之執行同步。 【實施方式】 本文所描述之技術提供_ 在1戶端與飼服器之間分 擔對話方塊處理之靈活機制。致能可執行於用戶端處之指 :碼。在所描述之配置中,伺服器能夠存取各種版本之指 令碼,其中每一版本經特製而用於一對應之裝置設定檔。 圖1展不了一具有用戶端裝置10及伺服器20之系統1。如 所說明’用戶端裝置1〇為一行動電話手機。然而,用戶端 10可為具有計算資源之任何具備語音功能型裝置。舉例而 。,用戶端裝置10可為個人數位助理(pDA)或通用電腦, 其具有使該電腦能夠偵測口頭輸入且提供可聽輸出之一麥 H6441.doc 200809769 克風及-或多個揚聲器。用戶端裝置具有足夠處理能力以 執行一嵌入式話音辨識引擎。 此 ^ 用戶端裝置10(例如)經由蜂巢式電話網路傳輸資訊1 伺服器20,且自伺服器20接收資訊14。下、σ 「又參看圖3論述 祠服器20及用戶端裝置10之硬體結構。 伺服器20包括一話音伺服器24及一語音瀏覽器u。咳节 音伺服器24執行自動話音辨識(ASR)以將自用戶端裝置⑺ 之使用者接收之請求轉換為更適於進一步處理之袼式。自 用戶端裝置10接收之資料12可包括話音且亦包括^訊輸 入,諸如雙音多頻(DTMF)鍵控輸入。 話音伺服器24亦使用文字轉語音(TTS)能力將資訊轉換 為音矾。該音訊連同資料14被發送回用戶端裝置丨〇。 語音瀏覽器22接收輸入資料12且輸出資料14。在使用類 似於圖1中所見之架構的先前技術系統中,語音瀏覽器u 僅為用戶端裝置10與話音伺服器24之間的管道。然而,在 當前所描述之配置中,語音瀏覽器22規定待執行於用戶端 裝置10上之對話方塊及/或話音處理。藉由基於用戶端裝 置之能力調適性地分擔處理,系統1藉由減少伺服器往 返程而提高效率。 伺服器20可使用超文字傳送協定(HTTp)設施26來存取資 訊及服務。如所說明,資訊及服務來源於資料儲存器3〇。 然而’實務上,存在使用系統1可存取之資訊及服務的許 多來源。HTTP設施26與資料儲存器30之間的通信鏈路28 可(例如)為網際網路或區域網路。鏈路28可簡單地為一點 116441.doc 200809769 對點連接。 自用戶端裝置10發送至語音瀏覽器22之資料12包括定義 用戶端裝置10之設定檔的話音、文字及參數。語音瀏覽器 22選擇一規定待於用戶端裝置丨〇上進行之處理的指令碼 (稱作”語音指令碼”)。因此,用戶端裝置1〇之能力及該語 音指令碼判定在伺服器20與用戶端裝置1〇之間處理之劃 分。語音指令碼之使用提供在判定哪些對話方塊係在用戶 端10上本端處理且哪一部分之話音處理發生於用戶端丨〇上 而非伺服器20上方面的靈活性。 自語音劉覽H22發送至用戶端裝置1()之資料⑽括語音 指令碼及話音。用戶端裝置1〇執行語音指令碼。話音祠服 器24不受在伺服器2〇與用戶端裝置1〇之間處理任務之分散 的影響。 在一配置中Μ吏用語音可延伸性標記⑼&乂紙)來撰寫 語音指令碼。V〇iceXML為基於XML之指令碼語言,其獲 邊可為互動式具備語音功能型應用程式之標準。 XML提# _用於基於音訊對話方塊來撰寫語音應 用私式之平$獨立语言。存在兩種主要類型之對話方塊。 表格呈現資訊並荒集輸人,且功能表呈現—組選擇。 圖2為在用戶端1〇與伺服器2〇之間靈活地分擔處理之方 法之流程圖。在步驟202中,用戶端1〇與伺服器2〇通信, 從而提供定義用戶端奘筈t 表置10之此力的參數。伺服器2〇可於 呼叫建立時間被告知用戶端之能力,或替代地伺服器2〇可 已被通知用戶端之能力。舉例而言,資訊可與電話號碼相 116441.doc 200809769 關聯以告知飼服器20該電話號碼係由一具有特定能力之用 戶端裝置使用。 描述用戶端能力之參數包括可用記憶體之量、處理能力 及電池電力。亦可使用其他參數,包括識別某些硬體或軟 體資源(諸如程式或協定)可用於用戶端上之資料。 在步驟204中,伺服器使用參數以判定用户端裝置⑺之 設定檔。在步驟206中,㈤服器2〇選擇一適當語音指令碼 且將所選指令碼發送至用戶端裝置1〇。伺服器能夠存取複 數種語音指令碼,每一者經特製以用於一特定裝置設定 檔m令碼規定待於用戶端1G處進行之對話方=及 :或話音處理’且亦規定哪些部分可於伺服器20處執行。 活音辨識擎已安裝於用戶端裝置10上,且指令碼定義為 了執行而使用話音辨識引擎之處理步驟。 用戶端裝置10剖析語音指令碼(步驟2〇8)且在步驟 中’用戶端裝置10完全或部分執行語音指令碼。用戶端裝 置10解譯指令碼以判定需進行哪些任務及以何次序進行。、 二:裝置Η)接著如指令碼要求來執行所規定之話音辨識 入=任務。舉例而言,語音指令碼可規定用戶端裝置需 ; 提示且向使用者播放該提示。用戶端褒置呼叫話音 口成弓I擎以合成該提示。接著’用戶端裝置接收使用者之 員回應且使用話音辨識系統來處理該回應。來自使 應之文法提供於指令碼中。話音辨識系統之輪出 ^疋如語音指令碼中所規定的所執行之下一步 歸因於執行時期約束, h ° 1 ^用戶鈿裝置10可未必能夠支持語 ^6441.(10, -12- 200809769 音指令碼所規定之計算。用戶端ίο可接著選擇表現為一啞 用戶端。在此情況下,主從式交換支持所要求之多重互 動。 在一配置中,語音指令碼由用於對話方塊及話音之 Javascript™組成。發送至用戶端裝置10之語音指令碼提及 可在用戶端裝置上進行之動作。語音指令碼包括裝置敏感 構造,使得藉由剖析指令碼用戶端可判定可在用戶端上進 行之處理。語音指令碼包括對話方塊處理所要求之文法構 造及話音處理所要求之話音構造。語音指令碼之構造亦包 括一 ’’任選模態”以用於區分分類為”必須具有”或”可具有’· 之文字,且用於識別分類為π必須具有’’之話音。 語音伺服器之語言為VXML之延伸,其支持在伺服器20 與用戶端裝置10之間分散處理之特徵。該語言含有標記標 示,其並未以VXML定義且由剖析器使用以自延伸VXML 產生VXML伺服器及VXML用戶端。下文描述了一些額外 標記。 1. <Block process = ,,client/ServerM splitblock=ff25M> 若存在一待處理之大區塊,則使用此。代替在伺服器20 或用戶端10上處理該大區塊,延伸語言提供特徵以將區塊 分割為兩個部分且接著分別在用戶端及伺服器上處理該兩 個部分。此處,splitblock=n25n意謂區塊之開始的25個字 元將於用戶端裝置10上處理且剩餘字元將於伺服器20上處 理。 2. <merge source=,fclient,? destination=ffservern> 116441.doc -13- 200809769 若存在需由用戶端裝置10提示之問題,則該等問題可視 用戶端之設定檔而定而被合併。用戶端10之設定檔包括關 於可用記憶體之量及用戶端10上之使用者是否匆忙的資 訊。若使用者為匆忙的,則該等問題可合並且可按照規格 由用戶端或伺服器詢問。可存在用於合併之其他標準。 3.<split source=nClient or Server” destination="client,,> 若存在伺服器20或用戶端i〇經π次嘗試而未辨識之任何 問題,則可將該問題分割為不同提示。該等問題如在目的 厂 地中所規定由用戶端裝置1〇或伺服器20詢問。可存在用於 分割之其他標準。問題之基本文法(巢套或連續)在判定分 割中起作用。 在巢套文法之情況下,一般最後之答案而非所有答案需 返回至伺服器以分割提示。 巢套文法之實例: a·哪一州? b ·哪一城市? c·哪一機場? 若需進一步提交答案,則僅最後之答案可為所關心的, 因為目的在於判定哪一機場。整個問題歸因於記憶體約束 而被分割為三個小文法。 在連續文法之情況下,使用者不僅對最後問題之答案感 興:,而且亦對整個問題之每一部分的答案感興趣。在某 種分割之後,必須在最後連接且儲存與每一子部分相關之 答案以產生與在伺服器本身處辨識整個文法等效之效應。 116441.doc -14- 200809769 連續文法之實例: a.名為何? b·姓為何? C·地址為何? 在此情況下吾人關心完整答案,因為所合併之問題為 "你想要何人之電話號碼且此人在何位置?”對此之一答案 可為(在辦公室的Nitendra Rajput)。 與分割及合併相關之不同可能性 1)在伺服器20處辨識整個問題且與該問題相關之整個大 文法不需分割。 2) 將該問題劃分為若干小部分且話音辨識在用戶端處進 仃。每次將與提示相關之文法傳送至用戶端裝置1〇。在巢 套文法之情況下文法視使用者所給出之答案而定,但在連 ’ ’、只文法之情況下,所傳送之文法可獨立於答案或可視使用 者所給出的較早答案(例如,布林(Boolean)答案)而定。 3) 另-可能性可為若干小部分中之—些部分在伺服器2〇 處得到辨識且其他部分在用戶端裝置1〇處得到辨識。在此 配置中,將與待於用戶端1G處辨識之問題相關的文法傳送 至用戶端。 飼服)送文法中存在一潛在問題。即使用戶端1〇無需向 任何東西,接著用戶端仍將需要返回飼服器 吏㈣服器可視早先答案而定來 加用戶端!。之時間回應。因&,若用戶二:二此將: 來處理所有文法,則應將所有文法==充足記憶體 丁 〇负又忐傳达至用戶端以防止用 116441.doc 15 200809769 戶端需要返回伺服器以使適當之文法得以運送。 實例: a ·哪 一 j ? b·哪一域市? 在此情況下’第二個問題獨立於第一個問題。因此五人 :將所有辦之所有城市之文法保持於用戶端若:戶 端之能力允許此)而非基於對先前問題之回答 個問題之適當的文法。 疋乐一 5)在理想狀態中,飼服器2G之記憶體為有效地無窮大, 因此任何數目之問題可合併於舰㈣上 端裝置H)處,考慮到用戶㈣之記憶體約束㈣ :。提不之若干合併組合係可行的。此意謂若向用戶端二 I:複數個問題以合併,則並非所有問題在用戶端處:被 實例: a·你的姓名為何? b ·你的地址為何? c·你父親的姓名為何? 。然而,考慮到 問題之第一者及 發送此等三個問題以於用戶端1〇處合併 用戶端1〇之記憶體約I,可能僅合併該等 最後一者。 6)分割/合併無需基於用戶端1〇之記憶體約束而 他可能考慮包括對"無匹配"之數目的計數,t進行。其 之數目的計數。若使用者心,則可 #對'’無輸入" 〇併,且若使用 116441.doc • 16 - 200809769 者不能夠處理大問題而僅寧可回答小 〜 〜1進行分 割。为割可基於使用者所提供之資訊而進行。舉例而一 若使用者提供比相應提示所要求的更多之信息,則 分割。 、進仃 實例: a ·你的姓名為何? b·你的姓氏及出生日期為何? 若使用者對於第一個問題之答案為"Neeraj
Chaudhary ’則可將第二個問題分割為兩個部分且僅將詢 問"你的出生日期為何? ”。 附錄A包括以延伸VXML語言之樣本程式。如所說明, 該樣本程式可經剖析且劃分為可分別執行於伺服器2〇與用 戶端裝置10上之兩個部分。 通信層(同步協定) 圖4β兒明了 -用於使執行於用戶端1G與健㈣上之處 理同步的通信層。語音指令碼(亦即νχΜι^檔幻術在 。MLext解#器層中處理,該解譯器層包括解譯器之分解 器403及-組功能特定模組彻。解譯器層為由用戶端财 飼服器20所進行之剖析之部分。在_配置中,解譯器層可 為常駐於用戶端及伺服器兩者上之語音㈣器(亦即,一 用戶端語音劉覽器及-飼服器語音劉覽器22)之部分。 將功能料模組彻之輸出提供至—執行於㈣器獻 之伺服器引擎407及-執行於用戶端1()上之用戶端引擎 又引擎407、409與使主從式互動同步之同步器411 116441.doc -17· 200809769 U @步益411與執行於飼服器20上之瀏覽器碼413及執 用戶端ίο上之w览器碼415互動。同步器川連同劉覽 器碼413、415—起組成通信層。 ‘ 目的地π中規定一· /fig tv l , 、 兄疋個以上之值(以,V”隔開)時,第一個
值為·^父佳目的地。若禅fp又A 右知σ己不施夠在第一個目的地令執行, 則執行將於下一規定地址執行。 孤机仃。為此專初始值之組合的值 在執行序列中具有以下含義·· •用戶端/伺服器··執行於用 — 奶Μ丁 y用戶鈿上。若執行不成功, 則執行於伺服器上。 用戶端/部分/祠服器··執行於用戶端上。若執行不成 功則在用戶端上進行部分執行且剩餘執行在伺服器上進 行。若此亦不成功,則在伺服器上執行。 ^ 1戶端/分割··執行於用戶端上。若不成功,則將對 活方塊分割為子對話方塊且接著執行於用戶端上。
•用戶端/分割/伺服器:執行於用戶端上。若不成功, 則將對話方塊分割為子對話方塊且執行於用戶端上。若此 亦不成功,則於伺服器上執行該對話方塊。 用戶端/伺服器/分割:執行於用戶端上。若不成功, 則執行於伺服ϋ上。若此h成功,則將對話方塊分割為 子對話方塊且執行於用戶端上。若此亦失敗,則於祠服器 上執行子對話方塊。 •伺服器/用戶端:此值有效但僅對於及 block>^ 5己有意義。當用於,所合併之對話方 塊將執行於伺服器上且若此不成功,則將對話方塊分割且 116441.doc 18 200809769 接著執行於用戶端上。 字描述同v層以用於目的地值為"用戶端/分割/伺服器, 之情況。 在處理發生於用戶端10處之同時,飼服H 20處於等待模 式。若處理成功,則用戶端10撰寫,,成功”訊息且亦撰寫一 辨識串至待發送至伺服器2G之檔案。用戶端Μ接著移向 如VXMLext(吾音指令碼)4〇1中所規定將發生於用戶端μ 或祠服為20上之下一對話方塊。 右用戶端10處之處理不成功,則用戶端藉由使用執行於 用戶端上之適當模組彻來再次分割呼叫流而繼續。祠服 器20保持處於等待狀態。若用戶端1G處之所有步驟皆不成 功’則最終向飼服器20發送一"不成功"訊息且㈣辨識之 串設定為空串。處理接著在與用戶端1〇相比具有更好辨識 準確性及更好處理能力之伺服器2〇上繼續。 若第-次嘗試失敗,則飼服器2〇分割問題。在此情況 下,即使在伺服器20處對於辨識之嘗試失敗,用戶端⑺仍 需知曉祠服器之當前狀態。此倍、由於即使辨識發生於祠服 器20處,用戶端10仍具有記錄話音、發送該話音至祠服器 20及接著接收並播放合成話音之任務。 在所有處理發生於用戶端10上之情況下,如標記"目的 地"所允許,伺服器不具有任何作用且可保持待用直至已 在用戶端10上嘗試了每一件事。 由於通信層傳送所辨識之串,因此策略改變以用於連 接、連續及巢套呼叫流。 116441.doc -19- 200809769 a) · σ己住,在連接問題之情況下,所有答案應在連接之後 提交。 實例·你的姓名為何? 需連接以下三個部分: 1·你的名為何? 2·你的中名為何? 3 ·你的姓為何? b) .在巢套呼叫流之情況下,僅需提交最後一問題之答 案。 " 實例-吾人僅關心機場,但被詢問到以下巢套問題_ 1 ·哪一州? 2·哪一城市? 3.哪一機場? 〇·在連續呼叫流之情況下,需提交最後一問題之答案。 實例-吾人僅關心座位號 1·告知吾人在1與20之間、21與4〇之間、41與6〇之間、 61與80之間的座位號; 2 ·告知吾人你的座位號。 所遵循之用以使用戶端1〇與伺服器2〇同步的方法對於其 他目的地值(伺服器/用戶端、伺服器/用戶端/分割、用戶' 端/祠服器等等)而言係類似的,但事件發生之序列將視目 的地值而定而變化。 電腦硬艘 圖3為電腦系統300之示意性表示,該電觸系統3〇〇屬於 116441.doc -20^ 200809769 適於執行電腦軟體以在用戶端與伺服器之間分擔語音廣、用 程式之處理之類型。電腦軟體係在一安裝於電腦系統3〇〇 上之合適作業糸統下執行,且可被認為包含用於達成特定 步驟之各種軟體碼構件。電腦系統3〇〇可用作伺服器2〇。 使用下文所描述之修改,電腦系統300之結構亦可用於用 戶端裝置10中。 電腦系統300之組件包括電腦32〇、鍵盤31〇、滑氣315及 顯示器390。電腦320包括處理器34〇、記憶體35〇、輸入 /輸出(I/O)介面3 60、365、視訊介面345及儲存裝置355。 處理器340為執行作業系統及在作業系統下執行之電腦 軟體的中央處理單元(CPU)。記憶體35〇可包括隨機存取記 憶體(RAM)及唯讀記憶體(R〇M),且可在處理器34〇之指導 下使用。 視訊介面345連接至顯示器39〇且提供顯示於顯示器39〇 上的信號。例如,自鍵盤310及滑氣315提供用以操作電腦 320之使用者輸入。亦可伟用士矣 』便用4如麥克風之其他類型的輸 入。亦可使用一或多個揚簦 卓裔(未圖不)來可聽地輸出信 號。儲存裝置355可包括磁碟她十7 磁磲機或任何其他合適之儲存媒 電腦320之每一組件連接至包 牧王巴括身料、位址及控制匯流 排之内部匯流排3 3 0,以允却雪⑽ 兄峰電恥320之組件經由匯流排 3 3 0彼此通信。 電腦系統300可使用至一網 380)之通信通道385而經由輸 路(在圖3中表示為網際網路 入/輸出(I/O)介面365連接至 116441.doc 21 200809769 一或多個類似電腦。 電腦軟體可記錄於攜帶型儲存媒體上,在該情況下,由 電腦系統300自儲存裝置355存取電腦軟體程式。或者,可 由電腦320直接自網際網路38〇存取電腦軟體。在任一情況 中,使用者均可使用(例如)鍵盤3 1〇及滑鼠315來與電腦系 統300互動,從而操作執行於電腦32〇上的程式化電腦軟 體。 可同樣良好地使用其他組態或類型之電腦系統以執行辅 助實施本文所述之技術的電腦軟體。此外,可在所述技術 之實施中使用定製裝置及專門硬體,諸如數位信號處理 器。 掌上型用戶端裝置10可具有類似於圖3所示之計算結構 的計算結構。顯示器390及小鍵盤完整地形成於通常不具 有滑鼠315之用戶端裝置1〇中。用戶端裝置1〇中之ι/〇介面 365為用於經由蜂巢式網路發送及接收信號之收發器,且 用戶端裝置10進一步包括麥克風及揚聲器以處理可聽輸入 及輸出。 結論 如將為熟習相關技術者所顯而易見,可對本文所描述之 技術及配置作各種改變及修改。 附錄A : VXML延伸樣本程式 <vxmlext> <block pro cess = ” client/server,,splitblock=” 25 ”> 116441.doc -22- 200809769 </block> <form id=’’id_name"> 〈merge source: =nclient19 destination^ ffserver n> <field name- ft. •…” execute:” client’’〉 <prompt> ....... ............〈/prompt〉 〈grammar src=”..........V> </field> 〈field name=”· execute = ,’clientM> <prompt> ....... ............ </prompt> 〈grammar src = </field> 〃........."丨> <pl>................ <gotomerge/> 〈/merge〉 ..</pl> 〈field name:”· ........rt execute = nclient/server f9> <prompt>......... .....................................</prompt> 〈grammar src="............〃/> <nomatch count =ttnn> < got o split/></nomat ch> <split Source = r,client or server" destination^11 client <pl>............... • </pl> <p2>............... .</p2> <p3>............... .</p3> 116441.doc -23- 200809769 <p4>............ </split> </field> </form> </vxmlext> ….</p4> 將此檔案饋入至剖析器,且產生以下"VXML伺服器”及 "VXML用戶端”檔案且使其分別執行於伺服器及用戶端 上。 所產生之VXML伺服器 <vxml> <block> <............after 25 characters> </block> -------------合併後..................... <form id=n… ··,,> 〈field name = ft <prompt>pl … ......</prompt> <grammar src=ftgrammar destination after merging^/> </field> .......分割前..................... <field name = n tt^ <prompt>...... <grammar src^ngrammar destination before splittingn/> </field> 116441.doc -24- 200809769 </form> </vxml> 所產生之VXML用戶端 <vxm/> <block> 開始之25個字元.......... </block> <form id= n...... ”> ------合併如----------------------------- <field name = ”· ····"> <prompt>......... .......</prompt> 〈grammar src=".........V> </field> 〈field name=”· ····"> <prompt>........ ..........〈/prompt〉 〈grammar src = </field> :,f........."/> --分割前-------------------------- <field name = n. ........〃> <prompt>........ ...............................</prompt> 〈grammar src = </field> •-"grammar destination before splitting”/〉 --------分割後----------------------- 〈field name=pl> 116441.doc -25- 200809769 <prompt>....................</prompt> 〈grammar src=n......"l> </field> 〈field name=p2> <prompt>....................</prompt> 〈grammar src=n......〃/> </field> <field name=p3> <prompt>....................</prompt> 〈grammar src="......V> </field> 〈field name=p4> <prompt>.....................</prompt> 〈grammar src="......V> </field> </form> </vxml> 標記庫 1. 合併 屬性 來源 目的地 2. 分割 屬性 116441.doc - 26 - 200809769 來源 目的地 3 ·區塊 新屬性 過程 分割區塊 4.搁位 新屬性 執行 5·去合併 7 ·去分割 8.Vxmlext 插入此標記以將該語言與正常Vxml語言區分,因為其 具有各種其他特徵 亦添加用以合併及分割提示之某些標記(語法 <p(pr〇mptnumberafter p)>) 【圖式簡單說明】 圖1為一適於執行本文所述之技術之主從式配置的示意 性表示; 圖2為一種用於在用戶端與伺服器之間靈活地分散計算 之方法的流程圖; 圖3為一適合用於圖!之配置中之計算裝置的示意性表 示;及 圖4為一提供用戶端與伺服器之間之同步的通信層之示 116441.doc -27- 200809769 意性表示。 【主要元件符號說明】 1 系統 10 用戶端裝置 12 資訊/資料 14 資訊 20 伺服器 22 語音瀏覽器 24 話音伺服器 26 超文字傳送協定(HTTP)設施 28 通信鍵路 30 貧料儲存器 300 電腦系統 310 鍵盤 315 滑鼠 320 電腦 330 内部匯流排 340 處理器 345 視訊介面 350 記憶體 355 儲存裝置 360 輸入/輸出(I/O)介面 365 輸入/輸出(I/O)介面 380 網際網路 116441.doc -28· 200809769 385 通信通道 390 顯示器 401 語音指令碼 403 分解器 405 功能特定模組 407 伺服器引擎 409 用戶端引擎 411 同步器 413 瀏覽器碼 415 瀏覽器碼 116441.doc -29-
Claims (1)
- 200809769 十、申請專利範圍: K 包含—伺服器及—用戶端之主從式計算系統中 靈活地處理語音應用程式 器上執行: 方法&方法包含在該词服 接收=該用戶端之一計算能力之資料; 一^a貝科選擇規定在—使用者與該計算系統之 音之對話方塊中待由該用戶端執行之任務的 組指令;及 得的一 提供該組指令至該用戶端以供執行。 2.如請求項1之方法,其進一步包含·· 右於違用戶端上未成功執行該等任務中之 則在該飼服器上執行該一或多者任務。 ”者, 3·如請求項1之方法,其中該接收包含: 識別該用戶端,·及 擷取制戶端之該計算能力之—職義設定幹。 4.如請求们之方法,其中該接收步驟在該基於 活方塊之一執行時期接收該資料。 ㈢^ 5·如請求項1之方法,其中該資料包含以 去: r T之至少〜 在該用戶端上可用之記憶體之一量測; 該用戶端之一電池電力; 該用戶端之一處理能力;及 識別在該用戶端上可用之一或多個n之 6. -種在-包含—飼服器及—用戶端 芏破式計算系 116441.doc 200809769 7· 8. 9· 10. 11. 統中處理語音應用程式之方法,該方法包含在該用戶端 上執行: 自该伺服器接收一指令碼,該指令碼係視指示該用戶 端裝置之一計算能力之資料而加以選擇的; 剖析該指令碼以判定在一使用者與該主從式計算系統 之間的-基於語音之對話方塊中待由該用戶端裝置執行 的一組指令;及 在該用戶端裝置上執行該等指令。 如咕求項6之方法,其進一步包含以下步驟: 自該用戶端裝置發送指示計算能力之該資料至該飼服 如明求項6之方法,其進一步包含以下步驟: 通知該飼服器該等指令中之至少一者未成功執行於該 用戶端裝置上。 如明求項6之方法,其中該對話方塊包含待播放給該使 用者之提不及對該等提示之預期回應的對應文法,該方 法進一步包含以下步驟: 卜基於該用戶端裝置之該計算能力,將該等提示中之至 少一者及對應文法分割為複數個提示及對應文法。 如哨求項9之方法’其中該指令碼包含規定該複數個提 不及文法將執行於該伺服器上還是該用戶端裝置上的一 或多個目的地參數。 如叫求項6之方法,其中該對話方塊包含待播放給該使 之提示及預期回應之對應文法,且其中基於該用戶 116441.doc 200809769 端裝置之該計算能力而將複數個該等提示及對應文法人 併為一單一提示及對應文法。 12. —種用於在一主從式計算系統中處理語音應用程式之伺 服器,該伺服器經調適以·· 接收指示一用戶端之一計算能力之資料; 基於該接收之資料選擇規定在一使用者與該計算系统 之間的一基於語音之對話方塊中待由該用戶端執行之任 務的一組指令;及 提供該組指令至該用戶端以供執行。 13. -種用於在-主從式計算系統中處理語音應用程式之用 戶端裝置,該用戶端裝置經調適以: 自-伺服器接收一指令碼,該指令碼係視指示該用戶 端裝置之一計算能力之資料而加以選擇的; 剖析該指令碼以判定在一使用者與該主從式計算系統 之間的-基於語音之對話方塊中待由該用戶端裝置執行 的一組指令;及 在該用戶端裝置上執行該等指令。 14. -種包含記錄於一機器可讀取記錄媒體上之機器可讀取 程式碼的電腦程式產品,其用於控制該程式碼執行於其 上以執行纟主;^式計算系統中處理語音應用程式之 方法的一伺服器之操作,該方法包含·· 接收指示一用戶端之一計算能力之資料; 基於該接收之資料撰傅土目A 貝丁叶k擇規定在一使用者與該計算系統 之間的-基於語音之對話方塊中待由該用戶端執行之任 116441.doc 200809769 務的一組指令;及 提供該組指令至該用戶端以供執行。 15. -種包含記錄於一機器可讀取記錄媒體上之機器可讀取 程式碼的電腦程式產品,其用於控制該程式碼執行於其 上以執行-在-主從式計算系統中處理語音應用程式之 方法的一用戶端裝置之操作,該方法包含: 自-飼服器接收一指令碼,該指令碼係視指示該用戶 端裝置之一計算能力之資料而加以選擇的; 朴該指令碼以判定在—使用者與該主從式計算系統 之間的-基於語音之對話方塊中待由該用戶端裝置執行 的一組指令,·及 在該用戶端裝置上執行該等指令。 16. —種用於處理語音應用程式之系統,其包含: -用戶端裝置’Μ有指示該用戶端裝置之一計算能 力的相關聯資料; 資料儲存器,其健存規定在一使用者與該系統之間的 基於每音之對話方塊中待執行之任務的複數個 … 碼; 一伺服器,其基於該相關聯之資料選擇一用於該用戶 端裝置之適當指令碼; 一解譯器層,其處理該所選指令碼,從而為該對話方 塊判定待執行於該用戶端裝置上之—第—組指令及待執 行於該伺服器上之一第二組指令;及 一同步層,其使該第一組指令及該第二組指令之該 行同步。 116441.doc -4-
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/312,300 US9330668B2 (en) | 2005-12-20 | 2005-12-20 | Sharing voice application processing via markup |
Publications (1)
Publication Number | Publication Date |
---|---|
TW200809769A true TW200809769A (en) | 2008-02-16 |
Family
ID=38098609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW095144896A TW200809769A (en) | 2005-12-20 | 2006-12-04 | Sharing voice application processing via markup |
Country Status (5)
Country | Link |
---|---|
US (1) | US9330668B2 (zh) |
JP (1) | JP5179375B2 (zh) |
CN (1) | CN101341532B (zh) |
TW (1) | TW200809769A (zh) |
WO (1) | WO2007071602A2 (zh) |
Families Citing this family (91)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100166161A1 (en) * | 2005-09-01 | 2010-07-01 | Vishal Dhawan | System and methods for providing voice messaging services |
US20070047719A1 (en) * | 2005-09-01 | 2007-03-01 | Vishal Dhawan | Voice application network platform |
US9313307B2 (en) * | 2005-09-01 | 2016-04-12 | Xtone Networks, Inc. | System and method for verifying the identity of a user by voiceprint analysis |
US9253301B2 (en) * | 2005-09-01 | 2016-02-02 | Xtone Networks, Inc. | System and method for announcing and routing incoming telephone calls using a distributed voice application execution system architecture |
US11102342B2 (en) | 2005-09-01 | 2021-08-24 | Xtone, Inc. | System and method for displaying the history of a user's interaction with a voice application |
US11153425B2 (en) * | 2005-09-01 | 2021-10-19 | Xtone, Inc. | System and method for providing interactive services |
US20100158217A1 (en) | 2005-09-01 | 2010-06-24 | Vishal Dhawan | System and method for placing telephone calls using a distributed voice application execution system architecture |
US9456068B2 (en) * | 2005-09-01 | 2016-09-27 | Xtone, Inc. | System and method for connecting a user to business services |
US9799039B2 (en) | 2005-09-01 | 2017-10-24 | Xtone, Inc. | System and method for providing television programming recommendations and for automated tuning and recordation of television programs |
US9426269B2 (en) | 2005-09-01 | 2016-08-23 | Xtone Networks, Inc. | System and method for performing certain actions based upon a dialed telephone number |
US8964960B2 (en) * | 2005-09-01 | 2015-02-24 | Xtone Networks, Inc. | System and method for interacting with a user via a variable volume and variable tone audio prompt |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
JP2009244432A (ja) * | 2008-03-29 | 2009-10-22 | Kddi Corp | 携帯端末の音声認識装置、方法、プログラム |
DE102008040721A1 (de) * | 2008-07-25 | 2010-01-28 | Robert Bosch Gmbh | Emulationssystem und -verfahren für einen nicht mehr lieferbaren Mikrocontroller |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
WO2011148594A1 (ja) * | 2010-05-26 | 2011-12-01 | 日本電気株式会社 | 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム |
JP6078964B2 (ja) | 2012-03-26 | 2017-02-15 | 富士通株式会社 | 音声対話システム及びプログラム |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
DE102012218151B4 (de) * | 2012-10-04 | 2024-02-01 | Bayerische Motoren Werke Aktiengesellschaft | Dialogführungsvorrichtung für ein Fahrzeug |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9305554B2 (en) * | 2013-07-17 | 2016-04-05 | Samsung Electronics Co., Ltd. | Multi-level speech recognition |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9449602B2 (en) * | 2013-12-03 | 2016-09-20 | Google Inc. | Dual uplink pre-processing paths for machine and human listening |
US20150248730A1 (en) * | 2014-02-28 | 2015-09-03 | Pilot Catastrophe Services, Inc. | Insurance adjuster claim scoping |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
CN105118507B (zh) * | 2015-09-06 | 2018-12-28 | 上海智臻智能网络科技股份有限公司 | 声控系统及其控制方法 |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
EP3496090A1 (en) * | 2017-12-07 | 2019-06-12 | Thomson Licensing | Device and method for privacy-preserving vocal interaction |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
CN111048078A (zh) * | 2018-10-15 | 2020-04-21 | 阿里巴巴集团控股有限公司 | 语音复合指令处理方法和系统及语音处理设备和介质 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US12021806B1 (en) | 2021-09-21 | 2024-06-25 | Apple Inc. | Intelligent message delivery |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003169329A (ja) | 1996-08-07 | 2003-06-13 | Matsushita Electric Ind Co Ltd | 画像音声符号化復号化装置 |
US6600737B1 (en) | 1999-02-11 | 2003-07-29 | Mediaring Ltd. | Bandwidth protection for voice over IP |
US20050261907A1 (en) * | 1999-04-12 | 2005-11-24 | Ben Franklin Patent Holding Llc | Voice integration platform |
US7330815B1 (en) * | 1999-10-04 | 2008-02-12 | Globalenglish Corporation | Method and system for network-based speech recognition |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US6738743B2 (en) | 2001-03-28 | 2004-05-18 | Intel Corporation | Unified client-server distributed architectures for spoken dialogue systems |
EP1410381A4 (en) | 2001-05-04 | 2005-10-19 | Unisys Corp | DYNAMIC GENERATION OF VOICE APPLICATION INFORMATION FROM A WEB SERVER |
US20020178182A1 (en) * | 2001-05-04 | 2002-11-28 | Kuansan Wang | Markup language extensions for web enabled recognition |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
US7242752B2 (en) | 2001-07-03 | 2007-07-10 | Apptera, Inc. | Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an VXML-compliant voice application |
US7609829B2 (en) * | 2001-07-03 | 2009-10-27 | Apptera, Inc. | Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution |
US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US6804330B1 (en) | 2002-01-04 | 2004-10-12 | Siebel Systems, Inc. | Method and system for accessing CRM data via voice |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
JP2003295890A (ja) * | 2002-04-04 | 2003-10-15 | Nec Corp | 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム |
AU2002253334A1 (en) | 2002-04-26 | 2003-11-10 | Fluency Voice Technology Limited | A system and method for creating voice applications |
FR2840484B1 (fr) | 2002-05-28 | 2004-09-03 | France Telecom | Protocole de communication entre un module d'application vocale et une plate-forme vocale dans un serveur vocal |
AU2002345308A1 (en) * | 2002-07-17 | 2004-02-02 | Nokia Corporation | Mobile device having voice user interface, and a methode for testing the compatibility of an application with the mobile device |
TW567465B (en) * | 2002-09-02 | 2003-12-21 | Ind Tech Res Inst | Configurable distributed speech recognition system |
US7571100B2 (en) * | 2002-12-03 | 2009-08-04 | Speechworks International, Inc. | Speech recognition and speaker verification using distributed speech processing |
JP2004213570A (ja) | 2003-01-08 | 2004-07-29 | Sony Corp | 情報提供方法 |
JP2005055607A (ja) | 2003-08-01 | 2005-03-03 | Toyota Motor Corp | サーバ、情報処理端末、音声合成システム |
US8311835B2 (en) * | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
US7792254B2 (en) * | 2004-10-19 | 2010-09-07 | Genesys Telecommunications Laboratories, Inc. | System for distributing VXML capabilities for execution on client devices |
US7548977B2 (en) * | 2005-02-11 | 2009-06-16 | International Business Machines Corporation | Client / server application task allocation based upon client resources |
US8023937B2 (en) * | 2005-03-04 | 2011-09-20 | Qualcomm Incorporated | Apparatus and methods for determining voice and/or data processing performance of a wireless device |
US8041570B2 (en) * | 2005-05-31 | 2011-10-18 | Robert Bosch Corporation | Dialogue management using scripts |
US7716671B2 (en) * | 2005-07-07 | 2010-05-11 | Cisco Technology, Inc. | Method for coordinating a set of related tasks and events by reducing duplicated effort |
-
2005
- 2005-12-20 US US11/312,300 patent/US9330668B2/en not_active Expired - Fee Related
-
2006
- 2006-12-04 TW TW095144896A patent/TW200809769A/zh unknown
- 2006-12-13 CN CN2006800480248A patent/CN101341532B/zh not_active Expired - Fee Related
- 2006-12-13 WO PCT/EP2006/069664 patent/WO2007071602A2/en active Application Filing
- 2006-12-13 JP JP2008546387A patent/JP5179375B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101341532A (zh) | 2009-01-07 |
WO2007071602A2 (en) | 2007-06-28 |
WO2007071602A3 (en) | 2007-08-30 |
US9330668B2 (en) | 2016-05-03 |
JP5179375B2 (ja) | 2013-04-10 |
CN101341532B (zh) | 2013-03-06 |
JP2009520224A (ja) | 2009-05-21 |
US20070143113A1 (en) | 2007-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW200809769A (en) | Sharing voice application processing via markup | |
US9530415B2 (en) | System and method of providing speech processing in user interface | |
TWI249729B (en) | Voice browser dialog enabler for a communication system | |
US8788620B2 (en) | Web service support for a multimodal client processing a multimodal application | |
US9214154B2 (en) | Personalized text-to-speech services | |
CN101287043B (zh) | 用于提供与多模式应用之间的表达用户交互的方法和设备 | |
CN100424632C (zh) | 用于高级交互接口的语义对象同步理解 | |
US20060276230A1 (en) | System and method for wireless audio communication with a computer | |
US7640163B2 (en) | Method and system for voice activating web pages | |
US20060235694A1 (en) | Integrating conversational speech into Web browsers | |
KR20130112885A (ko) | 음성-가능 응용프로그램에 입력을 제공하는 방법 및 장치 | |
WO2001069422A2 (en) | Multimodal information services | |
US20200211560A1 (en) | Data Processing Device and Method for Performing Speech-Based Human Machine Interaction | |
CN109389967A (zh) | 语音播报方法、装置、计算机设备及存储介质 | |
Di Fabbrizio et al. | A speech mashup framework for multimodal mobile services | |
JP6179971B2 (ja) | 情報提供装置及び情報提供方法 | |
CA2419884C (en) | Bimodal feature access for web applications | |
CN110740212B (zh) | 基于智能语音技术的通话接听方法、装置及电子设备 | |
CN112712793A (zh) | 语音交互下基于预训练模型的asr纠错方法及相关设备 | |
JP2005151553A (ja) | ボイス・ポータル | |
US7558733B2 (en) | System and method for dialog caching | |
CN102438086A (zh) | 一种融合通信中智能语音系统及实现方法 | |
CN107767856B (zh) | 一种语音处理方法、装置及服务器 | |
Tsai et al. | Dialogue session: management using voicexml | |
EP1564659A1 (en) | Method and system of bookmarking and retrieving electronic documents |