TWI312984B - Method of enhancing voice interactions using visual messages - Google Patents
Method of enhancing voice interactions using visual messages Download PDFInfo
- Publication number
- TWI312984B TWI312984B TW093112993A TW93112993A TWI312984B TW I312984 B TWI312984 B TW I312984B TW 093112993 A TW093112993 A TW 093112993A TW 93112993 A TW93112993 A TW 93112993A TW I312984 B TWI312984 B TW I312984B
- Authority
- TW
- Taiwan
- Prior art keywords
- interface
- visual
- preference
- speech input
- auditory
- Prior art date
Links
- 230000000007 visual effect Effects 0.000 title claims description 87
- 238000000034 method Methods 0.000 title claims description 30
- 230000003993 interaction Effects 0.000 title claims description 13
- 230000002708 enhancing effect Effects 0.000 title claims description 5
- 238000012790 confirmation Methods 0.000 claims description 43
- 230000004044 response Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 8
- 230000001755 vocal effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 claims 5
- 241000283690 Bos taurus Species 0.000 claims 1
- 206010011469 Crying Diseases 0.000 claims 1
- 235000009827 Prunus armeniaca Nutrition 0.000 claims 1
- 244000018633 Prunus armeniaca Species 0.000 claims 1
- 230000004979 auditory behavior Effects 0.000 claims 1
- 238000013500 data storage Methods 0.000 claims 1
- 230000001815 facial effect Effects 0.000 claims 1
- 230000035807 sensation Effects 0.000 claims 1
- 230000003945 visual behavior Effects 0.000 claims 1
- 230000001413 cellular effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241001122315 Polites Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 206010038583 Repetitive speech Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004382 visual function Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/038—Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
- Digital Computer Display Output (AREA)
Description
1312984 九、發明說明: 【發明所屬之技術領域】 本發明與§語辨識領域相關,特別是與多模式介面内之 語音交互作用相關。 【先前技術】 包含多模式介面之計算裝置不斷增加。此處所使用之多 模式介面係指包括聲音處理與視覺呈現兩種功能之介面。 例^,許多蜂窩式電話可能都包含_個圖形使用者介面並 回應。令與其他言語輪入。其他多模式裝置可能 個人資料助理器、筆記型電腦、視訊電話、電傳會議 裝置、汽車導航裝置等相關裝置。 用以與多棋式裝置作語音交互作用之傳統方式—般牵涉 口 y +對δ 5吾輸入來聽覺提示一使用者。響應此提示信 號後丄該裝置便會收到被要求的言語輸入。接下來,便可 將4…輸入之-聽覺確認信號呈現給該使用者。因該使 ί等夕拉式裝置之間必須依序傳遞信息,所以此等 用可能非常慢。缺乏效率之聽覺提示信號與確 ’可此會導致使用者相當λ的挫才斤與不滿。 例如多模式裝一 使用者可能會党到聽覺提示「說 出出發域市的名稱」。接 Γ 者6亥使用者便會在一確認響應信
:接:輪::係波士頓,對不對?」)後說出-個城市名 将接者’該使用者便會作塑腐、,A 入裎會作3應,亚且會有另一項言語輸 傳 "式呈現給該使用者。這種典型之 得,,先糸統之交互作用並盔 ,:·、*運用该夕杈式裝置之視覺功 92993.doc 1312984
【發明内容】 此處所揭示之本發明提供利用視覺信息提升語音交互作 用之-種方法、系統及設備。明確地說,本發明提供一種 同時具備語音辨識與視覺呈現功能的多模式介面’ 1包含 一個用於接收言語輸人的輸人元件。㈣,便可選擇性地 提供該言語輸入之視覺提示信號及/或該言語輸入之視覺 確認信號。在—具體實施例中,使用者建立之偏好可判斷 是否要在該多模式介面令呈現視覺提示信號及/或確認信 號。因此,本發明藉著排除有聲的提示信號、有聲的確認 信號、或兩者之需求以幫助多模式介面中的語音教互作用。 本發明之-方面包括—種利用視覺信息於—可攜式之多 模式計算裝置中提升語音交互作料方法。該方法可能包 含提供-多模式介面,該介面包括—聽覺介面與_視覺介 面。可能會接收到-言語輸入,並且對該言語輸入實施語 音辨識工作。該多模式介面内有至少一項信息可以視覺方 式呈現’其中’該信息為該言語輸入之提示信號及/或該言 語輸入之確認信號。在一具體實施例中,剛開始可能會於 該多模式介面中出現該言語輸入之一視覺提示信號,然後 便可響應已接收該言語輸入’而後便可呈現該言語輸入之 視覺確認信號。另一具體實施例中,該視覺呈現信息可以 聽覺方式來呈現。 於另一具體實施例中,該多模式介面之—使用者能夠建 立-個介面偏好。此介面偏好可以判斷是否以視覺方式來 92993.doc 1312984 =該等信息。例如,若該介面偏好為應該㈣ :破’則可於該多模式介面中呈現視覺提示 =不 Γ呈現該言語輸人之聽覺提示信號。另-個例子Γ卞 好為應該出現視覺確認信號,那麼便可於該多模^ ;;以=!方式來確認經接收到的言語輪入。否則,、;更 覺方式做確認。在-具體實施例中,可以決定該Ϊ 一ή面巾之錢用者之身分,並且依使用 貢料儲存體中接收複數個介面偏好。 來從一 :外,可查明該多模式介面之一視覺及/或聲音特 項特徵可判斷是否於該多模式介面中呈現視覺提: /或視覺確認信號。 化及 例如’若該環境過於嗜雜不“見聽覺提示信號,則可 以視覺提示信號來取代之。在另—具體實施例中,可建立 ::來抗衡該多模式介面内之一個項目…該例外 :凌:和該項目相關的介面偏好。因此,一個或多 及/或聽覺信息之呈現可依該例外來決定。 本發明之另一方面包括利用視覺信息提升語音交互作用 ,-套系統。本系統包括_用於辨識一多模式介面的構件, ,多模式介面包括言語辨識與視覺呈現功能、—用於在該 多模式介面巾呈現輸人元件的構件、—用於接收和該輸二 讀相關之言語輸人的構件、以及_用於在該多模式介面 覺方式呈現至少—項信息的構件。該信息可能係該 ^輸入的提示信號及/或該言語輸人的確認信號。 【實施方式】 92993.doc 1312984 此處所揭不之本發明提供利用視覺信息提升語音交互作 用 大·、、本_ * 在、糸統與設備。語音交互作用可能係透過一 :面來進行’該多模式介面包括一用於接收言語輸 的輸入疋件。於該多模式介面内可能會呈現一項或多項 視覺信息以提示及/或確認言語輸入。在一具體實施例中, 使用者偏好可以控制是否呈現視覺提示信號及/或確認信 號 < 在另—具體實施例中,如噪音程度及/或該多模式介面 ^隱私規定等環境及情況因素則可判斷是否呈現視覺提示 號及/或確認信號。 圖1為一概略圖,其中圖解的係根據本文所揭示之創新配 置,利用視覺信息提升語音交互作用的系統。本系統可能 包括一多模式計算裝置105,其具有一多模式介面u〇。該 多模式計算裝置1()5可能餘何裝置,其包括—用於實施古 語辨識功能的聽覺介面及一具有視覺呈現能力的視覺介 面。 例如’該多模式計算裝置105可能包括,但不偈限於,__ 備有-麥克風之個人數位助理(PDA)、一備有顯示榮幕之 蜂窩式電話、-計算平板、一個人電腦和一汽車導航系統 該多模式計算裝置1 〇 5亦可能為-系列同時具有聽覺及親 覺介面且相互連結之計算裝置,例如—與—液晶螢幕通信 連,的電話、或-與電視連結之電傳會議裝置。該多模^ 汁算裝置105之言語辨識功能可能係遠距或近距◊例如,一 蜂寫式電話之言語辨識功能可能係存在於—語音辨識口㈣ 兀件内,該元件係被通信連結至該蜂窩式電話。或者,一 92993.doc 1312984 個人數位助理器也可能會内建言語辨識功能。 該多模式介面110包含一提示信號115、一輸入元件120、 一確認信號12 5以及一確認響應信號13 0。該提示信號115可 能包括一信息,該信息載有使用者能夠以語音響應的要 求。該提示信號115可能包括一視覺信息、一聽覺信息或兩 者兼具。例如,該提示信號115可能係一文字方塊,以視覺 方式呈現於該多模式介面110内,其包含對使用者輸入之詢 問。該提示信號Π5不偈限於文字,更確切地說可能包括可 呈現於該多模式介面11 〇内的各種元件中其中一者,例如圖 形元件、視覺元件、聽覺元件和多媒體元件。 該輸入元件120代表一保留作為接收言語輸入的介面項 目。在一具體實施例中,輸入元件120可能係一指示符號(例 如一閃光),用以表示該多模式計算裝置1〇5已經準備好接 收言語輸入。該輸入元件12〇也可以是一個選擇性的視覺介 面項目(例如一按鈕)’用以表示言語輸入之起始和結束。然 而該輸入元件120並不需要完全以視覺方式來顯示。取而代 之的係,一聽覺指示符號(例如一嗶聲)亦能夠代表該裝置已 經處於能夠接收言語的狀態。 該確β忍彳§號125可以提供一個通報機制,用以確認該言笋 輸入已經被正確處理。例如,一個聽覺響聲可透過聽覺介 面做選擇性撥放,心指示言語輸人是否被正確接收。另 -個例子,-個視覺指示符號(例如—榮幕閃爍或按紐閃燈) 可提供通報機制的功用。此外,該確認信號125可能係—聽 覺或視覺信息,其會重複該言語輸入的至少一部份。例如, 92993.doc • 10- 1312984 確認信號125可能係—文字方塊,用以顯示—項言語辨識處 理的結果。與提示信號115相同,該確認信號125並不限僅 含文字,更確切地說,其可能可呈現於該多模式介面ιι〇内 的各種兀件中其中-者,例如圖形元件、視覺元件、聽覺 元件和多媒體元件。 當該痛認信號125重複該言語輸入時,確認響應㈣U0 便可被要求核對該重複言語是否正確。例如,該確認響應 信號130可能包括兩個可供使用者選擇之按紐,該等按钮係 位於該多模式裝置1〇5之視覺介面内,且該按鈕之一為一肯 疋的確s忍響應信號’而另一按紐則為否定的響應信號。在 個例了中,該確認響應信號丨3〇將為一言語輸入,如 「是」或「否」。或者,該確認響應信號13阿能係、任何可 偵測的事件,例如按下複頻式鍵盤上—個按鍵,—個當機 事件及/或‘一個逾時狀況的傳送。 應注意的是,該多模式介面11〇可能包括一個介面(未顯 不)’該介面允許使用者建立複數個介面偏好,該 好能夠改變多模式介而M * 陶 H丨面110的仃為。例如,其中一個介面偏 好可以開啟或_言語輸人的視覺提另—個介面偏好 =開啟或_言語輸人之視覺確認信號。其它介面偏好 貝1此夠開啟或_聽覺提示和聽覺確認信號。在—具體杂
施例中’可能有設定值讓客 R 士 、 s 口乂 、式"面110針對同樣的事件 同%呈現視覺及聽覺信息。 況 :另-具體實施例中’可能有介面偏好存 來改變該多模式介面110 依障 仃為。廷些介面偏好可造成動 92993.doc 1312984 或靜態行為。例如,動態行為可能包括依週遭之聲音 二來調正„亥系統之聲音及’或視覺特徵。因此,若該聲音 -過聽見聽覺信號’那麼則可以開啟視覺 =信號和視覺她號特徵。或者,聽覺信息可能不適 於如圖書館或戲院等安靜的環境中,而且可能會有介面 自 在以便於 <貞測到預設的情況時,便可關閉聽覺信
二聲音環境可能取決於背景噪音之取樣且以㈣取樣噪 曰轾度與預設之噪音臨界值做比較。 靜態行為可能包括特殊環境之調整式例外處理。可針對 =多模式介面11G内之個別項目來建立例外,其所造成的行 :’·、會夂駕其他一般性的介面設定。不論其他偏好組態為 ^例外都可建立或關閉經選定項目之聽覺及/或視覺信 ^丨如 應用情況内之特有提示信號及/或確認信息可 能與信用卡資訊相關’且使用者並不希望曝光該資訊。因
對該項目而言,便可建立一例外情況,以便關閉和該 l用卡資訊有關的聽覺及/或視覺確認信號。 η操作%,可在該多模式介面11〇内顯示資訊的視覺提示信 旒115(如預期班機之目標城市名稱的提示信號)供該多模式 ^算裝置105的使用者使用。同時,該多模式計算裝置1〇5 亦可產生一聽覺信號,用以提示該使用者該班機目的地。 ^如,該多模式裝置110可以發出嗶聲來引起使用者之注 忍。或者,該多模式裝置丨1〇可配合該視覺提示信號丨15, 利用口成s s吾來聽覺提示目的地城市。接著,該使用者便 可透過該多模式算裝置1〇5之麥克風說出其響應及/或透過 92993.doc -12- 1312984 多核式介面uo的⑽來輸入響應。該使用者之響應可能會 由該多料計算裝置1()5來處理。—旦經過内部處理,該使 用者便可具備一視覺確認信號125,用以顯示該多模式計算 裝置Η)5所理解的該使用者之響應。因為不需要任何聽覺確 認信號,所以,相較於習用需要有聽覺確認信號之系統, 該使用者與該多模式計算裝置1〇5間之交互作用便可更加 快速。接著,該制者便可透過—個则輸人及/或一個言 語響應來提供一確認響應信號13〇。 圖2為-流程圖,其中圖解的係利用圖n统的方法 二卜該方法200可於多模式介面之f景中實施’該多模式 "面包括一作為言語辨識工作的聽覺介面以及一作為視覺 呈現的視覺介面。方法允許善用該多模式介面之視覺功 t以便幫助複數個使用者和複數個多模式計算裝置間之 語音交互作用。該方法始於步驟2()5,其中使用者可以為該 多模式介面建立複數個偏好。在一具體實施例中,每當使 用者建立一個新的介面區段時,便可系統性地詢問該些偏 好。於另-具體實施例中’可以建立且儲存複數個偏好, 以供作為曰後使用。在此具體實施例中,該等偏好可能係 裝置相依或疋使用者指定。裝置相依偏好可套用於該裝置 之所有使用者的多模式介面。使用者指定偏好則可依據使 用者之身分來套用。於另-具體實施例中,當客戶偏好尚 未建立之前,可以先套用預設選項。 在v驟21 〇中,使用者偏好一經決定,介面呈現參數便可 依照該等經建立之偏好來作修改。介面呈現參數能夠判斷 92993.doc •13· 1312984 §亥介面是否呈現視覺信息、聽覺信息或兩者兼之。此内文 之^息包括言語輸入之提示信號及/或已收到之言語輸入 的確認信號。在步驟215中,可視情況來查明環境特徵。也 就疋說,部份具體實施例能夠容許如噪音程度及隱私需求 等環境考量來影響該介面環境,此等具體實施例能夠偵測 和該多模式介面之環境相關的預設情況,並且據此調整介 面呈現參數。 ,、媸貫她例·恥巴秸一惘禮貌性偏好,以防聽 覺提示信號發生於經取樣之噪音程度低於預設臨界值的時 候。據此,聽覺提示信號便不會發生在該线之該使用者 處於「安靜」區域(如圖書館)的時候。在另一個例子中,該 禮貌性之偏好可能係當有耳機連接至存在有該多模式介: 的裝置時便能㈣:欠啟動.聽覺提㈣號,即使環境噪音低 於預設門檻亦然。同樣地,可以建立安全參數,以便關閉 確認響應信號,致使機密資訊不會洩漏給不相干者。例如, 右輸入"is用卡破碼時,便可以问性β,日日 1更'Γ以冋時關閉視覺和聽覺確認信 號’以避免不小心洩漏該信用卡號瑪。 在步驟220中,若視覺提示信號之呈現參數被肯定設定, 那麼該介面便可為-言語輸入作視覺提示。該視覺 號可以取代聽覺提示信號或與之並行。另外,視覺提^ 號可能包括文字信息和可視覺呈現之任何其他物件,: 形、圖表、影像、地圖或類似物件。在步驟225中 = 接收到該言語輸入。此輸入可能係獲 a ,上 又取目—輸入裝置,你 如一個内崁式或一個外部附加之麥 兄風或者,該言語秦 92993.doc -14· 1312984 入可能係包含於一個已儲存的聲音檔案内,如一個 mp3(MPEG-l. Audio Layer-3)或一個 wav(Wave)槽。已儲存 之聲音檔案在讓使用者以聽覺方式預設一般性響應的具體 實施例中相當有用。例如’一使用者可以將信用卡號碼、 密碼、住址和相關事項儲存為聲音檔案,其可選擇性地作 為言語輸入響應。 在步驟230中,若視覺確認信號之呈現參數被肯定設定, 那麼該多模式介面便可以視覺方式來確認該言語輸入。該 視覺確認信號可以取代聽覺確認信號或與之並行。另外, 該視覺確認信號可能包括文字信息和可視覺呈現之任何其 他物件,如圖形、圖表、影像、地圖或類似物件。在一具 體實施例中’言亥使用纟可確認、該言語輸入是否經過正確解 讀。若不當解讀,便可提示該使用者重新輸入該言語輸入。 若正確解項,便可藉由提示另一個言語輸入來終止或繼續 該方法。 本發明可實現成硬體、軟體或硬體與軟體的組合。本發 明可以集中方式實現於—電腦系統内;或以分散方式來實 現’將數個不同元件分散於數部互相連結之電腦系統上。 任何電腦系統種類或可用於實現本文所述 之方法的其它設
此處所述之該等方法的所有特徵, 。°中,其包含用於實現 且其當載入到一電腦系 92993.doc 1312984 :便能夠實行這些方法。在本文中的電腦程式可代 號,m為任何語言、編碼或記 ;:、4…的係讓一系統具有一資訊處理能力來執 丁 特定功能,其可直拄推;^ 來p 直接進灯或在下面任一者或兩者之後 來進仃:(a)轉換到另一 +、 ^ ^ 個扣1"編碼或記號;及(b)以不同
的材料形式再生。 、彳个IJ 本發明能夠用其他特定形式來 明的r热"丄 ^式來具體化’❿不會脫離本發 月的乾疇及基本特性。因 圍 應該參考下文的申請專利範 圍而“述規格’方能指出本發明之範嘴。 【圖式簡單說明】 圖示中所示的係目前較佳 的八體κ施例,然而,應瞭解 的係’本發明並不侷限於 _ 、圖中所不的刻板配置及部件,豆 圖1為一概略圖,其中圖念2 Μ / 八中圖解的係根據本文所揭示之創新 置,利用視覺信息提升語立六 丌D 3父互作用的系統。
圖2為一流程圖,其中_ & 【主要元件符號說明】 自、圖解的係利用圖ί之系統以視覺 w k升語音交互作用的方法。 105 多模式計算裝置 110 多模式介面 115 提示信號 120 輸入元件 125 確認信號 130 確認響應信號 92993.doc -16 -
Claims (1)
- m罗胤2993號專利申請案卜♦曰修(更)正替換頁 中文申晴專利範圍替換本&年10月) 十、申請專利範圍: 1 · 一種利用視覺信息於一多模式計算裝置中提升語音交互 作用之方法,其包含以下少驟: 提供一多模式介面,其包括一聽覺介面與一視覺介面; 建立該多模式介面之至少一介面偏好’其中該至少一 介面偏好控制該多模式介面之聽覺與視覺提示行為以及 聽覺確認行為; 依<Β、ν、β亥至少一介面偏好’於该多模式介面内視覺呈現 至少一項信息,其中,該信息為言語輸入之一聽覺或視 覺提示信號以及該言語輸入之一聽覺確認信號中至少其 中一者; 接收該言語輸入;及 對该言語輸入之至少一部份實施一語音辨識工作。 2.如申請專利範圍第1項之方法,該方法進一步包括下列步 驟: 於該接收步驟前,於該多模式介面中視覺呈現該言語 輸入之該提示信號;及 於該接收步驟後,於該多模式介面中視覺呈現該言語 輸入之該確認信號。 3·如:請專利範圍第2項之方法,進一步包括以下步驟: 右L取樣之°呆音等級係低於-預定的臨界值,預防 於s亥多模式介面中以齡興十4 σ ’公見方式壬現該至少一信息。 4.如申請專利範圍第1項 貝 < 方法’進一步包括下列步驟: 允許該多模式介面之 <使用者建立至少一介面偏好以用 92993-971003.doc 更)正替換頁 於控制該聽覺與視覺之提示行為及該聽覺與視覺之確認 行為;及 以該至少一介面偏好為基礎判斷是否以聽覺或視覺呈 現之該等信息中至少其中一者。 5.如申請專利範圍第4項之方法,其中該至少一介面偏好與 建立言語輸入之視覺提示信號相關,該方法更進—步包 括下列步驟: 若該至少一介面偏好肯定表示視覺提示信號,便於該 多模式介面中以視覺方式呈現該言語輸入之該提示信號 :及 若該至少一介面偏好否定表示視覺提示信號,便以聽 覺方式來提示該言語輸入。 6·如申請專利範圍第4項之方法,其中該至少一介面偏好與 為建立言語輸入之視覺確認信號相關,該方法更進一步 包括下列步驟: 若該至少一介面偏好肯定表示視覺確認信號,便透過 該多模式介面提供該言語輸入之視覺確認信號;及 若該至少一介面偏好否定表示視覺確認信號,便透過 该多模式介面提供該言語輸入之聽覺確認信號。 7.如申凊專利範圍第4項之方法,進一步包括下列步驟: 決定—使用者身分;及 依據該使用者身分,從一資料儲存體中取得該至少— 介面偏好。 8 ·如申叫專利範圍第4項之方法,進一步包括下列步驟: 92993-971003.doc為保王執行建立一個例外來抗衡該多模式介面内之 ---•^同 目,j 、 /、T,該例外狀況會凌駕和該項目相關之該 至少、’I面偏好;及 判斷是否呈現兮楚4目風A 見該4視覺h息以及響應該例外之該等 覺信息:至少其中一者,其藉由 ^ 識別疋否-保全執行被該多模式介面呈現; 如果疋,使聽覺確認回應失效以 聽覺播放。 驭级往貝Λ之 9. 如申請專利範圍第1項之方* 查明會在其中呈規兮夕 ^ ^ 列步驟: ;及 見該4式介面的環境的-聲音特徵 響應該查明步驟’判斷是否 少其中一者。 見王現該寻k息中至 10. 一種利用視覺信息於一多模式計 作用之系、统,其包含以下H 、 k升s吾音交互 用以提供-多模式介面的構件, 聽覺介面與一視覺介面. 夕吴式介面包括— “用以查明—環境之聲音特徵的構件… 模式介面被呈現; 在§亥環境内該多 用以根據該聲音特徵建立用*言亥h 、 介面偏好的構件; 夕模式介面之至少— 若該聲音特徵識別出_吵雜的 — ,用以於該多模式介面中以視覺、欢—安靜的環境時 —視覺提示之信息的構件; 、呈現至少一項作為 92993-971003.doc Θ·^3| δθ8^)正替換頁; 若該聲音特徵識別出-吵雜的環境或一安靜的環境時 ,用以接收該言語輸入作為一聽覺確認介面的構件;及 用以對該言語輸入之至少—部份實施語音辨識工作的 構件。 11 一種機器可讀取儲存器,於1 〃上儲存一具有複數個代碼 區段之電腦程式,可由—機哭t ^ 機态來執行該等代碼區段,以 便讓έ亥機器執行下列步驟: =一多模式介面,其包括—聽覺介面及— 呈:明一環境之聲音特徵,在該環境内該多模式介面被 根據該聲音特徵建立用於該多模式介面之至少 偏好,其中該至少一介而值 ;丨面 偏好控制該聽覺與視覺 行為及該聽覺與視覺之確認行為; ’、 於s亥多模式介面中以視 优見万式呈現至少一項 中,該信息為一古注輪入夕 ^ 、乜心其 D π輸入之—聽覺或視覺之提示传號及 一之—聽覺確認信號中至少其中一者; 接收該言語輪入丨及 , 對5亥έ語輪入之至少一杏A 1 9 J, * Φ 〇刀只施語音辨識工作。 】2.如申Μ專利範圍第丨丨 .. 、之機盗可讀取儲存器,龙進牛 包括下列步驟: t π 其進一步 於該接收步驟前,若罄 々右5亥聲音特徵識別出一吵雜沾严产 或一安靜的環境時, /雜的%拢 入之該提示信號;及 見呈見该言語輸 於該接收步驟後,若該聲 将铽熾別出一吵雜的環境 92993-971003.doc -4- 更)正替換頁1 或一安靜的環境時號0 聽覺接收一 该言語輪入之該確認信 其進一步 其進一步 α如申請專利範圍第12項之機器可讀取儲存器 包括下列步驟: 於该多模式介面中 當該親和介面係在一耳機模式中 以聽覺方式呈現該至少一信息。 14·如申請專利範®第山頁之機器可讀取儲存器 包括下列步驟: 當一經取樣之噪音等級係低於用來識別—安靜的區域 的—臨界值,允許該多模式介面之一使用者建立至少一介 面偏好其預防聽覺提示;及 以邊經取樣之口喿音等級為基礎判斷是否以聽覺呈現之 δ亥等信息中至少其中一者。 15·如t請專利範圍第14項之機器可讀取儲存器,Μ ,該 至少-介面偏好與建立言語輸入之視覺提示信號相關; 忒方法進一步包括下列步驟: 若該至少一介面偏好肯定表示視覺提示信號,便於該 多模式介面中以視覺方式呈現該言語輸入之該提示信號 ;及 若該至少-介面偏好否定表示視覺提示信號,便以聽 覺方式來提示該言語輸入。 16.如申巧專利範圍第〗4項之機器可讀取儲存器,其中該至 ν "面偏好與建立言語輸人之視覺確認信號相關,該 方法進一步包括下列步騾: 92993-97J003.doc > =該至少—介面偏好肯定表示視覺確認信號,便透過 5亥多模式介面提供該言語輸入之視覺確認信號;及 j :4至J 一介面偏好否定表示視覺確認信號,便透過 s亥多模式介面提供該言語輸入之聽覺確認信號。 17.如申請專利範圍第14項之機器可讀取儲存器 包括下列步驟·· /、運步 決定一使用者身分;及 好 依據該使用者身分,從資料儲存體中取得該等介面偏 18·如申請專利範圍第14項之機器可讀取儲存器,其進一步 包括下列步驟: 為—保全執行建立—個例外來抗衡該多模式介面内之 :個項目’其中,該例外將凌駕和該項目相關之該至少一 介面偏好;及 :斷疋否呈現該等視覺信息中以及響應該例外之該等 見信息中至少其中一者,其藉由: 識別是否—保全執行被該多模式介面呈現; 聽使聽覺確認回應失效以預防-敏感性資訊之 92993-971003.doc
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/441,839 US7966188B2 (en) | 2003-05-20 | 2003-05-20 | Method of enhancing voice interactions using visual messages |
Publications (2)
Publication Number | Publication Date |
---|---|
TW200519835A TW200519835A (en) | 2005-06-16 |
TWI312984B true TWI312984B (en) | 2009-08-01 |
Family
ID=33450092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW093112993A TWI312984B (en) | 2003-05-20 | 2004-05-07 | Method of enhancing voice interactions using visual messages |
Country Status (4)
Country | Link |
---|---|
US (1) | US7966188B2 (zh) |
KR (1) | KR20060017757A (zh) |
TW (1) | TWI312984B (zh) |
WO (1) | WO2004104812A1 (zh) |
Families Citing this family (108)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004348658A (ja) * | 2003-05-26 | 2004-12-09 | Nissan Motor Co Ltd | 車両用情報提供方法および車両用情報提供装置 |
US7765302B2 (en) * | 2003-06-30 | 2010-07-27 | Nortel Networks Limited | Distributed call server supporting communication sessions in a communication system and method |
US7389235B2 (en) * | 2003-09-30 | 2008-06-17 | Motorola, Inc. | Method and system for unified speech and graphic user interfaces |
US7702727B2 (en) * | 2003-09-30 | 2010-04-20 | Avaya, Inc. | Apparatus, method, and computer program for providing multimedia prompting in a communication system |
US7454608B2 (en) | 2003-10-31 | 2008-11-18 | International Business Machines Corporation | Resource configuration in multi-modal distributed computing systems |
US20060041926A1 (en) * | 2004-04-30 | 2006-02-23 | Vulcan Inc. | Voice control of multimedia content |
DE102004035244A1 (de) * | 2004-07-21 | 2006-02-16 | Givemepower Gmbh | Verfahren zum abrufbaren Speichern von Audiodaten in einer Computervorrichtung |
JP2006081061A (ja) * | 2004-09-13 | 2006-03-23 | Alpine Electronics Inc | 音声出力装置及び音声/映像出力装置 |
US9083798B2 (en) | 2004-12-22 | 2015-07-14 | Nuance Communications, Inc. | Enabling voice selection of user preferences |
US8108798B2 (en) * | 2004-12-29 | 2012-01-31 | Sap Ag | Method and system for implementing enhanced buttons in a graphical user interface |
US20060288309A1 (en) * | 2005-06-16 | 2006-12-21 | Cross Charles W Jr | Displaying available menu choices in a multimodal browser |
US8032825B2 (en) * | 2005-06-16 | 2011-10-04 | International Business Machines Corporation | Dynamically creating multimodal markup documents |
US20060287858A1 (en) * | 2005-06-16 | 2006-12-21 | Cross Charles W Jr | Modifying a grammar of a hierarchical multimodal menu with keywords sold to customers |
US20060287865A1 (en) * | 2005-06-16 | 2006-12-21 | Cross Charles W Jr | Establishing a multimodal application voice |
US7917365B2 (en) | 2005-06-16 | 2011-03-29 | Nuance Communications, Inc. | Synchronizing visual and speech events in a multimodal application |
US8090584B2 (en) * | 2005-06-16 | 2012-01-03 | Nuance Communications, Inc. | Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency |
GB0513786D0 (en) * | 2005-07-05 | 2005-08-10 | Vida Software S L | User interfaces for electronic devices |
US8452604B2 (en) * | 2005-08-15 | 2013-05-28 | At&T Intellectual Property I, L.P. | Systems, methods and computer program products providing signed visual and/or audio records for digital distribution using patterned recognizable artifacts |
US8073700B2 (en) | 2005-09-12 | 2011-12-06 | Nuance Communications, Inc. | Retrieval and presentation of network service results for mobile device using a multimodal browser |
US8719034B2 (en) | 2005-09-13 | 2014-05-06 | Nuance Communications, Inc. | Displaying speech command input state information in a multimodal browser |
US20070129949A1 (en) * | 2005-12-06 | 2007-06-07 | Alberth William P Jr | System and method for assisted speech recognition |
US7848314B2 (en) | 2006-05-10 | 2010-12-07 | Nuance Communications, Inc. | VOIP barge-in support for half-duplex DSR client on a full-duplex network |
US20070274297A1 (en) * | 2006-05-10 | 2007-11-29 | Cross Charles W Jr | Streaming audio from a full-duplex network through a half-duplex device |
US9208785B2 (en) * | 2006-05-10 | 2015-12-08 | Nuance Communications, Inc. | Synchronizing distributed speech recognition |
US8332218B2 (en) | 2006-06-13 | 2012-12-11 | Nuance Communications, Inc. | Context-based grammars for automated speech recognition |
US7676371B2 (en) | 2006-06-13 | 2010-03-09 | Nuance Communications, Inc. | Oral modification of an ASR lexicon of an ASR engine |
GB2440766B (en) * | 2006-08-10 | 2011-02-16 | Denso Corp | Control system |
US8374874B2 (en) | 2006-09-11 | 2013-02-12 | Nuance Communications, Inc. | Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction |
US8145493B2 (en) | 2006-09-11 | 2012-03-27 | Nuance Communications, Inc. | Establishing a preferred mode of interaction between a user and a multimodal application |
US8073697B2 (en) | 2006-09-12 | 2011-12-06 | International Business Machines Corporation | Establishing a multimodal personality for a multimodal application |
US8086463B2 (en) | 2006-09-12 | 2011-12-27 | Nuance Communications, Inc. | Dynamically generating a vocal help prompt in a multimodal application |
US7957976B2 (en) * | 2006-09-12 | 2011-06-07 | Nuance Communications, Inc. | Establishing a multimodal advertising personality for a sponsor of a multimodal application |
US9830912B2 (en) | 2006-11-30 | 2017-11-28 | Ashwin P Rao | Speak and touch auto correction interface |
US8355915B2 (en) * | 2006-11-30 | 2013-01-15 | Rao Ashwin P | Multimodal speech recognition system |
US7827033B2 (en) * | 2006-12-06 | 2010-11-02 | Nuance Communications, Inc. | Enabling grammars in web page frames |
US8417529B2 (en) * | 2006-12-27 | 2013-04-09 | Nuance Communications, Inc. | System and methods for prompting user speech in multimodal devices |
US8612230B2 (en) | 2007-01-03 | 2013-12-17 | Nuance Communications, Inc. | Automatic speech recognition with a selection list |
US8069047B2 (en) | 2007-02-12 | 2011-11-29 | Nuance Communications, Inc. | Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application |
US8150698B2 (en) | 2007-02-26 | 2012-04-03 | Nuance Communications, Inc. | Invoking tapered prompts in a multimodal application |
US7801728B2 (en) | 2007-02-26 | 2010-09-21 | Nuance Communications, Inc. | Document session replay for multimodal applications |
US20080208586A1 (en) * | 2007-02-27 | 2008-08-28 | Soonthorn Ativanichayaphong | Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application |
US7809575B2 (en) | 2007-02-27 | 2010-10-05 | Nuance Communications, Inc. | Enabling global grammars for a particular multimodal application |
US7840409B2 (en) | 2007-02-27 | 2010-11-23 | Nuance Communications, Inc. | Ordering recognition results produced by an automatic speech recognition engine for a multimodal application |
US7822608B2 (en) | 2007-02-27 | 2010-10-26 | Nuance Communications, Inc. | Disambiguating a speech recognition grammar in a multimodal application |
US9208783B2 (en) | 2007-02-27 | 2015-12-08 | Nuance Communications, Inc. | Altering behavior of a multimodal application based on location |
US20080208594A1 (en) * | 2007-02-27 | 2008-08-28 | Cross Charles W | Effecting Functions On A Multimodal Telephony Device |
US8713542B2 (en) | 2007-02-27 | 2014-04-29 | Nuance Communications, Inc. | Pausing a VoiceXML dialog of a multimodal application |
US8938392B2 (en) | 2007-02-27 | 2015-01-20 | Nuance Communications, Inc. | Configuring a speech engine for a multimodal application based on location |
US8843376B2 (en) | 2007-03-13 | 2014-09-23 | Nuance Communications, Inc. | Speech-enabled web content searching using a multimodal browser |
US7945851B2 (en) * | 2007-03-14 | 2011-05-17 | Nuance Communications, Inc. | Enabling dynamic voiceXML in an X+V page of a multimodal application |
US8515757B2 (en) | 2007-03-20 | 2013-08-20 | Nuance Communications, Inc. | Indexing digitized speech with words represented in the digitized speech |
US8670987B2 (en) | 2007-03-20 | 2014-03-11 | Nuance Communications, Inc. | Automatic speech recognition with dynamic grammar rules |
US8909532B2 (en) | 2007-03-23 | 2014-12-09 | Nuance Communications, Inc. | Supporting multi-lingual user interaction with a multimodal application |
US20080235029A1 (en) * | 2007-03-23 | 2008-09-25 | Cross Charles W | Speech-Enabled Predictive Text Selection For A Multimodal Application |
US8788620B2 (en) * | 2007-04-04 | 2014-07-22 | International Business Machines Corporation | Web service support for a multimodal client processing a multimodal application |
US8725513B2 (en) | 2007-04-12 | 2014-05-13 | Nuance Communications, Inc. | Providing expressive user interaction with a multimodal application |
US8862475B2 (en) | 2007-04-12 | 2014-10-14 | Nuance Communications, Inc. | Speech-enabled content navigation and control of a distributed multimodal browser |
TWI341956B (en) * | 2007-05-30 | 2011-05-11 | Delta Electronics Inc | Projection apparatus with function of speech indication and control method thereof for use in the apparatus |
US7962344B2 (en) * | 2007-06-29 | 2011-06-14 | Microsoft Corporation | Depicting a speech user interface via graphical elements |
US10133372B2 (en) * | 2007-12-20 | 2018-11-20 | Nokia Technologies Oy | User device having sequential multimodal output user interface |
US8082148B2 (en) | 2008-04-24 | 2011-12-20 | Nuance Communications, Inc. | Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise |
US8229081B2 (en) | 2008-04-24 | 2012-07-24 | International Business Machines Corporation | Dynamically publishing directory information for a plurality of interactive voice response systems |
US8121837B2 (en) | 2008-04-24 | 2012-02-21 | Nuance Communications, Inc. | Adjusting a speech engine for a mobile computing device based on background noise |
US8214242B2 (en) | 2008-04-24 | 2012-07-03 | International Business Machines Corporation | Signaling correspondence between a meeting agenda and a meeting discussion |
US9349367B2 (en) | 2008-04-24 | 2016-05-24 | Nuance Communications, Inc. | Records disambiguation in a multimodal application operating on a multimodal device |
US20090319896A1 (en) * | 2008-06-03 | 2009-12-24 | The Directv Group, Inc. | Visual indicators associated with a media presentation system |
US9922640B2 (en) | 2008-10-17 | 2018-03-20 | Ashwin P Rao | System and method for multimodal utterance detection |
US8380513B2 (en) * | 2009-05-19 | 2013-02-19 | International Business Machines Corporation | Improving speech capabilities of a multimodal application |
US8290780B2 (en) | 2009-06-24 | 2012-10-16 | International Business Machines Corporation | Dynamically extending the speech prompts of a multimodal application |
US8510117B2 (en) * | 2009-07-09 | 2013-08-13 | Nuance Communications, Inc. | Speech enabled media sharing in a multimodal application |
US8416714B2 (en) * | 2009-08-05 | 2013-04-09 | International Business Machines Corporation | Multimodal teleconferencing |
TWI413938B (zh) * | 2009-12-02 | 2013-11-01 | Phison Electronics Corp | 情感引擎、情感引擎系統及電子裝置的控制方法 |
US8548135B1 (en) | 2010-02-03 | 2013-10-01 | Tal Lavian | Systems and methods for visual presentation and selection of IVR menu |
US8903073B2 (en) | 2011-07-20 | 2014-12-02 | Zvi Or-Bach | Systems and methods for visual presentation and selection of IVR menu |
US8572303B2 (en) | 2010-02-03 | 2013-10-29 | Tal Lavian | Portable universal communication device |
US8548131B1 (en) | 2010-02-03 | 2013-10-01 | Tal Lavian | Systems and methods for communicating with an interactive voice response system |
US8687777B1 (en) | 2010-02-03 | 2014-04-01 | Tal Lavian | Systems and methods for visual presentation and selection of IVR menu |
US8553859B1 (en) | 2010-02-03 | 2013-10-08 | Tal Lavian | Device and method for providing enhanced telephony |
US8406388B2 (en) | 2011-07-18 | 2013-03-26 | Zvi Or-Bach | Systems and methods for visual presentation and selection of IVR menu |
US9001819B1 (en) | 2010-02-18 | 2015-04-07 | Zvi Or-Bach | Systems and methods for visual presentation and selection of IVR menu |
US8879698B1 (en) | 2010-02-03 | 2014-11-04 | Tal Lavian | Device and method for providing enhanced telephony |
US8681951B1 (en) | 2010-02-03 | 2014-03-25 | Tal Lavian | Systems and methods for visual presentation and selection of IVR menu |
US8625756B1 (en) | 2010-02-03 | 2014-01-07 | Tal Lavian | Systems and methods for visual presentation and selection of IVR menu |
US8537989B1 (en) | 2010-02-03 | 2013-09-17 | Tal Lavian | Device and method for providing enhanced telephony |
US8594280B1 (en) | 2010-02-03 | 2013-11-26 | Zvi Or-Bach | Systems and methods for visual presentation and selection of IVR menu |
US8788269B2 (en) | 2011-12-15 | 2014-07-22 | Microsoft Corporation | Satisfying specified intent(s) based on multimodal request(s) |
US9418674B2 (en) * | 2012-01-17 | 2016-08-16 | GM Global Technology Operations LLC | Method and system for using vehicle sound information to enhance audio prompting |
US9934780B2 (en) * | 2012-01-17 | 2018-04-03 | GM Global Technology Operations LLC | Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch |
US9263040B2 (en) | 2012-01-17 | 2016-02-16 | GM Global Technology Operations LLC | Method and system for using sound related vehicle information to enhance speech recognition |
US10209954B2 (en) | 2012-02-14 | 2019-02-19 | Microsoft Technology Licensing, Llc | Equal access to speech and touch input |
US8849666B2 (en) * | 2012-02-23 | 2014-09-30 | International Business Machines Corporation | Conference call service with speech processing for heavily accented speakers |
US8867708B1 (en) | 2012-03-02 | 2014-10-21 | Tal Lavian | Systems and methods for visual presentation and selection of IVR menu |
US8731148B1 (en) | 2012-03-02 | 2014-05-20 | Tal Lavian | Systems and methods for visual presentation and selection of IVR menu |
US10381001B2 (en) * | 2012-10-30 | 2019-08-13 | Google Technology Holdings LLC | Voice control user interface during low-power mode |
US9584642B2 (en) | 2013-03-12 | 2017-02-28 | Google Technology Holdings LLC | Apparatus with adaptive acoustic echo control for speakerphone mode |
US10373615B2 (en) * | 2012-10-30 | 2019-08-06 | Google Technology Holdings LLC | Voice control user interface during low power mode |
US10304465B2 (en) | 2012-10-30 | 2019-05-28 | Google Technology Holdings LLC | Voice control user interface for low power mode |
US9134952B2 (en) * | 2013-04-03 | 2015-09-15 | Lg Electronics Inc. | Terminal and control method thereof |
US9575720B2 (en) | 2013-07-31 | 2017-02-21 | Google Inc. | Visual confirmation for a recognized voice-initiated action |
US9299358B2 (en) * | 2013-08-07 | 2016-03-29 | Vonage America Inc. | Method and apparatus for voice modification during a call |
US9728202B2 (en) | 2013-08-07 | 2017-08-08 | Vonage America Inc. | Method and apparatus for voice modification during a call |
JP6226321B2 (ja) * | 2013-10-23 | 2017-11-08 | 株式会社サン・フレア | 翻訳支援システム、翻訳支援システムのサーバー、翻訳支援システムのクライアント、翻訳支援システムの制御方法、及びそのプログラム |
US9430186B2 (en) | 2014-03-17 | 2016-08-30 | Google Inc | Visual indication of a recognized voice-initiated action |
CN104635927A (zh) * | 2015-01-27 | 2015-05-20 | 深圳富泰宏精密工业有限公司 | 互动显示系统及方法 |
US10224026B2 (en) * | 2016-03-15 | 2019-03-05 | Sony Corporation | Electronic device, system, method and computer program |
KR20170124836A (ko) * | 2016-05-03 | 2017-11-13 | 엘지전자 주식회사 | 전자 장치 및 그 제어 방법 |
JP6966979B2 (ja) | 2018-06-26 | 2021-11-17 | 株式会社日立製作所 | 対話システムの制御方法、対話システム及びプログラム |
US11544591B2 (en) | 2018-08-21 | 2023-01-03 | Google Llc | Framework for a computing system that alters user behavior |
Family Cites Families (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6182269A (ja) | 1984-05-29 | 1986-04-25 | テキサス インスツルメンツ インコ−ポレイテツド | 手続き式作業指導情報出力装置 |
US4707857A (en) * | 1984-08-27 | 1987-11-17 | John Marley | Voice command recognition system having compact significant feature data |
JP2584249B2 (ja) * | 1986-10-31 | 1997-02-26 | 三洋電機株式会社 | 音声認識電話機 |
EP0543329B1 (en) | 1991-11-18 | 2002-02-06 | Kabushiki Kaisha Toshiba | Speech dialogue system for facilitating human-computer interaction |
US5562453A (en) * | 1993-02-02 | 1996-10-08 | Wen; Sheree H.-R. | Adaptive biofeedback speech tutor toy |
US5612869A (en) * | 1994-01-21 | 1997-03-18 | Innovative Enterprises International Corporation | Electronic health care compliance assistance |
US5491774A (en) * | 1994-04-19 | 1996-02-13 | Comp General Corporation | Handheld record and playback device with flash memory |
US6091805A (en) | 1995-07-05 | 2000-07-18 | Ncr Corporation | Computerized voice response system |
JP3729918B2 (ja) | 1995-07-19 | 2005-12-21 | 株式会社東芝 | マルチモーダル対話装置及び対話方法 |
PT870222E (pt) | 1995-08-21 | 2002-10-31 | Cornel Sirbu | Dispositivo e processo de acesso condicional |
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
US5774841A (en) * | 1995-09-20 | 1998-06-30 | The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration | Real-time reconfigurable adaptive speech recognition command and control apparatus and method |
US5802526A (en) | 1995-11-15 | 1998-09-01 | Microsoft Corporation | System and method for graphically displaying and navigating through an interactive voice response menu |
US5787445A (en) * | 1996-03-07 | 1998-07-28 | Norris Communications Corporation | Operating system including improved file management for use in devices utilizing flash memory as main memory |
US5892813A (en) | 1996-09-30 | 1999-04-06 | Matsushita Electric Industrial Co., Ltd. | Multimodal voice dialing digital key telephone with dialog manager |
US5915001A (en) | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
JP3886074B2 (ja) | 1997-02-28 | 2007-02-28 | 株式会社東芝 | マルチモーダルインタフェース装置 |
US6041300A (en) * | 1997-03-21 | 2000-03-21 | International Business Machines Corporation | System and method of using pre-enrolled speech sub-units for efficient speech synthesis |
CN1163869C (zh) * | 1997-05-06 | 2004-08-25 | 语音工程国际公司 | 用于开发交互式语音应用程序的系统和方法 |
US6023688A (en) * | 1997-11-28 | 2000-02-08 | Diebold, Incorporated | Transaction apparatus and method that identifies an authorized user by appearance and voice |
US20010047263A1 (en) | 1997-12-18 | 2001-11-29 | Colin Donald Smith | Multimodal user interface |
US6430174B1 (en) | 1997-12-26 | 2002-08-06 | Nortel Networks Ltd. | Communication system supporting simultaneous voice and multimedia communications and method of operation therefore |
US6052439A (en) | 1997-12-31 | 2000-04-18 | At&T Corp | Network server platform telephone directory white-yellow page services |
US6018711A (en) | 1998-04-21 | 2000-01-25 | Nortel Networks Corporation | Communication system user interface with animated representation of time remaining for input to recognizer |
US6012030A (en) * | 1998-04-21 | 2000-01-04 | Nortel Networks Corporation | Management of speech and audio prompts in multimodal interfaces |
JP3893763B2 (ja) * | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
US6424357B1 (en) * | 1999-03-05 | 2002-07-23 | Touch Controls, Inc. | Voice input system and method of using same |
US7027991B2 (en) | 1999-08-30 | 2006-04-11 | Agilent Technologies, Inc. | Voice-responsive command and control system and methodology for use in a signal measurement system |
GB9929284D0 (en) * | 1999-12-11 | 2000-02-02 | Ibm | Voice processing apparatus |
US20030023435A1 (en) * | 2000-07-13 | 2003-01-30 | Josephson Daryl Craig | Interfacing apparatus and methods |
DE60133902D1 (zh) | 2000-07-28 | 2008-06-19 | Siemens Vdo Automotive Corp | |
DE60133529T2 (de) | 2000-11-23 | 2009-06-10 | International Business Machines Corp. | Sprachnavigation in Webanwendungen |
EP1209660B1 (en) | 2000-11-23 | 2008-04-09 | International Business Machines Corporation | Voice navigation in web applications |
US7028306B2 (en) * | 2000-12-04 | 2006-04-11 | International Business Machines Corporation | Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers |
US20020152255A1 (en) | 2001-02-08 | 2002-10-17 | International Business Machines Corporation | Accessibility on demand |
US6834264B2 (en) * | 2001-03-29 | 2004-12-21 | Provox Technologies Corporation | Method and apparatus for voice dictation and document production |
US20020194011A1 (en) * | 2001-06-19 | 2002-12-19 | International Business Machines Corporation | Apparatus, method and computer program product for selecting a format for presenting information content based on limitations of a user |
US20030037243A1 (en) * | 2001-08-14 | 2003-02-20 | International Business Machines Corporation | Method and system for managing the presentation of information |
US6944474B2 (en) * | 2001-09-20 | 2005-09-13 | Sound Id | Sound enhancement for mobile phones and other products producing personalized audio for users |
US7324947B2 (en) | 2001-10-03 | 2008-01-29 | Promptu Systems Corporation | Global speech user interface |
GB2388209C (en) * | 2001-12-20 | 2005-08-23 | Canon Kk | Control apparatus |
JP3984526B2 (ja) * | 2002-10-21 | 2007-10-03 | 富士通株式会社 | 音声対話システム及び方法 |
US20040127198A1 (en) * | 2002-12-30 | 2004-07-01 | Roskind James A. | Automatically changing a mobile device configuration based on environmental condition |
US7054818B2 (en) * | 2003-01-14 | 2006-05-30 | V-Enablo, Inc. | Multi-modal information retrieval system |
US7200559B2 (en) * | 2003-05-29 | 2007-04-03 | Microsoft Corporation | Semantic object synchronous understanding implemented with speech application language tags |
US7487096B1 (en) * | 2008-02-20 | 2009-02-03 | International Business Machines Corporation | Method to automatically enable closed captioning when a speaker has a heavy accent |
-
2003
- 2003-05-20 US US10/441,839 patent/US7966188B2/en not_active Expired - Fee Related
-
2004
- 2004-05-07 TW TW093112993A patent/TWI312984B/zh not_active IP Right Cessation
- 2004-05-10 KR KR1020057019922A patent/KR20060017757A/ko not_active Application Discontinuation
- 2004-05-10 WO PCT/EP2004/050751 patent/WO2004104812A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US7966188B2 (en) | 2011-06-21 |
TW200519835A (en) | 2005-06-16 |
KR20060017757A (ko) | 2006-02-27 |
US20040236574A1 (en) | 2004-11-25 |
WO2004104812A1 (en) | 2004-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI312984B (en) | Method of enhancing voice interactions using visual messages | |
JP7535141B2 (ja) | 凝視情報を用いたデバイス制御 | |
CN109463004B (zh) | 数字助理服务的远场延伸 | |
JP7473589B2 (ja) | 音声通知を出力するための電子デバイス、方法、及びコンピュータプログラム | |
JP2023040093A (ja) | 可変触覚出力のための意味論的フレームワーク | |
CN118426549A (zh) | 用于操作闭合盖子便携式计算机的方法和装置 | |
KR102193029B1 (ko) | 디스플레이 장치 및 그의 화상 통화 수행 방법 | |
US9875734B2 (en) | Method and apparatus for managing audio readouts | |
DK201770435A1 (en) | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES | |
WO2018125717A1 (en) | Audio message extraction | |
EP2385520A2 (en) | Method and device for generating text from spoken word | |
US20170238026A1 (en) | Determining a Playback Rate of Media for a Requester | |
US20080104512A1 (en) | Method and apparatus for providing realtime feedback in a voice dialog system | |
CN113678133A (zh) | 用于对话中断检测的具有全局和局部编码的上下文丰富的注意记忆网络的系统和方法 | |
WO2018105373A1 (ja) | 情報処理装置、情報処理方法、および情報処理システム | |
KR20190068133A (ko) | 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법 | |
US20050062726A1 (en) | Dual display computing system | |
JP6950708B2 (ja) | 情報処理装置、情報処理方法、および情報処理システム | |
JP6496220B2 (ja) | 情報配信装置および情報配信プログラム | |
CN109658933B (zh) | 一种语音识别解锁方法、移动终端及存储器 | |
KR20220111574A (ko) | 전자 장치 및 그 제어 방법 | |
US11935449B2 (en) | Information processing apparatus and information processing method | |
KR20200094589A (ko) | 컨텐츠를 생성하기 위한 전자 장치 | |
CN118265968A (zh) | 用于管理字幕的系统和方法 | |
JP2024112798A (ja) | 音声通知を提供するためのデバイス、方法、及びユーザインタフェース |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |