TWI312984B - Method of enhancing voice interactions using visual messages - Google Patents

Method of enhancing voice interactions using visual messages Download PDF

Info

Publication number
TWI312984B
TWI312984B TW093112993A TW93112993A TWI312984B TW I312984 B TWI312984 B TW I312984B TW 093112993 A TW093112993 A TW 093112993A TW 93112993 A TW93112993 A TW 93112993A TW I312984 B TWI312984 B TW I312984B
Authority
TW
Taiwan
Prior art keywords
interface
visual
preference
speech input
auditory
Prior art date
Application number
TW093112993A
Other languages
English (en)
Other versions
TW200519835A (en
Inventor
Soonthorn Ativanichayaphong
David Jaramillo
Gerald Mccobb
Leslie R Wilson
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Publication of TW200519835A publication Critical patent/TW200519835A/zh
Application granted granted Critical
Publication of TWI312984B publication Critical patent/TWI312984B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Description

1312984 九、發明說明: 【發明所屬之技術領域】 本發明與§語辨識領域相關,特別是與多模式介面内之 語音交互作用相關。 【先前技術】 包含多模式介面之計算裝置不斷增加。此處所使用之多 模式介面係指包括聲音處理與視覺呈現兩種功能之介面。 例^,許多蜂窩式電話可能都包含_個圖形使用者介面並 回應。令與其他言語輪入。其他多模式裝置可能 個人資料助理器、筆記型電腦、視訊電話、電傳會議 裝置、汽車導航裝置等相關裝置。 用以與多棋式裝置作語音交互作用之傳統方式—般牵涉 口 y +對δ 5吾輸入來聽覺提示一使用者。響應此提示信 號後丄該裝置便會收到被要求的言語輸入。接下來,便可 將4…輸入之-聽覺確認信號呈現給該使用者。因該使 ί等夕拉式裝置之間必須依序傳遞信息,所以此等 用可能非常慢。缺乏效率之聽覺提示信號與確 ’可此會導致使用者相當λ的挫才斤與不滿。 例如多模式裝一 使用者可能會党到聽覺提示「說 出出發域市的名稱」。接 Γ 者6亥使用者便會在一確認響應信
:接:輪::係波士頓,對不對?」)後說出-個城市名 将接者’該使用者便會作塑腐、,A 入裎會作3應,亚且會有另一項言語輸 傳 "式呈現給該使用者。這種典型之 得,,先糸統之交互作用並盔 ,:·、*運用该夕杈式裝置之視覺功 92993.doc 1312984
【發明内容】 此處所揭示之本發明提供利用視覺信息提升語音交互作 用之-種方法、系統及設備。明確地說,本發明提供一種 同時具備語音辨識與視覺呈現功能的多模式介面’ 1包含 一個用於接收言語輸人的輸人元件。㈣,便可選擇性地 提供該言語輸入之視覺提示信號及/或該言語輸入之視覺 確認信號。在—具體實施例中,使用者建立之偏好可判斷 是否要在該多模式介面令呈現視覺提示信號及/或確認信 號。因此,本發明藉著排除有聲的提示信號、有聲的確認 信號、或兩者之需求以幫助多模式介面中的語音教互作用。 本發明之-方面包括—種利用視覺信息於—可攜式之多 模式計算裝置中提升語音交互作料方法。該方法可能包 含提供-多模式介面,該介面包括—聽覺介面與_視覺介 面。可能會接收到-言語輸入,並且對該言語輸入實施語 音辨識工作。該多模式介面内有至少一項信息可以視覺方 式呈現’其中’該信息為該言語輸入之提示信號及/或該言 語輸入之確認信號。在一具體實施例中,剛開始可能會於 該多模式介面中出現該言語輸入之一視覺提示信號,然後 便可響應已接收該言語輸入’而後便可呈現該言語輸入之 視覺確認信號。另一具體實施例中,該視覺呈現信息可以 聽覺方式來呈現。 於另一具體實施例中,該多模式介面之—使用者能夠建 立-個介面偏好。此介面偏好可以判斷是否以視覺方式來 92993.doc 1312984 =該等信息。例如,若該介面偏好為應該㈣ :破’則可於該多模式介面中呈現視覺提示 =不 Γ呈現該言語輸人之聽覺提示信號。另-個例子Γ卞 好為應該出現視覺確認信號,那麼便可於該多模^ ;;以=!方式來確認經接收到的言語輪入。否則,、;更 覺方式做確認。在-具體實施例中,可以決定該Ϊ 一ή面巾之錢用者之身分,並且依使用 貢料儲存體中接收複數個介面偏好。 來從一 :外,可查明該多模式介面之一視覺及/或聲音特 項特徵可判斷是否於該多模式介面中呈現視覺提: /或視覺確認信號。 化及 例如’若該環境過於嗜雜不“見聽覺提示信號,則可 以視覺提示信號來取代之。在另—具體實施例中,可建立 ::來抗衡該多模式介面内之一個項目…該例外 :凌:和該項目相關的介面偏好。因此,一個或多 及/或聽覺信息之呈現可依該例外來決定。 本發明之另一方面包括利用視覺信息提升語音交互作用 ,-套系統。本系統包括_用於辨識一多模式介面的構件, ,多模式介面包括言語辨識與視覺呈現功能、—用於在該 多模式介面巾呈現輸人元件的構件、—用於接收和該輸二 讀相關之言語輸人的構件、以及_用於在該多模式介面 覺方式呈現至少—項信息的構件。該信息可能係該 ^輸入的提示信號及/或該言語輸人的確認信號。 【實施方式】 92993.doc 1312984 此處所揭不之本發明提供利用視覺信息提升語音交互作 用 大·、、本_ * 在、糸統與設備。語音交互作用可能係透過一 :面來進行’該多模式介面包括一用於接收言語輸 的輸入疋件。於該多模式介面内可能會呈現一項或多項 視覺信息以提示及/或確認言語輸入。在一具體實施例中, 使用者偏好可以控制是否呈現視覺提示信號及/或確認信 號 < 在另—具體實施例中,如噪音程度及/或該多模式介面 ^隱私規定等環境及情況因素則可判斷是否呈現視覺提示 號及/或確認信號。 圖1為一概略圖,其中圖解的係根據本文所揭示之創新配 置,利用視覺信息提升語音交互作用的系統。本系統可能 包括一多模式計算裝置105,其具有一多模式介面u〇。該 多模式計算裝置1()5可能餘何裝置,其包括—用於實施古 語辨識功能的聽覺介面及一具有視覺呈現能力的視覺介 面。 例如’該多模式計算裝置105可能包括,但不偈限於,__ 備有-麥克風之個人數位助理(PDA)、一備有顯示榮幕之 蜂窩式電話、-計算平板、一個人電腦和一汽車導航系統 該多模式計算裝置1 〇 5亦可能為-系列同時具有聽覺及親 覺介面且相互連結之計算裝置,例如—與—液晶螢幕通信 連,的電話、或-與電視連結之電傳會議裝置。該多模^ 汁算裝置105之言語辨識功能可能係遠距或近距◊例如,一 蜂寫式電話之言語辨識功能可能係存在於—語音辨識口㈣ 兀件内,該元件係被通信連結至該蜂窩式電話。或者,一 92993.doc 1312984 個人數位助理器也可能會内建言語辨識功能。 該多模式介面110包含一提示信號115、一輸入元件120、 一確認信號12 5以及一確認響應信號13 0。該提示信號115可 能包括一信息,該信息載有使用者能夠以語音響應的要 求。該提示信號115可能包括一視覺信息、一聽覺信息或兩 者兼具。例如,該提示信號115可能係一文字方塊,以視覺 方式呈現於該多模式介面110内,其包含對使用者輸入之詢 問。該提示信號Π5不偈限於文字,更確切地說可能包括可 呈現於該多模式介面11 〇内的各種元件中其中一者,例如圖 形元件、視覺元件、聽覺元件和多媒體元件。 該輸入元件120代表一保留作為接收言語輸入的介面項 目。在一具體實施例中,輸入元件120可能係一指示符號(例 如一閃光),用以表示該多模式計算裝置1〇5已經準備好接 收言語輸入。該輸入元件12〇也可以是一個選擇性的視覺介 面項目(例如一按鈕)’用以表示言語輸入之起始和結束。然 而該輸入元件120並不需要完全以視覺方式來顯示。取而代 之的係,一聽覺指示符號(例如一嗶聲)亦能夠代表該裝置已 經處於能夠接收言語的狀態。 該確β忍彳§號125可以提供一個通報機制,用以確認該言笋 輸入已經被正確處理。例如,一個聽覺響聲可透過聽覺介 面做選擇性撥放,心指示言語輸人是否被正確接收。另 -個例子,-個視覺指示符號(例如—榮幕閃爍或按紐閃燈) 可提供通報機制的功用。此外,該確認信號125可能係—聽 覺或視覺信息,其會重複該言語輸入的至少一部份。例如, 92993.doc • 10- 1312984 確認信號125可能係—文字方塊,用以顯示—項言語辨識處 理的結果。與提示信號115相同,該確認信號125並不限僅 含文字,更確切地說,其可能可呈現於該多模式介面ιι〇内 的各種兀件中其中-者,例如圖形元件、視覺元件、聽覺 元件和多媒體元件。 當該痛認信號125重複該言語輸入時,確認響應㈣U0 便可被要求核對該重複言語是否正確。例如,該確認響應 信號130可能包括兩個可供使用者選擇之按紐,該等按钮係 位於該多模式裝置1〇5之視覺介面内,且該按鈕之一為一肯 疋的確s忍響應信號’而另一按紐則為否定的響應信號。在 個例了中,該確認響應信號丨3〇將為一言語輸入,如 「是」或「否」。或者,該確認響應信號13阿能係、任何可 偵測的事件,例如按下複頻式鍵盤上—個按鍵,—個當機 事件及/或‘一個逾時狀況的傳送。 應注意的是,該多模式介面11〇可能包括一個介面(未顯 不)’該介面允許使用者建立複數個介面偏好,該 好能夠改變多模式介而M * 陶 H丨面110的仃為。例如,其中一個介面偏 好可以開啟或_言語輸人的視覺提另—個介面偏好 =開啟或_言語輸人之視覺確認信號。其它介面偏好 貝1此夠開啟或_聽覺提示和聽覺確認信號。在—具體杂
施例中’可能有設定值讓客 R 士 、 s 口乂 、式"面110針對同樣的事件 同%呈現視覺及聽覺信息。 況 :另-具體實施例中’可能有介面偏好存 來改變該多模式介面110 依障 仃為。廷些介面偏好可造成動 92993.doc 1312984 或靜態行為。例如,動態行為可能包括依週遭之聲音 二來調正„亥系統之聲音及’或視覺特徵。因此,若該聲音 -過聽見聽覺信號’那麼則可以開啟視覺 =信號和視覺她號特徵。或者,聽覺信息可能不適 於如圖書館或戲院等安靜的環境中,而且可能會有介面 自 在以便於 <貞測到預設的情況時,便可關閉聽覺信
二聲音環境可能取決於背景噪音之取樣且以㈣取樣噪 曰轾度與預設之噪音臨界值做比較。 靜態行為可能包括特殊環境之調整式例外處理。可針對 =多模式介面11G内之個別項目來建立例外,其所造成的行 :’·、會夂駕其他一般性的介面設定。不論其他偏好組態為 ^例外都可建立或關閉經選定項目之聽覺及/或視覺信 ^丨如 應用情況内之特有提示信號及/或確認信息可 能與信用卡資訊相關’且使用者並不希望曝光該資訊。因
對該項目而言,便可建立一例外情況,以便關閉和該 l用卡資訊有關的聽覺及/或視覺確認信號。 η操作%,可在該多模式介面11〇内顯示資訊的視覺提示信 旒115(如預期班機之目標城市名稱的提示信號)供該多模式 ^算裝置105的使用者使用。同時,該多模式計算裝置1〇5 亦可產生一聽覺信號,用以提示該使用者該班機目的地。 ^如,該多模式裝置110可以發出嗶聲來引起使用者之注 忍。或者,該多模式裝置丨1〇可配合該視覺提示信號丨15, 利用口成s s吾來聽覺提示目的地城市。接著,該使用者便 可透過該多模式算裝置1〇5之麥克風說出其響應及/或透過 92993.doc -12- 1312984 多核式介面uo的⑽來輸入響應。該使用者之響應可能會 由該多料計算裝置1()5來處理。—旦經過内部處理,該使 用者便可具備一視覺確認信號125,用以顯示該多模式計算 裝置Η)5所理解的該使用者之響應。因為不需要任何聽覺確 認信號,所以,相較於習用需要有聽覺確認信號之系統, 該使用者與該多模式計算裝置1〇5間之交互作用便可更加 快速。接著,該制者便可透過—個则輸人及/或一個言 語響應來提供一確認響應信號13〇。 圖2為-流程圖,其中圖解的係利用圖n统的方法 二卜該方法200可於多模式介面之f景中實施’該多模式 "面包括一作為言語辨識工作的聽覺介面以及一作為視覺 呈現的視覺介面。方法允許善用該多模式介面之視覺功 t以便幫助複數個使用者和複數個多模式計算裝置間之 語音交互作用。該方法始於步驟2()5,其中使用者可以為該 多模式介面建立複數個偏好。在一具體實施例中,每當使 用者建立一個新的介面區段時,便可系統性地詢問該些偏 好。於另-具體實施例中’可以建立且儲存複數個偏好, 以供作為曰後使用。在此具體實施例中,該等偏好可能係 裝置相依或疋使用者指定。裝置相依偏好可套用於該裝置 之所有使用者的多模式介面。使用者指定偏好則可依據使 用者之身分來套用。於另-具體實施例中,當客戶偏好尚 未建立之前,可以先套用預設選項。 在v驟21 〇中,使用者偏好一經決定,介面呈現參數便可 依照該等經建立之偏好來作修改。介面呈現參數能夠判斷 92993.doc •13· 1312984 §亥介面是否呈現視覺信息、聽覺信息或兩者兼之。此内文 之^息包括言語輸入之提示信號及/或已收到之言語輸入 的確認信號。在步驟215中,可視情況來查明環境特徵。也 就疋說,部份具體實施例能夠容許如噪音程度及隱私需求 等環境考量來影響該介面環境,此等具體實施例能夠偵測 和該多模式介面之環境相關的預設情況,並且據此調整介 面呈現參數。 ,、媸貫她例·恥巴秸一惘禮貌性偏好,以防聽 覺提示信號發生於經取樣之噪音程度低於預設臨界值的時 候。據此,聽覺提示信號便不會發生在該线之該使用者 處於「安靜」區域(如圖書館)的時候。在另一個例子中,該 禮貌性之偏好可能係當有耳機連接至存在有該多模式介: 的裝置時便能㈣:欠啟動.聽覺提㈣號,即使環境噪音低 於預設門檻亦然。同樣地,可以建立安全參數,以便關閉 確認響應信號,致使機密資訊不會洩漏給不相干者。例如, 右輸入"is用卡破碼時,便可以问性β,日日 1更'Γ以冋時關閉視覺和聽覺確認信 號’以避免不小心洩漏該信用卡號瑪。 在步驟220中,若視覺提示信號之呈現參數被肯定設定, 那麼該介面便可為-言語輸入作視覺提示。該視覺 號可以取代聽覺提示信號或與之並行。另外,視覺提^ 號可能包括文字信息和可視覺呈現之任何其他物件,: 形、圖表、影像、地圖或類似物件。在步驟225中 = 接收到該言語輸入。此輸入可能係獲 a ,上 又取目—輸入裝置,你 如一個内崁式或一個外部附加之麥 兄風或者,該言語秦 92993.doc -14· 1312984 入可能係包含於一個已儲存的聲音檔案内,如一個 mp3(MPEG-l. Audio Layer-3)或一個 wav(Wave)槽。已儲存 之聲音檔案在讓使用者以聽覺方式預設一般性響應的具體 實施例中相當有用。例如’一使用者可以將信用卡號碼、 密碼、住址和相關事項儲存為聲音檔案,其可選擇性地作 為言語輸入響應。 在步驟230中,若視覺確認信號之呈現參數被肯定設定, 那麼該多模式介面便可以視覺方式來確認該言語輸入。該 視覺確認信號可以取代聽覺確認信號或與之並行。另外, 該視覺確認信號可能包括文字信息和可視覺呈現之任何其 他物件,如圖形、圖表、影像、地圖或類似物件。在一具 體實施例中’言亥使用纟可確認、該言語輸入是否經過正確解 讀。若不當解讀,便可提示該使用者重新輸入該言語輸入。 若正確解項,便可藉由提示另一個言語輸入來終止或繼續 該方法。 本發明可實現成硬體、軟體或硬體與軟體的組合。本發 明可以集中方式實現於—電腦系統内;或以分散方式來實 現’將數個不同元件分散於數部互相連結之電腦系統上。 任何電腦系統種類或可用於實現本文所述 之方法的其它設
此處所述之該等方法的所有特徵, 。°中,其包含用於實現 且其當載入到一電腦系 92993.doc 1312984 :便能夠實行這些方法。在本文中的電腦程式可代 號,m為任何語言、編碼或記 ;:、4…的係讓一系統具有一資訊處理能力來執 丁 特定功能,其可直拄推;^ 來p 直接進灯或在下面任一者或兩者之後 來進仃:(a)轉換到另一 +、 ^ ^ 個扣1"編碼或記號;及(b)以不同
的材料形式再生。 、彳个IJ 本發明能夠用其他特定形式來 明的r热"丄 ^式來具體化’❿不會脫離本發 月的乾疇及基本特性。因 圍 應該參考下文的申請專利範 圍而“述規格’方能指出本發明之範嘴。 【圖式簡單說明】 圖示中所示的係目前較佳 的八體κ施例,然而,應瞭解 的係’本發明並不侷限於 _ 、圖中所不的刻板配置及部件,豆 圖1為一概略圖,其中圖念2 Μ / 八中圖解的係根據本文所揭示之創新 置,利用視覺信息提升語立六 丌D 3父互作用的系統。
圖2為一流程圖,其中_ & 【主要元件符號說明】 自、圖解的係利用圖ί之系統以視覺 w k升語音交互作用的方法。 105 多模式計算裝置 110 多模式介面 115 提示信號 120 輸入元件 125 確認信號 130 確認響應信號 92993.doc -16 -

Claims (1)

  1. m罗胤2993號專利申請案卜♦曰修(更)正替換頁 中文申晴專利範圍替換本&年10月) 十、申請專利範圍: 1 · 一種利用視覺信息於一多模式計算裝置中提升語音交互 作用之方法,其包含以下少驟: 提供一多模式介面,其包括一聽覺介面與一視覺介面; 建立該多模式介面之至少一介面偏好’其中該至少一 介面偏好控制該多模式介面之聽覺與視覺提示行為以及 聽覺確認行為; 依<Β、ν、β亥至少一介面偏好’於该多模式介面内視覺呈現 至少一項信息,其中,該信息為言語輸入之一聽覺或視 覺提示信號以及該言語輸入之一聽覺確認信號中至少其 中一者; 接收該言語輸入;及 對该言語輸入之至少一部份實施一語音辨識工作。 2.如申請專利範圍第1項之方法,該方法進一步包括下列步 驟: 於該接收步驟前,於該多模式介面中視覺呈現該言語 輸入之該提示信號;及 於該接收步驟後,於該多模式介面中視覺呈現該言語 輸入之該確認信號。 3·如:請專利範圍第2項之方法,進一步包括以下步驟: 右L取樣之°呆音等級係低於-預定的臨界值,預防 於s亥多模式介面中以齡興十4 σ ’公見方式壬現該至少一信息。 4.如申請專利範圍第1項 貝 < 方法’進一步包括下列步驟: 允許該多模式介面之 <使用者建立至少一介面偏好以用 92993-971003.doc 更)正替換頁 於控制該聽覺與視覺之提示行為及該聽覺與視覺之確認 行為;及 以該至少一介面偏好為基礎判斷是否以聽覺或視覺呈 現之該等信息中至少其中一者。 5.如申請專利範圍第4項之方法,其中該至少一介面偏好與 建立言語輸入之視覺提示信號相關,該方法更進—步包 括下列步驟: 若該至少一介面偏好肯定表示視覺提示信號,便於該 多模式介面中以視覺方式呈現該言語輸入之該提示信號 :及 若該至少一介面偏好否定表示視覺提示信號,便以聽 覺方式來提示該言語輸入。 6·如申請專利範圍第4項之方法,其中該至少一介面偏好與 為建立言語輸入之視覺確認信號相關,該方法更進一步 包括下列步驟: 若該至少一介面偏好肯定表示視覺確認信號,便透過 該多模式介面提供該言語輸入之視覺確認信號;及 若該至少一介面偏好否定表示視覺確認信號,便透過 该多模式介面提供該言語輸入之聽覺確認信號。 7.如申凊專利範圍第4項之方法,進一步包括下列步驟: 決定—使用者身分;及 依據該使用者身分,從一資料儲存體中取得該至少— 介面偏好。 8 ·如申叫專利範圍第4項之方法,進一步包括下列步驟: 92993-971003.doc
    為保王執行建立一個例外來抗衡該多模式介面内之 ---•^同 目,j 、 /、T,該例外狀況會凌駕和該項目相關之該 至少、’I面偏好;及 判斷是否呈現兮楚4目風A 見該4視覺h息以及響應該例外之該等 覺信息:至少其中一者,其藉由 ^ 識別疋否-保全執行被該多模式介面呈現; 如果疋,使聽覺確認回應失效以 聽覺播放。 驭级往貝Λ之 9. 如申請專利範圍第1項之方* 查明會在其中呈規兮夕 ^ ^ 列步驟: ;及 見該4式介面的環境的-聲音特徵 響應該查明步驟’判斷是否 少其中一者。 見王現該寻k息中至 10. 一種利用視覺信息於一多模式計 作用之系、统,其包含以下H 、 k升s吾音交互 用以提供-多模式介面的構件, 聽覺介面與一視覺介面. 夕吴式介面包括— “用以查明—環境之聲音特徵的構件… 模式介面被呈現; 在§亥環境内該多 用以根據該聲音特徵建立用*言亥h 、 介面偏好的構件; 夕模式介面之至少— 若該聲音特徵識別出_吵雜的 — ,用以於該多模式介面中以視覺、欢—安靜的環境時 —視覺提示之信息的構件; 、呈現至少一項作為 92993-971003.doc Θ·^3| δθ8^)正替換頁; 若該聲音特徵識別出-吵雜的環境或一安靜的環境時 ,用以接收該言語輸入作為一聽覺確認介面的構件;及 用以對該言語輸入之至少—部份實施語音辨識工作的 構件。 11 一種機器可讀取儲存器,於1 〃上儲存一具有複數個代碼 區段之電腦程式,可由—機哭t ^ 機态來執行該等代碼區段,以 便讓έ亥機器執行下列步驟: =一多模式介面,其包括—聽覺介面及— 呈:明一環境之聲音特徵,在該環境内該多模式介面被 根據該聲音特徵建立用於該多模式介面之至少 偏好,其中該至少一介而值 ;丨面 偏好控制該聽覺與視覺 行為及該聽覺與視覺之確認行為; ’、 於s亥多模式介面中以視 优見万式呈現至少一項 中,該信息為一古注輪入夕 ^ 、乜心其 D π輸入之—聽覺或視覺之提示传號及 一之—聽覺確認信號中至少其中一者; 接收該言語輪入丨及 , 對5亥έ語輪入之至少一杏A 1 9 J, * Φ 〇刀只施語音辨識工作。 】2.如申Μ專利範圍第丨丨 .. 、之機盗可讀取儲存器,龙進牛 包括下列步驟: t π 其進一步 於該接收步驟前,若罄 々右5亥聲音特徵識別出一吵雜沾严产 或一安靜的環境時, /雜的%拢 入之該提示信號;及 見呈見该言語輸 於該接收步驟後,若該聲 将铽熾別出一吵雜的環境 92993-971003.doc -4- 更)正替換頁1 或一安靜的環境時號0 聽覺接收一 该言語輪入之該確認信 其進一步 其進一步 α如申請專利範圍第12項之機器可讀取儲存器 包括下列步驟: 於该多模式介面中 當該親和介面係在一耳機模式中 以聽覺方式呈現該至少一信息。 14·如申請專利範®第山頁之機器可讀取儲存器 包括下列步驟: 當一經取樣之噪音等級係低於用來識別—安靜的區域 的—臨界值,允許該多模式介面之一使用者建立至少一介 面偏好其預防聽覺提示;及 以邊經取樣之口喿音等級為基礎判斷是否以聽覺呈現之 δ亥等信息中至少其中一者。 15·如t請專利範圍第14項之機器可讀取儲存器,Μ ,該 至少-介面偏好與建立言語輸入之視覺提示信號相關; 忒方法進一步包括下列步驟: 若該至少一介面偏好肯定表示視覺提示信號,便於該 多模式介面中以視覺方式呈現該言語輸入之該提示信號 ;及 若該至少-介面偏好否定表示視覺提示信號,便以聽 覺方式來提示該言語輸入。 16.如申巧專利範圍第〗4項之機器可讀取儲存器,其中該至 ν "面偏好與建立言語輸人之視覺確認信號相關,該 方法進一步包括下列步騾: 92993-97J003.doc > =該至少—介面偏好肯定表示視覺確認信號,便透過 5亥多模式介面提供該言語輸入之視覺確認信號;及 j :4至J 一介面偏好否定表示視覺確認信號,便透過 s亥多模式介面提供該言語輸入之聽覺確認信號。 17.如申請專利範圍第14項之機器可讀取儲存器 包括下列步驟·· /、運步 決定一使用者身分;及 好 依據該使用者身分,從資料儲存體中取得該等介面偏 18·如申請專利範圍第14項之機器可讀取儲存器,其進一步 包括下列步驟: 為—保全執行建立—個例外來抗衡該多模式介面内之 :個項目’其中,該例外將凌駕和該項目相關之該至少一 介面偏好;及 :斷疋否呈現該等視覺信息中以及響應該例外之該等 見信息中至少其中一者,其藉由: 識別是否—保全執行被該多模式介面呈現; 聽使聽覺確認回應失效以預防-敏感性資訊之 92993-971003.doc
TW093112993A 2003-05-20 2004-05-07 Method of enhancing voice interactions using visual messages TWI312984B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/441,839 US7966188B2 (en) 2003-05-20 2003-05-20 Method of enhancing voice interactions using visual messages

Publications (2)

Publication Number Publication Date
TW200519835A TW200519835A (en) 2005-06-16
TWI312984B true TWI312984B (en) 2009-08-01

Family

ID=33450092

Family Applications (1)

Application Number Title Priority Date Filing Date
TW093112993A TWI312984B (en) 2003-05-20 2004-05-07 Method of enhancing voice interactions using visual messages

Country Status (4)

Country Link
US (1) US7966188B2 (zh)
KR (1) KR20060017757A (zh)
TW (1) TWI312984B (zh)
WO (1) WO2004104812A1 (zh)

Families Citing this family (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348658A (ja) * 2003-05-26 2004-12-09 Nissan Motor Co Ltd 車両用情報提供方法および車両用情報提供装置
US7765302B2 (en) * 2003-06-30 2010-07-27 Nortel Networks Limited Distributed call server supporting communication sessions in a communication system and method
US7702727B2 (en) * 2003-09-30 2010-04-20 Avaya, Inc. Apparatus, method, and computer program for providing multimedia prompting in a communication system
US7389235B2 (en) * 2003-09-30 2008-06-17 Motorola, Inc. Method and system for unified speech and graphic user interfaces
US7454608B2 (en) * 2003-10-31 2008-11-18 International Business Machines Corporation Resource configuration in multi-modal distributed computing systems
US20060041926A1 (en) * 2004-04-30 2006-02-23 Vulcan Inc. Voice control of multimedia content
DE102004035244A1 (de) * 2004-07-21 2006-02-16 Givemepower Gmbh Verfahren zum abrufbaren Speichern von Audiodaten in einer Computervorrichtung
JP2006081061A (ja) * 2004-09-13 2006-03-23 Alpine Electronics Inc 音声出力装置及び音声/映像出力装置
US9083798B2 (en) 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US8108798B2 (en) * 2004-12-29 2012-01-31 Sap Ag Method and system for implementing enhanced buttons in a graphical user interface
US20060287865A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Establishing a multimodal application voice
US8090584B2 (en) * 2005-06-16 2012-01-03 Nuance Communications, Inc. Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency
US20060288309A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Displaying available menu choices in a multimodal browser
US8032825B2 (en) * 2005-06-16 2011-10-04 International Business Machines Corporation Dynamically creating multimodal markup documents
US20060287858A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Modifying a grammar of a hierarchical multimodal menu with keywords sold to customers
US7917365B2 (en) 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
GB0513786D0 (en) * 2005-07-05 2005-08-10 Vida Software S L User interfaces for electronic devices
US8452604B2 (en) * 2005-08-15 2013-05-28 At&T Intellectual Property I, L.P. Systems, methods and computer program products providing signed visual and/or audio records for digital distribution using patterned recognizable artifacts
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US8719034B2 (en) 2005-09-13 2014-05-06 Nuance Communications, Inc. Displaying speech command input state information in a multimodal browser
US20070129949A1 (en) * 2005-12-06 2007-06-07 Alberth William P Jr System and method for assisted speech recognition
US9208785B2 (en) * 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US7848314B2 (en) 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
US20070274297A1 (en) * 2006-05-10 2007-11-29 Cross Charles W Jr Streaming audio from a full-duplex network through a half-duplex device
US8332218B2 (en) 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US7676371B2 (en) 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
GB2440766B (en) * 2006-08-10 2011-02-16 Denso Corp Control system
US8145493B2 (en) 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US8374874B2 (en) 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8086463B2 (en) 2006-09-12 2011-12-27 Nuance Communications, Inc. Dynamically generating a vocal help prompt in a multimodal application
US8073697B2 (en) * 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US7957976B2 (en) 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US9830912B2 (en) 2006-11-30 2017-11-28 Ashwin P Rao Speak and touch auto correction interface
WO2008067562A2 (en) * 2006-11-30 2008-06-05 Rao Ashwin P Multimodal speech recognition system
US7827033B2 (en) * 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US8417529B2 (en) * 2006-12-27 2013-04-09 Nuance Communications, Inc. System and methods for prompting user speech in multimodal devices
US8612230B2 (en) 2007-01-03 2013-12-17 Nuance Communications, Inc. Automatic speech recognition with a selection list
US8069047B2 (en) 2007-02-12 2011-11-29 Nuance Communications, Inc. Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
US8150698B2 (en) 2007-02-26 2012-04-03 Nuance Communications, Inc. Invoking tapered prompts in a multimodal application
US7801728B2 (en) 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US7840409B2 (en) 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US20080208594A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Effecting Functions On A Multimodal Telephony Device
US7822608B2 (en) 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US9208783B2 (en) 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US7809575B2 (en) 2007-02-27 2010-10-05 Nuance Communications, Inc. Enabling global grammars for a particular multimodal application
US20080208586A1 (en) * 2007-02-27 2008-08-28 Soonthorn Ativanichayaphong Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application
US8938392B2 (en) 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US8713542B2 (en) 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US7945851B2 (en) * 2007-03-14 2011-05-17 Nuance Communications, Inc. Enabling dynamic voiceXML in an X+V page of a multimodal application
US8515757B2 (en) 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US8670987B2 (en) 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
US20080235029A1 (en) * 2007-03-23 2008-09-25 Cross Charles W Speech-Enabled Predictive Text Selection For A Multimodal Application
US8909532B2 (en) 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
US8788620B2 (en) * 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8725513B2 (en) 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US8862475B2 (en) 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
TWI341956B (en) * 2007-05-30 2011-05-11 Delta Electronics Inc Projection apparatus with function of speech indication and control method thereof for use in the apparatus
US7962344B2 (en) * 2007-06-29 2011-06-14 Microsoft Corporation Depicting a speech user interface via graphical elements
US10133372B2 (en) * 2007-12-20 2018-11-20 Nokia Technologies Oy User device having sequential multimodal output user interface
US9349367B2 (en) 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US8229081B2 (en) 2008-04-24 2012-07-24 International Business Machines Corporation Dynamically publishing directory information for a plurality of interactive voice response systems
US8121837B2 (en) 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US8082148B2 (en) 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US8214242B2 (en) 2008-04-24 2012-07-03 International Business Machines Corporation Signaling correspondence between a meeting agenda and a meeting discussion
US20090319896A1 (en) * 2008-06-03 2009-12-24 The Directv Group, Inc. Visual indicators associated with a media presentation system
US9922640B2 (en) 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
US8380513B2 (en) * 2009-05-19 2013-02-19 International Business Machines Corporation Improving speech capabilities of a multimodal application
US8290780B2 (en) 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US8510117B2 (en) * 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
US8416714B2 (en) * 2009-08-05 2013-04-09 International Business Machines Corporation Multimodal teleconferencing
TWI413938B (zh) * 2009-12-02 2013-11-01 Phison Electronics Corp 情感引擎、情感引擎系統及電子裝置的控制方法
US8553859B1 (en) 2010-02-03 2013-10-08 Tal Lavian Device and method for providing enhanced telephony
US8406388B2 (en) 2011-07-18 2013-03-26 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8548131B1 (en) 2010-02-03 2013-10-01 Tal Lavian Systems and methods for communicating with an interactive voice response system
US9001819B1 (en) 2010-02-18 2015-04-07 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8572303B2 (en) 2010-02-03 2013-10-29 Tal Lavian Portable universal communication device
US8548135B1 (en) 2010-02-03 2013-10-01 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8879698B1 (en) 2010-02-03 2014-11-04 Tal Lavian Device and method for providing enhanced telephony
US8625756B1 (en) 2010-02-03 2014-01-07 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8594280B1 (en) 2010-02-03 2013-11-26 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8681951B1 (en) 2010-02-03 2014-03-25 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8537989B1 (en) 2010-02-03 2013-09-17 Tal Lavian Device and method for providing enhanced telephony
US8903073B2 (en) 2011-07-20 2014-12-02 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8687777B1 (en) 2010-02-03 2014-04-01 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8788269B2 (en) 2011-12-15 2014-07-22 Microsoft Corporation Satisfying specified intent(s) based on multimodal request(s)
US9418674B2 (en) * 2012-01-17 2016-08-16 GM Global Technology Operations LLC Method and system for using vehicle sound information to enhance audio prompting
US9934780B2 (en) * 2012-01-17 2018-04-03 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch
US9263040B2 (en) 2012-01-17 2016-02-16 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance speech recognition
US10209954B2 (en) 2012-02-14 2019-02-19 Microsoft Technology Licensing, Llc Equal access to speech and touch input
US8849666B2 (en) * 2012-02-23 2014-09-30 International Business Machines Corporation Conference call service with speech processing for heavily accented speakers
US8867708B1 (en) 2012-03-02 2014-10-21 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8731148B1 (en) 2012-03-02 2014-05-20 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US10381001B2 (en) * 2012-10-30 2019-08-13 Google Technology Holdings LLC Voice control user interface during low-power mode
US10304465B2 (en) 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
US9584642B2 (en) 2013-03-12 2017-02-28 Google Technology Holdings LLC Apparatus with adaptive acoustic echo control for speakerphone mode
US10373615B2 (en) * 2012-10-30 2019-08-06 Google Technology Holdings LLC Voice control user interface during low power mode
US9134952B2 (en) * 2013-04-03 2015-09-15 Lg Electronics Inc. Terminal and control method thereof
US9575720B2 (en) 2013-07-31 2017-02-21 Google Inc. Visual confirmation for a recognized voice-initiated action
US9728202B2 (en) 2013-08-07 2017-08-08 Vonage America Inc. Method and apparatus for voice modification during a call
US9299358B2 (en) * 2013-08-07 2016-03-29 Vonage America Inc. Method and apparatus for voice modification during a call
JP6226321B2 (ja) * 2013-10-23 2017-11-08 株式会社サン・フレア 翻訳支援システム、翻訳支援システムのサーバー、翻訳支援システムのクライアント、翻訳支援システムの制御方法、及びそのプログラム
US9430186B2 (en) 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
CN104635927A (zh) * 2015-01-27 2015-05-20 深圳富泰宏精密工业有限公司 互动显示系统及方法
US10224026B2 (en) * 2016-03-15 2019-03-05 Sony Corporation Electronic device, system, method and computer program
KR20170124836A (ko) * 2016-05-03 2017-11-13 엘지전자 주식회사 전자 장치 및 그 제어 방법
JP6966979B2 (ja) * 2018-06-26 2021-11-17 株式会社日立製作所 対話システムの制御方法、対話システム及びプログラム
US11544591B2 (en) 2018-08-21 2023-01-03 Google Llc Framework for a computing system that alters user behavior

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0163511A1 (en) 1984-05-29 1985-12-04 Texas Instruments Incorporated Apparatus for delivering procedural type instructions
US4707857A (en) * 1984-08-27 1987-11-17 John Marley Voice command recognition system having compact significant feature data
JP2584249B2 (ja) * 1986-10-31 1997-02-26 三洋電機株式会社 音声認識電話機
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
US5562453A (en) * 1993-02-02 1996-10-08 Wen; Sheree H.-R. Adaptive biofeedback speech tutor toy
US5612869A (en) * 1994-01-21 1997-03-18 Innovative Enterprises International Corporation Electronic health care compliance assistance
US5491774A (en) * 1994-04-19 1996-02-13 Comp General Corporation Handheld record and playback device with flash memory
US6091805A (en) * 1995-07-05 2000-07-18 Ncr Corporation Computerized voice response system
JP3729918B2 (ja) * 1995-07-19 2005-12-21 株式会社東芝 マルチモーダル対話装置及び対話方法
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
ES2176481T3 (es) * 1995-08-21 2002-12-01 Cornel Sirbu Dispositivo y procedimiento de acceso condicional.
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method
US5802526A (en) * 1995-11-15 1998-09-01 Microsoft Corporation System and method for graphically displaying and navigating through an interactive voice response menu
US5787445A (en) * 1996-03-07 1998-07-28 Norris Communications Corporation Operating system including improved file management for use in devices utilizing flash memory as main memory
US5892813A (en) * 1996-09-30 1999-04-06 Matsushita Electric Industrial Co., Ltd. Multimodal voice dialing digital key telephone with dialog manager
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
JP3886074B2 (ja) 1997-02-28 2007-02-28 株式会社東芝 マルチモーダルインタフェース装置
US6041300A (en) * 1997-03-21 2000-03-21 International Business Machines Corporation System and method of using pre-enrolled speech sub-units for efficient speech synthesis
CN1163869C (zh) * 1997-05-06 2004-08-25 语音工程国际公司 用于开发交互式语音应用程序的系统和方法
US6023688A (en) * 1997-11-28 2000-02-08 Diebold, Incorporated Transaction apparatus and method that identifies an authorized user by appearance and voice
US20010047263A1 (en) * 1997-12-18 2001-11-29 Colin Donald Smith Multimodal user interface
US6430174B1 (en) * 1997-12-26 2002-08-06 Nortel Networks Ltd. Communication system supporting simultaneous voice and multimedia communications and method of operation therefore
US6052439A (en) * 1997-12-31 2000-04-18 At&T Corp Network server platform telephone directory white-yellow page services
US6018711A (en) * 1998-04-21 2000-01-25 Nortel Networks Corporation Communication system user interface with animated representation of time remaining for input to recognizer
US6012030A (en) * 1998-04-21 2000-01-04 Nortel Networks Corporation Management of speech and audio prompts in multimodal interfaces
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
US6424357B1 (en) * 1999-03-05 2002-07-23 Touch Controls, Inc. Voice input system and method of using same
US7027991B2 (en) * 1999-08-30 2006-04-11 Agilent Technologies, Inc. Voice-responsive command and control system and methodology for use in a signal measurement system
GB9929284D0 (en) * 1999-12-11 2000-02-02 Ibm Voice processing apparatus
US20030023435A1 (en) * 2000-07-13 2003-01-30 Josephson Daryl Craig Interfacing apparatus and methods
WO2002010900A2 (en) * 2000-07-28 2002-02-07 Siemens Automotive Corporation User interface for telematics systems
ATE391986T1 (de) * 2000-11-23 2008-04-15 Ibm Sprachnavigation in webanwendungen
EP1209660B1 (en) 2000-11-23 2008-04-09 International Business Machines Corporation Voice navigation in web applications
US7028306B2 (en) * 2000-12-04 2006-04-11 International Business Machines Corporation Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers
US20020152255A1 (en) * 2001-02-08 2002-10-17 International Business Machines Corporation Accessibility on demand
US6834264B2 (en) * 2001-03-29 2004-12-21 Provox Technologies Corporation Method and apparatus for voice dictation and document production
US20020194011A1 (en) * 2001-06-19 2002-12-19 International Business Machines Corporation Apparatus, method and computer program product for selecting a format for presenting information content based on limitations of a user
US20030037243A1 (en) * 2001-08-14 2003-02-20 International Business Machines Corporation Method and system for managing the presentation of information
US6944474B2 (en) * 2001-09-20 2005-09-13 Sound Id Sound enhancement for mobile phones and other products producing personalized audio for users
US7324947B2 (en) 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
GB2388209C (en) * 2001-12-20 2005-08-23 Canon Kk Control apparatus
JP3984526B2 (ja) * 2002-10-21 2007-10-03 富士通株式会社 音声対話システム及び方法
US20040127198A1 (en) * 2002-12-30 2004-07-01 Roskind James A. Automatically changing a mobile device configuration based on environmental condition
US7054818B2 (en) * 2003-01-14 2006-05-30 V-Enablo, Inc. Multi-modal information retrieval system
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
US7487096B1 (en) * 2008-02-20 2009-02-03 International Business Machines Corporation Method to automatically enable closed captioning when a speaker has a heavy accent

Also Published As

Publication number Publication date
KR20060017757A (ko) 2006-02-27
TW200519835A (en) 2005-06-16
US20040236574A1 (en) 2004-11-25
WO2004104812A1 (en) 2004-12-02
US7966188B2 (en) 2011-06-21

Similar Documents

Publication Publication Date Title
TWI312984B (en) Method of enhancing voice interactions using visual messages
JP7209782B2 (ja) 凝視情報を用いたデバイス制御
JP7203135B2 (ja) 可変触覚出力のための意味論的フレームワーク
CN109463004B (zh) 数字助理服务的远场延伸
JP7473589B2 (ja) 音声通知を出力するための電子デバイス、方法、及びコンピュータプログラム
US9875734B2 (en) Method and apparatus for managing audio readouts
WO2018125717A1 (en) Audio message extraction
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
WO2019128103A1 (zh) 信息录入方法、装置、终端及计算机可读存储介质
EP2385520A2 (en) Method and device for generating text from spoken word
AU2012316484A1 (en) Automatically adapting user interfaces for hands-free interaction
US20170238026A1 (en) Determining a Playback Rate of Media for a Requester
US20080104512A1 (en) Method and apparatus for providing realtime feedback in a voice dialog system
CN113678133A (zh) 用于对话中断检测的具有全局和局部编码的上下文丰富的注意记忆网络的系统和方法
KR20190068133A (ko) 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법
US20050062726A1 (en) Dual display computing system
WO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
JP6950708B2 (ja) 情報処理装置、情報処理方法、および情報処理システム
JP6496220B2 (ja) 情報配信装置および情報配信プログラム
CN109658933B (zh) 一种语音识别解锁方法、移动终端及存储器
US11935449B2 (en) Information processing apparatus and information processing method
JP2017102522A (ja) 電子機器
US20210082427A1 (en) Information processing apparatus and information processing method
CN117501236A (zh) 用于听觉特征的方法和用户界面
KR20200094589A (ko) 컨텐츠를 생성하기 위한 전자 장치

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees