TW521262B - Method for enhancing dictation and command discrimination - Google Patents

Method for enhancing dictation and command discrimination Download PDF

Info

Publication number
TW521262B
TW521262B TW90119955A TW90119955A TW521262B TW 521262 B TW521262 B TW 521262B TW 90119955 A TW90119955 A TW 90119955A TW 90119955 A TW90119955 A TW 90119955A TW 521262 B TW521262 B TW 521262B
Authority
TW
Taiwan
Prior art keywords
text
user interface
surrounding area
voice
dictation
Prior art date
Application number
TW90119955A
Other languages
English (en)
Inventor
James R Lewis
Karry A Ortega
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Application granted granted Critical
Publication of TW521262B publication Critical patent/TW521262B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Description

521262 經濟部智慧財產局員工消費合作社印製 A7 B7_________ 五、發明說明() 發明領域: 本發明係關於語音辨識領域。更詳而言之,本發明係 關於一種提高對各使用者口述、使用者聲音命令與文字今 以辨識之能力的方法。 發明背景: 語音辨識是指將一話筒所收到的一聲音信號經由一 電腦轉變成文字的過程。然後,可以將所認出的文字用 來作為種種電腦軟體應用,例如文件準備、資料登記和 指令與控制的目的。語音口述系統還提供使用者不需使 用手的一電腦系統操作方法。 關於電子文件的準備’目前可使用的語音口述系統 提供可使一使用者在一電子文件中選擇一部份文字的使 用者聲音命令。一般這樣的使用者聲音命令是使用一語 法(syntax),例如”選擇 <文字 >",是代表在使用者聲音命 令”選擇”信號命令後方所跟隨的文字應該被選擇或被加 亮。在已選擇一部份文字之後,使用者能夠根據所選擇 的文字執行任何一連續的後續操作。 因此,如果有一使用者說:,,選擇你好嗎,,,語音口 述系統將在電子文件内的一文字正文中查尋文字片語,, 你好嗎”。置於文字正文内的片語可以被選擇或被加亮。 然後,使用者可以對所選擇的文字執行一操作,例 如一刪除操作,一粗體/斜體/底線操作時,或訂正操作。 在更進一步的說明中,當,,你好嗎,,文字被加亮時,使用 第5頁 本紙張尺度適用中國國家標準(CNS)A4規格(210了ϋ餐)------ (請先閱讀背面之注意事項再填寫本頁) ^ --------^ --------- 521262 A7 經濟部智慧財產局員工消費合作社印製 _______ Β7 __ 五、發明說明() 者所選擇之文字可以被來自一後續使用者表達的不同文 字所代替。在這個模式下,使用者能夠執行一電子文件 的不需手動之訂正(hands-free correction)。 目前,既有之"選擇"命令的執行,或其他用於選擇 文字的類似使用者聲音命令,具有幾個缺點。其中— '一 點是使用者想要在一文字正文之内所選擇的片語或字詞 可能會出現許多次。例如,在一文字正文之内很有可於 有許多次”這”字詞的出現。因此,如果使用者說:"選擇 這π語音口述系統能可能無法決定哪個"這"被選擇"字’ 的出現使用者想要選擇。 為解決此問題’習知的語音口述系統依靠—標準 統來決定哪個使用者所想要字詞或片語是使用者所邦、 選擇的《舉例來說,一語音口述系統可以從現用視窗 頂部開始搜尋’並選擇該字詞或片語的第一次出現。 而,如果該使用者不想要選擇該字詞或片語的第一次 現’ 一習知的語音口述系統可以為該使用者提供選擇 字詞另一次出現的能力。尤其一些習知的語音口述系 提供導引聲音命令例如”下一個,,或"先前的,,。 透過發出"下一個"聲音命令該使用者指示語音口 系統找出和選擇所想要的字詞或庄二五 〜b Ε^卜一次出現。 同樣地’ |,先前的”命令指示語音口述系統會找出 選擇所想、要的字詞或片語的先前的出現。雖然如此, 知的系統可使該使用者操縱一特令全叫+ 听疋子Η或片語所想要 出現’但是使用者必須詳盡闡迷用以操縱所想要之 第6頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 x 297 (請先閱讀背面之注意事項再填寫本頁) 系 要 的 出 該 並 習 出現 -------訂·-------- 521262 經濟部智慧財產局員工消費合作社印製 五、發明說明()
的對策。它可以導致i 导致時間的辰費和使用者的挫折感,尤 其疋當該使用者察警+五立· 口琉2 β 可π見,口 a 口述系統不十分精確或低效能 的時候。 在習知的語音口述系統之内的習知文字選擇方法的 另-缺點是’當要查尋使用者所指定的字詞或片語時, 如此的語音口述系統一般是搜尋出現在使用者的勞幕上 之-文字正文的整個部分。在使用者的螢幕上所出現的 每-字詞都在語音口述系統文法之内被活化,而對語音 口述线而言均具有相同之可能性。由於該使用者僅想 要單字a或片語,因此允許和搜尋在使用者的勞幕 上出現文字正文的整個部分可能是低效能的。此外,此 方法可能會增加一錯誤識別將出現的可能性。 習知語音口述系統之内的習知文字選擇方法的另一 缺點是,對語音口述系統而t,一使用者是否在語音口 述或一聲音命令期間已經發出一字詞並不是立即而明 顯,例如使一下拉式(drop_down)選單產生的聲音命令。 舉例來說,如果一使用者發出字詞”檔案,,,依據其情況, 使用者可能是打算使用在選單桿内之檔案選單或把字詞 ”檔案”插入電子文件中❶於是,對普通的語音口述系統 而"F,一使用者是否使用者的發聲表達是一聲音命令或 語音的口述並非總是十分明顯。 因此,雖然目前可利用的語音口述系統提供與一電腦 相互作用的方法而可聽見地命令一應用,以在一電子文件 中提供語音口述並在電子文件之内選擇文字,而仍然需要 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱) (請先閱讀背面之注意事項再填寫本頁) 訂---------_ 521262 A7 B7 使用者口述、文字和其結合的 ---------.-----------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 明係提供一方法和裝置用以辨 不同出現,和利用結合一眼睛 統用以辨識一聲音命令的一實 可以有利地包括與一語音口述 縱系統(eye-tracking system, 述系統期間一使用者的凝視的 "吾音口述系統合併發揮的眼睛 使用者聲音命令功能性,或在 字正文之内選擇一部份文字之 的精確度。本發明之眼睛追蹤 進使用者口述和聲音命令之間 排,一種用以在一電子文件中 可包括識別在一使用者界面中 周圍的一周圍區域。更詳而言 一文字正文在被安裝用以接收 界面物體之内。另外,該方法 文件之内選擇指定的文字並在 正文中搜尋符合該指定文字的 第8頁 五、發明說明() 用以辨識使用者聲音命令 一改進的方法。 發明目的及概述:_ 在此處所揭露的本發 識在一電子文件中文字的 追縱系統的一語音口述系 例和語音口述的一實例。 本發明的方法和裝置 系統合併發揮的一眼睛追 ETS),以決定在一語音口 焦距點。更詳而言之,與 追蹤系統可以改善"選擇,, 一語音口述系統中的一文 任何其他使用者聲音命令 系統的使用也可以透過促 之辨識來改進系統性能。 依據這些本發明之安 豆哥與文字相匹配的方法 的一焦距點和界定焦距點 之’該周圍區域可以包括 語音命令文字的一使用者 可包括接收一用以在電子 該周圍區域所包括的文字 本紙張尺度適用中國國家標準(CNS)A4規格(21〇 χ 297公釐) 521262 A7 --~__________B7 --- 五、發明說明() 聲音命令。值得注意的是,該搜尋可以被侷限於在該周 圍區域内之文字正文β 如果捷尋步驟中,在文字正文中沒找到一符合指定 文字的文字時,用以搜尋在一電子文件中之符合文字一 方法可以另包括擴展該周圍區域以包含該使用者界面的 —額外範圍^更詳而言之,該擴張所包括的額外範圍能 夠包括額外的文字。因此,可以對額外的文字搜尋一符 合指定文字的文字。最後,如同先前,該搜尋可以被侷 限於文字正文和額外文字。 在本發明的一實施例中,擴展步騾可以包括以一固 定的增加量從焦距點向外的擴展周圍區域。或者,擴展 步驟可以包括以與文字正文緊接的一可變數量文字使周 圍區域擴展。最後,擴展步驟可以包括以一可變的增加 量使焦距點的周圍區域向外擴展。 一種用以辨識一聲音命令的一實例和語音口述的一 實例兩者的方法可以至少包括在一使用者界面内識別一 焦距點;限定一周圍區域圍繞該焦距點;確認使用者界面 物件在該周圍區域内;再確認在已確認之使用者界面物件 之間那些是被裝配用以接收語音口述文字的使用者界面 物件和那些不是用以接收語音口述文字的使用者界面物 件;以那些使用者界面物件為根據計算出一已被再次確認 是用以接收語音口述文字的使用者界面物件和那些不是 用以接收語音口述文字的使用者界面物件的可能性;接收 語音輸入;及根據計算所得之可能性判斷下該語音輸入是 第9頁 本紙張尺度適用中國國家標準(CNS)A4規格(21〇 X 297公餐)--------- (請先閱讀背面之注意事項再填寫本頁) n n βϋ n n n n 一OJ· n n n §9 t n I · 經濟部智慧財產局員工消費合作社印製 521262 A7 B7 •^·---- 五、發明說明() 一聲音命令或是語音口述的一夹定 括在使用者界面之外識別一焦距點;及根據—隱▲ 此外’該方法可以包 (default)可能性判斷該語音輸入是—聲音命令或語音 述的一決定。 經濟部智慧財產局員工消費合作社印製 圖式簡單說明 下列之較佳實施例描述與其伴隨之圖示將更詳細的 解釋本發明之方法,然而應被瞭解的是本發明不應被這 些所顯示之精確安排與工具所侷限。 第1圖是一使用者與在此處揭露的本發明相互作用的一 示範說明。 弟2圖疋說明適用於本發明合適的一電腦系統的方塊 第3圖是在第1圖中之電腦系統的一特有高層級内部結構 的方塊圖。 第4圖顯示包括一語音辨識引擎之特有零件的方塊圖。 第5A圖和第5B圖,將一同被參考,組成一流程圖說明在 一電子文件中辨識文字的不同出現,和透過使用與 一語音口述系統結合的一眼睛追蹤系統辨識一聲 音命令的一實例和語音口述的一實例兩者的一方 法0 圖號對照說明: 20 電腦系統 22 眼睛追縱系統 第10頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公t ) ----------·-----------訂---------線 ^v! Γ靖先閱讀背面之注意事項再填寫本頁) 521262 24 作業系統 2 7 記憶存儲器 27B大量資料存儲媒體 29 眼晴追蹤硬體界面 A7 B7 五、發明說明(’ 23音頻輸出裝置 26語音口述系統 27A電子隨機存取記憶體 28語音文字處理器 30 音頻輸入裝置 ^ m η ^_^3~— 本發明禾利用與一語音口述系統結合的一眼睛追蹤 系統(ETS),以改進一語音口述系統的性能。更具體而 言,依據下列的發明安排,一眼睛追蹤系統(ETS)可以幫 助一語音口述系統辨識在一文字正文内之文字的多次出 現。 另外,一眼睛追縱系統(E T S)可以在分析語音輸入中 幫助語音口述系統辨識聲音命令和語音口述。如此的提 升可以藉由檢測在一眼睛追蹤系統(Ε τ S)中一使用者之 凝視焦距點的螢幕位置。有助益的是,不論這個螢幕位 置是否位於螢幕上或離開螢幕均可傳遞至語音口述系 統。基於使用者的凝視焦距點的位置圍繞焦距點的一區 域(參考"周圍區域”)可以被界定而有助於決定語音輸入 是否是聲音命令或語音口述。另外,可以用此周圍區域 來確認符合使用者所選擇之文字的一特定出現。 第1圖是一使用者與在此處揭露的本發明相互作用 的一示範說明。在第1圖中,使用者凝視一影像顯示終 端機(VDT)32上的一位置。利用位於影像顯示終端機32 第11頁 本紙張尺度適用中國國家標準(210 χ 297公 ---------------------訂---------線·卜 (請先Μ讀背面之注意事項再填冩本頁) 經濟部智慧財產局員工消費合作社印製 521262 A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明說明() 之螢幕上的一星號來標示使用者的凝視的焦距點。同時 被顯示的是具有一頭嵌式(head-m〇unted)硬體界面29的 一眼晴追蹤系統(ETS)。眼睛追蹤系統(ETS)是熟知被用 於眼晴追蹤和測量的技術中。眼睛追蹤系統(ETS),例如 由維吉尼亞州Fairfax之LC技術公司所製造之EYEGAZE 發展系統,及EYEMOUSE和EYELINK,二兩者由麻州 波士頓之SensoMotoric設備公司所製造’現在均提供為 商業利用。 一眼睛追蹤系統(ETS)的架構可以至少包括一眼睛 追蹤硬體界面29和一圖像處理系統34。眼晴追蹤硬體界 面29可以是可從LC技術公司所購得之一桌上型内嵌單 元。一示範的桌上型内嵌單元眼睛追蹤單元在第2圖中顯 示。或者’眼睛追蹤硬體界面29可以是可從sens〇MotoHc 公司所購得之一頭嵌式單元並顯示在第1圖中。不論是一 桌上型内嵌單元或一頭嵌式單元,眼睛追蹤硬體界面29 可以將關於一使用者眼睛的資訊傳遞給圖像處理系統 34 ° 圖像處理系統可以是一獨纟的圖像處理系统,或則 也可以存在於-普通電腦内。當圖像處理系統是在一i 通電腦内存在時’普通電腦可以利用圖像處理電路系: 和圖像處理軟體的一結合以執杆一· '' 仃圖像處理系統的功 能。那些擅長此項技術之人員應該理 以π w w 尽發明並不香 所選擇之眼睛追蹤系統(ETS)所限制. 又 y ^ 吏確切地說是,体 何可以把一使用者的凝視焦距的 ^ 置傳遞給電腦的任何 第12頁 本紙張尺度顧巾S g家標準(CNS)A4祕(21Q x 29?^^ 請 先 閱 讀 背 £ 之 注 意 事 項 再 填 寫 本 頁 Ιι 訂 線 521262 五、 經濟部智慧財產局員工消費合作社印製 A7 - - B7 _ _ " —_丨 — 發明說明() 合適眼睛追蹤系統(ETS)都可以被使用。 第2圖說明圖像處理系統3 4是以一普通電腦為基礎 的圖像處理系統的環境^更進一步詳細說來,一圖像處 理系統34可以包括具有一中央處理器(CPu),一或更多 的記憶體裝置和相關之電路系統的一普通電腦2〇。普通 電腦20可以包括電腦記憶存儲器27,其最好是由一電子 隨機存取記憶體27A和大量資料存儲媒體27B所構成,例 如一磁碟驅動機。最後,電腦20可以包括一指示裝置 2 1(例如一滑鼠)及至少一個使用者界面顯示單元32,例如 一影像顯示終端機(VDT)在操作上連接。 更詳而言之’電腦20可用以完成語音辨識及文字、對 -語音(text-to-speech ; TTS)轉換。就其本身而言,電腦 20可以另包括一音頻輸入裝置3 〇,例如一話筒。此外, 電腦20可以包括一音頻輸出裝置23,例如擴音器。音頻 輸入裝置30和音頻輸出裝置23二者可以透過合適界面電 路系統操作地或"音效卡”(未顯示)連接在電腦2〇上。透過 這個方法,可以利用音頻輸入裝置3 0接收使用者語音至 電腦20裡,而合成語音和其他音頻可以利用音頻輸出裝 置23提供給使用者。如上面所描述的普通電腦2〇所需要 的各種硬體通常是任何一各式可達到要求的商用高速多 媒體個人電腦可滿足,例如由IBM公司所製造之。 依據這些發明安排,電腦20可以另包括一眼睛追蹤 硬體界面29(在此處展示了桌上型種類),透過電腦2〇的一 通訊端口(未顯示)操作地連接至電腦20,再透過合適的圖 第13頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) ----------.-----------t---------^ — f請先閱讀背面之沒意事項再填寫本頁} 521262 A7 B7 五、發明說明( 像處理電路系統和軟體通訊地連接至電腦2G。更特別的 是’圖像處@電路系統和軟禮可以決定使用者的凝視焦 距0位置也可以把此資訊傳遞給與圖像處理軟體通訊 相連接的電腦運用。尤. J在本發明中,一語音口述系統可以 被通訊地連結至圖像處理軟體,而語音口述系統可利用 所收到的資料指示出一使用者的凝視的焦距點的位置。 第3圖說明一語音操作(speech-enabled)電腦系統的 特有内部結構,該電腦系統包含一眼睛追蹤系統(ETS), 而電腦系統是用以辨識在一電子文件内之文字的多次出 現和辨識一聲音命令的一實例和語音口述的一實例兩 者。如弟3圖中所示,電腦系統2 〇包括一記憶存儲器2 7、 一作業系統24、一語音口述系統26和一眼晴追蹤系統 22。在實施例中顯示,一語音文字處理器28的應用也被 提供。然而本發明在這一點上,而且語音口述系統2 6可 以用任何其他允許聲音使用的應用程式。 在第2圖中,語音口述系統2 6、語音文字處理器2 8 和眼睛追蹤系統2 2被顯示是分離的應用程式。然而應該 注意的是,本發明並沒有被限制在這一點上,而這些不 同的應用程式可以執行如一單一而更複雜的應用程式。 例如語音口述應用2 6可以與語音文字處理機應用或是任 何與語音口述系統一起使用的其他應用相結合。此外, 眼睛追蹤系統22可以是一應用程式儲存於電腦20中,或 是位在一獨立眼睛追縱系統通訊的通訊範圍内而透過一 資料連結與電腦2 0通訊。該系統也可以包括一聲音導引 第η頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) --訂---------線 經濟部智慧財產局員工消費合作社印製 521262 A7 B7 五、發明說明( 未顯示),用以協調語音口述系统對其他應用程 式的聲,操作的操作,但是在此處所描 作並不需要此應用。 請顯示特有零件的方塊圖’其說明在語音口述系 統26中語音-對-文字轉變的一語音信號。—般而言,數位 語音信號可以透過在第2圖所顯示的—音頰輸入裝置被 接收’並在音頻電路系統中被處理成為類比語音信號。 ”更具體而言,可以以某種固定的速率抽樣語音信 號以使居音化號可轉換成一組數位化資料。隨後,音 頻電路系統可以把數位化語音信號傳遞给語音口述系块 26 〇 表述方塊35可以接收數位化語音信號並可以產生一 數位化語音信號的表述,而被使用於在語音辨識過程的 後續1¾段以決疋一部份語音信號與一特限定語音事件相 籽合的可能性。此過程是用以加強從操作系統所接收之 语音信號’該語音信號具有不因說話者而異的知覺上重 要特徵。 在模式化/分類方塊3 6中,演算法可以更進一步處理 語音信號’以使不因說話者而異的聽覺模式適應那些項 今的說話者。最後,在搜尋方塊38中,根據該語音信號, 搜尋演算法係用以導引搜尋引擎至與語音信號最符合的 字詞。搜尋方塊3 8中的搜尋過程在聽覺模型40,字詞橐 模式42 ’語言模式44和訓練資料46的幫助下出現。 依據這些發明安排,辨識在一電子文件中文字的不 第15頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公餐) (請先閱讀背面之注意事項再填寫本頁) 訂---------線 經濟部智慧財產局員工消費合作社印製 521262 五 經濟部智慧財產局員工消費合作社印製 A7 B7 發明說明() 同出現和聲音命令的一實例和語音口述的一實例的一方 法和裝置在此處被揭露。本發明的方法和裝置可以包括 與一語音口述系統結合的一眼晴追蹤系統(ETS)的合作 使用。更詳而S之,此結合可以改進使用者聲音命令功 能"選擇”的精準度,或是在—語音口述系統中任何其他 用以在一又字正又内選擇一部份文字的使用者聲音命令 的精準度。此結合也可以透過協助語音口述系統把語音 輸入當作語音口述或聲音命令而改進語音口述系統的性 上述對一語音口述系統的增強可以藉由以檢測得到 的一使用者的凝視焦距點做為基礎,計算出短暫地近似 使用者的凝視焦距點的語音輸入是語音口述之一或是一 聲音命令的一可能性。計算所得的可能性可用以使一語 音口述系統把語音輸入視為語音口述之一或是一聲音命 令。更詳細而言,由於語音口述系統可連續不斷地留存 記錄和更新在該周圍區域内的文字和物件的有關資訊, 語音口述系統可以界定圍繞該檢測所得到的焦距點的一 可調整螢幕區域("周圍區域”)。 當收到語音輸入時,語音口述系統可以決定謗周圍 區域主要是包含有使用者界面物體或是一文字輪入領 域。如果此周圍區域主要包含有一文字輸入領域,★五立 口述系統可以得到如此的結論,應該把語音輪入當作组 音口述,以插入文字輸入領域裡。相反地,如果此周圍 區域主要包含的是使用者界面物體’語音口述系纟先可以 第16頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公餐) (請先閱讀背面之注意事項再填寫本頁) --------訂---------線 521262 五、發明說明() 把語音輸入當作是一聲音么人 曰命令。最後,當把語音輸入去 作是一聲音命令,以在之念 田 子輸入領域中的一文字正文中 選擇一文字,語音口述系这^ T、、,死可以確認所選擇的文字是 於在此周圍區域内的文字,^ & 而不是在這個文字輸入領始 内的一全部文字正文。以 , 义個梃式,語音口述系統的資 電子 A7 源可以更有效地致力於〜毋, 文小的文字區域,而非 文件中的^一整個文字正文 第5A圖和第5B圖, Η參考,組成一流程圖說明 一電子文件中辨識文字的τ m , J不同出現和透過使用與一語立 口述系統結合的一眼晴ϋ价$ ^ "災破系統辨識一聲音命令的—杂 例和語音口述的一實例兩去 、 、、 灵 叼耆的一万法。該方法可以與 了一語音口述系統和一眼味, ' 眼晴追蹤系統(ETS)的使用二者 所設置的一電腦系統相連站 —C Α初 文〜而被執行。第5A圖從步驟5〇 開始’其中當該使用者對注立 $ a町,口甘口述系統提供語音輸入 時,會自然地凝視在影像顯示終端機3 2上(在螢幕上)或不 在影像顯示終端機32上(不在螢幕上)任一者的各種位 置。 在步驟5 5中’眼晴追蹤系統確認使用者的凝視焦距 點的位置β眼睛追縱系統利用圖像處理電路系統和軟體 的幫助來決定使用者的凝視的焦距點的位置是在勞幕上 或是不在螢幕上。不論如何,眼睛追蹤系統會把此資訊 傳遞給語音口述系統。在步驟6 0中,語音口述系統已從 眼睛追蹤系統得到使用者的焦距點的位置。如果使用者 的凝視焦距點的位置在螢幕上,系統便進行步驟7 0。否 第17頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公餐) ----------«—--------訂---------線 · f請先閱tt背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 521262 A7 B7 五、發明說明() 則,該系統則繼續步驟65。 如果在步驟60中已決定焦距點的位置是在螢幕上, 眼睛追蹤系統也已確認使用者的凝視焦距點的螢幕位 置。因此’在步驟70中,可在焦距點周圍界定一周圍區 域。在一實施例中,可根據從焦距點向外擴展的一特定 半徑的一周邊來界定該周圍區域。或者,也可以藉由在 焦距點上覆蓋一預定的幾何區域來界定該周圍區域。 可是’本發明並不僅限於用以計算該周圍區域的方 法。更確切的說,任何用於計算該周圍區域的合適方法 均可以滿足本發明的目的。此外,任何熟知該項技術之 人員都應理解,不管是如何決定該周圍區域或是該周圍 區域的最終形狀,在一外部周邊區域之内的預設區域或 尺寸均可以是一使用者可調整值。例如,使用者可以指 定一預設區域或在其中選擇其一,使用者可以指定該周 圍區域應該從焦距點向外擴展的一半徑。 在步騾75中,在界定該周圍區域之後,在該區域之 内有關文字和物體的資訊可以被獲得,以用以決定是否 應該把語音輸入當作語音口述或是當作一聲音命令,並 在一電子文件中確認符合之文字的一特定出現。更特別 的是,所獲得之資訊可包括,例如用以顯示使用者界面但 不適合用以接收語音口述文字的像素數目,和用以顯示 使用者界面並適合用以接收語音口述文字的像素數目。 應該被理解的是,經由界定一限制區域可使語音口述系 統可和:供其資源’而語音口述系統會達到更高的效率。 第18頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) 訂----------線一 經濟部智慧財產局員工消費合作社印製 521262 A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明說明() 例如,語音口述系統僅需要在周圍區域之内找到語音口 述文法所含之文字的一些符合部分,而不是一整個^ 2 口述文法。 51 在步驟80中,基於語音口述可被視為是—聲音命令 或是語音口述,可計算出一可能性。更具體而言,可以 精由計算該周圍區域的可口述範圍與該周圍區域的總範 圍相比較的一比例來計算得到該可能性。例如,如果 的周圍區域可以接收使用者口述,則可能性會是7〇%或 〇、·70。可是,本發明並沒有被侷限於計算可能性的特定 式中。而事實上,可能性的其他計算方式可以是以, 如在該周圍區域内之原文的或命令的字詞的數目與在 用於使用者聲音命令的周圍區域内之物體的數目兩者 17匕率等為基礎0 儘管如此,不管可能性是如何被計算的,應該被 解的是,.較佳的可能性不會是零也不會是代表後續使 者發聲將一定是使用者口述或使用者的聲音命令的一 全必然結果。由於不容許如此極端可能性值,可容許 用者沒有凝視勞幕卻想要對語音口述系統命令語音的 況。 如果’在決定步驟60中,它決定使用者的凝視焦 點是在一離開螢幕的位置時,在步驟6 5中系統可以將 然率設定成一預設值。 這個預汉值被稱為隱含可能性,並可以由使用 先設定。隱含可能性是代表當使用者的凝視不是在 第19頁 本紙張尺度適用中國國家標準(CNS)A4規格(21〇 x 297公釐) 模 例 可 的 暸 用完 使情 距 或 者預螢幕 ----------1—--------訂---------線·. {請先閱讀背面之注意事項再填寫本頁) 521262 A7 五、發明說明( 上時,後續的語音輸入是語音 ^ ㈢口述I 一或一聲音命令的 統計可能性。於是,以隱含, 了把性為基礎的一統計分 析可以表明當使用者不是在吾媿重7 ·、& 1疋在看螢幕但茲使用者希望語音 輸入被當作語音口述的可能性。 預設可能性可有一可_敕处#㈤w ^ J凋整值範圍從零(〇·〇〇)到一 (ΐ·〇〇)。更詳而言之,任何孰知兮a斗&、 w…、4孩向技術<人員都應理解 的是’當分配-高數值給預設可能性時,即代表在語音 口述期間涿使用者不必直視螢幕的假設。然而,預設可 能性不代表在使用者不直視螢幕時所提供的語音輸入應 該完全必然被視作是語音口述或一聲音命令會是一較佳 的作法。如此的必然可能性可能會在語音口述系統内產 生錯誤結果。 在步驟85中,在計算一可能性或依靠一預設可能性 以後m ^輸入可以被接收。基於藉由眼睛追縱系統的 協助而取得之可能性,可以分析語音輸入以決定是否應 該把該m g輸入視為語音口述或是一聲音命令。然後, 本方法可以從跳移圓圈Α跳至第5Β圖中的決定步驟95以 繼續處理語音輸入。 在決定步驟95中,可以決定在步驟85中所收到的語 音輸入是否是"選擇,,聲音命令,或是用以在一電子文件 之内選擇文字的其他的類似聲音命令。如果語音輸入被 解釋為不是選擇命令,本方法將繼續步驟97,兩個行動 的其中之一》首先,如果語音輸入被認定是另一聲音命 令但不是選擇聲音命令時,該聲音命令可以被當作是一 第20頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) -n —1 SMm§ β·ϋ n m 一 c In In flu I m m n I ▲ 經濟部智慧財產局員工消費合作社印製 521262 A7 經濟部智慧財產局員工消費合作社印製 五、發明說明(, 習知語音感應應用的情況。接著,如果語〜 是語音口述時,可以藉由一 =^ ?涊定 Μ拖成A +、 %曰辨硪引擎使該語音輸入 轉換成為又竽。其後,可把 』把已轉換的文字插入,用 接收轉變的文字的一使用者 J 汊用首界面物體。不論哪一種情 況本方法均可以透過跳移圓圈c返回到第$ A圖中的步騾 50,並且可以重複流程。 > 再回到決定步驟95中,如果決定在步驟85中所收到 的語音輸入是一選擇聲音命令或是用以在一電子文件之 内選擇文字的其他的類似聲音命令時,在步驟100中可 決定符合選擇命令之指定的文字是否位在此周圍區域 包含之文字正文中。例如,如果已經把語音輸入視為 擇命令,”選擇老鼠”此選擇命令,可以決定在此周圍 域所包含之文字正文是否包有括字詞”老鼠”。如果在 驟1 00中為指定文字找到一符合文字,本方法可以繼續 行步驟105。反之,本方法則可以繼續進行步驟110❶ 依據步騾1 00 ,如果為指定文字找到一符合文字,在 步驟105中,可以選擇對指定文字而言最適當的符合文 字。更具體的說是,如果在此周圍區域之文字正文内只 有一符合文字,則該唯一文字符合實例會被選擇,一 是加亮該文字之符合出現。相反地,如果在此周圍區 之文字正文内該符合文字有多次的出現’則可決定在 周圍區域之文字正文中哪一個指定文字的實例是最接 以 所 選 區 步 進 般 此 近 焦距點。如此一來,可以.利用使用杳的凝視焦距點來決 定應該選擇哪個符合文字的實例。佴是,本發明並沒有 第21貰 本紙張又度適用中國國家標準(CNS)A4規格(21〇 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) ··# 訂---------線* 521262
經濟部智慧財產局員工消費合作社印製 五、發明說明() 被偈限於這一點,而也可滿足適合用以在付合文丰的多 次出現中選擇一符合文字的實例。如此的選擇方法可以 包括選擇在此周圍區域之文字正文内該符合文字的第一 次出現。 一旦已經確認指定文字的適當出現便可選擇該確認 文字,一般是將文字加亮。需要暸解的是,在這種情況 下若有一不正確的或不所想要得到的指定文字的出現已 被選擇時,一般的聲音命令,例如”先前的”或”下一個" 可以被用來在此周圍區域内引導符合文字的其他出現。 不論如何,本方法可以返回透過跳移圓圈C返回到第5 A 圖中的步驟50以再次開始流程。因此,藉由重複流程, 本方法可再次計算此周圍區域並決定後續收到的語音輸 入疋?吾音口述或一聲音命令的可能性。 現在返回到決定步驟1丨0中,如果在此周圍區域之文 字正文内找不到任何符合文字時,可以決定此周圍區域 疋否包含用以接收語音口述的所有可看見的使用者界 面。如果答案是確定’可以假設在螢幕上的文字正文中 ’又有符合文字,而如在步驟1 1 5中,使用者可以被通知。 在未顯示於第5B圖的另一實施例中,,若沒有符合文字 存在於螢幕上時,本系統可以提供使用者額外選擇,以 延續和另擴展針對使用者指定文字的搜尋。舉例而言, 也可以詢問使用者是否想要搜尋目前所打開之電子文件 的剩餘部分。此外,可以把更多挑出的選擇呈現給使用 者’例如利用在此周圍區域之後或在其之前的一預定或 第22頁 本紙張尺度適用中國國家標準(CNS)A4規格㈣x 297公爱)" ' """"" —I—I h —--------訂·-----1— (請先Μ讀背面之注意事項再填寫本頁) 521262 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明() 使用者可調整之數目的字詞或段落來擴展此周圍區域。 在任何情況下,本方法隨後仍可以返回透過跳移圓圈c返 回到第5 A圖中的步騾5 0以重新開始流程。 相反地,如果在步驟100中決定此周圍區域並沒有包 含用以接收語音口述的所有可看見的使用者界面時,便 無法假設在螢幕上的文字正文中沒有符合文字。如此一 來,繼續步驟1 20,被此周圍區域所涵蓋的區域可以被擴 展,以包含更多的文字。可以利用任何合適的方法來執 行此周圍區域的一擴展。例如,可以從使用者焦距點以 一預定的或可變地計算值向外均等地朝向所有方向擴展 此周圍區域的外面周邊。此外,也可以從使用者焦距點 以代表一區域測量的一預定值擴展此周圍區域。 在本發明的一實施例中,一隱含預定值可以被用於 決定擴展的範圍。隱含值可以是可調整的以提供一良好 調整功能。以這個模式,在一重複搜尋的期間一使用者 可指定此周圍區域應該增加至多大。參考先前的實例, 如果使用者所指定之文字”老鼠"並沒有在此周圍區域之 文字正文内被找到時,此周圍區域的周邊可以從使用者 焦距點朝所有方向向外擴展1公分。此外,也可以以5平 方公分的一預定範圍或特定數目的像素擴展此周圍區 域。 在此周圍區域的擴展之後,在步驟i 25中,位在此新 擴展的周圍區域之内的物件和文字的有關資訊可以被計 算、收集和存儲,以提供本發明方法的未來使用。此外, 第23頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱) ----------:------------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 521262 A7 B7 五、發明說明( 經濟部智慧財產局員工消費合作社印製 在此新擴展的周圍區域之内的新文字正文可以在語音口 述系統文法之内被使用。同樣的,在此新擴展的周圍區 域之内的物件的屬性可以被確認。在確認此新擴展的周 圍區域之内的文字和物件後之,對文字正文中的符合文 半的搜尋可以透過在步驟1 〇〇中之跳移圓圈B重複開始。 以這個模式,本方法可以有系統地和漸增地擴展對一文 牟正文内之使用者指定文字的搜尋於文字正文在螢幕 的部分並超出其部分。 更詳而言之,本發明可以利用硬體、軟體或硬體 軟體的一結合實行。本發明的方法可以在一電腦系統 以一集中方式或是以一分發方式實行,而不同元件被 散於數個相互連接的電腦系統之間。任何種類的電腦 統或其他的設備可用以實行此處所描述之方法均應 用。其中硬體和軟體的一常見結合可以是包含—電腦 式的--般用途電腦系統,當本發明方法被載入與執 時可控制該電腦系統。 本發明也可以内建於一電腦程式產品中,其包括 本發明方法執行的所有特點’而且當電腦程式產:被 入於-電腦系統中便可以實行這些方法。電腦程:機 或在本語文機制中使用各種形式、任何語言、代碼或 號的一組電腦指令預期將使具有資訊處理能力的二1 可直接或在下列兩者或其中之一 ” τ ^ 過程又後執行一特定 能·· a)轉變至另一種語言、代碼 代碼或付唬,b)以—不 形式再生產。 第24頁 Μ氏張尺度適財闕家鮮(CNS)A4祕(210 x29?i^ 上 和 中 分 系 程 行 使 载 制 符 功 料 --------rip--------訂---------線釋 (請先閱讀背面之注意事項再填寫本頁) 521262 A7 B7_ 五、發明說明() 本發明已經按照一些實施例被描述。然而,並非將本 發明侷限於說明和實施例的描述。其他不脫離本發明基本 架構與精神的形式,皆應為本專利所主張之權利範圍,更 確切的說是,應由下列的專利範圍界定本發明的範圍。 (請先閱讀背面之沒意事項再填寫本頁) 訂---------% 經濟部智慧財產局員工消費合作社印製 第25頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)

Claims (1)

  1. 521262 A8 B8 C8 — _D8申請專利範圍 1· 一種用以在一電子文件中搜会、 丁又仟甲獲索付合又字的方法,該方 法至少包括下列步驟: 確認一焦距點在一使用者界面上; -界定周圍區域在該焦距點四周,該周圍區域包 含-又字正文在一使用者界面物件範圍之内,該使用 者界面物件係用以接收語音口述文字; 接收一聲音命令,以挑選在該電子文件中的指定 文字;及 在該周圍區域所包含之文字正文中搜尋該指定文 字的一符合文字,該搜尋係侷限於該周圍區域内之文 字正文中。 2 ·如申請專利範園第1項所述之方法,其中更包括下列步 驟: 如果在該搜尋步騾中沒找到該指定文字的一符合 文字,擴展該周圍區域以包含該使用者界面的一額外 範圍,該額外區域包含有額外文字;及 在該額外文字中搜尋該指定文字的一符合文半 該搜尋係侷限於該文字疋文和該額外文字中。 (請先閱讀背面之注意事項再填寫本頁) ---------tr--------- 經濟部智慧財產局員工消費合作社印製 3 ·如申請專利範圍第2項所述之方法,其中上述之擴展 驟更包括下列步驟 步 從該焦距點以一不變增加量向外的擴展該周園區 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公餐〉 第26頁
    經濟部智慧財產局員工消費合作社印製 521262 A8 B8 C8 D8 六、申請專利範圍 4·如申請專利範圍第2項所述之方法,其中上述之擴展步 騾更包括下列步驟: 以緊接該文字正文的一不變數量的文字擴展該周 圍區域。 5·如申請專利範圍第2項所述之方法,其中上述之擴展步 驟更包括下列步驟: 從該焦距點以一可變增加量向外的擴展該周圍區 域。 6 · —種用以辨識一聲音命令的一實例和語音口述的一實 例的方法,該方法至少包括下列步驟: 確認一焦距點在一使用者界面上; 界定一周圍區域在該焦距點四周; 在該周圍區域内確認使用者界面物件; 再確認在該已確認使用者界面物件之間那些使用 者界面物件是用以接收語音口述正文,而那些使用者 界面物件不是用以接收語音口述正文; 以已再次確認是用以接收語音口述正文的那些使 用者界面物件與已再次確認不是用以接收語音口述正 文的那些使用者界面物件為基礎,計算一可能性; 接收語音輸入;及 以所計算出的可能性為基礎,判定該語音輸入是 一聲音命令或是語音口述的一決定。 第27頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) I H •Γ'*· «ϋ n n 兮° 521262 A8 B8 C8 D8 六、申請專利範圍 7·如申請專利範圍第6項所述之方法,其中 1尺巴括下列步 驟: (請先閱讀背面之注意事項再填寫本頁) 確認一焦距點在該使用者界面之外;及 以一隱含可能性為基礎,判定該語音輸入是一聲 音命令或是語音口述的一決定。 8· —種機器可讀取記錄媒體,載有一軟體程式,該軟體 程式用以在一電子文件中搜索符合文字;其中該軟體 私式至少包括複數個程式碼節,可由一機器來執行, 以使該機器執行至少下列步驟: 確認一焦距點在一使用者界面上; 界定一周圍區域在該焦距點四周,該周圍區域包 含一文字正文在一使用者界面物件範圍之内,該使用 者界面物件係用以接收語音口述文字; 接收一聲音命令,以挑選在該電子文件中的指定 文字;及 在該周圍區域所包含之文字正文中搜尋該指定文 字的一符合文字,該搜尋係侷限於該周圍區域内之文 字正文中。 經濟部智慧財產局員工消費合作社印製 9·如申請專利範圍第8項所述之機器可讀取記錄媒體’其 中更包括下列步驟: 如果在該搜尋步騾中沒找到該指定文字的一符 合文字,擴展該周圍區域以包含該使用者界面的一額 第28頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公t ) 經濟部智慧財產局員工消費合作社印製 521262 A8 B8 C8 D8 六、申請專利範圍 外範圍,該額外區域包含有額外文字;及 在該額外文字中搜尋該指定文字的一符合文字, 該搜尋係侷限於該文字正文和該額外文字中。 1 0.如申請專利範圍第9項所述之機器可讀取記錄媒 體,其中上述之擴展步驟更包括下列步驟: 從該焦距點以一不變增加量向外的擴展該周圍區 域。 11. 如申請專利範圍第9項所述之機器可讀取記錄媒 體,其中上述之擴展步驟更包括下列步驟: 以緊接該文字正文的一不變數量的文字擴展該周 圍區域。 12. 如申請專利範圍第9項所述之機器可讀取記錄媒 體,其中上述之擴展步驟更包括下列步驟: 從該焦距點以一可變增加量向外的擴展該周圍區 域。 13. 一種機器可讀取記錄媒體,載有一軟體程式,該軟 體程式用以辨識一聲音命令的一實例和語音口述的一 實例兩者;其中該軟體程式至少包括複數個程式碼 節,可由一機器來執行,以使該機器執行至少下列步 驟: 第29頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁)
    521262 A8 B8 C8 D8六、申請專利範圍 確認一焦距點在一使用者界面上; 界定一周圍區域在該焦距點四周; 在該周圍區域内確認使用者界面物件; 再確認在該已確認使用者界面物件之間那些使用 者界面物件是用以接收語音口述正文,而那些使用者 界面物件不是用以接收語音口述正文; 以已再次確認是用以接收語音口述正文的那些使 用者界面物件與已再次確認不是用以接收語音口述正 文的那些使用者界面物件為基礎,計算一可能性; 接收語音輸入; 以所計算出的可能性為基礎,判定該語音輸入是 一聲音命令或是語音口述的一決定。 I4·如申請專利範圍第13項所述之機器可讀取記錄媒 體,其中更包括下列步驟: 確認一焦距點在該使用者界面之外;及 以一隱含可能性為基礎,判定該語音輸入是一聲音 命令或是語音口述的一決定。 (請先閱讀背面之注意事項再填寫本頁) m ϋ n In n m i ^ ^ I fn n n an =σ 經濟部智慧財產局員工消費合作社印製 第30頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)
TW90119955A 2000-09-20 2001-08-14 Method for enhancing dictation and command discrimination TW521262B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/665,939 US6795806B1 (en) 2000-09-20 2000-09-20 Method for enhancing dictation and command discrimination

Publications (1)

Publication Number Publication Date
TW521262B true TW521262B (en) 2003-02-21

Family

ID=24672168

Family Applications (1)

Application Number Title Priority Date Filing Date
TW90119955A TW521262B (en) 2000-09-20 2001-08-14 Method for enhancing dictation and command discrimination

Country Status (14)

Country Link
US (2) US6795806B1 (zh)
EP (1) EP1320848B1 (zh)
JP (1) JP3943492B2 (zh)
KR (1) KR100586286B1 (zh)
CN (1) CN1205602C (zh)
AT (1) ATE336779T1 (zh)
AU (1) AU2001286090A1 (zh)
CA (1) CA2420093A1 (zh)
DE (1) DE60122352T2 (zh)
ES (1) ES2269449T3 (zh)
HK (1) HK1057940A1 (zh)
IL (1) IL154852A0 (zh)
TW (1) TW521262B (zh)
WO (1) WO2002025637A1 (zh)

Families Citing this family (168)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6968333B2 (en) 2000-04-02 2005-11-22 Tangis Corporation Soliciting information based on a computer user's context
US6920616B1 (en) * 1998-12-18 2005-07-19 Tangis Corporation Interface for exchanging context data
US9183306B2 (en) 1998-12-18 2015-11-10 Microsoft Technology Licensing, Llc Automated selection of appropriate information based on a computer user's context
US7225229B1 (en) 1998-12-18 2007-05-29 Tangis Corporation Automated pushing of computer user's context data to clients
US7779015B2 (en) * 1998-12-18 2010-08-17 Microsoft Corporation Logging and analyzing context attributes
US6513046B1 (en) 1999-12-15 2003-01-28 Tangis Corporation Storing and recalling information to augment human memories
US7046263B1 (en) 1998-12-18 2006-05-16 Tangis Corporation Requesting computer user's context data
US6801223B1 (en) 1998-12-18 2004-10-05 Tangis Corporation Managing interactions between computer users' context models
US6791580B1 (en) 1998-12-18 2004-09-14 Tangis Corporation Supplying notifications related to supply and consumption of user context data
US6842877B2 (en) 1998-12-18 2005-01-11 Tangis Corporation Contextual responses based on automated learning techniques
US8181113B2 (en) 1998-12-18 2012-05-15 Microsoft Corporation Mediating conflicts in computer users context data
US7231439B1 (en) 2000-04-02 2007-06-12 Tangis Corporation Dynamically swapping modules for determining a computer user's context
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7464153B1 (en) 2000-04-02 2008-12-09 Microsoft Corporation Generating and supplying user context data
US20020054130A1 (en) * 2000-10-16 2002-05-09 Abbott Kenneth H. Dynamically displaying current status of tasks
EP1215658A3 (en) * 2000-12-05 2002-08-14 Hewlett-Packard Company Visual activation of voice controlled apparatus
GB2388209C (en) 2001-12-20 2005-08-23 Canon Kk Control apparatus
US7881493B1 (en) * 2003-04-11 2011-02-01 Eyetools, Inc. Methods and apparatuses for use of eye interpretation information
US20040268216A1 (en) * 2003-06-24 2004-12-30 Jacobs Paul E Method and apparatus for transferring a document into a folder
US7629989B2 (en) * 2004-04-02 2009-12-08 K-Nfb Reading Technology, Inc. Reducing processing latency in optical character recognition for portable reading machine
KR100716438B1 (ko) * 2004-07-27 2007-05-10 주식회사 현대오토넷 차량용 텔레매틱스 시스템에서 음성 사용자 인터페이스를제공하는 장치 및 방법
US7580837B2 (en) 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
US7242751B2 (en) 2004-12-06 2007-07-10 Sbc Knowledge Ventures, L.P. System and method for speech recognition-enabled automatic call routing
US7751551B2 (en) 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
US7657020B2 (en) 2005-06-03 2010-02-02 At&T Intellectual Property I, Lp Call routing system and method of using the same
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US20070150916A1 (en) * 2005-12-28 2007-06-28 James Begole Using sensors to provide feedback on the access of digital content
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8036917B2 (en) * 2006-11-22 2011-10-11 General Electric Company Methods and systems for creation of hanging protocols using eye tracking and voice command and control
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8689203B2 (en) * 2008-02-19 2014-04-01 Microsoft Corporation Software update techniques based on ascertained identities
US20090248397A1 (en) * 2008-03-25 2009-10-01 Microsoft Corporation Service Initiation Techniques
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US8416715B2 (en) * 2009-06-15 2013-04-09 Microsoft Corporation Interest determination for auditory enhancement
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8600732B2 (en) * 2010-11-08 2013-12-03 Sling Media Pvt Ltd Translating programming content to match received voice command language
US20120124467A1 (en) * 2010-11-15 2012-05-17 Xerox Corporation Method for automatically generating descriptive headings for a text element
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9361718B2 (en) * 2011-09-08 2016-06-07 Intel Corporation Interactive screen viewing
US9691381B2 (en) * 2012-02-21 2017-06-27 Mediatek Inc. Voice command recognition method and related electronic device and computer-readable medium
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9423870B2 (en) * 2012-05-08 2016-08-23 Google Inc. Input determination method
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
EP2871640B1 (en) * 2012-07-09 2021-01-06 LG Electronics, Inc. Speech recognition apparatus and method
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9265458B2 (en) 2012-12-04 2016-02-23 Sync-Think, Inc. Application of smooth pursuit cognitive testing paradigms to clinical drug development
CN103885743A (zh) * 2012-12-24 2014-06-25 大陆汽车投资(上海)有限公司 结合注视跟踪技术的语音文本输入方法和系统
US9380976B2 (en) 2013-03-11 2016-07-05 Sync-Think, Inc. Optical neuroinformatics
US9436287B2 (en) * 2013-03-15 2016-09-06 Qualcomm Incorporated Systems and methods for switching processing modes using gestures
KR20140132246A (ko) * 2013-05-07 2014-11-17 삼성전자주식회사 오브젝트 선택 방법 및 오브젝트 선택 장치
US20140350942A1 (en) * 2013-05-23 2014-11-27 Delphi Technologies, Inc. Vehicle human machine interface with gaze direction and voice recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
CN103729059A (zh) * 2013-12-27 2014-04-16 北京智谷睿拓技术服务有限公司 交互方法及装置
US9412363B2 (en) 2014-03-03 2016-08-09 Microsoft Technology Licensing, Llc Model based approach for on-screen item selection and disambiguation
US9966079B2 (en) * 2014-03-24 2018-05-08 Lenovo (Singapore) Pte. Ltd. Directing voice input based on eye tracking
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US20150364140A1 (en) * 2014-06-13 2015-12-17 Sony Corporation Portable Electronic Equipment and Method of Operating a User Interface
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10317992B2 (en) 2014-09-25 2019-06-11 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US20170262051A1 (en) * 2015-03-20 2017-09-14 The Eye Tribe Method for refining control by combining eye tracking and voice recognition
WO2016151396A1 (en) * 2015-03-20 2016-09-29 The Eye Tribe Method for refining control by combining eye tracking and voice recognition
FR3034215B1 (fr) * 2015-03-27 2018-06-15 Valeo Comfort And Driving Assistance Procede de commande, dispositif de commande, systeme et vehicule automobile comprenant un tel dispositif de commande
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
DE102015210430A1 (de) * 2015-06-08 2016-12-08 Robert Bosch Gmbh Verfahren zum Erkennen eines Sprachkontexts für eine Sprachsteuerung, Verfahren zum Ermitteln eines Sprachsteuersignals für eine Sprachsteuerung und Vorrichtung zum Ausführen der Verfahren
JP6553418B2 (ja) * 2015-06-12 2019-07-31 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 表示制御方法、表示制御装置及び制御プログラム
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9934782B2 (en) * 2015-09-22 2018-04-03 Meshrose Ltd. Automatic performance of user interaction operations on a computing device
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US9886958B2 (en) 2015-12-11 2018-02-06 Microsoft Technology Licensing, Llc Language and domain independent model based approach for on-screen item selection
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US20170345410A1 (en) * 2016-05-26 2017-11-30 Tyler Murray Smith Text to speech system with real-time amendment capability
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10223067B2 (en) 2016-07-15 2019-03-05 Microsoft Technology Licensing, Llc Leveraging environmental context for enhanced communication throughput
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CN106527729A (zh) * 2016-11-17 2017-03-22 科大讯飞股份有限公司 非接触式输入方法和装置
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10142686B2 (en) 2017-03-30 2018-11-27 Rovi Guides, Inc. System and methods for disambiguating an ambiguous entity in a search query based on the gaze of a user
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10366691B2 (en) 2017-07-11 2019-07-30 Samsung Electronics Co., Ltd. System and method for voice command context
US10795671B2 (en) * 2017-11-21 2020-10-06 International Business Machines Corporation Audiovisual source code documentation
CN107957779A (zh) * 2017-11-27 2018-04-24 海尔优家智能科技(北京)有限公司 一种利用眼部动作控制信息搜索的方法及装置
WO2019118089A1 (en) 2017-12-11 2019-06-20 Analog Devices, Inc. Multi-modal far field user interfaces and vision-assisted audio processing
US10467335B2 (en) 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
US11488602B2 (en) 2018-02-20 2022-11-01 Dropbox, Inc. Meeting transcription using custom lexicons based on document history
US10657954B2 (en) * 2018-02-20 2020-05-19 Dropbox, Inc. Meeting audio capture and transcription in a collaborative document context
US11157075B2 (en) * 2018-05-01 2021-10-26 Dell Products, L.P. Gaze-activated voice services for interactive workspaces
CN111833846B (zh) * 2019-04-12 2023-06-02 广东小天才科技有限公司 一种根据意图启动听写状态的方法和装置,及存储介质
US11689379B2 (en) 2019-06-24 2023-06-27 Dropbox, Inc. Generating customized meeting insights based on user interactions and meeting media
CN111090473A (zh) * 2019-07-29 2020-05-01 广东小天才科技有限公司 一种基于电子设备的听写启动方法及电子设备
JP7402322B2 (ja) * 2020-05-15 2023-12-20 株式会社Nttドコモ 情報処理システム
US20230065847A1 (en) * 2021-08-31 2023-03-02 International Business Machines Corporation Network bandwidth conservation during video conferencing

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3530591B2 (ja) 1994-09-14 2004-05-24 キヤノン株式会社 音声認識装置及びこれを用いた情報処理装置とそれらの方法
US5777614A (en) * 1994-10-14 1998-07-07 Hitachi, Ltd. Editing support system including an interactive interface
ATE196560T1 (de) 1994-12-23 2000-10-15 Siemens Ag Verfahren zur umwandlung von sprachlich eingegebenen informationen in maschinenlesbare daten
US5799279A (en) 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US6078310A (en) * 1996-06-26 2000-06-20 Sun Microsystems, Inc. Eyetracked alert messages
US6351273B1 (en) * 1997-04-30 2002-02-26 Jerome H. Lemelson System and methods for controlling automatic scrolling of information on a display or screen
US6393136B1 (en) * 1999-01-04 2002-05-21 International Business Machines Corporation Method and apparatus for determining eye contact
DE50104533D1 (de) 2000-01-27 2004-12-23 Siemens Ag System und verfahren zur blickfokussierten sprachverarbeitung

Also Published As

Publication number Publication date
JP2004510239A (ja) 2004-04-02
ATE336779T1 (de) 2006-09-15
JP3943492B2 (ja) 2007-07-11
AU2001286090A1 (en) 2002-04-02
CN1205602C (zh) 2005-06-08
US6795806B1 (en) 2004-09-21
DE60122352D1 (de) 2006-09-28
US20040216049A1 (en) 2004-10-28
EP1320848A1 (en) 2003-06-25
WO2002025637A1 (en) 2002-03-28
HK1057940A1 (en) 2004-04-23
KR20030046453A (ko) 2003-06-12
EP1320848B1 (en) 2006-08-16
KR100586286B1 (ko) 2006-06-07
IL154852A0 (en) 2003-10-31
CA2420093A1 (en) 2002-03-28
ES2269449T3 (es) 2007-04-01
DE60122352T2 (de) 2007-09-06
CN1449558A (zh) 2003-10-15

Similar Documents

Publication Publication Date Title
TW521262B (en) Method for enhancing dictation and command discrimination
US11455995B2 (en) User recognition for speech processing systems
US10027662B1 (en) Dynamic user authentication
US11270685B2 (en) Speech based user recognition
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
US9558737B2 (en) System and method for audibly presenting selected text
EP3387646B1 (en) Text-to-speech processing system and method
KR101229034B1 (ko) 디바이스 인터페이싱을 위한 다중모드 조음 통합
EP3504709B1 (en) Determining phonetic relationships
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
JP2007080097A (ja) 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP7036015B2 (ja) 対話制御装置および方法
US20240071385A1 (en) Speech-processing system
JP5196114B2 (ja) 音声認識装置およびプログラム
US8024191B2 (en) System and method of word lattice augmentation using a pre/post vocalic consonant distinction
JP7363107B2 (ja) 発想支援装置、発想支援システム及びプログラム
KR101830210B1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
Fakiyesi et al. Speaker Variability for Emotions Classification in African Tone Languages
KR20220116660A (ko) 인공지능 스피커 기능을 탑재한 텀블러 장치
JP5152016B2 (ja) 音声認識用辞書作成装置及び音声認識用辞書作成方法
JP2003345372A (ja) 音声合成装置及び音声合成方法

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees