TW521262B

TW521262B - Method for enhancing dictation and command discrimination

Info

Publication number: TW521262B
Application number: TW90119955A
Authority: TW
Inventors: James R Lewis; Karry A Ortega
Original assignee: Ibm
Priority date: 2000-09-20
Filing date: 2001-08-14
Publication date: 2003-02-21
Also published as: JP2004510239A; ATE336779T1; JP3943492B2; AU2001286090A1; CN1205602C; US6795806B1; DE60122352D1; US20040216049A1; EP1320848A1; WO2002025637A1; HK1057940A1; KR20030046453A; EP1320848B1; KR100586286B1; IL154852A0; CA2420093A1; ES2269449T3; DE60122352T2; CN1449558A

Description

521262 經濟部智慧財產局員工消費合作社印製 A7 B7_________ 五、發明說明（）發明領域：本發明係關於語音辨識領域。更詳而言之，本發明係關於一種提高對各使用者口述、使用者聲音命令與文字今以辨識之能力的方法。發明背景：語音辨識是指將一話筒所收到的一聲音信號經由一電腦轉變成文字的過程。然後，可以將所認出的文字用來作為種種電腦軟體應用，例如文件準備、資料登記和指令與控制的目的。語音口述系統還提供使用者不需使用手的一電腦系統操作方法。關於電子文件的準備’目前可使用的語音口述系統提供可使一使用者在一電子文件中選擇一部份文字的使用者聲音命令。一般這樣的使用者聲音命令是使用一語法（syntax),例如”選擇 <文字 >"，是代表在使用者聲音命令”選擇”信號命令後方所跟隨的文字應該被選擇或被加亮。在已選擇一部份文字之後，使用者能夠根據所選擇的文字執行任何一連續的後續操作。因此，如果有一使用者說：，，選擇你好嗎，，，語音口述系統將在電子文件内的一文字正文中查尋文字片語，，你好嗎”。置於文字正文内的片語可以被選擇或被加亮。然後，使用者可以對所選擇的文字執行一操作，例如一刪除操作，一粗體/斜體/底線操作時，或訂正操作。在更進一步的說明中，當，，你好嗎，，文字被加亮時，使用第5頁本紙張尺度適用中國國家標準（CNS)A4規格（210了ϋ餐)------ (請先閱讀背面之注意事項再填寫本頁) ^ --------^ --------- 521262 A7 經濟部智慧財產局員工消費合作社印製 _______ Β7 __ 五、發明說明（）者所選擇之文字可以被來自一後續使用者表達的不同文字所代替。在這個模式下，使用者能夠執行一電子文件的不需手動之訂正（hands-free correction)。目前，既有之"選擇"命令的執行，或其他用於選擇文字的類似使用者聲音命令，具有幾個缺點。其中— '一點是使用者想要在一文字正文之内所選擇的片語或字詞可能會出現許多次。例如，在一文字正文之内很有可於有許多次”這”字詞的出現。因此，如果使用者說："選擇這π語音口述系統能可能無法決定哪個"這"被選擇"字’ 的出現使用者想要選擇。為解決此問題’習知的語音口述系統依靠—標準統來決定哪個使用者所想要字詞或片語是使用者所邦、選擇的《舉例來說，一語音口述系統可以從現用視窗頂部開始搜尋’並選擇該字詞或片語的第一次出現。而，如果該使用者不想要選擇該字詞或片語的第一次現’ 一習知的語音口述系統可以為該使用者提供選擇字詞另一次出現的能力。尤其一些習知的語音口述系提供導引聲音命令例如”下一個，，或"先前的，，。透過發出"下一個"聲音命令該使用者指示語音口系統找出和選擇所想要的字詞或庄二五〜b Ε^卜一次出現。同樣地’ |，先前的”命令指示語音口述系統會找出選擇所想、要的字詞或片語的先前的出現。雖然如此，知的系統可使該使用者操縱一特令全叫+ 听疋子Η或片語所想要出現’但是使用者必須詳盡闡迷用以操縱所想要之第6頁本紙張尺度適用中國國家標準（CNS)A4規格(210 x 297 (請先閱讀背面之注意事項再填寫本頁) 系要的出該並習出現 -------訂·-------- 521262 經濟部智慧財產局員工消費合作社印製五、發明說明（）

的對策。它可以導致i 导致時間的辰費和使用者的挫折感，尤其疋當該使用者察警+五立· 口琉2 β 可π見，口 a 口述系統不十分精確或低效能的時候。在習知的語音口述系統之内的習知文字選擇方法的另-缺點是’當要查尋使用者所指定的字詞或片語時，如此的語音口述系統一般是搜尋出現在使用者的勞幕上之-文字正文的整個部分。在使用者的螢幕上所出現的每-字詞都在語音口述系統文法之内被活化，而對語音口述线而言均具有相同之可能性。由於該使用者僅想要單字a或片語，因此允許和搜尋在使用者的勞幕上出現文字正文的整個部分可能是低效能的。此外，此方法可能會增加一錯誤識別將出現的可能性。習知語音口述系統之内的習知文字選擇方法的另一缺點是，對語音口述系統而t，一使用者是否在語音口述或一聲音命令期間已經發出一字詞並不是立即而明顯，例如使一下拉式（drop_down)選單產生的聲音命令。舉例來說，如果一使用者發出字詞”檔案，，，依據其情況，使用者可能是打算使用在選單桿内之檔案選單或把字詞 ”檔案”插入電子文件中❶於是，對普通的語音口述系統而"F，一使用者是否使用者的發聲表達是一聲音命令或語音的口述並非總是十分明顯。因此，雖然目前可利用的語音口述系統提供與一電腦相互作用的方法而可聽見地命令一應用，以在一電子文件中提供語音口述並在電子文件之内選擇文字，而仍然需要本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公爱） (請先閱讀背面之注意事項再填寫本頁) 訂---------_ 521262 A7 B7 使用者口述、文字和其結合的 ---------.-----------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製明係提供一方法和裝置用以辨不同出現，和利用結合一眼睛統用以辨識一聲音命令的一實可以有利地包括與一語音口述縱系統（eye-tracking system，述系統期間一使用者的凝視的 "吾音口述系統合併發揮的眼睛使用者聲音命令功能性，或在字正文之内選擇一部份文字之的精確度。本發明之眼睛追蹤進使用者口述和聲音命令之間排，一種用以在一電子文件中可包括識別在一使用者界面中周圍的一周圍區域。更詳而言一文字正文在被安裝用以接收界面物體之内。另外，該方法文件之内選擇指定的文字並在正文中搜尋符合該指定文字的第8頁五、發明說明（）用以辨識使用者聲音命令一改進的方法。發明目的及概述：_ 在此處所揭露的本發識在一電子文件中文字的追縱系統的一語音口述系例和語音口述的一實例。本發明的方法和裝置系統合併發揮的一眼睛追 ETS)，以決定在一語音口焦距點。更詳而言之，與追蹤系統可以改善"選擇，，一語音口述系統中的一文任何其他使用者聲音命令系統的使用也可以透過促之辨識來改進系統性能。依據這些本發明之安豆哥與文字相匹配的方法的一焦距點和界定焦距點之’該周圍區域可以包括語音命令文字的一使用者可包括接收一用以在電子該周圍區域所包括的文字本紙張尺度適用中國國家標準（CNS)A4規格（21〇 χ 297公釐） 521262 A7 --~__________B7 --- 五、發明說明（）聲音命令。值得注意的是，該搜尋可以被侷限於在該周圍區域内之文字正文β 如果捷尋步驟中，在文字正文中沒找到一符合指定文字的文字時，用以搜尋在一電子文件中之符合文字一方法可以另包括擴展該周圍區域以包含該使用者界面的 —額外範圍^更詳而言之，該擴張所包括的額外範圍能夠包括額外的文字。因此，可以對額外的文字搜尋一符合指定文字的文字。最後，如同先前，該搜尋可以被侷限於文字正文和額外文字。在本發明的一實施例中，擴展步騾可以包括以一固定的增加量從焦距點向外的擴展周圍區域。或者，擴展步驟可以包括以與文字正文緊接的一可變數量文字使周圍區域擴展。最後，擴展步驟可以包括以一可變的增加量使焦距點的周圍區域向外擴展。一種用以辨識一聲音命令的一實例和語音口述的一實例兩者的方法可以至少包括在一使用者界面内識別一焦距點；限定一周圍區域圍繞該焦距點；確認使用者界面物件在該周圍區域内；再確認在已確認之使用者界面物件之間那些是被裝配用以接收語音口述文字的使用者界面物件和那些不是用以接收語音口述文字的使用者界面物件；以那些使用者界面物件為根據計算出一已被再次確認是用以接收語音口述文字的使用者界面物件和那些不是用以接收語音口述文字的使用者界面物件的可能性；接收語音輸入；及根據計算所得之可能性判斷下該語音輸入是第9頁本紙張尺度適用中國國家標準（CNS)A4規格（21〇 X 297公餐）--------- (請先閱讀背面之注意事項再填寫本頁) n n βϋ n n n n 一OJ· n n n §9 t n I · 經濟部智慧財產局員工消費合作社印製 521262 A7 B7 •^·---- 五、發明說明（）一聲音命令或是語音口述的一夹定括在使用者界面之外識別一焦距點；及根據—隱▲ 此外’該方法可以包 (default)可能性判斷該語音輸入是—聲音命令或語音述的一決定。經濟部智慧財產局員工消費合作社印製圖式簡單說明下列之較佳實施例描述與其伴隨之圖示將更詳細的解釋本發明之方法，然而應被瞭解的是本發明不應被這些所顯示之精確安排與工具所侷限。第1圖是一使用者與在此處揭露的本發明相互作用的一示範說明。弟2圖疋說明適用於本發明合適的一電腦系統的方塊第3圖是在第1圖中之電腦系統的一特有高層級内部結構的方塊圖。第4圖顯示包括一語音辨識引擎之特有零件的方塊圖。第5A圖和第5B圖，將一同被參考，組成一流程圖說明在一電子文件中辨識文字的不同出現，和透過使用與一語音口述系統結合的一眼睛追蹤系統辨識一聲音命令的一實例和語音口述的一實例兩者的一方法0 圖號對照說明： 20 電腦系統 22 眼睛追縱系統第10頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公t ) ----------·-----------訂---------線 ^v! Γ靖先閱讀背面之注意事項再填寫本頁) 521262 24 作業系統 2 7 記憶存儲器 27B大量資料存儲媒體 29 眼晴追蹤硬體界面 A7 B7 五、發明說明（’ 23音頻輸出裝置 26語音口述系統 27A電子隨機存取記憶體 28語音文字處理器 30 音頻輸入裝置 ^ m η ^_^3~— 本發明禾利用與一語音口述系統結合的一眼睛追蹤系統（ETS)，以改進一語音口述系統的性能。更具體而言，依據下列的發明安排，一眼睛追蹤系統（ETS)可以幫助一語音口述系統辨識在一文字正文内之文字的多次出現。另外，一眼睛追縱系統（E T S)可以在分析語音輸入中幫助語音口述系統辨識聲音命令和語音口述。如此的提升可以藉由檢測在一眼睛追蹤系統（Ε τ S)中一使用者之凝視焦距點的螢幕位置。有助益的是，不論這個螢幕位置是否位於螢幕上或離開螢幕均可傳遞至語音口述系統。基於使用者的凝視焦距點的位置圍繞焦距點的一區域（參考"周圍區域”）可以被界定而有助於決定語音輸入是否是聲音命令或語音口述。另外，可以用此周圍區域來確認符合使用者所選擇之文字的一特定出現。第1圖是一使用者與在此處揭露的本發明相互作用的一示範說明。在第1圖中，使用者凝視一影像顯示終端機（VDT)32上的一位置。利用位於影像顯示終端機32 第11頁本紙張尺度適用中國國家標準(210 χ 297公 ---------------------訂---------線·卜 (請先Μ讀背面之注意事項再填冩本頁) 經濟部智慧財產局員工消費合作社印製 521262 A7 B7 經濟部智慧財產局員工消費合作社印製五、發明說明（）之螢幕上的一星號來標示使用者的凝視的焦距點。同時被顯示的是具有一頭嵌式（head-m〇unted)硬體界面29的一眼晴追蹤系統（ETS)。眼睛追蹤系統（ETS)是熟知被用於眼晴追蹤和測量的技術中。眼睛追蹤系統（ETS)，例如由維吉尼亞州Fairfax之LC技術公司所製造之EYEGAZE 發展系統，及EYEMOUSE和EYELINK，二兩者由麻州波士頓之SensoMotoric設備公司所製造’現在均提供為商業利用。一眼睛追蹤系統（ETS)的架構可以至少包括一眼睛追蹤硬體界面29和一圖像處理系統34。眼晴追蹤硬體界面29可以是可從LC技術公司所購得之一桌上型内嵌單元。一示範的桌上型内嵌單元眼睛追蹤單元在第2圖中顯示。或者’眼睛追蹤硬體界面29可以是可從sens〇MotoHc 公司所購得之一頭嵌式單元並顯示在第1圖中。不論是一桌上型内嵌單元或一頭嵌式單元，眼睛追蹤硬體界面29 可以將關於一使用者眼睛的資訊傳遞給圖像處理系統 34 ° 圖像處理系統可以是一獨纟的圖像處理系统，或則也可以存在於-普通電腦内。當圖像處理系統是在一i 通電腦内存在時’普通電腦可以利用圖像處理電路系: 和圖像處理軟體的一結合以執杆一· '' 仃圖像處理系統的功能。那些擅長此項技術之人員應該理以π w w 尽發明並不香所選擇之眼睛追蹤系統（ETS)所限制. 又 y ^ 吏確切地說是，体何可以把一使用者的凝視焦距的 ^ 置傳遞給電腦的任何第12頁本紙張尺度顧巾S g家標準（CNS)A4祕（21Q x 29?^^ 請先閱讀背 £ 之注意事項再填寫本頁 Ιι 訂線 521262 五、經濟部智慧財產局員工消費合作社印製 A7 - - B7 _ _ " —_丨 — 發明說明（）合適眼睛追蹤系統（ETS)都可以被使用。第2圖說明圖像處理系統3 4是以一普通電腦為基礎的圖像處理系統的環境^更進一步詳細說來，一圖像處理系統34可以包括具有一中央處理器（CPu)，一或更多的記憶體裝置和相關之電路系統的一普通電腦2〇。普通電腦20可以包括電腦記憶存儲器27，其最好是由一電子隨機存取記憶體27A和大量資料存儲媒體27B所構成，例如一磁碟驅動機。最後，電腦20可以包括一指示裝置 2 1(例如一滑鼠）及至少一個使用者界面顯示單元32，例如一影像顯示終端機（VDT)在操作上連接。更詳而言之’電腦20可用以完成語音辨識及文字、對 -語音（text-to-speech ; TTS)轉換。就其本身而言，電腦 20可以另包括一音頻輸入裝置3 〇，例如一話筒。此外，電腦20可以包括一音頻輸出裝置23，例如擴音器。音頻輸入裝置30和音頻輸出裝置23二者可以透過合適界面電路系統操作地或"音效卡”（未顯示）連接在電腦2〇上。透過這個方法，可以利用音頻輸入裝置3 0接收使用者語音至電腦20裡，而合成語音和其他音頻可以利用音頻輸出裝置23提供給使用者。如上面所描述的普通電腦2〇所需要的各種硬體通常是任何一各式可達到要求的商用高速多媒體個人電腦可滿足，例如由IBM公司所製造之。依據這些發明安排，電腦20可以另包括一眼睛追蹤硬體界面29(在此處展示了桌上型種類），透過電腦2〇的一通訊端口（未顯示）操作地連接至電腦20,再透過合適的圖第13頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） ----------.-----------t---------^ — f請先閱讀背面之沒意事項再填寫本頁} 521262 A7 B7 五、發明說明（像處理電路系統和軟體通訊地連接至電腦2G。更特別的是’圖像處@電路系統和軟禮可以決定使用者的凝視焦距0位置也可以把此資訊傳遞給與圖像處理軟體通訊相連接的電腦運用。尤. J在本發明中，一語音口述系統可以被通訊地連結至圖像處理軟體，而語音口述系統可利用所收到的資料指示出一使用者的凝視的焦距點的位置。第3圖說明一語音操作（speech-enabled)電腦系統的特有内部結構，該電腦系統包含一眼睛追蹤系統（ETS)，而電腦系統是用以辨識在一電子文件内之文字的多次出現和辨識一聲音命令的一實例和語音口述的一實例兩者。如弟3圖中所示，電腦系統2 〇包括一記憶存儲器2 7、一作業系統24、一語音口述系統26和一眼晴追蹤系統 22。在實施例中顯示，一語音文字處理器28的應用也被提供。然而本發明在這一點上，而且語音口述系統2 6可以用任何其他允許聲音使用的應用程式。在第2圖中，語音口述系統2 6、語音文字處理器2 8 和眼睛追蹤系統2 2被顯示是分離的應用程式。然而應該注意的是，本發明並沒有被限制在這一點上，而這些不同的應用程式可以執行如一單一而更複雜的應用程式。例如語音口述應用2 6可以與語音文字處理機應用或是任何與語音口述系統一起使用的其他應用相結合。此外，眼睛追蹤系統22可以是一應用程式儲存於電腦20中，或是位在一獨立眼睛追縱系統通訊的通訊範圍内而透過一資料連結與電腦2 0通訊。該系統也可以包括一聲音導引第η頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） (請先閱讀背面之注意事項再填寫本頁) --訂---------線經濟部智慧財產局員工消費合作社印製 521262 A7 B7 五、發明說明（未顯示)，用以協調語音口述系统對其他應用程式的聲，操作的操作，但是在此處所描作並不需要此應用。請顯示特有零件的方塊圖’其說明在語音口述系統26中語音-對-文字轉變的一語音信號。—般而言，數位語音信號可以透過在第2圖所顯示的—音頰輸入裝置被接收’並在音頻電路系統中被處理成為類比語音信號。 ”更具體而言，可以以某種固定的速率抽樣語音信號以使居音化號可轉換成一組數位化資料。隨後，音頻電路系統可以把數位化語音信號傳遞给語音口述系块 26 〇表述方塊35可以接收數位化語音信號並可以產生一數位化語音信號的表述，而被使用於在語音辨識過程的後續1¾段以決疋一部份語音信號與一特限定語音事件相籽合的可能性。此過程是用以加強從操作系統所接收之语音信號’該語音信號具有不因說話者而異的知覺上重要特徵。在模式化/分類方塊3 6中，演算法可以更進一步處理語音信號’以使不因說話者而異的聽覺模式適應那些項今的說話者。最後，在搜尋方塊38中，根據該語音信號，搜尋演算法係用以導引搜尋引擎至與語音信號最符合的字詞。搜尋方塊3 8中的搜尋過程在聽覺模型40，字詞橐模式42 ’語言模式44和訓練資料46的幫助下出現。依據這些發明安排，辨識在一電子文件中文字的不第15頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公餐） (請先閱讀背面之注意事項再填寫本頁) 訂---------線經濟部智慧財產局員工消費合作社印製 521262 五經濟部智慧財產局員工消費合作社印製 A7 B7 發明說明（）同出現和聲音命令的一實例和語音口述的一實例的一方法和裝置在此處被揭露。本發明的方法和裝置可以包括與一語音口述系統結合的一眼晴追蹤系統（ETS)的合作使用。更詳而S之，此結合可以改進使用者聲音命令功能"選擇”的精準度，或是在—語音口述系統中任何其他用以在一又字正又内選擇一部份文字的使用者聲音命令的精準度。此結合也可以透過協助語音口述系統把語音輸入當作語音口述或聲音命令而改進語音口述系統的性上述對一語音口述系統的增強可以藉由以檢測得到的一使用者的凝視焦距點做為基礎，計算出短暫地近似使用者的凝視焦距點的語音輸入是語音口述之一或是一聲音命令的一可能性。計算所得的可能性可用以使一語音口述系統把語音輸入視為語音口述之一或是一聲音命令。更詳細而言，由於語音口述系統可連續不斷地留存記錄和更新在該周圍區域内的文字和物件的有關資訊，語音口述系統可以界定圍繞該檢測所得到的焦距點的一可調整螢幕區域（"周圍區域”）。當收到語音輸入時，語音口述系統可以決定謗周圍區域主要是包含有使用者界面物體或是一文字輪入領域。如果此周圍區域主要包含有一文字輸入領域，★五立口述系統可以得到如此的結論，應該把語音輪入當作组音口述，以插入文字輸入領域裡。相反地，如果此周圍區域主要包含的是使用者界面物體’語音口述系纟先可以第16頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公餐） (請先閱讀背面之注意事項再填寫本頁) --------訂---------線 521262 五、發明說明（）把語音輸入當作是一聲音么人曰命令。最後，當把語音輸入去作是一聲音命令，以在之念田子輸入領域中的一文字正文中選擇一文字，語音口述系这^ T、、，死可以確認所選擇的文字是於在此周圍區域内的文字，^ & 而不是在這個文字輸入領始内的一全部文字正文。以 , 义個梃式，語音口述系統的資電子 A7 源可以更有效地致力於〜毋，文小的文字區域，而非文件中的^一整個文字正文第5A圖和第5B圖， Η參考，組成一流程圖說明一電子文件中辨識文字的τ m , J不同出現和透過使用與一語立口述系統結合的一眼晴ϋ价$ ^ "災破系統辨識一聲音命令的—杂例和語音口述的一實例兩去、、、灵叼耆的一万法。該方法可以與了一語音口述系統和一眼味, ' 眼晴追蹤系統（ETS)的使用二者所設置的一電腦系統相連站 —C Α初文〜而被執行。第5A圖從步驟5〇開始’其中當該使用者對注立 $ a町，口甘口述系統提供語音輸入時，會自然地凝視在影像顯示終端機3 2上（在螢幕上）或不在影像顯示終端機32上（不在螢幕上）任一者的各種位置。在步驟5 5中’眼晴追蹤系統確認使用者的凝視焦距點的位置β眼睛追縱系統利用圖像處理電路系統和軟體的幫助來決定使用者的凝視的焦距點的位置是在勞幕上或是不在螢幕上。不論如何，眼睛追蹤系統會把此資訊傳遞給語音口述系統。在步驟6 0中，語音口述系統已從眼睛追蹤系統得到使用者的焦距點的位置。如果使用者的凝視焦距點的位置在螢幕上，系統便進行步驟7 0。否第17頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公餐） ----------«—--------訂---------線 · f請先閱tt背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 521262 A7 B7 五、發明說明（）則，該系統則繼續步驟65。如果在步驟60中已決定焦距點的位置是在螢幕上，眼睛追蹤系統也已確認使用者的凝視焦距點的螢幕位置。因此’在步驟70中，可在焦距點周圍界定一周圍區域。在一實施例中，可根據從焦距點向外擴展的一特定半徑的一周邊來界定該周圍區域。或者，也可以藉由在焦距點上覆蓋一預定的幾何區域來界定該周圍區域。可是’本發明並不僅限於用以計算該周圍區域的方法。更確切的說，任何用於計算該周圍區域的合適方法均可以滿足本發明的目的。此外，任何熟知該項技術之人員都應理解，不管是如何決定該周圍區域或是該周圍區域的最終形狀，在一外部周邊區域之内的預設區域或尺寸均可以是一使用者可調整值。例如，使用者可以指定一預設區域或在其中選擇其一，使用者可以指定該周圍區域應該從焦距點向外擴展的一半徑。在步騾75中，在界定該周圍區域之後，在該區域之内有關文字和物體的資訊可以被獲得，以用以決定是否應該把語音輸入當作語音口述或是當作一聲音命令，並在一電子文件中確認符合之文字的一特定出現。更特別的是，所獲得之資訊可包括，例如用以顯示使用者界面但不適合用以接收語音口述文字的像素數目，和用以顯示使用者界面並適合用以接收語音口述文字的像素數目。應該被理解的是，經由界定一限制區域可使語音口述系統可和:供其資源’而語音口述系統會達到更高的效率。第18頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） (請先閱讀背面之注意事項再填寫本頁) 訂----------線一經濟部智慧財產局員工消費合作社印製 521262 A7 B7 經濟部智慧財產局員工消費合作社印製五、發明說明（）例如，語音口述系統僅需要在周圍區域之内找到語音口述文法所含之文字的一些符合部分，而不是一整個^ 2 口述文法。 51 在步驟80中，基於語音口述可被視為是—聲音命令或是語音口述，可計算出一可能性。更具體而言，可以精由計算該周圍區域的可口述範圍與該周圍區域的總範圍相比較的一比例來計算得到該可能性。例如，如果的周圍區域可以接收使用者口述，則可能性會是7〇%或〇、·70。可是，本發明並沒有被侷限於計算可能性的特定式中。而事實上，可能性的其他計算方式可以是以，如在該周圍區域内之原文的或命令的字詞的數目與在用於使用者聲音命令的周圍區域内之物體的數目兩者 17匕率等為基礎0 儘管如此，不管可能性是如何被計算的，應該被解的是，.較佳的可能性不會是零也不會是代表後續使者發聲將一定是使用者口述或使用者的聲音命令的一全必然結果。由於不容許如此極端可能性值，可容許用者沒有凝視勞幕卻想要對語音口述系統命令語音的況。如果’在決定步驟60中，它決定使用者的凝視焦點是在一離開螢幕的位置時，在步驟6 5中系統可以將然率設定成一預設值。這個預汉值被稱為隱含可能性，並可以由使用先設定。隱含可能性是代表當使用者的凝視不是在第19頁本紙張尺度適用中國國家標準（CNS)A4規格（21〇 x 297公釐）模例可的暸用完使情距或者預螢幕 ----------1—--------訂---------線·. {請先閱讀背面之注意事項再填寫本頁) 521262 A7 五、發明說明（上時，後續的語音輸入是語音 ^ ㈢口述I 一或一聲音命令的統計可能性。於是，以隱含，了把性為基礎的一統計分析可以表明當使用者不是在吾媿重7 ·、& 1疋在看螢幕但茲使用者希望語音輸入被當作語音口述的可能性。預設可能性可有一可_敕处#㈤w ^ J凋整值範圍從零（〇·〇〇)到一 (ΐ·〇〇)。更詳而言之，任何孰知兮a斗&、 w…、4孩向技術<人員都應理解的是’當分配-高數值給預設可能性時，即代表在語音口述期間涿使用者不必直視螢幕的假設。然而，預設可能性不代表在使用者不直視螢幕時所提供的語音輸入應該完全必然被視作是語音口述或一聲音命令會是一較佳的作法。如此的必然可能性可能會在語音口述系統内產生錯誤結果。在步驟85中，在計算一可能性或依靠一預設可能性以後m ^輸入可以被接收。基於藉由眼睛追縱系統的協助而取得之可能性，可以分析語音輸入以決定是否應該把該m g輸入視為語音口述或是一聲音命令。然後，本方法可以從跳移圓圈Α跳至第5Β圖中的決定步驟95以繼續處理語音輸入。在決定步驟95中，可以決定在步驟85中所收到的語音輸入是否是"選擇，，聲音命令，或是用以在一電子文件之内選擇文字的其他的類似聲音命令。如果語音輸入被解釋為不是選擇命令，本方法將繼續步驟97，兩個行動的其中之一》首先，如果語音輸入被認定是另一聲音命令但不是選擇聲音命令時，該聲音命令可以被當作是一第20頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） (請先閱讀背面之注意事項再填寫本頁) -n —1 SMm§ β·ϋ n m 一 c In In flu I m m n I ▲ 經濟部智慧財產局員工消費合作社印製 521262 A7 經濟部智慧財產局員工消費合作社印製五、發明說明（，習知語音感應應用的情況。接著，如果語〜是語音口述時，可以藉由一 =^ ?涊定 Μ拖成A +、％曰辨硪引擎使該語音輸入轉換成為又竽。其後，可把』把已轉換的文字插入，用接收轉變的文字的一使用者 J 汊用首界面物體。不論哪一種情況本方法均可以透過跳移圓圈c返回到第$ A圖中的步騾 50，並且可以重複流程。 > 再回到決定步驟95中，如果決定在步驟85中所收到的語音輸入是一選擇聲音命令或是用以在一電子文件之内選擇文字的其他的類似聲音命令時，在步驟100中可決定符合選擇命令之指定的文字是否位在此周圍區域包含之文字正文中。例如，如果已經把語音輸入視為擇命令，”選擇老鼠”此選擇命令，可以決定在此周圍域所包含之文字正文是否包有括字詞”老鼠”。如果在驟1 00中為指定文字找到一符合文字，本方法可以繼續行步驟105。反之，本方法則可以繼續進行步驟110❶ 依據步騾1 00 ,如果為指定文字找到一符合文字，在步驟105中，可以選擇對指定文字而言最適當的符合文字。更具體的說是，如果在此周圍區域之文字正文内只有一符合文字，則該唯一文字符合實例會被選擇，一是加亮該文字之符合出現。相反地，如果在此周圍區之文字正文内該符合文字有多次的出現’則可決定在周圍區域之文字正文中哪一個指定文字的實例是最接以所選區步進般此近焦距點。如此一來，可以.利用使用杳的凝視焦距點來決定應該選擇哪個符合文字的實例。佴是，本發明並沒有第21貰本紙張又度適用中國國家標準（CNS)A4規格（21〇 X 297公釐） (請先閱讀背面之注意事項再填寫本頁) ··# 訂---------線* 521262

經濟部智慧財產局員工消費合作社印製五、發明說明（）被偈限於這一點，而也可滿足適合用以在付合文丰的多次出現中選擇一符合文字的實例。如此的選擇方法可以包括選擇在此周圍區域之文字正文内該符合文字的第一次出現。一旦已經確認指定文字的適當出現便可選擇該確認文字，一般是將文字加亮。需要暸解的是，在這種情況下若有一不正確的或不所想要得到的指定文字的出現已被選擇時，一般的聲音命令，例如”先前的”或”下一個" 可以被用來在此周圍區域内引導符合文字的其他出現。不論如何，本方法可以返回透過跳移圓圈C返回到第5 A 圖中的步驟50以再次開始流程。因此，藉由重複流程，本方法可再次計算此周圍區域並決定後續收到的語音輸入疋？吾音口述或一聲音命令的可能性。現在返回到決定步驟1丨0中，如果在此周圍區域之文字正文内找不到任何符合文字時，可以決定此周圍區域疋否包含用以接收語音口述的所有可看見的使用者界面。如果答案是確定’可以假設在螢幕上的文字正文中 ’又有符合文字，而如在步驟1 1 5中，使用者可以被通知。在未顯示於第5B圖的另一實施例中，，若沒有符合文字存在於螢幕上時，本系統可以提供使用者額外選擇，以延續和另擴展針對使用者指定文字的搜尋。舉例而言，也可以詢問使用者是否想要搜尋目前所打開之電子文件的剩餘部分。此外，可以把更多挑出的選擇呈現給使用者’例如利用在此周圍區域之後或在其之前的一預定或第22頁本紙張尺度適用中國國家標準（CNS)A4規格㈣x 297公爱）" ' """"" —I—I h —--------訂·-----1— (請先Μ讀背面之注意事項再填寫本頁) 521262 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明（）使用者可調整之數目的字詞或段落來擴展此周圍區域。在任何情況下，本方法隨後仍可以返回透過跳移圓圈c返回到第5 A圖中的步騾5 0以重新開始流程。相反地，如果在步驟100中決定此周圍區域並沒有包含用以接收語音口述的所有可看見的使用者界面時，便無法假設在螢幕上的文字正文中沒有符合文字。如此一來，繼續步驟1 20，被此周圍區域所涵蓋的區域可以被擴展，以包含更多的文字。可以利用任何合適的方法來執行此周圍區域的一擴展。例如，可以從使用者焦距點以一預定的或可變地計算值向外均等地朝向所有方向擴展此周圍區域的外面周邊。此外，也可以從使用者焦距點以代表一區域測量的一預定值擴展此周圍區域。在本發明的一實施例中，一隱含預定值可以被用於決定擴展的範圍。隱含值可以是可調整的以提供一良好調整功能。以這個模式，在一重複搜尋的期間一使用者可指定此周圍區域應該增加至多大。參考先前的實例，如果使用者所指定之文字”老鼠"並沒有在此周圍區域之文字正文内被找到時，此周圍區域的周邊可以從使用者焦距點朝所有方向向外擴展1公分。此外，也可以以5平方公分的一預定範圍或特定數目的像素擴展此周圍區域。在此周圍區域的擴展之後，在步驟i 25中，位在此新擴展的周圍區域之内的物件和文字的有關資訊可以被計算、收集和存儲，以提供本發明方法的未來使用。此外，第23頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公爱） ----------:------------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 521262 A7 B7 五、發明說明（經濟部智慧財產局員工消費合作社印製在此新擴展的周圍區域之内的新文字正文可以在語音口述系統文法之内被使用。同樣的，在此新擴展的周圍區域之内的物件的屬性可以被確認。在確認此新擴展的周圍區域之内的文字和物件後之，對文字正文中的符合文半的搜尋可以透過在步驟1 〇〇中之跳移圓圈B重複開始。以這個模式，本方法可以有系統地和漸增地擴展對一文牟正文内之使用者指定文字的搜尋於文字正文在螢幕的部分並超出其部分。更詳而言之，本發明可以利用硬體、軟體或硬體軟體的一結合實行。本發明的方法可以在一電腦系統以一集中方式或是以一分發方式實行，而不同元件被散於數個相互連接的電腦系統之間。任何種類的電腦統或其他的設備可用以實行此處所描述之方法均應用。其中硬體和軟體的一常見結合可以是包含—電腦式的--般用途電腦系統，當本發明方法被載入與執時可控制該電腦系統。本發明也可以内建於一電腦程式產品中，其包括本發明方法執行的所有特點’而且當電腦程式產:被入於-電腦系統中便可以實行這些方法。電腦程：機或在本語文機制中使用各種形式、任何語言、代碼或號的一組電腦指令預期將使具有資訊處理能力的二1 可直接或在下列兩者或其中之一 ” τ ^ 過程又後執行一特定能·· a)轉變至另一種語言、代碼代碼或付唬，b)以—不形式再生產。第24頁 Μ氏張尺度適財闕家鮮（CNS)A4祕（210 x29?i^ 上和中分系程行使载制符功料 --------rip--------訂---------線釋 (請先閱讀背面之注意事項再填寫本頁) 521262 A7 B7_ 五、發明說明（）本發明已經按照一些實施例被描述。然而，並非將本發明侷限於說明和實施例的描述。其他不脫離本發明基本架構與精神的形式，皆應為本專利所主張之權利範圍，更確切的說是，應由下列的專利範圍界定本發明的範圍。 (請先閱讀背面之沒意事項再填寫本頁) 訂---------％經濟部智慧財產局員工消費合作社印製第25頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐）

Claims

521262 A8 B8 C8 — _D8申請專利範圍 1· 一種用以在一電子文件中搜会、丁又仟甲獲索付合又字的方法，該方法至少包括下列步驟：確認一焦距點在一使用者界面上； -界定周圍區域在該焦距點四周，該周圍區域包含-又字正文在一使用者界面物件範圍之内，該使用者界面物件係用以接收語音口述文字；接收一聲音命令，以挑選在該電子文件中的指定文字；及在該周圍區域所包含之文字正文中搜尋該指定文字的一符合文字，該搜尋係侷限於該周圍區域内之文字正文中。 2 ·如申請專利範園第1項所述之方法，其中更包括下列步驟：如果在該搜尋步騾中沒找到該指定文字的一符合文字，擴展該周圍區域以包含該使用者界面的一額外範圍，該額外區域包含有額外文字；及在該額外文字中搜尋該指定文字的一符合文半該搜尋係侷限於該文字疋文和該額外文字中。 (請先閱讀背面之注意事項再填寫本頁) ---------tr--------- 經濟部智慧財產局員工消費合作社印製 3 ·如申請專利範圍第2項所述之方法，其中上述之擴展驟更包括下列步驟步從該焦距點以一不變增加量向外的擴展該周園區本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公餐〉第26頁

經濟部智慧財產局員工消費合作社印製 521262 A8 B8 C8 D8 六、申請專利範圍 4·如申請專利範圍第2項所述之方法，其中上述之擴展步騾更包括下列步驟：以緊接該文字正文的一不變數量的文字擴展該周圍區域。 5·如申請專利範圍第2項所述之方法，其中上述之擴展步驟更包括下列步驟：從該焦距點以一可變增加量向外的擴展該周圍區域。 6 · —種用以辨識一聲音命令的一實例和語音口述的一實例的方法，該方法至少包括下列步驟：確認一焦距點在一使用者界面上；界定一周圍區域在該焦距點四周；在該周圍區域内確認使用者界面物件；再確認在該已確認使用者界面物件之間那些使用者界面物件是用以接收語音口述正文，而那些使用者界面物件不是用以接收語音口述正文；以已再次確認是用以接收語音口述正文的那些使用者界面物件與已再次確認不是用以接收語音口述正文的那些使用者界面物件為基礎，計算一可能性；接收語音輸入；及以所計算出的可能性為基礎，判定該語音輸入是一聲音命令或是語音口述的一決定。第27頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) I H •Γ'*· «ϋ n n 兮° 521262 A8 B8 C8 D8 六、申請專利範圍 7·如申請專利範圍第6項所述之方法，其中 1尺巴括下列步驟： (請先閱讀背面之注意事項再填寫本頁) 確認一焦距點在該使用者界面之外；及以一隱含可能性為基礎，判定該語音輸入是一聲音命令或是語音口述的一決定。 8· —種機器可讀取記錄媒體，載有一軟體程式，該軟體程式用以在一電子文件中搜索符合文字；其中該軟體私式至少包括複數個程式碼節，可由一機器來執行，以使該機器執行至少下列步驟：確認一焦距點在一使用者界面上；界定一周圍區域在該焦距點四周，該周圍區域包含一文字正文在一使用者界面物件範圍之内，該使用者界面物件係用以接收語音口述文字；接收一聲音命令，以挑選在該電子文件中的指定文字；及在該周圍區域所包含之文字正文中搜尋該指定文字的一符合文字，該搜尋係侷限於該周圍區域内之文字正文中。經濟部智慧財產局員工消費合作社印製 9·如申請專利範圍第8項所述之機器可讀取記錄媒體’其中更包括下列步驟：如果在該搜尋步騾中沒找到該指定文字的一符合文字，擴展該周圍區域以包含該使用者界面的一額第28頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公t ) 經濟部智慧財產局員工消費合作社印製 521262 A8 B8 C8 D8 六、申請專利範圍外範圍，該額外區域包含有額外文字；及在該額外文字中搜尋該指定文字的一符合文字，該搜尋係侷限於該文字正文和該額外文字中。 1 0.如申請專利範圍第9項所述之機器可讀取記錄媒體，其中上述之擴展步驟更包括下列步驟：從該焦距點以一不變增加量向外的擴展該周圍區域。 11. 如申請專利範圍第9項所述之機器可讀取記錄媒體，其中上述之擴展步驟更包括下列步驟：以緊接該文字正文的一不變數量的文字擴展該周圍區域。 12. 如申請專利範圍第9項所述之機器可讀取記錄媒體，其中上述之擴展步驟更包括下列步驟：從該焦距點以一可變增加量向外的擴展該周圍區域。 13. 一種機器可讀取記錄媒體，載有一軟體程式，該軟體程式用以辨識一聲音命令的一實例和語音口述的一實例兩者；其中該軟體程式至少包括複數個程式碼節，可由一機器來執行，以使該機器執行至少下列步驟：第29頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） (請先閱讀背面之注意事項再填寫本頁)

521262 A8 B8 C8 D8六、申請專利範圍確認一焦距點在一使用者界面上；界定一周圍區域在該焦距點四周；在該周圍區域内確認使用者界面物件；再確認在該已確認使用者界面物件之間那些使用者界面物件是用以接收語音口述正文，而那些使用者界面物件不是用以接收語音口述正文；以已再次確認是用以接收語音口述正文的那些使用者界面物件與已再次確認不是用以接收語音口述正文的那些使用者界面物件為基礎，計算一可能性；接收語音輸入；以所計算出的可能性為基礎，判定該語音輸入是一聲音命令或是語音口述的一決定。 I4·如申請專利範圍第13項所述之機器可讀取記錄媒體，其中更包括下列步驟：確認一焦距點在該使用者界面之外；及以一隱含可能性為基礎，判定該語音輸入是一聲音命令或是語音口述的一決定。 (請先閱讀背面之注意事項再填寫本頁) m ϋ n In n m i ^ ^ I fn n n an =σ 經濟部智慧財產局員工消費合作社印製第30頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐)