TWI296793B

TWI296793B - Speech recognition assisted autocompletion of composite characters

Info

Publication number: TWI296793B
Application number: TW095114967A
Authority: TW
Inventors: Colin Blair; Kevin Chan; Christopher R Gentle; Neil Hepworth; Andrew W Lang
Original assignee: Avaya Technology Corp
Priority date: 2005-06-28
Filing date: 2006-04-26
Publication date: 2008-05-11
Also published as: KR100790700B1; KR20070001020A; US20060293890A1; TW200707404A; CN1892817A; SG128545A1; JP2007011358A

Description

1296793 (1) 九、發明說明【發明所屬之技術領域】本發明係關於合成字元的登錄，特別地本發明藉由手動使用者輸入和語音辨識之組合以精細地刪減待選單字或字元之表列，而有助於將單字或字元登錄至通訊或計算裝置中。【先前技術】現在市售的行動通訊和計算裝置能夠進行各種廣泛的功能，逐漸增加地此功能需要文字的登錄或受惠於其中。例如：用於連接行動電話的文字訊息服務目前正廣泛地使用。如另一實例，使用可攜帶式裝置連接電子郵件的應用正在增加中。然而，在可攜帶裝置上鍵盤可用的空間受到極大的限制，所以將文字登錄進入此類裝置可能很困難。此外，某些語言所使用的符號也很難輸入，即使是連接至較大的桌上型通訊或計算裝置也不容易。爲了有助於單字或字元的登錄，特別是使用一可攜帶電話或其他裝置的小型鍵盤，可以適用自動完成的特性。此特性能夠將一表列的待選單字或字元呈現於使用者，以回應接收到來自一使用者的一啓始組輸入。這些輸入可以包括指定一單字的前幾個字母或一字兀的則幾筆劃’比如中文字。然而，因爲呈現的表列可能會非常冗長’對於使用者想要快速地找到所欲的單字或字元會很困難° 爲了解決具有一冗長表列的自動完成待選字之問題， -5- (2) 1296793 能夠提供一表列的待選單字或字元是根據其使用頻率來排序的系統已經問市。將這些待選字根據其出現頻率來排序可以降低使用者轉動整個表列待選字的需要。然而，要以敏感的方式排列一表列的待選單字或字元就可能很困難。此外，當使用者找尋一罕見的單字或字元時，想必無法節省時間或只節省一點點而已。由使用者手動輸入爲一解決方式時，聲音或語音辨識 φ 系統可以適用於輸入文字或啓動指令。然而，此類系統的精確度常常與所希望的結果有所差距，即使經過使用者訓練和校正之後。還有，一套功能完整的語音辨識系統通常會需要行動通訊或計算裝置，例如··行動電話上比較無法提供的處理和記憶資源。結果，適用於連接行動裝置的語音辨識功能常是基本型，並且只是啓動以辨識一種語言中少量次級的口語單字。此外，行動裝置上的語音辨識通常受限於啓動清單指令，比如存取地址簿以及外撥一選取的 φ 號碼。【發明內容】本發明有關於解決習知技術中上述和其他方面的缺點。根據本發明之實施例，語音辨識是用於過濾或縮減待選合成字元之表列，比如單字（例如：關於英文字）或字元 (例如：關於中文字）。特別地，接著在使用者手動輸入一個字母、一筆劃，或被輸入單字或字元的字形之後，該使用者可以說出該字元。然後，語音辨識軟體就嘗試從該 -6- (3) 1296793 待選表列中消除與說出的單字或字元發音不同的單字或字元。據此，即使一個相當基本的語音辨識應用也能夠有效地至少從該待選表列中消除一些單字或字元。再者’藉由先提供一個字母、一個單字或字元的一筆劃或其他部分’ 經由選擇或輸入該部份，適用或待選的單字或字元之範圍係被界定完成較爲狹隘，其能夠降低語音辨識應用所需要的精確度，以進一步地減小範圍，（即縮減該待選表列）或正確地識別該使用者所欲輸入的單字或字元。【實施方式】根據本發明之實施例，一個單字或字元可以包括在一表列的單字或字元（在此統合稱爲 > 字元〃）內，準備好供使用者選擇以回應使用者輸入顯示包括在一所欲字元內之一單字或字元的一特定部分，比如一字母（例如：是英文字的情況），或一筆劃或字形（例如：是中文字的情況 φ )。此外，該表列的字元可以對應於從使用者輸入的語音而縮減。特別地，爲回應從使用者輸入語音的接收可以用於識別相關（或無關）於所接收語音之該待選表列中的字元，而改變該待選表列的內容。尤其’提供一較短的表列待選單字或字元，或者識別一確實的字元，經由利用使用者輸入該所欲字元的一部分與接收使用者發聲該所欲字元輸入的語音辨識之組合，有助於字元的登錄。現在參考圖1，以方塊圖形式繪製根據本發明之實施例中一通訊或記算裝置1 00的組件。該組件包括一處理器 (4) 1296793 1 04，能夠執行程式指令。尤其該處理器1 04可以包括任何一般目的的可程式化處理器或控制器，用於執行應用程式。或者該處理器1 04可以包括一特別架構的應用特定積體電路（ASIC )。該處理器104通常具有執行程式碼的功能，以執行該通訊或計算裝置1 00要進行的各種功能，包括如上所述的單字或字元選擇操作。一通訊或計算裝置1 00可以額外包括記憶體1 08，用 φ 於與該處理器1 04執行的程式連接以及用於暫時或長期儲存資料或程式指令。該記憶體1 08可以包括固態記憶體位置、可移除的或在遠端的性質，比如DRAM和SDRAM。而該處理器104包括一控制器的情況，該記憶體108可以整合至該處理器104。此外，該通訊或計算裝置1 00包括一或多個使用者輸入112和一或多個使用者輸出116。使用者輸入112的實例包括鍵盤、小型鍵盤、觸控螢幕輸入、以及麥克風，使 φ 用者輸出Π 6的實例包括喇叭、顯示螢幕（包含觸控螢幕顯示器）、以及指示燈。還有，本技術領域中的技術人員應該理解到，使用者輸入1 1 2可以與一項使用者輸出1 1 6 組合或連結操作。此一整合的使用者輸入1 1 2與使用者輸出1 1 6之實例爲一觸控螢幕顯示器，能夠同時將視覺資訊呈現於一使用者，並且接收來自一使用者的輸入選擇。一通訊或計算裝置100也可以包括資料儲存器120, 用於儲存應用程式和/或資料。此外，作業系統軟體1 24 可以儲存在該資料儲存器120內。該資料儲存器120可以 -8- (5) 1296793 包括例如··一磁性儲存裝置、一固態儲存裝置、一光學儲存裝置、一邏輯電路、或此裝置的任何組合。應該進一步理解到，能夠保持在該資料儲存器1 20內的程式和資料可以包括軟體、軔體、或硬體/邏輯，隨該資料儲存器1 20的特殊執行而定。可以儲存在該資料儲存器1 20內的應用之實例包括語音辨識應用128與單字或字元選擇應用132。此外，該資 φ 料儲存器120可以包含一表格或一資料庫的待選單字或字元134。如上所述，一語音辨識應用128、字元選擇應用 132、和/或表格的待選單字或字元134，可以彼此互相整合和/或彼此共同操作。該資料儲存器1 2 0也可以包含用於連接該通訊或計算裝置1 00的其他功能品質之應用程式和資料。舉例而言，關於通訊或計算裝置丨〇〇 (比如行動電話），該資料儲存器可以包括通訊應用軟體。另一實例，一通訊或計算裝置1 0 0，比如一個人數位助理（p D A φ )或一般功能的電腦可以包括一文字處理應用和資料儲存器12 0。此外，根據本發明之實施例，一語音辨識應用 128和/或字元選擇應用132可以與通訊應用軟體、文字處理軟體、或能夠接收由使用者鍵入或選擇的單字或字元當做輸入之其他應用共同操作。一通訊或計算裝置1 00也可以包括一或多個通訊網路介面1 3 6。通訊網路介面的實例包括行動電話無線電收發器、一網路介面卡、一數據交換機、一行動電話埠、一串聯或並聯的資料埠 '或其他有線或無線的通訊網路介面。 •9- (6) 1296793 現在參考圖2，繪製的是一通訊或計算裝置loo包括一丫了動電話200。該行動電話200 —般包括一使用者輸入 1 12，含有一數字的小型鍵盤204 '游標控制鈕208、輸入鈕212、以及麥克風214。此外，該行動電話200包括使用者輸出含有視覺顯示器2 1 6，比如一彩色或單色的液晶顯示器（LCD)和喇叭220。於文字輸入或選擇模組時，根據本發明之實施例，使 0 用者能夠致使包含一或多個單字或字元的一部分或完整表列呈現在該顯示器螢幕216上，以回應包含使用者經由該小型鍵盤204輸入的特定字母、筆劃、或字形之輸入。如本技術領域中技術人員可以理解到，包括在該小型鍵盤內的每一個按鍵可以關聯數個字母或字元形狀以及其他符號。例如：圖2中的小型鍵盤204是以按鍵2至9與三個（有時是四個）字母2 2 4產生關聯。此外，圖2實例中的小型鍵盤204是以按鍵2至9與三個（在一情況是四個）中 φ 文字根目錄2 2 8產生關聯。如本技術領域中的一般人員理解到，此類字根可以從連接到包含完整中文字的確定形狀中選擇出來，例如：利用五筆字型形狀爲主的方法繼續完成中文字。此外，選擇該些字根之一可以使相關的字根備用以容許該使用者選定具有特性的一所欲字形。尤其，使用者可以藉由按下或輕敲與所欲字母或字形相關的按鍵多次，以選擇包括在該小型鍵盤204內與一特定按鍵關聯的一個字母或字形。接著，由視覺顯不器2 1 6上顯示至少部分由選擇字母 -10- (7) 1296793 或字形結果所產生的表列之待選字元。假如該表而不能便利地完全呈現於該顯示器2 1 6上，該游或某個其他輸入1 1 2可以用於捲動該完整的表列鈕208或其他輸入112也可以用來連接選擇一所，例如：利用游標鈕208或其他輸入1 1 2以強調表列中該所欲的字元，然後例如：以按下輸入鈕擇該字元。此外，如所敘述該表列的待選字元能 φ 用者經由麥克風214提供至該裝置100的語音，置1 〇〇例如：經過語音辨識應用1 2 8處理後而縮，該語音辨識應用1 2 8的功能在於與字元選擇應合，如此該語音辨識應用1 2 8嘗試識別包括在該應用132於回應手動或其他使用者輸入指定的該之一部分所產生的表列中字元，而不是嘗試識別語音辨識應用1 28字彙內的所有單字。參考圖3，呈現根據本發明之實施例中提供 φ 輔助完成字元，比如英文單字或中文字的一通訊置100之操作方面。首先步驟300中，使用者輸一文字登錄模組，例如：其中該裝置1 00包括一 200、一文字登錄模組可以包括啓始一文字訊息組。步驟3 04中，要決定是否使用者輸入以手動字或字元的一部分（例如：一字母、筆劃、或字收。一般來說，本發明之實施例是與接收如此來輸入連接而操作，以產生該啓始表列的待選字元所選擇一字元的一部分之後，即產生含有該選擇列足夠長標鈕2 1 8 。該游標欲的字元所顯示的 212來選夠根據使再以該裝減。還有用1 3 2組字元選擇所欲字元包括在該語首辨識或計算裝入或選擇行動電話應用或模選擇一單形）被接自使用者。接收到部分的一 -11 - (8) 1296793 表列待選字元（步驟3 Ο 8 )。然後，至少該表列的待選字元之一部分顯示給使用者（步驟3 1 2 )。如本技術領域中一般技術人員能夠理解到，該表列的待選字元可能十分長 ’特別是僅指定一單一部分的情況。因此該顯示器，比如一行動電話200的液晶顯示器2 1 6，就只能夠顯示該表列待選字元的一小部分。於任何一個時刻只能顯示該表列待選字元的一部分時，使用者會捲動其表列來找尋所欲的字 •元° 然後，使用者可以選擇藉由提供語音輸入來縮減該待選表列’因此要決定是否接收來自使用者的語音輸入並且辨識當做代表或與一待選字元的發音相關（步驟3 20 )。特別地，例如：經由一麥克風2 1 4接收到的語音可以由語音辨識應用1 2 8分析，以決定是否吻合一待選字元。假如是吻合的，就產生一修改的待選字元表列（步驟3 24 )。如本技術領域中一般技術人員所理解，即使一基本的語音 • 辨識應用1 28能夠肯定地從該表列中識別一單一字元，特別當該表列是受限於所接收到包括在該使用者想要輸入的字元之一或多個部分。也如本技術領域中一般技術人員所理解，一語音辨識應用1 28能夠降低一表列的待選字元之長度，即使並不能從該表列中識別一特定的字元。例如：當語音辨識應用1 28能夠將一使用者的語音輸入關聯該表列的待選字元之次集合，該修改的表列可以包括字元的次集合。因此，一語音辨識應用1 2 8的功能在於從一表列中消除那些口語發音不同於該所欲單字或字元的口語發音之 -12- Ϊ296793 Ο) 胃字或字元。所以，一使用者必須（至少在此時）搜尋而能找到一所欲單字或字元的數目就降低了。然後，至少一部分之該修改的表列顯示呈現給該使用者（步驟3 2 8 )。 @如修改的表列包含太多待選的字元要同時顯示於一使用者輸出1 1 6，比如一液晶顯示器2 1 6，使用者可以再次捲動該表列。步驟3 3 2中，可以再次決定是否該使用者已經選擇該 φ 待選字元中之一。此決定可以在該使用者決定還沒有提供語音以能夠產生該表列的待選字元之後，或者在步驟3 2 8 中產生一修改的表列待選字元之後。假如該使用者已經選擇一表列的字元，此過程即結束。然後該使用者可以離開文字模組，或開始選擇下一個字元的步驟。假如該使用者還沒有選擇一表列的字元，該過程可以回到步驟3 04，於此點上該使用者可以輸入一額外的部分，比如一額外的字母、筆劃、或字形，然後在步驟3 0 8產 φ 生的該表列字元包括一修改的表列字元，以反映由該使用者目前所指定的額外部分。例如：一使用者已經指定兩個字母或字形，而這些字母或字形就被要求在每一個表列的字元內。然後，將完成的表列呈現出來，至少是部分（步驟3 1 2 )。步驟3 1 2將該修改的表列顯示給使用者之後，該使用者可以嘗試提供語音輸入爲能進一步降低表列中待選字元的數目（步驟3 20 )。因此，在步驟3 3 2假如該使用者沒有選擇一個表列的字元，該使用者就可以決定不要提供步驟3 1 2中以該所欲合成字元的一額外部分爲形式之 -13- (10) 1296793 額外輸入，而以進行步驟320取代，藉由提供語音輸入進行另一嘗試減縮該表列的待選字元。假如提供額外的語音輸入，該輸入就可以用於產生一修改的表列待選字元（步驟3 24 )，並且修改的表列能夠至少有部分顯示給該使用者（步驟3 2 8 )。因此，應該理解到能夠進行多次重複指定一單字或字元的部分，和/或提供語音以識別一所欲的單字或字元，或是至少降低該表列的待選字元之長度。 φ 現在參考圖4A至4C，繪製根據本發明之實施例中以連接可以提供至一使用者的視覺輸出之操作。特別地，繪製一裝置100的顯示螢幕216包括一行動電話200，於一中文文字登錄模組。如圖4A所示，該使用者可以選擇一所欲字元的一或多個筆劃404。選擇筆劃404可以輕壓包括在該鍵盤內與形成該使用者想要指定的字元中第一筆劃相關之按鍵進行。因爲中文字是由八種基本筆劃形成’也因爲使用的中 φ 文字有好幾千個，指定一個所欲字元的兩筆劃通常會致使產生一個長長表列的待選字元。圖4B呈現本實例中所指定以筆劃404開始的表列406a之一部分待選字元408a至 4 0 8 d。第一個字元4 0 8 a的發音約是 ''年〃，第二個字元 40 8b的發音約是、、和〃，第三個字408c的發音約是、我 "，以及第四個字4 0 8 d的發音約是 ''生〃。從此表列中，該使用者想要的是第三個字元40 8 c。根據本發明之實施例，該使用者可以經由發聲唸出該所欲的字元從該表列的待選字元中選出。因此，該使用者可以發音讀出第三個 -14- 1296793 (11) 字408c，致使該表列修改得到只包含字元408c，如圖4C 所示。然後，該使用者可以確認該語音辨識應用1 28的執行或與該行動電話200的關聯，已經正確地縮減該表列至該字元，再輕敲輸入鈕212或是輸入選擇該字元。所以應該理解到，根據本發明之實施例中手動登錄一字元的一部分與語音辨識步驟之組合，有助於一使用者選擇由許多筆劃組成的字元。此外，只需要簡單地輸入這些筆劃中至少 φ 之一，以及然後發聲唸出該所欲字元就能夠完成。此組合的優點在於即使該語音辨識應用1 28並不夠精準足以從該字元的讀音中單獨辨別出所欲的字元，但也能夠分辨看似相同而發音卻很不一樣的字元。此外，即使該語音辨識軟體1 28不能從其口語發聲並參考因回應一或多個手動輸入筆劃所產生的該表列待選字元，而辨別該所欲字元，也應該能夠縮減該表列的待選字元。例如：當圖4B顯示的該表列待選字元運作時，該語 Φ 音辨識軟體1 28無法根據該使用者的語音輸入分辨該第二 4 08b ( 和〃）與該第三408c ( '、我〃）字元的差別。然而，語音輸入應該容許該語音辨識軟體1 2 8得以消除該第一 408a ( ''年〃）與該第四408 d (、生〃）待選字元。因此，經由本發明之實施例中手動輸入與語音辨識的組合，該表列的待選字元就可以縮減至該第二408b和第三 408c字元，如圖4D中表列406b所示。然後，該使用者可以從該縮減的表列406b藉由例如：使用該游標控制鈕 208強調該字元並壓下該輸入鈕212，以選擇所欲的字元 -15- 1296793 (12) 雖然在此所敘述本發明之實施例中，某些實例是討論藉手動輸入經由一所欲單字或字元的一或多個部分之一小型鍵盤內按鍵’和/或選擇一所欲的單字或字元之方式，但本發明之實施例並不受限於此。例如：手動登錄可以在一觸控螢幕顯示器選擇，或在觸控螢幕顯示器的一書寫區域寫下一所欲的部分來進行。如進一步的實例，該啓始（ φ 或後續）的選擇一單字或字元中一或多個部分，不需要經由手動登錄進行。比方一使用者可以發唸出該所欲部分的名稱，以產生一表列的單字或字元，然後再發聲唸出該所欲的單字或字元以縮減該表列。此外，本發明之實施例具有的應用可以連接至選擇和/或登錄任何語言的文字，其中具有 ''字母順序〃或單字或符號的組成部分是超過正常通訊或計算裝置鍵盤所能夠簡易代表的。本發明先前的討論是以呈現和敘述爲目的。此外，這 φ 些敘述的用意不在於將本發明限制在已揭示的形式內。因此，上述內容的各種變化和修改，對於相關技術領域的技術或知識內爲等同份量，且都在本發明的範圍之內。以上所敘述實施例的用意進一步地解釋實施本發明所知的最佳模式，使得本技術領域中其他技術人員能夠利用本發明於此或其他實施例，並以其特殊應用或使用本發明所需要的各種修改。所附專利申請項的建構用意在於包括各種實施例至習知技術容許的範圍內。 •16- 1296793 (13) 【圖式簡單說明】圖1是根據本發明之實施例中一通訊或計算裝置的組件之一方塊圖；圖2根據本發明之實施例繪製一通訊裝置；圖3根據本發明之實施例中操作一語音辨識輔助的自動完成處理之繪製流程圖；以及圖4A至4D根據本發明之實施例繪製一範例的顯示【主要元件符號說明】 1〇〇 ’ 2 00 :通訊或計算裝置（行動電話） 104 :處理器 1〇8 :記憶體 1 '1 2 :使用者輸入 Π 6 :使用者輸出 120 :資料儲存器 124 :作業系統軟體 128 :語音辨識應用 132:單字或字元選擇應用 134:待選單字或字元表 1 3 6 :通訊網路介面 2 0 4 :(數字）小型鍵盤 208 :游標控制鈕 2 1 2 :輸入鈕 -17- (14) 1296793 214 ： 216 ： 2 20 ：麥克風顯示器（螢幕）喇叭

-18-

Claims

(1) (1),1296793 十、申請專利範圍 1· 一種用於指定一書寫字元的方法，包括：接收至少一第一字元部分的選擇；產生含有該第一選擇部分之一第一表列的待選字元；接收來自一使用者的第一語音輸入；以及利用來自一使用者的該第一語音輸入，修改該第一表列的待選字元，其中產生一第二表列的待選字元。 2.如申請專利範圍第1項之方法，其中該第一語音輸入包括對應於一所欲字元的發音之語音。 3 .如申請專利範圍第2項之方法’其中對該第一表列之該修改包括移除不對應於該所欲字元的該發音之字元〇 4. 如申請專利範圍第1項之方法，進一步包括：接收來自一使用者的一第二語音輸入’其中修改該第二表列，而且其中產生一第三表列的待選字元。 5. 如申請專利範圍第1項之方法，進一步包括：接收一第二字元部分的選擇；利用該第二選擇部分，修改該第二表列的待選字元，其中產生一第三表列的待選字元。 6. 如申請專利範圍第1項之方法’進一步包括：接收來自該第二表列的該些字元中之一的選擇。 7 ·如申請專利範圍第1項之方法，其中該第一字元部分包括一英文單字的一第一個字母與一中文字元的一第筆劃其中之一。 -19- (2) 1296793 8 ·如申請專利範圍第7項之方法’進一步包括·· 接收一中文字元之一第二筆劃的選擇，其中該產生一第一表列包括產生含有該些選擇的第一和第二筆劃之一第一表列的中文字元。 9. 一種用於選擇一字元的裝置，包括：用於接收來自一使用者之輸入的機制；用於儲存複數個字元之與一或多個字元部分的關聯之機制，用於針對包括在該複數個字元內的數個字元儲存一字元與該字元之發音之間的關聯之機制；用於回應包括至少一第一字元部分的使用者輸入而產生選擇自該複數個字元之一第一表列的待選字元之機制；用於回應包括一所欲字元的發音之使用者輸入而修改該第一表列的待選字元以形成一第二表列的待選字元之機制。 10·如申請專利範圍第9項之裝置，其中用於接收來自一使用者之輸入的該機制包括用於接收來自一使用者的手動輸入之機制。 11. 如申請專利範圍第9項之裝置，其中用於接收來自一使用者之輸入的該機制包括用於接收來自一使用者的語音輸入之機制。 12. 如申請專利範圍第9項之裝置，進一步包括：用於提供視覺輸出至一使用者的機制，其中顯示該第一表列的待選字元之至少一部分。 -20-