TW448381B

TW448381B - Automatic segmentation of a text

Info

Publication number: TW448381B
Application number: TW088121572A
Authority: TW
Inventors: Ya-Cherng Chu
Original assignee: Koninkl Philips Electronics Nv
Priority date: 1998-11-30
Filing date: 1999-12-09
Publication date: 2001-08-01
Also published as: KR20010040499A; JP2002531892A; WO2000033211A3; KR100749289B1; BE1012417A3; WO2000033211A2; CN1328672A; CN1143232C; US6374210B1; JP4302326B2

Description

448381 i五、發明說明（π j 本發明係有關於將一連接本文分段成字之一方法，包括 |讀取表示連接本文的一輸入字串的該等步驟；藉者將該輸 |入字串與在一字典的字相比較而識別在輸入字串的至少一序列單獨字；以及輸出該等至少一識別的字序列。本發明係進一步有關於用以將一連接本文分段成字之一 |系統；該系統係包括用以讀取表示連接本文的一輸入字串 I之裝置；藉著將該輸入字與在一字典的字相比較而識別在 I輸入字串的至少一序列單獨字之裝置；以及輸出該等至少一識別字序列之裝置。逐漸提升的進階自然語言處理技術是使用在資料處理系統，例如語音處理系統、手寫/光學字元辨識系統、自動翻譯系統、或文書處理系統的拼字/文法檢查。此系統係 ; 時常使用與個別字或字序列有關的統計資訊。統計資訊可 1藉由分析較大本文主體而獲得。對於分析而言，個別的字 |需要在本文識別。在包括西方語言的許多語言方面，字是 j由邊界符號分開，例如一空白或其他標點符號，容易標示確認。然而，許多其他的語言在字之間沒有邊界符號。此語言的範例是例如中文、日文、與韓文拼音的許多亞洲語言。此語言有時稱為膠著語言。典型上，這些語言是使用特殊字元r會意文字"）撰寫，每一字元表示一或多個音節 !點，而且通常是一觀念或有意義的單元。一字是由這些其 !中一或多個字元所組成。此一語言本文的讀者必須可識別這些字的邊界，以構成有意義的本文。對於許多應用而言，只有一序列的字必須被識別。

第5頁 448381 丨五、發明說明（2) j 從美國專利案號5, 448, 474，來自連接中文的中國字單 I獨之方法及系統是已知。在此系統，一字典查詢程序可被執行，其中一本文的所有部份字串可被識別。對於本文的每一字元而言，它可檢查字典的每個字是否該字符合在此 |位置開始的本文°如本文” s 〇 f t w a r e"的範例，在位置〇(本文的第一字元），一符合可找到該等字” so” 、h soft"、與 software” ；在位置1可找到該等字"〇f "與"〇it";在位置 4可找到該等字” w a r ”和11 w a r e";在位置5可找到” a ”與 "a r e";以及在位置6可找到” r e"。對於每個符合而言’一登錄可在一表格建立。該登錄係包括符合的字、在本文符合開始的位置、與字的長度。如果發現在一位置上沒有符合的字，一登錄便可在包括個別字元的表格達成。如此，所有可能的字與未符合的字元便可加入表格。然後’在表格的登錄數目便便可基於一字必須在毗連—前字結尾開始，而且必須在础連下一字的開始結東的標準而減少。如此，既然重疊字（非®比連）將可移除’所以部份的本文便可由識別的字所涵覆。一分開恢復程序的執行可基於保持最長符合重疊字的一標準而更正不想要刪除的重疊字。最後，再次闡明，將非毗連本文或另外未刪除字的結尾或開 !始的所有字移除。最後的結果可包括數種可能的字序列。 I有關一般本文時常發生的字的資訊可用來選取該等其中一 I序列。例如，既然兩字元字組比單一字元字组更常使用’ 丨所以兩字元中國字組的一序列便可使用由兩單一字元字组 i所表示的兩字元的一相同序列選取。

第6頁 44838 1 五、發明說明（3) | 已知單獨程序是複雜的，並且需要一恢復程序以更正錯丨誤的刪除" | 本發明的一目的是要提供更有效的方法及系統。若要符合本發明的目的’該方法的特徵在於識別至少一 j i字序列的步驟係包括以一反復方式在輸入的字串建構表示丨字序列的一樹狀結構：將該輸入字串視為工作子串， | 對於一字典的每個字而言：將該字與工作字串的一開始相比較；以及如果字符合該工作字串的開始： | 在表示字的樹狀形成一節點； ί 與部份輸入字串的節點有關，該部份係開始於毗連該字的一結尾位置的緊接位置；以及 ! 形成連結至該節點的一子樹狀，其係藉由使用結合工作字串部份而表示在與該節點有關部份輸入字串中的字丨序列。 | 藉由建立一樹狀結構，分析輸入的字串可自動造成識別 :®比連一前字的僅有一些字。原則上，在輸入字串的結尾上結東的最後字之所有識別的字序列是可能的。如此，不可 :能的（鑑於先前的字）的字不會認為是候選的。此可減少要 I !處理的資料量。而且，刪除字及再引用重疊的複雜程序是 i I不需。根據本發明將取樣字串"s 〇 f t w a r e"分段會造成具兩丨 :主要分枝的一邏輯樹狀結構，一分枝具有表示"software"

I 字的單一節點，而一分枝具有分別表示、of t"與"waren字

第7頁 448381 五、發明說明（4) !的兩連結節點。結果，只需三個登錄，以取代在先前技藝丨系統的1 〇個登錄。在根據本發明如申請專利範圍第2項之具體實施例，如；果符合一預定標準，多數新的字便加入不同的長度。藉著丨將不只是單一字元的字元未知序列加入一資料結構，它變成能以一簡單的方式而識別多重字元的新字。這使程序適 I合於例如日文的語言，其中許多單一字元不表示一字。此 |外，它允許當作較佳新字的一都重字元的字，其中單一字 :元字組不需要輸入字典。如此，便可避免字典受到單一字元的’干擾’。在一字典具有許多單一字元登錄會減少將本文正確分段成字的機會。如一範例，如果單一字元π ΐ"是 :在字典中，本文"thisbook1'便可分段成字M tn 、” his”、與

I 11 book·1 的序歹>J 。 i 在根據本發明的如申請專利範圍第3項之具體實施例，此標準係基於一字序列是否可藉由使用已存在的字典識別的一整體決定。如果沒有序列可被識別，新的字便可加

I i入。此測試可藉著先只使用已存在字典的已知字而建立一 I樹狀結構來執行，而且在樹狀建立之後，檢查至少一路徑 :是否表示符合該整體輸入字串的一字序列。只要藉著該樹狀的第一路徑到達該輸入字串的結尾，該確認便可藉著在 ;設定一參數樹（到達字串結尾）建立樹狀結構期間而能非常 !的簡單。在如申請專利範圍第4項之具體實施例，該等新字可加入一或多個路徑末端結尾，該等路徑的對應字序列不符合

第8頁 44838 1 五、發明說明（5) 丨整個輸入字串。此節點可藉著跟隨經由該樹狀的路徑而簡單地設置，而且如果路徑結尾節點符合輸入字串的結尾，亦即該等字符合並位在字串，便檢查。此可藉由檢查與該丨末多節點有關的部份輸入字串是否空白的一簡單方式而檢 |查，表示該等符合的字是否在整個字串找到）。在一較佳 |具體實施例，一整體決定的採行是否要增加新的字（如前述）。如果增加新的字，該樹狀結構便可重建。在重建樹狀期間，加入新字的節點可在字典的字沒有符合其餘部份丨輸入字串（而且還不是整個字串已處理）的樹狀位置找到。 I 在如靠申請專利範圍第5項的具體實施例，可計算有多少字符合工作字串的開始。如果此數值低於一臨界，那麼 |新的字便可增加。有多少新字可增加係決定在所發現符合 ;字的數目，其申如果發現較少的符合，理想上更多的新字便可增加。如此，在字序列的另一想要的數目便可建立。在如申請專利範圍第6項之具體實施例，如一極端情況，該臨界可以是如果已存在字典沒有單一字符合該工作字串的開始，結果是新的字可增加。如申請專利範圍第5和6項丨之具體實施例理想係用於樹狀的區域決定，就某種意義來 |說在樹狀的每個分枝可決定是否要增加（更.多）新的字。 I 在如申請專利範圍第7項之採行區域決定的另一具體實 !施例，已在路徑的新字數目的採用係當作用以決定新的字 !是否需要增加的衡量。在一 ’理想’情況，如果在一路徑的：平坦時間需要一新的字，只有一或一些新的字可增加，其

I 實質上所有皆可能（從人類讀者的預期）。事實上，每個具

第9頁 44838 1 :五、發明說明（6) |有一不同長度的許多候選需要測試。一些錯誤的候選字會造成一錯誤排列識別在其餘字串的字。在沒有特殊衡量， I此一錯誤排列會造成進一步增加新的字（可能由進一步新 i的字等跟隨）。例如，藉由允許在一路徑的兩或三個新 i |字，一般可避免樹狀使用由錯誤的新字所造成的許多序列而擴展。在如靠申請專利範圍第8項之區域決定的另一具體實施例，計算該等字序列（藉著樹狀對應路徑）的可能性。如果可能性降得太低，該路徑便不再延長。如此，包括新字的 !不切實際分段便不可進一考慮。有利地，該臨界是動態建立，以確保一相對估計。如果已有一或多個序列已識別 (具一計晝的可能），只要序列具有一較高的可能性，其他；的序列便可處理。理想上，一新的字具有一相對較低的可 !能性，其中該可能性是決定在新字的長度。如此，一字序 i !列的可能性便可隨著在序列的新字數目而減少，就如申請

I 專利範圍第9項。如此，便可避免一新字（造成其餘的字串亦錯誤排列，並且需要進一步新的字）的錯誤選擇造成與 !許多新的字持續將樹狀擴展。根據如申請專利範圍第1 0項之具體實施例，新字的長度 1是限制在K個字元，其中K> 1。理想上，K等於5，對於特別是具主要短字的亞洲語言而言，確保多數的字可識別，而 i無需過度建立較大的樹狀。 ! 如申請專利範圍第11項之一具體實施例，如果路徑的最 !後一字是與輸入字串的結尾排成一列結束，在樹狀的一路

第10頁五、發明說明（7) 徑只可認為表示一有效的分段。這可藉由只從樹狀這些結 !尾節點（葉）由原路退回開始而識別有效的序列，其結合的字是與輸入字串的結尾排列。 I 如申請專利範圍第1 2項之具體實施例，一統計的N字元 |語言模型是用於藉著樹狀而決定一最有可能的路徑。如 i次，一發現的決定便可採行，以便從數種可能的序列選取一最有可能的序列。此序列的字可被輸出，作為表示分段丨的本文。理兩上，如果該方法是用於建立語音辨識系統的一字典（字彙及/或語言模型），理想是使用具N字元語言模丨型的内.定字典。如果字彙較大（例如超過1 0, 0 0 0個登錄）， I理想是使用2或3個字元。 i 若要符合本發明的目的，該系統的特徵為用以識別至少

I 一字序列之裝置在操作上能以反覆方式在輸入字串建立表丨示字序列的樹狀結構：將輸入字串視為工作字串； ! 對於一字典的每個字而言：將該字與該工作字串的一開始相比較；以及如果字符合該工作字串的開始： i ; 在表示該字的樹狀形成一節點；與部份輸入字串的節點有關，它是緊接毗連該字的結尾位置的一位置上開始；以及丨形成連結至該節點的一子樹狀，其藉由使用當作工作字串的部份而表示在與該節點有關的部份輸入字串的字序列。

第11頁 448381 五、發明說明（8) 一" ~ ....._______ 本發明的這些及其他的觀點將可從的闡述而更顯然。巧所示具體實施例圖1係根據本發明而描述系統的方塊圖，圖2係顯示一語音辨識系統的方塊圖，圖3係顯示用以字或次要字單元模型型，的隱藏Markvo模圖4係顯示只使用已知字及新字式流程圖；兩步驟方法分段方圖5係顯示使用已知字分段的— 以及予刀杈的以樹狀為基礎流程圖’ =6係顯示使用新字分段的一以樹狀為基礎流程圖。々$ _主4 + 成子的許多範例是以拉丁文子凡表達的本文。事實上，包枯 —外咕 u 手只上匕括的语言係使用不同的字 7L付唬’例如片假名或平假名。圖1係根據本發明而顯示系統川的—方塊m统，係包括輸入裝置110 ’用以接收表示一連接本文的輸入該字串可表示一片語、-句子、或多重句子的-較大本文。在亞洲語言方面，例如 —_ 文或中文句子是由一分隔子7L分開。對於此語言而古，籽 ^ ν ^ . 。向。較大的本文理想是以一句子Si又。最後，一較大的太今#。 ^ χ 文要先分段成句子，可使用句子分隔符號來識別句子，而且 ,^ 〇D _ 1 5亥專個別的句子可使用根據本明的方法而分段《並利μ 安/ σ ，、工上’該輸入字串可從一本文檔诸々从* u u »丄科供成—共同的格式，可使用一内建或外部轉換器。本文亦

J例如错由掃描文件及使用OCR

第12頁 ^ 4S 3 3 ；五、發明說明（9) 技術f辨識一字串而從—硬拷貝文件取回。 5玄系統係進一步句括辦它丨# 分p +户彻二別裝置】2ϋ，用以將該輸入串起刀士又成一或多個字序列。並别L & ψ ^ 體實絲 .., I上，邊識別裝置〗2 0是以軟奴X ’而在例如—個人雷子人 5¾ , , 斗包腦的適當處理器或一工作站處里益上執行。忒識別裝置12〇矽祛田疼典)122及亦可是選取^ 2〇係使4用用以分段的-字典(字 100 取性的一語言模型124。一般假嗖絲血 122的字彙與語言模奴假。又辭典哕糸社-r + y τ 1 Z4疋基於—特殊語言的分隔字。。亥系、，克可支挺不同語t的；^曰令备糸铽沾i , ·，的不问子某。字彙的大小可隨著該至少一 Μ別玄成^ 輸出裝置130可用於輸出該等此）丰床^丨义/ 。在許多情況，理想是只輸出—（或一 ;子/:。夕齡於根據本發明的方法及系統亦可用於痛右叮二二匕需析例如用於產生一自動索引的數個或所有可能的候選字。乂所病:ί ί上’方法及系統是用於圖案辨·，例如較大字彙遠 …辨識或手寫辨識系統，其中一字彙是用來辨識字連而且°。5模型可用來改良基本的辨識結果。既然用於案，識的技術亦可有利地採用於根據本發明的分段’首先要提供一圖案辨識系統的描述。圖2係描述一連續語音辨識系統2 0 0 ’該系統係包括一光譜的分析子系統2】〇及—單几符合子系統2 2 0 [可參考L.Rabi ner， B~H.

Juang, Fundamentals of speech recognition", Prentice Hal 丨 1993，pages 434 t0 454 ] e 在光譜分析子系統210，該語音輸入信號（SIS)是光譜及/或暫時分析1以计异.特徵（觀察向量〇 V)的一代表性向量D典型上，

448381 五、發明說明（10) i該語音信號可例如藉由應用預強調而被數位化（例如6. 6 7 |什赫的取樣率.）及預處理。連續的取樣聚集（成區塊）成框’以符合例如3 2毫秒的語音信號。連續框可部份重疊，例如1 6毫秒。時常，線性預測編碼（LPC )光譜分析法是用；來計算表示特徵（觀察向量）向量的每一框。例如，特徵向量可具有24、32或63個元件。在單元符合子系統220，該觀察向量是與語音辨識單元的一目錄相比較。一語音辨識單元是由聽覺參考序列表示。可使用各種不同形式的語音辨識單元。如一範例所示，一所有的字或甚至一群字可由 —語音辨識單元表示。一字模型（WM)可提供於在聽覺參考序列的的一轉錄之一特定字彙的每個字。對於系統而言，；其=一整個字可由一語音辨識單元表示，一直接關係是存在字模型與語音辨識單元之間 << 特別是較大字彙系統的其 =系統可用於基於次要字單元語言的語音辨識單元，例如電話、diphones或音節、及例如fenenes*f "元。對於如此的系統而言，一字模型可由一字了提供，其描述與字彙的一字有關的次要字單元序列；以及部份字模型232，其描述包括語音辨識單元的聽覺參考序丨列。一字模型形成器236可基於部份字模型232與字典234 而組成字模型。圖3A係描述基於等個字語音辨^ ^的一 :系統之字模型300,其中所顯示字的語音辨識單a = i 個聽$參考（301至310)的序列而模型化。圖3“描 i处基於.次要字單元的一系統之字模型32〇，其中所示的字 i是由3個部份字模型（35〇、36〇和37〇)的序列而模型^匕·，子每

第14頁 448381 :五、發明說明（11) i個具有4個聽覺參考（351、352、353、354 ;361至3 64 ; 371至374 )序列。在圖3所示的字模型是基於隱藏Mark〇v模型，此模型是廣泛使用於猜測模型語音與手寫信號。藉著此模型的使用，每個辨識單元（字模型或部份字模型）典型是由HMM提供特徵，其參數可從一序列的資料組估計。對於包括例如1〇, 0 0 0至60, 0 0 0個字的較大字彙語音辨識系統 I而έ ’既然它需要許多的序列資料來排列較大單元的一 | Η關’所以通常可使用例如4〇的有限次要字單元。一η丽狀態係符合一聽覺參考（用於語音辨識）或簽字參考（用於手寫辨識）。各種不同的技術已知是用以模型化一參考，包括非連續或連續可能性密度。 ! 子如圖2所示一子準位相配系統2 3 0可將觀察向量與語音 1識單元的所有序列比較，並且在該向量與一序列之間提 !仪相配的可能性。如果使用次要字單元，限制便可藉由 :使，字典234而加諸於比較，以限制在字典234中序列的次 I要字早几的可能序列。這可減少字可能序列的結果。一句 i子準位相配系統240係使用一語言模型（LM)，以便在比較 | ^做，—步限制3所以搜查的路徑是對應字序列，該等字 j列是如同由語言模型所指定的正確序列。如此，單元相 ::系％ 220的結果是-辨識的句子（RS)。在圖案辨識所盥：的語言模型係包括語言的句子構造及/或語意限制242 |二辛識工作。基於句子構造限制的一語言模型通常係稱 i 文法2 4 4 ^ … x員似的系統是已知為辨識手寫。除此或選擇性指定字序

第15胃

4 4838 1 _ .. — - ——... _________ :五、發明說明（12) 〜手寫辨識系統的語言模型可指定字元序列之外，用於 I列。由語言模型所使用的文法2 4 4可提供一字序列W = w2w3. . . Wq的可能性’原則是以下列式子提供： I Ρ(^)=Ρ(νι )P(w2 |ws).PCw3 . . P(wq I w,w2w3 ...wq)·

I I 實際上，既然在一特定語言痛實估計所有字與所有序列長度的條件字可能性是不可實行，所以N字元模型便玎廣泛使用。在一N字元模型，項式P (、·丨w] w2w3. _ 说卜〗）是接述 I於P(Wj丨WjN+i. ..wKl)。實際上’使用兩個字元或三個事元。在三個字元方面’項式IHWj | w]w2w3· . . Wh )接近於 P(wi丨whWm)。自動建立1')字元語言模型的方法是藉由〆 :簡單的相對頻率而估計有條件的可能性P(Wj | Wpw .. Ό :F(w卜叫’其中F是特定本久序列主體中在飲數的字串發生數目。對於可靠的估計而 |言，. . w卜,wp必須是實質在特定的主體。 | 對於圖案辨識而言’ 一般需要字典與辭典皆基於表杀要辨識本文的字。這可藉由分析代表性本文而達成，其是甚於字或字序列頻率而從本文摘錄字及建立一語言模型，槔丨據本發明的分段可有效地用於摘錄來自連 2二的對丨於排列-圖案辨識系統的字典或辭典而；接造成有：二―輸出序列。如果使用在_圖案辨識系統，該分 L統100理想亦包括更新裝置140，用以將輪出字序列

44838 1 i五、發明說明（13) (亦即字不仍然在辭典1 2 2 )的新字結合在辭典1 2 2。理想 |上，語言模型亦可更新，例如反映新的字或字序列的可能 ί性，其包括新的字及已知字或字序列的可能性。根據本發明，分段是藉由建立表示輸入字串的單獨字序列的一樹狀結構而執行。原則上，如果字典已包括一要分段本文的所有字，沒有新的字需要增加。結果，一字序列丨可或不可包括一或多個新的字。既然如果新的字需要增力〇，分段便更困難的與複雜，所以理想上先決定本文是否只能使用已知的字而分段。整個程序是在圖4描述。在步驟41 0，一輸入字串是從一本文主體42 0取回。如先前的描述，字串可以表示一月語、一句子、或一多重句子本文。在步驟43 0，它可檢查整個主體是否已分段。如果如此（該字串會是空白），程序會在步驟440結束°否則，在步驟 4 50，本文可籍由使用特定的辭典（只有已知的字）分段。 !此理想可藉由建立一樹狀結構而完成，其中在樹狀結構的

I |每個節點係表示一已知的字。藉著不能夠完成（沒有知道；的字符合其剩的字串）樹狀（表示一字序列）的路徑完成。步驟450將會在下面參考圖5而詳細描述。在步驟460，它可檢查本文是否只使用已知的字分段。這可藉由檢查經由 |該建立樹狀的至少一條路是否完成（亦即對應於一路徑的 !結尾節點符合位在該字串結尾的字串結尾字元）而測試。 ί !最後，經由樹狀的路徑可遵循，直到對應整個字串的一路 !徑發現為止。理想上，當在樹狀建立期間而到達該字串的 1結尾時，此可用於當作一"到達字串尾Π參數儲存。如此， 44838 1 五、發明說明（14) !檢查一路徑完成是否只包括檢查儲存的資訊。如果步驟

I

! 4 6 [)的測試表示本文可分段，該識別的字序列便可在步驟 4 70輸出，而且程序會在步驟41 0持續。如果不是，程序會丨在步驟4 8 0持續，而且重新將字串分段，但是現在允許增加新的字。步驟4 8 0將會在下面參考圖6做更詳細描述。事 ί實上，可了解到在步驟4 6 0識別可使用義知字分段的一字 |串亦可使用新的字分段。本文的讀者可能較喜歡包括新字 I的一分段，亦即具這些新字的一字序列比使用已知字的識別序列更可能出現。此情況將很少發生。然而，若要處理；此情況而不始終使用可能的新字將字串分段，一般較喜歡選擇部份的步驟4 6 0，一已知字序列的可能性可決定（例如使用Ν -穀粒語言模型），而且如果該可能性超過一特定臨界，該本文便可認為是使用已知字分段；否則，開始使用新的字分段D 圖5係顯示只使用已知字開始分段的流程圖。根據本發明可建立一樹狀結構。原則上，用以建立及表示一樹狀結構的任何適當技術可使用。在圖5的範例，樹狀可藉著使用元件（表示樹狀節點）與在該等元件（指標符號）（表示在 |該等節點之間的路徑）之間的清單而表示。在範例，使用 |兩清單=一結尾清單係包括對應一字的該等元件，該字係丨符合而且是與輸入字串的結尾排列。一等候清單係包括對

I |應一字的該等元件，該字係符合該字串，但是不會與輸入 |字串的結尾排列。每個元件是與字典的一已存在的字有 |關。此關聯性能以任何適當的方式執行（例如將字複製，

第18頁 44838 1 五、發明說明（15) ~

而且將它儲存右+ Μ =£- li'* LJu _JL 失考（m，Λ 資構或•存在字典的一登錄 > h私付旒或數目））。此外，每個元件是與部份的輸入子f有關，這些元件會遵循與該元件有關的字。一特殊 7L件是根元件，該根元件是與整個輪入字串有關，但是與 2何的字無關°該根元件使用於結合所有可能的字序列。實際上，不需要具有一分開的根元件。相反地，對於符合輸入字串開始的字典的每個字而言，—新的元件便可建立。該所建立的元件可當作一字序列的第一元件使用。步驟5 10和511係程序迴路的初始化。在步驟51〇，該根元件可建立，而且輸入字串是與該根元件有關。在步驟5ιι，該根元件是放在等候清單。在步驟5丨2，等候清單的一元件是當作主動元件（結果，該根元件是當作最初主 = 選取）選取。在步驟512，載入工作字串。與等候清單的目前主動元件有關的字串是當作工作字串使用。如此，既然該輸入字串是與根元件有關，所以最初整個輪入字串是^ 作工作字串使用，該根元件最初是主動等候清單元件。在一迴路，在步驟514和516，字典的所有字連續從字典取回。一下一字的取回是發生在步驟514。在步驟516 /它可測試一字是否仍取回（不是所有的字皆測試）。如果如此，在步驟518 ’它可檢查字是否符合工作字串的開始。如果不是’下一字便可在步驟514取回。如果發生—符合，在步驟5 2 0，一新的元件便可建立。該元件係連接至字（例如該字的儲存元件有關），連接至其餘的工作字串（在從工作字串的開始移除符合的字之後），並且與父元件（亦即與在

第19頁 448381 五、發明說明（16) 輸入字串的引前字有關）連結。對於符合該輸入字串開始的字而言，該根元件是當作與該等開始字有關的該等元件之父元件使用。在步驟522 ’它可檢查該輸入字串的結尾是否已到達（亦即其餘的工作字串是否為空白）。如果如此，經由樹狀的一路徑便結束，而且一字序列便找到°若要確保此序列可容易地取回，該元件是在步驟5 2 4儲存在結尾清單。對於足以確認一字序列（不必然是最有可能的）的系統而言，只要字串結尾已到達一次，程序便能結束。如果字串的結尾尚未取回，該元件便可儲存在等候清單 (步驟5 2 6 )〇其餘字串將在稍後分段。在這兩情況，該字已處理（與工作字串的開始相比較），而且一下一字可在步驟514取回。對於一工作字串而言，如果字典的所有字已與字串的開始相比較，迴路便可在步驟5 I 6結束。在步驟 5 2 8，既然該元件已完全處理，所以等候清單的目前所選取的元件便可從等候清單移除。在一包括的迴路中，尚未完全處理的所有工作字串可被處理。該等字串的其中每個是由在等候清單的元件表示。因此，在步驟5 3 0，它便可檢查該等候清單是否為空白。如果不是空白，該等候清單的下一元件便可當作在步驟512的目前主動元件選取。如果等候清單是空白，該最初的輸入字串便已完全分段（直到只有可能已知的字）。在步驟5 3 4，它可檢查結尾清單是否包括任何的登錄。如果沒有，在步驟5 3 6，它便可傳迴只有未成功的已知字的分段。如果結尾清單不是空白，在結尾清單的該等元件的其中每個表示一字序列。事實上，

第20頁 44838 1 五、發明說明（π) i該等元件是與字序列的最後一字有關1並且與該序列先前 |的字連結°此允許藉由在步驟540的由原路退回而取回字 |序列，該等連結的元件是從在結尾清單上的元件開始。在步驟538，一或多個字序列是在步驟542選取及傳回，而不是傳回所有識別的字序列。理想上，該選擇是基於路徑的可能性。最後，有利的是，一統計Ν字元語言模型是用於決定一最有可能的字序列。特別是，如果發生分段以改良一圖案辨識系統的字典及/或語言模型，該已存在的語言模型便可使用。理想上，一兩字元或三字元語言模型是用於一較大辭彙圖案辨識系統（例如超過1 〇，0 0 〇個登錄）。根據本發明，如果符合一預定標準，具不同長度的多數新字便可加入樹狀結構。在一具體實施例，該等新字是加入路徑的一或多個結尾節點，而該等路徑的對應字序列不 ί 合整個輸入字串。如圖5所述，該方法可用來建立一基本的樹狀結構。例如，如果隨出現沒有適當的分段可藉由使用已知的字找到，需要加入新字的節點便可只藉著經由樹狀的路徑而可簡單地放置，並且檢查該路徑的結尾節點是否符合輸入字串（亦即字符合及分段已到達輸入字串的結 !尾）的結尾。藉由使用圖5的技術，一雙連結便可在該等元件之間維持，一連結是用於將子節點連結至父節點（如先前所述），而且一額外連結可用於將父節點連結至子節 j點。以此方式，路徑便可從根開始經由該樹狀。對於一路丨徑的結尾節點而言，它然後可檢查一路徑的結尾節點是否 I是在結尾清單上。如果不存在，新的字便可加入結尾節

448381 ;五、發明說明（18) |點。同樣地，第三清單可引用，而不是經由該樹狀而追蹤路徑，表示對應結位節點的字串之一路徑結尾節點不是空 I的（亦即沒有已知的字符合其餘輸入字串的開始）。這可藉由在步驟5 2 8達成檢查至少一符合是否找到。如果沒有，該元件便可從等候清單放置在表示非完全分段的第三清單。只要該等節點已放置，新的字便可當作在樹狀的元件 I而建立及表示，將參考圖6而更詳細描述。藉著將械等元件放置在等候清單，其餘部份的樹狀便能以與圖5所述的知道字分段相同的方式建立。圖係顯示將該輸入串起分段的一較佳方法。在此具體 ! 實施例中，已知字的確認及新字的增加能以一在統合的方式發生。符合圖5的相同項目之項目可由與圖5所使用的相同數目表示。該等項目不進一步詳細描述。如果在步驟 5 1 6之後，所有的字符合工作字串的開始，在步驟61 0，一預定標準便可用來決定新的字是否需要增加。如果新的字需要增加，在步驟6 1 2，新字的一長度便可初始化（在此範例的初值是1 )設定。在步驟6 1 4，該長度的一字便可藉著 I複製來自字串開始的字元數目而建立。在與步驟520、 5 2 2、5 2 4、和5 2 6所述相同的方式，一對應的元件可在步 1 驟616建立，並且與字、父節點、及其餘的字串有關。該元件是放置在等候清單（步驟622 )或結尾清單（步驟62 0 )，其決定在該字串的結尾是否已到達。在步驟624，它可檢 I查多達最大長度κ的所有想要的新字是否已建立，κ是至少

I 1 2。如果未建立，在步驟626，該長度便會增加，而且在步

第22頁 4 483S 1 :五、發明說明（19)

I驟6 1 4的的一新字可建立。如果所有新的字已建立，該程序便可以在圖5的步驟5 2 8而挎續。對於亞洲的語言而言， K理想值可在3和6之間選取。如果此未造成成功的分段’ K I便可視狀況增加。 i 在根據本發明的一具體實施例中，在步驟6 1 0所測試的標準是有多少字符合工作字串的開始。這可藉由在步驟 5 2 0增加一計數器而實施，其是以如步驟5 1 2或5 1 3部份而重置。如果符合字的數目是低於一臨界，那麼新的字便可增加d有多少新字的加入是決定在發現符合的字數目，其中如果發現較少的符合，理想更多的新字便可增加。多虧 ί 於臨界可以是1時，造成如果已存在的字典沒有單一字符 !合與該節點有關的工作字串的開始相符合，便可造成新的字固定在樹狀的一節點。在另一具體實施例中，該標準是基於在一路徑的新字數目。這可藉由每次增量一計數器而達成，一新的字可在一路徑插入，並且該計數器是與該路徑的結尾元件有關。理想上，如果路徑已包括在一路徑的兩或三個新字，沒有更多的新字可加入路徑。然而，如果此方法不能成功達成分 j I段，在一路徑所允許新字的數目便可增加。 ! 在另一具體實施例中，該標準是基於字序列（並且經由樹狀而對應的路徑）的可能性。理想上，每個字序列的可能性便能以要建立的對應路徑計算。該累積的得儲存是與 !該路徑的結尾元件有關。如果當作步驟6 1 0的部份測試，可能便會低於一臨界，該路徑便不再延伸：沒有新的字會

第23頁 4 4838 1 五'發明說明（20) 加入到此路徑。有利地，可能的臨界是動態地建立，以確保一相對的順序。如果已有一或多個序列已識別（具一計算的可能性），只要序列具有一較高或類似可能，其他序列便可處理。理想上，一新的字一相對較低的可能，其中該可能性是決定在新字的長度。以此方式，一字序列的可能性便能以在序列的新字數目而減少。任何適當的可能性計算皆可使用。一新字的下列可能得分是較佳的：

Unknown_word_score = penalty + weight * [min_unigram 氺 char_no 氺 un i gr am_weight + Length_prob * length_weight]，其中 -pena丨ty是每個新字的一固定不利條件值， -weight是新字得分的一整體加權因素， -min_unigram 是所有已知字的最小發生頻率（單字模型）， -char_no是新字的字元數目， -unigram_weight是單字得分的一區域加權因素， -length_prob是此長度（長度分配可能性）的一字可能性 -length_weight是長度可能性的區域加權因素。 penalty與weight 參數可確保新字獲得比已知字的得分較低的分數。在根據本發明的進一步具體實施例，如果在步驟610決

I 1 1 ϊ®ί O:\61\61721.PTD 第24頁 44838 ;五'發明說明（21) 定沒有字符合該工作字串的開始，那麼此便視為在一先前點上發生一錯誤分段的一表示。例如，一符合已知的字可存在，然而實際上該等字元是部份的一新字。最後，該樹狀可由原路退回，理想上，只有一步驟，而且一或多個新字可加入在由原路退回期間所放置的該等節點。明顯地，如果該等字已加入，沒有新的字會增加。如果已找到在該位置上的數個符合的已知字，沒有新的字需要增加。在稍後的情況，可假設該等字的其中至少一字可導至一成功的序列。

第25頁

Claims

六、申請專利範圍 1 . 一種用以將一連接本文分段成字之方法，包括下列步驟：一讀取一表示該連接本文的輸入字串；一藉將該輸入字串與在一字典中的字相比較而識別在該輸入字串中至少一序列之單獨字；以及 —輸出該等識別字序列中至少一識別字序列；其特徵為該識別至少一字序列的步驟包括建立一樹狀結構. 而以下列步驟之反覆方式表示輸入字串中4的字序列；以該輸入字串作為一工作字串：對於一字典的每個字而言，將該字與該工作字串的一開始相比較；以及如果該字符合該工作字串的開始時：在表示該字的樹狀中形成一節點；將該節點與一最靠近該字末尾位置的一位置上開始的輸入字串結合；以及使用該工作字串之結合部份形成一子樹狀結構，連至該節點1以表示與該節點結合之輸入字串部份的字列、 2.如申請專利範圍第1項之方法，其中該方法包括下列步驟：依據一預定標準，確定新字是否加入該樹狀結構；如果要加入新字時：

第26頁 U83S *：、申請專利範圍在結合字之後形點結合的輸組成；為連至該選取結合的輸入 3. 如申請是否至少一串的字列，不佳時增加 4. 如申請結合字中選鑑別至少一樹狀結構的選擇節點。 5. 如申請一工作字串確定如果限時，決定在樹做為在後面該樹狀結構中選取至少一節點，該樹狀結構的將有新字；成複數個新字；每一個新字均符合與該選取節入字串部份起頭，並且是由不同數目之字元所每一個形成的新字形成一代表的子樹狀結構，的節點；每一子樹狀結構表示從該與選取節點字串部份中各自的新字起頭的字列。專利範圍第2項之方法，其中該方法包括檢查經由該樹狀結構之路徑代表一個符合該整個字其中該字列只包括字典的字；並決定如果結果新字。專利範圍第3項之方法，其中於該樹狀結構的取至少一節點以便在其後跟隨新字的步驟包括條經由代表一不符合該整個輸入字串之字列之路徑，並用該已鑑別之路徑的結尾節點做為該專利範圍第2項之方法，其中該方法包括為每字典有多少字符合該工作字串的起頭；符合該工作字串起頭的字典字數少於一預定界增加新字；以及狀結構的結合字中，選取與該工作字串之節點跟隨新字的節點。

第27頁 44838 ί 六、申請專利範圍 6. 如申請專利範圍第5項之方法，其中該界限是1。 7. 如申請專利範圍第2項之方法，其中該方法包括當建立該樹狀結構時，為每一字列計數該序列新字的數目，並於新字計算所得數超過一預定數時’停止沿一表示該字列之路徑擴張該樹狀結構。 8. 如申請專利範圍第2項之方法，其中該方法包括當建立該樹狀結構時，計算每一字列的一可能性，並於該對應字列的可能性低於一預定界限時，停止沿一表示該字列的路徑擴張該樹狀結構。 9. 如申請專利範圍第8項之方法，其中一字列的可能性隨字列新字數而減少。 10. 如申請專利範圍第2項之方法，其特徵為該形成新字的步驟包括形成一為數達Κ之字，其中K>1，每個字從該工作字串的起頭字母開始，並分別包括該工作字串一個至 K個起頭字母。 11. 如申請專利範圍第1項之方法，其特徵為該輸出該樹狀結構所表示的字列的至少一序列的該步驟包括經該樹狀結構選取該等路徑中的一路徑，其中僅有的路徑視為由一符合該輸入字串結尾的節點表示的一個字。 t 12. 如申請專利範圍第5項之方法，其特徵為該經由該樹狀結構而選取該等路徑中的一路徑之步驟包括根據一統 j計N字母語言模型而計算每個候選路徑的一可能性，其中 i N22，並且選取一最有可能的路徑。 ί 13. 一種用以將一連接本文分段成字之系統，該系統包

第28頁 44838 1 :六、申請專利範圍丨括： I 丨一用以讀取表示該連接本文的一輸入字串之裝置； —用以藉著將該輸入字串與在一字典中的字相比較 I而識別在該輸入字串中至少一序列的單獨字中之裝置；以及 —用以輸出該等識別字列中至少一識別字列之裝置；其特徵為用以識別至少一字列之裝置，可以操作以便建立一樹狀結構並以如下之重複方式表示該輸入字串之字歹1J ‘ 而以下列步驟之反覆方式表示輸入字串中之的字序列；將該輸入字串做為一工作字串：為一字典的每個字而言，將該字與該工作字串的起頭比較；以及如果該字符合該工作字串的起頭時：在表示該字的樹狀中形成一節點；將該節點與部份的輸入字串結合，該輸入字串從一緊接該字的一結尾之位置；以及藉由使用工作字串之結合部份，形成一子樹狀結構，連至該節點，以表示與該節點結合的部份輸入字 I串中的字列。

第29頁