TW540007B

TW540007B - Character recognition system

Info

Publication number: TW540007B
Application number: TW090121484A
Authority: TW
Inventors: Shinya Nakagawa
Original assignee: Hewlett Packard Co
Priority date: 2000-08-31
Filing date: 2001-08-30
Publication date: 2003-07-01
Also published as: CN1388947A; CN100501764C; WO2002019248A2; EP1314129A2; KR100843504B1; WO2002019248A9; EP1314129A4; KR20020081210A; WO2002019248A3; DE60128706T2; JP4674778B2; JP2002074268A; EP1314129B1; DE60128706D1

Description

-__ A7 ^------— 五、發明説明（1 ) ^ -- 登明背景之技術領斑本發明係有關於對如曰夕一日文、中文或韓文等具有夕個子元的語言進行字元辨識。技藝之說明對如日文、中文或韓文等具有多個字元之語言進行字元辨識的過程中，採用了-種方法，其係從 —輸入型態中抽取出特徵以抽取出-特徵向量、對該特徵向量與針對欲_之财目標字元先前進行抽取的參考向量之間的距離，並且選出對應於具有最小距離值之一參考向量的一字元作為一已辨識字元。曰本專利未審公開號Hei·· 2·18649〇便揭露一種系統，其藉由計算出介於自輸人字福型樣中抽取出之一向量與從先前儲存之目標字元的型樣中抽取出之參考向量之間的距離來執行字元辨識。在此系統中，將計算出介於輸入型樣之向量與參考向量之間的歐幾里德距離（Euclidean distance)，且比幸又該歐幾里德距離與一業已決定之臨界值以進行字元辨識。曰本專利未審公開號Hei· 4-286087揭露一種系統，其藉由從一輸入字元型樣中抽取出一特徵向量且计算出自儲存於一特徵字典中之一參考向量的 4 本紙張尺度適用中國國家標準（CNS) A4規格（21〇χ297公釐） 540007

五、發明説明（2 之 I成里德距離來進行字元辨識，且在系統中特徵字典將以個別相似字元類目來分成數個群集，而將計异出介於該輸入型樣之特徵向量與代表各個群集之參考向量之間的距離，且將對屬於具有最小距離一群集的相似字元參考向量進行詳細辨識處理。一般而言，在如日文、中文或韓文等含有多個子元的#言中’有相當多數特徵，例如，數百或數千種特徵將用來提昇辨識的準確度。在根據從對應於各個候選字元之一參考向量距離的字元辨識系統中，大致上所花費的計算時間係與候選字元數目及特徵數目成比例，因此辨識速度的降低將成為一個問。確切來說，以距離為例，有歐幾里德距離、 (請先閲讀背面之注意事项再填寫本頁) •裝丨 ·、-]1 _ 歐幾里德距離 m(Xj一 Γ|)2 加權歐幾里德距離 m Wi(Xi—n)2 城市街區距離其中： Σ|.Ί m 1 χ.— r. 1 Χ = (ΧΊ/...,Χγπ) :輸入型樣的特徵向量 Rj = (r"""，rjm) :第j個候選字元參考向量 W = (w…",wj •特徵的加權向量 m :特徵數目 n :目標字元數目在任一案例中，需要對照於個別特徵之距離元 (xi - r,·)2、1 x「r il進行計算nxm次，即（候選 :線丨本紙張尺度適用中國國家標準（CNS) M規格（210Χ297公釐）

字元數目）χ (特徵數目）次。在上述日本專利未審公開號Hei. 4-286087 中’歐幾里德距離的計算將限制在相似字元群集中，以提昇處理速度。然而，我們將預測很難適當地測定出一代表向量作為相似字元群集的選擇標準，且我們也將預測辨識準確度將依據代表向量的品質而降低。發明之概要說明本發明的目的之一是要在不會降低辨識準確度的狀況下能提昇字元辨識速度，甚至是在當具有許多候選字元的一種語言中，欲使用的特徵數量是相當大的狀況下。根據本發明的一方面，備置了一種字元辨識系統，其具有下列結構。即，在此字元辨識系統中，' 將藉由比較從一輸入型樣中抽取之一參考向量與先前儲存目標字元的參考向量之間的距離來進行字元的辨識，而所有字元將根據該目標字元的出現頻$ 來分成多個類別；本系統更包含用以儲存各個該類別之參考向量的一字典儲存裝置以及一電腦，且該電腦將被程式化以計算出該特徵向量與在該多個類別中屬於具有最高字元出現頻率之一類別之該多個字元的參考向量之間的距離，且，當一距離^二二對該類別所測定出之一類別臨界值時，該電腦將選 6 五、發明説明（4 ) 出對應於該距離之一參考向量的一字元作為一字元候選者。雖然將使用歐幾里德距離、加權歐幾里德，離、城市衔區距離或其他相似物來作為從參考：置的距離，此用語"距離"在此將被通用。將計算出目標字元的出現頻率作為來自一組以文^莫式表示之多數文件的統計資# (在此將稱為文字語料庫），例如過去的新聞文章，且本發明者 =針對各種語言從由大約兩千萬個字摘組成之文予語料庫中取得出現頻率且進行使用。根據本發月，所有字7L將根據目標字元的出現頻率來分成多個類別，而參考向量將針對各個該類別儲存於該字典中，且將計算出該特徵向量與在該多個類別中屬於具有最高字元出現頻率之一類別之該多個字元的參考向量之間的距離，且當一距離值滿足某一臨界值時，將選出該字元作為-字元候選者。根據發明者所得到的統計資料，例如以日本字而言，屬於出現頻率中最高出現頻率類別的382個字元占了文字語料庫的80%。因此，可預測的是在一份文件中，大約斯。的字元將包含在最高頻率類別的382 個字元中。本發明將使用如此的統計字元出現頻率。首先，只有屬於出現頻率中最高類別的一字元組將作為辨識目標，且當取得辨識結果時，將省略低出現頻率字元的韻處料程，以字元辨識過程的速度。事實上，將進行處理，以使該目標字元組 7 540007 A7 I五、發明説-- 可被分成多個目標字元組’且將省略針對低於具有已取得絕佳辨識結果之該目標字元組的—組目標字 7G組進行辨識處理。根據本發明之另一方面，當沒有距離小於該類別臨界值時，將計算出該特徵向量與具有第二高字 70出現頻率之-類別之該多個字元的參考向量之間㈣I並且當-距離小於針對該類別所測定出之 k⑽m界值時，該電腦將選出對應於該距離之 —參考向量的-字元作為一字元候選者。根據本發明的另-方面，為了能同樣地改善有關該參考向量中之—的距離計算速度，將進行一種冑由累_有該特徵的距離元件來計距離值的㈣’利用η個特徵元件的累積來計算出已累積距離值’（1)該累積距離值將與字元候選選擇臨界值進仃比較，（2)它並不大於該臨界值的話，將累積地計算下η個特徵元件的距離元件，而將重複％序（1)與（2),且當該累積距離值超過該字元候選選擇臨界值時，將判斷出該參考向量並不屬於候垃者，且將開始比較下一個參考向量，以縮短處理 | 時間。再者，根據本發明，藉由改變該累積距離元件的順序，根據該累積距離值來有效地省略距離一項距離計算程序。確切地，將使用所有目標字元的訓練型樣，取得有關個別特徵之距離元件的分散，並以其平均值的降冪順序來累積距離元件。以此種 —、.，張尺度適用中國國家標準（⑽）从規格（2歡四7公" '

t · (請先閲讀背面之注意事项再填寫本頁) t 發明説明（6 ) 方式來排序距離it件，本發明揭露了_種進行所有目標字it之參考向量之制排序的方法，以及一種以距離元件之分散平均的降冪順序來針對該各個參考向量進行排序的方法等。該特徵向㈣從所有目標字元的麟型樣中抽取出來，而例如以日文來說，該參考向量將籌置為數百個維度的-向量。當針對相關於所有字元之各個維度（這係指針對每個特徵）來觀察距離元件的分散時被觀察，所謂距離元件的平均是大的係意指維度特徵十分有助於增加全部的距離值。以正確字元來说，由於所預期的是距離值將會變小，我們可說類似這種的維度特徵為一種用以判斷出一字元較早並不屬於候選者的有效特徵。因此，針對所有構成參考向量之各個維度的距離元件平均係事先從訓練資料中抽取出來，且將籌置在其中以平均值之降冪順序來排序個別參考向量之特徵的向量。同樣有關於從輸入型樣中抽取出的特徵向量，將籌置以此順序排序的向量，且在參考向量及特徵向量的一項距離計算中，將此順序進行距離元件的累積。例如，首先，將計算出當中有高達50個維度之距離元件的一累積距離值，且若達到一臨界值時，將判斷出該此參考向量為不屬於候選者的一字元，且將開始比較下一個參考向量。藉由如此進行，由於可以不必計算出所有數百個維度的距離元件便能進行辨識五、發明説明（7 ) 處理，可以縮短辨識處理的時間。再者，根據本發明的另—方面，㈣腦將被程式化以動態性地収具有第m個（m為欲選出的字兀候選者的數目）最小距離值之—字元一距離值為一字元候選選擇臨界值。、、再者，根據本發明的另—方面，將包含用以提 :對任意字元具有相似相關性之字元的一相似字元字典’其中該電腦將被程式化以從該相似字元字典中取出相似於該個別字元的字元、以計算出欲辨識之該特徵向量與該相似字元之參考向量之間的距離、以排序該多個字元候選者的距離值以及該相似字元的距離值、並且以選出呈升幂距_序之-業已決定數量的字⑽為辨識字域選者。藉此當一正確字元存在於被省略之低頻率字域選類別二實例中’料能使該字元包含域選者巾作為一相似字元，且可抑制辨識準確度的降低。通示的簡要說明第1圖為-功能性方塊圖，其展示本發明之一實施例中一字元辨識系統中的完整結構。第2圖為一方塊圖，其用以解釋用於本發明之一實施例中之一字典的觀念。第3圖為一流程圖，其顯示用以從參考向量中選出一字元候選者作為類別1的一過程。 540007 五、發明説明（8 ) 第4圖為一流程圖，其顯示用以從參考向量中選出一字元候選者作為類別2的一過程。第5為一流程圖，其顯示用以從參考向量中選出一字元候選者作為類別3的一過程。第6圖為一流程圖，其顯示相似字元處理的一過程。較隹實施例_說明本發明的實施例接下來將對照圖式來進行詳細的說明。帛1 @為一功能性方塊圖，其展示本發明之一實施例中一字元辨識系統中的完整結構，以日文字元辨識系統為例。此系統藉由在一般用途個人電腦或工作站上的運作程式而實現。大致上，這種程式稱為OCR (光學字元辨識、〇ptica| Character Recognition)程式。系統中典型的輸入型樣為利用光學掃描機來掃描文件而取得的影像資料。當該輸入型樣被接收時，〇CR程式的字元分段部分11將從資料中分割出字元呈位元映像。字元分割本身為合併於習知OCR程式中的功能。被分割成字元單位的影像資料將被傳送一特徵抽取部分 12，而一字元線的斜度、寬度、曲率、區域與其他特徵將被抽取出來。在此實施例中，以日文來說，將針對一字元抽取出200個特徵。因此，該輸入形樣將藉由200個維度向量以下列算式表示，且本紙張尺度適用中國國家標準（CNS) A4規格（210X297公釐）五、發明說明（9 ) 將稱為一特徵向量。 [數字算式1] (X],父2，···，X200) 以此種方式抽取出的特徵向量將被傳送至一特徵排序部分13,將依據稍後將說明之平均距離的一元件列表來進行特徵的排序以產生一個新向量，它將被傳送至一字元候選選擇部分14,且將計算出有關於儲存在一參考字元字典15中之多個目標字元的各個參考向量的加權歐幾里德距離。在此，參考字元字典15將對照於第2圖來說明。將藉由針對該字元之不同類型與大小之一影像型樣的來抽取出特徵向量並對其進行平均，來取得有關某一字元的一參考向量。此時，將計算出各個特徵值的變化，且該變化將用來進行加權歐幾里德距離计算，其中該變化的反向將作為一加權係數。該方法本身已習知地被使用。所有目標字元的參考向量及加權向量均儲存於字典23中。將藉由使用子八23中儲存之參考向量上的所有訓練型樣來计出各個特徵元件的距離元件平肖，且將根據平均距離來籌置-列表24,其中特徵維度係以平均值之降冪順序來排序。健存於字典23中之個別參考向Ϊ與加權向量的個別特徵元件係依照距離元件平均值的降冪順相—列表⑽序。當距離元件平均值很大時’可預期的是候選字元中之特徵元件 12 540007

的距離元件值將變大。因此，在稍後解釋的距離計算過程中，距離計算將以距離元件平均的降幕順序來進行。於此，對於從該輸入型樣中抽取出的特徵向量，特徵元件將根據在特徵排序部分13的平均距離的特徵元件列表來排序。第2圖中的文字語料庫為一組文件，其為社會所大致使用且係以文字形式形成，且例如為從如線上新聞之資訊來源所儲存的文件。各個字元的出現頻率將從該組文件計算，且該字元將依照出現頻率來分成三個類別。依據發明者的觀察，中文、日文及韓文將利用由大約兩千萬個字元所組成之文字語料庫來分類，如下表顯示。 [表1] 1 ^ ?»J 1 類別2 P 類別3 字元數涵蓋比字元數/被累積字元數累積涵蓋比字元數/被累積字元數累蓋比中文 (簡體字元） 450 74.95% 1313/1 764 97.00% 2197/3961 99.89% 中文 (繁體字元） 407 75.00% 1344/1751 97.00% 2206/3957 99.80% 日文 382 80.01 % 1 126/1508 99.00% 1459/2967 99.96% 韓文 282 90.75% 940/1222 99.98% 1410/2632 99.95% 換言之，以日文來說，被分成類別1之最高出現頻率的382個字元中將佔有文字語料庫的 13 本紙張尺度適用中國國家標準（CNS) A4規格（210X297公釐） ........ ......裝·............. 訂..................緣 f請先閲讀背面之：疋意事¾再塡窝本頁j 540007 五、發明説明（彳1 ) 80·01 /〇’而當加入第二向出現頻率之類別2的】]% 個字元時，它們將佔有文字語料庫的99 〇〇%。再者，當加入了被分成類別3之低出現頻率的1459 個字元時，它們將佔有文字語料庫的99·96%。這思味著當建構具有約6000個高達j|s第二位準之字元的日文字元辨識系統時，即使當以其中之2967 個字7L為目標，不屬於候選者的字元比例最大只有〇·〇4 /。，且貫際傷害並不嚴重。此外，可理解的是，同樣在該2967個字元中，相當程度地依賴統計頻率。相似觀察亦發生在中文與韓文中。在本發明的實施例中，根據如上的觀察，包含在參考向量字典15中的參考向量將根據表]來分成的三個類別。從輸入型樣之特徵向量的距離計算中，首先，將針對類別Ί計算出關於個別參考字元的距離，且當參考向量具有相當小的距離時，即，一相當高近似值，辨識過程將結束於針對類別] 計算之有關參考向量的該項距離計算中，而將不針對類別2與類別3進行有關參考向量的該項距離計算。在此例中，距離計算被結束於有關382 參考向量的距離計算中，且將省略針對類別2 1 126個參考向量與類別3之]459個參考向量π 距離計算，以使針對特徵向量所進行之距離計算時間能大大地縮短。因著輸入型樣之特徵向量與針對類別]之個之的

(請先閲讀背面之注意事項再填寫本頁) -訂— 參· 540007

發明説明個參考向量的距離計算，當沒有具備夠小距離值的參考向1時，將進行針對類別2有關1508個參考向量的距離計算，且當具有夠小距離值的參考向量時，將結束針對類別2有關參考向量的距離計算， ^將不進行針對類別3有關參考向量的距離計算。藉此，可以縮短距離計算的時間。由於類別2中之字元將佔有文字語料庫的 99 /。，將可預測的是，無法藉由針對類別1與類別 2之有關向量向量的距離計算來在一適當字元候選者中找出既定文字中的1%字元。至於約1%的輸入型樣的特徵向量，針對類別3有關參考向量的距離計算將構透過針對類別1與類別2有關參考向量的距離計算來開始。如此一來，在針對類別一的參考向量中，具有小距離之—參考向量將被選出作一字元候選者。當一字元候選者由字元候選選擇部分14以此方式選出時，程序將針對相似字元前進至處理部分 16。針對相似字元的處理部分16將參照相似字元字典17以提昇字元辨識準確度。在此相似字元字典中，將針對各個該字元，來籌置進行字元辨識過程中容㈣干擾的-字元列表。當針對相似字元的處理部分16接收到一或多個來自字元候選部分來的字元候選者時，將針對各個字元候選者來參、相似字元字典以讀出相似字元，並讀出來自參考向 15 3 14 m (請先閲讀背面之注意事嚷再填寫本頁) 奉、¥ :線· 本紙張尺度適用中國國家標準（CNS) A4規格（210X297公釐） 540007 A7 Γ ----—-—__ 五、發明説明（13 ) 量字典15中之相似字元的參考向量。將计算出自輸入型樣中抽取出的特徵向量與多 :㈣字元的參考向量的距離，且將輸出一業已決 (數置的字兀作^在包含該字元候選者與相似字元之該組字元中距離之昇冪順序的最後字元候選者。在此，用語〃最後"係意指在距離計算之前結束的字元辨識階段。在實際字元辨識程式中，以下將執行稱為後處理的一項程序。後處理為一種用以根據上下文分析、相鄰關係分析、相鄰字元出現的可能性等來測定出字元候選者之先後順序的一種程序。由於後處理本身是習知使用的技術，將省略其詳細說明。類別1字元候霉選揼過释接下來’將對照第3圖來說明本發明實施例中之字元辨識系統的程序。該程序為針對類別1從一候選字元組中選出10個候選字元的過程^當藉由掃描器掃描文件而得到的輸入型樣被轉換至本發明實施例中之字元辨識程式（步驟3〇1)時，個別字元區域將被分割出字元切割部分1 1 (第1圖）中的圖像資料之外，且如上所敘述之特徵抽取方法將在有關於個別字元區域（步驟302)的特徵抽取部分12中（第Ί圖）進行。以此方式所抽取出的特徵向量將被傳送至特徵排序部分Ί3,且特徵將依據 16 本紙張尺度適用中國國家標準（CNS) Α4規格（210X297公釐）

、τ· (請先閲讀背面之注意事¾再填寫本頁) Φ, 五、發明説明（14 )

圖（步驟湖）中所說明之平均距離而於-特徵凡件列表中進行排序。接下來，所有維度上的10 個距離值將針對前1G個參考向量（㈣爛來計算出來’且臨界值Th將以此方式來設定為該1〇個距離值中的最高距離值（步驟314)。加權歐幾里德距離將用來作為該距離值，且加權歐幾里德距離將於下列算式2中的卜1JL扇來進行計算。隨後’：對類別1從參考向量字典15中所讀出的，考向1號碼I將設定為U ’變數的起始值將設疋為k 〇am==0(步驟3〇5)，包含在距離計算中之特徵向量與參考向量的維度j將為卜m + 50xk，且m可從ί變到5〇 (步驟3〇6)。如此一來，在維度1至50上介於該參考向量與該特徵向量之間的距離Di將由下列算式進行計算（步驟3〇7): [數字算式2]

D丨= Σνν) (X广 rj)2 (Hi 至 50) 在此’ Wj為根據第2圖中之參考向量字典23 所說明之各個該參考向量中之加權向量的各個元件。用語χ)係表示從輸入型樣抽取出之特徵向量的各個元件’且rj則表示為參考向量的各個元件。由算式2所取得值的平方根值可稱為加權歐幾里德距離值。在此，為了簡化的關係，取得平方根之間的數值將作為加權歐幾里德距離的標準值且稱作 17 本紙張尺度適用中國國家標準（CNS) M規格（21〇><297公釐）五、發明說明（15 一距離。當有關參考向量

Th(步驟321 距離A超過臨界值為該特徵向量的字合格作 =出是否針對類別，:之= 考向量的距離已經q w 蔣拗4· 束如果並未結束的話，i :曰大且有關τ個參考向量來(步驟307)。A將被β十算出值（Th)m 考量的距離Di為臨界或較小的話(步驟32”，將檢查

將達到200 (步驟3〇 J 將增大且右未達到200的話，k =驟3〇9)，且將計算__51至咖 2維度』的距離。如此一來，將、 Γ算距離，且將增加至先前當…50心的距離，且將計算出當卜1至⑽的距離Di。、因此’當Di超過Th時，1將透過步驟312來增大，且過程進行至與下個參考向量的比較階段。如果Di等於或小於Th時’k將進一步藉由步驟则而增大，且距離Di，即當卜1〇〇至15〇時的距離將被計算出來（步驟3〇7)。將重複此過程，且當j 達到達200 * D·為等於或小於Th的狀況時，即，如果當包含所有維度的距離Di等於或小於Th時，此時對應於參考向量的字元將被儲存於記憶體中作為變成系統之輸出的一候選者的字元候選（步驟 310)。在該記憶體中，過程中一開始提及的】〇個參考向量的距離值及字元碼將被儲存。新字元候選 18 五、發明説明（16 ) 者將輸出至該記憶體中，且具有先前儲存字元碼中最大距離值的字元將從記憶體中刪除。如此一來，在該記憶體中，該1G個字^候選者將依照距離的幵冪順序來儲存。隨後，在該1〇個字元候選的距離值中，最大距離值被設定為新臨界值Th (步驟 311)。因著與後續參考向量進行比較，當新字元候選者被傳遞至該記憶體時，在先前儲存於該記憶體内的1〇個字元候選者中，具有最大距離值的一字元候選者將從記憶體中刪除，且新字元候選者將增加至該記憶體中。隨後，將設定新Ί0個字元候選中最大距離值為臨界值Th。如此，在字元候選者數目達到1〇之後，用以在步驟307中進行判斷的臨界值將動態性地變化。在步驟312中，當滿足於U382，即，當針對類別1有關所有參考向量的距離計算結束時，將判斷出是否儲存於該記憶體中之該1〇個字元候選者的最小距離值Dbest小於先前針對類別]中字元候選選擇所設定的臨界值Thstagei(步驟318)。在此實她例中，丁hstage!將設定為，例如，1 20,〇〇〇。所謂存在著滿足於此狀況的字元候選者表示著具有夠高近似值的一字元候選者將在類別]之字元候選選擇處理中取得。a此，如此—來，儲存在該記憶體中的該10個字元候選者將轉移至相似字元處理部分16,且有關該輸入型樣的特徵向量的字元候選 19 五、發明説明（17 ) 選擇處理（14)將結束。羱別2字j候遘墀徉珥奸 2 當無法滿足㈣318的情況時，心從類別2 參考向1中選出字元候選者的過程將開始(步驟 3:〇)。類別2的選擇字元候選過程將對照第4圖來說明。現在，由於已經進行了日文字㈣識，將針對1126個目標字元來儲存參考向#與加權向量作為參考向量字典15中針對類別2的參考向量。當類別2的字元候選選擇過程開始時，起始設定將騎’使…、k = 〇且㈣(步驟502)，距離計算中特徵向量與參考向量的維度）將進行為 j = m + 50xk，m從ί變化至5〇 (步驟5〇3)，且將計算出介於第i項參考向量與由輸入型樣抽取出之特徵向量之間的距離值D| (步驟5〇4)。當距離值& 大於臨界值Th (步驟515)且i並未達到U1126 (步驟510)時，j將被增大（步驟511)，且程序將前進至有關下一個參考向量的距離值計算。當距離值Di等於或小於臨界值Th時，k將增大’距離值將針對下50個維度來計算，即，j = 5l 至Ί 00 ’且該數值將被加到先前針對j = 1至5〇所計算出的距離值中，以針對j = 1至Ί 〇〇來計算出距離值Dj。當距離值Di超過Th且i並未達·ι = 1126 (步驟510)時，i將增大且程序將前進至有關下一 20 家鮮⑽）峨格⑵⑽7公楚）五、發明説明（18 ) 個參考距離的距離計算（步驟51 1)。當D,·並未超過Th時，k將增大，j將增大至下50個維度，且將針對j = 1至1 50以相同方式來計算出距離值Di。當重複此過程且j達到200時，而Di並未超過Th (步驟505)的狀態下，對應於該參考向量的字元碼將被輸入至該記憶體中（步驟508)。在該記憶體中，將儲存在先前類別1字元候選選擇過程選出的字元候選者。如果字元候選數目到達1 〇，具有最高距離值的字元候選者將從記憶體中刪除，且將加入新字元候選者，以使字元候選者的數目能維持在 10。隨後，該10個字元候選者之距離值中最大距離值將成為為新臨界值Th (步驟509)。隨後’當參考向量通過步驟51 5的測試且輸入至該記憶體中時（步驟508)，將執行相似於上述字元候選者的置換，且該臨界值τ1ί將動態性地改變。當在步驟510中滿足於kn 26時，即，當字元候選選擇過程針對類別2所有ί 1 26個參考向量進行’將判斷出是否儲存於記憶體中之該1 〇個字元候選者的最小距離值將小於類別3的類別臨界值Thstage2 (步驟512)，且如果較小的話，字元候選選擇過程（14)將結束，且該10個字元候選將被轉移至相似字元處理部分】6 (第】圖）。在此實施例中’ ThStage2將被設定為，例如，大於Ths邮μ的 150,000。換言之，類別2之類別臨界值將比類別 21 本紙張尺度適财關家標準（⑽）Μ規格⑽\297公|) MO〇〇7 發明説明（19 ) 1的臨界值不明確。當未滿足步驟512的情況時， (請先閲讀背面之注意事項再填寫本頁) 程序將前進至有關類別3參考向量的字元候選選擇過程。蘧別3字元候遘墀棵通金 •訂. Φ, 第5圖為針對類別3有關1459個參考向量的字元候選選擇過程。步驟602至61〇相同於如第 4圖中的步驟502至510，除了步驟61〇中將針對類別3的參考向量的數字1459進行判斷之外。因此，將省略說明該等步驟。當在步驟61〇中滿足於i = 1459且將針對類別3所有M59個參考向量的字元候選選擇過程結束時，將結束字元候選選擇過程，且儲存於該記憶體中之1〇個字元候選將轉移至相似字元處理部分16。此時，當儲存於該記憶體中的字元候選者數目小於1〇時，所有字元候選者將轉移至相似字元處理部分彳6。接下來，將對照第6圖說明相似字元的處理。田第1圖中相似字元處理部分]6接收來自字元候選選擇部分Ί4的1G個字元候選者時，將參閱相似子元字典以找出各個該字元候選者，且讀出相似字元（步驟41)。將從參考向量字典15中讀出相似字元的參考向量與加權向量，且將計算從輸入型樣

、發明說明之雀抽取出之特徵向量的距離值（步驟42)。在計算出子所有靖出相似字元的加權歐幾里德距離後，將

Jjl ,γτ^Τ * ^ 一忒1 〇個字元候選者的距離值與該等相似字且個子元將依據距離值的昇冪順序來選出 (步驟43)。在以此方式取得之1〇個最後距離值中，將輸出具有最小距離值的字元作為已辨認字元，且將輸出剩下9個字元作為替代候選者。在此，儘管字元候選者的選擇僅根據有關目標字元之參考向量的比較來進行，但在字元候選選擇的中途階段，或是字元候選選擇的比較階段，可較佳地根據文字文法刀析、文字相互關係、字元間依賴關係等等來更改字元候選的優先順序，即，以進行所謂的後處理過程。作為OCR程式的輸出，將對使用者展示作為以此方法取得之最高順序字元組的文字。使用者可從文子上下文的OCR輸出中找出辨識錯誤。如此來，g使用者點選出錯誤字元時，將以拉下形式來展示9個取代字元，且當使用者點選出其中一時，將以該字元替代錯誤字元。雖然已在特定實施例中說明本發明，本發明不受到該等實施例的限制。 23 本紙張尺度適用中國國家標準（CNS) A4規格（210X297公爱）

五發明說明 21 11 ^ 元件標號對照表子元片段 12 特徵抽取 13 特徵排序 14 字元候選選擇 15 類別1之參考向量 16 相似字元處理 17 相似字元字典 21 訓練型樣 22 文字語料庫 23 參考向量、加權向量 24 依據平均距離的特徵元件列表 25 依據出現頻率的字元分類列表步驟41冑對該10個候選者中之各個，從相似字元字典中取出相似字元步驟42言十算出介於一特徵向量與個別相似字元向量的距離步驟43冑排序該1〇個候選者與相似字元的距離值、將依照距離的升冪順序來選出該個候選者，且它們將作為最終候選者步驟44輸出該1〇個最終候選者中具有最小距離值的一字元作為一已辨識字元，且輪出剩下的9個字元作為替代候選者步驟45 至後處理Ϊ6 24 發明説明（22 ) 步驟301輸入資料步騍302字元分割、特徵抽取步驟303根據變化依照特徵元件列表24中的特徵進行排序步驟304關於前10個參考向量的距離值計算步驟307有關第i個參考向量的距離值步驟310儲存，且1〇個字元候選者將依據距離的升冪順序來選出步驟311在該10個新候選者中最大距離值步驟314在該10個距離值中最大距離值—Th 步驟319 10個候選者將被傳送至相似字元處理步驟320至類別2 步驟504有關第i個參考向量之距離值ο,· 步驟508字元碼將儲存於一記憶體中，且】〇個字元候選者將依據距離的升冪順序選出步驟509在1 0個新候選者中的最大距離值^丁卜步驟51 3 1 0個候選者將被傳送至相似字元處理步驟514至類別3 步驟604有關第i個參考向量之距離值^ 步驟608字元碼將儲存於一記憶體中，且1 〇個字元候選者將依據距離的升幂順序選出步驟609在Ί0個新候選者中的最大距離值〜Th 步驟613 10個候選者將被傳送至相似字元處理

Claims

540007 A8 B8 C8 D8 六、申請專利範圍經濟部智慧財產局員工消費合作社印製 1. 一種字元辨識n其藉著比較從_輸入型樣抽取出之-特徵向量與先前儲存目標字元之參考向量之間的距離來進行字元辨識，其中所有字元將根據該目標字元出現的頻率來分類成夕個類別’更包含用以儲存各個該類別之參考向量的一字典儲存裝置以及一電腦，且該電腦將被程式化以計算出該特徵向量與在該多個類別中屬於具有t高字元出現頻率之一類別之該多個字元的參考向量之間的距離，且，當一距離小於針對該類別所測定出之-類別臨界值時，該電腦將選出對應於該距離之一參考向量的一字元作為一字元候選者。 2·如申請專利項之系統，其中當沒有距離小於該_臨界值時，該電腦將被程式化以計算出該特徵向量與具有第二高字元出現頻率之一類別之該多個字元的參考向量之間的距離，並且當一距離小於針對該類別所測定出之第二類別臨界值時，該電腦將選出對應於該距離之一參考向量的一字元作為一字元候選者。 3·如申請專利範圍帛，項之系統，其另包含指示出多個參考向量之特徵之平均距離順序的一列表，其中該電腦將被程式化，以使從該輸入型樣抽取出之該特徵向量的特徵將根據該列表以平均 (請先閱讀背面之注意事項再填寫本頁) 訂： .線. 26 540007 、申請專利範圍〇 1 局員工消距離的降冪順序來排序之後，首先對照於第η 個特徵之特徵且對照於該參考向量中之一來計算出有關該對應特徵的一距離，（1)距離將與一字元候選選擇臨界值來比較，（2)如果該距離並未大於臨界值的話，將計算包括下η個特徵的一距離，將重覆程序（1)與（2)，且當該距離超過該字元候選選擇臨界值時，將開始進行下一個參考向量的一項比較。 4·如申請專利範圍第3項之系統，其中當根據所有該特徵的一距離值並未超過該字元候選選擇臨界值時，該電腦將被程式化以儲存對應於該參考向量的一字元作為一記憶體中的一字元候選者，而該字元係為一項比較客體。 5. 如申請專利範圍第4項之系統，其中該電腦將被程式化以動態性地設定具有第m個最小距離值之一字元候選者的一距離值作為一字元候選選擇臨界值，而m係為欲選擇出之字元候選者的數量。 ' 6. 如申請專利範圍第5項之系統，其中該電腦將被程式化以使當有關屬於具有最高字元出現頻率之该類別之該參考向量的特徵向量距離計算完成時且當該等距離中之一個或多個距離小於針對該類別所測定出之一臨界值時，對應於具有從最小距離至第m個小距離之距離的=參考 27 線本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公爱 I 經濟部智慧財產局員工消費合作社印剩衣 540007 A8 B8 C8 ______ _ D8 六、申請專利範圍向量的m個字元將被選出作為字元候選者。 7.:申請專利範圍第！項之系統，其另包含用以提供對任意字元具有相似相關性之字元的一似字元字典，其中為回應於該多個字元候選者的選擇，該電腦將被程式化以從該相似字元字典中取出相似於該個別字元的字元、以計算Z 欲辨識之該特徵向量與該相似字元之參考向量之間的距離、以排序該多個字元候選者的距離值以及該相似字元的距離值、並且以選出呈升幕距離順序之一 S已決定數量时元作為辨識字元候選者。 8. 如申請專利範圍帛2項之系統，其中該電腦將被程式化以使當沒有距離小於針對具有第二高字元出現頻率之該類別的該類別臨界值時，計算出該特徵向量與屬於具有最三高字元出現頻率之一類別之該多個字元的該參考向量之間的距離，且當一距離小於針對該類別所測定出之一類別臨界值時，將選出對應於該距離之一參考向量的一字元作為一字元候選者。 9. 如申請專利範圍第2項之系統，其另包含用以提供對任意字元具有相似相關性之字元的一相似字元字典，其中為回應於該多個字元候選者的選擇’該電腦將被程式化以從該相似字元字典中取出相似於該個別字元的字元、以計算出

(請先閱讀背面之注意事項再填寫本頁) ---:---；--訂---------線»

本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐六、申請專利範圍 =之該特徵向量與該相似字元之參考向量值以及=似！排序該多個字元候選者的距離 u子兀的距離值、並且以輸出呈升 :::::之-業…數量的字元作為辨識一種字70辨識系統，其藉著比較從一輸入字兀t:型樣中抽取出之一特徵向量與先前儲存目軚子7G之參考向量之間的距離來進行字元辨識’其包含·· ^字典儲存裝置’其用以儲存指示出該平均距離之降②順序之資訊，而該資訊係藉由計算出夤上起過所有子元與該參考向量之該目標字 70的該參考向量特徵的平均距離值所籌畫出來；以及一電腦，經濟部智慧財產局員工消費合作社印製其中該電腦將被程式化以計算出該輸入型樣之該特徵向量與各個該多個參考向量之間的一距離、以在該計算出之距離值中設定一相對小距離作為一臨界值、當位於該範圍中之一距離值超出該臨界值時停止有關該參考向量的該項距離計算，並且以進行有關下一個參考向量的距離計算。 11.如申請專利範圍第1 0項之系統，其中當位於該中途範圍之該距離值並未超過該臨界值時，該電腦將計算捲入於第二中途範圍中之一距離 29 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐）六、申請專利範圍經濟部智慧財產局員工消費合作社印別衣值，並且當位於該第二超過該臨界值時關=之該距離值距離計瞀，、，^止有關該參考向量的該項離計算「 i且進行有關下-個參考向量的距 12.，種字元辨識系統，其藉著比較 η袖取出之-特徵向量與先心識「其考向量之間的距離來進行字元辨 I字典儲存裝置，其中所有字元將根據該目.標予几出現的頻率來分類成多個類別，且該參考向量將與分類資訊一同儲存；距離°十异構件’其用以計算出該特徵向量與在該多個類別中屬於具有最高字元出現頻率之一類別之該多個字元的參考向量之間的距離；以及選擇構件’其當該距離計算構件所計算出之有關屬於具有該最高字元出現頻率之該類別之_ 個或多個字元的距離小於—業已決定臨界值日寸，根據有關屬於具有該最高字元出現頻率之該類別之該字元的參考向量選出一字元候選者。 13· 一種字元辨識方法，其中所有字元將根據才示子元出現的頻率來分類成多個類別，將使備置有用以儲存各個該類別之該參考向 30 目用量之 —：丨丨：-------i^. (請先閱讀背面之注意事項再填寫本頁) i線- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） 540007 A8 B8 C8 D8 、申清專利範圍 I» 子/、儲存裳置的一電腦，且將比較從一輸入型樣中抽取出之一特徵向量與先前儲存目標字元之該參考向量之間的距離以進行字元辨識，該方法包含下列步驟： (a) 計算介於該特徵向量與屬於該多個類別中具有最高字元出現頻率之一類別之該多個字元的參考向量之間的距離；以及 (b) 當一距離小於針對該類別所測定出之一類別臨界值時，選擇對應於該距離之一參考向的一字元作為一候選字元者量經濟部智慧財- 產局_ 員工消費合作社印製 14·如申請專利範圍第13項之方法，其另包含以下步驟： (a) 當沒有距離小於該類別臨界值時，計算介於該特徵向量與屬於具有第二高字元出現頻率之一類別之該多個字元的參考向量之間的距離；以及 (b) 當一距離小於針對該類別所測定出之第二類 f臨界值時，選擇對應於該_之_參考向量的一子元作為一候選字元者。15.如f請專利範圍第13項之方法，其中將使用指不出多個參考向量之特徵的平均距離順序的一列表，且該方法另包含以下步驟： ⑷根據該列表以平均距離的降幂順序來排序從該輸入型樣抽取出之該特徵向量的特徵，且 — — — — — — — — — — — —— ·11111 I I ^ « — — — III — — (請先閱讀背面之注意事項再填寫本頁)

540007 A8 B8 C8 D8 、申請專利範圍隨後對照該參考向量中之一且對照於第门個特徵之特徵來計算有關對應特徵的一距離；以及 (b)當該距離超過一字元候選選擇臨界值時，重覆步驟（b-1)與（b-2)，並且開始進行下一個參考向量的一項比較， (b-1)比較該距離與該字元候選選擇臨界值；以及 (b-2)如果該距離不大於該臨界值的話，計算出包含下η個特徵之一距離。 16. 如申請專利範圍第15項之方法，其中當包含所有該特徵的一距離值並未超過該字元候選選擇臨界值時，將儲存對應於該參考向量的一字元作為-記憶體中的-字元候料，而該字元係為一項比較客體。線 17. 如中請專利範圍第16項之方法，其另包含動態性地設定具有第m個最小距離值之一字元候選者的一距離值作為-字元候選選擇臨界值的 —步驟’ @ m係為欲選擇出之字元㈣者的數二請—之方法⑹㈣屬於具有最高字元出現頻率之該類別之該參考向量的特徵向量距離計算完成時，且當該等距離中之-個或多個距離小於針對該類別所測定 32 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公爱） ^40007

申請專利範圍經濟部智慧財產局員工消費合作社印制取出之一臨界值時’對應於具有從最小距離至第個小距離之距離的該參考向量的m個字元將被選出作為字元候選者。 19·如申請專利範圍第項之方法，其中將使用用以提供對任意字元具有相似相關性之字元的一相似字元字典，且該方法將另包含以下步驟： (a) 為回應於該多個字元候選者的選擇，從該相似字TL字典中取出相似於該個別字元的字元； (b) 计异出欲辨識之該特徵向量與該相似字元之參考向量之間的距離； (c) 排序該多個字元候選者的距離值以及該相似字元的距離值； (d) 選出呈升冪距離順序之一業已決定數量的字元作為辨識字元候選者。 20.如申請專利範圍第14項之方法，其另包含以下步驟： (a) 當沒有距離小於針對具有第二高字元出現頻率之該類別的該類別臨界值時，計算出該特徵向量與屬於具有最三高字元出現頻率2一類別之該多個字元的該參考向量之間的距離；以及 (b) 當一距離小於針對該類別所測 η〜一顯別臨界值時，選出對應於該距離之—參考向量 _____________--------^---------^ (請先閱讀背面之注意事項再填寫本頁)

請先閱讀背面之注意事項再填寫本頁) 瞻· 540007 C8 --~--- D8_ 六、申請專利範圍的一子元作為一字元候選者。 21.如申請專利範圍第14項之方法，其中用以提供對任意字元具有相似相關性之字元的一相似纟S字纟，且該方法將另包含以下步驟： ⑷為回應於該多個字元候選者的選擇，從該相似子元子典中取出相似於該個別字元的字 =二且計算出欲辨識之該特徵向量與該相似子元之苓考向量之間的距離；以及 ⑹排序該多個字元候選者的距離值以及該相似字元的距離值，並且輸出呈升冪距離順序之一業已決定數量的字元作為辨識字元候選者。 22· —種用以儲存一字典的電腦可讀取紀錄媒體一中所有子元將根據目標字元出現的頻率來刀類成夕個類別，將針對各個該類別儲存參考向量，以及用以執行以下步驟的一種電腦： (a) 计异彳文一輸入型樣中抽取出之一特徵向量與在該多個類別中屬於具有最高字元出現頻率之一類別之該多個字元的參考向量之間的距離；以及； (b) 當一距離值小於針對具有該最高字元出現頻率之该類別所測定出之一類別臨界值時，選擇具有該距離之一參考向量的一字元作為一候選字元者。本紙張尺度適用中國國家標準(CNS)A4規格（210 > # 經濟部智慧財產局員工消費合作社印製 540007 經濟部智慧財產局員工消費合作社印製

、申清專利範圍 23·如_請專利範圍第22項之媒趙另包含以下步驟：該程式 ⑷當沒有距離小於該類別臨界值時，計算出該特徵向量與屬於具有最二高字元出現頻率: 一類別之該多個字元的該參考向量之間的距離；以及 (b)當一距離小於針對該類別所測定出之第二類別臨界值時，選出對應於該距離之一量的-字元作為一字元錢。參考向 24·一如申請專利範圍第22項之其另包含指不出多個參考向量之特徵的平__順序的一列表，其中該程式另包含以下步驟： (a) 根據該列表以平均距離的降冪順序來排序從該輸入型樣抽取出之該特徵向量的特徵，且隨後對照該參考向量中之一且對照於第η個特徵之特徵來計算有關對應特徵的一距離；以及 (b) 當該距離超過一字元候選選擇臨界值時，重覆步驟（b-Ί)與（b-2)，並且開始進行下一個參考向量的一項比較， (b-1)比較該距離與該字元候選選擇臨界值，以及 (b-2)如果邊距離不大於該臨界值的話，計算出包含下η個特徵之一距離。 35 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐）