TW540007B - Character recognition system - Google Patents

Character recognition system Download PDF

Info

Publication number
TW540007B
TW540007B TW090121484A TW90121484A TW540007B TW 540007 B TW540007 B TW 540007B TW 090121484 A TW090121484 A TW 090121484A TW 90121484 A TW90121484 A TW 90121484A TW 540007 B TW540007 B TW 540007B
Authority
TW
Taiwan
Prior art keywords
distance
character
characters
category
vector
Prior art date
Application number
TW090121484A
Other languages
English (en)
Inventor
Shinya Nakagawa
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Application granted granted Critical
Publication of TW540007B publication Critical patent/TW540007B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1912Selecting the most significant subset of features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Description

-__ A7 ^------— 五、發明説明(1 ) ^ -- 登明背景 之技術領斑 本發明係有關於對如曰 夕一 日文、中文或韓文等具有 夕個子元的語言進行字元辨識。 技藝之說明 對如日文、中文或韓文等具有多個字元之語言 進行字元辨識的過程中,採用了-種方法,其係從 —輸入型態中抽取出特徵以抽取出-特徵向量、對 該特徵向量與針對欲_之财目標字元先前進行 抽取的參考向量之間的距離,並且選出對應於具有 最小距離值之一參考向量的一字元作為一已辨識字 元。 曰本專利未審公開號Hei·· 2·18649〇便揭露一 種系統,其藉由計算出介於自輸人字福型樣中抽 取出之一向量與從先前儲存之目標字元的型樣中抽 取出之參考向量之間的距離來執行字元辨識。在此 系統中,將計算出介於輸入型樣之向量與參考向量 之間的歐幾里德距離(Euclidean distance),且比 幸又該歐幾里德距離與一業已決定之臨界值以進行字 元辨識。 曰本專利未審公開號Hei· 4-286087揭露一種 系統,其藉由從一輸入字元型樣中抽取出一特徵向 量且计算出自儲存於一特徵字典中之一參考向量的 4 本紙張尺度適用中國國家標準(CNS) A4規格(21〇χ297公釐) 540007
五、發明説明(2 之 I成里德距離來進行字元辨識,且在系統中特徵字 典將以個別相似字元類目來分成數個群集,而將計 异出介於該輸入型樣之特徵向量與代表各個群集之 參考向量之間的距離,且將對屬於具有最小距離 一群集的相似字元參考向量進行詳細辨識處理。 一般而言,在如日文、中文或韓文等含有多個 子元的#言中’有相當多數特徵,例如,數百或數 千種特徵將用來提昇辨識的準確度。在根據從對應 於各個候選字元之一參考向量距離的字元辨識系統 中,大致上所花費的計算時間係與候選字元數目及 特徵數目成比例,因此辨識速度的降低將成為一個 問。確切來說,以距離為例,有歐幾里德距離、 (請先閲讀背面之注意事项再填寫本頁) •裝丨 ·、-]1 _ 歐幾里德距離 m(Xj一 Γ|)2 加權歐幾里德距離 m Wi(Xi—n)2 城市街區距離 其中: Σ|.Ί m 1 χ.— r. 1 Χ = (ΧΊ/...,Χγπ) :輸入型樣的特徵向量 Rj = (r""",rjm) :第j個候選字元參考向量 W = (w…",wj •特徵的加權向量 m :特徵數目 n :目標字元數目 在任一案例中, 需要對照於個別特徵之距離元 (xi - r,·)2、1 x「r il進行計算nxm次,即(候選 :線丨 本紙張尺度適用中國國家標準(CNS) M規格(210Χ297公釐)
字元數目)χ (特徵數目)次。 在上述日本專利未審公開號Hei. 4-286087 中’歐幾里德距離的計算將限制在相似字元群集 中,以提昇處理速度。然而,我們將預測很難適當 地測定出一代表向量作為相似字元群集的選擇標 準,且我們也將預測辨識準確度將依據代表向量的 品質而降低。 發明之概要說明 本發明的目的之一是要在不會降低辨識準確度 的狀況下能提昇字元辨識速度,甚至是在當具有許 多候選字元的一種語言中,欲使用的特徵數量是相 當大的狀況下。 根據本發明的一方面,備置了一種字元辨識系 統,其具有下列結構。即,在此字元辨識系統中,' 將藉由比較從一輸入型樣中抽取之一參考向量與先 前儲存目標字元的參考向量之間的距離來進行字元 的辨識,而所有字元將根據該目標字元的出現頻$ 來分成多個類別;本系統更包含用以儲存各個該類 別之參考向量的一字典儲存裝置以及一電腦,且該 電腦將被程式化以計算出該特徵向量與在該多個類 別中屬於具有最高字元出現頻率之一類別之該多個 字元的參考向量之間的距離,且,當一距離^二二 對該類別所測定出之一類別臨界值時,該電腦將選 6 五、發明説明(4 ) 出對應於該距離之一參考向量的一字元作為一字元 候選者。雖然將使用歐幾里德距離、加權歐幾里德 ,離、城市衔區距離或其他相似物來作為從參考: 置的距離,此用語"距離"在此將被通用。 將計算出目標字元的出現頻率作為來自一組以 文^莫式表示之多數文件的統計資# (在此將稱為 文字語料庫),例如過去的新聞文章,且本發明者 =針對各種語言從由大約兩千萬個字摘組成之文 予語料庫中取得出現頻率且進行使用。根據本發 月,所有字7L將根據目標字元的出現頻率來分成多 個類別,而參考向量將針對各個該類別儲存於該字 典中,且將計算出該特徵向量與在該多個類別中屬 於具有最高字元出現頻率之一類別之該多個字元的 參考向量之間的距離,且當一距離值滿足某一臨界 值時,將選出該字元作為-字元候選者。根據發明 者所得到的統計資料,例如以日本字而言,屬於出 現頻率中最高出現頻率類別的382個字元占了文 字語料庫的80%。因此,可預測的是在一份文件 中,大約斯。的字元將包含在最高頻率類別的382 個字元中。本發明將使用如此的統計字元出現頻 率。首先,只有屬於出現頻率中最高類別的一字元 組將作為辨識目標,且當取得辨識結果時,將省略 低出現頻率字元的韻處料程,以字元辨識過程 的速度。事實上,將進行處理,以使該目標字元組 7 540007 A7 I五、發明説-- 可被分成多個目標字元組’且將省略針對低於具有 已取得絕佳辨識結果之該目標字元組的—組目標字 7G組進行辨識處理。 根據本發明之另一方面,當沒有距離小於該類 別臨界值時,將計算出該特徵向量與具有第二高字 70出現頻率之-類別之該多個字元的參考向量之間 ㈣I並且當-距離小於針對該類別所測定出之 k⑽m界值時,該電腦將選出對應於該距離之 —參考向量的-字元作為一字元候選者。 根據本發明的另-方面,為了能同樣地改善有 關該參考向量中之—的距離計算速度,將進行一種 冑由累_有該特徵的距離元件來計距離值 的㈣’利用η個特徵元件的累積來計算出已累 積距離值’(1)該累積距離值將與字元候選選擇臨 界值進仃比較,(2)它並不大於該臨界值的話,將 累積地計算下η個特徵元件的距離元件,而將重 複%序(1)與(2),且當該累積距離值超過該字元候 選選擇臨界值時,將判斷出該參考向量並不屬於候 垃者,且將開始比較下一個參考向量,以縮短處理 | 時間。再者,根據本發明,藉由改變該累積距離元 件的順序,根據該累積距離值來有效地省略距離一 項距離計算程序。確切地,將使用所有目標字元的 訓練型樣,取得有關個別特徵之距離元件的分散, 並以其平均值的降冪順序來累積距離元件。以此種 —、.,張尺度適用中國國家標準(⑽)从規格(2歡四7公" '
t · (請先閲讀背面之注意事项再填寫本頁) t 發明説明(6 ) 方式來排序距離it件,本發明揭露了_種進行所有 目標字it之參考向量之制排序的方法,以及一種 以距離元件之分散平均的降冪順序來針對該各個參 考向量進行排序的方法等。 該特徵向㈣從所有目標字元的麟型樣中抽 取出來,而例如以日文來說,該參考向量將籌置為 數百個維度的-向量。當針對相關於所有字元之各 個維度(這係指針對每個特徵)來觀察距離元件的 分散時被觀察,所謂距離元件的平均是大的係意指 維度特徵十分有助於增加全部的距離值。以正確字 元來说,由於所預期的是距離值將會變小,我們可 說類似這種的維度特徵為一種用以判斷出一字元較 早並不屬於候選者的有效特徵。因此,針對所有構 成參考向量之各個維度的距離元件平均係事先從訓 練資料中抽取出來,且將籌置在其中以平均值之降 冪順序來排序個別參考向量之特徵的向量。同樣有 關於從輸入型樣中抽取出的特徵向量,將籌置以此 順序排序的向量,且在參考向量及特徵向量的一項 距離計算中,將此順序進行距離元件的累積。例如, 首先,將計算出當中有高達50個維度之距離元件 的一累積距離值,且若達到一臨界值時,將判斷出 該此參考向量為不屬於候選者的一字元,且將開始 比較下一個參考向量。藉由如此進行,由於可以不 必計算出所有數百個維度的距離元件便能進行辨識 五、發明説明(7 ) 處理,可以縮短辨識處理的時間。 再者,根據本發明的另—方面,㈣腦將被程 式化以動態性地収具有第m個(m為欲選出的 字兀候選者的數目)最小距離值之—字元 一距離值為一字元候選選擇臨界值。 、、 再者,根據本發明的另—方面,將包含用以提 :對任意字元具有相似相關性之字元的一相似字元 字典’其中該電腦將被程式化以從該相似字元字典 中取出相似於該個別字元的字元、以計算出欲辨識 之該特徵向量與該相似字元之參考向量之間的距 離、以排序該多個字元候選者的距離值以及該相似 字元的距離值、並且以選出呈升幂距_序之-業 已決定數量的字⑽為辨識字域選者。藉此當 一正確字元存在於被省略之低頻率字域選類別二 實例中’料能使該字元包含域選者巾作為一相 似字元,且可抑制辨識準確度的降低。 通示的簡要說明 第1圖為-功能性方塊圖,其展示本發明之一 實施例中一字元辨識系統中的完整結構。 第2圖為一方塊圖,其用以解釋用於本發明之 一實施例中之一字典的觀念。 第3圖為一流程圖,其顯示用以從參考向量中 選出一字元候選者作為類別1的一過程。 540007 五、發明説明(8 ) 第4圖為一流程圖,其顯示用以從參考向量中 選出一字元候選者作為類別2的一過程。 第5為一流程圖,其顯示用以從參考向量中選 出一字元候選者作為類別3的一過程。 第6圖為一流程圖,其顯示相似字元處理的一 過程。 較隹實施例_說明 本發明的實施例接下來將對照圖式來進行詳細 的說明。帛1 @為一功能性方塊圖,其展示本發 明之一實施例中一字元辨識系統中的完整結構,以 日文字元辨識系統為例。此系統藉由在一般用途個 人電腦或工作站上的運作程式而實現。大致上,這 種程式稱為OCR (光學字元辨識、〇ptica| Character Recognition)程式。系統中典型的輸入型樣為利用 光學掃描機來掃描文件而取得的影像資料。 當該輸入型樣被接收時,〇CR程式的字元分段 部分11將從資料中分割出字元呈位元映像。字元 分割本身為合併於習知OCR程式中的功能。被分 割成字元單位的影像資料將被傳送一特徵抽取部分 12,而一字元線的斜度、寬度、曲率、區域與其 他特徵將被抽取出來。在此實施例中,以日文來說, 將針對一字元抽取出200個特徵。因此,該輸入 形樣將藉由200個維度向量以下列算式表示,且 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 五、發明說明(9 ) 將稱為一特徵向量。 [數字算式1] (X],父2,···,X200) 以此種方式抽取出的特徵向量將被傳送至一特 徵排序部分13,將依據稍後將說明之平均距離的 一元件列表來進行特徵的排序以產生一個新向量, 它將被傳送至一字元候選選擇部分14,且將計算 出有關於儲存在一參考字元字典15中之多個目標 字元的各個參考向量的加權歐幾里德距離。 在此,參考字元字典15將對照於第2圖來說 明。將藉由針對該字元之不同類型與大小之一影像 型樣的來抽取出特徵向量並對其進行平均,來取得 有關某一字元的一參考向量。此時,將計算出各個 特徵值的變化,且該變化將用來進行加權歐幾里德 距離计算,其中該變化的反向將作為一加權係數。 該方法本身已習知地被使用。所有目標字元的 參考向量及加權向量均儲存於字典23中。將藉由 使用子八23中儲存之參考向量上的所有訓練型樣 來计出各個特徵元件的距離元件平肖,且將根據 平均距離來籌置-列表24,其中特徵維度係以平 均值之降冪順序來排序。健存於字典23中之個別 參考向Ϊ與加權向量的個別特徵元件係依照距離元 件平均值的降冪順相—列表⑽序。當距離元件 平均值很大時’可預期的是候選字元中之特徵元件 12 540007
的距離元件值將變大。因此,在稍後解釋的距離計 算過程中,距離計算將以距離元件平均的降幕順序 來進行。於此,對於從該輸入型樣中抽取出的特徵 向量,特徵元件將根據在特徵排序部分13的平均 距離的特徵元件列表來排序。 第2圖中的文字語料庫為一組文件,其為社會 所大致使用且係以文字形式形成,且例如為從如線 上新聞之資訊來源所儲存的文件。各個字元的出現 頻率將從該組文件計算,且該字元將依照出現頻率 來分成三個類別。依據發明者的觀察,中文、日文 及韓文將利用由大約兩千萬個字元所組成之文字語 料庫來分類,如下表顯示。 [表1] 1 ^ ?»J 1 類別2 P 類別3 字元數 涵蓋比 字元數/被 累積字元數 累積涵 蓋比 字元數/被 累積字元數 累 蓋比 中 文 (簡體字 元) 450 74.95% 1313/1 764 97.00% 2197/3961 99.89% 中 文 (繁體字 元) 407 75.00% 1344/1751 97.00% 2206/3957 99.80% 日文 382 80.01 % 1 126/1508 99.00% 1459/2967 99.96% 韓文 282 90.75% 940/1222 99.98% 1410/2632 99.95% 換言之,以日文來說,被分成類別1之最高出 現頻率的382個字元中將佔有文字語料庫的 13 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) ........ ......裝·............. 訂..................緣 f請先閲讀背面之:疋意事¾再塡窝本頁j 540007 五、發明説明(彳1 ) 80·01 /〇’而當加入第二向出現頻率之類別2的】]% 個字元時,它們將佔有文字語料庫的99 〇〇%。再 者,當加入了被分成類別3之低出現頻率的1459 個字元時,它們將佔有文字語料庫的99·96%。這 思味著當建構具有約6000個高達j|s第二位準之 字元的日文字元辨識系統時,即使當以其中之2967 個字7L為目標,不屬於候選者的字元比例最大只有 〇·〇4 /。,且貫際傷害並不嚴重。此外,可理解的是, 同樣在該2967個字元中,相當程度地依賴統計頻 率。相似觀察亦發生在中文與韓文中。 在本發明的實施例中,根據如上的觀察,包含 在參考向量字典15中的參考向量將根據表]來分 成的三個類別。從輸入型樣之特徵向量的距離計算 中,首先,將針對類別Ί計算出關於個別參考字 元的距離,且當參考向量具有相當小的距離時,即, 一相當高近似值,辨識過程將結束於針對類別] 計算之有關參考向量的該項距離計算中,而將不針 對類別2與類別3進行有關參考向量的該項距離 計算。在此例中,距離計算被結束於有關382 參考向量的距離計算中,且將省略針對類別2 1 126個參考向量與類別3之]459個參考向量π 距離計算,以使針對特徵向量所進行之距離計算時 間能大大地縮短。 因著輸入型樣之特徵向量與針對類別]之 個 之 的
(請先閲讀背面之注意事項再填寫本頁) -訂— 參· 540007
發明説明 個參考向量的距離計算,當沒有具備夠小距離值的 參考向1時,將進行針對類別2有關1508個參考 向量的距離計算,且當具有夠小距離值的參考向量 時,將結束針對類別2有關參考向量的距離計算, ^將不進行針對類別3有關參考向量的距離計算。 藉此,可以縮短距離計算的時間。 由於類別2中之字元將佔有文字語料庫的 99 /。,將可預測的是,無法藉由針對類別1與類別 2之有關向量向量的距離計算來在一適當字元候選 者中找出既定文字中的1%字元。至於約1%的輸 入型樣的特徵向量,針對類別3有關參考向量的 距離計算將構透過針對類別1與類別2有關參考 向量的距離計算來開始。如此一來,在針對類別一 的參考向量中,具有小距離之—參考向量將被選出 作一字元候選者。 當一字元候選者由字元候選選擇部分14以此 方式選出時,程序將針對相似字元前進至處理部分 16。針對相似字元的處理部分16將參照相似字元 字典17以提昇字元辨識準確度。在此相似字元字 典中,將針對各個該字元,來籌置進行字元辨識過 程中容㈣干擾的-字元列表。當針對相似字元的 處理部分16接收到一或多個來自字元候選部分 來的字元候選者時,將針對各個字元候選者來參、 相似字元字典以讀出相似字元,並讀出來自參考向 15 3 14 m (請先閲讀背面之注意事嚷再填寫本頁) 奉 、¥ :線· 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 540007 A7 Γ ----—-—__ 五、發明説明(13 ) 量字典15中之相似字元的參考向量。 將计算出自輸入型樣中抽取出的特徵向量與多 :㈣字元的參考向量的距離,且將輸出一業已決 (數置的字兀作^在包含該字元候選者與相似字元 之該組字元中距離之昇冪順序的最後字元候選者。 在此,用語〃最後"係意指在距離計算之前結束的字 元辨識階段。在實際字元辨識程式中,以下將執行 稱為後處理的一項程序。後處理為一種用以根據上 下文分析、相鄰關係分析、相鄰字元出現的可能性 等來測定出字元候選者之先後順序的一種程序。由 於後處理本身是習知使用的技術,將省略其詳細說 明。 類別1字元候霉選揼過释 接下來’將對照第3圖來說明本發明實施例中 之字元辨識系統的程序。該程序為針對類別1從 一候選字元組中選出10個候選字元的過程^當藉 由掃描器掃描文件而得到的輸入型樣被轉換至本發 明實施例中之字元辨識程式(步驟3〇1)時,個別 字元區域將被分割出字元切割部分1 1 (第1圖)中 的圖像資料之外,且如上所敘述之特徵抽取方法將 在有關於個別字元區域(步驟302)的特徵抽取部 分12中(第Ί圖)進行。以此方式所抽取出的特徵 向量將被傳送至特徵排序部分Ί3,且特徵將依據 16 本紙張尺度適用中國國家標準(CNS) Α4規格(210X297公釐)
、τ· (請先閲讀背面之注意事¾再填寫本頁) Φ, 五、發明説明(14 )
圖(步驟湖)中所說明之平均距離而於-特 徵凡件列表中進行排序。接下來,所有維度上的10 個距離值將針對前1G個參考向量(㈣爛來計 算出來’且臨界值Th將以此方式來設定為該1〇 個距離值中的最高距離值(步驟314)。加權歐幾 里德距離將用來作為該距離值,且加權歐幾里德距 離將於下列算式2中的卜1JL扇來進行計算。 隨後’:對類別1從參考向量字典15中所讀出的 ,考向1號碼I將設定為U ’變數的起始值將設 疋為k 〇am==0(步驟3〇5),包含在距離計算中 之特徵向量與參考向量的維度j將為卜m + 50xk, 且m可從ί變到5〇 (步驟3〇6)。如此一來,在維 度1至50上介於該參考向量與該特徵向量之間的 距離Di將由下列算式進行計算(步驟3〇7): [數字算式2]
D丨= Σνν) (X广 rj)2 (Hi 至 50) 在此’ Wj為根據第2圖中之參考向量字典23 所說明之各個該參考向量中之加權向量的各個元 件。用語χ)係表示從輸入型樣抽取出之特徵向量 的各個元件’且rj則表示為參考向量的各個元件。 由算式2所取得值的平方根值可稱為加權歐幾里 德距離值。在此,為了簡化的關係,取得平方根之 間的數值將作為加權歐幾里德距離的標準值且稱作 17 本紙張尺度適用中國國家標準(CNS) M規格(21〇><297公釐) 五 、發明說明(15 一距離。當有關參考向量
Th(步驟321 距離A超過臨界值 為該特徵向量的字合格作 =出是否針對類別,:之= 考向量的距離已經q w 蔣拗4· 束 如果並未結束的話,i :曰大且有關τ個參考向量 來(步驟307)。A將被β十算出 值(Th)m 考量的距離Di為臨界 或較小的話(步驟32”,將檢查
將達到200 (步驟3〇 J 將增大且右未達到200的話,k =驟3〇9),且將計算__51至咖 2維度』的距離。如此一來,將、 Γ算距離,且將增加至先前當…50心 的距離,且將計算出當卜1至⑽的距離Di。 、因此’當Di超過Th時,1將透過步驟312來 增大,且過程進行至與下個參考向量的比較階段。 如果Di等於或小於Th時’k將進一步藉由步驟则 而增大,且距離Di,即當卜1〇〇至15〇時的距離 將被計算出來(步驟3〇7)。將重複此過程,且當j 達到達200 * D·為等於或小於Th的狀況時,即, 如果當包含所有維度的距離Di等於或小於Th時, 此時對應於參考向量的字元將被儲存於記憶體中作 為變成系統之輸出的一候選者的字元候選(步驟 310)。在該記憶體中,過程中一開始提及的】〇個 參考向量的距離值及字元碼將被儲存。新字元候選 18 五、發明説明(16 ) 者將輸出至該記憶體中,且具有先前儲存字元碼中 最大距離值的字元將從記憶體中刪除。如此一來, 在該記憶體中,該1G個字^候選者將依照距離的 幵冪順序來儲存。隨後,在該1〇個字元候選的距 離值中,最大距離值被設定為新臨界值Th (步驟 311)。因著與後續參考向量進行比較,當新字元候 選者被傳遞至該記憶體時,在先前儲存於該記憶體 内的1〇個字元候選者中,具有最大距離值的一字 元候選者將從記憶體中刪除,且新字元候選者將增 加至該記憶體中。隨後,將設定新Ί0個字元候選 中最大距離值為臨界值Th。 如此,在字元候選者數目達到1〇之後,用以 在步驟307中進行判斷的臨界值將動態性地變化。 在步驟312中,當滿足於U382,即,當針對類 別1有關所有參考向量的距離計算結束時,將判 斷出是否儲存於該記憶體中之該1〇個字元候選者 的最小距離值Dbest小於先前針對類別]中字元候 選選擇所設定的臨界值Thstagei(步驟318)。在此實 她例中,丁hstage!將設定為,例如,1 20,〇〇〇。所謂 存在著滿足於此狀況的字元候選者表示著具有夠高 近似值的一字元候選者將在類別]之字元候選選 擇處理中取得。a此,如此—來,儲存在該記憶體 中的該10個字元候選者將轉移至相似字元處理部 分16,且有關該輸入型樣的特徵向量的字元候選 19 五、發明説明(17 ) 選擇處理(14)將結束。 羱別2字j候遘墀徉珥奸 2 當無法滿足㈣318的情況時,心從類別2 參考向1中選出字元候選者的過程將開始(步驟 3:〇)。類別2的選擇字元候選過程將對照第4圖 來說明。現在,由於已經進行了日文字㈣識,將 針對1126個目標字元來儲存參考向#與加權向量 作為參考向量字典15中針對類別2的參考向量。 當類別2的字元候選選擇過程開始時,起始設定 將騎’使…、k = 〇且㈣(步驟502),距離 計算中特徵向量與參考向量的維度)將進行為 j = m + 50xk,m從ί變化至5〇 (步驟5〇3),且將 計算出介於第i項參考向量與由輸入型樣抽取出之 特徵向量之間的距離值D| (步驟5〇4)。當距離值& 大於臨界值Th (步驟515)且i並未達到U1126 (步 驟510)時,j將被增大(步驟511),且程序將前 進至有關下一個參考向量的距離值計算。 當距離值Di等於或小於臨界值Th時,k將增 大’距離值將針對下50個維度來計算,即,j = 5l 至Ί 00 ’且該數值將被加到先前針對j = 1至5〇所 計算出的距離值中,以針對j = 1至Ί 〇〇來計算出 距離值Dj。當距離值Di超過Th且i並未達·ι = 1126 (步驟510)時,i將增大且程序將前進至有關下一 20 家鮮⑽)峨格⑵⑽7公楚) 五、發明説明(18 ) 個參考距離的距離計算(步驟51 1)。當D,·並未超 過Th時,k將增大,j將增大至下50個維度,且 將針對j = 1至1 50以相同方式來計算出距離值Di。 當重複此過程且j達到200時,而Di並未超過Th (步 驟505)的狀態下,對應於該參考向量的字元碼將 被輸入至該記憶體中(步驟508)。在該記憶體中, 將儲存在先前類別1字元候選選擇過程選出的字 元候選者。如果字元候選數目到達1 〇,具有最高 距離值的字元候選者將從記憶體中刪除,且將加入 新字元候選者,以使字元候選者的數目能維持在 10。隨後,該10個字元候選者之距離值中最大距 離值將成為為新臨界值Th (步驟509)。 隨後’當參考向量通過步驟51 5的測試且輸入 至該記憶體中時(步驟508),將執行相似於上述 字元候選者的置換,且該臨界值τ1ί將動態性地改 變。當在步驟510中滿足於kn 26時,即,當字 元候選選擇過程針對類別2所有ί 1 26個參考向量 進行’將判斷出是否儲存於記憶體中之該1 〇個字 元候選者的最小距離值將小於類別3的類別臨界 值Thstage2 (步驟512),且如果較小的話,字元候選 選擇過程(14)將結束,且該10個字元候選將被轉 移至相似字元處理部分】6 (第】圖)。在此實施例 中’ ThStage2將被設定為,例如,大於Ths邮μ的 150,000。換言之,類別2之類別臨界值將比類別 21 本紙張尺度適财關家標準(⑽)Μ規格⑽\297公|) MO〇〇7 發明説明(19 ) 1的臨界值不明確。當未滿足步驟512的情況時, (請先閲讀背面之注意事項再填寫本頁) 程序將前進至有關類別3參考向量的字元候選選 擇過程。 蘧別3字元候遘墀棵通金 •訂. Φ, 第5圖為針對類別3有關1459個參考向量的 字元候選選擇過程。步驟602至61〇相同於如第 4圖中的步驟502至510,除了步驟61〇中將針對 類別3的參考向量的數字1459進行判斷之外。因 此,將省略說明該等步驟。當在步驟61〇中滿足 於i = 1459且將針對類別3所有M59個參考向量 的字元候選選擇過程結束時,將結束字元候選選擇 過程,且儲存於該記憶體中之1〇個字元候選將轉 移至相似字元處理部分16。此時,當儲存於該記 憶體中的字元候選者數目小於1〇時,所有字元候 選者將轉移至相似字元處理部分彳6。 接下來,將對照第6圖說明相似字元的處理。 田第1圖中相似字元處理部分]6接收來自字元候 選選擇部分Ί4的1G個字元候選者時,將參閱相 似子元字典以找出各個該字元候選者,且讀出相似 字元(步驟41)。將從參考向量字典15中讀出相似 字元的參考向量與加權向量,且將計算從輸入型樣
、發明說明 之 雀抽取出之特徵向量的距離值(步驟42)。在計算出 子所有靖出相似字元的加權歐幾里德距離後,將
Jjl ,γτ^Τ * ^ 一忒1 〇個字元候選者的距離值與該等相似字 且個子元將依據距離值的昇冪順序來選出 (步驟43)。 在以此方式取得之1〇個最後距離值中,將輸 出具有最小距離值的字元作為已辨認字元,且將輸 出剩下9個字元作為替代候選者。在此,儘管字 元候選者的選擇僅根據有關目標字元之參考向量的 比較來進行,但在字元候選選擇的中途階段,或是 字元候選選擇的比較階段,可較佳地根據文字文法 刀析、文字相互關係、字元間依賴關係等等來更改 字元候選的優先順序,即,以進行所謂的後處理過 程。 作為OCR程式的輸出,將對使用者展示作為 以此方法取得之最高順序字元組的文字。使用者可 從文子上下文的OCR輸出中找出辨識錯誤。如此 來,g使用者點選出錯誤字元時,將以拉下形式 來展示9個取代字元,且當使用者點選出其中 一時,將以該字元替代錯誤字元。 雖然已在特定實施例中說明本發明,本發明 不受到該等實施例的限制。 23 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公爱)
五 發明說明 21 11 ^ 元件標號對照表 子元片段 12 特徵抽取 13 特徵排序 14 字元候選選擇 15 類別1之參考向量 16 相似字元處理 17 相似字元字典 21 訓練型樣 22 文字語料庫 23 參考向量、加權向量 24 依據平均距離的特徵元件列表 25 依據出現頻率的字元分類列表 步驟41冑對該10個候選者中之各個,從相似 字元字典中取出相似字元 步驟42言十算出介於一特徵向量與個別相似字元 向量的距離 步驟43冑排序該1〇個候選者與相似字元的距 離值、將依照距離的升冪順序來選出該 個候選者,且它們將作為最終候選者 步驟44輸出該1〇個最終候選者中具有最小距 離值的一字元作為一已辨識字元,且輪 出剩下的9個字元作為替代候選者 步驟45 至後處理Ϊ6 24 發明説明(22 ) 步驟301輸入資料 步騍302字元分割、特徵抽取 步驟303根據變化依照特徵元件列表24中的特 徵進行排序 步驟304關於前10個參考向量的距離值計算 步驟307有關第i個參考向量的距離值 步驟310儲存,且1〇個字元候選者將依據距離 的升冪順序來選出 步驟311在該10個新候選者中最大距離值 步驟314在該10個距離值中最大距離值—Th 步驟319 10個候選者將被傳送至相似字元處理 步驟320至類別2 步驟504有關第i個參考向量之距離值ο,· 步驟508字元碼將儲存於一記憶體中,且】〇個 字元候選者將依據距離的升冪順序選出 步驟509在1 0個新候選者中的最大距離值^丁卜 步驟51 3 1 0個候選者將被傳送至相似字元處理 步驟514至類別3 步驟604有關第i個參考向量之距離值^ 步驟608字元碼將儲存於一記憶體中,且1 〇個 字元候選者將依據距離的升幂順序選出 步驟609在Ί0個新候選者中的最大距離值〜Th 步驟613 10個候選者將被傳送至相似字元處理

Claims (1)

  1. 540007 A8 B8 C8 D8 六、申請專利範圍 經濟部智慧財產局員工消費合作社印製 1. 一種字元辨識n其藉著比較從_輸入型樣 抽取出之-特徵向量與先前儲存目標字元之參 考向量之間的距離來進行字元辨識,其中 所有字元將根據該目標字元出現的頻率來分類 成夕個類別’更包含用以儲存各個該類別之參 考向量的一字典儲存裝置以及一電腦,且 該電腦將被程式化以計算出該特徵向量與在該 多個類別中屬於具有t高字元出現頻率之一類 別之該多個字元的參考向量之間的距離,且, 當一距離小於針對該類別所測定出之-類別臨 界值時,該電腦將選出對應於該距離之一參考 向量的一字元作為一字元候選者。 2·如申請專利項之系統,其中當沒有距 離小於該_臨界值時,該電腦將被程式化以 計算出該特徵向量與具有第二高字元出現頻率 之一類別之該多個字元的參考向量之間的距 離,並且當一距離小於針對該類別所測定出之 第二類別臨界值時,該電腦將選出對應於該距 離之一參考向量的一字元作為一字元候選者。 3·如申請專利範圍帛,項之系統,其另包含指示 出多個參考向量之特徵之平均距離順序的一列 表, 其中該電腦將被程式化,以使從該輸入型樣抽 取出之該特徵向量的特徵將根據該列表以平均 (請先閱讀背面之注意事項再填寫本頁) 訂: .線. 26 540007 、申請專利範圍 〇 1 局 員 工 消 距離的降冪順序來排序之後,首先對照於第η 個特徵之特徵且對照於該參考向量中之一來計 算出有關該對應特徵的一距離,(1)距離將與 一字元候選選擇臨界值來比較,(2)如果該距 離並未大於臨界值的話,將計算包括下η個特 徵的一距離,將重覆程序(1)與(2),且當該距 離超過該字元候選選擇臨界值時,將開始進行 下一個參考向量的一項比較。 4·如申請專利範圍第3項之系統,其中當根據所 有該特徵的一距離值並未超過該字元候選選擇 臨界值時,該電腦將被程式化以儲存對應於該 參考向量的一字元作為一記憶體中的一字元候 選者,而該字元係為一項比較客體。 5. 如申請專利範圍第4項之系統,其中該電腦將 被程式化以動態性地設定具有第m個最小距離 值之一字元候選者的一距離值作為一字元候選 選擇臨界值,而m係為欲選擇出之字元候選者 的數量。 ' 6. 如申請專利範圍第5項之系統,其中該電腦將 被程式化以使當有關屬於具有最高字元出現頻 率之该類別之該參考向量的特徵向量距離計算 完成時且當該等距離中之一個或多個距離小於 針對該類別所測定出之一臨界值時,對應於具 有從最小距離至第m個小距離之距離的=參考 27 線 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱 I 經濟部智慧財產局員工消費合作社印剩衣 540007 A8 B8 C8 ______ _ D8 六、申請專利範圍 向量的m個字元將被選出作為字元候選者。 7.:申請專利範圍第!項之系統,其另包含用以 提供對任意字元具有相似相關性之字元的一 似字元字典,其中為回應於該多個字元候選者 的選擇,該電腦將被程式化以從該相似字元字 典中取出相似於該個別字元的字元、以計算Z 欲辨識之該特徵向量與該相似字元之參考向量 之間的距離、以排序該多個字元候選者的距離 值以及該相似字元的距離值、並且以選出呈升 幕距離順序之一 S已決定數量时元作為辨識 字元候選者。 8. 如申請專利範圍帛2項之系統,其中該電腦將 被程式化以使當沒有距離小於針對具有第二高 字元出現頻率之該類別的該類別臨界值時,計 算出該特徵向量與屬於具有最三高字元出現頻 率之一類別之該多個字元的該參考向量之間的 距離,且當一距離小於針對該類別所測定出之 一類別臨界值時,將選出對應於該距離之一參 考向量的一字元作為一字元候選者。 9. 如申請專利範圍第2項之系統,其另包含用以 提供對任意字元具有相似相關性之字元的一相 似字元字典,其中為回應於該多個字元候選者 的選擇’該電腦將被程式化以從該相似字元字 典中取出相似於該個別字元的字元、以計算出
    (請先閱讀背面之注意事項再填寫本頁) ---:---;--訂---------線»
    本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐 六、申請專利範圍 =之該特徵向量與該相似字元之參考向量 值以及=似!排序該多個字元候選者的距離 u子兀的距離值、並且以輸出呈升 :::::之-業…數量的字元作為辨識 一種字70辨識系統,其藉著比較從一輸入字 兀t:型樣中抽取出之一特徵向量與先前儲存 目軚子7G之參考向量之間的距離來進行字元辨 識’其包含·· ^字典儲存裝置’其用以儲存指示出該平均距 離之降②順序之資訊,而該資訊係藉由計算出 夤上起過所有子元與該參考向量之該目標字 70的該參考向量特徵的平均距離值所籌畫出 來;以及一電腦, 經濟部智慧財產局員工消費合作社印製 其中該電腦將被程式化以計算出該輸入型樣之 該特徵向量與各個該多個參考向量之間的一距 離、以在該計算出之距離值中設定一相對小距 離作為一臨界值、當位於該範圍中之一距離值 超出該臨界值時停止有關該參考向量的該項距 離計算,並且以進行有關下一個參考向量的距 離計算。 11.如申請專利範圍第1 0項之系統,其中當位於 該中途範圍之該距離值並未超過該臨界值時, 該電腦將計算捲入於第二中途範圍中之一距離 29 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 六、申請專利範圍 經濟部智慧財產局員工消費合作社印別衣 值,並且當位於該第二 超過該臨界值時關=之該距離值 距離計瞀,、,^止有關該參考向量的該項 離計算「 i且進行有關下-個參考向量的距 12.,種字元辨識系統,其藉著比較 η袖取出之-特徵向量與先心 識「其考向量之間的距離來進行字元辨 I字典儲存裝置,其中所有字元將根據該目.標 予几出現的頻率來分類成多個類別,且該參考 向量將與分類資訊一同儲存; 距離°十异構件’其用以計算出該特徵向量與在 該多個類別中屬於具有最高字元出現頻率之一 類別之該多個字元的參考向量之間的距離;以 及 選擇構件’其當該距離計算構件所計算出之有 關屬於具有該最高字元出現頻率之該類別之_ 個或多個字元的距離小於—業已決定臨界值 日寸,根據有關屬於具有該最高字元出現頻率之 該類別之該字元的參考向量選出一字元候選 者。 13· 一種字元辨識方法,其中所有字元將根據 才示子元出現的頻率來分類成多個類別,將使 備置有用以儲存各個該類別之該參考向 30 目 用 量之 —:丨丨:-------i^. (請先閱讀背面之注意事項再填寫本頁) i線- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 540007 A8 B8 C8 D8 、申清專利範圍 I» 子/、儲存裳置的一電腦,且將比較從一輸入型 樣中抽取出之一特徵向量與先前儲存目標字元 之該參考向量之間的距離以進行字元辨識,該 方法包含下列步驟: (a) 計算介於該特徵向量與屬於該多個類別中具 有最高字元出現頻率之一類別之該多個字元 的參考向量之間的距離;以及 (b) 當一距離小於針對該類別所測定出之一類別 臨界值時,選擇對應於該距離之一參考向 的一字元作為一候選字元者 量 經 濟 部 智 慧 財- 產 局_ 員 工 消 費 合 作 社 印 製 14·如申請專利範圍第13項之方法,其另包含以 下步驟: (a) 當沒有距離小於該類別臨界值時,計算介於 該特徵向量與屬於具有第二高字元出現頻率 之一類別之該多個字元的參考向量之間的距 離;以及 (b) 當一距離小於針對該類別所測定出之第二類 f臨界值時,選擇對應於該_之_參考向 量的一子元作為一候選字元者。15.如f請專利範圍第13項之方法,其中將使用 指不出多個參考向量之特徵的平均距離順序的 一列表,且該方法另包含以下步驟: ⑷根據該列表以平均距離的降幂順序來排序從 該輸入型樣抽取出之該特徵向量的特徵,且 — — — — — — — — — — — —— ·11111 I I ^ « — — — III — — (請先閱讀背面之注意事項再填寫本頁)
    540007 A8 B8 C8 D8 、申請專利範圍 隨後對照該參考向量中之一且對照於第门個 特徵之特徵來計算有關對應特徵的一距離; 以及 (b)當該距離超過一字元候選選擇臨界值時,重 覆步驟(b-1)與(b-2),並且開始進行下一 個參考向量的一項比較, (b-1)比較該距離與該字元候選選擇臨界值; 以及 (b-2)如果該距離不大於該臨界值的話,計算 出包含下η個特徵之一距離。 16. 如申請專利範圍第15項之方法,其中當包含 所有該特徵的一距離值並未超過該字元候選選 擇臨界值時,將儲存對應於該參考向量的一字 元作為-記憶體中的-字元候料,而該字元 係為一項比較客體。 線 17. 如中請專利範圍第16項之方法,其另包含動 態性地設定具有第m個最小距離值之一字元候 選者的一距離值作為-字元候選選擇臨界值的 —步驟’ @ m係為欲選擇出之字元㈣者的數 二請—之方法⑹㈣ 屬於具有最高字元出現頻率之該類別之該參考 向量的特徵向量距離計算完成時,且當該等距 離中之-個或多個距離小於針對該類別所測定 32 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱) ^40007
    申請專利範圍 經濟部智慧財產局員工消費合作社印制取 出之一臨界值時’對應於具有從最小距離至第 個小距離之距離的該參考向量的m個字元將 被選出作為字元候選者。 19·如申請專利範圍第項之方法,其中將使用 用以提供對任意字元具有相似相關性之字元的 一相似字元字典,且該方法將另包含以下步驟: (a) 為回應於該多個字元候選者的選擇,從該相 似字TL字典中取出相似於該個別字元的字 元; (b) 计异出欲辨識之該特徵向量與該相似字元之 參考向量之間的距離; (c) 排序該多個字元候選者的距離值以及該相似 字元的距離值; (d) 選出呈升冪距離順序之一業已決定數量的字 元作為辨識字元候選者。 20.如申請專利範圍第14項之方法,其另包含以 下步驟: (a) 當沒有距離小於針對具有第二高字元出現頻 率之該類別的該類別臨界值時,計算出該特 徵向量與屬於具有最三高字元出現頻率2一 類別之該多個字元的該參考向量之間的距 離;以及 (b) 當一距離小於針對該類別所測 η〜一顯別 臨界值時,選出對應於該距離之—參考向量 _____________--------^---------^ (請先閱讀背面之注意事項再填寫本頁)
    請先閱讀背面之注意事項再填寫本頁) 瞻· 540007 C8 --~--- D8_ 六、申請專利範圍 的一子元作為一字元候選者。 21.如申請專利範圍第14項之方法,其中 用以提供對任意字元具有相似相關性之字元的 一相似纟S字纟,且該方法將另包含以下步驟: ⑷為回應於該多個字元候選者的選擇,從該相 似子元子典中取出相似於該個別字元的字 =二且計算出欲辨識之該特徵向量與該相似 子元之苓考向量之間的距離;以及 ⑹排序該多個字元候選者的距離值以及該相似 字元的距離值,並且輸出呈升冪距離順序之 一業已決定數量的字元作為辨識字元候選 者。 22· —種用以儲存一字典的電腦可讀取紀錄媒 體一中所有子元將根據目標字元出現的頻率 來刀類成夕個類別,將針對各個該類別儲存參 考向量,以及用以執行以下步驟的一種電腦: (a) 计异彳文一輸入型樣中抽取出之一特徵向量與 在該多個類別中屬於具有最高字元出現頻率 之一類別之該多個字元的參考向量之間的距 離;以及; (b) 當一距離值小於針對具有該最高字元出現頻 率之该類別所測定出之一類別臨界值時,選 擇具有該距離之一參考向量的一字元作為一 候選字元者。 本紙張尺度適用中國國家標準(CNS)A4規格(210 > # 經濟部智慧財產局員工消費合作社印製 540007 經濟部智慧財產局員工消費合作社印製
    、申清專利範圍 23·如_請專利範圍第22項之媒趙 另包含以下步驟: 該程式 ⑷當沒有距離小於該類別臨界值時,計算出該 特徵向量與屬於具有最二高字元出現頻率: 一類別之該多個字元的該參考向量之間的距 離;以及 (b)當一距離小於針對該類別所測定出之第二類 別臨界值時,選出對應於該距離之一 量的-字元作為一字元錢。參考向 24·一如申請專利範圍第22項之其另包含指 不出多個參考向量之特徵的平__順序的一 列表,其中該程式另包含以下步驟: (a) 根據該列表以平均距離的降冪順序來排序從 該輸入型樣抽取出之該特徵向量的特徵,且 隨後對照該參考向量中之一且對照於第η個 特徵之特徵來計算有關對應特徵的一距離; 以及 (b) 當該距離超過一字元候選選擇臨界值時,重 覆步驟(b-Ί)與(b-2),並且開始進行下一 個參考向量的一項比較, (b-1)比較該距離與該字元候選選擇臨界值, 以及 (b-2)如果邊距離不大於該臨界值的話,計算 出包含下η個特徵之一距離。 35 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)
TW090121484A 2000-08-31 2001-08-30 Character recognition system TW540007B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000262096A JP4674778B2 (ja) 2000-08-31 2000-08-31 文字認識システム

Publications (1)

Publication Number Publication Date
TW540007B true TW540007B (en) 2003-07-01

Family

ID=18749827

Family Applications (1)

Application Number Title Priority Date Filing Date
TW090121484A TW540007B (en) 2000-08-31 2001-08-30 Character recognition system

Country Status (7)

Country Link
EP (1) EP1314129B1 (zh)
JP (1) JP4674778B2 (zh)
KR (1) KR100843504B1 (zh)
CN (1) CN100501764C (zh)
DE (1) DE60128706T2 (zh)
TW (1) TW540007B (zh)
WO (1) WO2002019248A2 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1305003C (zh) 2003-09-29 2007-03-14 摩托罗拉公司 用户界面上的书写标记识别
CN1619583B (zh) * 2003-11-20 2010-05-05 摩托罗拉公司 手写识别的方法和系统
CN1308889C (zh) * 2003-11-28 2007-04-04 佳能株式会社 字符识别方法和装置
CN101645134B (zh) * 2005-07-29 2013-01-02 富士通株式会社 整体地名识别方法和整体地名识别装置
JP5020513B2 (ja) * 2006-01-11 2012-09-05 シャープ株式会社 パターン認識装置、パターン認識方法、パターン認識プログラム、および記録媒体
KR100641791B1 (ko) 2006-02-14 2006-11-02 (주)올라웍스 디지털 데이터에 대한 태깅 방법 및 시스템
JP5239419B2 (ja) * 2008-03-14 2013-07-17 オムロン株式会社 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造
KR100921689B1 (ko) * 2008-05-08 2009-10-15 엔에이치엔(주) 언어 인식을 이용하여 이종의 언어를 포함하는 문서의문자를 분할하기 위한 방법, 시스템 및 컴퓨터 판독 가능한기록 매체
CN101593278B (zh) * 2008-05-27 2013-01-16 佳能株式会社 文档图像的语言判别方法和系统
NZ589039A (en) * 2009-09-24 2013-04-26 Nec Corp Recognition of a word image with a plurality of characters by way of comparing two possible candidates based on an evaluation value
CN102129560B (zh) * 2010-01-18 2013-11-06 富士通株式会社 字符识别的方法和设备
JP6003492B2 (ja) * 2012-10-01 2016-10-05 富士ゼロックス株式会社 文字認識装置及びプログラム
CN103761477A (zh) * 2014-01-07 2014-04-30 北京奇虎科技有限公司 一种病毒程序样本的获取方法和设备
CN106557766B (zh) * 2016-11-22 2020-05-19 宇龙计算机通信科技(深圳)有限公司 模糊字符处理方法、系统及电子设备
KR20200010777A (ko) * 2018-07-23 2020-01-31 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. 유사 문자의 과거 인식 결과를 이용하는 문자 인식
CN111507400B (zh) * 2020-04-16 2023-10-31 腾讯科技(深圳)有限公司 应用分类方法、装置、电子设备以及存储介质
CN111783766B (zh) * 2020-07-10 2023-02-14 上海淇毓信息科技有限公司 一种分步识别图像字符的方法、装置和电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4589142A (en) * 1983-12-28 1986-05-13 International Business Machines Corp. (Ibm) Method and apparatus for character recognition based upon the frequency of occurrence of said characters
JPS6282486A (ja) 1985-10-08 1987-04-15 Hitachi Ltd オンライン手書き図形認識装置
US4773099A (en) 1985-10-10 1988-09-20 The Palantir Corporation Pattern classification means for use in a pattern recognition system
EP0498978A1 (en) 1991-02-13 1992-08-19 International Business Machines Corporation Mechanical recognition of characters in cursive script
US5479523A (en) * 1994-03-16 1995-12-26 Eastman Kodak Company Constructing classification weights matrices for pattern recognition systems using reduced element feature subsets
JP2986074B2 (ja) 1995-07-26 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 近傍点検出方法及びパターン認識装置
US6345119B1 (en) * 1996-02-19 2002-02-05 Fujitsu Limited Handwritten character recognition apparatus and method using a clustering algorithm
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
JPH10143613A (ja) * 1996-10-30 1998-05-29 Hewlett Packard Co <Hp> パタン認識方法
SG98366A1 (en) * 1997-07-11 2003-09-19 Matsushita Electric Ind Co Ltd Recording medium of character data of full text and character string collating apparatus

Also Published As

Publication number Publication date
CN1388947A (zh) 2003-01-01
CN100501764C (zh) 2009-06-17
WO2002019248A2 (en) 2002-03-07
EP1314129A2 (en) 2003-05-28
KR100843504B1 (ko) 2008-07-04
WO2002019248A9 (en) 2002-07-11
EP1314129A4 (en) 2005-06-01
KR20020081210A (ko) 2002-10-26
WO2002019248A3 (en) 2002-05-16
DE60128706T2 (de) 2008-01-24
JP4674778B2 (ja) 2011-04-20
JP2002074268A (ja) 2002-03-15
EP1314129B1 (en) 2007-05-30
DE60128706D1 (de) 2007-07-12

Similar Documents

Publication Publication Date Title
TW540007B (en) Character recognition system
US8266179B2 (en) Method and system for processing text
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN108536868B (zh) 社交网络上短文本数据的数据处理方法及装置
CN108897754B (zh) 基于大数据的工单类型的识别方法、系统和计算设备
JP2006252333A (ja) データ処理方法、データ処理装置およびそのプログラム
CN111767390A (zh) 技能词评估方法及装置、电子设备、计算机可读介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
JP5049965B2 (ja) データ処理装置及び方法
JP5117744B2 (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
CN111898378A (zh) 政企客户的行业分类方法和装置、电子设备、存储介质
CN109284384B (zh) 文本分析方法、装置、电子设备及可读存储介质
CN112395881A (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
JP2004240488A (ja) 文書管理装置
CN114416977A (zh) 文本难度分级评估方法及装置、设备和存储介质
CN111061924A (zh) 词组提取方法、装置、设备和存储介质
CN113468339A (zh) 基于知识图谱的标签提取方法、系统、电子设备及介质
JP5164876B2 (ja) 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
CN112686045B (zh) 文本错误检测模型的评测方法及装置
CN117493532B (zh) 文本处理方法、装置、设备以及存储介质
CN112990177B (zh) 基于电子卷宗文件的分类编目方法、装置及设备
CN112989814B (zh) 检索图谱构建方法、检索方法、装置、设备及存储介质
CN108334567B (zh) 垃圾文本判别方法、装置及服务器
JP4291782B2 (ja) 対訳対抽出装置
US20190005432A1 (en) Evaluation apparatus and evaluation method

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent